La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Infraestructura: CPUs

Presentaciones similares


Presentación del tema: "Infraestructura: CPUs"— Transcripción de la presentación:

0 Resource Center de EGEE
k Javier Sánchez, Santiago González Jornadas Técnicas de RedIris Toledo, 25/10/2004 IFIC Instituto de Física Corpuscular CSIC-Universitat de València

1 Infraestructura: CPUs
134 PCs en 6 racks formato 2U (117 en EGEE) CPU: 67 Athlon 1.2 GHz 67 Athlon 1.4 GHz RAM: 1 Gbytes HD: 40 Gbytes ~2 Gbytes Linux RH 7.3 Resto para trabajos NIC: FastEthernet (100 Mbps) 25-Oct-2004 IRISGRID-EGEE

2 Infraestructura: CPUs
8 Intel servers CPU: Pentium 3.2 GHz RAM: 1 Gbytes HD: 120 Gbytes NIC: Gigabit + FastEthernet 25-Oct-2004 IRISGRID-EGEE

3 Almacenamiento: CASTOR
CASTOR: CERN Advanced STORage Manager Es un HSM desarrollado en el CERN cuyo objetivo es manejar los datos de LHC en un entorno distribuido. Actualmente el CERN almacena en este sistema ~ 2 PBytes de datos experimentales en ~ cintas Gestiona el espacio en disco y la migración automática de ficheros entre los servidores de disco y las cintas. El usuario maneja un espacio virtual de ficheros, ej.: /castor/ific.uv.es/grid/atlas/datafiles/… El acceso nativo a los ficheros se hace usando un protocolo llamado RFIO. 25-Oct-2004 IRISGRID-EGEE

4 Almacenamiento: CASTOR
1 2 4 3 25-Oct-2004 IRISGRID-EGEE

5 Almacenamiento: CASTOR
Servicios CASTOR PC para espacio de nombres y gestión de volúmenes nsdaemon Cupvdaemon vdqmserv vmgrdaemon mysqld PC para la gestión de espacio de disco (stager) Cdbserver stgdaemon rfiod 1 2 25-Oct-2004 IRISGRID-EGEE

6 Almacenamiento: CASTOR
Servidores de disco para CASTOR 4 servidores ( 4TBytes ) 2 x Intel 2.8 GHz 2 x Ethernet Gigabit 2 x 3ware Serial ATA Raid Controller 12 x HD 160 Gbytes o 200 Gbytes En 6 RAID1 (mirror) por parejas 3 25-Oct-2004 IRISGRID-EGEE

7 Almacenamiento: CASTOR
Librería de cintas 140 TBytes STK L700e 700 slots 4 x drives HP LTO2 (200GB/nativo, 400GB comp.) Interface Fibre Channel para los drives, SCSI para el control de la robótica 25-Oct-2004 IRISGRID-EGEE

8 Almacenamiento: CASTOR
Servidores de cinta para CASTOR 2 servidores para la lectura/escritura de las cintas 2 x Intel 2.8 GHz 2 x Ethernet Gigabit 1 x qla2300 fibre channel HBA Cada servidor está asociado a 2 lectores del robot Interconectados a traves de un switch de FC 4 25-Oct-2004 IRISGRID-EGEE

9 Almacenamiento: CASTOR
Servidores de cinta para CASTOR PC para el control de la robótica Recibe las peticiones de montaje, desmontaje e inventario de los dos servidores de cinta 4 25-Oct-2004 IRISGRID-EGEE

10 Red Red 22/23 PCs con FastEthernet de cada rack se conectan en conmutadores con enlace de subida de gigabit. Los servidores de disco y los de cinta se conectan a un switch gigabit ethernet. Ambos se conectan al backbone de la “nave experimental” del IFIC a GigabitEthernet que a su vez que conecta con el conmutador del campus de Burjassot-Paterna de la Unversidad de Valencia 10Gigabit. 25-Oct-2004 IRISGRID-EGEE

11 EGEE Servicios básicos LCFGng: Sistema de instalación y configuración
CE: Computing Element Gestor de batch (PBS) Gatekeeper de Globus EDG Workload Manager UI: User Interface Herramientas de envío de trabajos de EDG SE: Storage Element Versión modificada de gridftp para proporcionar acceso a castor. WN: Worker Node MON: RGMA monitoring system 25-Oct-2004 IRISGRID-EGEE

12 EGEE Servicios suplementarios RB: Resource broker
BDII: Berkley Database Information Index MyProxy: Proxy delegation service VO server: Servidor de VO para la federación SWE Servicios dedicados para ATLAS RB BDII UI 25-Oct-2004 IRISGRID-EGEE

13 EGEE Servicio Número de servidores EGEE general 9 EGEE dedicado 3
EGEE WN 117 Castor Serv. Disco 4 Serv. Cinta 2 Control 25-Oct-2004 IRISGRID-EGEE

14 LHC (CERN) Mont Blanc, 4810 m Ginebra 25-Oct-2004 IRISGRID-EGEE

15 LHC (CERN) 25-Oct-2004 IRISGRID-EGEE

16 El reto de la computación en LHC (CERN)
25-Oct-2004 IRISGRID-EGEE

17 El reto de la computación en LHC (CERN)
Tres de los cuatro experimentos generarán del orden del PB, de datos brutos cada año durante un periodo de 10 años. La frecuencia de lectura de los detectores ATLAS y CMS se espera que sea de 100 Hz y el tamaño de datos brutos para cada suceso es de 1 MB. Investigadores repartidos por todo el mundo. El reto tecnológico es suministrar un acceso rápido a muestras del tamaño del TB y un acceso rápido a los recursos de cálculo distribuidos por el mundo, para posibilitar el trabajo de análisis. 25-Oct-2004 IRISGRID-EGEE

18 Colaboración ATLAS 34 países 150 institutos y universidades
1850 físicos 25-Oct-2004 IRISGRID-EGEE

19 Calendario de los ATLAS Data Challenge
DC1 ( ) Primer test del software del detector (Instalación Manual) Simulación de los datos Reconstrucción Sistema de producción no automatizado Herramientas (bookkeeping; monitoring; …) Uso del Grid (30%) DC2 (Verano 2004) Nuevo software del detector (Instalación remota) Sistema de producción automatizado Uso del GRID 100% (LCG, GRID3 y NorduGrid) Test del Modelo de Computing DC3 (Primavera 2006) Test finales antes de la toma real de datos 25-Oct-2004 IRISGRID-EGEE

20 ATLAS-DC2 DC2 se componen de tres partes: parte I: Producción de los datos simulados (Julio-Septiembre 2004) corriendo en el “Grid” A lo largo de todo el mundo parte II: Ejercicio del Tier-0 (Noviembre 2004) Hacer en 10 días lo que se debería hacer en 1 día de toma real de datos Input son los “Raw Data” output (ESD+AOD) los cuales se distribuirán a los Tier-1s en tiempo real para el análisis parte III: test del análisis distribuido utilizando el Grid (Nov.-Dic. 2004) Acceder a los datos desde cualquier lugar del mundo de una forma caótica u organizada. Algunos datos de esta fase ~30 Canales de Física ( 10 Millones de sucesos) ~50 Institutos/Universidades a lo largo de todo el mundo ~35 TB 25-Oct-2004 IRISGRID-EGEE

21 Sistema de Producción de ATLAS
Totalmente automatizado, componentes: Supervisor: Windmill (US) Obtener los trabajos a partir de la base de datos de producción Enviar los trabajos a uno de los “executors” Realizar el registro final en caso que todo funcione bien Executors (uno por Grid o “legacy batch”) : Traduce las definiciones de neutras a un lenguaje específico (en nuestro caso JDL) Capone (Grid3) (US) Dulcinea (NorduGrid) (Escandinavia) Lexor (LCG) (Italia) “Legacy systems” (Alemania-FZK; Francia-Lyon) Data Management System (DMS): Don Quijote (CERN) Permite el registro y la movilidad transparente de datos entre los diferentes grid utilizados por ATLAS. Bookkeeping: AMI (Atlas Metada Interface) (LPSC-Grenoble) Base de datos de producción (Oracle) Definición y estado de los trabajos 25-Oct-2004 IRISGRID-EGEE

22 Sistema de Producción de ATLAS
prodDB AMI dms Don Quijote Windmill super super super super super soap jabber jabber jabber soap LCG exe LCG exe NG exe G3 exe LSF exe Capone Dulcinea Lexor RLS RLS RLS LCG NG Grid3 LSF IFIC-Valencia 25-Oct-2004 IRISGRID-EGEE

23 ATLAS DC2 Fase I Empezó a principios de Julio y todavía corriendo
Se utilizan los tres “sabores” de Grid: LCG ( The job of the LHC Computing Grid Project – LCG – is to prepare the computing infrastructure for the simulation, processing and analysis of LHC data for all four of the LHC collaborations. This includes both the common infrastructure of libraries, tools and frameworks required to support the physics application software, and the development and deployment of the computing services needed to store and process the data, providing batch and interactive facilities for the worldwide community of physicists involved in LHC. NorduGrid ( The aim of the NorduGrid collaboration is to deliver a robust, scalable, portable and fully featured solution for a global computational and data Grid system. NorduGrid develops and deploys a set of tools and services – the so-called ARC middleware, which is a free software. Grid3( The Grid3 collaboration has deployed an international Data Grid with dozens of sites and thousands of processors. The facility is operated jointly by the U.S. Grid projects iVDGL, GriPhyN and PPDG, and the U.S. participants in the LHC experiments ATLAS and CMS. IFIC Valencia 25-Oct-2004 IRISGRID-EGEE

24 LCG middleware LCG-1 fue (hasta Feb 2004):
VDT (Globus 2.2.4) (proyecto americano) EDG WP1 (Resource Broker) (European DataGrid) EDG WP2 (Herramientas de Replica Management) GLUE 1.1 (Information schema) + unas pocas extensiones esenciales de LCG LCG modificaciones: Modificación de los Job managers para evitar problemas en el sistema de ficheros compartidos MDS – BDII Mejoras al Globus gatekeeper necesarias para LCG Corrección de bugs de EDG y Globus/VDT LCG-2 es una actualización y mejora de LCG1 (desde Junio 2004): Nuevo VDT (Globus 2.4.3) Mantenimiento del Workload Management Mantenimiento y mejora del Data Management Mejoras en la monitorización de los centros con GridICE Middleare es libre y se puede coger de su repositorio de CVS LCG-2 correrá hasta la primavera de 2005 Después el middleware a utilizar vendrá del EGEE 25-Oct-2004 IRISGRID-EGEE

25 Integración LCG-EGEE LCG-2 (=EGEE-0) 2004 2005 LCG-3 EGEE-1
Les Robertson CERN-IT GDB meeting Julio LCG-2 focus on production, large-scale data handling The service for the 2004 data challenges Provides experience on operating and managing a global grid service Development programme driven by data challenge experience Data handling Strengthening the infrastructure Operation, VO management Evolves to LCG-3 as components progressively replaced with new middleware -- target is to minimise the discontinuities of migration to the new generation Aim for migration plan by end of year gLite focus on analysis Developed by EGEE project in collaboration with VDT (US) LHC applications and users closely involved in prototyping & development (ARDA project) Short development cycles Co-existence with LCG-2 Profit as far as possible from LCG-2 infrastructure, experience  Ease deployment – avoid separate hardware As far as possible - completed components integrated in LCG-2  improved testing, easier displacement of LCG-2 LCG-2 (=EGEE-0) 2004 prototyping prototyping product 2005 product LCG-3 EGEE-1 25-Oct-2004 IRISGRID-EGEE

26 Sitios en Grid3 28 centros, multi-VO comparten recursos ~2000 CPUs
dynamic – roll in/out 25-Oct-2004 IRISGRID-EGEE

27 NorduGrid & Co. Recursos:
7 paises: CPUs para ATLAS: ~3280 “Storage Elements” para ATLAS: 10 Capacidad: ~14 TB, compartido 25-Oct-2004 IRISGRID-EGEE

28 Centros en LCG-2 Federación Suroeste 25-Oct-2004 IRISGRID-EGEE
ROMA1 22 Paises 58 Institutos: (45 Europeos, 2 US, 5 Canadá, 5 Asia, 1 HP) en el futuro: Nueva Zelanda, China, otros HP (Brasil, Singapur) 3800 cpu 25-Oct-2004 IRISGRID-EGEE

29 ATLAS DC2 Fase I Principales problemas encontrados: Para todos los Grids Debugging el sistema de Producción En LCG y GRID se corren varios “supervisores” (En el IFIC corremos uno) para mejorar la estabilidad del sistema. Esto hace más difícil controlar el sistema producción. Respuesta lenta de la Base de Datos de producción. LCG Mala configuración de algunos centros; Sistema de Información (información errónea o no publicada); Servicio de envío de trabajos (JSS) y el Resource Broker. Data management (copia & registro); Stage in/out NorduGrid Replica Location Service (Globus) modificado a mano varias veces por dia Mala configuración de algunos centros Acceso a la base de datos de producción Grid3 Data Management - RLS Replica Location Service Problemas con las distribución del software Load on gatekeepers Problemas con los certificados (abortando algunos trabajos) Colaboración con los desarrolladores del middleware en los distintos “sabores” Grids para resolver los problemas. 25-Oct-2004 IRISGRID-EGEE

30 ATLAS DC2 Fase I Problemas relacionados con la configuración de los sitios Responsable de la mayoría de los problemas ocurridos durante los DC2 Lista no completa de los problemas: La variable VO <VO> SW DIR apunta a un área de los WN la cual no existe. En el área dedicada para instalar el software del experimento, los responsables de instalar lo (ESM) no tienen permiso. Mala información publicada en el Sistema de Información (Glue Object Classes not linked) Los límites temporales de las colas publicados en minutos en vez de segundos y no normalizados Firewall Ficheros con las CA no instalados propiamente Problemas con NFS (home directories ó el área para los ESM) Perfiles equivocados para los usuarios Los discos de los Elementos de Almacenamiento (SE ) no “migrados” adecuadamente Problemas técnicos con la configuración de algunos componentes del middleware No existe en estos momentos un método eficiente para detectar estos fallos En el caso de Lexor, este executor incluye métodos para detectar problemas de configuración en los nodos de producción (WN) 25-Oct-2004 IRISGRID-EGEE

31 ATLAS DC2 (CPU) 25-Oct-2004 IRISGRID-EGEE

32 Distribución de trabajos en LCG
PIC-Barcelona IFIC-Valencia Uni. Aut. Madrid 25-Oct-2004 IRISGRID-EGEE

33 Para poder enviar los trabajos
IFIC en los DC2 Desde Agosto participamos en la Validación del sistema de producción Se instaló el “executor” Lexor para el cual se han dedicado 3 máquinas: User Interface, donde se instala Lexor Resource Broker BDII Lexor es el mecanismo por el cual se envían trabajos de ATLAS a los centros con el middleware de LCG instalado. El IFIC está contribuyendo en correr, validar y mejorar Lexor. Utilizamos SQuirrel (SQL Client) para poder ver la estructura de la base de datos de producción de ATLAS Programa gráfico en Java Permite utilizar los comandos de SQL Para poder enviar los trabajos 25-Oct-2004 IRISGRID-EGEE

34 Acabados correctamente
IFIC en los DC2 Trabajos enviados por Lexor en Valencia (7/10/2004) a todos los sitios de ATLAS en LCG 1135 Fallados 8325 Acabados correctamente 167 Pendientes 227 Corriendo 96 Enviados 25-Oct-2004 IRISGRID-EGEE

35 Conclusiones EL IFIC esta operando una infraestructura de producción dentro de EGEE 117 WNs 4 TBytes de capacidad de disco en EGEE 140 TBytes de capacidad de almacenamiento en cinta Participa en los retos de datos (DC2) de ATLAS Proporcionando recursos dentro de EGEE Corriendo una instancia del ejecutor de ATLAS Proporciona los servicios de VO para la región Suroeste de EGEE (ver presentación de Alvaro Fernández) 25-Oct-2004 IRISGRID-EGEE


Descargar ppt "Infraestructura: CPUs"

Presentaciones similares


Anuncios Google