La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Javier Sánchez, Santiago González Jornadas Técnicas de RedIris Toledo, 25/10/2004 Resource Center de EGEE k IFIC Instituto de Física Corpuscular CSIC-Universitat.

Presentaciones similares


Presentación del tema: "Javier Sánchez, Santiago González Jornadas Técnicas de RedIris Toledo, 25/10/2004 Resource Center de EGEE k IFIC Instituto de Física Corpuscular CSIC-Universitat."— Transcripción de la presentación:

1 Javier Sánchez, Santiago González Jornadas Técnicas de RedIris Toledo, 25/10/2004 Resource Center de EGEE k IFIC Instituto de Física Corpuscular CSIC-Universitat de València

2 25-Oct-2004IRISGRID-EGEE1 Infraestructura: CPUs 134 PCs en 6 racks formato 2U (117 en EGEE) CPU: o 67 Athlon 1.2 GHz o 67 Athlon 1.4 GHz RAM: 1 Gbytes HD: 40 Gbytes o ~2 Gbytes Linux RH 7.3 o Resto para trabajos NIC: FastEthernet (100 Mbps)

3 25-Oct-2004IRISGRID-EGEE2 Infraestructura: CPUs 8 Intel servers CPU: o Pentium 3.2 GHz RAM: 1 Gbytes HD: 120 Gbytes NIC: Gigabit + FastEthernet

4 25-Oct-2004IRISGRID-EGEE3 Almacenamiento: CASTOR CASTOR: CERN Advanced STORage Manager Es un HSM desarrollado en el CERN cuyo objetivo es manejar los datos de LHC en un entorno distribuido. Actualmente el CERN almacena en este sistema ~ 2 PBytes de datos experimentales en ~ cintas Gestiona el espacio en disco y la migración automática de ficheros entre los servidores de disco y las cintas. El usuario maneja un espacio virtual de ficheros, ej.: o /castor/ific.uv.es/grid/atlas/datafiles/… El acceso nativo a los ficheros se hace usando un protocolo llamado RFIO.

5 25-Oct-2004IRISGRID-EGEE4 Almacenamiento: CASTOR

6 25-Oct-2004IRISGRID-EGEE5 Servicios CASTOR o PC para espacio de nombres y gestión de volúmenes nsdaemon Cupvdaemon vdqmserv vmgrdaemon mysqld o PC para la gestión de espacio de disco (stager) Cdbserver stgdaemon rfiod Almacenamiento: CASTOR 1 2

7 25-Oct-2004IRISGRID-EGEE6 Servidores de disco para CASTOR o 4 servidores ( 4TBytes ) 2 x Intel 2.8 GHz 2 x Ethernet Gigabit 2 x 3ware Serial ATA Raid Controller 12 x HD 160 Gbytes o 200 Gbytes En 6 RAID1 (mirror) por parejas Almacenamiento: CASTOR 3

8 25-Oct-2004IRISGRID-EGEE7 Librería de cintas 140 TBytes o STK L700e o 700 slots o 4 x drives HP LTO2 (200GB/nativo, 400GB comp.) o Interface Fibre Channel para los drives, SCSI para el control de la robótica Almacenamiento: CASTOR

9 25-Oct-2004IRISGRID-EGEE8 Servidores de cinta para CASTOR o 2 servidores para la lectura/escritura de las cintas 2 x Intel 2.8 GHz 2 x Ethernet Gigabit 1 x qla2300 fibre channel HBA Cada servidor está asociado a 2 lectores del robot Interconectados a traves de un switch de FC Almacenamiento: CASTOR 4

10 25-Oct-2004IRISGRID-EGEE9 Servidores de cinta para CASTOR o PC para el control de la robótica Recibe las peticiones de montaje, desmontaje e inventario de los dos servidores de cinta Almacenamiento: CASTOR 4

11 25-Oct-2004IRISGRID-EGEE10 Red o 22/23 PCs con FastEthernet de cada rack se conectan en conmutadores con enlace de subida de gigabit. o Los servidores de disco y los de cinta se conectan a un switch gigabit ethernet. o Ambos se conectan al backbone de la nave experimental del IFIC a GigabitEthernet que a su vez que conecta con el conmutador del campus de Burjassot-Paterna de la Unversidad de Valencia 10Gigabit. Red

12 25-Oct-2004IRISGRID-EGEE11 Servicios básicos o LCFGng: Sistema de instalación y configuración o CE: Computing Element Gestor de batch (PBS) Gatekeeper de Globus EDG Workload Manager o UI: User Interface Herramientas de envío de trabajos de EDG o SE: Storage Element Versión modificada de gridftp para proporcionar acceso a castor. o WN: Worker Node o MON: RGMA monitoring system EGEE

13 25-Oct-2004IRISGRID-EGEE12 Servicios suplementarios o RB: Resource broker o BDII: Berkley Database Information Index o MyProxy: Proxy delegation service o VO server: Servidor de VO para la federación SWE Servicios dedicados para ATLAS o RB o BDII o UI EGEE

14 25-Oct-2004IRISGRID-EGEE13 EGEE ServicioNúmero de servidores EGEE general9 EGEE dedicado3 EGEE WN117 Castor9 Serv. Disco4 Serv. Cinta2 Control3

15 25-Oct-2004IRISGRID-EGEE14 LHC (CERN) Mont Blanc, 4810 m Ginebra

16 25-Oct-2004IRISGRID-EGEE15 LHC (CERN)

17 25-Oct-2004IRISGRID-EGEE16 El reto de la computación en LHC (CERN)

18 25-Oct-2004IRISGRID-EGEE17 El reto de la computación en LHC (CERN) Tres de los cuatro experimentos generarán del orden del PB, de datos brutos cada año durante un periodo de 10 años. La frecuencia de lectura de los detectores ATLAS y CMS se espera que sea de 100 Hz y el tamaño de datos brutos para cada suceso es de 1 MB. Investigadores repartidos por todo el mundo. El reto tecnológico es suministrar un acceso rápido a muestras del tamaño del TB y un acceso rápido a los recursos de cálculo distribuidos por el mundo, para posibilitar el trabajo de análisis.

19 25-Oct-2004IRISGRID-EGEE18 Colaboración ATLAS 34 países150 institutos y universidades1850 físicos

20 25-Oct-2004IRISGRID-EGEE19 Calendario de los ATLAS Data Challenge DC1 ( ) o Primer test del software del detector (Instalación Manual) Simulación de los datos Reconstrucción o Sistema de producción no automatizado Herramientas (bookkeeping; monitoring; …) Uso del Grid (30%) DC2 (Verano 2004) o Nuevo software del detector (Instalación remota) o Sistema de producción automatizado o Uso del GRID 100% (LCG, GRID3 y NorduGrid) o Test del Modelo de Computing DC3 (Primavera 2006) o Test finales antes de la toma real de datos

21 25-Oct-2004IRISGRID-EGEE20 ATLAS-DC2 DC2 se componen de tres partes: o parte I: Producción de los datos simulados (Julio-Septiembre 2004) corriendo en el Grid A lo largo de todo el mundo o parte II: Ejercicio del Tier-0 (Noviembre 2004) Hacer en 10 días lo que se debería hacer en 1 día de toma real de datos Input son los Raw Data output (ESD+AOD) los cuales se distribuirán a los Tier-1s en tiempo real para el análisis o parte III: test del análisis distribuido utilizando el Grid (Nov.-Dic. 2004) Acceder a los datos desde cualquier lugar del mundo de una forma caótica u organizada. Algunos datos de esta fase o ~30 Canales de Física ( 10 Millones de sucesos) o ~50 Institutos/Universidades a lo largo de todo el mundo o ~35 TB

22 25-Oct-2004IRISGRID-EGEE21 Sistema de Producción de ATLAS Totalmente automatizado, componentes: o Supervisor: Windmill (US) Obtener los trabajos a partir de la base de datos de producción Enviar los trabajos a uno de los executors Realizar el registro final en caso que todo funcione bien o Executors (uno por Grid o legacy batch) : Traduce las definiciones de neutras a un lenguaje específico (en nuestro caso JDL) Capone (Grid3) (US) Dulcinea (NorduGrid) (Escandinavia) Lexor (LCG) (Italia) Legacy systems (Alemania-FZK; Francia-Lyon) o Data Management System (DMS): Don Quijote (CERN) Permite el registro y la movilidad transparente de datos entre los diferentes grid utilizados por ATLAS. o Bookkeeping: AMI (Atlas Metada Interface) (LPSC-Grenoble) o Base de datos de producción (Oracle) Definición y estado de los trabajos

23 25-Oct-2004IRISGRID-EGEE22 LCGNGGrid3LSF LCG exe LCG exe NG exe G3 exe LSF exe super prodDB dms RLS jabber soap jabber Don Quijote Windmill Lexor AMI Capone Dulcinea Sistema de Producción de ATLAS IFIC-Valencia

24 25-Oct-2004IRISGRID-EGEE23 ATLAS DC2 Fase I Empezó a principios de Julio y todavía corriendo Se utilizan los tres sabores de Grid: o LCG (http://lcg.web.cern.ch/LCG/) The job of the LHC Computing Grid Project – LCG – is to prepare the computing infrastructure for the simulation, processing and analysis of LHC data for all four of the LHC collaborations. This includes both the common infrastructure of libraries, tools and frameworks required to support the physics application software, and the development and deployment of the computing services needed to store and process the data, providing batch and interactive facilities for the worldwide community of physicists involved in LHC. o NorduGrid (http://www.nordugrid.org/) The aim of the NorduGrid collaboration is to deliver a robust, scalable, portable and fully featured solution for a global computational and data Grid system. NorduGrid develops and deploys a set of tools and services – the so- called ARC middleware, which is a free software.ARC middleware o Grid3(http://www.ivdgl.org/grid2003/) The Grid3 collaboration has deployed an international Data Grid with dozens of sites and thousands of processors. The facility is operated jointly by the U.S. Grid projects iVDGL, GriPhyN and PPDG, and the U.S. participants in the LHC experiments ATLAS and CMS. IFIC Valencia

25 25-Oct-2004IRISGRID-EGEE24 LCG middleware LCG-1 fue (hasta Feb 2004): o VDT (Globus 2.2.4) (proyecto americano) o EDG WP1 (Resource Broker) (European DataGrid) o EDG WP2 (Herramientas de Replica Management) o GLUE 1.1 (Information schema) + unas pocas extensiones esenciales de LCG o LCG modificaciones: Modificación de los Job managers para evitar problemas en el sistema de ficheros compartidos MDS – BDII Mejoras al Globus gatekeeper necesarias para LCG Corrección de bugs de EDG y Globus/VDT LCG-2 es una actualización y mejora de LCG1 (desde Junio 2004): o Nuevo VDT (Globus 2.4.3) o Mantenimiento del Workload Management o Mantenimiento y mejora del Data Management o Mejoras en la monitorización de los centros con GridICE Middleare es libre y se puede coger de su repositorio de CVS o LCG-2 correrá hasta la primavera de 2005 Después el middleware a utilizar vendrá del EGEE

26 25-Oct-2004IRISGRID-EGEE25 Integración LCG-EGEE LCG-2 focus on production, large-scale data handling The service for the 2004 data challenges Provides experience on operating and managing a global grid service Development programme driven by data challenge experience o Data handling o Strengthening the infrastructure o Operation, VO management Evolves to LCG-3 as components progressively replaced with new middleware -- target is to minimise the discontinuities of migration to the new generation Aim for migration plan by end of year LCG-2 (=EGEE-0) prototyping product LCG-3 EGEE-1 product gLite focus on analysis Developed by EGEE project in collaboration with VDT (US) LHC applications and users closely involved in prototyping & development (ARDA project) Short development cycles Co-existence with LCG-2 Profit as far as possible from LCG-2 infrastructure, experience Ease deployment – avoid separate hardware As far as possible - completed components integrated in LCG-2 improved testing, easier displacement of LCG-2 Les Robertson CERN-IT GDB meeting Julio 04 Les Robertson CERN-IT GDB meeting Julio 04 25

27 25-Oct-2004IRISGRID-EGEE26 Sitios en Grid3 28 centros, multi-VO comparten recursos ~2000 CPUs dynamic – roll in/out

28 25-Oct-2004IRISGRID-EGEE27 NorduGrid & Co. Recursos: 7 paises: CPUs para ATLAS: ~3280 Storage Elements para ATLAS: 10 o Capacidad: ~14 TB, compartido

29 25-Oct-2004IRISGRID-EGEE28 n ROMA1 22 Paises 58 Institutos: (45 Europeos, 2 US, 5 Canadá, 5 Asia, 1 HP) en el futuro: Nueva Zelanda, China, otros HP (Brasil, Singapur) 3800 cpu Centros en LCG-2 Federación Suroeste

30 25-Oct-2004IRISGRID-EGEE29 ATLAS DC2 Fase I Principales problemas encontrados: o Para todos los Grids Debugging el sistema de Producción En LCG y GRID se corren varios supervisores (En el IFIC corremos uno) para mejorar la estabilidad del sistema. Esto hace más difícil controlar el sistema producción. Respuesta lenta de la Base de Datos de producción. o LCG Mala configuración de algunos centros; Sistema de Información (información errónea o no publicada); Servicio de envío de trabajos (JSS) y el Resource Broker. Data management (copia & registro); Stage in/out o NorduGrid Replica Location Service (Globus) modificado a mano varias veces por dia Mala configuración de algunos centros Acceso a la base de datos de producción o Grid3 Data Management - RLS Replica Location Service Problemas con las distribución del software Load on gatekeepers Problemas con los certificados (abortando algunos trabajos) o Colaboración con los desarrolladores del middleware en los distintos sabores Grids para resolver los problemas.

31 25-Oct-2004IRISGRID-EGEE30 ATLAS DC2 Fase I Problemas relacionados con la configuración de los sitios Problemas relacionados con la configuración de los sitios o Responsable o Responsable de la mayoría de los problemas ocurridos durante los DC2 no completa o Lista no completa de los problemas: La variable VO SW DIR apunta a un área de los WN la cual no existe. En el área dedicada para instalar el software del experimento, los responsables de instalar lo (ESM) no tienen permiso. Mala información publicada en el Sistema de Información (Glue Object Classes not linked) Los límites temporales de las colas publicados en minutos en vez de segundos y no normalizados Firewall Ficheros con las CA no instalados propiamente Problemas con NFS (home directories ó el área para los ESM) Perfiles equivocados para los usuarios Los discos de los Elementos de Almacenamiento (SE ) no migrados adecuadamente Problemas técnicos con la configuración de algunos componentes del middleware o No existe en estos momentos un método eficiente para detectar estos fallos o En el caso de Lexor, este executor incluye métodos para detectar problemas de configuración en los nodos de producción (WN)

32 25-Oct-2004IRISGRID-EGEE31 ATLAS DC2 (CPU)

33 25-Oct-2004IRISGRID-EGEE32 Distribución de trabajos en LCG PIC-Barcelona IFIC-Valencia Uni. Aut. Madrid

34 25-Oct-2004IRISGRID-EGEE33 IFIC en los DC2 Desde Agosto participamos en la Validación del sistema de producción Se instaló el executor Lexor para el cual se han dedicado 3 máquinas: o User Interface, donde se instala Lexor o Resource Broker o BDII Lexor es el mecanismo por el cual se envían trabajos de ATLAS a los centros con el middleware de LCG instalado. El IFIC está contribuyendo en correr, validar y mejorar Lexor. Utilizamos SQuirrel (SQL Client) para poder ver la estructura de la base de datos de producción de ATLAS o Programa gráfico en Java o Permite utilizar los comandos de SQL Para poder enviar los trabajos

35 25-Oct-2004IRISGRID-EGEE34 IFIC en los DC2 Trabajos enviados por Lexor en Valencia (7/10/2004) a todos los sitios de ATLAS en LCG 1135Fallados 8325Acabados correctamente 167Pendientes 227Corriendo 96Enviados

36 25-Oct-2004IRISGRID-EGEE35 Conclusiones EL IFIC esta operando una infraestructura de producción dentro de EGEE o 117 WNs o 4 TBytes de capacidad de disco en EGEE o 140 TBytes de capacidad de almacenamiento en cinta Participa en los retos de datos (DC2) de ATLAS o Proporcionando recursos dentro de EGEE o Corriendo una instancia del ejecutor de ATLAS Proporciona los servicios de VO para la región Suroeste de EGEE (ver presentación de Alvaro Fernández)


Descargar ppt "Javier Sánchez, Santiago González Jornadas Técnicas de RedIris Toledo, 25/10/2004 Resource Center de EGEE k IFIC Instituto de Física Corpuscular CSIC-Universitat."

Presentaciones similares


Anuncios Google