La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Herramientas de simulación, reconstrucción y análisis de datos en Física de Partículas (I): Introducción Javier Fernández Menéndez Master Técnicas de Computación.

Presentaciones similares


Presentación del tema: "Herramientas de simulación, reconstrucción y análisis de datos en Física de Partículas (I): Introducción Javier Fernández Menéndez Master Técnicas de Computación."— Transcripción de la presentación:

1 Herramientas de simulación, reconstrucción y análisis de datos en Física de Partículas (I): Introducción Javier Fernández Menéndez Master Técnicas de Computación en Física Diciembre-2012

2 Introducción El framework del experimento CMS como ejemplo: CMSSW
Uso de un entorno de análisis de datos Orientado a Objetos: ROOT Técnicas de computación distribuida: GRID J. Fernández

3 CMS (Compact Muon Solenoid)
Colaboración de 2300 científicos de 159 institutos en 31 países 21 m de largo, 15 m de diámetro y ~12500 Tm Detector de propósito general con campo magnético de 4T J. Fernández

4 CMS Coil + inner vacuum tank Endcap Muon Chambers Longitud : ~21 m
Radio : ~7 m Peso : ~ Tm Barrel HCAL ECAL crystals Silicon tracker J. Fernández

5 El acelerador LHC Large Hadron Collider Colisionador p-p a 14TeV
Comienzo: 2008 Mismo túnel de LEP Experimentos: ATLAS, ALICE, CMS y LHC-b J. Fernández

6 Necesidades del software de CMS
Permitir el procesado de RAW data (señal de datos del detector) para producir Objetos útiles para el análisis de datos Permitir el uso de todo el poder discriminatorio de los subdetectores de CMS en medidas de magnitudes físicas dentro de los análisis offline Permitir la simulación del trigger de HLT de CMS (online) Las colisiones de LHC se producirán con una tasa de 40 MHz, mientras que el sistema offline puede grabar datos en disco Hz CMS: 10TByte de datos al día: 1PByte al año Código CMS: más de 1M líneas C++ J. Fernández

7 Formatos de datos en CMS
CMS implementa un sistema jerárquico: RAW Data: según proviene del Detector Full Event (FEVT): contiene RAW + todos los objetos creados por el proceso de Reconstrucción RECO: contiene un subconjunto del FEVT, suficiente para aplicar calibraciones para el reprocesado AOD: subconjunto de RECO, suficiente para la gran mayoría de los análisis físicos estándar ~2MB/suceso RAW ~1.5 MB/suceso FEVT RECO ~ 500 kB/suceso AOD ~ 100 kB/suceso J. Fernández

8 Simular el detector: Monte-Carlo
Crear muestras de sucesos de MC consta de 3 pasos: GENE (Generación): sucesos de entrada para la simulación, producidos por un código de generador de sucesos (externo) SIM (Simulación): simulación basada en Geant4 de los procesos físicos que acompañan el paso de partículas a través de la jerarquía de volúmenes y materiales que componen el detector CMS y las respuestas de los subdetectores (simulated hits) DIGI (Digitization): simulación de la respuesta electrónica a los hits en el detector GEN+SIM+DIGI = RAW en sucesos simulados con MC J. Fernández

9 Esquema de generación de sucesos
J. Fernández

10 Resultado J. Fernández

11 El Modelo de Computación (CM) de CMS
Distribuido Recursos disponibles en muchos países, muchos institutos Se necesita una red robusta para interconectar los recursos Jerárquico Modelo Multi-’tier’ (escalón) Responsabilidades diferentes para los distintos sitios Dirigido/Orientado por/a los datos Emplazamiento de los datos en función de los recursos y necesidades: cinta, disco, mano de obra, expertise, comunidades ‘locales’ J. Fernández

12 Computación distribuida
En parte por motivos políticos, en parte por motivos técnicos Las organizaciones financiadoras (estado, instituciones,…) quieren ver los recursos financiados en su pais En cualquier caso, probablemente no sería viable si se pusieran todos los recursos en el CERN Recursos locales, menor escala, más fáciles de manejar Una amplia red y recursos de computación ya existen o están siendo desarrollados en otros contextos (otros experimentos, investigación, universidades, empresa,…) La mayor parte de los colaboradores de CMS no se encuentran en el CERN J. Fernández

13 Jerárquico: Hardware Tiers
Tier-0 CERN Primer procesado de datos directamente del detector en el CERN. Grabar y guardar datos RAW Sólo actividades programadas, no usuarios genéricos Distribuir segundas copia a los Tier-1s Determinar calibraciones y alineamientos para la reconstrucción rápida Tier-1 (T1), laboratorios (nacionales) grandes, + CERN (11 en Total) Responsabilidad en la custodia permanente de parte del RAW y RECO data Re-procesado programado de datos, filtrado de datos Calcular calibraciones y alineamientos más precisos Reprocesado y análisis a gran escala de datos Servir datos a los Tier-2s Tier-2 (T2), centros “pequeños” en Universidades (~>100 identificados) Análisis locales de comunidades de científicos Análisis basado en GRID para todo el experimento Simulación de Monte-Carlo Tier-3 (T3) Facilidades de computación para universidades y laboratorios Acceso a datos y procesados en Tier-2s y Tier-1s Tier 0 Tier 1 Tier 1 Tier 1 Tier 2 Tier 2 Tier 2 Tier 2 Tier 2 Tier 2 Tier 3 Tier 2 J. Fernández

14 Dirigido/Orientado por/a los datos
CMS decide globalmente donde se sitúan los datos Los datos se dividen en ‘datasets’, basadas en intereses físicos Diferentes datasets van a diferentes Tiers Diferentes tipos de datos van a diferentes Tiers RAW & RECO se reparte entre los T1s, ‘responsabilidad de custodia’ AOD se replica a todos los T1s, y a todos los Tier-Xs CMS Dataset Bookkeeping Service (DBS) Página web que recoge info de datos almacenados PhEDEx (Physics Experiment Data Export) Software de transferencia de datos Idea general: Reducir el número de transferencias “envia los jobs a los datos en vez de los datos a los jobs” J. Fernández

15 CMS Computing model: resumen
Modelo de computación distribuido para almacenamiento de datos, procesado y análisis Tecnologías Grid (Worldwide LHC Computing Grid, WLCG) Recursos de computación en una arquitectura escalonada Varios Petabytes de datos (reales y simulados) cada año Tier-1 Tier-2 Analysis MC simulation Tier-0 Online system Tier-1 RAW RECO AOD O(50) primary datasets O(10) streams (RAW) Scheduled data processing (skim & reprocessing) First pass reconstruction tape tape RAW,RECO AOD RECO, AOD J. Fernández

16 CMS data and processing flow
LHC: operation startup on 2008 proton-proton collisions at 14 TeV each 25 ns Huge amount of data to process Online trigger filtering (~1/105) RAW data sent to Tier-0 at CERN RAW data split at Tier-0 in primary datasets J. Fernández

17 CMS data and processing flow
RAW data archived on tape at Tier-0 Reconstruction and calibration at Tier-0 RAW+RECO data distributed to Tier-1 centres Tier (0-1-2) structure of the WLCG 7 Tier-1 centres for CMS around the globe RAW data archived to tape at Tier-1s J. Fernández

18 CMS data and processing flow
RECO+AOD skimmed at Tier-1s & sent to Tier-2s RAW data re-recontructed at Tier-1s (2-3/año) Re-RECO data skimmed and distributed 40+ Tier-2 centres for CMS world-wide MC data produced at Tier-2s and sent to Tier-1s User analysis at Tier-2s J. Fernández

19 Cadena de análisis: ROOT
CMSSW J. Fernández

20 Escenarios de Software de CMSSW
El código CMSSW debe ser capaz de funcionar en tres escenarios diferentes: Bare root: abrir el fichero root e inspeccionar los Data Objects ”sin ninguna infraestructura CMS” Portable a cualquier máquina que corra ROOT CMSSW-Lite: cargar un pequeño número de librerías y tener acceso pleno a los Physics Objects Un portátil no conectado a internet Full-CMSSW: acceso pleno a calibraciones y disponibilidad plena de librerías. Usado principalmente RECO a partir de RAW T0-T1-T2 J. Fernández

21 Número de líneas de código (I)
J. Fernández

22 Número de líneas de código (II)
J. Fernández

23 …. J. Fernández

24 El Grid: en pocas palabras (I)
LHC Computing Grid (LCG) Los Sites consisten de Storage Elements (SE’s) y Computing Elements (CE’s) SE guarda datos (pueden tener cinta y disco) CE proporciona CPU power, accede datos almacenados en SE Batch jobs se envían vía un ‘Resource Broker’(RB) Compagina los requisitos de los jobs con los sites que los cumplen, mandan el job a uno de esos sites. El Output se devuelve vía un ‘sandbox’ (cuando es pequeño) o se guarda en un SE (grande) En CMS todo es gestionado con el programa CRAB: CMS Remote Analysis Builder J. Fernández

25 El Grid: en pocas palabras (II)
Virtual Organisations Una cuenta en cada cluster de CMS? Insostenible! La Organización Virtual maneja los derechos de acceso a los diferentes recursos Puede haber diferentes roles para usos diferentes (e.g. ‘production’ role para producción de MC) Los certificados Grid (a la SSH) permiten a los sites correr jobs en tu nombre Fácil de encontrar, registrar y de controlar No hay acceso directo a las computadoras que estas usando J. Fernández

26 Recursos Hardware de LHC
J. Fernández

27 Centros Tier-1 y Tier-2 españoles
Tier-1: PIC (Puerto de Información Científica) en Barcelona Contribuye con ~5% de los Tier-1 computing resources Tier-2 : federado CIEMAT (Madrid) – IFCA (Santander) Contribuye con ~5% de los Tier-2 computing resources Importancia estratégica del Grid Computing en España Participación en la infraestructura Grid de LHC Incorporación de técnicas de computación Grid Localización de datos interesantes para la comunidad CMS española J. Fernández

28 Número de jobs un día cualquera
J. Fernández

29 Procesado de datos En la actualidad más de 20K jobs al día
Producción de MC en masa Mass MC production For CSA07 Analisis de usuarios JobRobot-dominated CSA06 J. Fernández

30 Transferencia de datos
PhEDEx: sistema de transferencia y emplazamiento de datos de CMS LoadTest Mantener un nivel rutinario de ~ 1 GB/s CMS-wide (~ 0.5 PB/week) principalmente T0 → T1s y regional T1 ↔ T2s transfers LoadTest CSA06 J. Fernández

31 Bibliografía CMS Web Page http://cms.cern.ch/
Tutoriales CMSSW CMS Offline SWGuide J. Fernández


Descargar ppt "Herramientas de simulación, reconstrucción y análisis de datos en Física de Partículas (I): Introducción Javier Fernández Menéndez Master Técnicas de Computación."

Presentaciones similares


Anuncios Google