Herramientas de simulación, reconstrucción y análisis de datos en Física de Partículas (I): Introducción Javier Fernández Menéndez Master Técnicas de Computación.

Slides:



Advertisements
Presentaciones similares
Intranets P. Reyes / Octubre 2004.
Advertisements

Nau Gran dHivern Intr. a la creación y gestión de páginas web Introducción a la web.
Internet y tecnologías web
Aplicación de la tecnología Grid: Portal de recursos de supercomputación José Ruedas Sánchez Instituto de Astrofísica de Andalucía Consejo Superior de.
Proyecto e-CA: Organización Virtual y Testbed Susana Sánchez Expósito José Ruedas Sánchez II Reunión de e-Ciencia Andaluza 16-17, Octubre 2008.
Introducción a servidores
Base de Datos Distribuidas FUNDAMENTOS DE BASES DE DATOS DISTRIBUIDAS
Aplicaciones Cliente-Servidor
Tecnologías Cliente / Servidor Capitulo III Richard Jiménez V. clienteserver.wordpress.com.
Ing. Horacio Carlos Sagredo Tejerina
Partículas fundamentales
S.O. Multiusuario, red. Servicio: Cliente/Servidor, p2p
Servidores de Archivo SX-520 de XenData Una serie de servidores de archivo LTO basados en estándares IT, diseñados para los exigentes requisitos de la.
SERVIDOR.
Introducción a la computadora
Bioinformática FJS.
Mejoras y Nuevas Características de ISA Server 2004 Chema Alonso MVP Windows Server Security
Tema 10: Gestión de Memoria
Búsqueda del bosón de Higgs en el canal H → ZZ ( * ) →4 μ en CMS empleando un método de análisis multivariado Alejandro Alonso Díaz 27 de Septiembre de.
Análisis Interactivo Tier3 Santiago González de la Hoz IFIC-Valencia III Reunión en Barcelona del Tier2 federado español de.
PROFESOR:ADRIAN GUTIERREZ PEREZ ESPECIALIDAD: VENTAS Y PUBLICIDAD
1 Análisis Distribuido & User Support Farida Fassi IFIC (Instituto de Física Corpuscular) CSIC-Universitat de València III REUNIÓN ATLAS TIER-2 Federado,
Búsqueda del bosón de Higgs en el canal H → ZZ ( * ) →4 μ en CMS empleando un método de análisis multivariado Alejandro Alonso Díaz 27 de Septiembre de.
Introducción al modelo Cliente-Servidor Carlos Rojas Kramer Universidad Cristóbal Colón.
El grupo de Física Experimental de Altas Energías en el experimento CMS CMS es uno de los cuatro experimentos del LHC en el que colaboran unos 3000 científicos.
Desarrollo de aplicaciones para ambientes distribuidos
O Funcionamiento, ventajas y alcance o ESTUDIANTE: EDWIN ARAY VÉLEZ o PROFESOR: ING. JOSÉ MEDINA o FUNDAMENTOS TECNOLÓGICOS DE INFORMACIÓN.
Introducción a los Sistemas Operativos
1 Calibración del Momento de los Muones en CMS María Cepeda Hermida M. Isabel Josa Mutuberría Begoña de la Cruz Martínez IX Jornadas de Altas Energías.
Spanish Teachers Programme CERN, 27 de julio de 2007 Informática Cientifica Miguel Angel Marquina 1 where the Web was born GRID e Informática Científica:
Integrantes: Jorge Herrera M. Carlos Rodríguez R..
ROOT TOOLKIT (Parallel ROOT Facility, PROOF) Técnicas Fundamentales de Simulación, Reconstrucción y Análisis de Datos en Física Experimental de Partículas.
Sistema de análisis distribuido de ATLAS (ADA) Farida Fassi / Mª Dolores Jordán IFIC.
Clase #7 – Sistemas de Procesamiento de Datos
carlos luis loor  La computación en la nube, concepto conocido también bajo los términos servicios en la nube, informática en la nube, nube de cómputo.
UNIVERSIDAD LATINA BASES DE DATOS ADMINISTRACIÓN.
Alfabetización en Redes Digitales de Información Alfabetización en Redes Digitales de Información Comprende el conjunto de conocimientos en conectividad,
LOS SISTEMAS DE INFORMACION COMPUTARIZADOS
1 Clase 3 Registro de resultados Tecnología de la Comunicación I.
REPÚBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DEL PODER POPULAR PARA LA DEFENSA UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICADE LA FUERZA ARMADA NACIONAL.
COMPUTACIÓN EN LAS NUBES
La administración de dominios
Cloud Computing July Palma L..
UNIVERSIDAD LATINA II. FUNCIONES DEL ADMINISTRADOR.
SERVICIOS EN LA NUBE La computación en la nube, concepto conocido también bajo los términos servicios en la nube, informática en la nube, nube de cómputo.
LIA. SUEI CHONG SOL, MCE..  1.- SOFTWARE BÁSICO O DE SISTEMA. Conjunto de programas imprescindibles para el funcionamiento del sistema.  2.- SOTWARE.
DOCENTE: DAISY KATERINE RODRÍGUEZ DURÁN
RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ INF-252.
BASE DE DATOS DISTRIBUIDAS
El Streaming  Consiste en la distribución de audio o video por Internet.  La palabra streaming se refiere a que se trata de una corriente continua.
Servidores. ¿Qué es un servidor? Servidor de Aplicación Servidor de impresión Servidor de base de datos Servidor de correo Servidor de Internet Servidor.
1. ¿Qué es el LHC? 2. Características del LHC 3. Proyecto LHC at home.
Elementos y tipos de sistemas operativos
DOCENTE: DAISY KATERINE RODRÍGUEZ DURÁN. CONTENIDO TEMÁTICO SISTEMAS OPERATIVOS PAQUETES INTEGRADOS DE OFICINA PROCESOS Y PROCEDIMIIENTOS DE UNIDAD ADMINISTRATIVA.
Computación en la Nube.
La computadora. La computadora es una máquina electrónicamente programable capaz de capturar, procesar, almacenar y emitir información de manera rápida.
Se denomina tecnologías integradas de la internet al conjunto de herramientas que permiten la operación, elaboración almacenamiento, procedimiento, envió,
Se denomina tecnologías integradas de la internet al conjunto de herramientas que permiten la operación, elaboración almacenamiento, procedimiento, envió,
Introducción al LHC y CMS Isidro González Caballero ( Técnicas Experimentales en Física de Partículas.
Es un antivirus gratuito basado en cloud computing, especialmente diseñados para ofrecer protección desde la nube. Es un software de protección, como los.
ANTIVIRUS CLOUD COMPUTING. Los antivirus cloud o antivirus en la nube, son antivirus que aplican a los antivirus el concepto cloud computing. Instalan.
18/02/2016Diego Alberto Rincón Yáñez, Pontificia Universidad Javeriana, 1.
Actualización del Superordenador Virtual Gallego Valencia, 12 Abril Carlos Fernández Sánchez Responsable Técnico de Sistemas
[IGN + UPM] con financiación de la AECI Madrid, junio-julio de 2006 Carmen Muñoz-Cruzado García Universidad Politécnica de Madrid Curso IDEs El Nomenclátor.
Análisis de datos del detector ATLAS utilizando el Grid: Modelo de Análisis Distribuido en ATLAS S. González de la Hoz IFIC – Institut de Física Corpuscular.
Conociendo el modelo Cliente-Servidor. Introducción En el mundo de TCP/IP las comunicaciones entre computadoras se rigen básicamente por lo que se llama.
ATLAS Clase Magistral Corto Esta un tiempo de descubremiento en fisica de las particulas. A CERN, el Colisionador Grande de los Hadrones (LHC) ha.
Decoupling Computation and Data Scheduling in Distributed Data-Intensive Applications Kavitha Ranganathan, Ian Foster University of Chicago 11th IEEE International.
1) Almacenamiento de datos de oficiales y privados. 2) Use cases. 3) Resultados del test Step09. Santiago González de al Hoz Análisis en el Grid.
Transcripción de la presentación:

Herramientas de simulación, reconstrucción y análisis de datos en Física de Partículas (I): Introducción Javier Fernández Menéndez Master Técnicas de Computación en Física Diciembre-2012 Javier.Fernandez@cern.ch

Introducción El framework del experimento CMS como ejemplo: CMSSW Uso de un entorno de análisis de datos Orientado a Objetos: ROOT Técnicas de computación distribuida: GRID J. Fernández

CMS (Compact Muon Solenoid) Colaboración de 2300 científicos de 159 institutos en 31 países 21 m de largo, 15 m de diámetro y ~12500 Tm Detector de propósito general con campo magnético de 4T J. Fernández

CMS Coil + inner vacuum tank Endcap Muon Chambers Longitud : ~21 m Radio : ~7 m Peso : ~ 12500 Tm Barrel HCAL ECAL crystals Silicon tracker J. Fernández

El acelerador LHC Large Hadron Collider Colisionador p-p a 14TeV Comienzo: 2008 Mismo túnel de LEP Experimentos: ATLAS, ALICE, CMS y LHC-b J. Fernández

Necesidades del software de CMS Permitir el procesado de RAW data (señal de datos del detector) para producir Objetos útiles para el análisis de datos Permitir el uso de todo el poder discriminatorio de los subdetectores de CMS en medidas de magnitudes físicas dentro de los análisis offline Permitir la simulación del trigger de HLT de CMS (online) Las colisiones de LHC se producirán con una tasa de 40 MHz, mientras que el sistema offline puede grabar datos en disco sólo @150-300 Hz CMS: 10TByte de datos al día: 1PByte al año Código CMS: más de 1M líneas C++ J. Fernández

Formatos de datos en CMS CMS implementa un sistema jerárquico: RAW Data: según proviene del Detector Full Event (FEVT): contiene RAW + todos los objetos creados por el proceso de Reconstrucción RECO: contiene un subconjunto del FEVT, suficiente para aplicar calibraciones para el reprocesado AOD: subconjunto de RECO, suficiente para la gran mayoría de los análisis físicos estándar ~2MB/suceso RAW ~1.5 MB/suceso FEVT RECO ~ 500 kB/suceso AOD ~ 100 kB/suceso J. Fernández

Simular el detector: Monte-Carlo Crear muestras de sucesos de MC consta de 3 pasos: GENE (Generación): sucesos de entrada para la simulación, producidos por un código de generador de sucesos (externo) SIM (Simulación): simulación basada en Geant4 de los procesos físicos que acompañan el paso de partículas a través de la jerarquía de volúmenes y materiales que componen el detector CMS y las respuestas de los subdetectores (simulated hits) DIGI (Digitization): simulación de la respuesta electrónica a los hits en el detector GEN+SIM+DIGI = RAW en sucesos simulados con MC J. Fernández

Esquema de generación de sucesos J. Fernández

Resultado J. Fernández

El Modelo de Computación (CM) de CMS Distribuido Recursos disponibles en muchos países, muchos institutos Se necesita una red robusta para interconectar los recursos Jerárquico Modelo Multi-’tier’ (escalón) Responsabilidades diferentes para los distintos sitios Dirigido/Orientado por/a los datos Emplazamiento de los datos en función de los recursos y necesidades: cinta, disco, mano de obra, expertise, comunidades ‘locales’ J. Fernández

Computación distribuida En parte por motivos políticos, en parte por motivos técnicos Las organizaciones financiadoras (estado, instituciones,…) quieren ver los recursos financiados en su pais En cualquier caso, probablemente no sería viable si se pusieran todos los recursos en el CERN Recursos locales, menor escala, más fáciles de manejar Una amplia red y recursos de computación ya existen o están siendo desarrollados en otros contextos (otros experimentos, investigación, universidades, empresa,…) La mayor parte de los colaboradores de CMS no se encuentran en el CERN J. Fernández

Jerárquico: Hardware Tiers Tier-0 (T0), @ CERN Primer procesado de datos directamente del detector en el CERN. Grabar y guardar datos RAW Sólo actividades programadas, no usuarios genéricos Distribuir segundas copia a los Tier-1s Determinar calibraciones y alineamientos para la reconstrucción rápida Tier-1 (T1), laboratorios (nacionales) grandes, + CERN (11 en Total) Responsabilidad en la custodia permanente de parte del RAW y RECO data Re-procesado programado de datos, filtrado de datos Calcular calibraciones y alineamientos más precisos Reprocesado y análisis a gran escala de datos Servir datos a los Tier-2s Tier-2 (T2), centros “pequeños” en Universidades (~>100 identificados) Análisis locales de comunidades de científicos Análisis basado en GRID para todo el experimento Simulación de Monte-Carlo Tier-3 (T3) Facilidades de computación para universidades y laboratorios Acceso a datos y procesados en Tier-2s y Tier-1s Tier 0 Tier 1 Tier 1 Tier 1 Tier 2 Tier 2 Tier 2 Tier 2 Tier 2 Tier 2 Tier 3 Tier 2 J. Fernández

Dirigido/Orientado por/a los datos CMS decide globalmente donde se sitúan los datos Los datos se dividen en ‘datasets’, basadas en intereses físicos Diferentes datasets van a diferentes Tiers Diferentes tipos de datos van a diferentes Tiers RAW & RECO se reparte entre los T1s, ‘responsabilidad de custodia’ AOD se replica a todos los T1s, y a todos los Tier-Xs CMS Dataset Bookkeeping Service (DBS) Página web que recoge info de datos almacenados PhEDEx (Physics Experiment Data Export) Software de transferencia de datos Idea general: Reducir el número de transferencias “envia los jobs a los datos en vez de los datos a los jobs” J. Fernández

CMS Computing model: resumen Modelo de computación distribuido para almacenamiento de datos, procesado y análisis Tecnologías Grid (Worldwide LHC Computing Grid, WLCG) Recursos de computación en una arquitectura escalonada Varios Petabytes de datos (reales y simulados) cada año Tier-1 Tier-2 Analysis MC simulation Tier-0 Online system Tier-1 RAW RECO AOD O(50) primary datasets O(10) streams (RAW) Scheduled data processing (skim & reprocessing) First pass reconstruction tape tape RAW,RECO AOD RECO, AOD J. Fernández

CMS data and processing flow LHC: operation startup on 2008 proton-proton collisions at 14 TeV each 25 ns Huge amount of data to process Online trigger filtering (~1/105) RAW data sent to Tier-0 at CERN RAW data split at Tier-0 in primary datasets J. Fernández

CMS data and processing flow RAW data archived on tape at Tier-0 Reconstruction and calibration at Tier-0 RAW+RECO data distributed to Tier-1 centres Tier (0-1-2) structure of the WLCG 7 Tier-1 centres for CMS around the globe RAW data archived to tape at Tier-1s J. Fernández

CMS data and processing flow RECO+AOD skimmed at Tier-1s & sent to Tier-2s RAW data re-recontructed at Tier-1s (2-3/año) Re-RECO data skimmed and distributed 40+ Tier-2 centres for CMS world-wide MC data produced at Tier-2s and sent to Tier-1s User analysis at Tier-2s J. Fernández

Cadena de análisis: ROOT CMSSW J. Fernández

Escenarios de Software de CMSSW El código CMSSW debe ser capaz de funcionar en tres escenarios diferentes: Bare root: abrir el fichero root e inspeccionar los Data Objects ”sin ninguna infraestructura CMS” Portable a cualquier máquina que corra ROOT CMSSW-Lite: cargar un pequeño número de librerías y tener acceso pleno a los Physics Objects Un portátil no conectado a internet Full-CMSSW: acceso pleno a calibraciones y disponibilidad plena de librerías. Usado principalmente RECO a partir de RAW T0-T1-T2 J. Fernández

Número de líneas de código (I) J. Fernández

Número de líneas de código (II) J. Fernández

…. J. Fernández

El Grid: en pocas palabras (I) LHC Computing Grid (LCG) Los Sites consisten de Storage Elements (SE’s) y Computing Elements (CE’s) SE guarda datos (pueden tener cinta y disco) CE proporciona CPU power, accede datos almacenados en SE Batch jobs se envían vía un ‘Resource Broker’(RB) Compagina los requisitos de los jobs con los sites que los cumplen, mandan el job a uno de esos sites. El Output se devuelve vía un ‘sandbox’ (cuando es pequeño) o se guarda en un SE (grande) En CMS todo es gestionado con el programa CRAB: CMS Remote Analysis Builder J. Fernández

El Grid: en pocas palabras (II) Virtual Organisations Una cuenta en cada cluster de CMS? Insostenible! La Organización Virtual maneja los derechos de acceso a los diferentes recursos Puede haber diferentes roles para usos diferentes (e.g. ‘production’ role para producción de MC) Los certificados Grid (a la SSH) permiten a los sites correr jobs en tu nombre Fácil de encontrar, registrar y de controlar No hay acceso directo a las computadoras que estas usando J. Fernández

Recursos Hardware de LHC J. Fernández

Centros Tier-1 y Tier-2 españoles Tier-1: PIC (Puerto de Información Científica) en Barcelona Contribuye con ~5% de los Tier-1 computing resources Tier-2 : federado CIEMAT (Madrid) – IFCA (Santander) Contribuye con ~5% de los Tier-2 computing resources Importancia estratégica del Grid Computing en España Participación en la infraestructura Grid de LHC Incorporación de técnicas de computación Grid Localización de datos interesantes para la comunidad CMS española J. Fernández

Número de jobs un día cualquera J. Fernández

Procesado de datos En la actualidad más de 20K jobs al día Producción de MC en masa Mass MC production For CSA07 Analisis de usuarios JobRobot-dominated analysis @ CSA06 J. Fernández

Transferencia de datos PhEDEx: sistema de transferencia y emplazamiento de datos de CMS LoadTest Mantener un nivel rutinario de ~ 1 GB/s CMS-wide (~ 0.5 PB/week) principalmente T0 → T1s y regional T1 ↔ T2s transfers LoadTest CSA06 J. Fernández

Bibliografía CMS Web Page http://cms.cern.ch/ Tutoriales CMSSW https://twiki.cern.ch/twiki/bin/view/CMS/Tutorials CMS Offline SWGuide https://twiki.cern.ch/twiki/bin/view/CMS/SWGuide J. Fernández