APLICACIONES CIENTIFICAS EN GRID 2/10 Nombre y Apellido APLICACIONES CIENTIFICAS EN GRID
Contenidos: 1.- Introducción 2.- ¿qué tipos de aplicaciones son apropiadas para el GRID? 3.- Aplicaciones en EGEE 4.- Aspectos del GRID para el soporte de aplicaciones 5.- Ejemplos de aplicaciones del EGEE 6.- Conclusiones APLICACIONES CIENTIFICAS EN GRID José Salt 2
1.- INTRODUCCION APLICACIONES CIENTIFICAS EN GRID José Salt 3
4 Los avances científicos responden a las metodologías de especialización y a los conocimientos adquiridos en dichas disciplinas –pero, las tecnologías influyen en hacer que los instrumentos, herramientas y medios utilizados en la obtención de los resultados se realice más eficientemente y en entornos colaborativos esenciales en la ciencia del siglo XXI – el GRID Computing es una tecnología que está cambiando la forma de trabajo de los científicos y un elemento básico donde se plasma es en el momento de elaborar las APLICACIONES CIENTIFICAS Metodología científica y aplicaciones APLICACIONES CIENTIFICAS EN GRID José Salt 4
1) Algunas disciplinas científicas se han organizado durante las decadas pasadas en grandes colaboraciones científicas que agrupan una gran cantidad de científicos al ser la única manera de alcanzar logros de alto nivel que no sería viable con grupos de trabajo reducidos 2) Estos grupos han obtenido resultados y descubrimientos científicos de gran repercusión y normalmente han estado ligados a la resolución de retos tecnológicos importantes (ejemplo: experimentos del LEP, Proyecto Genoma, etc) 2) En aspectos computacionales y tecnologías de la información, se ha evolucionado desde soluciones de mainfraims, pasando por la solución de clusters de ordenadores y ha desembocado en el paradigma GRID. APLICACIONES CIENTIFICAS EN GRID José Salt 5
4 E-Ciencia: a la ciencia a gran escala que se llevará a cabo de forma creciente a través de colaboraciones globales distribuidas y posibilitadas mediante Internet. 4 Típicamente, una característica de tales empresas colaborativas científicas es que requerirán el acceso a grandes colecciones de datos, a recursos de cálculo a gran escala y visualizacíón de altas prestaciones de vuelta a los científicos utilizadores 4 El GRID es una arquitectura propuesta para llevar a término todos estos temas y hacer realidad esta visión de e-Ciencia. 4 E-científicos y e-Infraestructuras trabajando con las aplicaciones APLICACIONES CIENTIFICAS EN GRID José Salt 6
2.-¿QUÉ TIPO DE APLICACIONES SON APROPIADAS PARA EL GRID? APLICACIONES CIENTIFICAS EN GRID José Salt 7
4 En la primera clase establecimos los pilares básicos de la computación GRID: estos pueden también ser las condiciones que se pueden establecer para el nivel de conveniencia de que determinadas aplicaciones se desplieguen en un entorno GRID: –Posibilidad y necesidad de compartir recursos –Tener un acceso seguro –El uso eficiente de los recursos –Redes de comunicación fiables –Open source 4 Estas características no son privativas de unas determinadas áreas temáticas cientifico-tecnológicas y de Humanidades ( por ejemplo, en estudios filológicos, arqueología, etc) 4 Dos posibles perspectivas de las aplicaciones: interactivas o no interactivas APLICACIONES CIENTIFICAS EN GRID José Salt 8
Interactividad 4 El GRID está resolviendo bastante bien el trabajo en batch 4 La interactividad esta sujeta a debate: –Grado de receptividad- proceso de comunicación en el que cada mensaje está relacionado con el mensaje previo intercambiado, y de estos con los precedentes. –Sheizaf Rafeili: ‘ es una expresión en el contexto de que una serie dada de intercambios de comunicación, cualquier otra transmisíón está relacionada en cierto grado con los intercambios previos referidas a transmisiones anteriores (1986)’ –Se refiere al software que acepta y responde a inputs de humanos, por ejemplo, datos o comandos APLICACIONES CIENTIFICAS EN GRID José Salt 9
El caso de Física Experimental de Altas Energías 4 Una comunidad de físicos que trabajan en una COLABORACION internacional, usando recursos de cálculo distribuidos; 4 Que necesitan manejar un gran volumen de datos (INFORMACION) 4 Para visualizarlos, simularlos, compararlos, modelarlos, testearlos; esto es, COMPRENDER los datos; 4 Con el fin último de tomar una DECISION sobre la verificación de un nuevo descubrimiento 4 Y mostrar los resultados y conclusiones a otros colegas, autoridades científicas, publico en general (DISSEMINATION) APLICACIONES CIENTIFICAS EN GRID José Salt 10
4 El GRID interactivo desarrollado por CROSSGRID independiente del experimento donde se aplique 4 ATLAS posee una utilidades para el análisis interactivo pero falta poder trabajar ‘a la GRID’. Se están invirtiendo grandes esfuerzos en tener un sistema de análisis distribuido de datos utilizando el GRID 4 Presentaciones relacionadas con ATLAS ( Santi, Julio y Loli) APLICACIONES CIENTIFICAS EN GRID José Salt 11
APLICACIONES CIENTIFICAS EN GRID José Salt 12
3.-APLICACIONES EN EGEE APLICACIONES CIENTIFICAS EN GRID José Salt 13
4 Aplicaciones Piloto: se utilizan para hacer tests de Mw y evaluar rendimientos. Dentro de NA4 4 Aplicaciones ‘internas’: proceden de dentro del proyecto en el sentido que involucran a socios de EGEE en colaboración con institutos externos al proyecto. Ejemplos: GPCALMA (mamografía) liderado por el INFN, experimentos más allá de LHC (BaBar, D0, etc). Buena experiencia en Mw. Dependientes de interoperabilidad entre el proyecto y las iniciativas nacionales 4 Aplicaciones “externas”: proceden de colaboraciones externas al proyecto y necesitan soporte para el despliegue de EGEE Clasificación de Aplicaciones en EGEE APLICACIONES CIENTIFICAS EN GRID José Salt 14
4 3 grupos de aplicaciones –Pilotos de Altas Energías –Pilotos de Aplicaciones Biomédicas –Aplicaciones genéricas 4 Multiples infrastructuras, 2 middlewares –Infraestructura de producción EGEE LCG2 –Infraestructura de integración GILDA LCG2/gLite –testbeds de gLite (desarrollo /testing/certificación) 4 Gran número de usuarios –Amplio espectro de necesidades –Diferentes comunidades con diferentes background y organizaciones internas Aplicaciones Piloto (EGEE-NA4) APLICACIONES CIENTIFICAS EN GRID José Salt 15
Faltan 630 días para las primeras colisiones en LHC LCG The LHC Computing Grid A Global Computing Facility for Physics APLICACIONES CIENTIFICAS EN GRID Física Experimental de Altas Energías José Salt 16
LHC DATA This is reduced by online computers that filter out a few hundred “good” events per sec. The accelerator generates 40 million particle collisions (events) every second at the centre of each of the four experiments’ detectors The LHC accelerator – the largest superconducting installation in the world 27 kilometres of magnets cooled to – 300 o C colliding proton beams at an energy of 14 TeV Which are recorded on disk and magnetic tape at 100-1,000 MegaBytes/sec ~15 PetaBytes per year APLICACIONES CIENTIFICAS EN GRID José Salt 17
–Gran comunidad internacional muy experta Involucrados en muchos proyectos mundiales y usuarios de varias GRID ( por ejemplo, todos los experimentos del LHC usan grid multiples al mismo tiempo para sus DC) –Infrastructura de Producción (LCG/EGEE) Uso intensivo Por ejemplo, LHCb, > 3500 jobs concurrentes durante largos períodos (semanas), ATLAS: mas de 6000 jobs usando multiples GRIDs – LCG, GRID3, NorduGrid Campañas de simulaciones complejas usando servicios de alto nivel desarrollados en la comunidad de HEP para la coordinación general, distribución de datos, monitor, uso de grids heterogeneos Se ha comenzado el Uso de infraestructura de LCG2 para análisis (sistema expuesto a usuarios finales). Ejemplo: en CMS Actividad en otros experimentos HEP usando LCG2 (BaBar, CDF, D0, …) APLICACIONES CIENTIFICAS EN GRID José Salt 18
–Papel de ARDA en el desarrollo de aplicaciones y en test de middleware: Ayudando a la evolución de mw específico de experimentos hacia el uso de análisis: Gran esfuerzo en los prototipos de los 4 experimentos Prototipo de CMS migrada a la versión 1 de gLite y expuesto a varios usuarios Reacción inmediata sobre la utilización del prototipo de gLite justo desde el principio de EGEE. Contribution to the common testing effort together with JRA1, SA1 and NA4- testing Contribucióon al esfuerzo de test común junto con la labor de test de JRA1, SA1 y NA4 Medidas detalladas de performance/funcionalidad. Ayuda a nuevos colegas a conseguir experiencia (mini tutorial) ARDA= A Realisation of Distributed Analysis for LHC APLICACIONES CIENTIFICAS EN GRID José Salt 19
Ejemplo: trabajo GRID ATLAS (Jul 2004 Julio-Marzo 05) DC2 (long jobs period) DC2 (short jobs period) Mix of jobs Prep for ‘Rome’ ~ 660K jobs total in (LCG,Nordugrid,US Grid3) ~400 kSI2k years of CPU In latest period average ~7K jobs/day with ~5K in LCG APLICACIONES CIENTIFICAS EN GRID José Salt 20
LCG Deployment Schedule APLICACIONES CIENTIFICAS EN GRID José Salt 21
4 Los retos de Biomed se centran más en: (a) conseguir un acceso transparente a diferentes Bases de Conocimiento (b) que se respeten los requisitos de privacidad de datos (anonimización de los individuos), c ) incorporar nuevos requerimientos para poder usar imágenes y señales 4 Comunidad científica con un ‘acoplamiento más debil’ que la de FAE 4 Han tenido que recorrer un largo camino para conseguir tener más agilidad: –VO creation and core services installation –Creación de VO e instalación de servicios CORE –Puesta en marcha de un grupo de expertos- –Se han unido recientemente al User Support al nivel de apliaciones Aplicaciones Biomédicas APLICACIONES CIENTIFICAS EN GRID José Salt 22
4 situación en aplicaciones: –Lista en la web: –Hay 12 aplicaciones corriendo acualmente 4 Nuevas aplicaciones: –Imágenes médicas, Bioinformática, Filogenética, estructuras moleculares y descubrimiento de fármacos Grown to a significant infrastructure usage –29kCPU horas y jobs declarados en Enero APLICACIONES CIENTIFICAS EN GRID José Salt 23
Aplicación Biomédica con cálculo intensivo 4 Aplicación para el descubrimiento de fármacos (usando EGEE) –Colaboración entre LPC (CNRS, Francia) – SCAI (Fraunhofer Alemania) collaboration –Targets de la enfermedad de la malaria ( 1 millón de muertes/año) 4 Planes para los Data Challenges (durinte el verano) 4 Evaluación de millones de fármacos potenciales en pocas semanas Numero de ‘blancos’ Numero de fármacos candidatos Total tiempo CPU Ganancia en tiempo Realizado 1 10^5 188 days 149 Reto ^6 80 years? ? APLICACIONES CIENTIFICAS EN GRID José Salt 24
Dr. Martin Hoffmann: “ The GRID could be the catalyst for drug development that brings together the actors – biochemists, physicians and computacional chemists- and pushes then In the same direction ” APLICACIONES CIENTIFICAS EN GRID José Salt 25
Biomedical Applications Descriptions APLICACIONES CIENTIFICAS EN GRID José Salt 26
Objetivo de NA4. Identificación y soporte de aplicaciones incluyendo tareas tales como soporte de aplicaciones piloto e identificando nuevos usuarios . Identificar a través de los socios de divulgación y los procesos de integración bien definidos una ‘cartera’ de aplicaciones procedentes de un amplio espectro de especialidades; Mantener el uso de desarrollo y producción de todas estas aplicaciones en la infraestructura de EGEE y establecer una base fuerte de usuarios sobre la que construir un comunidad amplia. Inicialmente EGEE se ha focalizado en dos áreas bien definidas: Física de Partículas y Ciencias de la Vida Aplicaciones Genéricas (NA4) APLICACIONES CIENTIFICAS EN GRID José Salt 27
APLICACIONES CIENTIFICAS EN GRID José Salt 28
Criterios usados para las recomendaciones: El EGAAP ( EGEE Generic Applications Advisory Panel): se encarga de facilitar el despliegue de potenciales nuevas aplicaciones en la infraestructura GRID del EGEE. Esta comisión utilizará los siguientes criterios para elaborar sus recomendaciones: 1)Interés científico del trabajo propuesto, con énfasis en el valor añadido de GRID 2)Valor añadido para EGEE al tener esta aplicación ‘corriendo’ en su infraestructura 3)Coordinación de la comunidad implicada 4)Motivación y disponibilidad GRID de dicha comunidad 5)Al menos un pequeño equipo siga el training de EGEE 6)Dedicación de esta comunidad a dicha aplicación 7)Que suscriban los acuerdos de políticas de EGEE, especialmente lasde seguridad y de reserva de recursos APLICACIONES CIENTIFICAS EN GRID José Salt 29
4.-ASPECTOS DEL GRID PARA EL SOPORTE DE APLICACIONES APLICACIONES CIENTIFICAS EN GRID José Salt 30
4 Actividad en los prototipos experimentales –Esperar a que se despliegue gLite 1.0 en una infraestructura mayor ( servicio de pre-producción) –Trabajo de preparación (migración) sobre el prototipo 4 Aspectos relevantes para FAE –Esfuerzo especial en el prototipo de CMS. Se han implicado a varios usuarios. –Rediseño importante de GANGA ( prototipo de LHCb) Major redesign of Ganga (LHCb prototype). Prototipos para los experimentos APLICACIONES CIENTIFICAS EN GRID José Salt 31
4 Test de gLite mediante aplicaciones biomédicas –Comprobaciones genéricas: dificultades en testear en un entorno de desarrollo, se necesita de una infraestructura estable de preproducción; –VOMS, Gestión de datos, instalación… –Despliegue de aplicaciones: empezará con un número limitado de aplicaciones 4 Test de gLite mediante aplicaciones genéricas –Despliegue adecuado de gLite en GILDa –Ya se han enviado jobs de tests –Se hara ‘porting’ pronto de aplicaciones genéricas en gLite APLICACIONES CIENTIFICAS EN GRID José Salt 32
4 Perspectivas ( con vistas a EGEE-2) –Test intensivo para FAE –Integración de la nueva VO de Biomed –Acceso de comunidades genéricas facilitado por GILDA –Definir una capa de aplicaciones comunes de alto nivel: Continuan muchos requisitos de alto nivel (scheduling de nivel de aplicación, interactividad, workflows, integración de datos...) necesidad de integración de otras herramientas de proyectos o desarrollos de nivel de aplicaciones Construir aplicaciones multidisciplinarias encima de los servicios de lato nivel: – facilitar que se desarrollen nuevas aplicaciones –Traspasar fronteras entre areas de aplicación APLICACIONES CIENTIFICAS EN GRID José Salt 33
5.-OTROS EJEMPLOS DE APLICACIONES DEL EGEE APLICACIONES CIENTIFICAS EN GRID José Salt 34
4 Grid Protein Sequence Analysis –NPSA es un portal web que oferta bases de datos de proteinas y algoritmos de análisis de secuencias para los bioinformáticos es una versión gridificada con un potencia computacional incrementado –Necesidad de procesado de un gran número de pequeños trabajos Colas cortas para trabajos cortos –Necesidad de un acceso eficiente de ficheros protocolo de aceso de datos tipo fichero APLICACIONES CIENTIFICAS EN GRID José Salt 35
Descubrimiento de nuevas drogas 4 plataforma de docking para enfermedades tropicales –Descubrimiento de drogas ‘in silico’ para enfermedades ( malaria) –Search for potential drugs in a database of 3.3 millions ligands –Búsqueda de drogas potenciales en una base de datos de 3.3 millones de agragaciones – cálculo de docking molecular –necesidad de procesar bases de datos muy grandes: registro de millones de ficheros –Nrecesidad de procesar muchos ficheros para un trabajo dado: JDLTrabajos con miles de ficheros I/o APLICACIONES CIENTIFICAS EN GRID José Salt 36
análisis de imágenes médicas 3D 4 gPTM3D – herramienta interactiva para segmentación y análisis de imágenes medicas – ya se ha distribuido una versión no gridificada por varios hospitales –necesidad de un scheduling rápido para tareas interactivas scheduler de nivel de aplicación implementado –Necesidad de conectividad para interactividas: APLICACIONES CIENTIFICAS EN GRID José Salt 37
6.-CONCLUSIONES APLICACIONES CIENTIFICAS EN GRID José Salt 38
4 Las aplicaciones son el motor de los avances del GRID 4 Las diferentes áreas científicas poseen unas características propias cuando plantean sus aplicaciones y el GRID aporta soluciones a los problemas que surgen en su elaboración. 4 El GRID no solo es una solución a una serie de problemas de la sociedad de la Información, también proporciona un entorno y un cambio en la forma de de seguir las metodologías científicas utilizadas hasta el momento 4 Middleware y aplicaciones están intimamente relacionados. Las actualizaciones y tests de middleware se plantean en función de las nuevas funcionalidades de las aplicaciones APLICACIONES CIENTIFICAS EN GRID José Salt 39
4 Se está avanzando en la implantación del GRID en diferentes disciplinas científicas (genéricas) aunque se encuentran en niveles muy diferentes 4 Importancia en establecer aplicaciones científicas multidisciplinares APLICACIONES CIENTIFICAS EN GRID José Salt 40