Primer Taller Latino Americano de Administradores de Grid Instalación de CE y WN LCG Jesús De Oliveira Universidad Simón Bolívar.

Slides:



Advertisements
Presentaciones similares
Experiencias en la Construcción de Portales para Grids Computacionales en la USB Yudith Cardinale, PhD Universidad Simón Bolívar Abril 2006 II Taller Latinoamericano.
Advertisements

E-science grid facility for Europe and Latin America Instalación del Computing Element (CE) Vanessa Hamar Grupo Grid Universidad de Los.
JUAN CARLOS RAMIREZ NUÑO JONATAN HERNANDEZ ALCOCER
Firewalls COMP 417.
Proyecto e-CA: Organización Virtual y Testbed Susana Sánchez Expósito José Ruedas Sánchez II Reunión de e-Ciencia Andaluza 16-17, Octubre 2008.
Sistema de producción de datos de ATLAS Julio Lozano Bahilo Universidad de Granada.
“GUI para Conexiones y Transferencia de Datos Seguros”
LIBRO DE CLASES ELECTRONICO, Guía de instalación Aplicaciones
Aplicación informática. formando parte de una red. pone sus recursos a disposición de las demás computadoras(clientes) de la red. Maneja información.
Carlos Rojas Kramer Universidad Cristóbal Colón
DIRECT ACCESS.
Nanci Abarca Pablo Cruz Gabriela Palacios Cisne Sarmiento
Servicio de terminal remoto 1Jesús Torres Cejudo.
Tema 5 SRI Vicente Sánchez Patón I.E.S Gregorio Prieto
Los servicios de red son la fundación de una red de trabajo en un ambiente de computadoras. Generalmente los servicios de red son instalados en uno o.
Servicios SFTP/SCP. Gabriel Montañés León.
Marco Benzi Eduardo González Matías Müller Redes de Computadores I - ELO 322.
SQL Server Integration Services SSIS
EJEMPLO MANEJO DE ARCHIVOS
Universidad Autonoma del Estado de Hidalgo, México Autor: Jonathan Christian Olvera Martinez.
Condor.
PROTOCOLOS Un protocolo es un conjunto de reglas que hacen que la comunicación en una red sea más eficiente.
Coordinador e Instructor de Academia Cisco
Evaluación de Productos
ARIS-G: Software de Monitoreo Geomecánico de Superficies
Integración de VOs y middleware para EGEE
DÍAZ OSCAR IVÁN HOYOS ANDRÉS FELIPE ORDOÑEZ JOSÉ LUIS INFORMÁTICA, SEMESTRE II.
Primer Taller Latino Americano de Administradores de Grid Storage Element Vanessa Hamar Noviembre del 2005 Mérida Venezuela.
Sistemas Operativos Distribuidos Plataforma Cliente/Servidor
Lineamientos de Pruebas Integrales del GRP Financiero
Implementación y administración de DHCP
FIREWALLS.
ASP.NET es una nueva y potente tecnología para escribir páginas web dinámica. Es una importante evolución respecto a las antiguas páginas ASP de Microsoft.
66.69 Criptografía y Seguridad Informática FIREWALL.
Grids. Cluster High-availability (HA) Clusters (Linux HA) Load-balancing Clusters (Platform LSF HPC, Sun Grid En gine, Moab Cluster Suite and Maui Cluster.
E-science grid facility for Europe and Latin America WMS+LB BDII Instalación y configuración Jesus De Oliveira Universidad Simón Bolívar.
E-science grid facility for Europe and Latin America SE-DPM Instalación y configuración Jesus De Oliveira GRyDs: Grupo de Investigación.
Primer Taller Latino Americano de Administradores de Grid The Workload Management System Vanessa Hamar Noviembre del 2005 Mérida - Venezuela.
AXEL LATORRE GABRIEL VALENZUELA GIAN PAOLO ALMEIDA ROMMEL CHIFLA ISABEL VILLEGAS INTEGRANTES.
Microsoft RMS Headquarters
RESUMEN CAPITULO 6.
En este capitulo se analizo la relación entre cliente y servidor de red habituales, como: HTTP FTP DNS DHCP Correo Electrónico INTRODUCCIÓN.
Capítulo 5: Routing entre VLAN
Servicios en Red UT5. Servicios FTP.
HERRAMIENTAS DE ADMINISTRACION Y MONITOREO DE REDES
Modelo OSI Surgimiento del Modelo OSI ¿Que es el Modelo OSI?
Jorge De Nova Segundo. SSH File Transfer Protocol (también conocido como SFTP o Secure File Transfer Protocol) es un protocolo del nivel de aplicación.
TIPOS DE PRUEBAS DEL SOFTWARE
Punto 2 – Elementos de Correo Juan Luis Cano. Para que una persona pueda enviar un correo a otra, cada una ha de tener una dirección de correo electrónico.
Luis Villalta Márquez. Servidores de nombres de dominio (DNS)
INSTITUTO TECNOLÓGICO SUPERIOR DE LIBRES Organismo Público Descentralizado del Gobierno del Estado de Puebla INGENIERÍA EN SISTEMAS COMPUTACIONALES INTEGRACIÓN.
Protocolos de comunicación TCP/IP
Luis Villalta Márquez Servicios SFTP/SCP. SFTP SSH File Transfer Protocol (también conocido como SFTP o Secure File Transfer Protocol) es un protocolo.
PROTOCOLOS DE COMUNICACIÓN PRESENTAN: GUADALUPE MORALES VALADEZ ESTELA ORTEGA AGUILAR IRAIS UGARTE BAUTISTA LAURA ARELI JERONIMO FLORES ANA LILIA CONDE.
Diseño de Redes - Capítulo 3
¿QUE ES INTERNET? La Internet es una red de redes. Actualmente conecta miles de redes para permitir compartir información y recursos a nivel mundial. Con.
Errores comunes al instalar SQL Server 2008
Unidad 4. Servicios de acceso remoto
FTP Funcionamiento de FTP Funcionamiento de Cliente FTP
Modelo OSI.
18/02/2016Diego Alberto Rincón Yáñez, Pontificia Universidad Javeriana, 1.
TEAMVIEWER. Que es Teamviewer? TeamViewer es un software que nos permite ofrecer asistencia remota y compartir archivos entre dos o más equipos remotos.
WINDOWS SERVER 2008 r2 ADMINISTRACION DE RECURSOS: Con el Administrador de recursos del sistema de Windows del sistema operativo Windows Server® 2008 R2,
SEBASTIÁN RIVERA CHENG APLICATIVO DE AUTOEVALUACIÓN DE LAS ENTIDADES PÚBLICAS EN LA CALIDAD DE LA ATENCIÓN PRESTADA A LA CIUDADANÍA SEBASTIÁN RIVERA CHENG.
EGEE-III INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Architecture of the gLite Data Management.
EGEE-III INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks The gLite Information System Virginia Martín-Rubio.
EGEE-III INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Proxy Management with the gLite API Virginia.
¿QUE ES EL TEAMVIEWER? ES UN SOFTWARE CUYA FUNCIÓN ES CONECTARSE REMOTAMENTE A OTRO EQUIPO. ENTRE SUS FUNCIONES ESTÁN: COMPARTIR Y CONTROLAR ESCRITORIOS,
ALICE GRID en México 19 de junio de 2007 Autores: Luciano Diaz, Lukas Nellen, Pedro Podesta Co-autores: Patricia Méndez, Kitzia Lubreras, Hans Reyes, Latchezar.
The EPIKH Project (Exchange Programme to advance e-Infrastructure Know-How) Instalación rapida de: lcg-CE+siteBDII+WN Luciano Diaz
Transcripción de la presentación:

Primer Taller Latino Americano de Administradores de Grid Instalación de CE y WN LCG Jesús De Oliveira Universidad Simón Bolívar

2 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Temario Introducción –Componentes del CE y el WN –Comunicación entre componentes  Envío de trabajos  Monitoreo y descubrimiento de recursos Instalación con YAIM –Pasos preliminares –Archivos de configuración –Script de instalación –Script de configuración Diagnostico de la instalación –Metodología del diagnóstico –Problemas frecuentes

3 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Introducción CE: Computing Element –Interfaz entre el GRID y el “recurso de cómputo” (cluster) –Recibe los trabajos desde el Resource Broker (RB) y los envía al manejador de colas local (Batch System) WN: Worker Node –Nodo de cómputo donde finalmente son ejecutados los trabajos

4 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Introducción Componentes mas importantes del CE: –Globus Resource Allocation Manager (GRAM) –Cliente del manejador de colas –Master del manejador de colas (por lo general) Componentes mas importantes del WN: –Slave del manejador de colas –Software globus para transferencia de archivos (grid-ftp)

5 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Introducción Comunicación: Envío de trabajos –El RB envía el trabajo a través de Condor-G al GRAM Gatekeeper en el CE  Job Wrapper  GRAM Sandbox –El GRAM Gatekeeper encola el trabajo en el Batch System  globus-job-manager: Interfaz entre globus y el manejador de colas  grid-monitor: Determina el estado del trabajo en el manejador de colas –El manejador de colas asigna el trabajo a uno o varios nodos (WN’s) –El Job Wrapper comienza a ejecutarse en el WN  Transfiere el GRAM Sandbox desde el CE a través de scp (depende del manejador de colas)  Descarga desde el RB el InputSandbox del trabajo, a través de grid-ftp  Redirecciona la entrada/salida estándar y de error y ejecuta el programa del usuario

6 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Introducción Comunicación: Envío de trabajos (cont.) –Durante la ejecución del trabajo en el WN  El grid-monitor consulta el estado del trabajo en el Batch System y lo comunica al RB a través de callbacks –Al finalizar el trabajo (termina el ejecutable del usuario)  El Job Wrapper sube el Output Sandbox al RB vía grid-ftp  Termina el trabajo en el Batch System  El grid-monitor detecta y notifica la finalización del trabajo al RB  El RB reinicia en el CE el globus-job-manager para limpieza y para transferir el Output Sandbox al RB, también vía grid-ftp En toda comunicación entre nodos se realiza la autenticación GSI –Certificado Proxy del usuario –Certificado de host

7 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Introducción Comunicación: Monitoreo y descubrimiento –Sistema de información basado en Globus MDS –Se usa el protocolo LDAP para el intercambio de información, de acuerdo al GLUE Schema –En el CE corre un GRIS (Grid Resource Information System) que reporta el estado del recurso de cómputo  Número de CPUs  Trabajos encolados y en ejecución  Software instalado en el recurso  SEs cercanos al recurso  etc... –Utiliza comandos específicos del manejador de colas local para obtener información de su estado (p.e. pbsnodes)

8 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Introducción Comunicación: Monitoreo y descubrimiento (cont.)

9 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Instalación con YAIM Pasos preliminares –Establecer el nombre completamente calificado del host en el archivo /etc/hosts –Los nodos deben estar sincronizados con NTP  ntpq –p  ntpstat –Firewall:  Es recomendable desactivar el servicio iptables en los nodos, y correr un firewall que proteja al site completo, en un nodo dedicado chkconfig iptables off /etc/init.d/iptables stop –Certificados X.509 de hosts  La clave privada debe estar desencriptada openssl rsa uncriptedhostkey.pem  Asegurarse de poseer los certificados de las autoridades certificadoras en /etc/grid-security/certificates

10 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Instalación con YAIM Descripción del proceso de instalación –YAIM: Conjunto de scripts para facilitar la instalación y configuración de los paquetes LCG –Descarga e instala los RPMs correspondientes a cada “meta- paquete” utilizando apt –Configura cada componente a partir de archivos de configuración general del site: site-info.def, wn-list.conf y users.conf –Para descargar e instalar YAIM:  wget deployment/gis/yaim/lcg-yaim noarch.rpm  rpm –ivh lcg-yaim noarch.rpm

11 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Instalación con YAIM Archivos de configuración: site-info.def –Este archivo es “sourced” por los scripts de instalación y configuración –Variables requeridas para configurar el CE y WNs con el manejador de colas torque  MY_DOMAIN=  CE_HOST=  SE_HOST=  RB_HOST=  PX_HOST=  BDII_HOST=  MON_HOST=  REG_HOST=  LFC_HOST=  WN_LIST=  USERS_CONF=  LCG_REPOSITORY=  INSTALL_ROOT=

12 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Instalación con YAIM Archivos de configuración: site-info.def (cont.)  JAVA_LOCATION=  CRON_DIR=  GLOBUS_TCP_PORT_RANGE=“ ”  GRID_TRUSTED_BROKERS=“ ”  GRIDMAP_AUTH=“...“  SITE_ =  SITE_NAME=“ ”  SE_TYPE=  JOB_MANAGER=  CE_BATCH_SYS= (torque)  CE_CPU_MODEL= (PIII: pentium III)  CE_CPU_VENDOR= (intel)  CE_CPU_SPEED=  CE_OS=  CE_OS_RELEASE=  CE_MINPHYSMEM=

13 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Instalación con YAIM Archivos de configuración: site-info.def (cont.)  CE_MINVIRTMEM=  CE_SMPSIZE=  CE_SI00=  CE_SF00=  CE_OUTBOUNDIP=  CE_INBOUNDIP=  CE_RUNTIMEENV=“..."  CE_CLOSE_SE=“..."  CE_CLOSE_ _HOST=  CE_CLOSE_ _ACCESS_POINT=  DPM_HOST=  BDII_HTTP_URL=“...”  BDII_REGIONS=“... ”  BDII_ _URL=“<url del productor de información MDS”

14 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Instalación con YAIM Archivos de configuración: site-info.def (cont.)  QUEUES=“...”  VO_SW_DIR=  VOS=“...” (organizaciones virtuales soportadas)  VO_ _SW_DIR=  VO_ _DEFAULT_SE=  VO_ _SGM=“ ”  VO_ _USERS=“ ”  VO_ _STORAGE_DIR=  VO_ _QUEUES=“..”  VO_ULA_VOMS_RB= (si existe)

15 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Instalación con YAIM Archivos de configuración: users.conf –Lista de cuentas pool unix a donde son “mapeados” los usuarios (de acuerdo a la organización virtual a la que pertenecen)  UID:LOGIN:GID:GROUP:VO:SGM_FLAG UID: Id de la cuenta pool LOGIN: nombre de usuario de la cuenta pool GID: Id del grupo GROUP: nombre del grupo VO: nombre de la organización virtual SGM_FLAG: es Software Manager? (si = “sgm”) Archivos de configuración: wn-list.conf –Lista de hostnames de los WNs

16 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Instalación con YAIM Script de instalación – /opt/lcg/yaim/scripts/install_node lcg-CE- torque – /opt/lcg/yaim/scripts/install_node lcg-WN- torque –Es posible instalar en un mismo host ambos tipos de nodo –Prestar atención a la salida de los scripts para detectar problemas en la instalación –Problema común: variables con espacios intermedios:  MYDOMAIN = labf.usb.ve (incorrecto)  MYDOMAIN=labf.usb.ve (correcto)  Se puede validar el archivo site-info.def: source site-info.def

17 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Instalación con YAIM Script de configuración – /opt/lcg/yaim/scripts/configure_node CE_torque – /opt/lcg/yaim/scripts/configure_node WN_torque –Prestar atención a la salida de los scripts para detectar problemas de configuración –IMPORTANTE: Configurar primero el CE y luego los WNs  Los esclavos de torque en los WNs deben poder comunicarse con el master durante la configuración –En caso de problemas es recomendable reconfigurar todo de nuevo

18 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Diagnostico de la instalación Metodología para el diagnóstico –Examinar los logs de los diversos componentes:  /var/log/messages  /var/log/globus-gatekeeper.log en el CE  /var/log/globus-gridftp.log en los WNs  /var/spool/pbs/server_logs en el CE  /var/spool/pbs/mom_logs en los WNs –Probar el funcionamiento aislado de los componentes, a partir de las capas de mas bajo nivel:  SCP desde los WNs al CE y viceversa, desde las cuentas pool, sin password su - scp :/etc/redhat-release /tmp/prueba

19 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Diagnostico de la instalación Metodología para el diagnóstico –Envío de trabajos directamente a torque  Desde el CE: su - qsub –q  Se debe ver el trabajo con qstat  Al finalizar, se deben generar los siguientes archivos:.o (salida estándar).e (salida de error) –Envío de trabajos a través de globus  Desde el UI: grid-proxy-init globus-job-run :2119/jobmanager-lcgpbs –q /bin/hostname  Se debe ver el nombre de host donde se ejecutó el trabajo –Envío de trabajos con edg-job-submit  Usar el atributo Requirements = ( other.GlueCEUniqueID == " :2119/jobmanager-lcgpbs- " ); en el JDL para obligar la ejecución en el CE.

20 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Diagnostico de la instalación Problemas frecuentes –Problemas con la autenticación:  Por lo general los trabajos fallan por la siguiente razón: Failed to estabilish a security context  El problema es que el certificado del usuario o del host no es válido en alguna fase de la comunicación Sincronización de los nodos (NTP!) Falta el certificado de alguna autoridad certificadora en alguno de los extremos oopenssl –CApath /etc/grid-security/certificates El DN del usuario no se encuentra en /etc/grid-security/gridmap-file o/opt/edg/sbin/edg-mkgridmap /etc/grid- security/gridmap-file --safe  Los problemas de seguridad también causan que los trabajos fallen por otras razones

21 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Diagnostico de la instalación Problemas frecuentes –Problemas con SSH entre los WN y el CE  En los logs de Condor-G en el RB se observa: ( ) 02/01 17:42:02 Job was held. Unspecified gridmanager error Code 0 Subcode 0  En /var/log/messages se observan los intentos de autenticación fallidos  Verificar si desde las cuentas pool se puede conectar entre el CE y los WN, sin requerir password su ssh –vv (desde el WN) ssh –vv (desde el CE) Estar atentos a los mensajes de ssh en /var/log/messages  Regenerar los archivos ssh-knowhosts y shosts.equiv /opt/edg/sbin/edg-pbs-knownhosts /opt/edg/sbin/edg-pbs-shostsequiv

22 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Diagnostico de la instalación Problemas frecuentes –Problemas de transferencia de archivos  Los trabajos fallan por la siguiente razón: Couldn’t stage out a file  El CE no puede subir al RB el OutputSanbox  Verificar comunicación entre el CE y el RB con gridftp globus-url-copy –dbg file:///root/test.txt gsiftp:// /tmp/test.txt globus-url-copy –dbg gsiftp:// /tmp/test.txt file:///root/test.txt globus-url-copy –dbg file:///root/test.txt gsiftp:// /tmp/test.txt globus-url-copy –dbg gsiftp:// /tmp/test.txt file:///root/test.txt  Verificar firewalls: (iptables)

23 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Diagnostico de la instalación Problemas frecuentes –Problemas de transferencia de archivos  Los trabajos fallan por la siguiente razón: submit-helper script running on host lxb1761 gave error: cache_export_dir ( ) on gatekeeper did not contain a cache_export_dir.tar archive  El WN no pueden bajar del RB el InputSanbox  Verificar comunicación entre el WN y el RB con gridftp globus-url-copy –dbg file:///root/test.txt gsiftp:// /tmp/test.txt globus-url-copy –dbg gsiftp:// /tmp/test.txt file:///root/test.txt globus-url-copy –dbg file:///root/test.txt gsiftp:// /tmp/test.txt globus-url-copy –dbg gsiftp:// /tmp/test.txt file:///root/test.txt  Verificar firewalls: (iptables)

24 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Diagnostico de la instalación Problemas frecuentes –El recurso no se ve en el Information Index  lcg-infosites –vo no muestra el recurso  El envio de trabajos con edg-job-submit falla por la siguiente razón: Cannot plan: No compatible resources  Intentar conexión al CE directamente a través de ldap ldapbrowser URLs: oldap:// :2170/ oldap:// :2135/ Recomendaciones finales –Al modificar cualquier variable del site-info.def, reconfigurar TODO. –Estar atento a los diferentes logs para rastrear los problemas

25 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Preguntas

26 Enabling Grids for E-sciencE Primer Taller Latino Americano de Administradores de Grid Gracias!