Alta Disponibilitat en Linux

Alta Disponibilitat en Linux
sgi Alta Disponibilitat en Linux amb sgi Linux Failsafe Cristian Varela Ruiz

Justificació En moltes ocasions la interrupció total o parcial d’un servei pot suposar per a un negoci la pèrdua d’una quantitat important de diners. Diem que la disponibilitat d’un sistema està directament afectada per la quantitat de temps que està indisponible desprès de la fallada d’un dels seus components. Així doncs, podem diferenciar dos grans tipus de disponibilitat: Sistemes Tolerants a Fallades Sistemes ofereixen disponibilitat continua mitjançant software especialitzat i components redundants (tant de software com de hardware). Generalment són sistemes molt costosos. Sistemes Altament Disponibles Són sistemes que no sobreviuen a fallades múltiples però que proporcionen una disponibilitat molt elevada a un cost moltíssim més baix que els sistemes Tolerants a Fallades.

Justificació sgi (Silicon Graphics, Inc.) ha estat treballant durant l’últim any i mig en un projecte Open Source anomenat sgi Linux FailSafe que permet, d’una manera força econòmica, proveir a un sistema, no massa complicat, d’alta disponibilitat. Definicions bàsiques: Node: Entorn d’execució Linux, és a dir, una máquina física o virtual. Cluster: Conjunt de nodes emparellats dos a dos mitjançant una interconnexió, com per exemple una ethernet. Recurs: Unitat física o lógica que proveeix un servei als clients o a altres recursos. Per exemple, un recurs podria ser un volum de disk, un servidor web, una adreça IP, etcétera. Grup de Recursos: Conjunt interdependent de recursos. Per exemple un grup de recursos el podrien formar un servidor web i vàries adreces IP de les quals escolta. Per al bon funcionament del “grup de recursos” cal que tots els recursos que el formen funcionin adequadament. Failover: El Failover es el procés de alocatament d’un grup de recursos d’un node cap a un altre. Un Failover pot ser provocat per una fallada al servei o per una peticio de canvi manual efectuada per l’administrador.

Funcionament de Linux Failsafe
1. Servei normal. 2. Ocorre un error. Per exemple, el Servidor de Web (vermell) cau. 3. El servei migra transparentment a un altre node del cluster per poder seguir oferint el servei. Servidor de Dades Fitxers Web Servidor de Web Servidor de Web

Recursos susceptibles de ser monitoritzats
A la distribució original FailSafe porta un conjunt de tipus de recursos per defecte preparats per ser utilitzats. Alguns d’aquests recursos són els següents: Apache Web Server IP Adress Volume Filesystem Oracle Listener Samba Server ... De totes maneres FailSafe ens dóna la possibilitat de crear-ne de nous. El procés de creació d’un nou recurs no és massa complicat, entre d’altres coses, bàsicament es basa en la creació d’un script, dit monitor, que s’ha d’encarregar de saber si el servei en concret està funcionant correctament i passar-li aquesta informació, en un format concret, al FailSafe tal i com s’explica al “Linux FailSafe Programmer’s Guide”.

Components Hardware necessaris
Els components hardware necessaris per muntar un sistema d’alta disponibilitat són els següents: Un mínim de 2 nodes i un màxim de 9 (en un mateix cluster) Un mínim de 2 interfícies de xarxa, en cada node, per a la xarxa heartbeat de control. Altres components hardware opcionals són: Un mecanisme per resetejar nodes remotament des de un altre node del cluster. P. Ex: un cable NULL-MODEM entre cada dos màquines. Un dispositiu SCSI d’enmagatzemament compartit entre els nodes del cluster per tal de poder formar un sistema RAID-1 (o de mirroring).

Funcionamet intern de Linux FailSafe
Un cop instal·lat tot el sistema Hardware cal muntar la part software. Per posar un exemple real partirem d’una configuració hardware estàndar, en la que dos servidors comparteixen un disc SCSI i a més cadascun d’ells disposa de dues interfícies de xarxa (una per la xarxa públic i una altra per La privada (o xarxa de control heartbeat).

El primer pas serà definir el cluster, els nodes i els recursos que formaran part del sistema. Aquesta informació es guardarà en el dispositiu d’enmagatzemament compartit o bé es copiarà a tots el nodes a través de la xarxa de privada de control. Quan el sistema està funcionant, després d’haver activat els serveis d’HA (High Availavility), es posaran en marxa els “scripts monitors” de cada grup de recursos i cada màquina comprovarà que les seves veïnes en el cluster funcionin correctament a traves de la xarxa privada (HeartBeat). Quan falla un script monitor es provoca un Failover per passar el grup de recursos sencer, encara que només hagi fallat un determinat recurs de entre tots els del grup, cap a un altre node segons les polítiques de alocatació de Failover. Aquestes polítiques es defineixen en el mateix moment que es fa la definició del cluster, nodes, ...

L’altre cas en el que es provoca un Failover es quan, enlloc de fallar un script de monitorització, una màquina no respon a les peticions que li fan la seva veïna per la xarxa de control HeartBeat. Llavors es procedeix a la migració de tots els recursos que té la màquina que ha fallat distribuint-los d’acord amb la política específica de cada grup de recursos, De la mateixa manera que podíem crear scripts monitors personalitzats podem, també, crear polítiques personalitzades encara que les que es distribueixen per defecte amb el FailSafe són força adequades en la majoria dels casos (Round Robin, Seqüència ordenada de nodes, prioritats, ... ) En quant a manteniment per part dels administradors cal dir que existeixen dues maneres de portar-ho a terme. El més ràpid és accedint-hi a qualsevol màquina del cluster mitjançant SSH, Telnet, Rlogin, ... i entrar en el “Cluster Manager” que disposa en format CLI (Command Line Interface).

La alternativa es fer-ho amb una GUI (Graphical User Interface) molt més intuïtiva i lenta, ja que s’hi pot accedir via web amb qualsevol “Borwser” que suporti applets en Java. A més cal afegir l’inconvenient de que el applet en qüestió ocupa gairebé 4MB i s’ha de descarregar, CADA cop que s’hi vulgui accedir per qüestions de seguretat.

Miscelània Finalment cal dir que juntament amb el Linux Failsafe es poden posar altres programes de monitorització com l’ SPONG que ens dona informació, sobre el estat de determinades màquines, via web i que dóna la possibilitat de enviar s i missatges informatius a aparells busca-persones (Només a E.E.U.U. mitjançant el sistema SkyTel) als responsables del sistema.

Recursos i Bibliografia
- Homepage de sgi Linux FailSafe: - Altres webs interessants: - - Linux FailSafe Administrator's Guide - Linux FailSafe Programmer's Guide Totes dues guies estan disponibles a - Homepage del Spong: - Homepage de la distribució SuSE: - Homepage Linux Kernel’s archive:

Alta Disponibilitat en Linux

Presentaciones similares

Presentación del tema: "Alta Disponibilitat en Linux"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Alta Disponibilitat en Linux

Presentaciones similares

Presentación del tema: "Alta Disponibilitat en Linux"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback