2001 Ing. José L. Simón 1 Computación de Alta Disponibilidad Ing. José L. Simón Departamento de Sistemas e Informática Escuela de Ingeniería Electrónica.

2001 Ing. José L. Simón 1 Computación de Alta Disponibilidad Ing. José L. Simón Departamento de Sistemas e Informática Escuela de Ingeniería Electrónica FCEIA

2001 Ing. José L. Simón 1 Temario ● Nuevos escenarios, nuevos requerimientos ● Tolerancia a Fallas vs. Alta Disponibilidad ● Soluciones: SMP y Clusters ● Clusters: Conceptos ● Grids ● Conclusión

2001 Ing. José L. Simón 1 ● ● Nuevos escenarios, nuevos requerimientos ● ● Tolerancia a Fallas vs. Alta Disponibilidad ● ● Soluciones: SMP y Clusters ● ● Clusters: Conceptos ● ● Grids ● ● Conclusión Temario

2001 Ing. José L. Simón 1 Que es “Misión Crítica”? ● Cuando de un sistema informático depende la vida, la seguridad o la propiedad de las personas ● Incluso las instituciones sociales pueden verse afectadas por las fallas informáticas, por ejemplo, los escrutinios electorales ● Algunos ejemplos: ● Controladores de tráfico aéreo ● Tecnología médica ● Control y supervisión de industrias críticas ● Transporte ● Finanzas ● Seguridad

2001 Ing. José L. Simón 1 Campos de Aplicación (I) ● Service Providers: ● Datacenter ● Web hosting ● ASP ● Soporte Web ● Aplicaciones Corporativas: ● Enterprise Resource Planning ● Customer Relationship Management ● Supply Chain Management ● Billing & provisioning ● e-commerce

2001 Ing. José L. Simón 1 Campos de Aplicación (II) ● Computación Científica: ● Meteorología ● Física Experimental ● Cálculo Numérico ● Genética ● Industria Financiera: ● e-banking ● OLTP ● Font-End de mainframes ● Servicios Distribuidos

2001 Ing. José L. Simón 1 Tolerancia a Fallas ● Tolerancia a Fallas es la capacidad de un sistema informático de mantener servicio ante la presencia de fallas parciales: ● Sistema: ● Hardware ● Software de base ● Manteniemiento ● Aplicativos ● Ambiental (energía, temperatura) ● Operaciones ● Infraestructura de comunicaciones

2001 Ing. José L. Simón 1 Alta Disponibilidad ● Disponibilidad es el tiempo que un sistema es capaz de proveer servicio ininterrumpido a sus usuarios. ● Se mide como la razón entre el tiempo durante el que se provee servicio aceptable y el tiempo total de operaciones, en porcentaje. ● Las aplicaciones de misión crítica requieren 99,9% o mas. Estos valores se catalogan como Alta Disponibilidad (HA, High Availability)

2001 Ing. José L. Simón 1 Parámetros de Disponibilidad DisponibilidadDowntime anual 99%87 horas 36' 99.5%43 horas 48' 99.95% 4 horas 23' 99.99% 53' 99.999% 5' Alta disponibilidad

2001 Ing. José L. Simón 1 Disponibilidad Continua ● Implica un servicio non stop, sin interrupciones. ● Representa un estado ideal, generalmente usado para sistemas de HA en los cuales no son tolerables caídas de servicio. ● Conceptualmente es diferente de la alta disponibilidad.

2001 Ing. José L. Simón 1 Fallas ● Las fallas pueden caracterizarse en dos tipos: De parada: El sistema, recurso o aplicación deja de responder por completo. Son las mas fáciles de detectar -algo “no funciona”- Bizantinas: El componente en falla no deja de funcionar pero expone comportamientos no previstos o incorrectos. Son difíciles de detectar y pueden afectar a otros componentes, provocando funcionamiento defectuoso de parte o todo el sistema.

2001 Ing. José L. Simón 1 MTBF ● Mean Time Between Failures, es una medición estadística de la probabilidad de falla de un componente. ● Se especifica en horas y da una idea del grado de confiabilidad del componente ● Los componentes actuales de alta calidad tienen MTBF del rango del millón de horas

2001 Ing. José L. Simón 1 Punto Unico de Falla ● Se denomina así (SPOF, Single Point Of Failure) a todo componente de un sistema informático que, si falla, es capaz de impedir el funcionamiento de todo el conjunto. ● Los sistemas tolerantes a fallas (fault tolerant) evitan la existencia de SPOF's utilizando redundancia. ● Ejemplos: Fuentes de alimentación, buses, cpu's, almacenamiento, etc.

2001 Ing. José L. Simón 1 SPOF: Ejemplo Base de Datos El servidor es punto único de falla

2001 Ing. José L. Simón 1 Downtime Es el tiempo durante el cual un sistema no brinda servicio. Se divide en planeado y no planeadoDowntimePlaneado Downtime No Planeado No PlaneadoManteniemiento de Rutina Operaciones ErrorHumano Falla de Datos & Desastre Fallas del Sistema

2001 Ing. José L. Simón 1 Failover ● Cuando un componente de un sistema HA falla produciendo pérdida de servicio, el control de HA arranca el servicio afectado en otro componente del sistema. ● Implica una transferencia de servicio, conocida como Failover ● El tiempo que demanda esta acción es un parámetro esencial para calificar el nivel de servicio del sistema

2001 Ing. José L. Simón 1 Caracterización ● SMP (Symmetric Multi Processing) es un solo equipo con múltiples procesadores corriendo una copia única del SO. ● La perfomance puede mejorarse agregando mas procesadores, memoria o almacenamiento. ● Un cluster es la agrupación de dos o mas equipos (nodos) funcionando como una entidad única que provee cooperativamente aplicaciones, recursos y datos a los usuarios.

2001 Ing. José L. Simón 1 SMP: Modelo PCI, CompactPCI or SBus PCI, CompactPCI I/O CPU Memory (32 GB) CPU Memory (32 GB) CPU Memory (32 GB) CPU Memory (32 GB) CPU Memory (32 GB) CPU Memoria Procesadores y memoria System BusI/O: Red, almacenamiento, etc. Bus Control

2001 Ing. José L. Simón 1 SMP: Arquitectura

2001 Ing. José L. Simón 1 Procesamiento Paralelo Masivo

2001 Ing. José L. Simón 1 Cache Coherent Non-Uniform Memory Access (Sequent)

2001 Ing. José L. Simón 1 Cluster

Cluster (cont.) Interconnect Nodo #2 IP cluster Nodo #1 System IP a IP b Global File System Global Network / IP Devices / FileSystems Global Devices IP c

2001 Ing. José L. Simón 1 Que es un Cluster? Un Cluster es un sistema paralelo y/o distribuido, consistente en una colección de computadoras autónomas interconectadas, que es utilizado como un recurso computacional unificado

2001 Ing. José L. Simón 1 Clusters: Requerimientos ● Disponibilidad ● Escalabilidad: vertical y horizontal ● Administrabilidad ● Calidad de Servicio ● Administración de cargas ● Seguridad

2001 Ing. José L. Simón 1 Componentes de un Cluster ● Nodos: cada uno de los equipos participantes del cluster, aportando CPU, memoria e I/O ● Interconnect ● I/O ● Cluster Manager

2001 Ing. José L. Simón 1 Nodos ● Múltiples componentes de alta perfomance individual: ● Workstations ● SMP's ● PC's ● Clusters  Metacomputing, “Clusters de clusters” ● Pueden ser heterogéneos, es decir: ● Distintas arquitecturas ● Distintos S.O.

2001 Ing. José L. Simón 1 Sistemas Operativos ● Linux (Beowulf) ● MS Windows NT (Illinois HPVM, MSCS) ● MS Windows 2000 (MS Cluster Service) ● Sun Solaris (Sun Cluster, Berkeley NOW) ● HP-UX (Illinois Panda, HP MC) ● IBM AIX (IBM SP Unix Cluster) ● IBM S/390 (IBM SysPlex) ●...

2001 Ing. José L. Simón 1 Interconnect ● Es el vínculo de alta velocidad que enlaza a los nodos. ● Tecnologías: ● Fast Ethernet (100 Mbps) ● Gigabit Ethernet (1 Gbps) ● ATM ● Myrinet (1.2 Mbps) ● FDDI ● El interconnect conforma una red privada entre los nodos de baja latencia y alta disponibilidad.

2001 Ing. José L. Simón 1 Software de Interconexión ● Capa de software que provee la comunicación de procesos sobre el interconnect privado ● Socket, pipes, etc. basados en TCP/IP ● Protocolos Ligth Weight : ● Active Messages ● Fast Messages ● U-Net ●... ● Protocolos propietarios

2001 Ing. José L. Simón 1 Cluster Middleware ● Reside entre el SO y las aplicaciones y provee la infraestructura de soporte para: ● Single System Image ● System Availability ● SSI muestra a los recursos del cluster como una sola máquina -un solo IP, un solo hostname, etc. ● SA provee mecanismos de checkpointing y migración de procesos

2001 Ing. José L. Simón 1 Single System Image ● SSI provee una visión centralizada de los recursos del cluster. ● Maximiza el aprovechamiento de recursos mediante resource pools y administración. ● Brinda mayor escalabilidad y abstracción ● Un cluster puede brindar así servicios equivalentes a un computador SMP mas costoso.

2001 Ing. José L. Simón 1 Beneficios de SSI ● Uso transparente de recursos ● Balanceo de cargas y migración de procesos transparente ● Mas confiabilidad y mayor disponibilidad ● Mayor perfomance y mejor tiempo de respuesta ● Simplificación de la administración

2001 Ing. José L. Simón 1 Servicios de SSI ● Unico punto de entrada ● Unica jerarquía de filesystems ● Unico punto de control ● Virtual Networking única ● Unico espacio de memoria ● Unica interface de usuario: CDE, MS- Windows, KDE, Gnome, Web, etc.

2001 Ing. José L. Simón 1 Servicios de Disponibilidad ● Espacio de E/S único: cada nodo accede a todos los periféricos independientemente de su localización. ● Espacio de Procesos único: todos los procesos, independientemente del nodo en que se crean pueden comunicarse con el resto en forma transparente. ● Checkpointing: salva el estado de los procesos y los resultados intermedios a disco para soportar rollback cuando el nodo falla.

2001 Ing. José L. Simón 1 Global Filesystem

2001 Ing. José L. Simón 1 Checkpointing

Aplicaciones ● Un cluster puede ejecutar dos tipos de aplicaciones: ● Secuenciales ● Paralelas (Cluster aware-apps) ● Aplicaciones científicas computación-intensivas: meteorología, química cuantica, biología molecular, etc. ● Web servers ● Data mining

2001 Ing. José L. Simón 1 Clasificación de Clusters ● Basados en el foco: ● Clusters de alta perfomance (HP) ● Aplicaciones de alta carga de procesamiento. ● Clusters de alta disponibilidad (HA) ● Aplicaciones de misión crítica ● Basadas en heartbeat sobre el interconnect

2001 Ing. José L. Simón 1 Arquitecturas HPC ● SISD Single instruction, single data mainframes, workstations, PCs. ● SIMD Single instruction, muliple data shared memory ● MIMD Multiple instruction, muliple data Shared memory Sequent, DGI, Sun ● MIMD Multiple instruction, muliple data Distributed memory IBM SP, Sun, HP MC

2001 Ing. José L. Simón 1 Cluster débilmente acoplados

2001 Ing. José L. Simón 1 Cluster fuertemente acoplado

2001 Ing. José L. Simón 1 Ejemplo: Sun Cluster

2001 Ing. José L. Simón 1 Topologias: clustered pairs

2001 Ing. José L. Simón 1 Topologías: N + 1

2001 Ing. José L. Simón 1 Topologías: Par + N

2001 Ing. José L. Simón 1 Shared Nothing Clusters

2001 Ing. José L. Simón 1 Shared All Clusters

2001 Ing. José L. Simón 1 Membresía ● Es el conjunto de nodos que puede comunicarse con cada uno del resto de los integrantes del grupo a través del interconnect. ● Está administrada por un Cluster Membership Manager distribuido que supervisa la entrada y salida de nodos al cluster. ● El CMM debe retirar del grupo a los nodos en falla, y reincorporarlos cuando están operacionales nuevamente.

2001 Ing. José L. Simón 1 Fallas de particionamiento ● Split Brain: el cluster se divide en dos o mas subgrupos autónomos, cada uno de los cuales cree ser el 'sobreviviente' ● Amnesia: cuando el cluster rearranca después de una caída con información de configuración inconsistente. ● Múltiples Instancias: varias copias de la misma aplicación corriendo en el cluster

2001 Ing. José L. Simón 1 Split Brain 

2001 Ing. José L. Simón 1 Split Brain (cont.) Es una situación que se da cuando un cluster sufre una falla que resulta en la reconfiguración en múltiples particiones, cada una sin conocimiento de la existencia de la(s) otra(s). Conceptualmente aparecen dos (o mas) clusters que se ignoran mutuamente. Esta situación puede dar lugar a colisiones en la utilización de recursos compartidos, por ejemplo, direcciones de red o almacenamiento compartido. El resultado de esta colisión puede ser catastrófico

2001 Ing. José L. Simón 1 Amnesia Es un modo de falla en el cual un nodo arranca con información de configuración del cluster incoherente. Mientras que el cluster está operacional, toda la información acerca del estado del cluster y de sus servicios es mantenida en el CCR, que es la memoria permanente del cluster. La amnesia es un error de sincronización, debido a que la información de configuración no fué propagada consistentemente a todos los nodos. Un ejemplo de esta situación se da cuando un nodo falla y el cluster es reconfigurado, excluyendo al nodo en falla. La información de configuración de este nodo no se actualiza mas, por lo que deviene incoherente con el resto. Si el nodo rearranca y trata de ingresar nuevamente en el cluster, debe resincronizar su información de configuración antes. Una situación peor puede darse si un nodo falla, el cluster es reconfigurado, mas tarde es sacado de servicio y posteriormente el nodo en falla es reiniciado. En este caso la información de configuración contenida en este nodo se presume correcta y se construye un nuevo cluster con información incoherente.

2001 Ing. José L. Simón 1 Instancias Múltiples Esta falla ocurre cuando una aplicación está diseñada para operar sobre datos asumiendo acceso exclusivo a los mismos, y se lanzan varias instancias de esa aplicación. Cuando esto pasa en una computadora existen varias formas de prevenir el problema, usando semáforos, lock files, mutexes, etc. En un entorno de cluster, la solución es mas dificultosa, dado que hay que chequear en cada nodo la existencia de instancias ya en ejecución.

2001 Ing. José L. Simón 1 Failover

Failover “En Frío” Nodo 1 Nodo 2

2001 Ing. José L. Simón 1 Failover “En Caliente” Nodo 1 Instancia ‘A’ Nodo 2 Instancia ‘A’

2001 Ing. José L. Simón 1 Proyectos de Investigación ● Beowulf (CalTech & NASA) ● Condor (Wisconsin Univ.) ● HPVM (High perfomance Virtual Machine, UIUC & UCSB) ● MPI (MPI Forum) ● NIMROD (Monash Univ, Australia) ● PVM (Paralell Virtual Machine, Oak Ridge Nat. Laboratory)

2001 Ing. José L. Simón 1 Clusters Comerciales ● Sun Cluster (Sun Microsystems) ● HP MC (Hewlett-Packard) ● IBM SysPlex & HACMP ● Microsoft Cluster Service for Windows 2000 (Microsoft Corporation) ●...

2001 Ing. José L. Simón 1 Computación de Alta Disponibilidad Ing. José L. Simón Departamento de Sistemas e Informática Escuela de Ingeniería Electrónica.

Presentaciones similares

Presentación del tema: "2001 Ing. José L. Simón 1 Computación de Alta Disponibilidad Ing. José L. Simón Departamento de Sistemas e Informática Escuela de Ingeniería Electrónica."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

2001 Ing. José L. Simón 1 Computación de Alta Disponibilidad Ing. José L. Simón Departamento de Sistemas e Informática Escuela de Ingeniería Electrónica.

Presentaciones similares

Presentación del tema: "2001 Ing. José L. Simón 1 Computación de Alta Disponibilidad Ing. José L. Simón Departamento de Sistemas e Informática Escuela de Ingeniería Electrónica."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback