IBM HACMP 资源中心.doc_第1页
IBM HACMP 资源中心.doc_第2页
IBM HACMP 资源中心.doc_第3页
IBM HACMP 资源中心.doc_第4页
IBM HACMP 资源中心.doc_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HACMP 认证学习系列,第 1 部分:入门摘自红皮书IBM eserver pSeries HACMP V5.x Certification Study Guide Update文档选项打印本页将此页作为电子邮件发送Dino Quintero, 高级认证 IT 咨询师, IBM2008 年 3 月 24 日本文包含对 IBM High Availability Cluster Multi-Processing (HACMP) for AIX 产品系列的介绍,以及作为 IBM 高可用性产品基础的概念。其中将讨论以下主题:什么是 HACMP?历史和发展高可用性概念高可用性与容错的对比什么是 HACMP?在解释什么是 HACMP 之前,我们必须定义高可用性的概念。高可用性在当今的复杂环境中,为应用程序提供连续的服务是成功的 IT 实现的重要组成部分。高可用性屏蔽或消除计划内和计划外的系统和应用程序停机时间,是帮助为应用程序客户端提供连续服务的组件之一。这是通过消除硬件和软件单点故障(single points of failure,SPOF)来实现的。高可用性解决方案将确保任何解决方案组件(无论是硬件、软件还是系统管理)的故障不会导致应用程序及其数据对用户不可用。高可用性解决方案应该通过适当的设计、规划、硬件选择、软件配置和精心控制的变更管理规程来消除单点故障 (SPOF)。停机时间停机时间是应用程序不能为其客户端提供服务的时间范围。可以将停机时间划分为: 计划内停机: 硬件升级 维修 软件更新/升级 备份(离线备份) 测试(需要定期测试以实现集群验证。) 开发 计划外停机: 管理员错误 应用程序故障 硬件故障 环境灾难用于 AIX 的 IBM 高可用性解决方案 High Availability Cluster Multi Processing 基于久经考验的 IBM 集群技术,并包括两个组件: 高可用性:通过使用重复和/或共享资源来确保应用程序可供使用的过程。 集群多处理:运行在相同节点上并具有共享或并发数据访问的多个应用程序。基于 HACMP 的高可用性解决方案提供了自动化的故障检测、诊断、应用程序恢复和节点重新集成。使用适当的应用程序,HACMP 还可以为并行处理应用程序提供并发数据访问,从而提供卓越的水平可伸缩性。图 1 显示了一个典型的 HACMP 环境。图 1 HACMP 集群历史和发展IBM High Availability Cluster Multi-Processing 可追溯到 20 世纪 90 年代初。HACMP 的开发始于 1990 年,目的是为运行在 RS/6000 服务器上的应用程序提供高可用性解决方案。我们不提供有关每个早期版本的信息,因为那些版本在本书编写之际已不再被支持或不再使用,我们仅提供有关最近版本的重点介绍。HACMP V4.2.2与 HACMP Classic (HAS) 一起,此版本引入了增强的可伸缩性版本(enhanced scalability version,ES),ES 是基于并行系统支持计划(Parallel Systems Support Program,PSSP)所产生的可靠的可伸缩集群技术(Reliable Scalable Clustering Technology,RST)拓扑、组和事件管理服务。HACMP V4.3.X除了其它方面以外,此版本还引入了对 HACMP/ES 的 32 节点支持、C-SPOC 增强功能、ATM 网络支持、HACMP 任务指南(用于简化集群配置的 GUI)、多个事件前和事件后脚本、FDDI MAC 地址接管、监视和管理支持增强功能、逐个节点的迁移,以及 AIX 快速连接支持。HACMP V4.4.X此版本中的新项目包括与 Tivoli 的集成、应用程序监视、无退回的级联 (cascading with out fallback)、C-SPOC 增强功能、改进的迁移支持、HA-NFS 功能集成,以及软拷贝文档(HTML 和 PDF)。HACMP V4.5在此版本中,AIX 5L 是必需的,并且存在自动化的配置发现功能、每个网络适配器上的多个服务标签(通过使用 IP 别名)、持久 IP 地址支持、64 位功能的 API,以及监视和从卷组定额丧失中恢复。HACMP V5.1这是引入了重大变更的版本,涵盖从配置简化和性能增强到更改 HACMP 术语的范围。HACMP V5.1 中的部分重要新功能包括: SMIT “标准”和“扩展”配置路径(过程) 自动化的配置发现 自定义资源组 基于通过磁盘的心跳检测的非 IP 网络 快速磁盘接管 卷组的强制启用(varyon) 通过 IP 别名的心跳检测 HACMP Classic (HAS) 已被丢弃;现在仅存在基于 IBM 可靠的可伸缩集群技术的 HACMP/ES 改进的安全性,通过使用集群通信守护进程(消除了对使用标准 AIX“r”命令的需要,从而消除了对 /.rhosts 文件的需要)来实现 改进的集群自定义和同步性能 HACMP 术语的规范化 配置和维护的简化 在线规划工作表增强功能 卷组的强制启用 自定义资源组 接管节点上的服务 IP 地址/标签的心跳信号监视 通过 IP 别名的心跳检测 通过磁盘的心跳检测 各种 C-SPOC 增强功能 GPFS 集成 集群验证增强功能 改进的资源组管理HACMP V5.2从 2004 年 7 月开始,新的 HACMP V5.2 添加了管理、配置简化、自动化和性能方面的更多改进功能。下面是 HACMP V5.2 中的改进功能摘要: 两节点配置助手,同时带有 SMIT 菜单和 Java 接口(另外还有 SMIT“标准”和“扩展”配置路径)。 文件收集。 用户密码管理。 不再使用传统资源组,自定义资源组已将其取代。 自动化的测试过程。 自动集群验证。 改进的在线规划工作表(Online Planning Worksheets,OLPW)现在可以从现有的 HACMP 集群导入配置。 事件管理(Event management,EM)已由资源监视和控制(resource monitoring and a control,RMC)子系统(AIX 中的标准组件)所取代。 增强的安全性。 资源组依赖性。 自我修复的集群。注意:在本红皮书编写之际,HACMP V5.1 和 V5.2 都已经可用。认证考试仅包含 HACMP V5.1 主题。高可用性概念什么对象需要受到保护?最终,关键环境中的任何 IT 解决方案的目标都是提供连续的服务和数据保护。高可用性只是实现连续操作目标的一个构件。高可用性基于硬件、软件(操作系统及其组件)、应用程序和网络组件的可用性。若要实现高可用性解决方案,您需要: 冗余服务器 冗余网络 冗余网络适配器 监视 故障检测 故障诊断 自动化的故障转移 自动化的重新集成HACMP 的主要目标是消除单点故障 (SPOF)(请参见第 7 页上的表 1)。表 1 单点故障集群对象消除单点故障的方法节点(服务器)多个节点电源多个电路和/或电源网络适配器冗余网络适配器网络用于连接节点的多个网络TCP/IP 子系统非 IP 网络以便为 TCP/IP 提供后备磁盘适配器冗余磁盘适配器磁盘冗余硬件和磁盘镜像或 RAID 技术应用程序配置应用程序监视和备份节点,以获取应用程序引擎和数据表 1 中的“集群对象”列中列出的每个项目是一个物理或逻辑组件,如果该组件发生故障,则会导致应用程序无法为客户端提供服务。高可用性与容错的对比可以将用于硬件和软件故障检测及处理的系统定义为两个组: 容错系统 高可用性系统容错系统提供容错功能的系统旨在几乎无中断地操作,而不管可能发生的故障如何(也许由于自然灾害导致的完全站点故障除外)。在此类系统中,至少为所有的软件或硬件组件配置了重复组件。因而,CPU、内存和磁盘具有特殊的设计,即使在一个子组件发生故障时也可以提供连续的服务。此类系统非常昂贵,并且极其专门化。实现容错解决方案需要大量的精力和所有系统组件的高度自定义。在不能接受任何停机时间的场合(生命保障等等),容错设备和解决方案是必需的。高可用性系统为高可用性而配置的系统是以如下方式配置的硬件和软件组件的组合:即确保在发生故障时,能够使用最短的可接受停机时间实现自动化的恢复。在此类系统中,相关软件将检测环境中的问题,然后将应用程序传输到另一台计算机,从而接管原始计算机(节点)的身份。因而,消除环境中的所有单点故障 (SPOF) 是非常重要的。例如,如果计算机只有一个网络连接,则应该在同一个节点中提供第二个网络接口,以便在提供服务的主适配器发生故障时接管工作。另一个重要问题是镜像数据,并将数据放在可从集群中的任何一台计算机访问的共享磁盘区域,从而保护数据。高可用性集群多处理(High Availability Cluster Multi-Processing,HACMP)软件提供了用于在高度可用的系统中集成应用程序的框架和一组工具。要在 HACMP 集群中集成的应用程序需要相当多的自定义,此自定义不是在应用程序级别进行,而是在 HACMP 和 AIX 平台级别进行。HACMP 是一个灵活的平台,允许运行在 AIX 平台上的通用应用程序实现集成,从而以合理的成本提供高度可用的系统。高可用性解决方案与其他解决方案相比较,高可用性 (HA) 解决方案可以提供许多优点。表 2 描述了一些 HA 解决方案及其特征。表 2 HA 解决方案的类型解决方案独立系统增强的独立系统高可用性集群容错系统停机时间两天两小时视情况而定(通常三分钟)永不停机数据可用性上次的完全备份上一个事务上一个事务无数据损失高可用性解决方案提供了以下优点: 标准的组件 可与现有的硬件一起使用 适用于几乎任何应用程序 可使用广泛的磁盘和网络类型 以合理成本实现卓越的可用性针对 IBM Eserver pSeries 的 IBM 高可用性解决方案提供了一些独特的优点。此类优点包括: 经证实的解决方案(超过 14 年的产品开发历史) 灵活性(在独立 AIX 系统上运行的几乎任何应用程序都可以使用 HACMP 来保护) 使用“现成的”硬件组件 经证实的客户支持承诺提供高可用性解决方案的注意事项包括: 全面的设计和详细的规划 消除单点故障 选择适当的硬件 正确的实现(不要走“捷径”) 训练有素的系统管理实践 有文档记录的操作过程 详尽的测试回页首HACMP 概念HACMP 的基本概念可按如下方式进行分类: 集群拓扑包含基本集群成员节点、网络、通信接口、通信设备和通信适配器。 集群资源将要使其高度可用的实体(例如,文件系统、原始设备、服务 IP 标签和应用程序)。资源在资源组(resource group,RG)中分组在一起,HACMP 将资源组作为单个实体来保持其高度可用。资源组可从单个节点使用,或在并发应用程序的情况下,可以同时从多个节点使用。 故障转移表示资源组响应活动节点上的故障而从该活动节点转移到另一个节点(备份节点)。 退回表示资源组在先前的节点变得可用时从备份节点转移到先前的节点。此转移通常是为了响应先前发生故障的节点的重新集成。HACMP 术语要理解 HACMP 的正确功能和用途,必须知道一些重要的术语: 集群 (Cluster)独立系统(节点)或 LPAR 的松散耦合的集合,组织到一个网络中以便共享资源和彼此通信。HACMP 定义了操作系统之间的关系,其中当某个集群节点无法提供服务时,对等的集群节点将提供该节点所提供的服务。在任何集群组件发生故障的情况下,这些单独的节点共同维持一个或多个应用程序的功能。 节点 (Node)运行 AIX 和 HACMP 的 IBM Eserver pSeries 计算机(或 LPAR),被定义为集群的一部分。每个节点都有一个资源集合(磁盘、文件系统、IP 地址和应用程序),在节点发生故障的情况下,可以将该资源集合转移到集群中的另一个节点。 资源 (Resource)资源是集群配置的逻辑组件,可从一个节点移动到另一个节点。提供高度可用的应用程序或服务所必需的所有逻辑资源在资源组 (RG) 中分组在一起。在节点发生故障的情况下,资源组中的组件一起从一个节点移动到另一个节点。集群可能具有多个资源组,从而允许高效地使用集群节点(从而实现 HACMP 中的“多处理”)。 接管 (Takeover)接管是指在集群内的节点之间转移资源的操作。如果一个节点由于硬件问题或 AIX 崩溃而发生故障,其资源应用程序将移动到另一个节点。 客户端 (Client)客户端是能够通过局域网访问运行在集群节点上的应用程序的系统。客户端运行客户端应用程序,连接到运行应用程序的服务器(节点)。回页首HACMP/XD(扩展距离)High Availability Cluster Multi-Processing for AIX (HACMP) 基本软件产品处理部分连续操作问题。它处理单个站点的计算联合体中的计算机、适配器或局域网的故障恢复。图 2 显示了典型的 HACMP/XD 高可用性地理集群(High Availability Geographic Cluster,HAGEO)。图 2 典型的 HACMP/XD HAGEO 配置若要在发生重大灾难(站点故障)的情况下保护应用程序,将需要附加的软件。HAGEO 提供了: 配置具有地理分离站点的集群的能力。HAGEO 将 HACMP 扩展到包括两个地理位置上的远程数据中心或站点。此扩展可以防止个别站点成为集群中的单点故障。地理镜像过程为每个站点提供了基本数据的更新副本。任一个站点都可以运行关键应用程序,从而确保在故障或灾难导致一个站点失效的情况下,任务关键型计算资源在地理上分离的另一个站点上连续可用。 自动的故障检测和通知。HAGEO 与 HACMP 合作提供了站点或地理网络故障的自动检测。它启动恢复过程,并将有关检测到的所有故障及其所执行的响应操作的信息通知系统管理员。 自动化故障转移HAGEO 包括事件脚本,以处理站点或地理网络故障的恢复。这些脚本与标准 HACMP 事件脚本集成在一起。可以通过添加事件前或事件后脚本来自定义配置的行为,就像对 HACMP 所做的那样。 快速的灾难恢复。HAGEO 还在可操作的站点提供了数据和应用程序的快速恢复。地理镜像过程确保在灾难降临时,数据已经在第二个站点可用。恢复时间通常要花几分钟,其中不包括应用程序恢复时间。 站点恢复期间的自动数据重新同步HAGEO 作为站点恢复过程不可或缺的一部分处理每个站点上的镜像的重新同步。重新加入的站点上的节点将自动使用在该站点发生故障时接收的数据进行更新。 可靠的数据完整性和一致性。HAGEO 的地理镜像和地理消息组件确保在站点发生故障时,幸存站点的数据与故障站点的数据保持一致。当故障站点重新集成到集群中时,HAGEO 使用来自可操作站点的最新数据来更新该站点,从而再次确保数据一致性。 灵活、可伸缩的配置。HAGEO 软件支持广泛的配置,允许您按自己的需要配置独特的灾难恢复解决方案。HAGEO 集群中最多可以有八个节点,每个站点的节点数量各不相同。HAGEO 与文件系统和数据库无关,因为地理镜像设备的行为与它所支持的磁盘设备的行为相同。由于镜像是透明的,配置为使用地理镜像的应用程序不必进行任何方式的修改。HACMP/XD:HAGEO 组件该软件具有三个重要功能: GeoMirror:包括一个逻辑设备和在第二个站点上执行镜像的伪设备驱动程序;数据在一个站点输入。TCP/IP 用作镜像数据的传输协议。GeoMirror 可以在异步或同步模式下使用,具体取决于站点之间的通信带宽,以及应用程序事务量(将决定更改的数据量)。 GeoMessage:在两个站点的 GeoMirror 设备之间提供可靠的数据和消息传输。 地理拓扑:提供用于将地理镜像功能与 HACMP 功能集成的逻辑,以提供自动的故障检测和从影响整个站点的事件中恢复。 从灾难中恢复当灾难导致站点故障时,幸存站点的节点上的集群管理器将快速检测情况,并采取操作以保持地理镜像的应用程序可用。同样,如果集群由于全局地理网络故障而被分割,则配置为非主控 (non-dominant) 的站点上的集群管理器将关闭自身,以便避免数据偏差。HACMP/XD:HAGEO 基本配置可以按照 HACMP 基本软件所支持的任何一种配置来配置 HAGEO 集群。这些配置包括备用(standby)、单边接管(one-sided takeover)、相互接管(mutualtakeover)和并发访问(concurrent access)配置。 备用配置备用配置是一种传统冗余硬件配置,其中集群中的一个或多个节点保持空闲,直到某个服务器节点发生故障。在 HAGEO 中,这转变为使用一个空闲站点。该站点并非完全空闲,因为它还参与了地理镜像过程。但是该站点的节点不执行应用程序工作。 接管配置在接管配置中,所有节点都在执行处理;不存在空闲节点。配置包括:o 站点内(本地)接管o 远程单边接管o 远程相互接管 并发配置在并发访问配置中,一个站点的所有节点可以同时访问并发卷组,并拥有相同的磁盘资源。另一个站点以相同的方式进行设置。如果某个节点离开站点,资源的可用性不会受到影响,因为其他节点已启用并发卷组。如果某个站点发生故障,另一个站点可以提供该站点上的节点所提供的并发访问。并发应用程序可由集群中的所有节点访问。HACMP Cluster Lock Manager 必须在集群中的所有节点上运行。并非所有数据库都可用于涉及到跨地理位置的节点的并发访问。HACMP/XD PPRC 集成功能在两个站点都使用了 IBM Enterprise Storage Server 并且对等远程复制(Peer to Peer Remote Copy,PPRC)功能提供了存储卷镜像的环境中,同时在 HACMP V4.5 PTF5 和 HACMP V5.1中引入的此功能可以提供自动化的站点故障转移和应用程序数据的远程副本激活。在主站点发生故障的情况下,数据应该在辅助站点可供使用(通过 PPRC 进行复制)。必须激活辅助站点中的数据副本才能将其用于处理。HACMP/XD PPRC 集成功能在主站点发生故障时提供自动化的副本拆分,在主站点变得可用时提供自动化的重新集成。有关详细信息,请参见 High Availability Cluster Multi-Processing XD (Extended Distance) V5.1: Concepts and Facilities for HAGEO Technology, SA22-7955。HACMP 认证学习系列,第 2 部分:计划与设计摘自红皮书IBM eserver pSeries HACMP V5.x Certification Study Guide Update文档选项打印本页将此页作为电子邮件发送Dino Quintero, 高级认证 IT 咨询师, IBM2008 年 3 月 27 日在规划和设计高可用性集群时,必须遵守所有的客户需求。您应该充分了解硬件和网络配置,以及将要实现高可用性的应用程序。您还应该能够控制应用程序在故障情况下的行为。了解应用程序在故障情况下的行为,对于控制集群在此类情况下应当如何反应是非常重要的。规划和实现集群所必需的信息应该涵盖应用程序、环境、硬件、网络、存储,同时还要涵盖支持和变更过程。本章将介绍以下 HACMP 集群主题: 节点规模调整注意事项 集群硬件规划 软件规划 存储规划 灾难恢复规划注意:规划是成功的实现的一半,但是就 HACMP 而言,如何强调正确规划的重要性都不为过。如果规划不当,您可能会在以后某个时候发现自己陷入种种限制之中,而要摆脱这些限制可能是非常痛苦的经历。因此,请保持镇定从容,并使用产品附带的规划工作表;这些工作表对于任何迁移或问题确定情形或者对于规划的文档记录都是非常有价值的。规划注意事项在规划高可用性集群时,您应该考虑节点、存储、网络等方面的规模调整,以便即使是在接管情况下,也能够提供应用程序正确运行所必需的资源。规模调整:选择集群中的节点在开始集群的实现之前,您应该了解需要多少个节点,以及应该使用什么节点类型。就应用程序所需要的资源而言,将要使用的节点类型是非常重要的。节点的规模调整应该涵盖以下方面: CPU(CPU 的数量和速度) 每个节点中的随机访问存储器 (RAM) 容量 磁盘存储(内部) 每个节点中的通信和磁盘适配器数量 节点可靠性集群中的节点数量取决于要实现高可用性的应用程序的数量,同时还取决于所需的可用性程度。在集群中为每个应用程序准备多个备用节点可以提高应用程序的总体可用性。注意:HACMP V5.1 集群中的最大节点数量是 32。HACMP V5.1 支持各种各样的节点,涵盖从桌面系统到高端服务器的范围。SP 节点和逻辑分区(Logical Partition,LPAR)也受支持。有关进一步的信息,请参阅红皮书HACMP for AIX 5L V5.1 Planning and Installation Guide(SC23-4861-02)。集群资源的共享基于应用程序的需求。有些节点执行的任务与要实现高可用性的应用程序并不直接相关,并且不需要与应用程序节点共享资源,应该将此类节点配置在单独的集群中以简化实现和管理。所有的节点都应该提供足够的资源(CPU、内存和适配器),以维持所有指定的应用程序在故障转移(接管故障节点中的资源)情况下的执行。如果可能,应该在集群中包括附加的节点,以提高集群的可用性;这还可以在执行节点故障转移、重新集成和维护操作时提供更大的灵活性。建议使用具有相似硬件配置的集群节点,在实现具有相互接管(mutual takeover)或并发配置的应用程序的集群时尤其是如此。这样使得分发资源和执行管理操作(软件维护等等)变得更加容易。规模调整:存储注意事项在最常用的配置中,要实现高可用性的应用程序需要一个共享存储空间来存储应用程序数据。该共享存储空间或者用于并发访问,或者用于使数据对接管节点上的应用程序可用(在 fail-over 情况下)。要在集群中使用的存储应该允许每个应用程序从所有的指定节点进行共享访问。当前支持的 HACMP 共享存储技术包括 SCSI、SSA 和光纤通道(Fibre Channel.)。根据应用程序的需求,应该将存储配置定义为非共享(“私有”)或共享存储。私有存储可以保留在内部磁盘上,并且不参与任何接管活动。考虑到以下原因,共享存储应该提供访问控制机制: 放在共享存储中的数据必须能够从可能在某个时间点运行应用程序的任何一个节点进行访问。在某些情况下,应用程序一次仅在一个节点上运行(非并发),但是在另一些情况下,必须提供对数据的并发访问。 在非并发环境中,如果共享数据被错误的节点更新,这可能会导致数据破坏。 在并发环境中,应用程序应该提供自己的数据访问机制,因为平台并发软件 (AIX/HACMP) 会绕过由存储控制的访问机制。网络注意事项在规划 HACMP 集群时,应该考虑以下方面: IP 网络拓扑(路由、交换机等等) IP 网络性能(速度/带宽、延迟和冗余) ATM 和/或 X.25 网络配置IP 网络用于使客户端访问运行在集群中的节点上的应用程序,以及用于在集群节点之间交换心跳信号消息。在 HACMP 集群中,心跳信号消息是通过 IP 网络和点对点(非 IP)网络进行交换的。HACMP 旨在通过基于 TCP/IP 的网络、X.25 和 ATM 网络提供客户端的访问。回页首HACMP 集群规划集群规划也许是实现成功的配置过程中最重要的步骤。HACMP 规划应该包括以下方面: 硬件规划o 节点o 网络o 存储 软件规划o 操作系统版本o HACMP 版本o 应用程序兼容性 测试和维护规划o 测试过程o 变更管理o 管理操作硬件规划实现高可用性配置的目标是通过消除单点故障(硬件、软件和网络),以及通过屏蔽服务中断(无论是计划内还是计划外的中断),从而提供高度可用的服务。节点规划的决策因素包括: 支持的节点:计算机类型、功能、支持的适配器、电源(AC、DC、双电源与单电源等等)。 连接和电缆:电缆类型、长度、接头、型号、导线管布线、电缆槽容量需求,以及可用性。节点配置HACMP V5.1 支持在一个集群中使用 IBM Eserver pSeries(独立和 LPAR 模式)、IBM SP 节点以及现有的 RS/6000 服务器的任何节点组合。节点必须满足内部内存、内部磁盘、可用 I/O 插槽数量和操作系统兼容性(AIX 版本)的最低要求。要考虑的项包括: 内部磁盘(磁盘数量、容量以及是否使用 LVM 镜像) 共享磁盘容量和存储数据保护方法(RAID 和 LVM 镜像) I/O 插槽限制及其对导致单点故障 (SPOF) 的影响 对集群的客户端访问(网络适配器) 其他 LAN 设备(交换机、路由器和网桥) I/O 适配器和子系统冗余 电源冗余网络配置规划群集网络时的主要目标是评估所需的冗余程度,以消除网络组件成为单点故障的可能性。应该考虑以下方面: 网络:连接到多个物理网络的节点 对于 TCP/IP 子系统故障:使用非 IP 网络以帮助决策过程 网络接口:每个网络上的冗余网络适配器(以防止在单个网络接口发生故障情况下的资源组故障转移)在规划集群网络配置时,必须为节点连接选择正确的组合: 集群网络拓扑(交换机、路由器等等)。 连接集群节点的 IP 和非 IP(点到点)网络组合和每个节点到所有网络的连接数量。用于提供高可用性服务 IP 地址的方法: 通过 IP 别名的 IP 地址接管(IP address takeover,IPAT) 通过 IP 替换的 IPAT。有关 HACMP 配置中支持的节点和适配器的完整列表,请参阅红皮书HACMP for AIX 5L V5.1 Planning and Installation Guide(SC23-4861-02);另请访问位于以下地址的 IBM 支持网站:/servers/eserver/pseries/ha/HACMP 网络术语从 HACMP V5.1 开始,用于描述 HACMP 配置和操作的术语已发生了很大的变化。做出此更改是为了简化 HACMP 的总体使用和维护,同时也是为了使术语与 IBM 产品系列保持一致。例如,在早期的 HACMP 版本中,取决于上下文,术语“适配器”可以具有不同的含义,从而使配置变得非常令人混淆和困难。IP 标签 (IP label)术语“IP 标签”表示与特定 IP 地址相关联的名称,此名称是在集群节点上使用的名称解析方法(DNS 或静态 - /etc/hosts)中定义的。此术语取代“主机名称”(host name),后者可能与 hostname 命令的输出产生混淆,并且可能没有与任何 IP 地址相关联。在 HACMP V5.1 中,术语“适配器”(Adapter) 已替换如下: 服务 IP 标签/地址 (Service IP Label / Address):通过其提供服务的 IP 标签/地址。此 IP 标签/地址可能与单个节点绑定,也可能由多个节点共享,并且 HACMP 保持其高度可用。 通信接口 (Communication Interface):支持 TCP/IP 协议并由其基本 IP 地址表示的物理接口。 通信设备 (Communication Device):表示点到点非 IP 网络连接的一端的物理设备,例如 /dev/tty1、/dev/tmssa1、/dev/tmscsi1 和 /dev/hdisk1。 通信适配器 (Communication Adapter):用于提供高度可用的通信链路的 X.25 适配器。服务 IP 地址/标签 (Service IP address/label)服务 IP 地址是用于客户端访问的 IP 地址。此 IP 地址(及其关联的标签)由 HACMP 监视,并且是资源组的一部分。存在两种类型的服务 IP 地址(标签): 共享服务 IP 地址(标签):可以配置在多个节点上的 IP 地址,并且是一次只能在一个节点上处于活动状态的资源组的一部分。 与节点绑定的服务 IP 地址(标签):只能配置在一个节点上(不由多个节点共享)的 IP 地址。通常,此类服务 IP 地址与并发资源组相关联。服务 IP 地址在 HACMP 已启动并且关联的资源组处于在线状态时变得可用。HACMP 通信接口 (HACMP communication interface)HACMP 中的通信接口定义是以下内容的逻辑分组: 逻辑网络接口一个名称,AIX 将某个物理网络适配器端口(例如,en0)解析为此名称。 服务 IP 地址是一个 IP 地址,将通过该 IP 地址提供诸如应用程序等服务,并且客户端节点将通过该 IP 地址进行通信。 服务 IP 标签是映射到服务 IP 地址的标签。通信接口指的是基于 IP 的网络和网络适配器。连接到公共物理网络的网络适配器组合为 HACMP 所使用的逻辑网络。每个网络适配器能够承载多个 TCP/IP 地址。在配置集群时,您要定义 HACMP 将监视的 IP 地址(基本或启动 IP 地址)和 HACMP 将保持其对 HACMP 高度可用的 IP 地址(服务 IP 地址)。HACMP 中的心跳信号通过通信接口进行传递。HACMP 使用 RSCT 子系统的心跳检测功能(通过 UDP)来监视其网络接口和 IP 地址。每当 HACMP 服务在该节点上启动,HACMP 就将 ODM 中定义和存储的网络拓扑传递给 RSCT,并且 RSCT 将向 HACMP 提供故障通知。HACMP 通信设备 (HACMP communication device)HACMP 还提供点对点非 IP 网络的监视。点对点网络的两端都是 AIX 设备(在 /dev 目录中定义)。这些设备是通信设备,并包括串行 RS232 连接、目标模式 SCSI、目标模式 SSA 和磁盘检测信号连接。点对点网络也由 RSCT 监视,并且 HACMP 使用它们的状态来区分节点故障和 IP 网络故障。例如,通过磁盘的心跳检测使用磁盘设备名称(例如,/dev/hdisk2)作为在连接的每一端配置到 HACMP 的设备。建议此类网络至少要在集群中的任何两个节点之间配置一个非 IP 网络。在磁盘心跳检测的情况下,建议使用一个点对点网络,此网络由每个物理机箱的每个节点对的一个磁盘组成。不能将一个物理磁盘用于两个点对点网络。通信适配器和链路 (Communication adapter and link)可以将以下通信链路定义为 HACMP 中的资源: LAN 网络适配器 (ent*) 上配置的 SNA X.25 适配器上配置的 SNA 本机 X.25 链路HACMP 将这些链路作为资源组的一部分进行管理,从而确保高可用性通信链路。在物理网络接口故障、X.25 链路故障或节点故障的情况下,高度可用的通信链路(连同相同资源组中的所有资源一起)将被迁移到同一个节点或接管节点上的另一个可用的适配器。IP 别名IP 别名是通信(网络)接口上配置的除基本 IP 地址以外的 IP 地址。IP 别名是受 HACMP 支持的一个 AIX 功能。AIX 支持在每个通信接口上使用多个 IP 别名。适配器上的每个 IP 别名可以在单独的子网上。AIX 还允许为接口配置具有不同子网掩码的 IP 别名;HACMP 尚不支持此功能。IP 别名在 HACMP 中同时用作用于 IP 地址接管的服务和非服务地址,以及用于心跳配置。网络接口功能 (Network interface function)对于 IP 网络,建议您在每个节点上为每个网络配置多个通信接口。那些通信接口将分别具有特定的作用,具体取决于 HACMP 集群的状态。 服务接口 (Service Interface)服务接口是配置了一个或多个服务 IP 地址(标签)的通信接口。取决于为每个网络定义的 IP 地址接管 (IPAT) 方法,将在基本 IP 地址之外添加服务 IP 地址(通过别名的 IPAT),或者服务 IP 地址将取代通信接口的基本(启动)IP 地址。此接口用于提供对运行在该节点上的应用程序的访问。服务 IP 地址由 HACMP 通过 RSCT 心跳信号进行监视。 启动接口 (Boot Interface)这是由在 AIX 配置中定义的基本(启动)IP 地址表示的通信接口。如果使用了通过 IP 别名进行的心跳检测,则 HACMP 将不监视此 IP 地址,而是通过 HACMP 在启动时分配的 IP 别名来监视通信接口。启动接口不传输任何客户端流量;然而,如果服务接口失败,HACMP 将把服务 IP 地址转移到非服务接口上。如果某个节点发生故障,接管节点上的另一个接口将在执行资源组故障转移时配置服务 IP 地址。注意:对于每个网络,一个节点可以具有零到七个非服务接口。在同一个网络上使用多个非服务接口可以消除通信接口的单点故障。 持久节点 IP 标签 (Persistent Node IP Label)持久节点 IP 标签是一个 IP 别名,可以将其分配给集群网络上的某个特定节点。持久节点 IP 标签:o 与节点绑定(始终保持在同一个节点上)。o 能够在已经定义了某个服务或非服务 IP 标签的网络适配器上共存。o 具有不需要在该节点上安装附加物理网络适配器的优点。o 不属于任何资源组。分配持久节点 IP 标签可以提供一个与节点绑定的 IP 地址,并且对于管理目的来说非常有用,因为到持久节点 IP 标签的连接始终会确定该特定的集群节点,即使 HACMP 服务没有在该节点上启动时也是如此。注意:可以在每个节点上为每个网络配置一个持久节点 IP 标签(地址)。例如,如果有一个连接到 HACMP 中定义的两个网络的节点,可以通过两个分别用于每个网络的持久 IP 标签(地址)来确定该节点。持久 IP 标签是在 HACMP 配置中定义的,并在 HACMP 第一次在每个节点上启动时变得可用。一经配置,持久 IP 标签(地址)将在配置它们的适配器上保持可用,即使 HACMP 已在节点上停止或节点已重新启动时也是如此。可以在以下类型的基于 IP 的网络上创建持久节点 IP 标签:o 以太网o 令牌环网o FDDI 网o ATM 局域网模拟器限制:不能在 SP 交换机、ATM 传统 IP 或非 IP 网络上配置持久节点 IP 标签。持久 IP 标签的行为如下:o 如果某个配置了服务 IP 标签的网络适配器发生故障,并且该网络适配器上还定义了一个持久标签,则会将持久 IP 标签(地址)连同服务 IP 标签(地址)一起转移到同一个非服务接口上。o 如果指定节点上用于集群网络的所有网络适配器均发生故障,则持久节点 IP 标签将变得不可用。持久节点 IP 标签始终保持在同一个网络上,并保持在同一个节点上;它不会在集群中的节点之间移动。用于心跳检测的 IP 别名 (IP aliases used for heartbeat)这些 IP 地址是从专用的不可路由地址池中分配的,并用于监视通信接口,而不需要更改通信接口的基本(启动)IP 地址。这在某些情况下是非常有用的,例如,当更改每个节点上的网络适配器的基本 IP 地址不适宜(因为它们是在 AIX 中定义的),并且那些地址不符合 HACMP 要求(它们在同一个子网中,因此不能监视网络适配器)的时候。为此目的,HACMP 提供了通过 IP 别名的进行心跳检测的方法。网络类型在 HACMP 中,“网络”这个术语用于定义一个逻辑实体,此逻辑实体将用于集群中的节点间通信和用于客户端访问的通信接口和设备分组在一起。可以将 HACMP 中的网络定义为 IP 网络和非 IP 网络。IP 网络和非 IP 网络均用于在节点之间交换心跳信号(“Keep Alive”)消息。通过这种方式,HACMP 维护有关集群节点及其各自的通信接口和设备状态的信息。HACMP V5.1 中支持的 IP 网络类型包括: 以太网 (ether) 令牌环网 (token) FDDI 网 (fddi) SP Switch 和 SP Switch2 网 (hps) ATM 网 (atm)下列 IP 网络类型不受支持: 串行光纤通道转换器网 (SOCC) 串行线路 IP 网 (SLIP) 光纤通道交换网 (FCS) 802.3 IBM 高性能交换网 (HPS)非 IP 网络是两个集群节点之间的点对点连接,HACMP 将其用于控制消息和心跳信号。在 IP 网络(或节点上的 TCP/IP 子系统)发生故障的情况下,这些网络可以为 HACMP 提供附加级别的保护。HACMP 中的非 IP(基于设备)网络支持下列设备: 目标模式 SCSI (tmscsi) 目标模式 SSA (tmssa) 磁盘心跳信号 (diskhb) 串行 RS232注意:在 AIX 5L V5.1 和 AIX 5L V5.2 中,HACMP 现在还支持将以太网聚合 (Etherchannel) 通信接口用于 IP 地址接管。不支持将 Etherchannel 用于: 硬件地址接管 PCI 热插拔此外,在当前版本中,HACMP 不支持 AIX 虚拟 IP 功能 (VIPA) 和 IPV6。选择 IP 地址接管 (IPAT) 方法在实现集群时要做出的关键决策之一是资源组和与之关联的服务 IP 地址的行为。由于 HACMP 在大多数时间都用于保护独立的非并发应用程序,因此必须选择将要用于提供高度可用的服务 IP 地址的方法。在启动应用程序或将其连同关联的资源组一起移动到另一个节点时,可以通过两种方式配置服务 IP 地址: 通过替换通信接口的基本(启动时)IP 地址;此方法称为“通过 IP 替换的 IP 地址接管 (IPAT)”。 通过为通信接口配置一个除现有 IP 地址之外的附加 IP 地址;此方法称为“通过 IP 别名的 IP 地址接管”。HACMP V5.1 中的缺省 IPAT 方法是通过别名(通过别名的 IPAT)。要更改此缺省行为,必须使用 HACMP 扩展配置菜单来更改网络属性。IP 地址接管IP 地址接管是一种恢复 IP 地址标签的机制,其方法是在初始物理网络适配器发生故障时,将服务 IP 标签转移到另一个节点上的另一个物理网络适配器。IPAT 确保用于向客户端节点提供服务的 IP 地址(标签)保持可用。IPAT 和服务 IP 标签可以将两种 IPAT 方法和这些方法控制服务 IP 标签的方式作如下解释: 通过 IP 别名的 IP 地址接管将服务 IP 地址/标签用作某个现有通信接口的别名,而不更改(替换)该接口的基本地址。HACMP 使用 ifconfig 命令来执行此操作。注意:在此配置中,节点上定义的所有基本(启动)IP 地址/标签必须配置在不同的子网上,并且还要与服务 IP 地址(标签)不同。此方法还可以节省硬件,但是需要额外的子网。图 1。图 1 通过 IP 别名的 IPATHACMP 使用 AIX 的 IP 别名网络功能来支持不同类型的网络上的 IP 地址接管。通过 IP 别名的 IPAT 可以在某些类型的网络上使用无故 ARP (gratuitous ARP) 功能。通过 IP 别名的 IPAT 使单个网络适配器可以支持多个服务 IP 地址(标签)。因此,同一个节点可以同时承载多个资源组,而不会将资源组的数量限制为可用的通信接口的数量。相对于通过 IP 替换的 IPAT,通过别名的 IPAT 提供了以下优点:o 通过 IP 别名的 IP 地址接管比通过 IP 替换的 IPAT 速度更快,因为与在同一个接口上添加一个 IP 别名相比,替换 IP 地址要花显著更长的时间。o IP 别名允许多个服务标签在同一个网络接口上共存,因此可以在集群中使用更少的物理网络接口卡。注意:在 HACMP V5.1 中,通过 IP 别名的 IPAT 是用于保持服务 IP 标签高度可用的缺省机制。 通过 IP 替换的 IP 地址接管服务 IP 地址替换网络接口上的现有(启动/基本)IP 地址。使用此方法,同一网络接口上一次仅配置有一个 IP 地址/标签。注意:在此配置中,服务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论