HACMP系列教程_第1页
HACMP系列教程_第2页
HACMP系列教程_第3页
HACMP系列教程_第4页
HACMP系列教程_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、HACMP系列教程(一):基本概念现 代企业的应用和数据都储存在计算机中,由计算机来处理,一旦计算机系统发生意外故障,而引起应用停止甚至重要数据失,必将造成巨大损失,因此企业计算对高 可用性和可靠性的要求非常高。IBM RS6000系列通过AIX 操作系统的支持,利用HACMP 实现了多种功能的高可用群集多处理方案,为高可用性计算提供了一个完美的解决方案。IBM的高可靠性群集系统软件HACMP-High Availability Cluster Multi-Processing提供了RS/6000平台上关键应用的高可靠性解决方案,该软件能使一个群集内的所有的RS/6000系统不存在单点失 效(

2、在群集中单独某一部分出现故障而引起对用户端的服务效)。HACMP系统能自动地检测系统硬件失效,重新配置群集系统,使得所有的资源完全不受系统硬 件失效的影响,从而提供了可靠的应用平台。HACMP可用来最多将32部RS/6000服务器或SP的节点连结成高可用性的群集结构。对于企业关键性的应用程序而言,群集式的服务器或节点提供代理式的数据访问,具备复制性(redundancy),使得系统应用程序具有灵活的容错能力。HACMP所具有灵活的结构和简单的使用。从单一处理机(SMP)主机到SP节点皆可结构成高可用性之群集,您可混用,且跨越系统大小及性能等级,将各种网络适配卡和磁盘子系统融合在一起来满足您的应

3、用程序、网络等方面的需求。HACMP的群集因不同的处理需求可以结构成三种不同的模式:并行模式、互备模式、主备模式同时访问模式(Concurrent access mode,并行模式)适用在所有处理机必须在相同的工作负载及在相同的时间共享相同的数据之环境。相互备援模式(mutual takeover mode)则是群集中的各个节点分别承担有应用和任务,并且各节点间相互备援。而热待机模式则为一节点备援任何群集上的另一节点。无论您选择哪一种备援模式,HACMP所提供的数据访问及备援方案都将应用程序的执行及增长性在避免不正常死机状况下做了最佳化处理。HACMP用户界面相当简易,AIX的系统管理界面工具

4、(SMIT)及视觉化系统管理(VSM)图形界面两者皆提供非常简易的方式,给予您在高可用性的集群中针对服务器处理机执行安装、结构及系统管理工作。对 于一般的群集管理工作(例如HACMP启动/停止 、用户及群集管理、卷组、逻辑卷(Logic Volume)及文件系统),您可以使用群集单点控制(CSPOC)工具来执行这些工作,即使是二个节点之群集,您完全无需考虑群集资源的所有权,并且借 助于HAView功能,您可使用Tivoli的TME 10中的NetView for AIX图形网络管理界面由单一节点来监控群集及它的元件。可使用HACMP来处理以下几件事:针对许多企业关键的应用程序,建立高效益的群集

5、环境。例如:针对在场顾客的零售、即时银行、电信业务、数据处理或其他特定交易信息处理的应用程序。建立一个更复杂的群集使其高达八个节点,执行相同的应用程序且共享相同的资源,而仅有极小的损坏后重新启动的延迟。执行升级及维护确保您的系统没有毁损之虞。籍由AIX逻辑卷管理器(LVM)磁盘镜像功能来改善磁盘的可靠性。HACMP系列教程(二):规划(上)群集的规划不仅仅包括在群集中所要使用的硬件类型(CPU、Networks 、disks),也包括其它方面的规划,如:资源的规划-在故障情况下所希望的群集的表现以及应用的考虑等。群集节点HACMP 支持所有RS/6000系列产品(单处理器、多处理器服务器以及S

6、P并行机),一个HACMP 群集现在最多可由32个RS6000 服务器组成,这些服务器称为群集节点。群集节点及网络客户端通过一个或多个网络相互连接,每连接一个网络群集节点需要2块网卡,第一块网卡,即网络客户端 连接的网卡(提供给客户访问应用服务的网卡),称做为“服务/Service”网卡,第二块网卡称做为“待机/Standby”网卡,用来在“服务”网卡 失效时接替其工作。任何RS6000服务器都能做HACMP群集的群集节点,在一个群集中的群集节点没有严格的匹配要求。在选择 Cluster Node 时,主要是根据用户的应用和数据以及在故障接管后的性能表现来选择每个系统的CPU和最小配置,而且由

7、于每种类型的机器所提供I/O扩展槽数不同,为了将 来连接多个网络、扩展共享磁盘以及消除网卡、I/O适配器等方面的单点失效问题,应有足够的I/O扩展槽去提供冗余。一般来说,一个节点对于它所连接的每 一网络最多可有7块standby适配器卡。HACMP和AIX本身对群集节点的最小要求为16M内存和400M硬盘,真正的需求取决于群集节点上的应用。群集网络HACMP 群集支持两种类型的网络:TCP/IP网络和非TCP/IP网络,它利用这两种网络交换“心跳”信息,来诊断群集中是否出现失效。非TCP/IP网络用来 将真正的硬件失效从由于TCP/IP软件失效而引起的系统失效中区别开来。如果只使用TCP/IP

8、网络,当TCP/IP软件失效时,引起“心跳”停止, HACMP将错误地诊断为群集节点失效,而此时群集节点仍正常工作。通常,在节点间所有的网络也用于检查、同步、通讯及触发事件。HACMP支持以下TCP/IP网络类型:Ethernet、Token-Ring、ATM、FDDI、SLIP、FCS、SP Switch、SOCC、Generic IP。HACMP For AIX在标准以太网接口(en)上经过了测试,但在IEEE 802.3 以太网接口(et)上没有经过测试。HACMP 在每个群集中支持32个网络,每个群集节点上最多可以有24个TCP/IP 网卡。这些对于网络配置提供了很大的灵活性。每一种类

9、型的网络接口都有不同的特性,如:speed、ARP等,当使用某种适配器时,需要知道其特性,在 HACMP中一般考虑:Hardware Address Swap- 如果计划在群集中配置硬件地址交换,则所选择的网络适配器应支持此功能。网络速度、距离及在同一物理网上的适配器个数是另一个考虑的因素。如:Ethernet:支持10/100Mbps和硬件地址交换,同一物理网上的适配器个数限制为29个。FDDI:是100Mpbs的光纤网,也支持硬件地址交换。ATM:是155Mbps/625 Mbps点到点连接网络,不能使用硬件地址交换,在HACMP中它必须做为“private”网络来配置。非TCP/IP 网

10、络在群集节点间作为一条专用通路用于互换讯息和“心跳”,以区别网络故障与节点故障。建议在群集节点间至少使用一条non-TCP/IP 连接。HACMP支持以下类型的非TCP/IP网络类型:Serial(RS-232)、Target-Mode SCSI、Target-Mode SSA。所有以上非TCP/IP网络类型都必须在HACMP配置“Network Type”定义中定义为Serial。Serial (RS-232) :每个群集节点在有一个串行网络时需要一个串行端口;若一个群集内有两个以上的群集节点,串行网络要把所有群集节点连成一个环,这时每个节点需要两个串行端口。Target-mode SSA

11、:当使用共享SSA设备时,在HACMP中可用Target-Mode SSA作为串行网络。为了使用Target-Mode SSA,必须使用增强的RAID-5卡(#6215或#5219),卡的微码水平必须高于1801。Target mode SCSI:当使用共享SCSI设备时,可以利用SCSI总线交换“心跳”信息。Target-Mode SCSI仅支持差分SCSI-2和差分Wide/FAST SCSI-2设备,HACMP串行网络不支持SCSI/SE及SCSI-2/SE设备。在一个群集中,不推荐使用超过4个Target-Mode SCSI网络。HACMP中网络分做公共网络、私有网络和串行网络。公共网

12、络用于在群集节点之间通信和与网络客户端通信,通常是 TCP/IP网络;私有网络仅用于群集之间通信,网络客户端不能访问,它主要用于在“Concurrent”访问工作时,群集的“加锁”管理员通信,它可 以是任何网络类型;串行网络仅用于“心跳”信息交换(在配置hacmp中,配置network type时,将IP网络心跳网络定位private,将service/boot/standby定为public)。HACMP上的 TCP/IP网络有三个接口,Service、Standby和Boot,实际上是两块物理网卡,Service、Boot在一块物理网卡上, Standby在另一网卡上。三个接口定义三个IP

13、地址,Service地址用于群集节点之间相互通信和节点与网络客户端之间相互通信,定义 ServiceIP地址;Boot接口是Service接口的临时定义,在其上定义BootIP地址,Boot地址是系统启动时Service网卡的临时 地址,它仅仅当其节点失效而其地址被接管后才需要;StandbyIP地址随时准备接管群集中任何节点上ServiceIP地址的失效。 ServiceIP地址和BootIP地址在一个逻辑子网上;ServiceIP地址和StandbyIP地址一定在不同逻辑子网上。群集磁盘HACMP群集支持SSA和SCSI磁盘系统。SSA是一种开放的工业标准,它是一种将主机适配卡与硬盘设备连

14、接起来的高性能串行互连技术。SSA 磁盘子系统将适配卡和磁盘连接在一个环内,能提供80M 的存取速度。SSA 支持热拔插,在系统不关电的情况下可进行SSA磁盘、电缆等部件的更换 。在 每个SSA机箱的背部有4块“bypass ”卡,每块卡上有一对连接器用于连接外部SSA电缆或磁盘。bypass卡通过改变跨接位置能够被设置为:Automatic mode和Forced Inline mode。当bypass 卡是操作在Automatic mode,它检测这两个外部连接器,若至少有一个连接器是连接到power-on SSA 部件或设备,则它转换到Inline state(连接内部SSA环到外部连接

15、器);如果它检测到这两个外部连接器都没有连接到power-on SSA 部件或设备,则转换到Bypass state(连接内部SSA串),断开与外部连接器的连接。当bypass卡是操作在Forced Inline mode,它不能实现转换。SSA 技术有以下优点:双设备访问通道;电缆连接简单,不需要终结器;更快的访问速度;可以实现对设备的并发存取;不需要想SCSI那样的仲裁机制;热插拔的电 缆和磁盘;每个SSA适配器卡提供了非常高的容量,高达127个设备可以在一个SSA环中;设备之间的距离用铜缆时可以长达25米,用光纤可以达到10公 里;自动配置,不需要手工设置设备号;SSA是一个开放的标准。

16、在SSA磁盘子系统发布之后,SCSI磁盘子系统已很少在HACMP高可靠性群集系统中使用。HACMP系列教程(二):规划(中)资源规划HACMP 给客户端提供高可用性的资源环境,当HACMP集群中的节点失效或按正常程序退出群集时,群集管理器将重新在剩余的节点中分配资源。在HACMP中定义了 以下资源类型:卷组、磁盘、文件系统、要“Mount”到“网络文件系统”上的文件系统、要“Export”到“网络文件系统”上的文件系统、 Service IP地址、应用程序。· 资源组群集中的每个资源被定义为资源组的一部分,这样 做可以将有关联的资源聚集在一起,以提供特殊服务;同时,资源组还包括能够获

17、得资源及提供这些资源到客户端的节点列表。有三种类型的资源组: Cascading、Rotating、Concurrent。每种类型的资源组描述了节点在群集中的不同关系类型,及节点进入或离开群集的不同表现。Cascading资源组中的节点设置优先等级,优先级最高的节点是活动节点,控制着整个资源组。当优先级最高的节点失效时,次高优先级的节点控制资源组;当优先级最高的节点重新加入群集时,它将重新获得对资源组的控制权。Rotating 资源组涉及的不是连接某一个节点,而是和多个节点都有能力采用的共享的IP地址相联系,当定义了共享适配卡的第一个节点加入群集时,它将获得和共享IP地 址相关联的Rotati

18、ng资源组。当控制Rotating资源组的节点离开群集时,下一个存在的节点获得该Rotating资源组;当该节点重新加入群 集时,它将处于待机状态,而不重新获得该Rotating资源组的控制权。Concurrent资源组能被多个节点同时共享,当一个节点失效时,没有任何接管工作发生;当失效节点重新加入群集时,它将和其它节点同时访问Concurrent资源组。对于上述三种资源组分别可用一句话来进行概述:Cascading - 活动节点使用最高优先级控制资源组。Concurrent - 所有活动节点可访问资源组。Rotating - 节点使用rotating资源组的相关的service IP地址来控

19、制资源组。· 共享逻辑卷在设计群集时需考虑是否需要配置非同时访问磁盘和同时访问磁盘的环境。非 同时访问共享磁盘有以下配置方式:Hot-Standby(主备模式,通常为双机热备)、Rotating Standby(循环备份模式)、Mutual Takeover(相互接管,通常为双机互备)、Third-Party Takeover(第三方接管,三节点群集)。同时访问磁盘的配置,通常是所有的磁盘都定义为Concurrent 资源组的一部分,与Concurrent 资源组相关的节点无优先级之分,当群集中某一节点出现故障时,发生的接管不明显,因为Concurrent 资源组已经在群集中的其它节

20、点上处于激活状态了(实际是不存在接管,只是工作量集中到单节点上)。· IP地址接管IP 地址接管目的是保证服务器的服务地址(Service地址)的高可用性,以保证网络客户端能以此相同的地址一直保持与网络的连接。为了确证IP地址接管的 实现,必须定义:群集中使用的网络类型;网络的拓扑结构;每块网卡的IP地址,包括ServiceIP、StandbyIP、BootIP和网络掩码;为 Service网卡定义一个交替网卡硬件地址,以便在IP地址接管时实现硬件地址的替换(很少使用)。网络拓扑结构有单网络结构、双网络结 构和点到点的连接三种类型。如果采用单网络结构,在这种配置中,群集中的每一个节点

21、仅连接到一个网络,对客户端来说仅一块service卡是有效的,若 service网卡出现问题,其备援的 standby 卡将获得它的 IP 地址,继续为客户端提供服务,然而当网络本身出现问题时,该网络结构出现了单点失效。如果采用双网络结构,在这种配置中,每个群集节点上有两块服务网卡, 连接于两个不同的网络,对网络客户端来讲有两个Service地址,当一个网络失效时,另一个网络还在正常工作,使该节点继续给网络客户端提供服务,从而 避免了由于网络故障而出现的单点失效。点到点的连接是相邻的群集节点直接互连,SOCC、SLIP、ATM等都是点到点的连接类型。在群集中两节点间连接 了一条专用线路,当pu

22、blic网络出现故障时,在节点间提供一替代的通路。在HACMP 群集中,每一个网络是由网络的名字和属性定义的。网络名:在HACMP环境中网络名是用于标识网络的符号值,群集进程使用此信息去确定哪一块adapter 是连接到了相同的物理网上。如果多个adapter 共享同一物理网,当定义这些adapter 时应使用相同的网络。属性:区别该网络是Public、Private 还是Serial 。Public:一个public网络可连结2-32个节点,并允许客户端去检测和存取群集节点。Ethernet、Token-Ring、FDDI、SLIP等都被认为是public网络,但SLIP不提供客户端的存取。

23、Private:仅在节点间提供通信,不支持客户端的存取。Serial:这个网络特性仅用于“non-TCP/IP”网络。网络适配器用于连接节点到网络,在HACMP中,节点每连接一个网络,至少要有两块网卡:service和standby ,如果定义了IP地址接管,则这块service网卡也必须定义一个boot地址。每个节点所允许的最大的网卡个数是24。在HACMP中,网络适配器是由其标记、功能定义的。标记(label):即为/etc/hosts 文件中与IP地址相对应的名字。功能(function): 描述该网卡在HACMP中是Service、Standby及Boot。Service 适配器:是在

24、节点与网络之间的主要连接,一个节点对于它所连接的每一物理网都有一个service 网卡。standby 适配器:是service adapter 的备援。如果service 网卡出现故障时,群集管理器使用service网卡的IP 地址替代了standby 网卡的地址,从而消除了网卡故障所引起的单点失效。对于所连接的每个网络,节点可以不要standby 网卡或有17 个网卡,根据所配置的软件和硬件插槽而定。在同一系统上,standby adapter 与service adapter 应配置为不同的子网。Boot 适配器:如果在群集中定义了IP 地址接管,允许一个节点去获得群集中其它节点的网络地

25、址,在群集节点上,一个boot adapter 地址必须分配给service adapter,也可以说boot 地址是service adapter 的第二个名字和IP 地址。在一个节点reboot 之后以及HACMP启动之前使用这个boot 地址,当HACMP软件在节点上启动之后,service adapter 使用service IP地址替代boot 地址而重新被配置。· 定义硬件地址网络硬件地址的替换是与IP地址接管合作使用的,它能够维持IP地址和硬件地址的绑定,当发生IP地址接管时,将不必要进行网络客户端ARP缓存的刷新。HACMP系列教程(二):规划(下)应用系统规划在HA

26、CMP 内组合节点的中心目的是为了给用户的重要应用和数据提供高可用性的环境,为了将应用系统置于HACMP的控制之下,需定义“应用服务器”这样一个群集资 源,应用服务器是书写的Script,在其中定义了启动和停止应用系统的命令及路径;当接管发生时,HACMP能够在接管节点上启动应用。为 了规划应用,必须要对应用比较了解,如:需要多大的磁盘空间、用户怎样访问应用等;还应该清楚应用是否需要license,应用系统的“许可证”是 HACMP中必须考虑的问题,有时它是基于CPU的,当主应用节点发生失效时,另一节点接管过去,但没有应用系统的“许可证”系统也没法正常工作。有两种 方法解决这一问题,一是采用“

27、浮动许可证”,另一是购买“节点锁定许可证”。还应考虑的一个因素是在接管发生后,一个节点将要同时运行几个应用,必须保证应用数据或资源不能彼此间相互冲突。注意:应用服务器文本在同步期间不被传输,在主节点和接管节点上应保持其有相同的路径和权限。用户ID规划对 于HACMP用户,系统管理员必须在群集节点上产生相同的用户帐号,用户信息也必须保持一致,这样,当群集节点出故障时,用户能够login 到其它节点而无需考虑由于UID/GID不一致所引起的问题。用户的home directory 在群集节点上也应具有相同的路径和权限,以保证用户能够方便的存取到他们自己的文件。有三种比较好的解决办法:可以把home

28、 directory建在共享卷组上。NFS - Mount home directory。使用此方法时,但当NFS Server有问题,对home directory 的存取将被拒绝。NFS - Mount共享卷组上的home directory。这是一种组合方法,把home directory 作为资源组的一部分且放在共享卷组上,所有的群集节点能够存取。HACMP系列教程(三):安装准备在安装HACMP软件之前,应首先安装AIX操作系统、配置网卡、设置共享卷组及编辑AIX配置文件。AIX的准备为了使群集中的每个节点都能够解析地址,在每个节点上,编辑/etc/hosts文件,确保群集内的所有的

29、接口的IP地址都列在里面。如果使用了域名解析配置,则编辑/etc/resolv.conf 文件。下面是/etc/hosts文件的示例:下面是/etc/resolv.conf 文件示例:编 辑/.rhosts文件,确保群集中每个节点的服务网卡和Boot地址都列在里面,这样做的目的是为了能够运行 /usr/sbin/cluster/utilities/clruncmd命令和执行/usr/sbin/cluster/godm进程。当以一个节点 为中心配置整个群集时要用到/usr/sbin/cluster/godm进程。同时,在群集同步和检测功能使用rcmd、rsh命令要用到 /.rhosts 文件,若

30、使用C-SPOC命令也需要此文件。下面是/.rhosts文件的示例:网络的连接与测试在网络的连接配置中,给系统中的每一块网卡分配相应的IP地址,但是要注意,standby网卡与service网卡应在不同的子网上。可以使用AIX提供的系统管理工具smit去配置相应的网卡,在配置完成之后,能够使用AIX 命令检测TCP/IP 子系统是否正常工作。使用ping 命令检查两节点间点到点的连接;在所有adapter上使用ifconfig命令去检查是否有不正确的IP 地址、子网掩码和广播地址;使用lssrc g tcpip命令去确定inetd daemon 是运行的;使用lssrc g portmap命令

31、去确定portmap daemon是运行的;使用arp命令去确定群集中的节点没有使用相同的IP 和硬件地址;使用smit tty命令在节点上产生一个tty 设备,注意Enable login field应设置为disable 。在配置完之后也应测试其功能,可以使用下列命令从一设备上写而从另一设备上读:cat < /dev/ttyx - 在一节点上从 /dev/ttyx 设备读。cat  /etc/hosts > /dev/ttyy - 在另一设备/dev/ttyy 上写。应能够看到,在键入第一个命令后处于等待状态直到第二个命令被键入,才显示它的输出。群集磁盘的配置对于群集

32、磁盘的配置,以SSA 为例来说明。在系统boot 期间,AIX配置管理器配置所有available的设备,当SSA子系统没有连接或SSA 软件没有安装时,则不能配置。配置管理器将配置以下设备:Adapter Router (ssar)ssar 仅是概念上的配置帮助且总是定义为“Defined”状态,不能改变其为“Available”,使用下面的命令可显示ssar。# lsdev C |grep ssarAdapter定义使用下列命令,可以检查正确的适配器配置。这个适配器必须处于“Available”状态。#lsdev C|grep ssa磁盘定义SSA磁盘在AIX中可表示为SSA 逻辑磁盘(h

33、disk1、hdisk2 )和SSA 物理磁盘(pdisk1、pdisk2 ) ,用下列命令可列出所定义的SSA 逻辑磁盘:#lsdev -Cc disk| grep SSA用下列命令可列出所定义的SSA物理磁盘:#lsdev -Cc pdisk| grep SSA共享逻辑卷的配置在所有节点上产生VG、LV和文件系统,通常采用先在一个节点上定义,然后在其它节点上“import”卷组,这保证了定义在ODM 库中的共享部分在群集中的所有节点上是相同的。产生non-concurrent 卷组non-concurrent 存取是使用日志文件系统管理数据。使用smit mkvg 去产生卷组。产

34、生concurrent卷组concurrent存取是使用原逻辑卷去管理数据。必须作为concurrentg capable卷组,使用smit mkvg来产生。产生共享逻辑卷和文件系统使用smit mklv和smit crjfs来产生共享逻辑卷和文件系统。在完成了上述配置后,应运行一致性检查,测试每一个文件系统。1) fsck /filesystem_name2)检查能够mount或者umount这个文件系统。#mount /filesystem_name#umount /filesystem_name在群集内的其它节点上import 卷组在原节点上vary off 卷组(将主节点上的

35、vg停用)在完成了前面的任务之后,使用varyoffvg 命令在原节点上去deactivate 这个共享卷组。#varyoffvg volume_group_name 在卷组上的文件系统应被unmount ,否则varyoffvg 命令将报错。在目标节点上import 卷组使用smit 或TaskGuide工具在目标节点上import 卷组。#smit importvg改变卷组的启动状态卷组在import后的缺省配置为自动激活状态,HACMP环境要求在系统重新启动时卷组为非自动激活状态,因此,在import 卷组后,须重新配置卷组,使用smit chvg命令。#smit 

36、chvg 在目标节点上vary off卷组使用varyoffvg命令去deactivate这个共享卷组,以使其能够在群集内的其它节点上import 此卷组。#varyoffvg volume_group_nameHACMP系列教程(四):安装HACMPHACMP的安装,涉及大量的文件集,下面对其功能简单做一描述。cluster.basecluster.cspoccluster.adtcluster.vsm这个可视化系统管理文件集含有HACMP资源图形化管理的图标和位图。cluster.vsm;        

37、60;      HACMP X11 Dependentcluster.haview这个文件集含有在TME 10 Netview环境下能监控HACMP群集所需的文件。它安装在装有TME 10 Netview网络管理的机器上,而不是装在群集节点上。它含有:cluster.haview;            HACMP HAViewcluster.taskguidescluster.clvm.0;   

38、60;        AIX Run-time Executablecluster.hcHACMP系列教程(五):配置定义群集拓扑结构群 集拓扑结构的定义包括:群集的定义、群集节点定义、网络适配器定义、网络modules。通过将上述部件的信息输入到与HACMP关联的ODM库中来定义 群集拓扑结构。可以利用HACMP SMIT接口或VSM的应用xhacmpm来将上述信息输入到ODM库中。xhacmpm是一个X Windows工具,它利用图标来代表HACMP部件来产生群集的配置。· 群集的定义通过群集的ID和名字在HA

39、CMP环境中定义群集,每一个被定义的群集其ID和名字必须是唯一的。群集的ID是从199999范围内的正整数;名字最多为31个字符。HACMP软件使用这些信息在ODM库中产生群集记录。· 群集节点定义群集的ID和名字定义完后,需定义群集中的各个节点,每一个群集节点需要唯一的名字,群集管理者通过名字去访问这些节点。节点名字最多为31个字符,能够使用空格符隔开而一次附加多个节点。节点名在HACMP中是以它们的ascii顺序逻辑的排序,这主要是为了去确定相邻节点的“心跳”,为了创建一个逻辑环,一个节点总是告诉它相邻的节点它们的名字的ascii 码顺序。· 网络适配器定义在HACMP

40、配置中有许多与网络适配器有关的属性需要配置,它们是:网络适配器IP标签:即该网卡的名字,如果此网卡作为ServiceIP定义且允许IP地址接管,也须为此网卡定义一BootIP地址。网络类型:指明此网卡所连接的网络类型,从预先安装的网络类型中选取(ether、rs232)。网络名字:该网络的标识,群集使用它来确定哪块适配器连到同一物理网,若多个适配器共享同一物理网时,应确保每一块卡使用相同的网络名字。网络属性:指明这个网络是否为:Public,Private,Serial。网 卡功能:指明这个网卡的功能是否为:Service、Standby、Boot。节点对于每一个public、private网

41、络有单独的service adapter;一个单独的serial网络仅有一个单独的service adapter。对于每一个public网络节点可没有、有一个或多个standby网卡;而对于private、serial网络除ATM外,没有 standby网卡。网卡标识:IP地址,在non-serial网络适配器仅要求IP地址;serial网络适配器必须为设备文件名,如:rs232为/dev/ttyx 。网卡的硬件地址:这是一个可选项,仅当定义服务网卡时,此网卡上已定义了BOOT IP地址,而又希望硬件地址交换时定义,这个硬件地址在物理网上应是唯一的。节点名字:这些网卡所在的节点的名字。

42、3; 网络modules的定义在 被配置的HACMP群集中,每一个被支持的群集网络都有一个相应的群集网络module,用于监视到它的群集网络的所有I/O 。网络module是在HACMP软件安装时预安装了。在群集中,每一个module维护与其它网络module的连接,群集管理者通过这些连接在群集节 点上相互发送信息,它也通过周期性的发送、接收群集内其它网络module 的“心跳”信息来检测互通性,当“心跳”数少于临界值时,报告群集管理者有一个真实的故障。(群集通过network的modules之间的通信来检测心 跳信息)当前,网络modules在下列网络类型上支持通信:serial ( rs2

43、32 )、Target mode SCSI 、Targer mode SSA 、IP、Ethernet 、Token Ring、FDDI 、ATM、SLIP 、SP Switch、SOCC。一般情况下,不需要改变网络module 的属性,其改变将影响对故障的检测速率。有三种值可选:Fast、Normal、Slow。缺省值为:Normal。在决定改变时应注意:故障的检测速率 是依赖于两节点间的最快的网络连接;较快的“心跳”速率可以导致错误的故障检测,特别是在繁忙的网络上,可引起“心跳”延迟,从而导致节点不真实地从群集 中退出,并且较快的“心跳”也将增加网络负担。如果出现了上述故障,可以调慢“心跳

44、”的检测速率去避免这种问题的再次发生。同步群集的拓扑结构节 点的同步是为了保障在一个群集中所有节点的ODM库是一致的,否则HACMP在启动时将发生运行错误。即使群集内仅定义了一个节点,也必须进行节点的同 步。在同步群集的拓扑结构之前,应:群集内的所有节点必须加电;HACMP 软件必须要安装;所有节点上的/etc/hosts和/.rhosts文件要包含全部群集的Boot、Service、Standby IP Labels。定义资源HACMP中主要包括以下硬件和软件资源:磁盘、卷组、文件系统、网络地址、应用系统。将 相关联的资源为了管理和配置方便逻辑上组织在一起,就是资源组。可以配置每个资源组在一

45、组节点中有一个特定类型的相互关系,相互关系的类型有: Cascading, Rotating, Concurrent三种。因此,在定义完群集拓扑结构后,必须定义资源,它包括:配置资源组(定义相互关系类型);为每个资源组添加资源;为每个节点设 置运行时间参数;同步群集节点。配置资源组主要是告诉ODM库资源组的名字,参与的节点及相互关系。在参与节点选项的区域中,节点输入的顺序,代表节点的优先级高低,高者在前,低者在后。配置完资源组后,就要依次为每个资源组添加资源。有两个运行时间参数可以调整,一个是为调试方便设置的Log文件的水平;另一个是依据节点是否使用NIS或DNS,当它们干扰运行时HACMP管

46、理员是否可以关掉它们。应用服务器也是能够在资源组中配置的一种资源,它表明了启动和停止应用程序的Script的名字、路径。在每个服务节点上,Script必须具有相同的路径和名字,但内容可有所不同。在 资源组中定义完资源及相互关系后,必须在所有节点上进行资源的同步,但应注意,当群集被配置且首次同步时,群集内的所有被配置节点使用的是它们的boot 地址,如果没有boot 地址,HACMP将不更新/etc/ 文件,这在节点重新进入群集时将产生问题。HACMP系列教程(六):状态检查在开始测试HACMP配置之前,首先必须保证群集节点是在一稳定的状态,主要包括以下方面:设备状态、系统参数、进程、网络适配器

47、、群集。设备状态运行diag a清除VPD。使用命令errpt  -a |more检查不正常的错误。使用命令lsattr El ascsi0检查在共享总线上的适配器scsi 地址。系统参数使用命令date检查群集内所有节点的时钟是相同的。确定license 的用户数是正确的。使用命令sysdumpdev l 和sysdumpdev e确定dump空间是足够的。使用命令crontab l检查定时提交的作业。进程状态检查页空间(lsps a)检查不期望的进程(ps ef |more)网络状态检查网卡的状态(ifconfig en0)检查节点的网络配置(netstat in)检查

48、路由(netstat nr)检查ipforwarding和ipsendredirects的设置(no a |more)检查所有接口的通信(ping < ip-address > )检查TCP/IP daemon的状态(lssrc g tcpip)确定/etc/hosts文件的内容是正确的如果使用了DNS,检查定义的DNS服务器是正确的(more /etc/resolv.conf )群集状态检查群集进程的状态(lssrc g lock 和lssrc g cluster)运行/usr/sbin/cluster /clstat 检查群集和网络接口的状态 检查群集的log文件 tail f

49、 /tmp/hacmp.out tail f /var/adm/cluster.log more /tmp/cm.log more /usr/sbin/cluster/history/cluster.mmdd检查节点名是正确的(odmget HACMPcluster)运行/usr/sbin/cluster/diag/clconfig v 'tr' 检查群集的配置运行/usr/sbin/cluster/utilities/cllscf 显示群集的配置确定群集的版本:snmpinfo m dump o /usr/sbin/cluster/hacmp.defs clstrmgrHAC

50、MP系列教程(七):故障模拟为了检测HACMP的配置是否正确,我们可以模拟一些硬件和软件错误。假如现有一环境:群集中定义了两个节点,配置了 cascading资源组,使用“ nodeF ”表示故障节点,“nodeT”表示接管节点。适配器故障· 接口故障检查群集内的所有节点是运行的。在节点nodeF上使用命令(errclear 0)删除错误记录。监视节点nodeT上的群集log 文件。在节点nodeF上shut off 服务(service)接口(如:ifconfig en0 down),这将引起本节点的standby接管service IP地址。HACMP转换原来的服务(s

51、ervice)接口为备援(standby)接口。使用ifconfig命令(如:ifconfig en1 down)转换服务地址(service IP)返回到原来的服务接口。· 适配器或电缆故障检查群集内的所有节点是运行的。在节点nodeF上使用命令(errclear 0)删除错误记录。监视节点nodeT上的群集log文件。在节点nodeF上从服务接口(service)断开网络电缆,这将引起本节点的standby接管service IP 地址。检查是否接管。重新连接网络电缆到服务(service )接口,将使得原来的服务接口(service)成为备援接口(standby)。从新的服务接

52、口(原来的 standby)断开网络电缆,这将使服务接口接管回service IP地址。检查是否接管。重新连接网络电缆到原来的备援(standby)接口,检查此接口是使用standby IP地址操作。节点故障· AIX crash检查群集内的所有节点是运行的。在节点nodeF上使用命令(errclear 0)删除错误记录。在节点nodeT上监测群集log 文件。使用命令(cat  /etc/hosts > /dev/kmem)去crash节点nodeF,(在nodeF上LED将显示888)。在节点nodeF上操作系统(OS)故障将引起节点nodeT 去接管。检测这个接

53、管的发生。使用命令ping或netstat i检查网络。使用命令lsvg 0或vi检测卷组和文件。使用命令ps ef 检测应用进程。重新加电节点nodeF且启动HACMP(smitty clstart),节点nodeF将接管回Casscading 资源组。检测这个节点重新加入群集后所发生的资源接管。使用命令ping或netstat i检查网络。使用命令lsvg 0 或vi检测卷组和文件。使用命令ps ef 检测应用进程。· cpu 损坏检查群集内的所有节点是运行的。在节点nodeF上使用命令(errclear 0)删除错误记录。在节点nodeT上监测群集log 文件。power of

54、f 节点nodeF,将引起节点nodeT去接管节点nodeT的资源。检测这个接管的发生。使用命令ping 或netstat i 检查网络。使用命令lsvg 0 或vi检测卷组和文件。使用命令ps ef检测应用进程。重新加电节点nodeF且启动HACMP(smitty clstart),节点nodeF将接管回Casscading 资源组。检测节点重新加入群集后所发生的资源接管。使用命令ping 或netstat i 检查网络。使用命令lsvg 0 或vi 检测卷组和文件。使用命令ps ef 检测应用进程。网络故障· TCP/IP子系统故障检查群集内的所有节点是运行的。在节点nodeF上

55、使用命令(errclear 0)删除错误记录。在节点nodeT上监测群集log文件。在 节点nodeF上,停止TCP/IP子系统(sh /etc/tcp.clean)或通过增大sb_max 和thewall参数值去crash 这个子系统,ping节点nodeT 。(no o sb_max=10000 ;no o thewall=10000)记住原来的值以便恢复。TCP/IP子系统故障在节点nodeF上将产生一个网络故障。检查是否发生接管。使用命startsrc g tcpip重新启动TCP/IP daemon。· 网络故障检查群集内的所有节点是运行的。在节点nodeF上使用命令(er

56、rclear 0)删除错误记录。在节点nodeT上监测群集log文件。同时断开服务(service)接口和备援(standby)接口的网络电缆,将引起HACMP检测到一network_down事件。检查是否发生接管。应用故障在缺省情况下,HACMP不识别应用故障,但可以通过用户化定义,使应用故障升级为HACMP可识别的故障,所以须熟悉应用及分析应用可能的故障。HACMP系列教程(八):管理(上)通常HACMP在正常工作情况下很少要求干预,但如果出现一些问题,应能够通过故障现象、系统和用户提供的信息、错误log以及诊断来确定,及时的加以解决。群集的log文件含有HACMP在运行中,它的scrip

57、t 和daemon 产生的信息,一般这些信息是发送到系统控制台和相关的群集log文件 。对于HACMP群集的启动/停止、资源的改变与配置以及群集的监测,有多种方法和工具。HACMP提供以下工具去检测群集:clstat 命令HACMP 提供/usr/sbin/cluster/clstat 命令去监测群集和它的各个部分,可以在字符终端和图形终端上运行,它主要报告cluster是否 up、down or unstable,也报告群集node是否up /down / joining / leaving  or  reconfiguring以及cluster中的number of&#

58、160; node。对于每一个群集node,clstat显示node中所接的每块网卡的address和IP label,以及这个接口是否up or down。HAviewHAview(AIX graphical network management interface)是一个群集检测工具,使用SNMP(Simple Network Management Protocol )协议,NetView通过网络从单一node去监测cluster和相关部件的状态。Daemon 状态使用SMIT Show Cluster Services显示HACMP的daemon的状态。Cluster log fileHACMP 将它所产生的信息写到system console和若干log文件,因为每一个log文件包含有不同的内容,应查看不同的log文件以确定群集的状态。/var/adm/cluster.log是一个主要的HACMP log文件,有关HACMP的错误信息及相关事件的信息按照它们发生的日期和时间顺序记录在这个log文件中。/tmp/hacmp.out此文件记录configuration和startup scripts在执行中产生的输出。这些信息增补和扩展了/var/adm/cluster.l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论