hacmp4.5新功能手册.doc_第1页
hacmp4.5新功能手册.doc_第2页
hacmp4.5新功能手册.doc_第3页
hacmp4.5新功能手册.doc_第4页
hacmp4.5新功能手册.doc_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

hacmp4.5软件预要求1新特点和新功能1易用性上的增强2在线配置计划表(Online Plan Worksheets)2客户传呼机通知功能3动态节点优先级策略5资源组处理的定序6增强的选择性资源接管粒度8增强的并发模式和64位clinfo API8HACMP管理功能上的增强8用户可自定义config_too_long告警出现的时间9WEB方式的clstat命令9增强的事件概述显示10应用服务可用性分析工具11网络功能上的增强特性12固定的节点IP别名13广域网通讯支持14增强的网络拓扑自动搜索功能14通过IP别名实现的IP地址接管15新的设备支持18软件预要求HACMP要求AIX 5L Version 5.1和RSCT Version ,本书内容基于AIX 5L Version 5.1 ML02及HACMP 4.5 PTF 1。还需要安装如下的软件包:l bos.adt.libm l bos.adt.syscalls l bos.data l pat.basic.hacmp l pat.clients.hacmp l vacpp.msg.en_US.ioc.rtel vacpp.ioc.aix50.rte针对RSCT还需要如下软件包:l csm.client 5l devices.chrp.base.ServiceRM 5新特点和新功能作为IBM群集产品中的新兵,HACMP4.5增强了其用户接口和可管理特性,另外增加对新的网络和主机系统的支持,具体有如下几点:l 易用性l 可管理性l 新支持的网络类型l 新支持的设备l 新支持的应用易用性上的增强在线配置计划表(Online Plan Worksheets)OLPW功能基于JAVA实现,能够运行在AIX或者WINDOWS上,HACMP的配置简化成:填写配置计划表、提交配置、校验并同步群集配置,具体步骤如下:1. 拷贝工作表文件:要使用该功能要求Java 2 Runtime Environment (J2RE) Version1.2 或更高版本,安装HACMP/ES 4.5后,工作表文件位于/usr/es/sbin/cluster/samples/worksheets目录下,worksheets.html文件中有帮助信息。l 对于AIX5.1或更高版本缺省安装J2RE,只需要拷贝worksheets(启动脚本)和worksheets.jar(java库),如果拷贝存放目录不是缺省目录/usr/lpp/cluster/samples/worksheets,那么还需要手工修改worksheets中WORKSHEETS变量以反映你的存放目录。l 对于WINDOWS平台上需另行检查软件安装是否满足J2RE要求,需拷贝worksheets.bat(启动脚本)和worksheets.jar(java库),并更新worksheets.bat中的路径设置以反映拷贝存放目录。2. 运行启动脚本。3. 提交工作表配置数据:点击界面上的“Create Configuration”生成配置文件(缺省名为cluster.conf),上传到群集中的一个节点上,运行/usr/sbin/cluster/utilities/cl_opsconfig 命令提交配置,装入HACMP数据库(有些类似snapshot的功能),该脚本还会自动执行配置校验和同步。客户传呼机通知功能通过传呼机通知所发生的hacmp事件,应该在先前的版本已经存在,V4.5增加了测试功能。每个节点及其未用的tty口构成一个组合,定义传呼通知时,可以选用一个或多个这样的组合来达到发送传呼的目的(如果存在多个,系统会自动选择第一个可用的组合)。定义传呼的SMIT路径走Cluster ConfigurationCluster Custom ModificationDefine Custom Pager Notification Method或者smitty hacmpRAS SupportDefine Custom Pager Notification Method,SMIT屏幕显示如下:定义好传呼通知的方法后,可以通过下面的界面发送测试信息:确认后,SMIT实际上是调用/usr/es/sbin/cluster/utilities/clissuepage命令,命令的执行过程会显示在SMIT的输出结果屏幕上,如下图:动态节点优先级策略先前的HACMP版本,Cascading类型的资源组中节点的接管优先级顺序,是在定义资源组的时候就定下的;而在V4.5中,支持一种动态的优先级顺序,也就是说当主节点失败后,可以根据用户预定的策略来动态的决定由哪个后备节点来接管资源。缺省就有3种预定义的优先级策略:l cl_highest_free_mem:看哪个节点的剩余内存最多;l cl_highest_idle_cpu:看哪个节点的cpu最空闲;l cl_lowest_disk_busy:看哪个节点的营盘最空闲。但用户也可以通过选择RSCT变量来制定自己的策略,通过Configure Dynamic Node Priority Policies菜单可以增加、删除或修改节点优先级策略,例如下面的增加界面:要激活节点动态优先级策略,通过Change/Show Resources/Attributes for a Resource group SMIT菜单进行设置,截屏如下:这种策略只应用于node_down和rg_move事件,而node_up和reconfig_resource事件还是沿用先前的优先级方法。另外对使用动态策略,还有一些注意事项:l 资源组至少由三个节点构成;l 对并发类型的资源组无效;l Dynamic Reconfigure(DARE)事件也不使用动态策略;l 在一开始(启动HACMP)时,资源还是在所定义的第一个节点上。资源组处理的定序如果某个HACMP事件发生,导致多个资源组产生接管或移动,那么它们的处理顺序是怎样的呢?在V4.5之前,HACMP除了把涉及NFS的资源组放在最后处理外,是按照资源组名字的字母顺序来处理的。所以,如果想让资源组按照自己需要的顺序进行处理,那么就需要在资源组的名字上动动脑筋了。这一点在HACMP 4.5上得以改观,现在用户可以定义获得或释放资源组的顺序。对于HACMP 4.5传统版本(HAS 4.5),获得资源组的缺省顺序如下:l 顺序获取显式指定的资源组;l 按名字字母依次获取未显式指定的资源组;l 顺序获取显式指定的仅包含NFS装载的资源组;l 按名字字母依次获取未显式指定的仅包含NFS装载的资源组。释放资源组的缺省顺序如下:l 按名字字母依次释放未显式指定的资源组;l 顺序释放显式指定的资源组;l 按名字字母依次释放未显式指定的仅包含NFS装载的资源组;l 顺序释放显式指定的仅包含NFS装载的资源组。对于HACMP/ES 4.5版本(HAES 4.5),缺省的处理模式是并发的,但不是每个资源组一个线程这样的并发方式,HACMP实际上把几个资源组合并成一个大的资源组,这个虚拟的大资源组内,不同类型的资源还是依次顺序处理的,但同一类型的资源,例如卷组就可以并发激活或释放。如果用户更改了缺省方式,那么:获取资源组的缺省顺序如下:l 顺序获取显式指定的资源组;l 并发获取仅包含NFS装载的资源组;l 并发获取未显式指定的资源组。释放资源组的缺省顺序如下:l 并发释放未显式指定的资源组;l 顺序释放显式指定的资源组;l 并发释放仅包含NFS装载的资源组。见这样一个HA/ES的例子,共有rg1、rg2、rg3、rg4、rg5五个资源组,他们都与同一个节点相关,所以缺省方式下,HACMP是并发处理这些资源组的,但现在要求rg4必须先于rg2处理,而rg2必须先于其他rg之前处理。基于这样的要求,我们在HACMP的SMIT菜单中这样定义,见下图:根据这样的设置,HACMP重新定义的处理顺序见SMIT输出结果:增强的选择性资源接管粒度HACMP4.5之前,已经能设置在下面几种情况下,产生资源组接管:l 网卡失败;l 本地网络失效;l 应用退出;l X.25通讯链路掉。V4.5上增加了卷组失败导致资源组的可选粒度,对于HA/ES 4.5还允许设置在卷组失去QUORUM情况下发生接管,这实际是通过AIX ERROR NOTIFICATION功能实现的(所以如果errdaemon没有运行,那么该功能肯定无效)。在V4.5之前,要实现这样的功能,用户需要在ODM中自行定义errot-notify事件,现在HACMP自行替用户完成设置。增强的并发模式和64位clinfo API增强的并发模式是在AIX5L内部集成的,AIX5L上的HACMP4.5版本利用该功能扩展了对增强型并发卷组的支持。新的cluster.es.client.lib文件集同时包含了64位和32位的libcl.a库,64位应用程序可以调用64位的clinfo API,从clsmuxpd获取群集的状态信息。HACMP管理功能上的增强HACMP4.5在管理灵活性、便捷性上也有不小的提高,具体表现在下面几个方面:l 用户可自定义config_too_long告警出现的时间;l 基于WEB界面的clstat命令;l hacmp.out中增强的事件描述;l 增强的故障定位。对于HACMP/ES4.5还增加一项功能提升管理的灵活性:l 应用可用性分析工具。用户可自定义config_too_long告警出现的时间通常HACMP最多允许一个事件执行6分钟,一旦超出,就会每30秒在hacmp.out中增加一条config_too_long警告信息,直到事件完成或者HACMP结束运行。在先前的版本中,可以用chssys -s clstrmgr -a “-u delay_in_milliseconds”命令 来修改6分钟最大允许执行时间(属于秘籍哦)。在HACMP4.5上,把HACMP事件分成两类:l 快速事件:不涉及资源组获取或释放,因此能比较快就结束;l 慢速事件:与资源获取或释放、APPSERVER运行、HAGEO SITE事件等有关,所以通常要执行比较长的时间。通过这种方式,用户更好地为慢速事件定义最长执行时间以避免误报config_too_long警告。具体的smit菜单通过Cluster ConfigurationAdvanced Performance Tuning Parameters进入,见下图:这里Event Duration制定了快速事件的最长允许执行时间(缺省为360秒),而Event Duration加上Resource Group Duration则制定了慢速事件的最长允许执行时间(缺省为0)。config_too_long警告信息出现的频率也与之前的固定30秒有所不同,HACMP4.5中,前5条警告信息每30秒出现一次,之后每显示5条,告警出现的间隔频率增大一倍,直到达到一小时出现一次,之后维持每小时显示一条的频率直到事件完成或者HACMP结束。另外,之前的clstrmgr通过发送SIGKILL信号给config_too_long事件,这是程序无法截取或屏蔽的信号,而在HACMP4.5中改成发送SIGQUIT信号,config_too_long事件可以截获该信号,打印提示信息,然后干净地退出。WEB方式的clstat命令新版本附带一个clstat.cgi文件,提供基于web cgi程序的方式,来显示hacmp群集的状态。如果远程的客户端通过浏览器调用该文件,以超文本形式查看群集、节点、adapter等状态信息(见下图)。实现这样的功能,还需要下面的配置:l 在运行clinfo的节点上安装web服务器软件;l 把clstat.cgi拷贝到该web服务器的cgi-bin目录下;l 使用类似5/cgi-bin/clstat.cgi这样的URL来调用clstat增强的事件概述显示HACMP4.4.1中的hacmp.out文件中就已经包含有每个事件的概述信息。HACMP4.5中在通过clcycle切换hacmp.out文件(切换到hacmp.,n为110的数字)之前,会把其中的事件概述信息截取出来存入位于/usr/es/sbin/cluster/etc目录下的cl_event_summaries文件中。另外还增加了clevsummary程序和对应的smit界面(见下图)。其中Show Event Summaries和Save Event Summaries to a file菜单项都会完成下面三项操作:l 从clevsum.txt中读取信息;l 通过odm中读取hacmp.out文件的存放位置并截取其中的事件概述;l 对每个资源组,分别运行clfindres。然后根据菜单项,把输出送往标准输出或者存入指定的文件。下面是HACMP事件概述的示例:应用服务可用性分析工具应用服务可用性分析工具(AAAT,Application Available Analysis Tool)可以用来分析HACMP中所定义应用服务的在线时间,这是通过分析clavan.log文件实现的,这个文件中包含有应用服务的各种状态变化,如:l 应用服务监控的定义、修改和删除;l 应用启动、停止和失败;l 节点失败、关闭或启动;l 资源组掉线或移动;l 应用服务监控挂起或继续。只要定义了应用服务,hacmp就开始往clavan.log文件追加上述相关事件记录,由于这个文件的内容是不断累加的,所以需要注意存放该文件的文件系统是否有足够的空间,必要时可以通过smit菜单修改缺省的存放位置(/var/adm)。调用应用服务可用性分析工具的smit菜单路径是:Cluster System Management - Cluster Applications - Application Availability Analysis,对应的界面是:对应的输出结果如下图:调用应用服务可用性分析工具时有些限制和注意事项:l 调用工具时,所有的节点都处于可访问状态,另外各节点的时钟也应相互同步;l 对于并发类型资源组上的应用服务,只要有一个节点能工作,AAAT就认为该应用服务可用;l AAAT工具不是以端客户角色去看待应用服务的可用性,例如:某个客户端自身的网络故障导致无法使用应用服务,但只要在服务器上应用工作正常,AAAT还是认为应用服务处于可用状态;l clavan.log处于不断累加的状态,如果中途变更过其存放位置,有可能导致AAAT分析不正常。网络功能上的增强特性新增加的网络特性有:l 节点固定的IP别名(HACMP、HACMP/ES);l 广域网支持(HACMP、HACMP/ES);l 增强的网络拓扑结构搜索能力(仅HACMP/ES);l 通过IP别名实现的IP地址接管(仅HACMP/ES)。固定的节点IP别名HACMP 4.5上增加了一种新的网卡功能类型persistent类型,固定ip别名不会随着HACMP资源的迁移离开节点,通过这个IP地址,总是可以访问相应的主机,这很适合tivoli这样的网管程序用来监控节点的状态。由于采用了ip别名的实现方法,用户就不用为管理用途专门配备一块网卡了。通常persistent ip绑定在boot或service的网络接口上,当该网络接口失败时,swap_adapter事件处理会自动把persistent ip绑定到同一节点同一网络的下一个接口上(但如果该接口已经不在standby状态,例如发生IPAT,接管了别的失败节点的IP地址,这时Persistent IP不会发生迁移,而是处于不可用状态)。即使整个节点失败了,persistent ip也不会漂移到别的主机上。因此,persistent ip具有如下特性:l 总是绑定在固定的节点上;l 每个节点的每个物理网上只能有一个persistent ip;l 与boot或service ip共存于一个网络接口上;l 不需要额外购买网卡;l 不作为任何一个资源组中的ip资源;l HACMP配置完毕并同步后生效,之后不管群集管理器是否启动均保持可用;l 目前支持以太网、令牌环、FDDI、ATM LANE等协议;l 目前不支持SP SWITCH和ATM CLASSIC IP。对于使用标准IP的HACMP网络(不借助IP别名),要求固定IP别名满足下面的子网要求:l Persistent IP与standby IP在不同的子网上;l Persistent IP与boot/service IP可以在相同的子网上。对于基于IP别名实现的HACMP网络,要求Persistent IP与boot/service IP不在相同的子网上。Persistent IP的设置方法与boot/service/standby IP的设置方法一样,定义adapter的smit对话框中增加了Persistent的“Interface / IP Label function”选项。具体内容如下:如前面Persistent IP特性中所介绍,完成HACMP配置和同步后,新的Persistent IP就能生效。在同步过程中,Persistent IP别名定义被追加到HACMP ODM中,同时运行ifconfig命令让配置生效,然后在/etc/inittab中作下面的修改:l 追加一条入口,调用/usr/es/sbin/cluster/etc/脚本;l 确认rc.tcpip、rc.nfs、qdaemon和writesrv的运行级别设在a上,还有clinit和pst_clinit都存在并且运行级别也设在a上。脚本完成IP别名设置,并启动上述几项服务。因此在HACMP启动之前,Persistent IP就已经生效(因为init在启动过程中就会调用了)。HACMP启动过程中,去掉boot IP,加上service IP,这过程中Persistent IP也是去掉再重新加上。从HACMP配置中删除Persistent IP设置,并不会自动删除当前的IP别名设置,这需要手工执行ifconfig enX delete 或重新启动节点。广域网通讯支持在V4.5之前,对于广域网,HACMP仅支持基于LAN的SNA实现,现在X.25及基于X.25的SNA这两种广域网通讯连接也可以设置为高可用的HACMP资源。通过运行x25status命令,可以清楚的得知当前的x.25连接是否可用,HACMP就是用这个命令来监测X.25网络连接的状态。专门的守候进程clcommlinkd(处理node_up事件时启动)负责完成相关的工作:l 启动和关闭高可用x.25连接;l 监测x.25连接的状态;l 发起x.25连接失败时的恢复程序。clcommlinkd调用x25status,发现当前的x.25连接不可用时,会按照下面的故障恢复程序开始处理:l 如果节点上还有一个可用的x.25端口,开始端口切换恢复程序;l 如果不存在这样的端口,对于HA/ES,开始资源组切换程序;对于HAS,执行带take-over选项的HACMP关闭程序。对于基于X.25的SNA,监控机理基本同X.25,新的HACMP版本在发现X.25链路故障并切换到可用端口时,会自动把原先端口上的SNA连接也切换到新的X.25端口上。注意:对于非X.25失败引发的SNA连接故障,HACMP是不会自动采取恢复措施的。增强的网络拓扑自动搜索功能HACMP 4.5中的网络拓扑自动搜索功能,速度更快,并能一步实现多块网卡的定义和删除,这使得网卡定义变得更快、更容易。在这种新的网卡定义方式下,IBM推荐的网络拓扑配置步骤是:1. 增加初始网卡:每个节点定义一个初始网卡,这是为了让自动搜索程序能够访问所有的节点。2. 搜索IP拓扑(Discover IP Topology)。HACMP/ES能够区分出先前已经定义到群集配置的IP地址。3. 增加boot、standby网络接口IP。相同网络上的、相同属性的网卡可以一次完成定义。4. 增加共享的serivice网络接口IP。同步骤3。5. 增加非共享的service网络接口IP、Persistent IP和需要可变物理硬件地址(alternate hardware address)。这些地址需要单独加入。注:限于环境,无法给出步骤3/5的smit界面。通过IP别名实现的IP地址接管HACMP/ES 4.5增加一项新功能,能够实现基于IP别名的IP地址接管。有别于传统方式下Service IP替代Boot IP,新的实现方法中是在Boot IP所在的网络接口上增加Service IP别名,另外在基于IP别名的HACMP网络中,IPAT不是通过standby网卡实现,所有网卡的功能都定义为boot类型,因此boot与service要配置在不同的网段上(与之前的版本不一样)。基于别名的IPAT与传统方式有很大的不同:1. 减少了切换需要的时间,同样执行acquire_service_addr事件,传统方式要用11秒,而基于别名的IPAT仅需要5秒。2. 由于service地址是以别名方式附加到网卡上的,所以在新的方式下,boot网卡始终可用。3. 基于别名的IPAT不支持硬件地址接管。4. boot类型和standby类型变得无关紧要,HACMP将按照它们定义的顺序(可以用cllsif来显示其顺序)来选择网卡追加别名。5. 一块网卡上可以绑定多个通过别名实现的service地址,例如:双机互备的情况下,一台主机失败,其service地址就被另一台主机的第一块网卡接管,而这时该网卡上已经绑定了自己的service地址。在基于别名的hacmp网络中配置service网卡(使用别名来实现IPAT)的方法与配置boot网卡没有什么区别,只需要注意boot与service在不同的子网上即可。等启动hacmp后,netstat的输出如下:sp2-n1:/ netstat -iNameMtuNetworkAddressIpktsIerrsOpktsOerrsCollen01500link#20.4.ac.49.c7.465334304492800en01500sp2-n15334304492800en0150010.10.11spn1-alias-svc5334304492800en11500link#30.4.ac.5e.b8.ce94540906300en11500sp2-n1-boot294540906300lo016896link#13759903784300lo016896127loopback3759903784300lo016896:13759903784300sp2-n1:/ netstat -inNameMtuNetworkAddressIpktsIerrsOpktsOerrsCollen01500link#20.4.ac.49.c7.46361035034511200en015005361035034511200en0150010.10.1361035034511200en11500link#30.4.ac.5e.b8.ce307831030333300en1150031307831030333300lo016896link#1315764031623600lo016896127315764031623600lo016896:1315764031623600如果发生swap_adapter事件,netstat输出变成:sp2-n1:/ netstat -iNameMtuNetworkAddressIpktsIerrsOpktsOerrsCollen0*1500link#20.4.ac.49.c7.46356745034089000en0*1500sp2-n1356745034089000en11500link#30.4.ac.5e.b8.ce303561029912800en11500sp2-n1-boot2303561029912800en1150010.10.11spn1-alias-svc303561029912800lo016896link#1311333031179300lo016896127loopback311333031179300lo016896:1311333031179300如果发生节点切换,那么可以看到第二个节点上的第二块网卡接管了service地址:sp2-n2:/ netstat -iNameMtuNetworkAddressIpktsIerrsOpktsOerrsCollen01500link#20.4.ac.49.ba.462769802517100en01500sp2-n22769802517100en0150010.10.12spn2-alias-svc2769802517100en11500link#2.40.e883580785100en11500sp2-n2-boot283580785100en1150010.10.11spn1-alias-svc83580785100lo016896link#179240798200lo016896127loopback79240798200lo016896:179240798200HACMP/ES4.5是根据下面原则,自动把HACMP网络认定为一个基于别名的网络(即使用别名实现IPAT):l 没有配置standby网卡;l 没有配置硬件地址接管;l 该类型网络支持gratuitous arp;l boot和service地址在不同的网段上。上面显示两种类型网络很关键的一点区别,就是基于别名的网络上配置了多块位于不同网段上的boot网卡,而普通网卡配置的是位于不同网段上的boot及standby网卡。一般在基于别名的网络上一个节点上配置至少两块boot类型网卡以避免单点失败,但这不是必要条件,下面的netstat输出显示仅有一块boot类型网卡带有两个service别名的情形:sp2-n2:/ netstat -iNameMtuNetworkAddressIpktsIerrsOpktsOerrsCollen01500link#20.4.ac.49.ba.46323739031199400en01500sp2-n2323739031199400en0150010.10.11spn1-alias-svc323739031199400en0150010.10.12spn2-alias-svc323739031199400lo016896link#1272826027327300lo016896127loopback272826027327300lo016896:1272826027327300总结一下,基于别名的HACMP网络配置有下面的注意事项:l 至少定义一块boot类型网卡,推荐配置两块以上;l 任意一个节点不能配置standby类型网卡;l 任何一块网卡不能配置硬件地址接管;l serviceIP与bootIP必须在不同的子网上(虽然AIX5L支持相同子网上的多条路由并存);l 多个serviceIP和bootIP可以别名方式共存于一块物理网卡上;l HACMP/ES4.5仍然支持老的sp switch网络(也是通过别名实现IPAT,但与新的别名网络不同,例如有定义standby网卡),不过IBM推荐迁移到新的基于别名的HACMP网络。另外需要强调的是,serviceIP所绑定的网卡并不总是en0,而是与定义hacmp拓扑时的顺序有关,下面例

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论