HACMP原理及应用简介

上传人：n*** IP属地：河南上传时间：2020-04-20 格式：PPT 页数：80 大小：476KB 积分：15 举报 版权申诉

已阅读5页，还剩75页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

HACMP原理及应用简介主要内容 Topic1 几种常见的提高系统可靠性的技术Topic2 HACMP的工作原理Topic3 HACMP的管理Topic4 HACMP应用案例Topic5 HACPMtroubleshootingAppendix 共享LVM的定义 Topic1 几种常见的提高系统可用性的技术提高系统可靠性的相关技术容错技术磁盘阵列技术热插拔技术集群技术灾难恢复技术容错技术容错技术是指在硬件和软件出现故障时仍能完成处理和运算不降低系统性能即利用冗余技术使计算机具有容忍故障的能力可以通过硬件和软件方法实现常见的容错技术冗余CPU 内存通信子系统磁盘电源等自动故障检测故障部件隔离和联机更换故障部件磁盘阵列技术磁盘阵列 DISKARRAY 是一个由硬盘控制器控制的多个硬盘的相互连接使多个硬盘的读写同步减少错误提高效率和可靠性的技术 RAID REDUNDANTArrayofInexpensiveDisk 是磁盘阵列技术标准也就是利用多余的磁盘对信息进行冗余保存从而提高磁盘系统的可靠性常见的等级有1 0 1 3 5等不同等级的RAID技术的比较热插拔技术热插拔技术 Hot Swappable 以前主要用于磁盘阵列中在有一个硬盘坏掉的情况下服务器可以不用关机直接抽出坏掉的硬盘换上新的硬盘现在有些厂家对于其他的部件也可以采用热插拔技术如控制卡电源等集群技术集群 Cluster 技术是利用HA HighAvailability 双机热备份软件通过避免系统的单点故障来提高客户计算机系统及其应用的可靠性集群技术已用于多种平台 UNIXOpenVMSNovellWindowsNT 灾难恢复技术必要性数据的高度集中自然灾害如水灾火灾地震等其他来自计算机系统以外的问题如电力系统故障灾难恢复技术的两大技术要素瞬时复制技术连续和周期性更新灾难恢复技术和集群技术的比较 Topic2HACMP工作原理 HACMP双机系统的工作原理 1 作为双机系统的两台服务器主机A和B 同时运行HACMP软件2 服务器除正常运行自己的应用外同时又作为对方的备份主机节点关系为Cascading 3 两台主机系统 A和B 在整个运行过程中通过心跳线相互监测对方的运行情况包括系统的软硬件运行网络通讯和应用运行情况等 HACMP双机系统的工作原理续 4 一旦发现对方主机的运行不正常出故障时故障机上的应用就会立即停止运行本机故障机的备份机就会立即在自己的机器上启动故障机上的应用把故障机的应用及其资源包括用到的IP地址和磁盘空间等接管过来使故障机上的应用能在本机继续运行 HACMP双机系统的工作原理续 5 应用和资源的接管过程由HA软件自动完成无需人工干预6 当两台主机正常工作时也可以根据需要将其中一台机上的应用人为切换到另一台机备份机上运行 HACMP特点三大特点高可用性表现在可以隔离或减少机器资源或设备失败带来的影响防止单点故障如CPU 内存控制卡 I O子系统通讯子系统 HACMP HighAvailabilityClusterMulti Processing 高可容错多处理系统集群是基于UNIX平台处理关键事物提供高可用性的软件 HACMP特点续可管理性正常工作时各个节点之间可以分担负载即可以跑不同的应用这样可以减少系统的管理费用在一个节点上可以管理其他节点的HA配置高扩展性支持的节点多达32个可以方便地加入新的节点用户或其他的资源 ApplicationlayerconsistsofthehighavailableapplicationthatuseHACMPforAIXservices HACMPforAIXlayerprovideshighavailableservicestoclientapplication RSCTlayer HACMP ESonly providesgreatestscalabilityandcoordinationofsubsystemforHACMP ESclusters AIXlayerprovidesoperationsystemservices LVMlayermanagesdiskspaceatthelogicallevel TCP IPlayermanagescommuciationofthelogicallevel AmodelofanHACMPforAIXClusterNode MinimizingScheduledDown TimewithHACMP HACMP有关最小化DOWN机时间的几个特性 Dynamicreconfiguration DARE DAREresourcemigration ClusterSinglePointofControl C SPOC Dynamicadapterswapforreplacinghot pluggableadaptercards ClusterEvents HACMP是基于事件驱动的AIX环境下的集群软件事件是ClusterManager能够意识到和处理的集群中状态的改变 clusterevent可以由网卡网络节点的变化或集群的重新配置而激活当ClusterManager检测到集群的状态的改变它将执行相关脚本来处理该事件常见的clusterevents如下 node upandnode up completeevents anodejoiningthecluster node downandnode down completeevents anodeleavingthecluster network downevent anetworkhasfailed network upevent anetworkhasconnected swap adapterevent anetworkadapterfailedandanewonehastakenitsplace ClusterEvnets 续 C SPOCUtility C SPOC ClusterSinglePointofControl 工具可以让系统管理员在任何一节点完成对所有节点的管理任务 Maintainuserandgroupaccounts MaintainsharedLogicalVolumeManager LVM components ControlHACMPservicesonacluster widebasis 优点减少管理开销减少节点状态不一致性的可能性高效管理逻辑卷和控制集群服务消除的潜在的单点故障包括 Nodes Applications Networksandnetworkadapters DisksanddiskadaptersHACMP用以下的方式来处理节点的失败 Disktakeover IPaddresstakeover withorwithouthardwareaddressswapping 单点故障 ComponentsofaHACMPCluster NodeSharedexternaldisksdevicesNetworksPublicnetwork Privatenetwork SerialnetworkEthernet Token Ring FDDI ATMNetworkAdaptersServicenetworkadapter standbynetworkadapterClients ClusterTopology clustertopology由以下components组成 TheclusterdefinitionclusterID和name决定了一个cluster 每个CLUSTER的clusterIDandname必须唯一 ClusterIDs的范围 1 99999 clustername是最大31个字符的字符串 Theclusternodes ThenetworkadaptersThenetworkmodulesSerial TargetmodeSCCI TargetmodeSSA Ethernet Token Ring FDDI SLIP SPSwitch ATM Clusterresourceandresourcegroup HACMP中的资源由硬件和软件组成 DisksVolumeGroupsFileSystemNetworkAddressesApplicationServer为了有效地利用HACMP的高可靠性每种资源必须定义在resourcegroup中 resourcegroup可以使相关的资源联系成一个逻辑实体这样易于配置和管理 ResourceGroup有三种不同的节点关系CascadingConcurrentRotating NodeRelationship ClusterConfiguration 有两种类型的Clusterconfiguration Standbyconfigurations 这是传统的冗余硬件配置其中有一个或多个空闲的standby 备份节点等待着某个主节点离开集群对应的节点关系为 Rotating CascadingTakeoverconfigurations 这种配置中每个节点都有应用在跑承担集群中的部分负载没有备份的节点对应的节点关系为 Cascading Concurrent 并发存取中各节点的关系节点A和节点B同时跑相同的应用拥有相同的资源对资源有相同的优先级采用Cascading方式时 IP地址的变化两个应用A B分别绑定两个地址 svcA和svcB 正常运行时应用A在节点A 应用B在节点B 采用Cascading方式时 IP地址的变化续当节点A的网络出现故障时应用A在节点B上重新启动节点B的备份网卡接管了应用A的地址现在用户无论是访问应用A 还是应用B 实际上都是节点B提供的服务三个节点两个应用中的Cascading资源组定义节点C分别为应用A和应用B的备份正常情况下应用A跑在节点A上应用B跑在节点B上非并发存取硬盘的几种配置 Hot Standby RotatingStandby MutualTakeover Third PartyTakeover 硬盘接管前文件系统MOUNT在节点A 此时节点B不能再MOUNT该文件系统只有通过NFS访问它非并发存取硬盘的接管过程非并发存取硬盘的接管过程续节点B接管硬盘后相关的文件系统mount在本地可以通过NFSexport文件系统优点以较低的代价完成从单机到HACMP的升级不足发生切换时由于备用机的配置较低可能影响应用的性能 Hot standbyconfiguration MutualTakeoverConfiguration ClusterManager可以检测到网络的失败但不能采取措施恢复不再相连的网络相关措施将节点接在两个交换机上形成冗余链路 NetworkFailure PartitionedCluster PartitionedCluster 续集群中如果某组节点不能与其他组的节点通讯那么这就是一个分区 partition 的集群导致的问题争夺资源引起不可预测的问题采取的对策利用心跳线组成的逻辑环来克服节点间由于TCP IP连接的丢失而引发的数据冲突 Topic3Clustermanagement ClusterDaemon ClusterManagerdaemon clstrmgr 强制的维护节点间的心跳线协议监控节点及其接口的状态当网络或节点的状态改变时激活相关的脚本 ClusterSMUXPeerdaemon clsmuxpd 强制的维护集群对象的状态信息与snmpd相关联 ClusterLockManagerdaemon cllockd 可选的节点如果是ConcurrentAccess配置的一部分则需要启动该进程 MonitoringtheCluster usr sbin cluster clstatHAViewmonitorHACMPthroughNetViewsmitshowClusterServices显示HACMP进程的状态logfile Clusterlogfile var adm cluster log tmp hacmp out usr sbin cluster history cluster mmdd tmp cm log tmp emuhacmp log tmp cspoc l ogsystemerrorlog Clverify工具用来检查HACMP修改的AIX系统文件和集群的配置含拓扑和资源是否正确来保证集群能正常工作运行clverify工具的三种方式交互方式命令行和smit 什么时候需要运行clverify 集群环境下硬件和软件有了改变 ClverifyUtility software verifiesthattheHACMP specificmodificationstoAIXsystemfilesexistandarecorrect Ithasoneoption lpp cluster allowsyoutoverifytheconfigurationagreementusingthetopologyandconfigoptions topology verifiesthatallnodesagreeontheclusterconfiguration Thisprogramhastwooptions checkandsync check tellsyouifthenodesareinagreement sync synchronizestheclustertopology ifnecessary sothatallnodesagree config verifiesthatnetworksareconfiguredcorrectly andthatallnodesagreeontheownershipandtakeoverofdefinedresources Thisprogramhasthreeoptions networks resources orall Clverify检查内容 Topic4HACMP应用实例环境两台RS 6000S701台7133磁盘阵列柜 16 36 4GB AIXV4 3 3HACMPV4 3两个应用计费 Sybase数据库 WWW NetscapeEnterpriseServer IBMHACMP双机系统结构图例 IBM主机服务器 A安装Hacmp软件运行WWW服务共享磁盘阵列存储子系统存放sybase数据和WWW信息数据 A tty1心跳线串口线 b tty1 Service ip 10 17 128 88boot ip 10 17 128 90 IBM主机服务器 B安装Hacmp软件运行SYBASE sStand ip 192 168 3 2 ServiceNetwork StandbyNetwork Service ip 10 17 128 89boot ip 10 17 128 91 sStand ip 192 168 3 1 HACMP软件包含的软件子集安装HACMP 需要的软件子集如下 cluster base 每个做服务器的节点上必须安装的子集 cluster cspoc 单点控制工具 cluster adt 含democlients及其相关的文件 cluster man en US data manpages cluster msg en US messages cluster vsm 可视化系统管理子集 cluster haview 安装在netview网管工作站上 cluster taskguides 快速创建共享的卷组的指南 cluster clvm 并发资源管理 cluster hc ApplicationHeartBeatDaemon OPS需要 HACMP安装配置前需作的准备工作 Step1 划分清楚两台服务器主机各自要运行的应用如A机运行SYBASE B机运行WWW服务 Step2 给每个应用组分配Service ip Standby ip boot ip 串口的心跳线不需要IP 如 HACMP安装前的准备工作续主机A 运行SYBASE Service ip 10 17 128 88Boot ip 10 17 128 90Standby ip 192 168 3 1主机B 运行WWW服务 Service ip 10 17 128 89Boot ip 10 17 128 91Standby ip 192 168 3 2 HACMP安装前的准备工作续 Step3 按照各主机的应用的要求建立好各自的磁盘组并分配好磁盘空间 Step4 根据HACMP软件的要求对服务器操作系统的参数作必要的修改 HACMP双机系统的安装及配置 HACMP HighAvailabilityClusterMulti Processing 的安装配置步骤如下 Step1 在两台服务器上分别安装HACMP软件 smit Step2 分别配置两台服务器的Service Standby和bootIP地址保证Service网和Standby网能ping通 smittcpip Step3 连接HACMP的心跳线串口线并保证该心跳线畅通 IBMHACMP双机系统的安装及配置续 Step4 确定HACMP的ClusterNameorID NodesName AdapterName等并修改好下面一些系统文件 1 etc hosts 2 rhosts 3 usr cluster etc clhosts IBMHACMP双机系统的安装及配置续 Step5 配置HACMPTOPOLOGY smithacmp 1 配置ClusterNameorIDsmithacmpClusterConfigrationClusterTopologyConfigrueCluster 2 配置ClusterNodes ConfigrueNodes smithacmpClusterConfigrationClusterTopologyConfigrueNodes IBMHACMP双机系统的安装及配置续 3 配置AdapterssmithacmpClusterConfigrationClusterTopologyConfigrueAdapters 4 同步ClusterTopology 若出错检查原因smithacmpClusterConfigrationClusterTopologySyncchronizeClusterTopology IBMHACMP双机系统的安装及配置续 Step6 配置HACMPRESOURCES 用smithacmp命令 1 配置ApplicationServer Name Start StopScript smithacmpClusterConfigrationClusterResourcesDefineApplicationServers 2 配置ResourceGroupsmithacmpClusterConfigrationClusterResourcesDefineResourceGroup IBMHACMP双机系统的安装及配置续 Step6 配置HACMPRESOURCES 续 3 Chnagine ShowResourceforaResourceGroupsmithacmpClusterConfigrationClusterResourcesChnagine ShowResourceforaResourceGroup 4 同步ClusterResources 出错时检查原因 smithacmpClusterConfigrationClusterResourcesSynchronizeClusterResources IBMHACMP双机系统的安装及配置续 Step7 检查HACMPCONFIGURATION 用smithacmp smithacmpClusterConfigrationClusterVerificationStep8 HACMP的启动及关闭用smithacmp命令 1 启动过程 smithacmpClusterServicesStartClusterServices IBMHACMP双机系统的安装及配置续 Step8 HACMP的启动及关闭续 2 关闭过程 smithacmpClusterServicesStopClusterServicesStep9 HACMP功能的测试在HACMP配置完成并检查没有错误后即可按8的方法启动HACMP 进行功能测试包括应用在同一台服务器的两个网卡能否切换在两台服务器间能否切换等可用命令 netstat in来看地址的切换情况安装HACMP及应用时必须注意的问题 1 boot address和service address必须在同一个子网 2 有关应用的startscript和stopscript在参与的节点中必须在同一个目录下要有可执行权限且不能放在外置的磁盘阵列上 3 在配置HACMP时必须先在根目录下创建 rhosts Topic5HACMPTroubleshooting HACMPTroubleshooting Ingeneral troubleshootinganHACMPclusterinvolves Becomingawarethataproblemexists 控制台信息用户的反映错误日志 Determiningthesourceoftheproblem Correctingtheproblem 发现问题后立即保存当前的日志文件如 tmp hacmp out tmp cm log 试着复制问题用户反映的通常是应用级的问题如果需要可以用用户的数据文件重建问题保持开放的思维不要过分猜测问题的原因测试每种可能性从测试结果得出结论隔离问题遵循的原则如下从易到难每次只做一次改变不要忽视显而意见的问题检查plugs connectors cables等等完成检查后记录测试和结果以备用排除故障的策略 config too long 这是HACMP中最常见的控制台信息当clustmgr进程发现某个状态改变时它将执相关的事件脚本 eventscript 某些情况下由于脚本的错误或cluster处于特殊的状态将导致事件脚本被挂起来过了缺省的360秒 clustmgr进程将config too long写入 tmp hacmp out文件解决该问题的方法 1 如果是由于脚本错误引起的修改该脚本然后在命令行运行clruncmd 或运行SMITClusterRecoveryAids2 如果某个脚本的运行时间很长超过了360秒该信息的出现不意味着有问题等待其执行 Theclusterhasbeeninreconfigurationtoolong Somethingmaybewrong HighlyAvailableApplicationsFail Problem高可靠性应用在IP地址接管之后启动失败原因是hostname没有设置 Solution由于某些应用绑定的是hostname 在HACMP环境中 IP地址接管后要启动该应用在应用服务器的脚本中加入如下命令修改接管节点的hostname mkdev tinet0chdev linet0 ahostname nnn这里 nnn就是接管节点新分配的hostname ClusterNodesCannotCommunicate Problem如果将两个或多个节点连接在同一个网络上可能会遇到分区的集群 partitionedcluster 这时集群中的节点不能相互通讯在正常情况下某节点的serviceadapter失败后 ClusterManager将激活swapadapterevent 使standby网卡替代service网卡如果没有standby网卡该节点将从集群中隔离出来其他的节点也没法与其通讯 Solution确保网络的配置无单点故障 CannotFindFilesystematBootTime ProblemAIX在启动的时候根据 etc filesystem文件中 check true 的属性用fsck检查文件系统如果不能检查某文件系统 AIX报告如下错误 FilesystemHelper 0506 519DeviceopenfailedSolution由HACMP控制的文件系统出现该错误信息是很典型的但不意味着文件系统有错通常情况下文件系统所在的卷组在系统启动时都不会激活如果要去掉该错误信息修改 etc filesystems文件使共享文件系统的属性不包含 check true deadmanswitch 指的是当某节点的AIX内核扩展时如果cluster的状态没重设可能导致其AIX系统dump或systempanic 这时另外集群中的另一节点将以有序的方式接管已经挂起来的节点的资源避免争夺资源可以通过调整系统性能的方法来避免deadmanswitch的发生 1 TunethesystemusingI Opacing 2 Increasethesyncdfrequency 3 Ifneeded increasetheamountofmemoryavailableforthecommunicationssubsystem 4 ChangetheFailureDetectionRate DeadmanSwitch 在HACMP集群环境中如果有大的数据块要写到硬盘上最好enableI OPacing smitchgsys设置high water和low water两个值其初始值分别为33和24 1 TuningtheSystemUsingI OPacing 2 ExtendingthesyncdFrequency编辑 sbin rc boot文件将syncdfrequency从缺省的60秒提高到30 20或10秒这样可以通过提高I O的同步频率缓解I Otraffic 来减少激活deadmanswitch的可能性改善系统性能避免DeadmanSwitch SMITChangeShowaClusterNetworkModule 将failuredetectionrate设置为 Slow 3 IncreaseAmountofMemoryforCommunicationsSubsystemAIX中相关的参数为thewall 其缺省值为实际内存的25 最大可以达到实际内存的50 相关命令 no othewall xxxxx 4 ChangingtheFailureDetectionRate 改善系统性能避免DeadmanSwitch 续 Appendix共享LVM的定义 Creatinganewsharedvolumegroup Extending reducing changing orremovinganexistingvolumegroup Importing mirroring unmirro

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

HACMP原理及应用简介

文档简介

温馨提示

最新文档

评论

HACMP原理及应用简介

文档简介

温馨提示

最新文档

评论

相关文档