HACMP原理及应用简介_第1页
HACMP原理及应用简介_第2页
HACMP原理及应用简介_第3页
HACMP原理及应用简介_第4页
HACMP原理及应用简介_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HACMP原理及应用简介 主要内容 Topic1 几种常见的提高系统可靠性的技术Topic2 HACMP的工作原理Topic3 HACMP的管理Topic4 HACMP应用案例Topic5 HACPMtroubleshootingAppendix 共享LVM的定义 Topic1 几种常见的提高系统可用性的技术 提高系统可靠性的相关技术 容错技术磁盘阵列技术热插拔技术集群技术灾难恢复技术 容错技术 容错技术是指在硬件和软件出现故障时 仍能完成处理和运算 不降低系统性能 即利用冗余技术 使计算机具有容忍故障的能力 可以通过硬件和软件方法实现 常见的容错技术 冗余CPU 内存 通信子系统 磁盘 电源等 自动故障检测故障部件 隔离和联机更换故障部件 磁盘阵列技术 磁盘阵列 DISKARRAY 是一个由硬盘控制器控制的多个硬盘的相互连接 使多个硬盘的读写同步 减少错误 提高效率和可靠性的技术 RAID REDUNDANTArrayofInexpensiveDisk 是磁盘阵列技术标准 也就是利用多余的磁盘对信息进行冗余保存 从而提高磁盘系统的可靠性 常见的等级有1 0 1 3 5等 不同等级的RAID技术的比较 热插拔技术 热插拔技术 Hot Swappable 以前主要用于磁盘阵列中 在有一个硬盘坏掉的情况下 服务器可以不用关机 直接抽出坏掉的硬盘 换上新的硬盘 现在有些厂家对于其他的部件 也可以采用热插拔技术 如控制卡 电源等 集群技术 集群 Cluster 技术是利用HA HighAvailability 双机热备份软件 通过避免系统的单点故障 来提高客户计算机系统及其应用的可靠性 集群技术已用于多种平台 UNIXOpenVMSNovellWindowsNT 灾难恢复技术 必要性数据的高度集中 自然灾害 如水灾 火灾 地震等 其他来自计算机系统以外的问题 如电力系统故障 灾难恢复技术的两大技术要素 瞬时复制技术连续和周期性更新 灾难恢复技术和集群技术的比较 Topic2HACMP工作原理 HACMP双机系统的工作原理 1 作为双机系统的两台服务器 主机A和B 同时运行HACMP软件2 服务器除正常运行自己的应用外 同时又作为对方的备份主机 节点关系为Cascading 3 两台主机系统 A和B 在整个运行过程中 通过 心跳线 相互监测对方的运行情况 包括系统的软硬件运行 网络通讯和应用运行情况等 HACMP双机系统的工作原理 续 4 一旦发现对方主机的运行不正常 出故障 时 故障机上的应用就会立即停止运行 本机 故障机的备份机 就会立即在自己的机器上启动故障机上的应用 把故障机的应用及其资源包括用到的IP地址和磁盘空间等 接管过来 使故障机上的应用能在本机继续运行 HACMP双机系统的工作原理 续 5 应用和资源的接管过程由HA软件自动完成 无需人工干预6 当两台主机正常工作时 也可以根据需要将其中一台机上的应用人为切换到另一台机 备份机 上运行 HACMP特点 三大特点 高可用性表现在可以隔离或减少机器 资源或设备失败带来的影响 防止单点故障 如CPU 内存 控制卡 I O子系统 通讯子系统 HACMP HighAvailabilityClusterMulti Processing 高可容错 多处理系统集群 是基于UNIX平台处理关键事物 提供高可用性的软件 HACMP特点 续 可管理性正常工作时 各个节点之间可以分担负载 即可以跑不同的应用 这样可以减少系统的管理费用 在一个节点上 可以管理其他节点的HA配置 高扩展性支持的节点多达32个 可以方便地加入新的节点 用户或其他的资源 ApplicationlayerconsistsofthehighavailableapplicationthatuseHACMPforAIXservices HACMPforAIXlayerprovideshighavailableservicestoclientapplication RSCTlayer HACMP ESonly providesgreatestscalabilityandcoordinationofsubsystemforHACMP ESclusters AIXlayerprovidesoperationsystemservices LVMlayermanagesdiskspaceatthelogicallevel TCP IPlayermanagescommuciationofthelogicallevel AmodelofanHACMPforAIXClusterNode MinimizingScheduledDown TimewithHACMP HACMP有关最小化DOWN机时间的几个特性 Dynamicreconfiguration DARE DAREresourcemigration ClusterSinglePointofControl C SPOC Dynamicadapterswapforreplacinghot pluggableadaptercards ClusterEvents HACMP是基于事件驱动的AIX环境下的集群软件 事件是ClusterManager能够意识到和处理的集群中状态的改变 clusterevent可以由网卡 网络 节点的变化或集群的重新配置而激活 当ClusterManager检测到集群的状态的改变 它将执行相关脚本来处理该事件 常见的clusterevents如下 node upandnode up completeevents anodejoiningthecluster node downandnode down completeevents anodeleavingthecluster network downevent anetworkhasfailed network upevent anetworkhasconnected swap adapterevent anetworkadapterfailedandanewonehastakenitsplace ClusterEvnets 续 C SPOCUtility C SPOC ClusterSinglePointofControl 工具可以让系统管理员在任何一节点完成对所有节点的管理任务 Maintainuserandgroupaccounts MaintainsharedLogicalVolumeManager LVM components ControlHACMPservicesonacluster widebasis 优点 减少管理开销 减少节点状态不一致性的可能性 高效管理逻辑卷和控制集群服务 消除的潜在的单点故障包括 Nodes Applications Networksandnetworkadapters DisksanddiskadaptersHACMP用以下的方式来处理节点的失败 Disktakeover IPaddresstakeover withorwithouthardwareaddressswapping 单点故障 ComponentsofaHACMPCluster NodeSharedexternaldisksdevicesNetworksPublicnetwork Privatenetwork SerialnetworkEthernet Token Ring FDDI ATMNetworkAdaptersServicenetworkadapter standbynetworkadapterClients ClusterTopology clustertopology由以下components组成 TheclusterdefinitionclusterID和name决定了一个cluster 每个CLUSTER的clusterIDandname必须唯一 ClusterIDs的范围 1 99999 clustername是最大31个字符的字符串 Theclusternodes ThenetworkadaptersThenetworkmodulesSerial TargetmodeSCCI TargetmodeSSA Ethernet Token Ring FDDI SLIP SPSwitch ATM Clusterresourceandresourcegroup HACMP中的资源由硬件和软件组成 DisksVolumeGroupsFileSystemNetworkAddressesApplicationServer为了有效地利用HACMP的高可靠性 每种资源必须定义在resourcegroup中 resourcegroup可以使相关的资源联系成一个逻辑实体 这样易于配置和管理 ResourceGroup有三种不同的节点关系CascadingConcurrentRotating NodeRelationship ClusterConfiguration 有两种类型的Clusterconfiguration Standbyconfigurations 这是传统的冗余硬件配置 其中 有一个或多个空闲的standby 备份 节点 等待着某个主节点离开集群 对应的节点关系为 Rotating CascadingTakeoverconfigurations 这种配置中 每个节点都有应用在跑 承担集群中的部分负载 没有备份的节点 对应的节点关系为 Cascading Concurrent 并发存取中各节点的关系 节点A和节点B同时跑相同的应用 拥有相同的资源 对资源有相同的优先级 采用Cascading方式时 IP地址的变化 两个应用A B分别绑定两个地址 svcA和svcB 正常运行时 应用A在节点A 应用B在节点B 采用Cascading方式时 IP地址的变化 续 当节点A的网络出现故障时 应用A在节点B上重新启动 节点B的备份网卡接管了应用A的地址 现在 用户无论是访问应用A 还是应用B 实际上都是节点B提供的服务 三个节点 两个应用中的Cascading资源组定义 节点C分别为应用A和应用B的备份 正常情况下 应用A跑在节点A上 应用B跑在节点B上 非并发存取硬盘的几种配置 Hot Standby RotatingStandby MutualTakeover Third PartyTakeover 硬盘接管前 文件系统MOUNT在节点A 此时 节点B不能再MOUNT该文件系统 只有通过NFS访问它 非并发存取硬盘的接管过程 非并发存取硬盘的接管过程 续 节点B接管硬盘后 相关的文件系统mount在本地 可以通过NFSexport文件系统 优点 以较低的代价 完成从单机到HACMP的升级 不足 发生切换时 由于备用机的配置较低 可能影响应用的性能 Hot standbyconfiguration MutualTakeoverConfiguration ClusterManager可以检测到网络的失败 但不能采取措施恢复不再相连的网络 相关措施 将节点接在两个交换机上 形成冗余链路 NetworkFailure PartitionedCluster PartitionedCluster 续 集群中如果某组节点不能与其他组的节点通讯 那么这就是一个分区 partition 的集群 导致的问题 争夺资源引起不可预测的问题 采取的对策 利用心跳线组成的逻辑环 来克服节点间由于TCP IP连接的丢失而引发的数据冲突 Topic3Clustermanagement ClusterDaemon ClusterManagerdaemon clstrmgr 强制的 维护节点间的心跳线协议 监控节点及其接口的状态 当网络或节点的状态改变时 激活相关的脚本 ClusterSMUXPeerdaemon clsmuxpd 强制的 维护集群对象的状态信息 与snmpd相关联 ClusterLockManagerdaemon cllockd 可选的 节点如果是ConcurrentAccess配置的一部分 则需要启动该进程 MonitoringtheCluster usr sbin cluster clstatHAViewmonitorHACMPthroughNetViewsmitshowClusterServices显示HACMP进程的状态logfile Clusterlogfile var adm cluster log tmp hacmp out usr sbin cluster history cluster mmdd tmp cm log tmp emuhacmp log tmp cspoc l ogsystemerrorlog Clverify工具用来检查HACMP修改的AIX系统文件和集群的配置 含拓扑和资源 是否正确 来保证集群能正常工作 运行clverify工具的三种方式 交互方式 命令行和smit 什么时候需要运行clverify 集群环境下 硬件和软件有了改变 ClverifyUtility software verifiesthattheHACMP specificmodificationstoAIXsystemfilesexistandarecorrect Ithasoneoption lpp cluster allowsyoutoverifytheconfigurationagreementusingthetopologyandconfigoptions topology verifiesthatallnodesagreeontheclusterconfiguration Thisprogramhastwooptions checkandsync check tellsyouifthenodesareinagreement sync synchronizestheclustertopology ifnecessary sothatallnodesagree config verifiesthatnetworksareconfiguredcorrectly andthatallnodesagreeontheownershipandtakeoverofdefinedresources Thisprogramhasthreeoptions networks resources orall Clverify检查内容 Topic4HACMP应用实例 环境 两台RS 6000S701台7133磁盘阵列柜 16 36 4GB AIXV4 3 3HACMPV4 3两个应用 计费 Sybase数据库 WWW NetscapeEnterpriseServer IBMHACMP双机系统结构图例 IBM主机 服务器 A安装Hacmp软件运行WWW服务 共享磁盘阵列 存储子系统 存放sybase数据和WWW信息数据 A tty1心跳线 串口线 b tty1 Service ip 10 17 128 88boot ip 10 17 128 90 IBM主机 服务器 B安装Hacmp软件运行SYBASE sStand ip 192 168 3 2 ServiceNetwork StandbyNetwork Service ip 10 17 128 89boot ip 10 17 128 91 sStand ip 192 168 3 1 HACMP软件包含的软件子集 安装HACMP 需要的软件子集如下 cluster base 每个做服务器的节点上必须安装的子集 cluster cspoc 单点控制工具 cluster adt 含democlients及其相关的文件 cluster man en US data manpages cluster msg en US messages cluster vsm 可视化系统管理子集 cluster haview 安装在netview网管工作站上 cluster taskguides 快速创建共享的卷组的指南 cluster clvm 并发资源管理 cluster hc ApplicationHeartBeatDaemon OPS需要 HACMP安装配置前需作的准备工作 Step1 划分清楚两台服务器主机各自要运行的应用 如A机运行SYBASE B机运行WWW服务 Step2 给每个应用 组 分配Service ip Standby ip boot ip 串口的心跳线不需要IP 如 HACMP安装前的准备工作 续 主机A 运行SYBASE Service ip 10 17 128 88Boot ip 10 17 128 90Standby ip 192 168 3 1主机B 运行WWW服务 Service ip 10 17 128 89Boot ip 10 17 128 91Standby ip 192 168 3 2 HACMP安装前的准备工作 续 Step3 按照各主机的应用的要求 建立好各自的磁盘组 并分配好磁盘空间 Step4 根据HACMP软件的要求 对服务器操作系统的参数作必要的修改 HACMP双机系统的安装及配置 HACMP HighAvailabilityClusterMulti Processing 的安装配置步骤如下 Step1 在两台服务器上分别安装HACMP软件 smit Step2 分别配置两台服务器的Service Standby和bootIP地址 保证Service网和Standby网能ping通 smittcpip Step3 连接HACMP的心跳线 串口线 并保证该心跳线畅通 IBMHACMP双机系统的安装及配置 续 Step4 确定HACMP的ClusterNameorID NodesName AdapterName等 并修改好下面一些系统文件 1 etc hosts 2 rhosts 3 usr cluster etc clhosts IBMHACMP双机系统的安装及配置 续 Step5 配置HACMPTOPOLOGY smithacmp 1 配置ClusterNameorIDsmithacmpClusterConfigrationClusterTopologyConfigrueCluster 2 配置ClusterNodes ConfigrueNodes smithacmpClusterConfigrationClusterTopologyConfigrueNodes IBMHACMP双机系统的安装及配置 续 3 配置AdapterssmithacmpClusterConfigrationClusterTopologyConfigrueAdapters 4 同步ClusterTopology 若出错 检查原因smithacmpClusterConfigrationClusterTopologySyncchronizeClusterTopology IBMHACMP双机系统的安装及配置 续 Step6 配置HACMPRESOURCES 用smithacmp命令 1 配置ApplicationServer Name Start StopScript smithacmpClusterConfigrationClusterResourcesDefineApplicationServers 2 配置ResourceGroupsmithacmpClusterConfigrationClusterResourcesDefineResourceGroup IBMHACMP双机系统的安装及配置 续 Step6 配置HACMPRESOURCES 续 3 Chnagine ShowResourceforaResourceGroupsmithacmpClusterConfigrationClusterResourcesChnagine ShowResourceforaResourceGroup 4 同步ClusterResources 出错时 检查原因 smithacmpClusterConfigrationClusterResourcesSynchronizeClusterResources IBMHACMP双机系统的安装及配置 续 Step7 检查HACMPCONFIGURATION 用smithacmp smithacmpClusterConfigrationClusterVerificationStep8 HACMP的启动及关闭 用smithacmp命令 1 启动过程 smithacmpClusterServicesStartClusterServices IBMHACMP双机系统的安装及配置 续 Step8 HACMP的启动及关闭 续 2 关闭过程 smithacmpClusterServicesStopClusterServicesStep9 HACMP功能的测试在HACMP配置完成并检查没有错误后 即可按8的方法启动HACMP 进行功能测试 包括应用在同一台服务器的两个网卡能否切换 在两台服务器间能否切换等 可用命令 netstat in来看地址的切换情况 安装HACMP及应用时必须注意的问题 1 boot address和service address必须在同一个子网 2 有关应用的startscript和stopscript在参与的节点中 必须在同一个目录下 要有可执行权限 且不能放在外置的磁盘阵列上 3 在配置HACMP时 必须先在根目录下创建 rhosts Topic5HACMPTroubleshooting HACMPTroubleshooting Ingeneral troubleshootinganHACMPclusterinvolves Becomingawarethataproblemexists 控制台信息 用户的反映 错误日志 Determiningthesourceoftheproblem Correctingtheproblem 发现问题后 立即保存当前的日志文件 如 tmp hacmp out tmp cm log 试着复制问题 用户反映的通常是应用级的问题 如果需要 可以用用户的数据文件重建问题 保持开放的思维 不要过分猜测问题的原因 测试每种可能性 从测试结果得出结论 隔离问题 遵循的原则如下 从易到难 每次只做一次改变 不要忽视显而意见的问题 检查plugs connectors cables等等 完成检查后 记录测试和结果 以备用 排除故障的策略 config too long 这是HACMP中最常见的控制台信息 当clustmgr进程发现某个状态改变时 它将执相关的事件脚本 eventscript 某些情况下 由于脚本的错误或cluster处于特殊的状态 将导致事件脚本被挂起来 过了缺省的360秒 clustmgr进程将config too long写入 tmp hacmp out文件 解决该问题的方法 1 如果是由于脚本错误引起的 修改该脚本 然后在命令行运行clruncmd 或运行SMITClusterRecoveryAids2 如果某个脚本的运行时间很长 超过了360秒 该信息的出现不意味着有问题 等待其执行 Theclusterhasbeeninreconfigurationtoolong Somethingmaybewrong HighlyAvailableApplicationsFail Problem高可靠性应用在IP地址接管之后 启动失败 原因是hostname没有设置 Solution由于某些应用绑定的是hostname 在HACMP环境中 IP地址接管后 要启动该应用 在应用服务器的脚本中加入如下命令 修改接管节点的hostname mkdev tinet0chdev linet0 ahostname nnn这里 nnn就是接管节点新分配的hostname ClusterNodesCannotCommunicate Problem如果将两个或多个节点连接在同一个网络上 可能会遇到分区的集群 partitionedcluster 这时 集群中的节点不能相互通讯 在正常情况下 某节点的serviceadapter失败后 ClusterManager将激活swapadapterevent 使standby网卡替代service网卡 如果没有standby网卡 该节点将从集群中隔离出来 其他的节点也没法与其通讯 Solution确保网络的配置无单点故障 CannotFindFilesystematBootTime ProblemAIX在启动的时候 根据 etc filesystem文件中 check true 的属性 用fsck检查文件系统 如果不能检查某文件系统 AIX报告如下错误 FilesystemHelper 0506 519DeviceopenfailedSolution由HACMP控制的文件系统 出现该错误信息是很典型的 但不意味着文件系统有错 通常情况下 文件系统所在的卷组在系统启动时 都不会激活 如果要去掉该错误信息 修改 etc filesystems文件 使共享文件系统的属性不包含 check true deadmanswitch 指的是当某节点的AIX内核扩展时 如果cluster的状态没重设 可能导致其AIX系统dump或systempanic 这时 另外集群中的另一节点将以有序的方式接管已经挂起来的节点的资源 避免争夺资源 可以通过调整系统性能的方法 来避免deadmanswitch的发生 1 TunethesystemusingI Opacing 2 Increasethesyncdfrequency 3 Ifneeded increasetheamountofmemoryavailableforthecommunicationssubsystem 4 ChangetheFailureDetectionRate DeadmanSwitch 在HACMP集群环境中 如果有大的数据块要写到硬盘上 最好enableI OPacing smitchgsys设置high water和low water两个值 其初始值分别为33和24 1 TuningtheSystemUsingI OPacing 2 ExtendingthesyncdFrequency编辑 sbin rc boot文件 将syncdfrequency从缺省的60秒提高到30 20或10秒 这样可以通过提高I O的同步频率 缓解I Otraffic 来减少激活deadmanswitch的可能性 改善系统性能 避免DeadmanSwitch SMITChangeShowaClusterNetworkModule 将failuredetectionrate设置为 Slow 3 IncreaseAmountofMemoryforCommunicationsSubsystemAIX中 相关的参数为thewall 其缺省值为实际内存的25 最大可以达到实际内存的50 相关命令 no othewall xxxxx 4 ChangingtheFailureDetectionRate 改善系统性能 避免DeadmanSwitch 续 Appendix共享LVM的定义 Creatinganewsharedvolumegroup Extending reducing changing orremovinganexistingvolumegroup Importing mirroring unmirro

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论