HACMP培训资料_第1页
HACMP培训资料_第2页
HACMP培训资料_第3页
HACMP培训资料_第4页
HACMP培训资料_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HACMP原理及应用简介,主要内容,Topic1、几种常见的提高系统可靠性的技术Topic2、HACMP的工作原理Topic3、HACMP的管理Topic4、HACMP应用案例Topic5、HACPMtroubleshootingAppendix、共享LVM的定义,Topic1:几种常见的提高系统可用性的技术,提高系统可靠性的相关技术,容错技术磁盘阵列技术热插拔技术集群技术灾难恢复技术,容错技术,容错技术是指在硬件和软件出现故障时,仍能完成处理和运算,不降低系统性能,即利用冗余技术,使计算机具有容忍故障的能力。可以通过硬件和软件方法实现。常见的容错技术:冗余CPU、内存、通信子系统、磁盘、电源等;自动故障检测故障部件、隔离和联机更换故障部件;,磁盘阵列技术,磁盘阵列(DISKARRAY)是一个由硬盘控制器控制的多个硬盘的相互连接,使多个硬盘的读写同步,减少错误,提高效率和可靠性的技术;RAID(REDUNDANTArrayofInexpensiveDisk)是磁盘阵列技术标准,也就是利用多余的磁盘对信息进行冗余保存,从而提高磁盘系统的可靠性。常见的等级有1、0+1、3、5等。,不同等级的RAID技术的比较,热插拔技术,热插拔技术(Hot-Swappable)以前主要用于磁盘阵列中,在有一个硬盘坏掉的情况下,服务器可以不用关机,直接抽出坏掉的硬盘,换上新的硬盘。现在有些厂家对于其他的部件,也可以采用热插拔技术。如控制卡、电源等。,集群技术,集群(Cluster)技术是利用HA(HighAvailability)双机热备份软件,通过避免系统的单点故障,来提高客户计算机系统及其应用的可靠性。集群技术已用于多种平台:UNIXOpenVMSNovellWindowsNT,灾难恢复技术,必要性数据的高度集中;自然灾害,如水灾、火灾、地震等;其他来自计算机系统以外的问题,如电力系统故障;灾难恢复技术的两大技术要素:瞬时复制技术连续和周期性更新,灾难恢复技术和集群技术的比较,Topic2HACMP工作原理,HACMP双机系统的工作原理,1.作为双机系统的两台服务器(主机A和B)同时运行HACMP软件2.服务器除正常运行自己的应用外,同时又作为对方的备份主机(节点关系为Cascading)3.两台主机系统(A和B)在整个运行过程中,通过“心跳线”相互监测对方的运行情况(包括系统的软硬件运行、网络通讯和应用运行情况等),HACMP双机系统的工作原理(续),4.一旦发现对方主机的运行不正常(出故障)时,故障机上的应用就会立即停止运行,本机(故障机的备份机)就会立即在自己的机器上启动故障机上的应用,把故障机的应用及其资源包括用到的IP地址和磁盘空间等)接管过来,使故障机上的应用能在本机继续运行。,HACMP双机系统的工作原理(续),5.应用和资源的接管过程由HA软件自动完成,无需人工干预6.当两台主机正常工作时,也可以根据需要将其中一台机上的应用人为切换到另一台机(备份机)上运行,HACMP特点,三大特点:高可用性表现在可以隔离或减少机器、资源或设备失败带来的影响,防止单点故障:如CPU、内存、控制卡、I/O子系统、通讯子系统。,HACMP(HighAvailabilityClusterMulti-Processing,高可容错、多处理系统集群)是基于UNIX平台处理关键事物、提供高可用性的软件。,HACMP特点(续),可管理性正常工作时,各个节点之间可以分担负载,即可以跑不同的应用。这样可以减少系统的管理费用;在一个节点上,可以管理其他节点的HA配置;高扩展性支持的节点多达32个;可以方便地加入新的节点、用户或其他的资源;,ApplicationlayerconsistsofthehighavailableapplicationthatuseHACMPforAIXservices,HACMPforAIXlayerprovideshighavailableservicestoclientapplication,RSCTlayer(HACMP/ESonly)providesgreatestscalabilityandcoordinationofsubsystemforHACMP/ESclusters,AIXlayerprovidesoperationsystemservices,LVMlayermanagesdiskspaceatthelogicallevel,TCP/IPlayermanagescommuciationofthelogicallevel,AmodelofanHACMPforAIXClusterNode,MinimizingScheduledDown-TimewithHACMP,HACMP有关最小化DOWN机时间的几个特性:Dynamicreconfiguration(DARE)DAREresourcemigrationClusterSinglePointofControl(C-SPOC)Dynamicadapterswapforreplacinghot-pluggableadaptercards,ClusterEvents,HACMP是基于事件驱动的AIX环境下的集群软件。事件是ClusterManager能够意识到和处理的集群中状态的改变。clusterevent可以由网卡、网络、节点的变化或集群的重新配置而激活。当ClusterManager检测到集群的状态的改变,它将执行相关脚本来处理该事件。,常见的clusterevents如下:node_upandnode_up_completeevents(anodejoiningthecluster)node_downandnode_down_completeevents(anodeleavingthecluster)network_downevent(anetworkhasfailed)network_upevent(anetworkhasconnected)swap_adapterevent(anetworkadapterfailedandanewonehastakenitsplace),ClusterEvnets(续),C-SPOCUtility,C-SPOC(ClusterSinglePointofControl)工具可以让系统管理员在任何一节点完成对所有节点的管理任务。MaintainuserandgroupaccountsMaintainsharedLogicalVolumeManager(LVM)componentsControlHACMPservicesonacluster-widebasis.优点:减少管理开销;减少节点状态不一致性的可能性;高效管理逻辑卷和控制集群服务。,消除的潜在的单点故障包括:NodesApplicationsNetworksandnetworkadaptersDisksanddiskadaptersHACMP用以下的方式来处理节点的失败:DisktakeoverIPaddresstakeover(withorwithouthardwareaddressswapping),单点故障,ComponentsofaHACMPCluster,NodeSharedexternaldisksdevicesNetworksPublicnetwork,Privatenetwork,SerialnetworkEthernet,Token-Ring,FDDI,ATMNetworkAdaptersServicenetworkadapter,standbynetworkadapterClients,ClusterTopology,clustertopology由以下components组成:TheclusterdefinitionclusterID和name决定了一个cluster。每个CLUSTER的clusterIDandname必须唯一。ClusterIDs的范围:1-99999,clustername是最大31个字符的字符串。TheclusternodesThenetworkadaptersThenetworkmodulesSerial,TargetmodeSCCI,TargetmodeSSA,Ethernet,Token-Ring,FDDI,SLIP,SPSwitch,ATM,Clusterresourceandresourcegroup,HACMP中的资源由硬件和软件组成:DisksVolumeGroupsFileSystemNetworkAddressesApplicationServer为了有效地利用HACMP的高可靠性,每种资源必须定义在resourcegroup中,resourcegroup可以使相关的资源联系成一个逻辑实体,这样易于配置和管理。,ResourceGroup有三种不同的节点关系CascadingConcurrentRotating,NodeRelationship,ClusterConfiguration,有两种类型的Clusterconfiguration:Standbyconfigurations这是传统的冗余硬件配置,其中,有一个或多个空闲的standby(备份)节点,等待着某个主节点离开集群。对应的节点关系为:Rotating、CascadingTakeoverconfigurations这种配置中,每个节点都有应用在跑,承担集群中的部分负载,没有备份的节点。对应的节点关系为:Cascading、Concurrent。,并发存取中各节点的关系,节点A和节点B同时跑相同的应用,拥有相同的资源,对资源有相同的优先级。,采用Cascading方式时,IP地址的变化,两个应用A、B分别绑定两个地址:svcA和svcB,正常运行时,应用A在节点A,应用B在节点B。,采用Cascading方式时,IP地址的变化(续),当节点A的网络出现故障时,应用A在节点B上重新启动,节点B的备份网卡接管了应用A的地址。现在,用户无论是访问应用A,还是应用B,实际上都是节点B提供的服务,三个节点、两个应用中的Cascading资源组定义,节点C分别为应用A和应用B的备份,正常情况下,应用A跑在节点A上,应用B跑在节点B上。,非并发存取硬盘的几种配置,Hot-StandbyRotatingStandbyMutualTakeoverThird-PartyTakeover,硬盘接管前,文件系统MOUNT在节点A,此时,节点B不能再MOUNT该文件系统,只有通过NFS访问它。,非并发存取硬盘的接管过程,非并发存取硬盘的接管过程(续),节点B接管硬盘后,相关的文件系统mount在本地,可以通过NFSexport文件系统,优点:以较低的代价,完成从单机到HACMP的升级。不足:发生切换时,由于备用机的配置较低,可能影响应用的性能。,Hot-standbyconfiguration,MutualTakeoverConfiguration,ClusterManager可以检测到网络的失败,但不能采取措施恢复不再相连的网络。相关措施:将节点接在两个交换机上,形成冗余链路。,NetworkFailure,PartitionedCluster,PartitionedCluster(续),集群中如果某组节点不能与其他组的节点通讯,那么这就是一个分区(partition)的集群。导致的问题:争夺资源引起不可预测的问题。采取的对策:利用心跳线组成的逻辑环,来克服节点间由于TCP/IP连接的丢失而引发的数据冲突。,Topic3Clustermanagement,ClusterDaemon,ClusterManagerdaemon:clstrmgr(强制的)维护节点间的心跳线协议,监控节点及其接口的状态,当网络或节点的状态改变时,激活相关的脚本。ClusterSMUXPeerdaemon:clsmuxpd(强制的)维护集群对象的状态信息,与snmpd相关联。ClusterLockManagerdaemon:cllockd(可选的)节点如果是ConcurrentAccess配置的一部分,则需要启动该进程。,MonitoringtheCluster,/usr/sbin/cluster/clstatHAViewmonitorHACMPthroughNetViewsmitshowClusterServices显示HACMP进程的状态logfile,Clusterlogfile,/var/adm/cluster.log/tmp/hacmp.out/usr/sbin/cluster/history/cluster.mmdd/tmp/cm.log/tmp/emuhacmp.log/tmp/cspoc.l.ogsystemerrorlog,Clverify工具用来检查HACMP修改的AIX系统文件和集群的配置(含拓扑和资源)是否正确,来保证集群能正常工作。运行clverify工具的三种方式:交互方式、命令行和smit。什么时候需要运行clverify?集群环境下,硬件和软件有了改变,ClverifyUtility,softwareverifiesthattheHACMP-specificmodificationstoAIXsystemfilesexistandarecorrect.Ithasoneoption,lpp.clusterallowsyoutoverifytheconfigurationagreementusingthetopologyandconfigoptions:topologyverifiesthatallnodesagreeontheclusterconfiguration.Thisprogramhastwooptions,checkandsync:checktellsyouifthenodesareinagreement.syncsynchronizestheclustertopology,ifnecessary,sothatallnodesagree.configverifiesthatnetworksareconfiguredcorrectly,andthatallnodesagreeontheownershipandtakeoverofdefinedresources.Thisprogramhasthreeoptions,networks,resources,orall:,Clverify检查内容,Topic4HACMP应用实例,环境:两台RS/6000S701台7133磁盘阵列柜(16*36.4GB)AIXV4.3.3HACMPV4.3两个应用:计费(Sybase数据库)、WWW(NetscapeEnterpriseServer),IBMHACMP双机系统结构图例,IBM主机(服务器)A安装Hacmp软件运行WWW服务,共享磁盘阵列(存储子系统)存放sybase数据和WWW信息数据,A-tty1心跳线(串口线)b-tty1,Service_ip:8boot_ip:0,IBM主机(服务器)B安装Hacmp软件运行SYBASE,sStand_ip:,ServiceNetwork,StandbyNetwork,Service_ip:9boot_ip:1,sStand_ip:,HACMP软件包含的软件子集,安装HACMP,需要的软件子集如下:cluster.base(每个做服务器的节点上必须安装的子集)cluster.cspoc(单点控制工具)cluster.adt(含democlients及其相关的文件)cluster.man.en_US.data(manpages)cluster.msg.en_US(messages)cluster.vsm(可视化系统管理子集)cluster.haview(安装在netview网管工作站上)cluster.taskguides(快速创建共享的卷组的指南)cluster.clvm(并发资源管理)cluster.hc(ApplicationHeartBeatDaemon,OPS需要),HACMP安装配置前需作的准备工作,Step1、划分清楚两台服务器主机各自要运行的应用(如A机运行SYBASE,B机运行WWW服务)Step2、给每个应用(组)分配Service_ip、Standby_ip、boot_ip(串口的心跳线不需要IP),如:,HACMP安装前的准备工作(续),主机A(运行SYBASE):Service_ip:8Boot_ip:0Standby_ip:主机B(运行WWW服务):Service_ip:9Boot_ip:1Standby_ip:,HACMP安装前的准备工作(续),Step3、按照各主机的应用的要求,建立好各自的磁盘组,并分配好磁盘空间,Step4、根据HACMP软件的要求,对服务器操作系统的参数作必要的修改,HACMP双机系统的安装及配置,HACMP(HighAvailabilityClusterMulti-Processing)的安装配置步骤如下:Step1、在两台服务器上分别安装HACMP软件(smit)Step2、分别配置两台服务器的Service、Standby和bootIP地址,保证Service网和Standby网能ping通(smittcpip)Step3、连接HACMP的心跳线(串口线),并保证该心跳线畅通,IBMHACMP双机系统的安装及配置(续),Step4、确定HACMP的ClusterNameorID、NodesName、AdapterName等,并修改好下面一些系统文件:(1)/etc/hosts(2)/.rhosts(3)/usr/cluster/etc/clhosts,IBMHACMP双机系统的安装及配置(续),Step5、配置HACMPTOPOLOGY(smithacmp)(1)配置ClusterNameorIDsmithacmpClusterConfigrationClusterTopologyConfigrueCluster(2)配置ClusterNodes(ConfigrueNodes)smithacmpClusterConfigrationClusterTopologyConfigrueNodes,IBMHACMP双机系统的安装及配置(续),(3)配置AdapterssmithacmpClusterConfigrationClusterTopologyConfigrueAdapters(4)同步ClusterTopology,若出错,检查原因smithacmpClusterConfigrationClusterTopologySyncchronizeClusterTopology,IBMHACMP双机系统的安装及配置(续),Step6、配置HACMPRESOURCES(用smithacmp命令)(1)配置ApplicationServer(Name,Start,StopScript)smithacmpClusterConfigrationClusterResourcesDefineApplicationServers(2)配置ResourceGroupsmithacmpClusterConfigrationClusterResourcesDefineResourceGroup,IBMHACMP双机系统的安装及配置(续),Step6、配置HACMPRESOURCES(续)(3)Chnagine/ShowResourceforaResourceGroupsmithacmpClusterConfigrationClusterResourcesChnagine/ShowResourceforaResourceGroup(4)同步ClusterResources(出错时,检查原因)smithacmpClusterConfigrationClusterResourcesSynchronizeClusterResources,IBMHACMP双机系统的安装及配置(续),Step7、检查HACMPCONFIGURATION(用smithacmp):smithacmpClusterConfigrationClusterVerificationStep8、HACMP的启动及关闭(用smithacmp命令)(1)启动过程:smithacmpClusterServicesStartClusterServices,IBMHACMP双机系统的安装及配置(续),Step8、HACMP的启动及关闭(续)(2)关闭过程:smithacmpClusterServicesStopClusterServicesStep9、HACMP功能的测试在HACMP配置完成并检查没有错误后,即可按8的方法启动HACMP,进行功能测试。包括应用在同一台服务器的两个网卡能否切换,在两台服务器间能否切换等。可用命令:#netstat-in来看地址的切换情况,安装HACMP及应用时必须注意的问题:,1、boot-address和service-address必须在同一个子网;2、有关应用的startscript和stopscript在参与的节点中,必须在同一个目录下,要有可执行权限,且不能放在外置的磁盘阵列上;3、在配置HACMP时,必须先在根目录下创建.rhosts,Topic5HACMPTroubleshooting,HACMPTroubleshooting,Ingeneral,troubleshootinganHACMPclusterinvolves:Becomingawarethataproblemexists(控制台信息,用户的反映、错误日志)DeterminingthesourceoftheproblemCorrectingtheproblem,发现问题后,立即保存当前的日志文件,如/tmp/hacmp.out、/tmp/cm.log试着复制问题。用户反映的通常是应用级的问题,如果需要,可以用用户的数据文件重建问题。保持开放的思维。不要过分猜测问题的原因。测试每种可能性,从测试结果得出结论。隔离问题,遵循的原则如下:从易到难;每次只做一次改变;不要忽视显而意见的问题。检查plugs,connectors,cables等等。完成检查后,记录测试和结果,以备用。,排除故障的策略,config_too_long,这是HACMP中最常见的控制台信息。当clustmgr进程发现某个状态改变时,它将执相关的事件脚本(eventscript)。某些情况下,由于脚本的错误或cluster处于特殊的状态,将导致事件脚本被挂起来。过了缺省的360秒,clustmgr进程将config_too_long写入/tmp/hacmp.out文件。解决该问题的方法:1、如果是由于脚本错误引起的,修改该脚本,然后在命令行运行clruncmd,或运行SMITClusterRecoveryAids2、如果某个脚本的运行时间很长,超过了360秒,该信息的出现不意味着有问题,等待其执行。,Theclusterhasbeeninreconfigurationtoolong;Somethingmaybewrong.,HighlyAvailableApplicationsFail,Problem高可靠性应用在IP地址接管之后,启动失败。原因是hostname没有设置。.Solution由于某些应用绑定的是hostname,在HACMP环境中,IP地址接管后,要启动该应用,在应用服务器的脚本中加入如下命令,修改接管节点的hostname:mkdev-tinet0chdev-linet0-ahostname=nnn这里,nnn就是接管节点新分配的hostname。,ClusterNodesCannotCommunicate,Problem如果将两个或多个节点连接在同一个网络上,可能会遇到分区的集群(partitionedcluster),这时,集群中的节点不能相互通讯。在正常情况下,某节点的serviceadapter失败后,ClusterManager将激活swapadapterevent,使standby网卡替代service网卡。如果没有standby网卡,该节点将从集群中隔离出来,其他的节点也没法与其通讯。Solution确保网络的配置无单点故障。,CannotFindFilesystematBootTime,ProblemAIX在启动的时候,根据/etc/filesystem文件中“check=true”的属性,用fsck检查文件系统。如果不能检查某文件系统,AIX报告如下错误::FilesystemHelper:0506-519DeviceopenfailedSolution由HACMP控制的文件系统,出现该错误信息是很典型的,但不意味着文件系统有错。通常情况下,文件系统所在的卷组在系统启动时,都不会激活。如果要去掉该错误信息,修改/etc/filesystems文件,使共享文件系统的属性不包含“check=true”。,“deadmanswitch”指的是当某节点的AIX内核扩展时,如果cluster的状态没重设,可能导致其AIX系统dump或systempanic。这时,另外集群中的另一节点将以有序的方式接管已经挂起来的节点的资源,避免争夺资源。可以通过调整系统性能的方法,来避免deadmanswitch的发生:1.TunethesystemusingI/Opacing.2.Increasethesyncdfrequency.3.Ifneeded,increasetheamountofmemoryavailableforthecommunicationssubsystem.4.ChangetheFailureDetectionRate.,DeadmanSwitch,在HACMP集群环境中,如果有大的数据块要写到硬盘上,最好enableI/OPacing。smitchgsys设置high-water和low-water两个值,其初始值分别为33和24。,1、TuningtheSystemUsingI/OPacing,2、ExtendingthesyncdFrequency编辑/sbin/rc.boot文件,将syncdfrequency从缺省的60秒提高到30、20或10秒。这样可以通过提高I/O的同步频率,缓解I/Otraffic,来减少激活deadmanswitch的可能性。,改善系统性能,避免DeadmanSwitch,SMITChangeShowaClusterNetworkModule,将failuredetectionrate设置为“Slow”,3、IncreaseAmountofMemoryforCommunicationsSubsystemAIX中,相关的参数为thewall,其缺省值为实际内存的25%,最大可以达到实际内存的50%相关命令:no-othewall=xxxxx,4、ChangingtheFailureDetectionRate,改善系统性能,避免DeadmanSwitch(续),Appendix共享LVM的定义,CreatinganewsharedvolumegroupExtending,reducing,changing,orremovinganexistingvolumegroupImporting,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论