高可靠集群系统方案白皮书_第1页
高可靠集群系统方案白皮书_第2页
高可靠集群系统方案白皮书_第3页
高可靠集群系统方案白皮书_第4页
高可靠集群系统方案白皮书_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高可靠集群系统方案白皮书- 、八、亠1前言随着中国加入WTO的深入和广度,计算机技术被广泛地使用在企事业单位的各个业务环节,越来越多的依赖于计算机技术的应用系统成为我们日常工作的得力伙伴。在给我们带来方便和效率的同时,也使得各行各业对于计算机技术的依赖程度越来越高。尽管随着计算机技术以日新月异的速度发展,单台计算机的性能和可靠性越来越好,但还是有许多现实的要求是单台计算机难以满足的。比如以下例子:某企业需要一台服务器存储ERP数据。企业运作没有休息的日子,当然也要求支持企业运作的服务器不能有任何理由停机,保证任何时候各个运营点都能访问;某企业业务前景看好,但经营者不想马上投入数千万元一台的数据库服务器,而是希望随着业务的扩展,采取逐步增加数据库服务器的方式,逐步升级到具有200GHz计算能力(相当于100颗2GHZ的奔腾4处理器)的数据库服务器来运行数据库管理运算。某电子商务公司在市场策动下突然涌入大量的用户,经营者需要有一种简单方法能够迅速扩充其应用服务器系统,不需要的时候再把扩充的设备去掉。在这些情况下,往往需要将多台计算机组织起来进行协同工作,模拟一台功能更强大的计算机来解决问题,这种技术称为集群技术(Cluster)。目前应用最为广泛的集群计算技术可以分为三大类:高可靠性集群技术、高性能并行数据库集群技术和高可扩展性集群技术,这三种技术在实际应用中有可能会存在同一个应用中。2高可靠性集群技术介绍技术概念高可靠性集群:英文原文为HighAvailabilityCluster,简称HACluster或者HA高可靠性集群,是指以减少服务中断(宕机)时间为目标的服务器集群技术。高可靠集群主要使用在数据库系统(Oracle、Sybase、SQLServer)以及关键应用系统(Notes、Exchange)中。随着全球经济的增长,世界各地各种各样的组织对IT系统的依赖都在不断增加,电子化贸易使得商务一周七天24小时不间断的进行成为了可能。电子商务、电子政务成为一种趋势,人们在任何地方、任何时候都可能进行交易和信息查询。不断发展的应用程序使得商业和社会机构对日常操作的计算机化要求达到了空前的依赖程度,如此非常明显的趋势,我们无时无刻不依赖于稳定的计算机系统。宕机会给企事业造成什么样的麻烦?直接责任人除了会受到公司严厉的行政处罚,最重要的是关键IT系统的故障可能很快造成整个商务运作的瘫痪,损害企事业的直接利益,每一分钟的宕机都意味着收入、生产和利润的损失,甚至于市场地位的削弱,以及影响长时间积累的良好的市场信誉。国内企业年交易额平均每分钟交易额制造业¥100亿¥1.9万证券业Y600亿¥100万零售业¥50亿¥1.6万表1企业每分钟的销售收入统计可用性是指一个系统保持在线并且可供访问。造成系统宕机的因素很多,包括为了维护而有计划的宕机以及意外故障等,高可靠性方案的目标就是使宕机时间以及故障恢复时间最小化,可以容忍的宕机时间明确的说明方案的全面性、复杂性和成本。可用性指标每年宕机时间级别99.53.7天Conventional99.98.8小时Available99.9952.6分钟HighlyAvailable99.9995.3分钟FaultResilient99.999932秒FaultTolerant表2国际通用的可用性指标为了提高整个系统的可用性,除了提高计算机各个部件的可靠性(冗余技术)以外,一般情况下都会采用整机集群的方案。2.2工作原理基本理论2.2.1.1高可靠集群的设备组成所谓集群,就是共同为客户机提供网络资源的一组计算机系统。而其中的每一台提供服务的计算机,我们称之为节点(Node)。当一个节点不可用或者不能处理客户的请求时,该请求将会转到另外的可用节点来处理,而这些对于客户端来说,它根本不必关心这些要使用的资源的具体位置,集群系统会自动完成。HA高可靠集群在存储方面有两种方式:1.共享磁盘,即带存储阵列柜,俗称带柜子它通过共享盘柜实现集群中各节点的数据共享,从而实现集群的功能。图1基于共享磁盘的高可靠集群系统拓扑2.磁盘镜像,即不带存储阵列柜,俗称不带柜子它将集群中的两台服务器的本地硬盘通过数据镜像技术,实现集群中各节点之间的数据同步,从而实现集群的功能。图2基于磁盘镜像的高可靠集群系统拓扑不同的HA软件支持不同的存储方式。基于共享磁盘的高可靠集群系统中,包含主服务器、从服务器、存储阵列三个主要的设备,以及设备间的心跳连接线。基于磁盘镜像的高可靠集群系统中,包含主服务器、从服务器两个主要的设备,以及设备间的心跳连接线。实际应用中,将节点1配置成“主服务器”,节点2配置成“从服务器”,主从服务器有各自的IP地址,通过HA集群软件的控制,主从服务器有一个共同的虚拟IP(VirtualIP)地址,其为统一对外提供服务的IP地址,客户端仅需使用这个虚拟IP,而不需要分别使用主从的IP地址,这种措施是高可靠集群的首要技术保证,该技术确保集群服务的切换不会影响客户IP层的访问。公网(PublicNetwork)是应用系统实际提供服务的网络,私网(PrivateNetwork)是集群系统内部通过心跳线连接成的网络。心跳线是高可靠集群系统中主从节点通讯的物理通道,通过HA集群软件的控制,确保服务数据和状态同步。不同HA集群软件对于心跳线的处理有各自的技巧,有的采用专用板卡和专用的连接线,有的采用串并口或USB口处理,有的采用TCP/IP网络处理,其可靠性和成本都有所不同。近几年,基于TCP/IP技术的心跳线因其成本低、性能优异而被广泛采用,如果HA高可靠集群系统采用该技术实现心跳功能,若仅有主从两台可以采用直连的方式,而无需通过交换机。采用基于TCP/IP技术心跳的主从服务器上至少需要配置两块网卡(基于VeritasClusterServiceHA技术的至少需要配置三块网卡)。HA集群软件体系结构HA集群软件是架构在操作系统之上的程序,其主要由守护进程、应用程序代理、管理工具、开发脚本等四部分构成,应用服务系统是为客户服务的应用系统程序,比如,MSSQLServer,Oracle,Sybase,DB2UDB,Exchange,LotusNotes等应用系统软件。

HAlf理工具HAlf理工具应用服劳焉绕HA监控守护进程蘇一HA守护透程摆作系统图3HA软件内部层次结构不是每一个应用程序都能够实现HA集群管理,也不是每一个HA集群软件可以管理所有的应用程序,这是因为其代理模块(Agent)有不同的功能。HA软件的代理模块一般支持使用频度最高的软件,如上述所列举的数据库系统和邮件系统,但为了能够支持更多应用实现HA集群,有的HA软件开放二次开发接口。所以,实际实施的HA集群系统,要确保系统有效,要先确认所选择的HA软件的代理模块是否支持目标应用系统。AHA守护也程主眼勞器HA曲控汗护决托HAAHA守护也程主眼勞器HA曲控汗护决托HA监监弓曲贲理陋劈鉴控从服务蔷图4HA软件内部工作关系当主系统修复完毕后,HA集群系统应该能够手工或者自动把从节点处的应用服务切换到原先的主节点上运行。2.2.1.3主从服务器的内存和处理器HA高可靠集群软件的本质是当主服务器出现故障时,从服务器及时接管主服务器的资源,这些资源包括处理器、内存进程和磁盘数据。接管进程即接管该服务进程的内存数据列表,采用共享磁盘技术方式的集群无需做存储数据接管,采用磁盘镜像技术方式的集群则使用本机的存储数据。

主从服务器的资源(处理器、内存、磁盘)的配置具有科学性和技巧性。我们把节点比作两个成水的杯子,杯子的容量看成内存的容量,杯子里面水的容量可以当成服务进程的内存数据列表的大小。情况一,每个杯子可以装4升水,A杯子有4升水,B杯子没有水,如果从A杯子向B杯子倒水,不会出现任何问题。图5主从节点资源配置相同时故障切换后节点状况情况二,A杯子可以装4升水,B杯子可以装5升水,A杯子有4升水,B杯子没有水,如果从A杯子向B杯子倒水,不会出现任何问题。图6从节点资源配置高于主节点时故障切换后节点状况情况三,A杯子可以装4升水,B杯子可以装3升水,A杯子有4升水,B杯子没有水,如果从A杯子向B杯子倒水,就会出现水溢出问题,也就是说可能会导致故障转移失败。图7从节点资源配置低于主节点时故障切换后节点状况系统物理内存过低,会使系统频繁使用效率低下的“虚拟内存”,导致系统反应迟钝,也使得客户端响应缓慢,甚至出现“系统服务超时(Timeout)”形态的系统报错,没有达到高可靠的目的。所以,高可靠集群系统要求从服务器(故障切换节点)的内存容量应不小于主服务器的内存容量,其内存配置应该至少为应用系统的对内存的基本需求。从节点服务器需要多少CPU才能满足需求呢,首先以不间断客户服务为目的。假如,我们对SQLServer2000做HA群集服务,主节点采用4颗Intel奔4CPU,通过系统监视器发现,系统CPU使用率为80%,而此时主节点故障,系统切换到2颗Intel奔4CPU,其TPMC值仅有主节点的50%,那么因主机处理能力下降导致系统反应迟钝,也使得客户端响应缓慢,甚至出现“系统服务超时(Timeout)"形态的系统报错,没有达到咼可靠的目的。因此,咼可靠集群系统要求从服务器(故障切换节点)的CPU处理能力应不小于主服务器的CPU处理能力,若板卡、CPU等型号相同,从服务器的CPU个数应不少于主服务器的CPU个数。采取磁盘镜像的从服务器存储空间应不小于主服务器存储空间。所以,从节点资源的各项指标应该不低于主节点资源的各项指标,若系统采用多个主节点向一个从节点容灾时(N+1模式),从节点资源的配置策略需要依据系统管理员对整个系统的容灾的安全级别,假如主节点的个数为M,从节点的个数为1,系统管理员安全定义为允许同时容忍N(N〈二M)个主节点宕机,那么从节点的资源配置为最大前N个主节点资源的各项指标之和。单元集群模式2.2.2.1主/主“主/主”模式英文名称“Active/Active”,这是最常用的集群模型,它提供了咼可靠性,并且在只有一个节点在线时提供可以接受的性能,该模型允许最大程度的利用硬件资源。每个节点都通过网络对客户机提供资源,每个节点的容量被定义好,使得性能达到最优,并且每个节点都可以在故障转移时临时接管另一个节点的工作。所有的服务在故障转移后仍保持可用,但是性能通常都会下降。主/从“主/从"模式英文名称“Active/Standby",或者“Active/Passive",为了提供最大的可用性,以及对性能最小的影响,“主/从”模型需要一个在正常工作时处于备用状态,主节点处理客户机的请求,而备用节点处于空闲状态,当主节点出现故障时,备用节点会接管主节点的工作,继续为客户机提供服务,并且不会有任何性能上影响。2.2・2.3混合型(Hybrid)混合是上面两种模型的结合,只针对关键应用进行故障转移,这样可以对这些应用实现可用性的同时让非关键的应用在正常运作时也可以在服务器上运行。当出现故障时,出现故障的服务器上的不太关键的应用就不可用了,但是那些关键应用会转移到另一个可用的节点上,从而达到性能和容错两方面的平衡。HA集群部署模式不同HA软件支持不同的部署模式,一般包含以下三种:双机模式非常普遍使用的一种方式,俗称“双机热备"。使用在应用系统单一,要求可靠性高的环境,由一个主服务器、一个从服务器和一个存储阵列等三个设备组成。1+I模式系统由一个主节点,若干个(i个)从节点以及一些辅助设备(存储阵列)等组成。使用在应用系统单一,要求性能极高的核心业务系统中。从节点的个数依赖于HA软件的处理能力,比如Win2003EnterpriseServer支持8个节点,除了一个主节点,还可以有七个从节点。当从节点的个数为1时,即为双机模式。N+I模式系统由多个主节点,若干个从节点以及一些辅助设备(存储阵列、交换机)等组成。在实际应用中,一些用户并不满足不满足上述两种模式,认为“冗余设备”太多,需要多个主节点(N个)可以灾备到任意多个(I个)节点上,根据应用的级别,调整从节点的数量,从节点数量可以为一个,也可以为多个。主节点的数量可以为一个或者多个,根据应用需要随时调整搭配,但主节点为多个并不是同一个应用的“并行处理”,而是不同的应用。主从节点的个数依赖于HA软件的处理能力,比如Win2003EnterpriseServer就可以实现8个节点的主从随意搭配模式。当主节点的个数为1时,即为1+I模式,同时当从节点的个数为1时,即为双机模式。3主要HA软件介绍3.1NECExpressClusterEXPRESSCLUSTER是支持Windows和Linux平台的专业集群中间件软件,可用于构建高可用性、高可靠性以及高扩展性的集群系统。不论是低成本的镜像集群还是使用磁盘阵列的大规模集群系统,EXPRESSCLUSTER都可为您轻松构建,从而为企业的24x365的关键业务应用提供了强大的保障。适用于Windows平台EXPRESSCLUSTER®LEforWindowsVer7.0EXPRESSCLUSTER®SEforWindowsVer7.0EXPRESSCLUSTER®EEforWindowsVer7.0

LEforWindowsSEforWindowsEEforWindows系统规模(数据容量)中小规模(~30GB)*1中等规模(到TB级)大中规模(到TB级)磁盘镜像磁盘共享盘柜共享盘柜服务器数223〜16运单向待机OOO行同一AP双向OOO形不同AP双向OOO态并行xOO支持APOOOO:支持;x:不支持*1:在实际客户案例中,可支持到数百GB。适用于Linux平台EXPRESSCLUSTER®LEforLinuxVer3.0EXPRESSCLUSTER®SEforLinuxVer3.0LEforLinuxVer3.0SEforLinuxVer3.0系统规模中小规模大规模(数据容量)~120GB*1(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论