




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、容错服务器技术vs双机冗余2009-05-21来自:网界网作者:宋家雨收藏单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的 Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。1980年,当Bill Fost先生苦思冥想在为新公司取个什么名字的时候,无意间看到了飞 机外层层叠叠的云层,由此“Stratus诞生了。但是Bill Fost没有想到,1990当他们注册北 京办事处的时候,竟然可以使用美国容错计算机公司,这种用技术术语命名公司的现象, 此后再也没有出现过。不知道国内有多少用户知道、美国容错计算机公司,进而了解容错
2、 技术,但是相信,这几年数量有限与很多技术领先型公司相类似,酒香不怕巷子深是其风 格,市场上的低调在一定程度上制约了发展。容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来 说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。 为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器群集技 术、双机冗余服务器方案和单机容错技术。实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一 个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。 在一般的讨论之中,集群技术是为了解决计算
3、性能不足的问题,通过多台服务器的集群计算, 为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均 衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好 的容错能力,但是在实际的应用中,集群技术多用于高性能计算。单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的 Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技 术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的 方案,其可靠性可以达到5个9。在记者的采访中,惠
4、普公司企业服务器产品经理陈武胜表 示,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9的水 平。在记者看来,双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。为 了了解这些区别,记者分别采访了有关软硬件厂商,并结合实际的应用案例,帮助读者了解 有关容错服务器的技术。产品技术篇之一 没有错误的容错服务器技术单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓,但是在我 的采访中,有关服务器厂商都不愿意采用这个称谓,他们更愿意采用容错服务器,因为单机 只是一个表现形式,并不能准确表达其技术的特征。IDC资询师将这种技术称之为没有错 误的容错
5、服务器技术。容错与同步技术美国容错公司技术顾问高峰在接受记者采访时表示,容错服务器的技术并不难理解, 计算机自诞生之日起,其系统结构并没有发生任何改变,仍然是冯诺依曼教授所提出的由运 算器(CA)、控制器(CC)、存储器M和输入/输出装置所组成,而容错服务器的思路就是把所 有这些部件全部采用冗余硬件设计。两个部件共运行同一个任务,以此来提高系统的运行可 靠性。这种思路和方法在其他服务器产品中也有采用,据富士通公司首席技术官周一平介绍, 富士通PRIMEQUEST服务器就采用了这种方法,该服务器采用英特尔安腾2处理器,富士 通把很多大型机和Unix小型机的技术进行了迁移。例如把处理器、内存和PC
6、I总线进行冗 余设计,使系统具有高的可靠性。高峰表示,这种冗余硬件的设计并不难理解,但是最为困难的是如何保证计算和数据 在硬件中的同步,这是Stratus核心的专利技术。在Stratus容错服务器中,它被称为同步 (Lockstep)技术,在惠普的NonStop服务器中被称为锁步技术。安腾还是x86容错服务器另外一个需要关注的焦点是处理器。据陈武胜介绍,目前惠普的NonStop 服务器分为两个系列:NonStop S和Integrity NonStop,其产品的差别在于所采用处理器芯 片不同,NonStop S所采用的是MIPS芯片,是收购原美国天腾公司的产品,而Integrity NonSt
7、op所采用的是英特尔安腾2处理器。陈武胜表示,除了处理器的差别之外,新的Integrity NonStop具有很多新的设计,例 如采用3部件的冗余设计,此外系统总线也有很大改进,因此其可靠性才能够达到7个9 的水平。他指出,目前安腾2芯片已经内置了 Lockstep同步技术,在芯片级提供了系统容 错设计的能力。而此前处理器芯片不具备这样的能力,就需要通过外部结构设计来解决同步 的问题。据了解,Integrity NonStop 可以进一步分为 NS1000、NS14000和 NS16000,分 为入门级、中高端和最高端服务器产品,其中最高端的NS16000服务器,其每个服务器的 节点采用216
8、个安腾2处理器。这些处理器节点通过惠普公司独特的ServerNet进行连接, 可以提供多达4080个处理器计算能力。在Stratus公司的产品中,更加强调容错的能力。据高峰介绍,ftServer已经是该公 司第四代产品系列,此前先后经历过Motorola M68000、Intel I860芯片、HP PARISC等不 同处理器,以及VOS专有操作系统等阶段。目前第四代产品采用基于x86结构的Intel处 理器,其W系列最高的6600可以实现基于容错的4路双核处理器的计算。高峰表示,Stratus 将会在今年发布基于8路的容错服务器产品。高峰表示,容错服务器选择哪种处理器的关键还是要根据应用的需
9、求。安腾处理器采 用了全新的64位计算架构,需要配合主机级的NonStop操作系统。与之相比,x86架构应 用比较普遍,用户软件无须要进行二次开发。Stratus公司之所以采用Linux Windows等 通用的平台代替专用的VOS操作系统,就是为了降低容错服务器的应用成本。“无解的软件故障容错服务器通过硬件部件的冗余设计,以及同步技术的保证,可以有效解决因为硬件 原因所造成的系统故障,但是并不能解决软件故障。高峰表示,虽然在理论上存在着两个相同部件同时损坏的情况,但是随着硬件水平的 提高,这种概率是比较低的。高峰表示,容错硬件的设计一方面可以防止硬件的单点故障, 同时也可以防止硬件所造成的计
10、算错误,并对此做出校正。从技术的角度来看,所有软件在 硬件看来就是0和1,但是在某些情况下,硬件会产生不稳定,造成非0非1的中间状态, 就会产生计算的错误,这种错误并不一定导致系统宕机,其错误不易被察觉。在容错服务器中,由于采用冗余部件同时运行同一应用任务,这样当两个系统产生不 一样计算结果的时候,系统就会察觉,并通过技术手段对于计算错误进行校验,从而提高应 用的准确性。但是如果是软件本身的问题,无论是操作系统还是应用软件,那么容错服务器 没有办法对于这种错误进行修整。因为对于容错服务器而言,硬件所能够辨别的就是0和1, 至于0和1所蕴含的软件逻辑,硬件无从辨别。高峰表示,软件的问题只能够通过
11、软件的 方法加以解决。有些用户对此存在一些误解,认为容错服务器不会宕机,实际上容错服务器 只能够解决硬件的故障。关于容错服务器应用,记者也采访了 NEC技术经理黄后生,他表示,选择容错服务器 的意义在于为关键业务应用提供可靠的硬件平台。黄后生表示,用户为追求系统可靠性,往 往会选择小型机,但这会增加成本,同时也对企业的技术人员提出了比较高的要求。但是选 择容错服务器没有这样的要求,可以使用他们比较熟悉的Windows平台或者Linux平台。黄后生表示,目前NEC的Express5800/ft服务器在原理上与Stratus非常类似,两家 公司在技术上有着战略合作,共同开发有关容错服务器的相关技术
12、。目前NEC是Stratus 公司的投资股东,持有Stratus公司部分股票。在全球服务器市场上,NEC位列前5强,具 有丰富应用和推广的经验,以及雄厚的市场推广能力。在技术支持和服务方面,NEC已经 建立了非常好的渠道,这些优势都有助于容错服务器在中国的应用和推广。产品技术篇之二基于“心跳的双机冗余服务器方案相对于容错服务器,双机冗余服务器解决方案比较简单,目前服务器厂商都可以提供。 它所采用的是两台配置完全一样的服务器系统,当一台机器出现故障的时候,另外一台机器 接替其工作,保证系统的稳定工作。双机热备的两种模式双机热备有两种实现模式,一种是比较标准的,两台服务器通过一个共享的存储设备 (
13、磁盘阵列或存储区域网SAN),并且安装双机软件,实现双机热备,称为共享方式。另一种 方式是通过纯软件的方式,一般称为纯软件方式或镜像方式(Mirror)。基于存储共享的双机热备是最标准的方案。对于这种方式,采用两台或者多台服务器, 使用共享存储设备,两台服务器之间可以采用互备、主从、并行等不同的工作方式。在工作 过程中,两台服务器将以一个虚拟的IP地址对外提供服务,依工作方式的不同,其服务请 求将发送给其中一台服务器承担。当一台服务器出现故障时,另一台服务器根据心跳侦测的 情况做出判断,并进行切换,接管服务。对于用户而言,这一过程是全自动的。这种模式好 处在于两台服务器所使用数据相同,但是也有
14、用户担心,共享存储设备会成为系统单一故障 点。为此,存储厂商也针对存储设备推出了双冗余的方案。纯软件双机冗余方案是一个更加经济的方案,其没有集中式存储设备,其数据保存在 服务器各自的硬盘上,通过支持镜像的双机软件,将数据实时复制到另一台服务器上。纯软 件方案其数据同步运行在两台服务器上,如果一台服务器出现故障,可以及时切换到另一台 服务器上。采用纯软件方式避免了磁盘阵列的单点故障;节约投资,不需购买昂贵的磁盘阵 列;不受距离的限制;可以灵活地部署服务器。软件水平是关键无论采用哪一个厂商的双机冗余服务器解决方案,所采用的双机或集群软件是其中的 关键,软件定了,方案的容错水平也就定了。目前市场上在
15、Windows平台下比较常见的双机软件有Dataware、Lander Cluster和 LifeKeeper;在 Linux 平台下有 Dataware、ROSE HA、PCL HA、LifeKeeper 和 Lander Cluster 等。此外,在SCO Unix和Sun Solaris平台下常用的软件有Lander Cluster和PCL HA。为了对这些软件的性能有所了解,记者采访了 DataWare的生产厂商,来自台湾的 ProWere公司,其在北京的办事处豪威科技首席代表白广凌和蔡雪涛工程师介绍了有关情况。 白广凌表示这些软件在功能上都差不多,如自动侦测功能。它在两台服务器之间提
16、供异常情 况互相监控,如果其中一台主机发生故障,则故障机制立刻执行,如果不能在故障主机解决, 所有资源将自动切换到另一台主机。双机软件一般提供两种模式:Active / Standby模式和 Active / Active模式,前者一台作业主机承担所有的工作负载,另一台主机处于备援状态; 而后者则是两台主机共同分担工作负载,如果其中一台主机故障,另一台主机将自动承担所 有的工作负载。蔡雪涛指出,双机软件的关键在于切换,最为忌讳的情况就是误切换。如果双机都认 为对方发生了故障,就会产生两台主机相互争夺资源的情况,就将导致严重的后果。蔡雪涛 表示,双机冗余服务器解决方案不能够替代数据备份,以纯软件
17、方式为例,如果数据有错误, 那么其另一台机器上的镜像肯定也是错误的,因此双机冗余服务器解决方案不能解决类似的 错误。采用数据集中存储的方式,无论是NAS还是SAN,两台服务器所使用的是同一个数 据。但是存储设备存在单一故障的风险,为此,ProWere推出了针对NAS存储的双冗余解 决方案。蔡雪涛表示,不同的双机软件在细节上还是有一些差异,最主要的是故障侦测的机制。 两台服务器之间一般通过、心跳线进行侦测,、心跳线的连接有串口、SCSI和网络连接三种 方式。在一般情况下,应该至少采用两种连接方式,以增加侦测的准确性。目前双机应用的范围比较广泛,无论在银行、电信、政府、电力、石油、新闻出版、 生产
18、制造等行业,凡涉及关键业务应用的领域,双机冗余都是一个重要的解决方案。但是双 机冗余服务器方案同样不能够解决软件的故障。蔡雪涛指出,以常见的数据库故障为例,有些时候数据库莫名其妙打不开了,在这种情况下,只有重新安装数据库,没有其他好的办法。蔡雪涛提醒用户,双机冗余不能够替代备份,数据备份和灾难恢复系统是应对故障最好的办 法。案例应用篇电力SIS系统的选择厂级监控信息系统(SIS系统)是目前电厂信息化建设的重要系统。据北京京能热电股份 有限公司(京能热电)副总工程师李东介绍,SIS位于电厂管理信息(MIS)系统与各种分散控 制(DCS)系统之上,以经济运行和提高发电企业整体效益为目的,采用先进、
19、适用、有效的 专业计算方法,实现整个电厂范围内的信息共享,对厂级生产过程进行实时信息监控和调度, 提高机组运行的可靠性。SIS系统为管理层决策提供了真实、可靠的实时运行数据。与此同时,与职工息息相关 的绩效考核等工作,也需要SIS系统提供支持。据了解,京能热电从去年下半年开始实施 SIS系统,其首要的任务就是选择硬件支撑平台。李东表示,SIS系统涉及大量复杂过程的 实时信息数据操作,因此硬件平台应该选用高性能、高可用性、升级便捷和维护方便的企业 级数据库服务器,同时应该兼顾开放式的体系结构和分布式系统设计。经过对现有硬件平台的分析比较,京能热电最终选择了 Stratus ftServerW系列
20、3300 服务器。据李东介绍,该服务器采用部件级冗余的工业标准容错服务器,其可靠性设计达到 99.999%以上,其中电源、CPU、内存、I/O控制组件均采用冗余配置。通过该服务器的 CPU/MEM集成锁步(Lock-Step)技术,其冗余部件在同一时钟周期做同样的指令,动态数据 得到保护。与双机冗余服务器方案进行比较,京能热电方面认为,容错服务器具有更高的可靠性 和系统可用性,在此,李东特别提到了 I/O部件的冗余,他们也配对工作,能够在发生故障 时进行接管,切换时间在毫秒级。切换过程不需要使用任何软件和编写脚本程序。从配置来看,该服务器采用双路Intel Xeon 3.2GHz处理器,二级缓存为1MB,其内 存配置为2GB DDR。该服务器采用Windows Server 2003简体中文企业版操作系统,配置 相应的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 希尔排序的应用规定
- 园艺新品花卉引进
- 工程电气设计规范
- 培养高效团队和管理团队
- 水利工程质量检测规程
- 园艺学习:开始园艺学习之旅
- 管线迁移及保护专项方案
- 农业推广服务对农业生产的支持
- 农业资源配置与优化利用
- 2025土地估价师备考:地役权试题
- dd5e人物卡可填充格式角色卡夜版
- 小区广播系统设计方案
- 电厂集控全能运行值班员应知应会(终结版)
- 化粪池建设项目监理细则
- 抗滑桩安全技术交底
- 南通城市介绍家乡介绍PPT
- GB/T 5271.28-2001信息技术词汇第28部分:人工智能基本概念与专家系统
- GB/T 40924-2021单板滑雪靴滑雪板固定器接口
- GB/T 39130-2020镀锌产品锌层附着性试验方法
- GB/T 17193-1997电气安装用超重荷型刚性钢导管
- GB/T 1455-2022夹层结构或芯子剪切性能试验方法
评论
0/150
提交评论