已阅读5页,还剩78页未读, 继续免费阅读
(计算机应用技术专业论文)电信网络双机容错系统研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南交通大学硕士研究生学位论文第1 页 摘要 通讯网络中使用的设备,必须保证长时间可靠运行。在电信领域中,为 了保证其高可用性、高处理能力和事务的连续性和完整性,网络服务器一般 要求采用双机容错热备份系统,并且在主服务器出现故障时各服务器能够快 速切入并接替主服务器工作,使诸如h 3 2 3 、h 2 4 8 呼叫和通话过程等事务不 出现丢失或者“断流”。目前出现的容错系统大多数是针对具体应用而设计 的,是属于应用级的双机容错系统,无法满足电信级网络对实时性的要求。 笔者在深入细致地分析、比较了当前常见的双机容错热备份系统的实现 方法及其性能优缺点后,提出了一种基于“层”模式的双机热备份系统解决 方案。并针对短事务、强实时、高可用的电信级网络,对t c p i p 协议栈中 最复杂的t c p 协议( 传输层) 进行了双机容错热备份,统一解决了基于t c p 协议的上层应用的热备份实现问题。t c p 热备份的解决,为其他协议的热备 份实现提供了一个通用的标准模式,按照这种模式,可以从链路层到应用层 构建一个通用的基于“层”模式的双机热备份系统解决方案。这种统一的实 现模式,可以节省开发周期,节约开发费用,无论对供应商或者客户都是不 无裨益的。 文中给出了基于t c p 协议的双机热备份系统和网络层的双机心跳协议的 具体实现,并对其主从同步、主从切换等双机系统的关键流程和关键技术进 行了详细的说明。实验测试数据表明:只要双方通信实体不主动断连,在双 机选择、主备切换等操作过程中t c p 连接始终保持;在双机系统的各个状态, 双机系统运行正常,切换及时。达到了预期的效果。 关键词:电信网络;双机容错:t c p ;心跳协议;实时性 西南交通大学硕士研究生学位论文第l | 页 a b s t r a c t d e v i c et h a tu s e di nt h ec o m m u n i c a t i o nn e t w o r km u s tb ea v a i l a b l ei nal o n g t i m e i nt e l e c o mf i e l d ,n e t w o r k s e r v e rc o m m o n l yn e e d st oa d o p td u p l i c a t e d f a u l tt o l e r a n c es y s t e ms e r v e rs y s t e mi no r d e rt oe n s u r et h eh i g ha v a i l a b i l i t ya n d a f f a i r sc o n t i n u i t ya n di n t e g r a l i t y w h e nt h em a j o rs e r v e rc a n n o tw o r k s ,t h e s e c o n ds e v e rc a nt a k et h em a j o rs e r v e r sw o r kr a p i d l ya n de n s u r et h a tc a l l sa n d c o m m u n i c a t i o ns u c ha sh 3 2 3o rh 2 4 8w i l ln o tb ei n t e r r u p t e d p r e s e n t l y , t h e t o l e r a n c es y s t e m sm a i n l yd e s i g n e df o rs o m ec o n c r e t ea p p l i c a t i o n sa n db e l o n g e d t o a p p l i c a t i o n - l e v e l ,c a n n o tm e e t t h er e a lt i m ed e m a n do ft e l e c o m - l e v e l n e t w o r k a f t e ra n a l y z i n gt h em a i nm o d e so ft h ed u p l i c a t e df a u l tt o l e r a n c es y s t e m c u r r e n t l y , t h ea u t h o rg i v e sr e a d e r sn e wd u p l i c a t e df a u l tt o l e r a n c es y s t e mb a s e d o n l a y e r ”m o d e a i m e da tt h es h o r ta f f a i r ,h i g hr e l i a b i l i t ya n dh a r dr e a l - t i m e t e l e c o mc l a s sn e t w o r k ,t h i st h e s i si m p l e m e n td u p l i c a t e df a u l tt o l e r a n c es y s t e m b a s e do nt h em o s tc o m p l e xt c pp r o t o c o li nt h et c p i pp r o t o c o l s ,w h i c h u n i f o r m l yi m p l e m e n tt h eh o tb a c k u po ft o pa p p l i c a t i o nb a s e do nt c pp r o t o c 0 1 a n dt h ei m p l e m e n t a t i o no ft c ph o tb a c k u pg i v e sa na l l p u r p o s es t a n d a r dm o d e t oh o ts t a n d b yo fo t h e rp r o t o c o l s a c c o r d i n gt o t h i sm o d e a na u p u r p o s e d u p l i c a t e df a u l tt o l e r a n c es y s t e mb a s e do n l a y e r m o d ef r o ml i n kl a y e rt o a p p l i c a t i o nl a y e rc anb eg i v e n t h i su n i f o r ma p p l i c a t i o nm o d ec a ns a v et i m e s a n dm o n e yt os y s t e mi m p l e m e n t i n ga n di ti sb e n e f i c i a lt os y s t e mp r o d u c e r so r c o n s u m e r s t h i st h e s i sg i v et h ed e s i g na n di m p l e m e n t a t i o no fd u p l i c a t e df a u l t t o l e r a n c es y s t e mb a s e dont c pp r o t o c o la n dh e a r t b e a tp r o t o c o lb a s e do n n e t w o r kl a y e r , a n de x p l a i nt h ep i v o t a lp r o c e s sa n dt e c h n o l o g yi nd e t a i ls u c ha s s y n c h r o n i z a t i o no fp r i n c i p a la n ds u b o r d i n a t e a c c o r d i n gt ot h et e s td a t a ,i t s h o w st h a tt c pc o n n e c t i o n sb e h o l d i n g a l l a l o n g i nt h e p r o c e s s o f s y n c h r o n i z a t i o no fp r i n c i p a la n ds u b o r d i n a t ea n ds w i t c ho fd u p l e xc o m p u t e ri f o n l yb o t hc o m m u n i c a t i n gt e r m i n a l sd o n tc u ta u t o m a t i c a l l y t h ed u p l i c a t e d f a u l tt o l e r a n c es y s t e mr u ng o o da n ds w i t c hr a p i d l yi nt h ea 1 1s t a t u s e s i t i n d i c a t e st h a tt h ed e s i g na n di m p l e m e n t a t i o no fs y s t e mi ss u c c e s s 西南交通大学硕士研究生学位论文第1 li 页 k e y w o r d s :t e l e c o mn e t w o r k ;d u p l i c a t e df a u l tt o l e r a n c e ;t c p : h e a r t b e a tp r o t o c o l ;r e a lt i m e 西南交通大学硕士研究生学位论文第1 页 第1 章绪论 1 1 计算机容错技术国内外研究现状 近年来,计算机速度和容量的迅速提高,双机容错技术以及相关学科的逐 渐成熟,促进了容错技术理论和技术的发展,并在许多领域得到了广泛的应用, 其中包括工业控制、电信、金融、广播电视、医学、环保等各方面。 1 1 1 国外研究情况 美国是双机容错技术的发源地。美国的双机容错技术基本上就代表国际双 机容错技术发展水平。目前,绝大多数双机容错系统软件都是由美国公司开发 研制。许多公司生产的容错系统已商品化并进入市场。如美国l e g a t o ( v i n c a ) 公司开发的c o s t a n d b ys e r v e rf o rn t ,美国w e s t e r n m i c r o 1 2 1 公司开发的 s a v w a r e h a 双机容错系统,美国r o s ed a t a s y s t e m s 公司开发的r o s eh a 高 可用性系统等容错软件都是这方面的代表。在w i n d o w sn ts e r v e r 的双机热备 份系统软件中,目前比较常见的有以下机种:c a 公司的s u r v i v e i t ( 即 a r c s e r v e i tr e p l i c a t i o nf o rw i n d o w sn t 的升级版) 、n c r 公司的l i f e k e e p ”】, o c t o p u sf o rw i n d o w sn t 、s t a n d b ys e r v e rf o rw i n d o w sn t t 副和n t 自带的 c l u s t e r 技术。 在国际上人们非常关注容错技术的发展,1 9 7 1 年,i e e e 计算机学会成立 了容错计算技术委员会并且每年召开一次国际容错计算学术会议( f t c s ) 。在 该组织发展了3 0 年之际,2 0 0 0 年i e e e 国际容错计算会议与国际信息处理联 合会( i f i p ) 的1 0 4 工作组主持的关键应用可信计算工作会议合并,从此改 名为i e e e 可信系统与网络国际会议( i c d s n ) 。i c d s n 2 0 0 0 于纽约召开,它 标志着本领域的研究,无论从内容、方法和组织方面都有重大调整,也充分说 明了国际上对容错计算技术与可信计算技术的重视程度。 西南交通大学硕士研究生学位论文第2 页 1 1 2 国内发展情况 我国对容错系统的研究起步较晚。从学术角度来讲,在8 0 年代我国派遣 了一批学者出国,他们在美国和日本从事容错方面的研究,回国后纷纷成为这 一领域的学术带头人。二十多年来,他们的优异工作得到了该领域的广泛关注, 现在我国在容错研究领域的某些方面已经居于国际前沿。1 9 8 7 年1 月我国计 算机学会也成立了自己的容错计算专业委员会,召开了多次全国性的容错计算 学术会议。这充分说明了我国对容错计算技术的重视程度。 在应用方面,我国容错系统的应用流域非常广泛,i b m 、s t r a t u s 。天腾、 d e c 等公司的容错产品大量传入我国,在银行、证券、航天及核技术领域得到 了普遍的应用。 在产品研发上,虽然我国目前还没有形成通用的计算机容错产品,但各行 各业在各自的领域中自行研制了一些高可用系统,如用于铁路运输中的铁路微 机连锁系统。在电信网络可靠性方面,华为、中兴等中国电信运营巨头都有各 自独立知识产权的容错产品。更令人高兴的是,我国的曙光机提供了容错性能。 并且在软粹测试方面也引起了人们的重视,电信、铁道、航空和航天等部门纷 纷成立了自己的软件测试中心,由此可见人们已经充分意识到容错的重要性。 1 2 容错技术在电信网络中的应用情况 在电信领域中,构造一个电信级网络除了考虑高可靠性,还提出了强实时 性要求。要求在双机选择、主备切换等关键过程中,使用的时问应尽可能的少, 以避免处理事务的丢失。 目前国外的电信巨头c i s c o 公司已有实现主备倒换的产品,深圳华为, 北京中信公司都拥有自己独立知识产权的容错产品。但这些都属于相应公司的 技术机密,对于构造一个电信级网络的具体实现技术,目前还没有公开的描述 和介绍。目前与热备份相关的协议有:v r r p t 2 1 ( v i r t u a lr o u t er e d u n d a n c y p r o t o c 0 1 ) 与h s r p 【3 ( h o ts t a n d b yr o u t ep r o t o c 0 1 ) 及n e t s c r e e n 公司的 n s r p ( n e t s c r e e nr o u t ep r o t o c 0 1 ) 。 v r r p 和h s r p 协议是专门针对路由器这一类产品来设计的,在应用上有 一定的局限性,而且两个协议中没有描述如何保持主从设备之间的状态一致。 n s r p 应该是一个比较完善的热备份协议,在协议部分它基本包含了v r r p 的 内容,并且扩展了状态镜像部分内容,同时n s r p 还包括监控工具( 如路径故 西南交通大学硕士研究生学位论文第3 页 障监控工具用于监控设备的通信故障) ,但它只应用在n e t s c r e e n 的安全产品 上,并不是为一般设备的热备份而设计的。 1 3 课题背景和研究内容 从目前的现状看,容错理论分析和实际容错系统的开发研究取得了瞩目的 成就,但专用的容错系统多,通用的容错系统很少,容错系统多数是针对具体 应用而设计的,是属于应用级的双机容错系统。传统方法实际上都是在应用层 实现容错的功能,因此不可避免地带来以下问题: 1 ) 加重了设计人员的设计负担。在考虑具体业务实现的同时还要考虑备 份功能的实现; 2 ) 备份的可靠性不能保证。由于业务流程中需要考虑备份的地方很多, 设计人员的一点疏忽就可能导致无法正确备份,从而使备份失去作用; 3 ) 可扩充性比较差。当在原系统基础上增加新功能后,设计人员需要重 新考虑备份的实现,不但增加了工作量,而且不利于测试、维护、扩充。 到目前为止,对于一种通用的系统级的双机容错系统还没有公开的描述和 介绍。 t c p 协议是一种可靠的、面向连接的传输层协议。它是目前广泛采用的 协议通信标准,许多著名的协议都是基于t c p 协议之上而构建的,如h 3 2 3 、 h 2 4 8 、b g p ( 边界网关协议) 等。如果对t c p 协议进行热备份,就可以使上 述利用t c p 而达建的上层应用构成一个通用的热备份系统。这样就统一的解 决了基于t c p 协议的上层应用的热备份实现问题,达到了一劳永逸的效果。 基于以上考虑,本文将提供一种行之有效的方法以“层”的模式来实现系 统热备份的方法。针对短事务、强实时、高可用的电信级网络,提出了在t c p 层统一实现基于t c p 协议的上层应用的双机备份思想,基本解决了上述问题 【1 ,2 】。在应用层不需要考虑任何有关备份的细节,只需关心业务的具体实现过 程,而备份的功能由t c p i p 协议栈内核来完成。它为所有使用t c p i p 协议进 行通信的上层应用提供了一种通用的热备份实现方法。最后对此处理方式的可 靠性和可行性进行了实际的预演。由于涉及作者论文完成单位的核心技术机 密,不对实现热备份步骤进行详细介绍,只说明一些实现的关键技术。 西南交通大学硕士研究生学位论文第4 页 1 4 本论文的组织结构 本论文按如下的方式组织: 第1 章是绪论,概述了容错技术国内外研究发展情况,针对容错技术在电 信网络应用方面存在的问题,提出本课题的研究背景与内容。 第2 章简要介绍了目前国内外采用的典型的容错技术。其次介绍了双机容 错系统的分类和典型配置,对两种典型的容错方案做了比较,这些都是本课题 预演方案的选择依据。最后给出容错技术在一个典型的电信网络中的应用,这 也是本课题的研究背景。 第3 章介绍了t c p i p 协议栈中本课题需要详细了解的知识,也是本课题 研究的关键问题之一。 第4 章简要地介绍了基于t c p 协议进行双机容错热备份的系统结构和整体 思路。 第5 章在双机系统总统结构的基础上详细介绍了基于t c p 协议的双机容错 热备份系统的设计方案以及具体实现的方法。对双机系统实现的关键技术和主 要数据结构进行了具体的说明。 第6 章给出了心跳协议设计的一般原则和基于网络层的双机心跳协议的详 细实现。 第7 章对双机系统的关键流程给出了测试报告。 最后对论文的工作进行总结,并提出存在的问题和改进的方向。 西南交通大学硕士研究生学位论文第5 页 第2 章容错技术发展及电信级网络概述 2 1 国内外容错实现技术介绍 2 。1 1 冗余技术 容错技术总是与冗余的概念紧密联系在一起的。当某个部件出现故障时, 它所承担的工作必须由与其配对的正常部件来接替。如果这些部件仅用来提高 系统的可靠性,而不影响系统的计算性能,则称它们为冗余。冗余可用下列方 式得到: 对关键性的部件配备多份,同时工作( 硬件冗余) : 对关键性的操作配备若干个可供选择的程序( 软件冗余) ; 采用纠错码或校验码来表达信息( 信息冗余) ; 对关键的操作重复若干次( 时间冗余) 。 真正实现系统容错,达到不停顿处理且不降低性能的方法是采用完全硬件 冗余。硬件冗余不仅对瞬时性故障实现容错,也能对永久性故障实现容错。硬 件容错主要采用的是硬件冗余技术,硬件冗余包括计算机系统级冗余、部件级 和元器件级的冗余三级。硬件冗余,按理讲应该放在低层的元器件一件。通过 元器件级的冗余设计,保证系统的高可靠性。但是如果台计算机使用了大量 的元器件,那么将增加元器件数据和内部连线,使系统过于复杂,而且造价提 高,因此,基于元器件一级的冗余设计必须要有选择。 目前,冗余设计大部分放在功能部件一级甚至一台计算机一级,利用检测 和切换等装置实现检测和纠错。最有代表性的是系统级冗余的双机c l u s t e r 和 部件级冗余的容错计算机系统。 容错设计的主要目的是纠错计算机系统的错误,以提高系统的可靠性。容 错的过程是“检错一纠错一恢复”的过程。 2 1 2 部件级冗余系统 部件级容错计算机系统如图2 - 1 所示, 西南交通大学硕士研究生学位论文第6 页 图2 一l 部件级容错计算机结构图 这种部件级容错计算机系统只有单机配置,没有切换软件,用户开发管理 非常方便,并且容错对用户透明,从而使系统的应用开发费用大大降低。部件 级冗余通常对电源、硬盘、风扇和网卡等易发生故障且对系统造成危害最大的 那些部件添加冗余配置,并设计如热拔插等类似的方便更换机构,同时也要使 系统恢复到正常的部件冗余程度。 1 、故障检测 为了检测错误,每块电路板上都有两组相同逻辑,板内设计有比较自检逻 辑。在发生故障时,为了实现容错,每种电路板和外网设备都是双重冗余的。 这种计算机在加电时,就开始诊断。这样就可以将一些潜在的问题定位出来。 在正常操作期间,所有的计算、存储、输入输出过程都是在双重硬件上并行进 行的,单机模块包含全部主要功能部件,每块部件上有两组同样的逻辑和比较 器,在每个机器时钟周期比较器对两组逻辑的输出进行比较,从而检测出板内 的硬件错误。每块板上的两组逻辑同步工作,以相同的数据执行相同的操作。 互为冗余的另一块板则以正常速度继续执行操作,真正达到持续处理功能。电 路板故障时,并不需要操作系统干预,故障板自动退出服务,同时通知操作系 统的维护进程。 这种方式的优点是不仅能检测出永久性故障,而且能检测出瞬时性故障, 从而获得很高的可用性和增加计算正确的保证。 在那些难于同步的部件中,如磁盘驱动器,互为冗余的部件对磁盘控制器 及驱动器并不同步操作,而是有操作系统保证两个磁盘含有相同的信息。在每 西南交通大学硕士研究生学位论文第7 页 个双工的磁盘控制器板上是两组磁盘控制逻辑,它们的结果由比较器核对,并 且出入这一块板的数据流由一个比较器控制门来行使输出或禁止选择权,这不 仅从整体上保护了系统,而且也保护了存储在磁盘上的数据不受故障控制器的 破坏。每当需要一个写操作时,同时写数据到两个磁盘上;当需要一个读操作 时,一般从并不正在活动的磁盘上取得,或从磁头靠近该数据的那个磁盘上读 取,缩小了访问时间,对繁重的面向读的环境可以提供好的性能。假如发生故 障,则进行切换,以便在好的那个通道和驱动器上执行全部磁盘输入输出操作, 直至故障被修复。 2 、故障处理 当一块电路板或相连接的外围设备故障时,它自己立即退出服务,同时电 路板上的指示红灯亮,并且向操作系统发出一个中断信号,操作系统的维护软 件判明这次出错是瞬时的还是持久的。维护软件与应用软件是并发运行的,并 且对用户是透明的,由于双工工作的部件保证持续地以最佳速度运行,因此故 障不会影响性能。 维护软件接收所有的硬件维护中断,并判明错误的性质和原因,对于瞬时 性错误,重新启动该电路板;对于持久性错误,则该电路板或外围设备退出服 务,同时将一个故障批示发送到选定的一台用户终端,所有错误都被记录在系 统文件中,以备服务人员使用。 通过网络或拨号调制解调器,自动地将永久性错误通知客户协助中心 ( c a c ,c u s t o m e ra s s i s t a n c ec e n t e r ) 。软件问题一般由c a c 人员用内部通信 链路调整,容许他们登陆和观察该问题的影响,并作必要的校正。c a c 人员 对系统的访问是受用户控制的。如果指出有硬件故障,则c a c 通过分析差错 进一步诊断,然后准备替换部件,并寄给用户。 2 1 3 双机容错系统 为了在给定的元器件条件下进一步提高系统的可靠性,往往采用双机并联 方式来组成双机容错系统,即两台完全相同的计算机通过双机部件的控制来提 高整个系统的可靠性,这是一种系统级冗余方式。图2 2 为典型的双机容错系 统结构图。 匿南交通大学硕士研究生学位论文繁8 页 图2 - 2 双机容错系统结构图 黻税骞锩系统除了秀套疆件及较 串系绞筹,逐嚣要瑟纛专爰切换软转移管 理软件。为了确保系统正常远行,必须不断地进行两种检赢:双机相互健康检 查及梭测点梭套。 双机相互健康检测是在系统服务的过程中,校验程序每隔一点时闻或利用 中央处理机的空闲时间自动痨动,程蘸台计算机( 计算机a 及计算机b ) 之间 相互进行。 在双机邋行的两台计算机中,邋过事务处理中的检查点检查相互校骏处理 结采,若不致,这可浚发臻穗对错误;然后每台计算税分臻实施本瓤诊断, 就可以判别怒哪一台机器除了故障,并切离计算机,进入维护,系统由单台计 算瓿熬续运孬。 这两种检在都要占用一定的资源和开销,并且用户在应用程序中要设置检 查点,占逻系绞诗冀差 i 靛工撵时闽,诗算耄 l 的效攀毒疑下降。 两台计算机同时运行一个程序,而且各自带有自检装鼹,这贱自检装鬣都 工作,则通过“交叉切换嚣”任选个输出作为正确的输感;如果通过检测褥 知那台计算机出错,则停机工作,封锁其输出,幽另一台单机继续工作,完成 预定功能。宥关的“停机、封锁、切换”均由交叉切换器束完成。该切换器是 在检溯器控涮下执行操 乍鹣,这样鹃系统溉可驳鲻正永久往敌漳,又可汉缛正 偶然性故障。当然,对永久性故障来说这样的系统有比较明显得纠错效率;而 对予矮然洼放障来说,瑟蕊熬健徐装大一黧,嚣免每检溺一次错误,裁簧韬换 西南交通大学硕士研究生学位论文第9 页 一次,并停止一台计算机工作,如果再重新启动它还要有诸如初始化、同步、 归队等软件运行。 这种协同系统的不足还有双模必须保持一定范围内的同步、通信占用一定 的系统开销等。 2 1 4 三机表决系统 在三机表决系统中三台主机同时运行,由表决器( v o t e r ) 根据三台机器 的运行结果进行表决,有两个以上的机器运行结果相同,则认定该结果为正确, 一般而言,三机系统的可靠性比双机系统要高,但三机系统也有其缺陷。首先 三机系统的成本高是显而易见的,其次是当一台机器出现故障后表决器反复在 剩下的两台机器中进行表决己经没有任何意义,其可靠性甚至比不上一个双机 系统。因此现在三机系统中则较多采用的是将双机备份和三机表决两者结合起 来的方式,当三机中坏掉一台后就当作双机备份系统来用,不再进行表决了。 2 1 5 多机集群技术 c l u s t e r 集群技术可用如下定义:一组相互独立的服务器在网络中表现单一 的系统,并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠 性的服务。 大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系 统上运行的服务可被所有的网络客户所使用。c l u s t e r 必须可以协调管理各分 离的组件的错误和失败,并可透明地向c l u s t e r 中加入组件。 一个c l u s t e r 包含多台( 至少二台) 拥有共享数据存储空间的服务器。任 何一个服务器运行一个应用时,应用数据被存储在共享的数据空间内。每台服 务器的操作系统和应用程序文件存储在其各自的本地存储空间上。 c l u s t e r 内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发 生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被主动接 管。当一个应用服务器发生故障时,应用服务将被重新启动或被另一台服务器 接管。当以上任一故障发生时,客户将能很快连接到新的应用服务上。 d e c 公司最早在其v a x 系统上实现了集群技术,多服务器集群系统的主 要目的是使用户的应用获得更高的速度、更好的平衡和通信能力,而不仅仅是 数据可靠性很好的备份系统。集群系统对于军队、金融、证券等大型关键业务 西南交通大学硕士研究生学位论文第10 页 系统,无疑是最好的选择。 2 1 6 磁盘阵列技术 在计算机发展的初期,“大容量”硬盘的价格还相当高,解决数据存储安 全性问题的主要方法是使用磁带机等设备进行备份,这种方法虽然可以保证数 据的安全,但查阅和备份工作都相当繁琐。1 9 8 7 年,p a t t e r s o n 、g i b s o n 和k a t z 这三位工程师在加州大学伯克利分校发表了题为ac a s eo fr e d u n d a n ta r r a y o fi n e x p e n s i v ed i s k s ( 廉价磁盘冗余阵列方案) 的论文,其基本思想就是将 多只容量较小的、相对廉价的硬盘驱动器进行有机组合,使其性能超过一只昂 贵的大硬盘。这一设计思想很快被接受,从此r a i d 技术得到了广泛应用,数 据存储进入了更快速、更安全、更廉价的新时代。 r a i d 技术将数据用各种校验算法处理后冗余存储在多块硬盘中,以此对 硬盘进行物理容错。除提高了数据存储可靠性外,由于多块硬盘并行处理,还 提高了硬盘的i 0 速度,为解决c p u 与i o 速度的瓶颈问题提供了一个有效 途径。r a i d 技术可分为o 5 级,表2 1 给出了它们的简单定义。 表2 一lr a i d 各级的简单定义及性能比较 r a l d 级别描述速度容错性能 r a i do 磁盘分段磁盘并行输入输出 无 r a i d l磁盘镜像没有提高有( 运行单个磁盘错误) r a l d2 磁盘分段加汉明码纠错没有提高有( 运行单个磁盘错误) r a i d3 磁盘分段加专用奇偶校磁盘并行输入输出有( 运行单个磁盘错误) 验盘 r a i d4 磁盘分段加专用奇偶校磁盘并行输入输出有( 运行单个磁盘错误) 验盘和异步磁盘 r a i d5磁盘分段加奇偶校验分 磁盘并行输入,输出 有( 运行单个磁盘错误) 布在各磁盘 比r a i d0 稍慢 实现磁盘阵列的主要方式有软件方式和阵列卡方式。前者如s c o 虚拟磁 盘管理( v d m ) ,阵列管理软件运行在主机系统上。其优点是成本低,缺点是 要过多地占用主机c p u 资源,并且带宽指标上不去;而阵列卡方式把r a i d 管理软件固化在i o 控制卡上,从而可不占用主机c p u 资源。 西南交通大学硕士研究生学位论文第页 双机共享磁盘阵列系统是以磁盘阵列柜为中心的双机容错方案,磁盘柜通 过s c s i ( 小型计算机系统接口) 线连接到两个系统上,并能被两个系统所访 问。关键数据放在共享磁盘柜中,在正常运行时,控制权在主用系统上,当主 用系统发生故障或主用系统检查到某种故障后,系统控制权就切换到备用机。 主系统修复后,主备角色互换。双机系统进入正常工作模式。 2 1 7 时间冗余和信息冗余 以上几种方法都是利用冗余的机器来确保系统的安全性,这种方式也称之 为空间冗余。此外还有利用时间的冗余和信息的冗余确保系统安全性的方法。 例如检查点( c h e c k - - p o i n t ) 就属于时间冗余的一种,将机器运行的某时刻 称作检查点,此时检查系统运行的状态是否正确,不论正确与否,都将这一状 态存储起来一旦发现运行故障,就返回到最近一次正确的检查点重新运行。 2 2 双机容错系统概述 2 _ 2 _ 1 双机容错系统的工作模式与机理 双机容错系统是目前为保证系统可靠性而广泛采用的容错方案。从系统的 工作模式来说,双枫容错系统有三种常见的工作模式:双机双工互备援模式、 双机双工系统模式、双机主从模式( 双机热备份) 。 2 2 1 1 双机双工互备援模式 双机双工互备援模式中两台主机均为工作机( a c t i v es e r v e r ) ,在正常情况 下,两台工作机均为信息系统提供支持,并互相监视对方的运行情况。当一台 主机出现异常时,不能支持信息系统正常运营,另一主机则主动接管( t a k e o v e r ) 异常机的全部工作,继续主持信息的运营,从而保证信息系统能够不间 断的运行,而达到不停机的功能( n o n s t o p ) ,但正常运行主机的负载( l o a d i n g ) 会有所增加。当异常机尽快修理恢复正常后,系统管理员可通过管理命令,将 正常机所接管的工作切换回已被修复的异常机。典型配置结构如图2 3 所示。 西南交通大学硕士研究生学位论文第12 页 1 1 0 9a 牟,。 吨阵,。,i 以n 图2 - 3 双机双工互备援模式 双机与以太网连接,正常情况下,侦测连接r s 2 3 2 和e t h e r n e t ,主机a 通过网卡p 1 支持客户机a ,主机b 通过网卡p 2 支持客户机b ,当主机a 发 生故障时,主机b 将接管d a s 、a p 、d a t a b a s e ,客户机a 重新连接到主机b 的p 2 口,主机b 通过p 2 同时支持客户机a 、b ,当主机a 修复成功,主机b 自动释放d a s 、a p 、d a t a b a s e ,主机a 自动收回d a s 、a p 、d a t a b a s e 。同理, 当主机b 发生故障时,其原理和过程a 类似。 2 _ 2 1 2 双机双工系统模式 双机双工系统模式是两台主机均为工作机( a c t i v es e r v e r ) ,在系统正常的 情况下,它们并行同步响应外部服务请求,并对服务同步进行处理。在处理过 程中,分不同阶段对处理的中间结果进行对比,同时给出每个中间结果的评估。 在最后输出时候根据所有评估和当前的最终结果表决策略得出唯一的输出结 果。当一台主机出现异常时,不能支持信息系统正常运营,整个双工互备援模 式失效,输出结果不进行表决,因此应该尽量避免单机运行的情况。 典型配置结构如图2 4 所示。双机与仲裁控制器相连,控制器对客户机发 来的信息同时分发给主机a 和主机b ,双机同时对信息进行处理。处理结果 传至仲裁控制器,控制器按照结果表决策略对输出结果进行处理,然后将处理 西南交通大学硕士研究生学位论文第13 页 后的信息传回客户机。对客户机来说,主机a 和主机b 是透明的,它通过仲 裁控制器进行通信。 图2 - 4 双机双r 模式结构 2 2 1 3 双机主从模式( 双机热备份) 双机热各份模式是一台主机为工作机( a c t i v es e r v e r ) ,另台主机为备份 机( s t a n d ys e r v e r ) ,在系统正常情况下,工作机为信息系统提供支持,备份 机监视工作机的运行情况( 工作机也同时监视备份机是否正常,有时备份机因 某种原因出现异常,工作机应尽早通知系统管理员解决,确保下一次切换的可 靠性) 。当工作机出现异常,不能支持信息系统运营时,备份机主动接管( t a k e o v e r ) 工作机的全部工作,继续支持信息的运营,从而保证信息系统能够不问 断的运行( n o n s t o p ) 。当故障机经修理恢复正常后,系统管理员可通过管理 命令将备份切换为工作机,也可以启动监视程序,监视备份机的运行情况,此 时,原来的备份机就成了工作机,而原来的工作机就成了备份机。典型配置结 构如图2 5 所示。 嚣南交通大学颂士研究生学像论文第1 4 页 避虱 宅 翮e 圜 懈刑? e 凰 豳霜1 i 酒量薯 育广育广 |l 7 1 1 m 爪刚i。 。 圈2 - 5 双机热蔷份模式结构 双枫与单鞋太隧连接,聂豢。跨撼一f ,谈测连接r s 2 3 2 、筷测激太鼹秘鼓太 网1 ,主机a 设定为主用机,主机b 设定为备用机,所有客户机造接到主机a 的h l 口,当主机a 发生故障时,主机b 接管d a s 、a p 、d a t a b a s e 、i p ,主 机b 更换i p 地址( s 1 一 h 1 ) ,主机b 设寇为主机,所有客户杌遴接到主机b 的h 1 口,当主机a 修复成功,主机a 设定为备用机,毛机a 更换i pj 龇k ( m - s 1 ) 。 2 2 2 双橇热备份系统容错技术解决方案 謦瓣掌采麓静双辊热备份系统容锘鼓零解决方寨有褥释:鏊于荚拳设备 ( 磁擞阵列) 的双机容错热备份系统和纯软件双机容错热备份系统。 2 2 2 1 基于共享设备的双机热备份容错方案 磁盘阵列取机容锚系统的代表产品是d a t a w a r e 和l e c 。它采用容锚级别 最高的r a i d 5 ( 廉价磁盘冗余阵列) 技术并酝备楣廒的软传同时黢控嚣螽服务 西南交通大学硕士研究生学位论文第15 页 器的硬件环境,所有的写入操作将同时在两台机器上进行,一旦某一台机器出 现硬件故障,立即进行双机切换,以保证应用软件不发生中断。此模式下,双 机热备份容错系统由两部分组成:监控软件、磁盘阵列柜。 ( 1 ) 此模式运行的主要特点 1 ) 数据库放置于共享的磁盘阵列上,通过r a i d 技术保证数据的可靠性, 数据库及应用软件在某一时刻只由一台主机控制。 2 ) 过运行于主机a 及主机b 上的监控软件判别主机的: 作状态,当主机 a 出现故障时,主机b 接管主机a 的工作。 ( 2 ) 此模式的技术特点 1 ) 磁盘阵列柜可靠性是整个系统可靠性的首要条件,对磁盘阵列柜的慎 重选择,是选用此方案时所应考虑的问题。此模式将原由单台主机系统运行的 风险转移到共享磁盘阵列柜上,共享磁盘阵列柜的可靠性和安全性将影响整个 系统的安全运行。一旦磁盘阵列柜发生问题,整个网络将因此停顿,形成所谓 的单点故障。 2 ) 监控及切换由主机上的监控软件实现,故整个系统能够安全运行的另 一个前提是监控软件的可靠以及稳定。 3 ) 硬件设备的方案对硬件的依赖大,没有把风险完全平分在两台机上。 ( 3 ) 此方案的典型配置( 如图2 6 ) 图2 - 6 磁鼬阵列双机热备份容错系统典掣配置 软件: 操作系统两套 容错软件壹套 西南交通大学硕士研究生学俄论文第1 6 页 硬件: 数据痒或瘦弱系统壹套 p c 服务器嚣台 磁盘阵列柜壹或两台 以太网卡两块 s c s i 连线两根、串口连线壹根 2 2 2 2 缝软件双视热备份容锚解决蠢案 缝较箨载杭容错系统静代表产繇楚n c rl i f e k e e p e r 。它采蠲t c p i p 技术 柬保持工作机和备用机之蛳的数据同步。如果工作机方式故障,需要进行双机 镄换。它的谯点是无潆黢买器奏熬磁盘黪捌,同辩避免了肇点数障。它态缀好 地解决数据可靠性问题的周时,真正将作为网络核心的服务器端风险分散到两 台骚务器上,馊整个系统的霹靠性大大提蕊,并且性键稳定,维护篱单、方便。 软件系统由相关的两部分组成,第部分为赣视及切换系统,第二部分为 镜像系统。 ( 1 ) 篮控及切换系统 软件系统安装完毕讵式扁动后,两台p c 服务器担任不同的角色,一台为 主嗣系统 p n m a 呵s y s t e m ) ,弱台为螯疆系统fs t a n d b ys y s t e m ) ,在这 两台机器上都运行存一个进程叫“s m o n ”,它们通过数搬网( 专用以太网段、 t c p t l p 汝没) 帮串芎亍翟稳要燕程羲对方懿王 睾状态,在聂常壤况下,未蠲系 统通过用户网接受客户机的访问,当主用系统出现故障时,备用机就接管客户 褪怼系绞的访闯,接管的悫套包括缀主弱系统懿爨络这蛙及数撼库等,并重起 原主闻系统的各类敷用程序。监控及切换示意图如图2 7 所示。 量磐嚣 搭鼍1 1 蕊、 凳爨3 j 幸口连攘 。 、 嘉、 捧专露拜连攘 厂篡a 、 厂未 燕户摭啊绻蓬壤一 ,一, 西南交通大学硕士研究生学位论文第17 页 图2 7 纯软件双机热备份容错系统监控及切换示意图 ( 2 ) 镜像系统 纯软件双机热备份容错系统镜像是指两台服务器,主用系统与备用系统之 间通过t c p i p 协议,对系统数据进行的镜像,其镜像空间的大小,镜像的个 数,均可根据应用系统的要求进行设置。这种镜像是通过修改s c ou n i x 写 盘机制而实现的,故不存在任何不同步的现象。并且在数据专用网段上,容错 纯软件可以直接调用l l i 链路,而不必通过t c p i p ,从而有效提高数据专用 网段上的数据传输速度。通过镜像数据,容错纯软件物理上把数据库的风险平 均分布在两台服务器上。 安装了软件双机热备份容错系统之后,任何写盘的动作被容错系统截取, 同时写入本机硬盘,并通过专用数据网络写入备用机上的进行区。容错软件安 装前后系统结构如图2 8 所示。 辖t s c o 磁 la p p l i c a l i o nl i 容错软件i 卤由 专用囊蠡闩 国 l h r d d i s kl l h a r d d i s ki 图2 - 8 容错软件安装前后系统结构图 ( 3 ) 此模式特点( 与磁盘阵列柜模式相比) 系统整体可靠性高 纯软件方式下,真正将风险分散到两台服务器上,使系统可靠性真e 得到 提高选用双机热备容错系统的主要目的,是将单主机系统运行所带来的系统风 险降至最低。采用以共亨磁盘阵列柜为核心的方案,却是将系统j x l 险转移至共 享磁盘阵列柜e ,此设备的可靠性,直接决定整个系统的可靠性。而容错纯软 件双机热备容错系统无需麸享设备,将系统风险平均分散到两台服务器上,从 而真正提高整个系统的可靠性。 西南交通大学硕士研究生学位论文第18 页 双机采用网络连接,真正做到在线连接及修复,支持双机远距离间隔 两台服务器通过以太网连接,使得两台服务器之间的物理距离可相对较 远,如使用五类双绞线连接,双机之问可间隔1 0 0 米,如使用光纤连接,两 台服务器可间隔数千米至数十千米。这种连接方式可以避免一些人力不可抗拒 的事故,如火灾、地震等而导致系统中断,从而增加了可靠性。 无共享设备,使用户可以集中精力在两台主机的管理及维护上,日常 管理维护方便、简单、灵活 投资小,可靠性高,性能,价格比高 ( 4 ) 此方案典型配置( 如图2 9 ) 圈2 9 纯软件双机热备份锌错系统舆犁配置图 软件: 操作系统两套 容错软件壹套 数据库或应用系统壹套 硬件: p c 服务器两台 以太网卡肆块 直连网线、串口连线各壹根 西南交通大学硕士研究生学位论文第19 页 2 3 电信级网络 高可靠、强实时的双机热备系统由于具有广阔的应用前景,近年来越来越 得到人们的关注。而在电信领域中电信级网络的建立则是它的典型应用。一个 电信级网络最大的特点就是对其安全、可靠和高可用性要求。在这个网络系统 中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 输煤安全课件
- 元旦安全教育课件
- 小区物业安全课件
- 米脂事件安全课件
- 2025年推广普通话主题班会
- 中级注册安全工程师《生产技术》试题及答案(新版)3
- 2025年互联网+护理服务准入理论考核试题及答案
- 2025年上半年信息系统项目管理师上午真题
- 2018年全国计算机等级考试三级数据库技术真题卷
- 水手基本安全课件
- 化工企业安全生产培训课件
- 高纯原料纯铁编制说明
- 建筑生涯发展展示
- 2025年企业员工思想汇报范文
- 医院食堂营养配餐方案
- 基于永定河生态修复的官厅水库清淤试点方案研究
- DB11T 854-2023 占道作业交通安全设施设置技术要求
- 人音版小学四年级音乐上册教案全册
- 大众汽车新项目开发流程
- DL∕T 5161.5-2018 电气装置安装工程质量检验及评定规程 第5部分:电缆线路施工质量检验
- DL∕T 5106-2017 跨越电力线路架线施工规程
评论
0/150
提交评论