




已阅读5页,还剩122页未读, 继续免费阅读
(计算机应用技术专业论文)面向恢复的容错计算技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向恢复的容错计算技术研究 摘要 高可靠容错计算机的成本、可实现性和可扩展性问题一直是困扰其开发和广泛 使用的主要问题,而利用商用计算机成熟硬软件技术和资源( c o t s 技术) 实现容错 计算系统,拥有传统专用容错设计没有的许多优点,成为了容错技术研究热点。但 在当前以c o t s 技术为基础的软件和软硬件协同实现的容错计算系统中,如何实现 容错功能的透明性和提高故障检测、诊断、恢复的效率,减少对系统正常工作的影 响一直是研究的重点和难点问题;另外,目前使用广泛的基于卷回的故障恢复机制 存在一些先天不足,必须加以克服。 基于此,本文在对目前国内外一些容错计算系统的实现原理和集群技术进行深 入研究后,提出了利用c o t s 技术、容错和集群思想,实现容错集群服务器的结构 模型,以满足一些领域对服务器高可靠、高可用及高性能的要求。研究并实现了一 种基于p c l i n u x 平台下结合容错技术和集群技术优点的o p i a c 容错集群服务器系 统,对其故障发生情形进行了分析研究,重点研究了它的故障恢复模型和策略、检 查点实现技术,并对系统性能进行了评估。 首先,对几种具有典型代表性的容错计算系统体系结构进行了分析,对当前容 错系统设计中使用的故障恢复机制、方法,检查点技术实现原理进行了研究,分析 了影响检查点系统开销的关键因素、检查点技术的演化趋势及基于检查点技术实现 c o t s 智能容错计算和故障恢复存在的困难及目前需要解决的一些主要技术问题。 其次,研究了在有备份模块和无备份模块的t m r 容错结构中故障发生及故障恢 复的各种情形,定量分析、比较了两种容错体系结构下使用的故障恢复算法的效率; 根据实时应用系统对实时任务( 进程) 运行时间的限制,研究了检查点设置间隔( 两 次进程状态保存之间的时间) 对进程正常运行的影响,给出了一种满足实时应用需 求的动态保存进程状态的检查点设置策略。为进一步提高故障恢复效率,提出了智 能容错系统的透明、并行故障恢复算法一阶梯型算法。 第三,提出了一种基于c o t s 技术、结合容错技术和集群技术构造高可靠和高 性能容错服务器的思想,并据此基于p c l i n u x 系统平台,设计实现了一个集成了 容错机高可靠性、高可用性和集群系统高性能的o p i a c 容错集群服务器。通过对 l i n u x 内核的改造和扩充,采用具有自主处理能力的容错管理模块完成系统容错功 能,实现了容错功能对应用的透明,一方面对在o p i a c 容错集群服务器上运行的 应用程序的编写和运行没有任何限制和附加要求;另一方面对与服务器通信的客户 端应用来说,感觉不到服务器内部的故障检测、诊断和恢复及服务进程在内部节点 哙尔滨t 程大学博十学位论文 阐的迁移过程,并鼠不影响新的网络连接的建立。详细描述了实际实现中进行故障 恢复时,为了有效减少赦障恢复时闻,提高容错服务器执行效率采用的多种措施。 懑过设计虚拟设备驱动层、设备资源管理层秽内核服务仿真层,并将其与基子日惑 的故障恢复算法配合使用,克服了基于检查点的传统卷回恢复技术在i 0 恢复方越 存在的不足。 最后,详细介绍了在l i n u x 操作系统中如何实现对进程状态的保存和恢复。 荚键词:容错集群服务器,故障恢复,向前恢复,透明性,动态检查点策略 面向恢复的容错计算技术研究 a b s t r a c t c o s t ,r e a l i z a b i l i t ya n ds c a l a b i l i t yo ft h eh i g h l yr e l i a b l ef a u l t t o l e r a n tc o m p u t e r sa r et h e m a i ni s s u e sw h i c hb o t h e rt h ed e v e l o p m e n ta n dl i m i tt h ew i d ed e p l o y m e n to ft h e s e c o m p u t e r s h o w e v e r , t h ed e v e l o p m e n to ff a u l t t o l e r a n tc o m p u t e r sb a s e do nh a r d w a r ea n d s o f t w a r er e s o u r c eo fc o m m e r c i a l o f f - t h e s h e l f ( c o t s ) c o m p u t e r sh a sa d v a n t a g e so v e r t r a d i t i o n a lp r o p r i e t a r yf a u l t t o l e r a n c ed e s i g nt e c h n i q u e s a n dw i l lb e c o m et h er e s e a r c h h o t s p o t h o w e v e r , t h e r ea r et w oi m p o r t a n ta n dd i 衔c u l tp r o b l e m s ,i e ,t h et r a n s p a r e n c y o ff a u l t t o l e r a n tc o m p u t i n gt oe n du s e r sa n dh o wt oc u td o w nt h ei m p a c to nn o r m a l f u n c t i o n i n go ft h es y s t e m sw h i l ei n c r e a s i n gt h ee m c i e n c yo ff a u l td e t e c t i o n d i a g n o s i s a n dr e c o v e r yw h e nd e v e l o p i n gf a u l t t o l e r a n tc o m p u t e r sb a s e do nc o t st e c h n i q u e sb y t h ew a yo fc o o r d i n a t e dh a r d w a r ea n ds o f t w a r e m o r e o v e r , t h ed r a w b a c kw i t ht h ew i d e l y u s e da n dr o l l b a c k b a s e df a u l tr e c o v e r ym e c h a n i s mm u s tb eo v e r c o m e a f t e rd e e pi n v e s t i g a t i o ni n t ow o r k i n gp r i n c i p l e so fs o m en a t i v ea n do v e r s e a s f a u l t t o l e r a n tc o m p u t e rs y s t e m sa n dc l u s t e r i n gt e c h n i q u e s ,t h ea u t h o rp r o p o s e st h e s t r u c t u r em o d e lo fak i n do ff a u l t t o l e r a n tc l u s t e rs e r v e rb a s e do nc o t s a n dt h ef a u l t r e c o v e r ym o d e la n ds c h e m ei no r d e rt om e e tt h er e q u i r e m e n t so fh i g hr e l i a b i l i t y , h i g h a v a i l a b i l i t ya n dh i g hp e r f o l r m a n c eo ns e r v e r si ns o m ef i e l d s t h eo p i a cf a u l t t o l e r a n t c l u s t e rs e r v e rb a s e do nl i n u xa n dp cp l a t f 0 1 i l li sd e s i g n e da n dr e a l i z e d ,c o m b i n i n g f a u l t t o l e r a n c et e c h n i q u ew i t ha d v a n t a g e so fc l u s t e r d i f f e r e n tf a u l to c c u r r i n go c c a s i o n s i nt h es e r v e ra r ea n a l y z e da n dr e s e a r c h e d ,w i t ht h ee m p h a s e so nt h ef a u l tr e c o v e r y m e c h a n i s ma n ds c h e m e ,h o wt or e a l i z e c h e c k p o i n t i n ga n ds y s t e mp e r f o r m a n c e e v a l u a t i o no ft h a tk i n do fs e r v e r f i r s t l y , a f t e ra n a l y z e da r c h i t e c t u r eo fs e v e r a lt y p i c a lf a u l t t o l e r a n tc o m p u t e rs y s t e m s s t u d yi sd o n eo nt h e f a u l tr e c o v e r ym e c h a n i s m ,m e t h o da n dw a yt oi m p l e m e n t c h e c k p o i n t i n gi nt h ep r e s e n tf a u l t t o l e r a n c ed e s i g n a sar e s u l t t h ea u t h o rp o i n t so u tt h e k e ya s p e c t sa f f e c t i n g o nt h ec o s tn e e d e db yt h ec h e c k p o i n t i n gt e c h n i q u e ,t r e n do f c h e c k p o i n t i n gt e c h n i q u e ,d i f f i c u l t i e sc o n f r o n t e dw h e nd e s i g n i n gi n t e l l i g e n tf a u l t - t o l e r a n t c o m p u t i n gb a s e do nc o t sc o m p o n e n t sa n dc h e c k p o i n t i n gt e c h n i q u e ,a n ds o m ep r i m a r y t e c h n i c a lp r o b l e m sn e c e s s a r i l yt ob es o l v e d s e c o n d l y ,t h ea u t h o rh a si n v e s t i g a t e dt h ed i f f e r e n tf a u l to c c u r r e n c e sa n dr e c o v e r y s i t u a t i o n si nt m rs t r u c t u r eb o t l lw i t hb a c k u pm o d u l e sa n dw i t h o u tb a c k u pm o d u l e s a n d a n a l y z e da n dc o m p a r e dq u a n t i t a t i v e l yt h ee f f i c i e n c yo ff a u l tr e c o v e r ya l g o r i t h m su s e di n t h et w od i f f e r e n ts t r u c t u r e s a f t e rs t u d i e dt h ei m p a c to fc h e c k p o i n ti n t e r v a l ,i et i m e b e t w e e nt w oc o n s e c u t i v ep r o c e s sc o n t e x ts a v i n g s ,o nt h en o r m a ls y s t e me x e c u t i o n ,t h e a u t h o rp u t sf o r w a r dad y n a m i cc h e c k p o i n ts e t u ps t r a t e g yt h a ts a v e sd y n a m i c a l l yt h e p r o c e s ss t a t u st om e e tt h er e q u i r e m e n tn e e d e db yr e a l t i m ea p p l i c a t i o n s t of u r t h e r i m p r o v et h ee f n c i e n c yo ff a u l tr e c o v e r y , at r a n s p a r e n ta n dp a r a l l e l f a u l t r e c o v e r y i i i 哈尔滨丁程大学博十学位论文 r t i i a l g o r i t h mf o ri n t e l l i g e n tf a u l t t o l e r a n ts y s t e m s ,t h el a d d e ra l g o r i t h m ,i sa l s op r o p o s e d t h i r d l y , t h ea u t h o rs u g g e s t st h a th i g h l yr e l i a b l e f a u l t t o l e r a n ts e r v e rw i t i lh i g h p e r f o r m a n c eb ec o n s t r u c t e df r o mc o m b i n a t i o no ff a u l tt o l e r a n c et e c h n i q u ea n dc l u s t e r i n g t e c h n i q u e ,a n db eb a s e du p o nc o t st e c h n i q u e s a c c o r d i n g l y , b a s e do nt h ep l a t f o r mo f l i n u xa n dp c t h e0 p i a cf a u l t t o l e r a n tc l u s t e rs e r v e rw i t hh i g hr e l i a b i l i t y , a v a i l a b i l i t y a n dh i g hp e r f o r m a n c eh a sb e e nd e s i g n e da n dr e a l i z e d b ym o d i f y i n ga n de x p a n d i n gt h e l i n u xk e r n e l s ,t h ef a u l tt o l e r a n c em a n a g e m e n tm o d u l ew i t ht h ea u t o n o m o u sp r o c e s s i n g c a p a b i l i t y i s a d o p t e d t o i m p l e m e n tt r a n s p a r e n c e o ff a u l t t o l e r a n c ef u n c t i o nt o a p p l i c a t i o n s i e o nt h eo n eh a n d t h e r ei sn ol i m i t a t i o na n da d d e dr e q u i r e m e n t so nt h e c o d i n ga n dr u n n i n go fa p p l i c a t i o n st h a t w i l lr u no nt h e0 p i a cf a u l tt o l e r a n tc l u s t e r s e r v e r s ;o nt h eo t h e rh a n d ,f o rt h ec l i e n ta p p l i c a t i o n sc o m m u n i c a t i n gw i t ht h es e r v e r s , t h e yw o n tf e e lt h ef a u l td e t e c t i o n d i a g n o s i sa n dr e c o v e r yi n s i d et h es e r v e ro rt h e t r a n s p o r tp r o c e s so ft h es e r v i c ep r o c e s s e sa m o n gt h ei n t e r n a ln o d e s a n dt h e yw o n ta f f e c t t h ee s t a b l i s h m e n to fn e wn e t w o r kc o n n e c t i o n s d e t a i l e dd e s c r i p t i o ni sp r e s e n t e do n m e a s u r e st a k e nt oe 伍c i e n t l yr e d u c et i m ef o rf a u l tr e c o v e r i n ga n dt or a i s et h ee x e c u t i o n e 伍c i e n c yd u r i n gt h ef a u l tr e c o v e r y i nt h ed e s i g no fi 0s u b s y s t e m t h ev i r t u a ld e v i c e d r i v e rl a y e r , d e v i c er e s o u r c em a n a g e m e n tl a y e ra n dk e m e ls e r v i c es i m u l a t i o nl a y e ra r e d e v i s e da n di m p l e m e n t e d w i 血t h el a y e r sa n dl o gb a s e df a u l tr e c o v e r ya l g o r i t h m s h o r t a g e so ft r a d i t i o n a lc h e c k p o i n t e di 0r e c o v e r yc o u l db eo v e r c o m e f i n a l l y , h o wt os a v ep r o c e s sc o n t e x ta n dr e c o v e ri nl i n u xo p e r a t i n gs y s t e mi s e l a b o r a t e d k e y w o r d s :f a u l t - t o l e r a n tc l u s t e rs e r v e r , f a u l tr e c o v e r y , f o r w a r dr e c o v e r y , t r a n s p a r e n c y , d y n a m i c a l l yc h e c k p o i n t i n gs t r a t e g y i v 哈尔滨工程大学博士学何论文 图目录 图1 1n s k 系统体系结构示意图3 图1 2s t r a t u sf t s e r v e r 体系结构示意图4 图1 33 5 0 0 f t 容错服务器结构图5 图1 4m i u 中存储器拷贝结构示意图6 图1 5 故障恢复基本流程图6 图1 6o p i a c f t 容错计算机系统结构7 图1 7o p i a c f t 容错计算机c p u 模块恢复示意图8 图1 8o p i a c f 1 l 容错计算机m e m 模块恢复示意图8 图1 9h a 容错系统体系结构图9 图1 1 0 应用软件、容错管理软件和硬件之间的层次关系9 图1 1 1 恢复块模型1 7 图1 1 2 恢复块的工作流程1 7 图1 1 3 对正确i o 操作的可能卷回操作2 0 图1 1 4 对错误i o 操作的可能卷回操作2 0 图2 1 三模冗余t m r 系统结构示意图2 4 图2 2 无故障发生2 6 图2 3 单模瞬时故障2 7 图2 4t m r 多模故障一2 7 图2 5t m r 多模故障二一2 7 图2 。6t m r 多模故障三2 8 图2 7t m r 多模故障四2 8 图2 8d m r 无故障2 8 图2 9d m r 故障一2 9 图2 1 0d m r 故障二2 9 图2 1 1d m r 故障三2 9 图2 1 2 备份模块恢复3 3 图2 1 3 两个模块均无故障3 3 图2 1 4 多模故障一3 4 图2 1 5 多模故障二3 4 图2 1 6 多模故障三3 4 蕊南恢复蕊容错计算技术研究 圈2 1 7 单模块故障一3 5 图2 1 8 单模块故障二。3 5 豳2 1 9 两模块分别在连续两区间故障一3 5 圈2 。2 0 礴模块分别在连续两区阕故障二。3 s 圈2 。2 圭掰模块分别在连续掰区闻故障三。3 6 图2 。2 2 鹾模块分别在连续两区间故障四。3 6 图2 2 3r 村与检查点个数的关系图。+ 4 2 圈3 1 任务分解示例4 s 鞠3 2 进程完成时闻与天关系黉一。5 0 图3 3 进程完成时间与入荚系图二5 0 黧3 。4 进程完成时阀与天关系圈三。秘 图4 。lc o t s 容错集群系统物理结构示意圈5 4 图4 。2 逻辑结构示意图。5 5 图4 3 服务器主控节点t m r 结构示意图。s 6 图4 4f m m ;模块结构示意图。5 7 凰4 。5 怼,与f m m ;赫的蠹存映射关系,。5 8 图4 6 陌;的软件结构5 9 圈4 。? 基予t c p i p 的通信与直接硬件操作通信之毖较,鳓 图4 。8f 潮;闻的存储器映射6 l 圈4 。9 王作模式。6 2 图4 。l o 工 乍流程。6 3 图4 11 节点故障时系统级诊断测试图6 6 图4 1 2 测试过程形式纯攒述。6 7 瞬4 1 3 诊断过程形式化摇述6 8 图4 。1 4i o 子系统逻辑结构示意图。6 9 图4 。1 5t m r 可靠发玛尔橱夫模型。7 l 图唾。1 6 服务节点状态转移瘸? 2 圈4 1 7 主控节点可靠度,。,。? 3 图4 1 8 服务节点可用度。7 3 黧5 。l 恢复枫铡豹组织结聿奄。? 8 圈5 2 网络进程恢复示意阔。,8 2 凰5 。3l i n u x 鼹络协议栈示意图。8 3 哈尔滨【程大学博十学能论文 图5 4 服务器端网络进程s o c k e t 检查点保存流程8 5 图5 5 网络通信卷回恢复操作流程图8 7 图5 。6 检查点文件c h e c k p o i n t f o r m a t 的格式。8 8 图5 7 进程文件保存流程图9 0 图5 8 管道保存流程。9 3 图5 9 寄存器上下文保存流程9 5 图5 1 0 对进程信号量保存的流程9 8 图5 。l l 检查点文件的分割流程9 9 图5 1 2 进程个数和恢复时间1 0 3 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) : 日期:年月曰 第二章绪论 1 1 引言 第一章绪论 随着计算机和网络技术的飞速发展,应用日益广泛,已深入到社会生活的各 个方面,包括军事、金融等关系国计民生的重要领域,它们对国家、社会、个人 生活的影响越来越大,因而计算机及网络是否好用、耐用受到越来越多的关注, 人们对其可靠性和可用性要求也就越来越高。 容错是提高计算机系统可靠性和可用性的有效手段( 下述中高可靠计算机与 容错计算机不加区别) ,它以冗余资源( 硬件冗余、时间冗余、信息冗余、软件冗 余) 为基础,通过合理的系统软、硬件体系结构,在系统软件( 包括容错控制和 管理软件) 的有效管理下,采用故障检测、诊断、隔离和故障恢复等方法屏蔽、 减小、消除和避免故障对计算机系统的影响,使计算机系统在容错设计容许的功 能模块出现故障的情况下仍能提供有效的服务n 1 。建立在冗余技术基础之上的容 错服务器,在解决单点故障、缩短故障恢复时间、降低人为错误等方面显示出了 强大的优势。 在许多领域,人们不仅期望计算机系统能够提供7x2 4 小时的不间断连续运 行,同时还希望减少使用期间的维护工作量,以控制t c o ( t o t a lc o s to fo w n e r s h i p , 总拥有成本) 等。容错的未来将会向着更高的可用性、更卓越的可维护性方向发 展,调查显示越来越多用户开始注重t c o 而不是初期购买价格,而关键领域关键 业务的停顿造成的各种损失更是难以估计。据q u a l i xg r o u p 统计数据表明,1 分 钟的宕机停顿就能使运输业损失1 5 万美元,制造业的损失则会上升到4 2 万美元 之多( 国防领域损失更大、后果更严重) 。因而,更多的用户决定逐步放弃采用9 9 9 可用性的双机热备以维护复杂的集群服务器,将目光瞄向具有容错技术的平台或 容错服务器平台哺。 因此从用户角度看,不仅商业用户,而且军方,在要求计算机系统具有更高 可靠性、可用性的同时,越来越要求计算机系统必须是成本可接受、易扩展、高 处理能力且易升级,容错计算机的研究与开发必须适应这种市场要求。 本文以“十五国防重点预先研究项目“舰载实时容错分布式计算机系统技 术 的研究为基础,依托“十一五 国防重点预先研究项目“舰载嵌入式实时分 哈尔滨下程大学博七学位论文 布式计算机系统技术”,结合实际需求,研究使用c o t s 标准硬件模块和软件,通 过尽可能少和简单的补充改进,设计一种性价比高、开发速度快、结构灵活、易 扩展、紧跟技术发展、性能优良、满足实时应用需求的、容错通用的高可靠计算 机,重点研究解决其故障恢复问题。 恢复是实现容错系统容错目的和提高系统可靠性和可用性的重要环节,特别 是对于可修复t m r 容错系统,在发生永久故障并重维之后,t m r 容错系统的最 后一步就是加入新的模块使系统恢复到正常的工作状态,容错的目的在这个环节 之后得到了完全实现u 1 。 本章将对目前几种具有代表性的容错计算机进行概述,重点研究其故障恢复 方法。 1 2 典型容错计算机及其故障恢复方法概述 国外对容错技术的研究一直比较活跃盯删,近二、三十年来,各种容错计算机, 如t a n d e m 的n o s t o p 系列瞄1 、s t r a t u s 的c o n t i n u u m 系列驺4 3 和基于m i c r o s o f t w i n d o w s2 0 0 0 的f t s e r v e r 容错服务器5 3 7 3 等大量涌进中国市场。相对于国外,国 内容错计算机的研究起步较晚,囱主开发弗能得到较好应用的并不多见,主要还 是原理样机的研究,其中主要有中船重工第七0 九研究所在“八五期间研制的 以硬件为主实现容错计算的o p i a c f t 雅派克容错计算机口8 1 ,以及在“七五期间 研制的基于任务同步的9 8 0 f t 8 6 宾时加固容错计算机秘引;北京航空航天大学研制 的非相似冗余的航空机载容错计算机m 1 ;航空6 3 1 研究所研制的非相似冗余的 s f t m p 容错计算机系统h ”;以及以哈王大和国防科大强代表研究的双机双工容错系 统h 2 删。这其中最具典型意义的容错计算机系统主要有以下几种。 1 2 1 t a n d e 鹾的n o s t o pk e r n e l 计算机 n o s t o pk e r n e l ( 简称n s k ) 具有典型的适合于商用并行联机事务处理的容错并 行计算机体系结构阳3 ,如图1 1 所示。可容忍系统的单点故障,既运行中系统的 任何一个工作单元出现故障都不会影响到系统得到正确结果。它在硬件、系统软 彳孛、应用三个层次上设计并实现了容错体系结构来满足商业处理中对计算机离可 用性的要求。 2 第章绪论 图i 1n s k 系统体系结构示意图 f i g u r e1 1a r c h i t e c t u r eo fn s ks y s t e m 一个n s k 系统是由多个c p u 组成的松散耦合系统,不同c p u 中运行的进程通 过处理器闻的总线 i p b ) 通信,每个c p u 独立工作,完成不同的任务。 n s k 借助于硬件的冗余和软件上的进程对机制实现关键性进程的容错。容错进 程以进程对的方式运行,即一个逻辑上的进程由两个运行在不同c p u 中的进程组 成,一个称为主进程,另一个称为后备进程。正常情况下,真正执行程穿代码的 是主进程,它占用所在c p u 的内存空间和c p u 的运行时间。主进程运行期间,在 做一些关键性操 乍之翁( 如更改磁盘数据) 或之后( 如从用户接弱输入数据) ,为 保证信息不被丢失,主进程把些关键信息发送给后备进程。后备进程并不真正 运行,丽是处于等待状态。在接收到主进程的检查点消息后,它及时更耘自己的 状态,保持与主进程同步。由于后备进程总是保持与主进程的相对同步,它拥有 足够的信息以保证在主进程故障时能替代其继续完成任务,从而达到用软件方式 实现容错的露的。后备进程除了在接收检查点消息时要占用很少一点c p u 时闻外, 一般情况下并不需要被调度执行。 进程的容错与硬件紧密相关,没有多个相对独立的c p u 执行进程对,没有双 端阴设备控制器,没有c p u 之间的i p b 都不可能实现进程对机制,也就不能实现 进程级的容错。 1 2 2s t r a t u s 容错计算机 s t r a t u s 产品系列包括支持u n i x 操作系统的c o n t i n u u m 容错计算祝系统,以 哈尔滨工程大学博士学位论文 及支持m i c r o s o f tw i n d o w s2 0 0 0 的f t s e r v e r 硬件级容错服务器产品。f t s e r v e r 硬件级容错服务器结构如图1 2 所示。 l o c k s t e p a 【氐 图1 2s t r a t u sf t s e r v e r 体系结构示慈圈 f i g u r e1 2a r c h i t e c t u r eo f s t r a t u sf t s e r v e r f t s e r v e r 采用硬件冗余的容错技术,其体系结构克服了单点故障 ( s i n 9 1 e o f f a i l u r e ) 的致命缺陷。对于单次错误的恢复仅是硬件部件间的控制切 换,系统只需将控制权交给同步运行的另一个部件,系统仍继续往下运行。所以 s t r a t u s 计算机是单次错误恢复时间为零的计算机。 容错计算机的各c p u 模块上均有自主m e m o r y ,各c p u 模块运行状态及内存数 据完全一致,当一块c p u 模块出现故障时,另一块继续工作,而内存数据不会丢 失。 f t s e r v e r 的重要部件是双份冗余及全双工同步运行的,并具备热插拔的功能, 能进行在线恢复,可在线地增加扩充板进行升档。一旦更换或增加完毕,操作系 统会自动启动这些部件板,而所有这些操作对用户是完全透舞地执行。使得容错 计算机具有独特的在线升档能力。 f t s e r v e r 采用了“永久内存技术,可以保证无论在t m r 或d m r 模式,所有 主处理机都拥有相同的物理内存拷贝。通过内存容错机制f t m e m o r y ,用户还可以 自定义内存保护区,即使在处理模块的操作系统崩溃或重启时,仍然可以保证在 该保护区内的数据不被改动和丢失,即b i o s 和操作系统不会对内存的保护区进行 初始化,并且应用在线d u m p 技术将剩余的内存数据从其它处理机拷贝过来,保证 了内存映像的一致性之后,利用同步机制恢复正常运行。 1 2 33 5 0 0 f t 容错服务器 3 5 0 0 f t 容错服务器h 5 1 结构如图1 3 所示,在此结构中所有硬件模块都是双份 4 第一章绪论 的,它能够容单点故障及模块修复后重构双模操作。 a 区 m m d s 从b a ll d 蠢a b 区 m m b 的l o c k 嗉 i ,o b l o c k b a :总线适配器 i o a :i o 适配器 m m :主存 m i u :内存接口单元 d s b a :d s 总线适配器 图1 33 5 0 0 f t 容错服务器结构图 f i g u r e1 3s y s t e mo r g a n i z a t i o no f3 5 0 0 f t 该服务器采用内存拷贝( m e m o r yc o p y i n g ) 机制来实现恢复。其中,内存接口 单元( m e m o r yi n t e r f a c eu n i t _ m i u ,结构见图1 4 ) 是内存管理的核心部件,即内 存拷贝电路,它通过监测两个c p u 处理的数据来保证数据访问的一致性。两个c p u 同步运行应用程序,不能直接相互访问对方的内存。每当c p u 发生数据存取操作 时,m i u 会把两个c p u 所存取的数据进行比较,如果数据不一致,则随后c p u 对内 存的写操作会被m i u 置为无效,i 0 操作也会被m i u 挂起。m i u 有“正常 、“监听 、 “拷贝 三种工作模式。 恢复的原理是用正确主机内存的内容覆盖故障主机内存的内容。为了缩短恢 复时间,在内存的拷贝过程中,c p u 同步运行新的应用程序,这时m i u 的工作模式 设置为“拷贝 模式,执行完之后再设置为“监听”模式。即使是已经拷贝完毕 的数据也要受到m i u 的监听,一旦该数据发生变化,就要立即更新。所以在整个 恢复过程中,m i u 在“拷贝 和“监听”两种工作模式之间相互转换,直到恢复完 毕,所以系统的恢复是一个逐步的过程。 坚惫型蔷 哈尔滨工程大学博十学位论文 图1 4m i u 中存储器拷贝结构示意图 f i g u r e1 4b u f f e rs t r u c t u r ef o rm e m o r yc o p y 以a 区c p u 故障为例,其恢复流程如图1 5 所示。 a 区 a 区 图1 5 故障恢复基本流程图 f i g u r e1 5b a s i cf l o wo f f a u l tr e c o v e r y 如果a 区检测到故障则信号通知b 区c p u ,b 隔离a 区c p u 与i 0 的通道。恢 复时利用存储器拷贝机制( 通过m i u 的存储器拷贝结构) 把b 区存储器全拷贝到a 区存储器中。首先,正常区b 区c p u 读存储器数据,m i u 窃取该数据并传d s b a ; 然后b 区d s b a 把收到的数据通过d s - b u s 发送给a 区d s b a ;最后a 区d s b a 把数据 传a 区m i u ,通过m i u 把数据写入a 区存储器,a 区存储器写操作类似于d m a 写操 作。 6 第一章绪论 1 2 4o p i a c f r 一4 8 6 雅派克容错计算机 o p i a c f t 一4 8 6 军用容错加固计算机是中船重工集团公司第七0 九研究所“八 五”期间研制成功的,具有完全自主知识产权的产品,其结构如图1 6 所示口8 1 , 它以硬件为主实现容错计算。系统总线为双份,分别叫ab u s 和bb u s 。两条总线 同步操作,支持多主设备。为支持容错计算还设计了一条故障诊断与辅助恢复c b u s 。系统中各功能模块,如c p u 、存储器、硬盘控制器、显示控制器、网络控制 器、电源等均为双份,驻留在ab u s 和bb u s 上,依靠这两条总线进行通信,当 任一总线失效时,系统降级成单总线工作,但保持原来的速度连续运行。驻留在 总线上的任一功能模块失效时,将自动隔离出系统,另一配对功能模块维持原来 的正常操作,维护人员通过带电插拔,可联机替换失效模块。新加入的正常模块 将自动同步与恢复( 其过程对系统软件包括操作系统、应用程序完全透明) ,系统 又进入所有双模配对同步运行状态。 图1 60 p i a c f t 容错计算机系统结构 f i g u r e1 6a r c h i t e c t u r eo fo p i a c f tf a u l t - t o l e r a n tc o m p u t e r 该机的故障恢复方式根据功能模块不同,包括:c p u 自恢复、c p u 对m e m ( 存 储器) 模块的恢复、c p u 对i 0 的恢复、磁盘模块的自恢复h 8 1 。 其中c p u 模块的恢复过程如下:故障c p u 修复或新板插入后首先自己完成初 始化,发出加入系统信号。为保证两板同步运行,本系统设计了一个c p u 同步点, 新插入模块先期进入同步点等待,而运行c p u 模块收到新板加入信号后先将恢复 信息保存完毕后也进入同步点,之后两个c p u 模块同时取恢复信息,重新同步运 行,如图1 7 所示。 7 哈尔滨t 程大学博十学位论文 系统运行模块掰加入模块 图1 7o p i a c f t 容错计算机c p u 模块恢复示意圈 f i g u r e1 7r e c o v e r yo fc p um o d u l eo fo p i a c f tf
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 异形建筑幕墙测绘方案设计
- 活动策划公司团队宣传方案
- 建筑方案设计文本怎么写
- 东营广场舞活动方案策划
- 药品安全法培训小结课件
- 主题剧场建筑布置方案设计
- 二注建筑方案设计心得
- 美发设计开业活动策划方案
- 银川尾矿库施工方案
- 开发商自渠营销方案
- 江西省第二届职业技能大赛智慧安防技术赛项-模块B-公开样题
- CJ/T 528-2018游泳池除湿热回收热泵
- 化工工艺报警管理制度
- 2023-2024学年江苏省苏州市高三(上)期初调研物理试题及答案
- T/CSWSL 021-2020饲料原料大豆酶解蛋白
- 银行承兑转让协议书
- 《水利工程生产安全重大事故隐患清单指南》解读与培训
- 浙江省杭州市2025年八年级下学期语文期末试卷及答案
- 2025-2030年中国四轮定位仪行业市场现状供需分析及投资评估规划分析研究报告
- 小学生网络安全知识课件
- 辅警警务培训课件
评论
0/150
提交评论