




已阅读5页,还剩113页未读, 继续免费阅读
(计算机应用技术专业论文)高可用集群系统中回卷恢复容错技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高可用集群系统中回卷恢复容错技术研究 摘要 计算技术的迅猛发展,使得集群得到了广泛应用,构建在集群上的应用 系统,其可用性一直是备受关注的问题。高可用集群的出现就是为了使集群 能够提供高度可靠的整体服务,以应对计算硬件和软件的易错性。作为一种 低成本的容错策略,回卷恢复技术已成为大众化应用系统首选的容错解决方 案。然而,将回卷恢复技术应用到高可用集群中产生了许多新的问题需要进 一步研究,比如:实时任务检查点设置,快速故障转移,以及可靠集群通信 协议等。本文以解决集群系统中回卷恢复技术所面临的关键问题为目标,对 以下内容进行了创新性研究: 系统地介绍了回卷恢复技术的基本原理、模型、主要协议算法,以及近 年来的研究成果,分析了各种回卷恢复协议的特点和应用范围。 研究了优化检查点设置问隔问题,对检查点设置策略中系统故障时间分 布进行了细致地分析,并针对集群系统中存在的大量实时任务,提出了一种 基于非精确计算的检查点设置算法,该算法可以为多任务实时系统提供容错 和确定性的实时保证。实验结果表明该算法提高了系统的容错能力,使得实 时任务能够在按时完成的前提下容忍更多的故障。 故障转移是回卷恢复的关键技术点,它能在系统资源部分损失的情况下, 对剩余可用资源重新配置并恢复需要继续执行的计算任务。针对目前大多数 的故障转移策略不能保证服务可用性或仅适用于确定性系统的问题,本文提 出了一种面向服务的快速透明故障转移模型( s o f a i l o v e r , s e f v i c e 0 r j e n t e df a s t t 唧a r e n tf a i l o v e r ) 及其算法,并从理论上分析了算法的一致性约束。实验 结果表明,s o f a j l o v e r 具有较短的故障转移延时和较低的系统开销,能够在 保证服务可用性前提下高效透明地对非确定系统进行故障转移。 研究了集群系统中数据传输协议。回卷恢复技术提高了集群系统对通信 的要求,而目前主流数据传输协议无法满足这些需求。本文提出了一种基于 u d p 的高效可靠数据传输协议( r e u d p , r e l i a b l ea n de f f i c i e n tu s e rd a t a g r a m 哈尔滨工程大学博士学位论文 p r o t o c 0 1 ) 及其性能分析模型,在保证可靠性的前提下,使系统通信能力得到 极大的提高。实验结果表明,r e u d p 可以在高性能集群系统网络中非常有效 地运行,分析模型能够结合网络实际情况对其性能做出较为准确的预测。 随着集群系统规模的不断扩大,系统平均故障时间也在逐步缩短,容错 和可靠性成为计算任务稳定运行的基本保障。传统的容错策略具有很多局限 性,无法适应大规模异构集群系统容错的需求,本文提出一种面向大规模集 群系统的回卷恢复容错策略,该策略不需要任何保存检查点和日志的可靠存 储设备,在恢复期间也不依赖额外备用的计算节点去接替失效节点,计算任 务会继续运行在剩余的计算节点上。而且,该策略能够在故障后自动进行负 载均衡,有效地降低了计算节点损失对系统的影响。 软件复用技术已从通用类库进化到了面向领域的应用框架和设计模式, 针对高可用系统软件的特点和复用技术在软件设计中的影响,本文基于模式 语言设计实现了一种可复用的回卷恢复应用框架c r r a f 9r o l l b a c kr e c o v e r y a p p l i c a t i o nf r a m e w o r k ) ,该框架能够涵盖以上提出的算法及策略。本文具体 阐述了r r a f 的体系结构,实现机制,模式语言的建立及相互间的协作关系。 最后给出r r a f 在流媒体服务器软件设计中的具体应用,对模式语言在领域 应用和实现功能软件复用等方面作了有益的探索。 关键词:软件容错:集群系统;回卷恢复;故障转移;检查点 高可用集群系统中回卷恢复容错技术研究 a b s t r a c t a st h er a p i dd e v e l o p m e n to fc o m p u t i n gt e c h n o l o g y , t h ed u s t e rs y s t e mh a s b e e na v p l i e dw i d e l y w i t hn u l n e r o u sa l ,p l i c a t i o n sr u n n i n go nt h ed u s t e rp l a t f o r m , h i 曲a v a i l a b i l i t yb e c o m e sh i g h l yd e s i r a b l e h i 曲a v a i l a b i l i t yd u s t e rc 姐p r o v i d e h i g h l yr e l i a b l ei n t e g r a t e d s o l v i c ef o rc o m p u t i n gt a s k st om o o th l l l d w l l r ea n d s o t t w a r ef a u l t s f u r t h e r m o r e , m a n yo fa p p l i c a t i o n sr e q u i r et h a tf a u l t - t o l e r a n c e 鲰:l a e m es h o u l db ep r o v i d e dw i t hl o wo v e r h e a di nt e r m so f h a r d w a r ea n ds o t t w a r e l e s o u l c c s r o l l b a c kr e c o v e r yt e c h n o l o g ys c e n l sm e c t h a gt h i sd e m a a dq u i t ew e l l , p r o v i d i n g a na t l l a c t i v el o w - o v e r l a c a ds o l u t i o nt o i m i l d i n g f a u l t - t o l e r a n c e a p p l i c a t i o n i - i o w c v e l , a p p l y i n gr o l l b a c kr e c o v e r yt ot h ed u s t e r 啪b r i n gs o u l t , c h a l l e n g e s ,s u c h 鹤e l a e e k p o i n tp l a c e m e n to fr e a l - t i m et a s k s ,f a s tf a i l o v e r , a n d r e l i a b l ed u s t e rc o m m u n i c a t i o np r o t o c 0 1 t h i sd i s s e r t a t i o na i m s 砒s o l v i n gk e y q u e s t i o n s w h i e l ar o l l b a c k r o e o v e r yf a c i n gi nh i g ha v a i l a b i l i t yc l u s t e r t h e f o l l o w i n go r i g i m lr e s e a r c h e sa r cc a r r i e do u t : t h ed i s s e r t a t i o n s y s t e m a t i c a l l yi n t r o d u c e s t h eb a s i c p r i n c i p l e ,m o d e l , a l g o r i t h m sa n dr e c e n tr e s e a r c hr e s u l t sa b o u tr o l l b a c kr e e o v c l y t h ef e a t u r e sa n d a p p l i e d 部嘲o f v a r i o u sp r o t o c o l s 躺a l s od e e p l ya n a l y z e d i nar e a l - t i m ed u s t e rs y s t e m , e a e l at a s km u s tc o m p l e t ea n dp r o d u c ec o r r e c t o u t p u tb y t h es p e c i f i e dd e a d l i n e h o w e v e r , i ti sn o tp o s s i b l et om e e te a c hd e a d l i n e b e m u s eo f s y s t e mf a u l t s s o ,i ti sv o r yi m p o r t a n tt od e c r e a s ep r e c i s i o no f r e a l - t i m e t a s ka n dp r o v i d eaf a u l t - t o l e r a n to p t i m a ls c h e d u l i n gt oa s s u r et i m e l i n e s sa n d r e l i a b i l i t y t h ed i s s e r t a t i o na n a l y z e ss y s t e mf a i l u r ed i s t r i b u t i o na n dp r o v i d e s o p t i m i z e dc h e c k p o i n tp l a c e m e n ta r i t l m a e t i eb a s e do ni m p r e c i s ec o m p u t a t i o n ( i c c p 皿l i sa r i t h m e t i cc a np r o v i d ef a u l tt o l e r a n c ea n d r e a l - t i m eg u a r a n t e e sf o r m u l t i - t a s kr e a l - t i m es y s t e m n u m e r i c a le x a m p l e sp r o v e di c - c p $ c o u l di n e r e a t h ep , 醐o r m a n c co fs y s t e mf a u l t - t o l e r a n t ,r e a l - t i m et a s k se a r lt o l e r a n tl l l o l ef a u l t s u n d e rt h ep r e m i s et h a tt a s k sc o m p l e t eo nt i m e r o l l b a c kr e c o v e r yt e c h n o l o g yc a l lb eu s e dt oi n c r e a s et h ea v a i l a b i l i t yo f s o l v i c eo f n e t w o r ka p p l i e a t i o m o n ek e ya s p e c to f r o u b a e kr e c o v e r yi sf a i l o v e r t h er e e o n t i g u r a t i o no fa v a i l a b l el e s o k l l c 鹤a n dr e s t o r a t i o no fs t a t er e q u i r e dt o 哈尔滨工程大学博士学位论文 c o n t i n u ep r o v i d i n gt h es a v i c ed e s p i t et h el o s so fs o m eo ft h er e s o u r c e sa n d c o r r u p t i o no fp a r t so ft h es t a t e m o s to ft h ef a i l o v e rs c h e m e su s e df o ri n c r e a s i n g t h ea v a i l a b i l i t yo fn e t w o r ks e r v i c e sd on o tp r o v i d es e r v i c ea v a i l a b i l i t y o t h e r s c h e m e sr e q u i r ed e t e r m i n i s t i cs c r v c r so rc h a n g e st ot h ec l i e n t t h ed i s s e r t a t i o n p r o p o s e sas e r v i c e - o r i e n t e df a s tt r a n s p a r e n tf a i l o v e rm o d e l ( s o f a i l o v e r ) a n d a r i t h m e t i cf o rp r o v i d i n gf a u l t - t o l e r a n tn e t w o r k $ e 1 3 r i c et h a td o e sn o th a v et h e l i m i t a t i o n sm e n t i o n e da b o v e ,a n dp r o v e ss e r v i c ef a i l o v e rc o n s t r a i n to fa r i t h m e t i c e x p e r i m e n tr e s u l t si n d i c a t es o f a i l o v e rh a ss h o r tf a i l o v e rt i m e sa n dl o wo v e r h e a d d u r i n gf a u l t - f r e eo p e r a t i o n n o n d e t e n n i n i s t i cs y s t e mc a r lf a s tt r a n s p a r e n tf a i l o v e r u n d e rt h ep r e m i s eo f e n s u r i n gs e r v i c ea v a i l a b i l i t y r o l l b a c kr e c o v e r yr a i s e st h ed i f f i c u l t yo fc o m m u n i c a t i o ni nc l u s t e r n e d i s s e r t a t i o nd e e p l ys t u d i e se x i s t i n gp r o b l e m sa n dl i m i t a t i o no fp r i m a r yd a t a t r a n s f e rp r o t o c o l sa l p r e s e n t p r o p o s e sar e l i a b l ea n de 伍c i e n td a t at r a n s f e r p r o t o c o lb a s e do nu d p ( p 江u d p ) ,a l s op r o v i d e sa l la n a i :c a lm o d e lt op r e d i c t r e u d p sp e r f o r m a n c e r e u d pl m k ee f f o r t st oe r t h a n c et h ea b i l i t yo fc l u s t e r s y s t e mc o m m u n i c a t i o nu n d e ra s s u r e dr e l i a b i l i t y e x p e r i m e n tr e s u l t ss h o wt h a t r e u d pp e r f o r m se x t r e m e l ye f f i c i e n t l yo v e rh i g h - s p e e dc l u s t e rn e t w o r k sa n d a n a l 删m o d e l i sa b l et op r o v i d eg o o de s t i m a t e so f i t sp e r f o r m a n c e , a sh i g hp e r f o r m a n c ec l u s t e r sc o n t i n u et og r o wi ns i z e t h em e a nt i m e b e t w e e nf a i l u r e ss b 触t h u s t h ei s s u e so ff a u l tt o l e r a n c ea n dr e l i a b i l i t ya r e b e c o m i n go n eo f t h ec h a l l e n g i n gf a c t o r sf o ra p p l i c a t i o ns c a l a b i l i t y 1 1 l et r a d i t i o n a l f a u l tt o l e r a n c em e t h o d sh a v em a n yl i m i t a t i o n sa n dd o n tm e e tt h ef a u l t - t o l e r a n t d e m a n do fl a r g e s c a i eh e t e r o g e n e o u sc l u s t e rs ) r s t e m n ed i s s e r t a t i o np r e s e n t sa r o l l b a c kr o c o v e r ys c h e m ef o rl a r g e - s c a l et h a ta i m sa tl o wo v e r h e a d0 1 1t h ef o r w a r d p a t ha n daf a s tr e c o v e r yf r o mf a u l t s ,w i t h o u tw a s t i n gc o m p u t a t i o nd o n eb y p r o c e s s o r st h a th a v en o tf a u l t e d t h es c h e m ed o e sn o tr e q u i r ea n yi n d i v i d u a l c o m p o n e n tt ob ef a u l t f r e e m o r e o v e r , t h es c h e m ec a ne f f e c t i v e l yr e d u c et h e i m p a c to f l o s i n gc o m p u t i n gn o d e s ( 1 0 a di m b a l a n c ed u et oc r a s h ) b yt h ec a p a b i l i t y o f a u t o m a t i cl o a db a l a n c i n ga tr u n - t i m e p r e d o m i n a n ti n d u s t r i a lp | 孤舡c eh a se v o l v e df r o mg e n e r a l - p u r p o s ec l a s s l i b r a r i e st od o - m a i n - s p e c i f i cf r a m e w o r k sa n dd e s i g np a t t e r n s a c c o r d i n gt ot h e c h a r a c t e r i s t i co fh i g ha v a i l a b i l i t ys y s t e ms o f t w a r ea n dt h ei m p a c to fr e u s a b l e t e c h n o l o g yi ns 0 1 a r ed e v e l o p m e n t , p r o p o s e st h er e u s a b l ef r a m e w o r ko f r o l l b a c k 高可用集群系统中回卷恢复容错技术研究 r e c o v e r yb a s e do np a t t e r nl a n g u a g e ( r r a f ) t l l i sf r a m e w o r k 啪i n c l u d ea b o v e a r i t h m e t i c sa n ds c h e m e s i nt h ed i s s e r t a t i o n , s y s t e ma r c h i t e c t u r ea n do p e r a t i o n a l p r i n c i p l eo ff i 如n e w o r le s t a b f i s ho fp a t t e r nl a n g u a g ea n dc o l l a b o r a t i o nr e l a t i o n s a m o n gp a t t e r n sa r cd i s c u s s e di nd e t a i l t h ea p p l i c a t i o no ff r a m e w o r k i ns t r e a m i n g m e d i as o l v e ts o f t w a r ei sa l s od i s c u s s e d i ti sap r o f i t a b l ee x p l o r a t i o n 协 a p p l i c a t i o no f p a t t e r nl a n g u a g ei nd o m a i na n dl a r g e - s c a l es o r w a r er e u s a b i l i t y k e y w o r d s :s o r w a r ef a u l t - t o l e r a n c e ;c l u s t e rs y s t e m ;r o l l b a c kr e c o v e r y ;, f a i l o v e r ;, c h e c k p o i n t 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) : 日期:纫占年宁月1 日 第1 章绪论 1 1 引言 第1 章绪论 随着科学技术的快速发展,计算任务变得越来越复杂庞大,人们对高性 能计算的需求也越来越迫切。集群是一种由相互独立的服务器通过高速网络 连接起来的计算系统,可以作为一个整体向外界用户提供整体服务 i 】由于 集群具有用户投资风险小、结构可扩展性好、用户可继承原有的软件资源、 编程方便并且构造简单等特点,目前已成为高性能计算发展的主流。但随着 集群系统规模的不断扩大,其在计算过程中发生故障的几率也在指数增长, 同时由于集群系统通常为多用户使用,其负载、资源等具有较大的变化特性。 另外,大规模科学计算任务执行时间都较长,一旦某个计算节点发生异常事 件,都会导致整个并行计算过程的彻底失败,程序不得不从头开始执行。如 果不考虑系统容错,计算任务可能要用很长时间才能完成,甚至无法完成 高可用集群的出现就是为了使集群能够提供高度可靠的整体服务,以应对计 算硬件和软件的易错性。如果系统中某个计算节点失效,通过相应的容错策 略,替补节点会在尽可能短的时间内接替失效节点的职责,只要系统中还有 一个节点正常运行,就能够为用户提供连续而正确的高可用服务。 实现高可用集群的方法有多种,使用特殊的容错硬件是有效的,但不易 于加到现有的集群系统中去;与应用相关的方法和原子性事务处理需要特殊 程序设计模型支持:活动冗余方法适用于实时系统,但它需要提供额外的计 算节点,因此这些方法都不能有效地应用于集群系统。检查点设置与回卷恢 复( c h e c k p o i n t i n ga n dr o l l b a c kr e c o v e r y ) 技术【2 】作为一种基于时间冗余的后向 恢复技术,通过在系统正常运行过程中设置检查点( c h e c k p o i n t i n g ) ,保存系统 当时的一致性状态,并对各进程进行相关性跟踪和记录。当系统发生故障时, 将相关进程回卷( r o l l b a c k ) 到故障前的系统一致性状态( 检查点) ,经过状态 恢复后从该检查点处重新执行( 而不是从程序开始执行) ,实现对系统故障 哈尔滨工程大学博士学位论文 的恢复。由于回卷恢复将计算损失减少到最近检查点保存时刻到故障发生时 刻这段时间,从而节省了大量重复计算时间,充分体现集群计算系统的并行 性能和高可用性。与其它容错技术【3 】相比,回卷恢复只占用少量的存储空间, 不需要额外的计算资源,具有实现和使用简单,对资源要求低等特点。回卷 恢复作为一种重要的容错策略,越来越多地受到人们重视,在这方面已有大 量的研究成果。而集群系统有其自身的特点,要将回卷恢复技术应用到基于 高可用集群的应用系统中还有许多问题需要研究,比如:实时任务检查点设 置,快速故障转移,以及可靠集群通信协议等等。 本论文的目标是解决集群系统中回卷恢复所面临的关键问题,为回卷恢 复技术在集群系统中的广泛应用提供基础和支持。 1 2 集群技术现状及发展趋势 1 2 1 集群技术概述 集群并不是一个全新的概念,早在七十年代计算机厂商和研究机构就开 始了对集群系统的研究和开发。由于主要用于科学工程计算,所以这些系统 并不为大家所熟知。直到近些年,在i n t e r n e t 飞速发展的带动下,人们对高 性能计算、网格计算【4 】有了越来越高的要求,集群的概念才得以广为传播。 对集群的研究起源于集群系统的良好的性能可扩展性( s c a l a b i l i t y ) 。提高 c p u 主频和总线带宽是最初提供计算机性能的主要手段,但是这一手段对系 统性能的提供是有限的。接着人们通过增加c p u 个数和内存容量来提高性 能,于是出现了向量机,对称多处理机( s m v , s y m m e t r i c a lm u l t i - p r o c e s s i n g ) 等。但是当c p u 的个数超过某一阈值,像s m p 这些多处理机系统的可扩展 性就变得极差。主要瓶颈在于c p u 访问内存的带宽并不能随着c p u 个数的 增加而有效增长。与s m p 相反,集群系统的性能随着c p u 个数的增加几乎 是线性变化的。图1 1 显示了这种情况。同时,集群系统还具有高可扩展性、 高性能、高可用性以及高性价比等优点。 2 第l 章绪论 图1 1 集群与s m p 系统性能比较 f i g 1 1p e r f o r m a n c ec o m p a r i s o no f c l u s t e rv s s m p 简单的说,集群( c l u s t e r ) 系统是一种并行或分布式处理系统,它包含多个 由互连网络连接起来的独立计算节点,能够通过集群系统软硬件形成一个统 一的计算资源。在集群系统中,计算节点可以是单处理器系统,也可以是多 处理器系统,这些计算节点各自带有c p u 、存储器、i o 设备以及独立的操 作系统。集群系统的多个计算节点通过通用网络或者其它高速网络进行互连, 从而向用户和应用提供一个单系统的映像。 集群系统一般采用通用的商用器件,操作系统、并行编程环境以及典型 应用软件等。因此,集群系统能够在较低投资的基础上,通过有效地管理和 调度,充分利用系统资源,达到较高的性能价格比。集群系统一般是多用户 ( m d u - u s e r ) 、分时共享( t n n e - s h a r i n g ) 系统。 1 2 2 集群系统研究现状 近年来,由于集群系统几大支撑技术的迅猛发展以及典型应用需求的推 动,集群计算技术越来越得到学术界和工业界的重视,从而开始了新一轮的 集群计算技术研究热潮。随着关键技术的突破,在一大批典型应用的推动下, 越来越多的集群系统进入了实用领域,如:n a s a 的b e o w l l l 0 5 1 等。在i n t e m e t 飞速发展的带动下,高性能计算对计算能力的需求日益增大,人们试图构建 哈尔滨工程大学博士学位论文 采用通用商用硬件的高性能计算机系统,以获得较高的性能价格比,集群计 算技术正是满足这种需求的首选技术。 虽然根据集群系统的不同特征可以有多种分类方法,但是业界一般将集 群系统分为两类:高性能计算o 五班p e r f o r m a n c ec o m p u t i n g ) 集群,简称h p c 集群;高可用( h i g ha v a i l a b i l i t y ) 集群,简称h a 集群。 一、高性能计算集群 。 高性能计算是计算机科学的一个分支,它致力于开发超级计算机,研究 并行算法和开发相关软件。高性能计算主要研究如下两类问题:大规模科学 问题,比如天气预报、地形分析和生物制药;存储和处理海量数据,比如数 据挖掘、图像处理和基因测序等。顾名思义,高性能集群就是采用集群技术 来研究高性能计算。根据f l y n n 【6 】分类法,高性能集群可分为高吞吐量计算 ( h i g h - t h r o u g h p u tc o m p u t i n g ) 集群和大规模并行处理( m p p , m a s s i v e l yp a r a l l e l p r o c e s s i n g ) 集群。 在高吞吐量计算集群中,任务可分为若干可以并行的子任务,而且各个 子任务之间没有什么关联。例如美国的在家搜寻外星人项目 s 翻唧0 岫川( s 嘲f c hf o re x t r a t e r r e s t r i a li n t e l l i g e n c ea th o m e ) 就是这类集群 的扩展应用。s e f i 项目利用i n t e r n e t 上闲置计算资源来搜寻外星人,服务器 将一组数据和模式发给h i t e m e t 上参加s e t i 的计算节点,计算节点在给定的 数据上用给定的模式进行搜索,然后将搜索结果发给服务器。服务器负责将 从各个计算节点返回的数据汇集成完整的数据。由于这种应用的一个共同特 征是在海量数据上搜索某些模式,所以把这类集群称为高吞吐计算集群。 大规模并行处理刚好和高吞吐计算相反,它们虽然可以给分成若干并行 的子任务,但是子任务间联系很紧密,需要大量的数据交换。b c o w u l i i 5 】集群 和i b ms p 2 集群是这类计算的典型应用。 二、高可用集群 计算机系统的可用性( a v a i l a b i l i t y ) 是通过系统的可靠性( r e l i a b i l i t y ) 和可 维护性( m a i n t a i n a b i l i t y ) 来度量的。工程上通常用平均无故障时间( m t b f , m e a nt u n eb e t w e e nf a i l u r e s ) 来度量系统的可靠性,用平均维修时间( m t r l t , 4 第1 章绪论 m e a nt i m et or e p a i r ) 来度量系统的可维护性,于是可用性被定义为: i v i t b f ( m t b f + m t t r ) * 1 0 0 。在不需要操作者干预的情况下,能够防止故障 或从故障中恢复,可用性达到并超过9 9 9 9 9 0 , 4 的系统称为高可用计算系统。 高可用集群就是采用集群技术来实现计算机系统的高可用性i s ,并致力 于尽可能提高服务器系统的运行速度和响应速度,高可用集群通常在多台机 器上运行冗余节点和服务,节点间相互跟踪。如果某个节点失效,它的替补 将在很短时间内接管它的职责因此,对于用户而言,集群永远不会停机。 一些高可用集群也可以维护节点问冗余应用程序。因此,即使它所处的节点 出了故障,用户的应用程序也将继续运行。正在运行的应用程序会在几秒之 内迁移到另一个节点,而所有用户只会察觉到响应稍微慢了一点。但是,这 种应用程序级冗余要求将软件设计成具有集群意识的,并且知道节点失效时 应该做什么。代表系统有美国w i s c o n s i n - m a d i s o n 大学c o n d o 一9 ) 。 高可用群集可以执行负载均衡功能,集群中所有的节点都处于活动状态, 它们分摊系统的工作负载。辅助节点对主节点进行活动监控或心跳观察,以 查看它是否仍在运行如果心跳计时器没有接收到主节点的响应,则辅助节 点将接管网络和系统身份。一般w 曲服务器集群、数据库集群和应用服务器 集群都属于这种类型。比如以色列h e b r e w 大学m o s i x t 埘 1 2 3 集群技术的发展趋势 一、处理器技术 通用商用处理器现在已成为计算机系统的基本标准构建块( b u i l d i n g b l o c k ) ,桌面p c 、工作站、刀片服务器以及超级计算机有着相同的处理器, 这使得采用集群计算进行高性能计算成为可能。 二、网络技术 集群系统是由多台通过网络连接起来的自治计算机构成的计算资源。网 络技术的发展使得集群系统范围内的资源共享成为可能,网络互连技术在集 群系统中有着举足轻重的地位。集群系统所采用的网络技术一般是局域网 ( l a n ) 技术,主要包括:共享交换式1 0 0 1 0 0 0 m 以太网,以及系统域网络( s a n , 5 哈尔滨工程大学博士学位论文 s y s t e m a r e a n e t w o r k ) ,如m y r i n e t 等。网络通信协议方面,由于通用的t c p l p 协议处理复杂,协议性能低下。针对这个问题,许多研究者对精简、高效的 通信协议进行了深入研究,以提高信息的传输速率。为了进一步提高通信效 率,在消息传递系统中采用了b y p a s sk e r n e l 技术实现零拷贝,从而提高通信 系统的性能。如何提高集群系统的通信性能是集群计算技术研究的一个重要 方向。对于这个方向的研究,软件、硬件方面都有很多可做的工作。 三、集群系统中间件技术 集群系统中间件技术是当前集群系统研究中还不成熟的方向,因此也是 最有研究价值的方向。集群系统中间件技术的研究主要包括: 单系统映像( s s i ,s i n g l es y s t e mi m a g e ) 资源管理与调度系统( r e s o u r c em a n a g e m e n ta n ds c h e d u l i n g ) 系统可用性基础结构( s y s t e m a v a i l a b i l i t yi n f r a s t r u c t u r e ) 单系统映像s s i 是当前研究的一个热点问题。它致力于对用户和上层应 用提供一个单一的、独占的、一致的系统视图。它通过软件和硬件来屏蔽集 群系统的具体物理结构,实现一定程度的透明性。单系统映像技术的研究范 围非常广,但由于研究及实现难度相当大,现在尚未有很具突破性的成果。 资源管理和调度系统是集群系统目前研究最成功的方面,资源共享是集 群系统的基本出发点,在共享的前提下对集群范围内的资源进行有效地管理 和调度,对提高集群系统的吞吐量和性能有重要的作用。 系统可用性基础结构是集群计算研究中的一个重要问题。随着计算复杂 度的提高,集群系统规模也越来越大,相关软硬件故障不可避免地频繁发生 无论是高吞吐能力计算还是高性能计算,如何有效地在集群系统范围内进行 可用性管理,保护已完成的计算工作,对系统故障进行容错和快速恢复是当 前亟待解决的问题。回卷恢复技术是高可用集群中一种重要技术,其涉及的 功能包括:进程迁移、负载均衡、检查点机制、日志记录,以及通信机制等, 本文就是以集群系统中回卷恢复技术作为研究对象,探讨如何在保证集群系 统可用性的前提下,提高系统性能降低容错开销,最大限度地减少故障对集 群系统计算资源的影响。 6 第1 章绪论 1 3回卷恢复容错技术研究现状 1 3 1 回卷恢复系统模型与相关概念 消息传递系统由一些相互协调合作的分布式应用程序进程组成,进程之 间通过消息传递来进行通信,且与外界( o u t s i d ew o r l d ) 通过发送输出消息和接 收输入消息进行交互。图1 2 给出了一个包含3 个进程的消息传递系统。 图1 2 带有3 个进程的消息传递系统举例 f i g 1 2a ne x a m p l eo f am e s s a g e - p a s s i n gs y s t e mw i t ht h r e ep r o c e s s e s 一个消息传递系统的全局状态包括所有参与进程的局部状态以及通信通 道的状态。一致性系统状态被定义为:系统状态中不包含孤立消息。孤立消 息定义为:消息的接收事件被记录,但是发送事件却丢失t o q 图1 3 一致性与非一致性状态举例 f i f t i 3a ne x a m p l eo f ac 煳s i s t e n ta n di n o a m i s t e n ts t a t e 哈尔滨工程大学博士学位论文 图1 3 给出了一致性状态和非一致性状态的例子( a ) 是一致性状态, 表示m l 已经被发送,但是还没有被接收。m l 称为传递中消息。当传递中消 息成为系统全局状态的一部分,这些消息不会导致不一致;( b ) 是非一致性 状态,耽已经被p 2 接收并记录下来,实际p l 的状态记录耽还没有发送。非 一致性状态由于故障而产生,所有回卷恢复协议的基本目标是当故障发生时 将系统引入一个致性状态。在故障前生成可以重演的一致性状态虽然不是 必要的,但却是充分的。 z - 路径与z 二环是回卷恢复中的重要概念。z 二路径给定两个进程检查点c h 和锄,在和劬间存在一条z 二路径【l2 】,当且仅当下列条件之一成立: 1 x o 被称为尺度参数,当口= l 时,威布尔分 布便转变为指数分布。 2 2 2 2 未来寿命分布 假设系统可用寿命由一个随机变量z 表示,石的分布函数为,t 为一个 非负的实数,那么基于给定条件x t 的分布函数,本文用z ( 功表示系统 未来寿命超过时间t 的分布。 e = ( f + 曲= 等贮o ( 2 - 3 ) 这个函数是非常有用的,它可以计算出系统在正常运行t 秒后,在下面j 秒内可能失效的概率。这样,当一个应用程序分配给系统,如果分布模型准 确并且给定了系统已经正常运行的时间,可以计算出在未来x 秒内应用程序 可能由于故障而终止的概率。 在指数分布的情况下,未来寿命分布( e ) ,可以归纳为t 所有值的最初分 布,换句话说,如果系统可用寿命服从指数分布,那么系统已经正常运行的 时间和未来可能正常运行的时间没有关系,由于这个原因,指数分布被称为 是无记忆的,它也是唯一无记忆的连续分布。 由等式( 2 1 ) 、( 2 2 ) 、( 2 3 ) 可以导出威布尔未来寿命概率函数: ( e ) ,( 功= l e 0 7 一。7 1 ( 2 q 很明显,当口l 时,函数依赖于t 和x ,当0 口 l 时,概率随着t 的增长而 哈尔滨工程大学博士学位论文 降低,当口= 1 时,分布将转变为指数分布,可见,威布尔分布是一个依赖于 形状参数的可变概率模型。 2 2 2 3 参数估计 上文所述的概率分布都包含不确定的参数,这些参数必须被估计以使概 率分布与观测数据相匹配。根据观测数据有很多种方法可以估计出相关参数, 包括目视检测( 图估法) 和分析方法,其中使用最广泛的就是极大似然法( m l e , m a x i m u ml i k e l i h o o de s t i m a t i o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小班语言儿歌游戏课件
- 《LD应用系统设计》课件
- 基础护理学模拟考试题含答案(附解析)
- 2025年茶艺师(初级)考试模拟题+答案(附解析)
- 《劳动合同法概述》课件
- 装修工程的现场协调管理考核试卷
- 汽车电子控制系统模型考核试卷
- 电影拍摄中无人机机械装置的应用考核试卷
- 《金属焊接工艺原理》课件
- 消费机器人行业政策与监管环境分析考核试卷
- 纸箱采购投标方案(技术方案)
- 涉气施工应急预案
- 仪 器 设 备 购 置 申 请 表
- 外科学(2)智慧树知到课后章节答案2023年下温州医科大学
- 12 黑板报(教案) 赣美版美术三年级下册
- 大学英语六级经典必背500句
- 矿井防爆门(防爆井盖)安全检测技术规范
- 山水田园诗鉴赏公开课一等奖市赛课一等奖课件
- 国家开放大学《EXCEL在财务中的应用》形考作业2参考答案
- 大学毕业论文-水泵体零件工艺及工装设计
- 2022神经外科手术分级目录
评论
0/150
提交评论