已阅读5页,还剩73页未读, 继续免费阅读
(计算机应用技术专业论文)机群操作系统高可用服务研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着机群系统规模的增大,节点数日的增多,机群系统整体的可靠性会相 应降低,故障的发生不可避免。同时,随着机群应用日益普及尤其是机群上商 业应用服务的迅速发展,人们对机群系统的可用性提出了更高要求。机群操作 系统作为建立在节点操作系统基础之上的最基本的机群系统软件集,是机群实 现对外提供服务的途径。因此,机群操作系统必须具有对外提供高可用服务的 功能。同时为了适应机群系统规模的日益增大,高可用服务应该具有很好的可 扩展性 曙光4 0 0 0 a 机群操作系统是一个采用构件技术构造的基于服务的一体化系 统,以高可用性和可扩展性作为设计的核心目标系统中各功能子系统或模块 被封装成不同的构件,构件间以服务的形式实现彼此位置透明的交互,系统实 现的功能也以服务的形式提供给机群系统的应用。本文以实现机群操作系统的 商可用服务为目的,以曙光4 0 0 0 a 机群操作系统为工程背景,在分析机群系统的 特征和高可用系统理论及关键技术的基础上,提出了分布与集中相结合的高可 用服务架构,在此基础上设计并实现机群操作系统提供高可用服务的关键构件- 组服务构件,在解决机群操作系统可用性问题的同时,解决了高可用服务的可 扩展性问题,曙光4 0 0 0 a 机群操作系统实际部署规模为6 4 0 个节点。 论文首先论述了选题的背景和目的,然后介绍了进行论文研究的高可用基 本理论、实现系统高可用的途径、技术和关键问题。论文围绕构件化机群操作 系统实现高可用服务需要解决的关键问题,详细描述了构件化机群操作系统实 现高可用服务的方法以及作为机群操作系统实现高可用服务的重要模块组服 务构件的功能和地位并详细描述了组服务构件的设计和实现。最后通过建立数 学模型对机群操作系统实现的高可用服务进行量化分析。 关键词:机群操作系统组服务高可用服务可扩展性数学建模 摘要 a b s t r a c t w i t ht h es c a l ee x p a n d e da n dt h en o d en u m b e ri n c r e a s e d t h ei n t e g r a lr e l i a b i l i t yo f c l u s t e rs y s t e md e c r e a s e sc o r r e s p o n d i n g l y , a n dt h e r e f o r e ,f a i l u r eo fn o d e si s i n e v i t a b l e m e a n w h i l e 。t h ec l u s t e rs y s t e ma v a i l a b i l i t yi sm o r ed e m a n d e dw i t ht h e c l u s t e ra p p l i c a t i o ng e t t i n gm o r ep o p u l a ra n de s p e c i a l l yw i t ht h ef a s td e v e l o p m e n ti n t h ec o m m e r c i a la p p l i c a t i o ns e r v i c e s a st h em o s tf o u n d a m e n t a ls y s t e ms o f t w a r ei n t h ec l u s t e rs y s t e m ,c l u s t e ro p e r a t i n gs y s t e mi sb u i l tb a s e do nt h en o d eo p e r a t i n g s y s t e ma n dp r o v i d e st h ei n t e r f a c ef o ru s e r st oa c c e s st h ec l u s t e rs e r v i c e s i na l l ,t h e c l u s t e ro p e r a t i n gs y s t e mn e e d st op r o v i d et h eh as e r v i c e s a n dt h eg o o ds c a l a b i l i t y f o rt h eh as e r v i c ei san e c e s s i t yd u et ot h ec l u s t e rs c a l eg r o w i n g t h e ”d a w n i n g4 0 0 0 ”c l u s t e ro p e r a t i n gs y s t e mi s au n i f i e ds e r v i c e b a s e do n e e s t a b l i s h e do nc o m p o n e n tt e c h n o l o g y , a n dm a i n l ya i m sa th i g ha v a i l a b i l i t ya n dg o o d s c a l a b i l i t yi nd e s i g n i n t e r a c t i o nn o to n l ya m o n gc o m p o n e n t sb u ta l s ob e t w e e n s y s t e ma n du s e r sa r eb a s e do ns e r v i c e a c c e s s s oa st oa c h i e v et h ei o c a t i o n u n a w a r e c o m m u n i c a t i o n t h ep u r p o s eo ft h i sp a p e ri st oa c h i e v et h eh i g ha v a i l a b i l i t ys e r v i c e s f o r 。d a w n i n g4 0 0 0 ”b ya n a l y z i n gt h e c h a r a c t e r i s t i c so fc l u s t e r s y s t e ma n d i n t r o d u c i n gt h eh at h e o r i e s ,ah i e r a r c b i c a la r c h i t e c t u r e ,w i t ht h ef e a t u r e sb o t h d i s t r i b u t e da n dc e n t r a l i z e d ,i sp r o p o s e d t h e nt h eg r o u ps e r v i c ec o m p o n e n t ,w h i c hi s t h ek e r n e lc o m p o n e n tf o rt h eh as e r v i c e s ,i sd e s i g n e da n di m p l e m e n t e d t h i sd e s i g n s o l v e sn o to n l yt h ep r o b l e mo fa v a i l a b i l i t yi nc l u s t e r0 sb u ta l s ot h es c a l a b i l i t y p r o b l e mo fh as e r v i c e s t h e ”d a w n i n g4 0 0 0 ”c l u s t e r0 si sp r a c t i c a l l yd e p l o y e do n 6 4 0n o d e s t h er e s e a r c hb a c k g r o u n da n dp u r p o s ea r ed e s c r i b e di nt h i sp a p e lt h e nt h eh a t h e o r i e s 。h as o l u t i o n 。a n dt h et e c h n o l o g i e sa n dk e yi s s u e st or e a l i z ec l u s t e rh aa r e i n t r o d u c e d f o c u s i n go nt h ek e yi s s u e so ft h eh as e r v i c e si nt h ec l u s t e re s t a b l i s h e d o nt h ec o m p o n c n tt e c h n o l o g y , t h em a j o rp a r to ft h i sp a p e ri sa r r a n g e da sf o l l o w s t h ep a p e ri n t r o d u c e st h eb a c k g r o u n da n do b j e c t i v eo ft h i sp r o j e c t ,a n dt h e n , i n t r o d u c e sf u n d a m e n t a lh at h e o r i e sn e e d e di nt h i sp a p e r , t h es o l u t i o n s t e c h n o l o g i e s a n dk e yi s s u e st or e a l i z eh af o rt h es y s t e m f o c u s e do nt h ek e yi s s n e sf o rt h e c o m p o n e n t a t i o n i z e dc l u s t e r0 st op r o v i d eh as e r v i c e s ,t h i sp a p e rc a r e f u l l y d e s c r i b e st h e a p p r o a c h e s i n d o i n gt h i s ,t h e f u n o t i o n sa n d i m p o r t a n c e o f g r o u p - s e r v i c ec o m p o n e n t ,a n da l s o ,t h ed e s i g n a n di m p l e m e n t a t i o no fs u c h c o m p o n e n t f i n a l l y , q u a n t i t a t i v ea n a l y s i si sd o n et ot h eh as e r v i c e so ft h ec l u s t e r o sb a s e do i lm a t h e m a t i c a lm o d e l k e yw o r d s :c l u s t e ro s ,g r o u ps e r v i c e s ,h i g ha v a i l a b i l i t ys e r v i c e s ,s c a l a b i l i t y , m a t h e m a t i c a lm o d e l n i 目录 图表目录 图表1 1 机群系统的典型体系结构2 图表1 2 各行业平均停机费用表3 图表2 1 高可用系统运行状态9 图表2 2 计算机系统可用度等级列表1 l 图表2 3 机群层次图1 5 图表3 1 曙光4 0 0 0 a 结构示意图2 1 图表3 2 曙光4 0 0 0 a 机群操作系统层次图2 2 图表3 3 机群操作系统用户视图2 2 图表3 4 机群操作系统软件框架结构图2 3 图表3 5 数据公告服务工作原理图2 5 图表3 6 机群操作系统核心高可用层次图3 1 图表3 7 应用管理实现高可用服务的主要模块3 2 图表4 1 高可用软件分白式体系结构图3 4 图表4 2 高可用软件集中式体系结构图3 5 图表4 3 物理分区内组服务的结构3 6 图表4 4 组服务提供高可用服务示意图3 7 图表4 5g s d 的结构图3 9 图表4 6 元组和上层应用组关系图3 9 图表4 7 组服务结构图4 0 图表4 8 元组环形侦测逻辑图4 5 图表4 9 元组逻辑图5 1 图表4 1 0 元组失效处理示意图5 2 图表4 1 1 元组成员重新加入示意图5 3 图表4 1 2 数据公告服务结构图5 5 图表4 1 3 数据公告服务容错功能实现示意图5 5 图表4 1 4 数据公告服务修复功能实现示意图5 6 图表4 1 5 节点状态和连通度监测的性能5 7 图表4 1 6g s d 元组的高可用性能5 7 图表4 1 7 应用组的高可用性能5 8 图表4 1 8 组服务在高负载情况下的性能5 8 图表4 1 9 运行曙光4 0 0 0 a 机群操作系统前后l i n p a c k 效率5 9 i x 机群操作系统高町用服务研究 图表5 1 单机系统工作状态转移概率图6 2 图表5 2 生灭过程的状态转换图6 3 图表5 3 系统可用度对比表错误l 未定义书签 x 声明 我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含 其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:y - 磊 日期:伽口t g 论文版权使用授权书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机 构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书。) 储躲互磊新魏绷吼州,川 第一章引言 第一章引言 机群是一组物理上通过高速互连网连接在一起的计算机集合,通过附加的机 群系统软件,互相协作,作为一个整体对外提供服务,其中每个计算机称为一个 节点随着机群系统规模的增大,节点数目的增多,机群系统整体的可靠性会相 应降低,故障的发生不可避免同时,随着机群应用日益普及尤其是机群上商业 应用服务的迅速发展,人们对机群系统的可用性提出了更高要求。 为了提高机群系统上应用运行的可靠性和连续性,作为用户、应用开发者和系 统管理员提供单一系统映像支撑的机群操作系统必须具有对机群应用提供高可用服 务的功能,同时其自身也应是一个可修复的高可用系统。 本文的研究的基础在于采用构件技术构造基于服务的一体化机群操作系统因 此,本小节首先详细描述了机群系统的特征、优势和体系结构以及机群应用对于高 可用的需求,从而可以看出机群系统通过机群操作系统向应用提供高可用服务的必 要性。紧接着介绍机群操作系统的一体化发展趋势以及构件化的机群操作系统,并 阐述机群操作系统实现高可用服务所具有的挑战最后介绍了本文的研究内容和结 构 1 1 机群系统的特征 1 1 1 机群系统特点 机群系统( c l u s t e r ) 1 1 以其卓越的性价比和良好的可扩展性等因素代表了并行 计算机体系结构发展的方向,成为人们关注的焦点。例如,d i g i t a l 的t r u c l u s t e r 2 、 i b m 的s p 2 1 3 】和b e r k e l y 的n o w 4 】等。 机群是一组计算机系统( 节点) 通过高性能网络或者局域网( l a n ) r i - 连而形成的具 有单一系统映像( s i n g l es y s t e mi m a g e ) 的高可用、高性能、高可扩展性的计算机集群系统 【1 1 。它的每个节点都是一个完整的计算机系统,如s m p 服务器、工作站或p c 服务器, 可以独立工作机群的三个系统结构特点如下: 机群节点每个节点是一台完整计算机。这就意味着每个节点有自己的处理器、高速 缓存、磁盘以及某些f o 适配器。此外在每个节点上驻留有完整、标准的操作系统。 节点问互连集群中的节点通过商品化网络,如以太网、f d d i 、光通道以及a t m 开 关进行连接。 单一系统映像一个机群足一个单一计算集资源。机群借助一些单一系统映像技术, 实现单一资源概念。 机群系统之所以成为计算机体系结构的发展方向,主要在于它具有其它并行系 统所无法比拟的优点,能够充分满足我们对计算机处理能力不断增长的需求 好用性由于机群系统中每个节点都是传统平台,用户能在熟悉的成熟环境中开发和 运行他们的应用程序。平台提供了功能很强的工作站编程环境工具,能够允许现有的串 行应用程序无需修改便可运行。 可扩展性一个机群的计算能力随着节点增多而增加。其次,机群的可扩展性是群体 可扩展性。因为是松散耦合,机群能扩展至几百个节点。 性能价格比机群采用大量商品化部件,其性能和价格遵循摩尔定律,从而时机群的 性能价格比增长速率快于其他超级计算机系统 可用性传统的单一系统,如大型主机、容错系统等,依赖昂贵的配置与设计来 帆群原作系统高町用服务研究 实现高可用性,而机群系统能够通过冗余的廉价商用部件来实现为用户提供高可 用服务。机群系统由大量冗余的处理器、内存、磁盘、i o 设备、网络等组成使其 具有实现系统高可用性的必要前提然而如何挖掘系统潜力,实现系统的高可用 性还需要软件的支持 随着技术的发展,机群系统呈现出规模不断扩大的发展趋势,以b l u e g e n e 系统 为例:b l u e g e n e 系统采用的s o c 设计,每个节点体积很小,每个c o m p u t ec a r d 上集成两个 节点;而1 6 个c o m p u t e rc a r d 组装成一个n o d eb o a r d :一个机柜基包含3 2 个n o d eb o a r d ;一 个机柜内可以集成多达1 0 2 4 个节点【5 1 。其中b l u e g e n e l 系统是包含6 4 * 3 2 3 2 个共6 5 ,5 3 6 个节点,峰值速度为3 6 0 t e r a f l o p s 的机群系统。 编程环境和应用 可用性和单一系统映像基础设施 o so so s 节点 节点节点 l 商品化或专用网络 1 1 2 机群操作系统 图表1 1 机群系统的典型体系结构 机群的典型体系结构如图1 1 所示,每个节点是一台完整计算机,并在每个节点 上驻留有完整、标准的操作系统;节点间通过高性能网络或者局域n ( l a n ) e 连;借助 可用性和单一系统映像基础设施实现对上层应用的支持【1 1 。 定义1 1 机群操作系统:机群操作系统建立在节点操作系统基础之上,足机群中最基 本的一个系统软件集【6 】。 机群操作系统支持系统的单一系统映象、可用性、并行性、通信和负载平衡 并可以实现对机群资源的配置,管理,调度、控制和监视,同时提供使用机群所必需的 环境和工具。机群操作系统是机群实现对外提供服务的途径。一个较为完备的机群操作 系统应该至少具备以下的功能:系统配置、任务管理,应用管理、系统管理、系统监控、 文件管理、用户编程环境和并行文件系统。 典型的机群操作系统有i b m s p 系列机群的的机群操作系统p s s p 7 和b e o w u l f 的机 群操作系统【8 】。 1 2 机群系统高可用的需求及实现途径 随着机群系统的发展,机群的应用领域已经从科学计算领域扩展至商业计算领域。 不论科学计算领域还是商业计算领域,都对机群系统的可用性具有较强的需求。本节通 过分析科学计算和商业计算的高可用需求,来说明实现机群系统商可用服务的必要 性,最后介绍机群系统高可用服务的实现途径。 1 2 1 大规模科学计算应用对于高可用的需求 当今,对大规模机群计算能力的需求已经深入到越束越广泛的领域,从天气预报, 2 第一鼋引占 石油勘探到汽车设计,航天航空军备制造等。同时,在一台高性能机群系统中总的处理 器数快速增长如b l u c g e n c 几这样的机器几个小时就要有一个处理器失效【9 】。而很多 科学计算任务被设计成一次运行几天或者几个月,例如:a s a 的s t o c k p i l ec e r t i f i c a t i o n 程序以及b l u e g e n e l 中的a bi n i t i o 蛋白质折叠程序都将运行几个月【9 】。这就导致应用 的运行时间比系统硬件的平均故障间隔时f 司( m t b n 长。如果机群系统没有高可用机制, 计算过程中的一点故障都可能导致成百上千个节点几周或是几个月的工作丧失意义。 1 2 2 商业应用对于高可用的需求 图表1 2 各行业平均停机费用表 商业运作每小时平均停机费用 通信:集中服务 s 1 0 0 m i l l i o n 金融:代理业务$ 6 4 5 m i l l i o n 金融:信用卡,销售授权 $ 2 6 m i l l i o n 传媒:景点支付$ 1 5 0 ,0 0 0 零售;商品销售 $ 1 4 0 ,0 0 0 运输:航空定票 $ 8 9 ,5 0 0 传媒:票务销售 $ 6 9 ,0 0 0 从上表【1 0 1 可以看出,对于商业应用而占停机所造成的停机费用,对商务或生 产力都有较大的直接影响,问接地顾客对企业诚信也会逐渐失去信心例如:由于 系统的部分故障造成的美国在线当机两个半小时,影响到了六百万用户,损失惨重 1 l l 。 所以提高系统的可用性,成为当前企业界的迫切需要。它能够使企业避免不必要 的损失,维护企业高品质的形象。 1 2 3 机群系统高可用服务的实现 高可用的计算机系统可以为其上的应用提供长时问、连续性的服务。在这样的 系统中没有单一故障点( 不论硬件还是软件) ,故障可以被侦测、修复、屏蔽而 用户程序不受影响,从而保证应用对于可用性的需求。 定义1 2 单一故障点( s i n g l ep o i n to f f a i l u r e ) :对于一个硬件或软件系统,如果 某部分发生故障而导致整个系统的崩溃,那么这部分就称为单一故障点【1 2 1 。举个 例子,一个由交叉开关连接的机群系统,当交叉开关不能工作,而系统又无相应 的补救措施,则这个交叉开关就是一个单一故障点。 机群系统由大量冗余的处理器、内存、磁盘、i o 设备、网络等组成( 硬件上 没有单一故障点) ,使机群系统提供高可用服务成为可能。同时不论是机群上的科学 计算应用还是商业计算应用都具有高可用的需求,使机群系统提供高可用服务成为必 须。机群系统在硬件和节点操作系统的层次上实现整机冗余,为机群实现高可用服务提 供基础。高可用服务的提供则在机群操作系统层实现。 1 3 机群操作系统的发展趋势 随着机群规模的不断扩大,应用领域的不断拓展,一体化成为了机群操作系统的发 展趋势,而构件技术成为了构造一体化机群操作系统的主要技术。 3 机群擐怍系统l 岛町用服务研究 1 3 1 一体化发展趋势 早期研制的机群操作系统一般都采用从基本的通讯到上层的服务全部由开发者 自主设计和实现机群操作系统的软件基本上是独立、分离的,各软件只实现一个 或有限的几个功能,如作业管理软件、系统监控软件等当用这些软件构造机群 服务器时,会导致如下问题的出现; 功能冗余,系统庞杂,效率低。 各软件难以实现彼此的互操作 缺少一致的系统概念,各软件问有不一致情况出现 缺少通用性。 上述问题在b e o w u l f 系统上表现得最为明显b e o w u l f 是商品化部件加上开放 源代码的集群功能软件,其集群功能软件是多个独立的集群功能软件的简单“收 集”和“堆砌”,彼此间难以互操作,不是一个集成的、一体化的机群操作系统软 件。在构造功能繁多的大规模机群的机群操作系统时,其缺陷显得尤为突出( 会暴露无 遗) 。因为随着机群规模的扩大、应用领域的拓展,对机群软件功能的需求也相应增加, 必然造成更多独立的集群功能软件的“堆砌”以满足应用需求,这就导致了机群的 运行效率大大降低。因此一体化成为机群操作构造的发展趋势 1 3 2 一体化机群操作系统的相关研究 目前有许多采用一体化设计的机群操作系统软件。d o ec c a 项目【1 3 】为美国能源部 公共元件体系计划( t h ed o ec o m m o nc o m p o n e n ta r c h i t e c t u r ep r o j e c t ) ,项目的目的是 用组件框架方法来应对丌发跨学科高性能计算应用的复杂性,通过高层次的抽象和代码 复用来加速项目的开发;s s s 计划1 1 4 1 是为了解决利用力亿次计算资源缺乏有效管理面 临的问题,它的目的是开发一套完整的平台无关的适应于可扩展要求的软件组件柬满足 s c i d a c ( s c i e n t i f i c d i s c o v e r y t h r o u g h a d v a n c e d c o m p u t i n g ) 的需求;中科院计算所国家 智能中心丌发的c l u s t o n e 1 5 贝j j 作为机群构件平台,提供了构建机群操作系统的基本通 讯手段、服务管理和高可用支撑。g a l a x y 机群管理框架【1 6 】服务于大规模的企业集群, 他采用了新颖的、具有高可扩展性的通讯和管理技术,以w i n d o w s 2 0 0 0 作为节点操作系 统,并紧密的耦合了节点操作系统的命名和目录机制。o c 6 a n o 项目【1 7 1 是一个具有可扩 展和可管理架构的大型服务器农场( s e r v e rf a r m ) 原型系统,它的丌发动机是基于大规 模的w e b 上机环境,解决日益增加的对于相对正常的稳定状态高出许多数量级的高峰负 载状态的支持。c i b ac i t y 计划 1 8 1 研究一个中等规模的,为科学计算服务的实验平台集 群。 1 3 3 基于构件技术的一体化机群操作系统 为了实现一体化设计,构件技术被引入机群操作系统的构造中。构件化机群操作 系统就足采用构件技术构造机群操作系统。系统中各功能子系统或模块被封装成不 同的构件对外提供服务,构件问可以实现彼此位置透明的交互。构件化机群操作系 统足一个集成的、一体化的系统。用构件化方式构造机群操作系统可以有效地减少 机群操作系统软件在功能上的冗余,模块问的冲突,并实现软件间的互操作性和软 件的通用性。 典型的采用构件技术构造的机群操作系统项目有d o e c c a 项目和s s s 计划以及 中科院计算所国家智能中心丌发的c l u s t o n e 机群构件平台。本文中的曙光4 0 0 0 a 机群 4 第一牵引占 操作系统也是一个构件化的机群操作系统。 1 4 机群操作系统实现高可用服务的挑战 机群系统发生故障是不可避免的 1 9 1 ,随着机群系统规模的不断扩大,出现故障的 频率会不断增加。因此,机群操作系统必须要有提供高可用服务的功能。在机群操作系 统实现高可用服务时,需要面对可扩展性的挑战、构件化对于实现自身高可用的挑战。 1 4 1 可扩展性 一个好的机群操作系统运行不应受到机群节点增加和减少的影响当机群节点规模 小的时候能够对它们进行有效的管理,同样当机群有成百上千个节点时,机群操作系 统也能够对它们进行管理。高可用服务作为机群操作系统实现的服务功能的一部分, 同样需要做到对机群节点规模的支持具有可扩展性。 1 4 2 构件化对于实现机群操作系统自身高可用的挑战 作为为用户、应用开发者和系统管理员提供单一系统映像支撑的机群操作系统, 自身应是一个可修复的高可用系统。这样才能保证机群操作系统不会成为整个系统 的单一故障点,并通过机群操作系统向机群应用提供高可用服务 随着机群规模的不断扩大,通过构件技术构造一体化的机群操作系统成为趋势 用构件化方式构造机群操作系统可以有效地减少机群操作系统软件在功能上的冗 余,模块间的冲突,并实现软件间的互操作和软件的通用性。同时构件化的机群操作 系统是一个集成的,一体化的系统,系统服务往往通过多个构件的配合对外提供 ( 而不像传统的机群操作系统服务功能由专门的子系统单独实现) 。因此必须保证 所有和提供高可用服务相关的系统构件的高可用性( 而不是像传统的机群操作系 统只需保证高可用服务子系统的高可用性) 。所以,构件化机群操作系统自身应是 高可用的 t 1 5 本文内容 本文的工作内容是实现曙光4 0 0 0 a 机群操作系统的高可用服务。曙光4 0 0 0 a 系统 的核心硬件由6 4 0 个6 4 位操作系统的节点构成,曙光4 0 0 0 a 的定位为“面向网格的高 性能计算机”,包括机群操作系统的设计和实现等研究内容。 1 5 1 曙光4 0 0 0 a 机群操作系统 曙光4 0 0 0 a 机群操作系统是一个采用构件技术构造的基于服务的一体化系统。 系统中各功能子系统或模块被封装成不同的构件,构件问以服务的形式实现彼此 位置透明的交互,系统实现的功能也以服务的形式提供给机群系统的应用。 曙光4 0 0 0 a 机群操作系统的软件框架分为两层:第一层是机群操作系统核心,第二 层足机群操作系统用户使用环境;机群操作系统核心定义了满足用户核心需求的最小功 能子集,为构造用户使用环境中的构件提供公共服务和基础设施。机群操作系统用户使 用环境通过提供同用户的交互界面来满足用户使用机群资源完成特定目标的需求。 曙光4 0 0 0 a 机群操作系统以高可用性和可扩展性作为设计的核心目标。在机群操 作系统的设计中,提出了物理分区的概念,将机群系统物理上分为多个分区,分而治之, 以此解决系统的可扩展性问题。同时机群操作系统不仅实现了为机群应用提供高可用 服务并且自身是一个可修复的高可用系统。 机群撵作系统高町用服务研究 1 5 2 组服务构件 曙光4 0 0 0 a 机群操作系统为了实现高可用服务设计了组服务构件;组服务构件作 为曙光4 0 0 0 a 机群操作系统核心的重要部件,为机群操作系统的其他构件提供高可用 服务,同时和机群操作系统核心的其它构件配合通过机群操作系统用户使用环境为机 群应用提供高可用服务。 组服务构件的主要功能为: 实现自身的高可用 为机群操作系统构件提供高可用服务。 和其它系统构件配合为机群操作系统的应用提供高可用服务。 组服务作为机群操作系统核心的重要组成部分是曙光4 0 0 0 a 机群操作系统实现高 可用服务的重要模块。 1 5 3 本文的主要贡献 作者结合设计、实践和国外研究开发高可用系统的经验,总结了机群操作系统 高可用服务应该具备的功能,阐述了设计与实现中面临的关键问题与解决方案 同时作者参与了曙光4 0 0 0 a 机群操作系统的软件框架和高可用服务的设计,参与设 计并实现了组服务的主要功能。并对机群系统的可用性建立了数学模型进行分析。 本文的主要贡献有: 1 本文从介绍高可用理论入手,深入分析了高可用系统的实现途径、实现技术以及发 展现状,阐述了机群系统高可用的实现途径,总结了机群操作系统实现高可用服务的 关键问题 2 本文提出了分布与集中相结合的高可用服务体系结构。有效的解决了高可用服务的 可扩展性问题。 本文总结了机群应用对于高可用服务的需求,并在曙光4 0 0 0 a 机群操作系统基于 服务的一体化构件的设计思想下,分析了曙光4 0 0 0 a 机群操作系统高可用服务的提 供方式和实现内容,并在分析当前高可用系统软件实现架构的基础上,提出了分靠与 集中相结合的体系结构作为实现机群操作系统高可用服务的基本框架,该框架有 效的解决了高可用服务的可扩展性问题,系统设计可以支持不小于1 0 2 4 个节点规模, 实际部署在6 4 0 个节点规模的曙光4 0 0 0 a 机群系统上。 3 本文设计和实现了机群操作系统高可用服务的关键构件组服务构件的相关协议,从 而保证了组服务构件的实现。 本文设计了对机群中节点运行状态与网络连通度的实时监测协议,从而保证了组 服务中集中管理功能的实现,结合机群特点以及曙光4 0 0 0 a 机群操作系统的实现目 的,设计和实现了组管理( g r o u pm e m b e r s h i p ) 机制的相关协议,从而保证了组服务 中分布管理功能的实现。设计和实现了组管理( g r o u pm e m b e r s h i p ) 协议包括:可靠 的广播协议、“l e a d e r 协调机制”、元组环形侦测协议、顺序一致性保证协议、组成 员失效处理协议、应用组管理协议等协议 4 测试了曙光4 0 0 0 a 机群操作系统的高可用服务并给出了相应的性能指标。 本文测试了曙光4 0 0 0 a 机群操作系统高可用服务的主要构件组服务构件的 和高可用相关的性能指标,并测试了机群操作系统对于系统性能的影响。从测 试结果,可以看出曙光4 0 0 0 a 机群操作系统的高可用服务能够在很短的时f b j 内侦 测到故障并修复故障,而且曙光4 0 0 0 a 机群操作系统对系统性能的影响并不大 5 用随机过程的相关理论,对机群系统的町用性进行评价。在通常的系统可用度评价 的基础上,增加了对f 应用的可用度、可靠度的评价。 6 第一章弓l 言 本文分析了单节点系统的系统可用度模型和多节点系统的系统可用度模型,对机 群系统的可用性进行评价,并在通常的系统可用度评价的基础上,增加了对于机群 应用的可用度、可靠度的评价并通过模型的计算,验证了曙光4 0 0 0 a 机群操作系 统的高可用服务对于提高系统可靠性和可用性的意义。 1 6 本文结构 本文是围绕着设计和实现机群操作系统的高可用服务面临的关键问题展开的 第2 章介绍高可用的基本理论以及机群操作系统实现高可用服务需要解决的关键问 题第3 章介绍了曙光4 0 0 0 a 机群操作系统高可用服务的设计和实现第4 章介绍了 作为曙光4 0 0 0 a 机群操作系统实现高可用服务的重要模块组服务的设计和实现。第5 章 建立数学模型对机群操作系统实现的高可用服务进行评价。本文最后一章对本课题的 工作进行了总结,并对未来的工作提出了建议 7 第二章商口丁用基本理论及实现的关键问题 第二章高可用基本理论及实现的关键问题 2 1 高可用基本概念和术语 高可用理论中一般采用g a s 来定义系统环境的健壮性与完善性 2 0 1 。r a s o i j 可靠性( r e l i a b i l i t y ) 、可用性( a v a i l a b i l i t y ) 和可维护性( s e r v i c e a b i l i t y ) 。 可靠性通常是根据系统平均故障间隔时问( m e a nt i m eb e t w e e nf a i l u r e , m t b f ) 即平均两次相邻故障之问的正常运行时问来衡量的硬件设备,操作 系统、应用软件等等很多因素都可能对系统的可靠性产生影响如果系统中一 个关键性部件的m t b f 较低,则将引起整个系统的可靠性降低。因此,传统的容 错机通常采用关键部件冗余的方法来提高系统的可靠性。 可维护性衡量的是对系统或部件提供维护服务的时间,包括计划内的维护 和不可预知的服务。通常用平均修复时间( m c a n t i m e t o r e p a i r ,m 订r ) 来衡 量可维护性,即从系统中断到恢复正常运行的平均时问。影响可维护性,包括: 预防性维护、故障监测、现场支持、用户培训等多种因素 在可靠性和可维护性的基础上才能提及可用性,它是大多数用户希望在其 高可用系统中能够得到的一种特性可用性指标通常以可用度或正常运行时间 ( m t b f ) 占总时间( 系统i f 常时间+ 系统故障时间,m t b f + m t t r ) 的百分比来 表示如果要把一个系统设计为在任何时候都是可用的,那么就应要求这一系 统具有1 0 0 的可用性,也就是说,在每一个非闰年,系统应提供8 7 6 0 j 、时的服 务,或3 6 5 天每天2 4 d 时的服务如果服务在一年的时问罩,因各种故障所造成 的停机时问达到5 3 分钟,那么所测得的可用性就会少于9 9 9 9 。可用性会受到 硬件维护、电源故障、系统重新启动、软件升级或操作员失误等多方面因素的 影响如图2 1 所示,一个系统在发生故障之前处于正常状态,发生故障后进行 修复,修复好后系统又处于正常状态 正常 系统运行系统修复 m t b fm t r r 图表2 1 高可用系统运行状态 时间 m t t f 与m t b f : 在高可用相关文献中经常出现m t t f 和m t b f ,按照可靠性工程的定义1 2 1 】, m t b f ( m e a n t i m e b e t w e e n f a i l u r e s ) 表示“平均故障问隔”。指“一边修理一 边使用的系统、机器、部件等的相邻的故障之问的工作时问平均值”。m t b f 表示的是到出故障为止的寿命,所以m t b f 经常用于代替寿命;m t t f ( m e a n t i m e t o f a i l u r e ) 表示“到出故障为止的平均时问”是“系统、机械、部件等 从没有进行过修理直到出故障为止的工作时间的平均值”m t t f 的对象是“不 9 机群操作系统高町用服务研究 修理商品”也就是“一次性商品”在高可用计算机系统中大多数的故障都是 可以修复的( 通过重启的手段来恢复) ,所以采用m t b f 来表达更为精确些。 下面我们介绍r a s 的量化指标 2 0 1 - 定义2 1 可靠度( r e l i a b i l i t y ) :系统在规定的工作条件下和预定的时间内持续完 成规定功能的概率,称为可靠度。 我们只考虑偶发故障对系统造成的影响偶发故障的发生是随机的,相互 独立的假定故障发生概率服从泊松分布,即满足若单位时问内发生的平均故 障次数为 ,则在t 时间间隔内发生k 次故障的概率为: 眦f ) - 警e | 式中:x 称为失效率( f a i l u r er a t e ) 。上是故障发生时间间隔的平均值即平均无故 工 障时间m t b f ( 可靠性通常是根据m t b f 束衡量的) 。在式中,令k = 0 ,贝i j p ( o , t ) 表示t 时间间隔内不发生故障的概率,即偶发故障时系统的可靠度( 可靠度函数) 即: r ( t ) - p ( o t ) - e “ 定义2 2 可维修度( m a i n t a i n a b i l i t y ) :在一定时间内系统修理完毕的概率由统 计资料可知,修复时间通常是服从指数分布的,并设其平均值为h ,则系统发生 故障后经过时间t 仍未修复的概率就等于e 1 ,而在时间t 内修复的概率( 可维修 度) m ( t ) 为: 三 m ( f ) - 1 一e h 称为平均修复时间( m t t r ,m e a nt i m et or e p a i r ) ,其倒数上称为修复率 ( r e p a i rr a t e ) ,记为。 定义2 3 瞬时可用度( i n s t a n t a n e o u sa v a i l a b i l i t y ) :系统在规定条件下使用时, 在任意时刻完成规定功能的概率。 瞬时可用度足时间的函数,用a ( t ) 表示如果系统有平稳态,可以定义与时 问无关的平稳可用度a 。 定义2 4 平稳可用度( s t a t i o n a r ya v a i l a b i l i t y ) :在相当长的一段时间内,系统正 确完成服务的时间百分比。 a j l _ 。丝丝 a + 口m t b f + m t t r 一种直观地度量计算机系统可用性的方法是以系统每年正常工作时间的百 分比来表示它的可用度以此为基准可划分几类不同可用程度的系统。下表列 举了这样的划分等级。 第二章商町用苹本理论及实现的关键问题 图表2 2 计算机系统可用度等级列表 系统类型不可用时日j可用度可用度 ( 分钟年)( )( 等级) 无管理系统 5 0 ,o o o 9 01 管理系统5 ,o o o 9 92 管理良好系统 5 0 09 9 9 3 容错系统 5 09 9 9 94 高可用系统 ,9 9 9 9 95 极高可用系统 59 9 9 9 9 96 超高可用系统 0 59 9 9 9 9 9 9 7 表 1 2 q a 的高g $ 性g g - - 年平均停机时间小于5 分钟,这是常用的高可用 性系统数值上的定义 2 2 系统实现高可用的途径 从可用度的定义( 定义2 4 ) 可以得到实现计算机系统高可用性的两个基本途径: 提高系统平均故障间隔时间( m t b f ) ,降低系统平均故障修复时间( m t t r ) 。为此, 常采用的策略有: 故障避免或减少 通过加强系统软硬件开发过程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB 26396-2026洗涤用品安全技术规范
- 经济普查服务外包合同
- 外卖配送劳务外包合同
- 2026年劳动技能教育试题及答案
- 幼儿园电缆敷设施工方案
- 2026年职业技能(互联网营销师)操作知识考试题库与答案
- 2026年工业废水处理工技能考试真题及答案
- 2026年LOGO设计真题及解析
- 酒店管理师备考冲刺模拟试卷含答案
- 江苏合庆小时工外包合同
- 2026年北京市石景山区初三二模英语试卷(含答案及解析)
- 广告牌安装外包合同
- GB/T 47328.3-2026乳及乳制品感官分析第3部分:产品感官特性符合性评价评分法
- 2026汽车后市场行业格局与消费趋势研究报告
- 2025年中国海洋大学辅导员和专职党政管理人员招聘考试真题
- 2026年山东省济南市历下区中考化学二模试卷(含答案)
- 2026国家粮食和物资储备局招聘面试题库
- 2026年超星尔雅学习通尔雅文艺复兴史试卷押题宝典试题附答案详解(突破训练)
- 2026年苏教版小学四年级数学上册期中卷含答案
- 2026年4月浙江卷高考预测模拟数学试卷01
- 2026年洗涤厂转让合同(1篇)
评论
0/150
提交评论