(计算机科学与技术专业论文)星载计算机多机并行系统容错技术研究与设计.pdf_第1页
(计算机科学与技术专业论文)星载计算机多机并行系统容错技术研究与设计.pdf_第2页
(计算机科学与技术专业论文)星载计算机多机并行系统容错技术研究与设计.pdf_第3页
(计算机科学与技术专业论文)星载计算机多机并行系统容错技术研究与设计.pdf_第4页
(计算机科学与技术专业论文)星载计算机多机并行系统容错技术研究与设计.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机科学与技术专业论文)星载计算机多机并行系统容错技术研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院硕士学位论文 摘要 星载计算机设备运行于外层太空中,容易受到空间强辐照射线对电子设备产 生的各种效应影响,产生各种软硬件故障,因此需要运用容错技术手段来保证其 对可靠性的高度要求。容错技术是提高可靠性、保证系统能够全天候工作的关键 技术。使用了容错技术的星载计算机系统在发生硬件故障或软件错误的情况下仍 然能够正确执行指定的任务。 本文设计了一种新型的星载多机并行系统,并对其进行了原型机的实现。该 星载多机并行系统采用分布式的多节点并行体系结构,具有良好的重构能力和一 定的通用性。配合该结构,设计了基于层次式容错故障检测恢复机制的多种容错 策略,可以对单粒子效应等由空间恶劣环境引起的故障进行容错处理,有效地提 高了系统的可靠性。 本文的主要工作和创新点如下: 设计了一种动态主从式的多节点并行星载计算机体系结构。该系统的特点 是不含专门的集中式管控部件,所有系统的管理控制功能可由分布式的各节点共 同制定策略实现。 在该体系结构中,提出了后备主节点的概念,用来负责监控主节点的状态, 同时在主节点失效时接替主节点的工作,增强了系统的可靠性和容错恢复的实时 性;提出了全局状态信息表的概念以及其在多机并行体系下的存储访问方式;设 计了多机并行体系下的节点间故障监控通信的概念和类型。 通过故障模式影响分析( f m e a ) 对星载多机并行系统的故障发生情况和类 型进行了系统的分析归纳,在此基础上针对性地设计了一套层次式的容错故障检 测恢复机制,并围绕该机制进行了各种容错恢复策略的研究性工作。 在v x w o r k s 开发平台对星载多机并行系统进行了原型系统的设计与实现。 通过平台模拟器模拟了其底层的硬件体系结构和基本运行机制,在此基础上开发 实现了各种容错恢复策略程序。 利用随机p e t r i 网( s p n ) 分析工具对星载多机并行系统进行了建模及性能 分析。 主题词:容错技术,星载计算机,故障模式影响分析,层次式故障检测, v x w o r k s 第i 页 国防科学技术大学研究生院硕士学位论文 a b s t r a c t o n 。b o a r dc o m p u t e r sa r ee a s yt om e e tb o t hh a r d w a r ea n ds o f t w a r ef a i l u r e sd u et o t h ei m p a c tb r o u g h tb yp o w e r f u lo u t e rs p a c er a d i a t i o n t h u s ,f a u l t - t o l e r a n c et e c h n i q u e s a r en e e d e dt og u a r a n t e et h er e l i a b i l i t yo fc o m p u t e rs y s t e m sr u n n i n gi ns a t e l l i t e s t i l i st h e s i sp r e s e n t san e wd e s i g no fo n - b o a r dm u l t i m a c h i n ep a r a l l e ls y s t e ma n d r e a l i z e si t s p r o t o t y p e t h i so n - b o a r dm u l t i m a c h i n ep a r a l l e ls y s t e mu s e sd i s t r i b u t e d m u l t i - n o d ep a r a l l e la r c h i t e c t u r ea n dh a st w of e a t u r e so fg o o dr e c o n s t r u c t i o na b i l i t ya n d s o m eg e n e r a l i t y b a s e do nt h ep r o p o s e da r c h i t e c t u r e ,w ed e s i g ns e v e r a lf a u l t t o l e r a n t s c h e m e sb a s e do nh i e r a r c h i c a lf a u l t t o l e r a n ta n df a i l u r e - d e t e c t i o n r e c o v e r ym e c h a n i s m t h e s es c h e m e sa r ec a p a b l eo fh a n d l i n gf a i l u r e sc a u s e db ys o m eb a ds p a c ee n v i r o n m e n t a n di m p r o v et h es y s t e mr e l i a b i l i t ye f f i c i e n t l y t h em a i nc o n t r i b u t i o n so f t h i st h e s i sa r ea sf o l l o w s : d e s i g nad y n a m i cc l i e n t s e r v e rb a s e dm u l t i n o d ep a r a l l e lo n - b o a r dp a r a l l e l c o m p m e ra r c h i t e c t u r e i nt h i ss y s t e m ,n oc e n t r a l i z e dc o n t r o l l i n gc o m p o n e n ti si n c l u d e d a n da l lt h em a n a g e m e n tf u n c t i o n sc a nb ei m p l e m e n t e db yp o l i c i e sm a d eb yd i s t r i b u t e d n o d e st o g e t h e r ; p r o p o s et h ec o n c e p to fa l t e r n a t i v ep r i m a r yn o d e ( a p n ) ,w h i c ht a k e s r e s p o n s i b i l i t yo fm o n i t o r i n gt h es t a t eo ft h ep r i m a r yn o d e ( p n ) m o r e o v e r ,t h ea p n c a nt a k ep l a c eo fp nw h e np nf a i l s t h ea p ni m p r o v e st h es y s t e mr e l i a b i l i t ya n dt h e r e a l t i m ef a u l t - t o l e r a n tc a p a b i l i t y ;p r e s e n tt h ec o n c e p to fg l o b a ls t a t et a b l ea n dm e m o r y a c c e s sm e t h o do ft h i st a b l ei nm u l t i - m a c h i n ep a r a l l e la r c h i t e c t u r e ;d e s i g nt h ec o n c e p t a n dt h ed i f f e r e n tt y p e so ff a i l u r e m o n i t o r i n gc o m m u n i c a t i o nb e t w e e nd i f f e r e n tn o d e s ; a n a l y z ea n ds u m m a r i z et h ef a i l u r e si no n - b o a r dm u l t i m a c h i n ep a r a l l e ls y s t e m b yu s i n gf m e a b a s e do nt h ea n a l y s i s ,w ed e s i g nah i e r a r c h i c a lf a u l t - t o l e r a n ta n d f a i l u r e d e t e c t i o n - r e c o v e r ym e c h a n i s m b a s e do nt h i sm e c h a n i s m ,w es t u d ys e v e r a l f a u l t - t o l e r a n ts c h e m e s ; d e s i g n a n di m p l e m e n tt h ep r o t o t y p eo fo n b o a r dm u l t i - m a c h i n ep a r a l l e ls y s t e m i nv x w o r kd e v e l o p m e n tp l a t f o r m w es i m u l a t et h eu n d e r l y i n gh a r d w a r ea r c h i t e c t u r e a n dt h eb a s i cr u n n i n gm e c h a n i s m s f u r t h e r m o r e ,w ed e v e l o ps e v e r a lf a u l t - t o l e r a n t s c h e m e si nt h es i m u l a t i o ne n v i r o n m e n t ; m o d e la n da n a l y z et h eo n b o a r dm u l t i - m a c h i n ep a r a l l e ls y s t e m u s i n g s t o c h a s t i cp e t r in e t w o r k ( s p n ) k e yw o r d s : f a u l t - t o l e r a n tt e c h n i q u e s 。o n - b o a r dc o m p u t e r s ,f m e a h i e r a r c h i c a lf a i l u r ed e t e c t i o n ,v x w o r k s 第i i 页 国防科学技术大学研究生院硕士学位论文 表 目录 表2 1 全局状态信息表一l4 表3 1 系统f m e a 表l8 表4 1 原型系统节点模块功能描述表3 l 表4 2 节点m e s s a g e c h a n n e l 任务表3 2 表5 1s p n 系统的可达标识4 6 第1 l l 页 国防科学技术大学研究生院硕士学位论文 图目录 图2 1 创新一号星载计算机系统结构图8 图2 2p f t o b c s 系统容错结构9 图2 3 星载多机并行系统总体结构图1 1 图2 4 星载多机并行系统容错逻辑结构图1 3 图2 5 全局状态信息表存储逻辑结构15 图3 1 系统异常处理机制2 0 图3 2 系统异常处理流程2 0 图3 3 任务死循环容错故障检测恢复机制流程2 2 图3 4 后备主节点和一般节点失效容错策略流程图2 3 图3 5 主节点失效容错策略流程图2 4 图3 6 任务重新部署流程图2 6 图3 7 任务并行复算运行流程2 7 图4 1 四节点星载多机并行系统原型系统逻辑结构3 0 图4 2 全局状态信息表结构体3 3 图4 3 初始化流程工作伪代码3 4 图4 4 任务异常处理函数伪代码3 5 图4 5 任务失效控制子模块函数调用关系3 5 图4 6 节点失效控制子模块函数调用关系3 6 图4 7 任务并行复算机制模型3 8 图4 8 原始程序实例3 9 图4 9 复算接口函数内部伪码4 0 图5 1 经典p e t r i 网模型4 l 图5 2 星载多机并行系统容错系统s p n 模型4 5 图5 3s p n 模型的马尔科夫链4 7 第l v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他入已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:星羹! 土簋狃垒扭羞盈丕红窒垡垫盔盈窒复遮i 土 学位论文作者签名:型堑立塞 日期:加卜年乡月弓) 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文作者签名: 乏塾直 日期:加石年弓月岁 日 1 、 作者指导教师签名: 二z蟹 日期:矽f 。年弓月;,日 国防科学技术大学研究生院硕士学位论文 第一章绪论 随着我国航天事业的飞速发展,越来越多的科研设备将进入外太空进行运作, 这些通过搭载于小卫星上在外层空间工作的设备我们称之为星载设备,其中星载 计算机系统是卫星上对信息进行采集、处理、存储和传输的关键部件,是卫星各 设备协调工作的核心。因此,关于星载计算机的性能和可靠性技术便成了亟待深 入研究的课题。容错技术是提高可靠性的关键技术,同时,由于星载计算机系统 在本质上是实时嵌入式系统在星上的一个应用分支,因此对星载计算机系统的研 究方向主要是以嵌入式实时系统为基础,研究如何将容错技术有机地融入到嵌入 式系统中,提高系统的可靠性。 1 1 1 空间辐射环境 1 1 研究背景问题 空间辐射主要来自宇宙射线、范艾仑带、极光辐射和太阳耀斑等。在宇宙射 线中,9 0 为质子( 氢核) ,7 为a 粒子( 氦核) ,1 为电子,此外还有丫射线等。被 地球磁场所捕获的宇宙射线中的带电粒子,在地球周围形成以地磁赤道为中心的 内、外两个环形辐射带,称为内、外范艾伦辐射带。这些电子和质子来自宇宙射 线及太阳风,受到洛伦兹力的作用而围着地磁场磁力线作螺旋运动。由于在两极 附近磁场增强,即磁力线变密,这些带电粒子受到反射而往复在地球南北极之间 作螺旋运动。内带从离西半球地面约6 0 0 公里起,延伸至6 0 0 0 公里的高空,主要 由高能量的质子组成;外带距地心2 万公里,可延伸到6 万公里的高空,主要由 高能量的电子组成。在太阳活动周期中,空间环境的辐射通量可能改变一个数量 级,太阳耀斑则可能使粒子辐射通量增加几个数量级。在空间运行期间,星载计 算机设备将一直处于宇宙空间带电粒子构成的辐射环境中,该强辐射环境对星载 计算机中的电子器件危害十分突出。 空间辐射可能造成的星载计算机故障可分类归纳为下面几种类型: 总剂量效应( t i d ) : 总剂量效应是指在电子器件的特性发生重大变化前,器件所能承受的总吸收 能量级,超过这个能量级后器件就不能正常工作,t i d 会给器件带来永久性故障。 一旦一个器件因接受辐照而导致的能量积淀超过它的t i d 阈值,就会引起器 件的永久性故障,器件的t i d 效应在断电后会有一定的退火现象,但是如果再加 大剂量辐射,退火后的器件便很快就不能正常工作,因此星载计算机在轨期间应 尽量避免t i d 效应的产生。 _ - _ _ _ _ 1 - _ - _ - - _ _ - - - _ _ _ _ _ _ _ - _ - - - _ - - l _ i _ _ - _ _ _ _ _ - - _ 。_ _ - - - - _ _ - _ - 一_ - - - - _ - - _ - v - -a- - t - - - - - - - _ _ _ _ _ _ - i _ - - _ - _ _ - i - _ 一 第1 页 国防科学技术大学研究生院硕士学位论文 星载器件在轨工作期间可能接受的辐照总剂量受多种因素影响:卫星轨迹、 轨道高度、倾角,在轨时间,另外卫星在轨期间太阳活动的强弱也应该列入考虑 范围之内。 单粒子效应( s e e ) : 按产生的影响又分为单粒子锁定( s e l ) 和单粒子翻转( s e u ) s e l :高能带电粒子穿过c m o s 电路的p n p n 结构时,电离作用会使c m o s 电路中的可控硅结构被触发导通,由此在电源与地之间形成低电阻大电流通路的现 象。长时间的锁定电流会烧毁器件,造成器件永久失效。 s e u 是由高能粒子轰击双稳态单元。使原来记忆单元的o 或l 状态翻转,这 种错误不是永久性的,称为暂时故障。 单粒子翻转是星载计算机中最常见的错误,发生概率远大于t i d 和s e l , 最容易发生s e u 的地方是r a m ,其次是c p u ,再其次是其它的接口电路;而单 粒子锁定效应会使系统的供电出现异常,同时也可能烧毁器件造成永久性损伤, 因此我们也应该尽量避免s e l 的产生。航天实践表明:单粒子效应是航天器工作 异常和故障的重要诱因,国内外多颗卫星遭受单粒子效应的危害,其中包括很多军 事卫星,造成巨大的经济损失和政治影响。 1 1 2 应对措施 星载计算机的工作环境和在航天任务中的重要性,决定了星载计算机必须有 非常高的可靠性。当前国内外研究单粒子效应和总辐照效应的解决手段主要分为 以下两个方面: 一是采用可靠性高的抗辐照技术和策略制作的系统,这些系统采用抗辐照设 计的微处理器。抗辐照设计主要方法包括在重要器件外加金属防护罩,选择合适 的器件工艺,选用抗锁定的器件。这样的系统采用抗辐照的微处理器( 如l o e 比 e e d 的p o w e r p c 结构的r a d 7 5 0 ,欧空局s 队r c v 7 结构的t s c 6 9 5 系列处理器, s a p r c v s 结构的l e o n 系列处理器,这些处理器都采用了抗辐照设计,但速度相 对商用微处理器较慢) 、存储器、电路板等等,为了避免辐照带来的负面效应, 电路设计中会采用各种复杂的硬件检错纠错机制和硬件冗余策略,因此功耗也会 相应增a n ;芯片布线不能太密,走线不能太细,否则也会由于辐照产生单粒子效应 或者加快总辐照剂量效应带来的破坏,因此也限制了芯片速度和系统性能的提高 l l l ,此外,完全在硬件上屏蔽和避免辐射是很难实现且没有必要的,采用抗辐照设 计的处理器并不能完全消除空间辐照带来的故障隐患。 二是采用商用的c o t s ( c o m m e r i c i a lo f f - t h e s h e l f 商用现货) 微处理器芯 片,通过设计一套比较全面有效的软硬件加固策略来提高系统的可靠性,使之达 第2 页 国防科学技术大学研究生院硕士学位论文 到同抗辐照器件相类似的性能指标要求1 2 】。美国国家宇航局在上个世纪末就已经开 始着手论证和验证在空间探测中使用c o t s 微处理器的方案。1 9 9 9 年,s t a n f o r d 大学和n a s a 联合设立了先进研究和全球观测卫星项目( a r g o s ) ( 3 】,发射了一 颗专门用于验证的卫星,目的就是验证c o t s 微处理器是否适用于空间计算。卫 星运行于距地面8 3 4 公里太阳同步轨道上,搭载了两块验证板,一块是抗辐照验 证板,另一块是c o t s 验证板。经过三年的运行时间,实验收集了大量的数据。 通过分析发现:在抗辐照验证板中仍然会发生故障;尽管c o t s 验证板中的故障 频率比抗辐照验证板高2 个数量级,但是由于高性能的c o t s 验证板上运行多种 软件实现的容错技术,使最终故障的检出率高达9 9 7 ,故障恢复率高达9 8 8 , 也就是说容错软件保证了c o t s 微处理器和系统的可靠性。由此得到结论:在商 用微处理器上通过软件实现容错,在普通的空间辐照环境下,能够达到和抗辐照 微处理器相近的可靠性水平,而性能却可以高1 个数量级。 c o t s 系统的应用中,容许系统出现辐射效应,此时保证系统可靠性的关键在 于容错技术的应用,因此,研究基于c o t s 处理器的星载计算机容错技术,提高 系统的可靠性和健壮性,便成了极为必要的工作,这也是本文的出发点。 1 1 3 容错技术简介 容错技术是指保证系统出现故障情况下仍能继续正确运行的技术,其一个基 本特征就是以冗余为基础实现。容错技术的研究可以追溯到1 9 5 2 年计算机之父冯 诺依曼所作的五个关于容错理论的研究报告及其后在1 9 5 6 年发表的题为概率 逻辑及用不可靠的元件设计可靠的结构的论文,这些精辟论述成为了容错技术 研究的基础。容错技术是一个世界范围内的研究热点,有大量学者从事容错技术 的研究,在国际上,从1 9 7 1 年开始的国际容错计算会议( f t c s ) 是一年一度的容 错技术最顶级的会议,从1 9 7 5 年开始,商业化的容错机推向市场。到九十年代, 软件容错的问题被提了出来。进而发展到网络容错。1 9 9 5 年在f r c s 1 5 上,i e e e f e l l o w ,a a v i z i e n i s 教授等人提出了可信计算( d e p e n d a b l ec o m p u t i n g ) 的概念【5 】。 2 0 0 0 年f t c s 与国际资讯处理联合会( i f i p ) i o 4 工作组关键应用可信计算工作会议 合并,并改名为i e e e 可信系统与网路国际会议( i c d s n ) ,d s n 2 0 0 9 会议于6 月2 日在葡萄牙首都里斯本召开。 容错技术的基本思想是在系统体系结构上精心设计,利用外加资源的冗余技 术来达到屏蔽故障的影响,从而自动地恢复系统正常运行或达到安全停机的目的, 达到高可靠性的目标。容错的基本技术则是冗余。冗余( r e d u n d a n c y ) 是指附加 在普通系统运转所必需之外的信息、资源或时间。它可分为:硬件冗余、软件冗 余和信息冗余【6 l 。容错系统设计的目的就是在尽可能小的冗余下,使系统有最大的 第3 页 国防科学技术大学研究生院硕士学位论文 可靠性。 硬件容错就是利用冗余硬件容忍系统故障,是当前应用最为广泛的容错方式。 在硬件容错中,根据冗余硬件的使用方式可以进一步分为:主动硬件容错和被动硬 件容错。 主动硬件容错又可以称为静态硬件容错,指所有冗余对象同时执行相同任务 的冗余形式,通过表决器得到正确结果而实现容错。 被动硬件容错又可称为动态硬件容错,是通过故障检测、故障定位及系统恢 复达到容错目的,正常情况下冗余对象不参与任务的执行。根据正常情况下冗余 对象是否运转,可以分为热备份容错和冷备份容错。热备份容错指备用的冗余对 象和被容错的对象一起运转,一旦被容错对象出现故障,冗余对象立即顶替进行 工作。冷备份容错指正常情况下冗余对象一直处于停止状态,出现故障时才开始 运转工作。 软件容错就是利用软件的冗余实现系统硬件故障和软件自身错误的容忍。它 可以将一些关键软件复制多份,或用不同语言和途径独立编写,然后存于不同的 存储器中,利用多重软件实现同一功能以达到容错。 常用的软件容错方法包括恢复块法r b ( r e c o v e r y b l o e k ) 和n 版本程序结构 n v p 州一v e r s i o np r o g r a m ) 两种。恢复块法r b 是一种基于动态冗余的容错恢复技 术。r b 由一个基本块、若干个替换块和验收程序组成。工作是运行在基本块,由 验收程序对其输出结果进行验收。如果测试通过,则输出给后续程序块,否则调 用替换块直到正确或替换块用完为止。n 版本程序结构n v p 是一种静态容错技术, 由n 个实现相同功能的相异执行程序和一个管理程序组成,并在规定的交叉检查 点上进行计算结果表决,实现故障的检测和屏蔽。 信息容错就是在存储信息的数据中附加冗余数据以达到故障检测及容错的目 的。信息容错通过在数据字中附加容错的编码或通过把数据字映射至含有冗余的 编码中,主要有如下几种形式:奇偶校验码、n 中取m 码、重复码、校验和、循环 码、算术码、伯格码等。检查点技术也是信息容错的一个方面,在出现故障时, 利用记录的检查点记录的信息使系统恢复正常,该技术也用在日志、文件等多个 方面。 1 2 1 出发点 1 2 本文的主要工作 基于c o t s 处理器的星载计算机系统运行于外太空中,工作环境非常恶劣, 需要极高的可靠性支持。容错技术是提高可靠性、保证系统能够全天候工作的关 第4 页 国防科学技术大学研究生院硕士学位论文 键技术。使用了容错技术的星载计算机系统在发生硬件故障或软件错误的情况下 仍然能够正确执行指定的任务。目前,对星载计算机容错技术的研究主要集中在 三个方面:一是研究新型的容错体系结构:二是研究容错策略与应用;三是研究 测试与诊断技术【4 j 。 星载计算机经过几十年的发展,始终在低功耗、高性能、高可靠这三个相关 的指标之间进行权衡,它们之间有着相互制约的内在联系。为提高星载计算机的 性能,可以通过并行计算技术来实现;要提高系统的可靠性,则必须使用容错技 术。 从已掌握的资料看,国内外对星载计算机容错体系结构的研究多集中在双机 系统上,一般是通过热备份来进行容错,很少考虑系统并行性能。而对多机并行 容错系统的研究相对较少,通过对一些研究样例的分析来看,对于多机并行系统 的体系结构研究还比较单一,基本上是一种利用独立硬件模块进行集中式管控的 硬件结构,这种体系结构在系统并行性和规避故障风险的要求上还存在着很大的 不足,此外,多数并行系统研究的容错策略只是单机系统容错的扩展,没有形成 一个从底层的硬件结构到上层的操作系统和应用软件的综合性容错技术概念。 基于以上分析,本文设计了一种新型的星载多机并行系统,并对其原型系统 进行了实现。该星载多机并行系统采用分布式的多节点并行体系结构,具有良好 的重构能力和一定的通用性。配合该结构,设计了基于层次式容错故障检测恢复 机制的多种容错策略,可以对单粒子效应等由空间恶劣环境引起的故障进行容错 处理,有效地提高了系统的可靠性。 1 2 2 研究内容 本文的研究的内容主要包括: 星载多机并行系统体系结构研究,主要研究该系统的容错体系结构设计和 系统对容错技术进行支持的基本运行机制。 星载多机并行系统故障检测机制研究,主要研究该系统的故障发生的可能 情形以及针对这些故障所设计的检测机制 星载多机并行系统故障恢复机制研究,主要研究基于故障检测机制的故障 恢复策略以及其它有用的容错支持技术 星载多机并行系统的原型系统设计实现,主要对该系统的原型系统进行设 计实现。 星载多机并行系统的容错性能分析,对该系统进行理论建模,对其容错性 能进行数学分析和量化性的评估。 第5 页 国防科学技术大学研究生院硕士学位论文 1 3 主要研究成果 在本文的研究中主要取得以下成果: 设计了一种动态主从式的多节点并行星载计算机体系结构。该系统的特点 是不含专门的集中式管控部件,所有系统的管理控制功能可由分布式的各节点共 同制定策略实现。 在该体系结构中,提出了后备主节点的概念,用来负责监控主节点的状态, 同时在主节点失效时接替主节点的工作,增强了系统的可靠性和容错恢复的实时 性:提出了全局状态信息表的概念以及其在多机并行体系下的存储访问方式;设 计了多机并行体系下的节点间故障监控通信的概念和类型。 通过故障模式影响分析( f m e a ) 对星载多机并行系统的故障发生情况和类 型进行了系统的分析归纳,在此基础上针对性地设计了一套层次式的容错故障检 测恢复机制,并围绕该机制进行了各种容错恢复策略的研究性工作。 在v x w o r k s 开发平台对星载多机并行系统进行了原型系统的设计与实现。 通过平台模拟器模拟了其底层的硬件体系结构和基本运行机制,在此基础上开发 实现了各种容错恢复策略程序。 利用随机p e t r i 网( s p n ) 分析工具对星载多机并行系统进行了建模及性能 分析。 1 4 本文的组织结构 第一章介绍论文的研究背景,提出研究问题的出发点和解决思路,介绍了本 文的主要工作内容以及主要的研究成果和全文结构。 第二章首先介绍了星载计算机c o t s 体系结构的发展趋势和现状,在此基础 之上,给出了星载多机并行系统的体系结构描述,然后介绍了各部件的功能说明, 以及系统支持容错技术的基本运行机制。 第三章介绍了星载多机并行系统的容错策略设计。首先是对系统可能产生的 故障类型进行分析归纳,然后针对这些故障并结合系统结构的特点,建立起层次 式容错故障检测机制体系,在此基础上提出了各种系统失效类型的故障解决方案。 第四章综合前两章的内容,设计实现了星载多机并行系统的原型系统,详细 介绍了该原型系统各种机制和容错策略的实现细节。 第五章是p e t r i 网的概念介绍和利用随机p e t r i 网对系统进行建模及容错性能分 析的情况。 最后是结束语和致谢。 第6 页 国防科学技术大学研究生院硕士学位论文 第二章星载多机并行系统体系结构研究 星载计算机的容错技术研究工作建立在星载计算机体系结构的研究基础上,星 载计算机的硬件体系结构是系统的骨架,决定着依附于硬件结构的整个系统的容 错技术和策略的设计实现。目前为止,在星载计算机的设计方法上主要有专用抗 辐照器件和c o t s ( c o m m e r i c i a lo f f - t h e s h e l l 商用现货) 系统两种思路,基于 各种因素,我们将后者作为系统设计的选择和出发点。 同时,随着星上任务对星载计算机功能和性能越来越高的要求,传统的星载计 算机采用的单机或双机冗余备份系统已经逐渐不能满足这些日益复杂和大规模的 任务需求,星载计算机的发展趋势必然朝着多处理机并行工作的方向前进,因此 相应的容错支撑技术也将成为研究的重心和热点。 基于以上考虑,我们在本章介绍了星载多机并行系统的体系结构设计。给出了 系统的设计思路和结构组织,以及各个部件的功能说明和基本运作机制。 2 1 1 发展趋势 2 1 星载计算机系统结构设计背景 星载计算机系统的体系结构演变经历了从单片机到基于微处理器的简单计算 机再到高性能计算机的发展过程。2 0 世纪8 0 年代以前,星载数据管理控制功能由 简单的微程序控制器实现。8 0 年代到9 0 年代中期,随着带有复杂指令系统的便于 编程的处理器的出现,在航天器上广泛应用。同时,随着总线技术的发展,星载 计算机系统普遍采用了分布式体系结构。9 0 年代中期以后,随着对航天器空间飞 行任务要求的不断提高,对星载计算机处理能力的要求也在不断增强。星载计算 机系统的体系结构也由以控制流为核心向以数据流为核心进行转变,高速、大容 量并行处理单元成为星载计算机的重要组成部分。 总的来看,星载计算机系统的设计发展趋势是:【6 】: 使用先进的商用技术及产品。经过实验证明,使用商用现货器件c o t s 组 建的系统经过合理科学的设计,可以达到与专用抗辐射器件搭建的系统相同数量 级的可靠性。使用商用技术和产品,性能较高,保障了系统的兼容性:有良好的 开发环境,缩短了研制周期,降低了设计和生产成本。 体系结构的新发展。针对不同应用的具体需求,星载计算机的体系结构也 在不断发展,从早期的单机系统到双机冷热备冗余结构再到由多机系统衍生的各 种冗余总线的多层冗余结构、分布式空间计算机结构、多处理机的互联结构等。 国防科学技术大学研究生院硕士学位论文 2 1 2c o t s 体系结构现状 由于专用抗辐照器件普遍存在着性能和功耗之间难以解决的矛盾因素,同时 考虑到其价格成本和现实中发达国家对我国技术封锁的实际问题,本文主要研究 的对象是基于c o t s 的星载计算机系统。当前国内对小卫星上的星载计算机研究和 体系结构设计主要聚焦在双机系统上,一般通过双机热备份的方法来实现容错, 如”创新一号”小卫星星载计算机、”东方红三号”星载计算机、”神州五号”智能化 监控系统等【l 】。此外,随着高新技术的飞速发展,对星载计算机性能,特别是空间 数据处理能力的要求也不断提高,并行计算技术已渐渐成为星载计算机技术研究 的一个重要分支,因此对星载计算机的多机并行系统的体系研究工作也日益占据 重要地位。下面是双机结构和多机结构研究工作的两个实例成果的主要功能特点 介绍: 双机冗余热备结构 创新一号小卫星是中国科学院知识创新工程重大项目。创新一号存储转发通 信小卫星系统于1 9 9 9 年4 月正式启动,2 0 0 3 年进场于1 0 月2 1 日成功发射入轨。 创新一号的星载计算机在硬件上主要采用了双机冗余热备份的工作方式,由切换 逻辑进行双机切换控制,采用集中管理模式,同时完成数据管理和姿轨控计算机 的功能【l o l 。图2 1 是创新一号星载计算机系统结构图: 瓤 b 饥 图2 1 创新一号星载计算机系统结构图 第8 页 国防科学技术大学研究生院硕士学位论文 这种双机系统的缺点是系统只能同时处于一种工作状态下:要么处于辅助工作 状态,即其中一个节点作为另一个节点的辅助节点,主节点进行主要任务的运行, 辅节点则做有关的辅助工作,例如热备等等;要么处于协同工作状态,即双机同 时执行相同的指令,处理相同的数据,结果进行对比,这种状态下系统不存在后 备硬件。双机系统另一个缺点是一旦一个节点发生故障后,系统将降级为非冗余 的结构,这是一个潜在的危险隐患。 多机容错并行结构 国防科技大学在星载项目上承担了相当的任务和科研项目,自行研制开发了 一系列星载并行容错计算机系统,2 0 0 6 年国防科技大学计算机学院设计并实现了 p f t o b c s ( p a r a l l e lf a u l t t o l e r a n c eo n b o a r dc o m p u t e rs y s t e m ) 原理样机i 引,提出 了一套构造容错星载计算机体系结构的方案,同时设计并实现了一些有特色的容 错技术。 p f t - o b c s 体系结构的主要特点有:多机并行。计算节点是完全对称的,除 可以进行并行计算外,还为容错提供了冗余资源;双总线冗余。为了保证对外 设及高速通讯模块的可靠控制与访问,c p c i 总线采用了双总线冗余设计:高速 通讯与容错控制。计算节点通过互斥地读写四个共享存储区实现节点间数据交换 与分发。容错部件中实现了多种检错机制与策略,为系统运行提供可靠性保证; 外设内部备份。为了保证控制可靠,所有的外设内部都使用两套完全相同的电 子设备互为备份,分别连接在两条c p c i 总线上。p f t o b c s 在容错体系结构上进 行了特别设计,采用并行处理技术且具有重构能力,配合该结构设计了多种容错 策略。图2 2 是p f t o b c s 的硬件结构图: 图2 2p f t - o b c s 系统容错结构 p f t o b c s 的四节点对称双总线并行思想使其具有了重构和降级的硬件基础, 第9 页 国防科学技术大学研究生院硕士学位论文 提高了系统的可靠性。但p f t o b c s 结构的不足之处是容错模块单点失效的可能 性仍然存在,其三选二开关依然是整个系统可靠性的致命威胁。同时,共享内存 s h m 一旦失效,则整个系统将由四机并行的系统变为单机系统 4 1 。 2 2 星载多机并行系统结构设计 上一小节说明了星载计算机系统结构的发展趋势和存在的问题,可以看出, 当前星载计算机的研究重点是并行性和可靠性的有机结合,好的容错结构是在保 证系统可靠性的前提下,尽可能使得系统的性能不受到影响。由前文已知,采用 多个微处理器节点构成的并行系统结构已成为趋势,同时类似图2 2 中的集中式容 错部件管控结构存在着关键部件失效的可靠性隐患。因此,一个理想的最佳结构 是将该容错部件集中管控功能分置散开,形成具有分布式性质的多机并行系统结 构。这样的系统结构中,系统的管理控制功能可由相关策略动态配置实现,避免 了控制失效问题。 2 2 1 总体结构 并行处理系统是具有两个或多个处理单元( 或节点) 的集合,它们形成相互 通讯以协同求解一个大的给定问题的计算处理系统【7 】。当并行处理系统中所有的处 理节点都能同样访问所有的系统资源( 设备) ,系统被称为对称并行处理系统, 此时所有处理节点都能同等执行所有功能的程序并参与系统整体负载的动态分配 和调整。否则称为不对称( 主从式) 并行处理系统1 9 j 。在不对称并行处理系统中, 只有一个( 或一组) 处理节点能够执行系统级程序并操纵管理系统资源,称之为 主节点,而其余的处理节点是从节点。 本文研究的星载多机并行系统结合了主从式系统结构和对称式系统结构的特 征,每个节点在物理上是对称的,但在逻辑上具有主从节点的概念,主节点由系 统动态指定,负责整个系统的状态监测。星载多机并行系统在概念上是具有两个 以上的处理节点的集合,形成相互通讯以协同实时处理星上任务的并行系统。对 该系统可靠性的要求是系统中多个处理节点并行工作不应该出现单点故障会造成 整体系统的崩溃。 星载多机并行系统的总体结构如图2 3 所示: 第l o 页 国防科学技术大学研究生院硕士学位论文 节点l 附属外设节点2 附属外设节点3 附属外设 节点n 附属外设 图2 3 星载多机并行系统总体结构图 2 2 2 部件功能说明 节点部件 节点是系统中的一个独立的计算资源部件,由节点c p u 、节点存储器、通信 控制模块、节点监控模块等部件组成。整个系统的节点具有对称的结构,在节点 上运行的操作系统和应用软件全部相同。每个节点的物理实体完全相同,只通过 固定的物理编号进行区分。 通信控制模块负责各c p u 节点之间的消息传递,它与c p u 模块组成系统核部 分。具体地讲,通信控制模块分为故障监控模块和一般通信模块两部分,分别发 送相关数据信息至通信交换网络,以及从通信交换网络中接收相应数据信息。 节点监控模块是节点内部的一块独立的硬件部件,负责对所在节点进行硬件 级的监控工作,节点监控模块的功能将在第三章详细叙述。 逻辑上节点按性质可分为主节点、后备主节点和一般节点三类,其中: 主节点。所有节点选举产生,负责对系统进行全局性的管理控制,包括监 控各节点信息,收集各节点发送到主节点的状态信息,以及维护系统的全 局状态信息表。 后备主节点。与主节点同时产生,负责监控主节点的状态,同时在主节点 第11 页 国防科学技术大学研究生院硕士学位论文 失效时接替主节点的工作。 般节点。同主节点和后备主节点共同完成应用任务,并作为主节点和后 备主节点的后备冗余。所有节点均有机会成为主节点和后备主节点。 通信交换网络 通信交换网络的功能是向各节点提供节点间相互通信的连接通道。通信交换 网络在逻辑上应该是星型结构,每两个节点之间的通信使用一条链路,避免冲突 问题。通信交换网络同时确保节点通信的冗余性,即两个节点之间不只存在一条 固定链路连接,在通信受阻的情况下有另一条通路连接的可行性。通信交换网络 的核心交换部件应具有高可靠性。 星载多机并行系统的通信交换网络中的交互信息主要可分为三类:控制信号 信息、节点监控信息和一般通信信息。 控制信号信息可向目标节点发送令其响应某种行为的信息数据,包括重 新启动、询问状态和任务重新部署三类控制信号;重新启 动信号和询问状态信号只能由主节点和后备主节点发出, 任务重新部署控制信号只能由主节点发出,目标为由任务 部署策略选定的某节点。 节点监控信息内容包括节点的负载信息和“喂狗信息。 一般通信信息节点之间交互的其他通信信息。 通信交换网络应该优先保障控制信号信息和节点监控信息优先传输,维持这 些系统运行关键信息的实时性要求。 i ,o 外设 每个节点下面均连接着数量不等的i o 设备,具体数量可由实际应用决定。每 个外设至少应该拥有一个冗余备份,并连接在不同的节点之上,同时标记有主备 之分。平时情况下仅运行主件,在主件发生故障时可启用备件工作。 2 2 3 系统容错结构 系统在选举出主节点和后备主节点后,在时间截面上呈现为一个主从式的系统 容错结构,该容错结构为故障检测和容错支持技术的有效实施提供机制支持。该 结构的容错互联体系建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论