




已阅读5页,还剩78页未读, 继续免费阅读
(计算机科学与技术专业论文)星载并行计算机硬件系统可靠性设计与分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
里堕型堂堡查叁兰塑至尘堕兰垡笙塞 a b s t r a c t t h i sp a p e rs t u d i e sa n da n a l y z e st l eh a r d w a r es y s t e mr e l i a b i l i t yd e s i g no fs a t e l l i t e c a r r i e d p a r a l l e lc o m p u t e r w bs 啪m a r i z em ec h a m c t e r i s t i c so fl l i 曲r e l i a b l es a t e l l i t e - c a r r i e dp a 豫l l e l c o m p u t e ra r c h i t e c t i l r ed e s i 朗t h ed e v i c er e l i a b i l i t yt e c | l l l i q u e sa r ei n v e s t i g a t e d 丘d m 也ep o i n t s o fs p a c ee n v i m n f n e n t sa n d 豫d i a t i o nt o l e r a i l c eo fs a t e l l i t c - c 撕e dc o m p u t e r a sm em a i n c t i o n a lp a n so ft 1 1 es a t e l l i t e c 秭e dc o m p u t e r ,m e r c l i a b i l i t ) rd e s i g no ft h es p a c el e v e l m i c m p r o c e s s o r ,m e m o r y 锄df p g a a r et h o r o u g t l l ya n a l y z e d ,c o m b i n e d 、v i t l lad i s c u s s i o no nt h e m a i nf a i l u r em e c h a l l i s m so fs a t e l l i t e - c 枷e dm i c r o e l e c t r o n i cd e v i c e si ns p a c ea p p l i c a t i o n t h e o n c h i pf a u l t t o l e r a i l c eo fs p a c em i c r o p r o c e s s o ri si n v e s t i g a t e d t h ea p p l i c a t i o no fr e d u n d a n c y , f 砌t - t o l e r a n c et e c l l l l i q u e ss u c h 鹤f h 山td e t e c t j o ni ns a t e l l i t e c 枷e dc o m p u t e ra r ea l s oc o v e r e di n “sp 印e lf a u l t - t o l e m n c ei st l l em a i nt e c t l i l i q u eo fe n h 卸c i n gt h er e i i a b i l i t yo fs a t e l l i t e c 硎e d c o m p u t e ln i sp 印e rs t i l d i e dm ef a u l t - t o i e r a n td e s i 斟a n dr e a l i z a t i o no fs a t e l l i t e c 痂e d c o m p u t e lw bg e n e r a l i z ct h ec o m b i i l a t o r i a lr e l i a b i l i t ym o d e lf o rd i f f e r e n ta r c h i t c c t u r c s 趾d c o m p a r em er e l i a b i l 时o ft 1 1 e m ,b a s e do nt l l ei n t r o d u c t i o no fr e l i a b i l 时t e m sa n da 1 1 a l y s i so f c o m p u t e rs y s t e mp e r f o 肌a n c ea n dd e p e n d a b i l i t ym o d e l s w em “b e rs e t u pt i l em a r k o v d e p e n d a b i l i t ym o d e lo fh a r d w a r es y s t e mo fs a t e l l i t e c a r r i e dp a m l l e lc o m p u t e ra n da n a l y z et i l e a v a i l a _ b i l i t yo f t t l i ss y s t e m f i l l a l l y 血ep e r f o m a i l c eo f s a t e l l i t e - c 州e dc o m p u t e ri ss t u d i e d k e y w o r d s : s a t e l l i t e - c a r r i e d c o m p u t e r r a d i a t i o nt o l e r 孤c e ,d a t ae h d rd e t e c t i o na n d c o r r e c t i o n ,f a u l t t o l e m n c e ,r e l i a b i l i t yb l o c kd i a 鲜哪s ,m a r k o vr e l i a b i l i t ym o d e l s i i 璺堕型兰垫查查兰坚茎竺堕堂垡笙茎 图目录 图1 可靠性分析金字塔 图2 计算机系统可信性特征图 图3 几种系统的可扩展性和可用性比较 图4 星载并行计算机系统结构 图5p e m s 系统组成 图6r a m 的s e u 出错机理 图7t m r 寄存器 图8 规避系统的结构 图9 电子元器件的失效率与时间的关系 图l o 在超强度使用后热载流子效应使n m o s 管的i v 特性变差 图1 1c m 0 s 闩锁效应 图1 2 四种噪声容忍电路设计 图1 3c m o s 器件工艺和应用环境的关系 图1 4t s c 6 9 5 f 结构框图 图1 5 星载处理器s e u 增强型单元的l e t 截面实验曲线 图1 62 7 v 截面实验 图1 7f p g a 重离子s e u 截面实验拟和曲线 图1 8 星载处理器片上容错与测试分布结构 图1 9r a m 写访问保护 图2 0e d a c 系统结构图 图2 l 错误处理系统结构图 图2 2 程序流控制 图2 3 具有动态重构端口的功能单元配置结构一 图2 4 容错模块内部各功能部件结构图 图2 5 容错模块与主机的通信 图2 6p e m s 降级模式下运行流程图 图2 7 基于模型的方法分类一 图2 8 可靠性框图模型分类 图2 9 串联系统的结构模型 图3 0 并联系统结构模型一 图3 1 三取二系统的可靠性结构模型 一7 8 1 0 1 3 1 5 1 7 1 8 一1 9 2 1 2 3 2 4 2 4 2 5 2 6 一2 7 3 0 3 2 3 3 3 4 一3 5 4 1 一4 2 一4 3 一4 8 一5 2 一5 3 5 4 5 4 5 5 国蔼善! 孳暗兰爿鹰2 垮襄! 影一兰: i l ? ! ;? 目蠹l i 碧j 暑¥菖菖1 ;i i 塑季器眨瓣挚靶战鳃越刺鞘鞭指:屠塞羹蓬聪瓣塑,i :l l ? i 主l i 蠢妻i 芎;誊:主茎触冀鼍霪霉一藩嚷詈d 霹毒 l l 差耋 ;垂垂。妻 茎盍警_ 薹i j 纂羹 翼蓁:饕i i 珏珏矍鐾奏;! 塞冀i 量萋羹囊; 渖什釜喜耋攀亨, ;藿:? 耋差薹爹j j 蚕i 囊手i 耋妻妻囊i 士。毽匡g l 殛! ! 琴蠹主l i 雕蘑;i 囊摹l 望i i 一譬星百号基鑫了f 靠墓i 荸二戛芎皇妻妻量! 鼍耋i 唐! 黍誉塞 善p r r ? i 零量i 董曩i 薯;莺薹:囊霪嚣 雪登i 氧j 鎏堇l l 善善! 玉季;要垂洲 i o 醋i 蠢强目s 蠹棼一殳蠹一囊;r 薹篓j ? 妻麓= i 蒌墓篓薹t 雪蚕;l : 漕i ; l 甫l ! 豸i i i 霉i i i 雾? l 挈吾l 鏊耋i _ 喜叁l i i ;霉轰i 荔? 蓁差事善囊菱;主。荔辇塞嚣非凹冀e 目畦 ,l * u 鬣毳i ;譬一薯| ;亭;融i 薹董翻三三兰i 孽蓍i 坪鹾誉 x 里堕型堂垫查奎兰堕墅生堕兰堡笙兰 第一章绪论 1 1 课题研究背景 星载计算机系统是卫星上对信息进行采集、处理、分配和存储的关键部件,是一个工 作于苛刻的空间条件下,对密集性很高的复杂卫星综合电子系统进行信息综合的数据处理 平台。因此系统对于硬件可靠性和软件可信性要求非常高。此外,由于星上数据处理面临 的任务越来越复杂,对星载计算机系统的性能提出了更高的要求,致使其设计复杂性不断 增加,从而星载计算机系统的可靠性问题变得更加重要。因此研究星载计算机系统的高可 靠性设计具有重要的理论和实际意义。 从高可信计算的角度而言,计算机系统提供可信赖服务的能力称为可信性,可信性主 要包括三个方面的内容:可用性,可控性和安全性。可用性可分为可靠性、高服务质量保 证性等多种属性,而可靠性又可细分为可维护性、健壮性等。采用嵌入式技术设计的星载 并行计算机系统强调实时应用的高可靠性。 近年来,随着嵌入式系统的迅速发展,高可信计算技术在嵌入式计算机系统中的应用 愈加广泛,在航空电子学、工业控制、网络计算和银行业等实时处理领域更是如此。面对 当前的实时处理应用,目前的嵌入式体系结构面临着前所未有的高吞吐量和高可靠性的挑 战。本文所讨论的星载并行计算机,就是出于以上原因而由我们自行设计研发的高性能高 可靠嵌入式星载计算机系统。 1 2 课题研究内容 计算机系统可靠性设计的目标是在技术与成本的约束下尽可能地加强系统的可靠性, 一方面不能低于系统的可靠性要求标准,另一方面,不切实际的提高可靠性则会受到现有 技术与造价的限制。在星载并行计算机系统的设计中,我们对要求达到的性能、可靠性和 成本进行了详细的分析和权衡,提出了切实可行的高可靠性实现方案,即双c p u 并行双机 冷备份技术。整个系统由计算机甲和计算机乙组成,两台计算机具有相同的双c p u 并行体 系结构,乙机作为甲机的冷备份,容错模块负责监视系统的工作状态并进行切换与降级。 在双c p u 并行结构中采用基于共享主存的方式实现不同结点上任务之间的隐式通信,应用 不必感知任务的位置来进行较为复杂的远程通信,降低了并行应用的开发难度。基于共享 p c i 总线的i 0 模块,包括1 5 5 3 b 和1 3 9 4 总线接口,为多处理器提供支持。 在以上星载并行计算机系统的实现中,我们在分别在器件选型可靠性、印制电路板可 靠性、逻辑电路可靠性、部件可靠性、系统可靠性以及软件可靠性等多个层次上进行了全 第l 页 里堕型兰茎查;荃兰竺塑竺竖兰垡笪苎 面的系统可靠性研究与设计。 1 3 高可靠计算机系统发展概况 可靠性问题的研究起源于2 0 世纪3 0 年代时人们用概率论来分析机器维修问题。德国 最初用概率论分析了其v l 与v 2 型导弹的可靠性。2 0 世纪4 0 年代,美国开始用概率论对 军用电子设备的可靠性进行研究。从此,可靠性问题的研究进入高速发展时期。我国从2 0 世纪6 0 年代也开始进行可靠性理论的研究。目前,可靠性研究已经进入到所有的工程领 域。从研究的粒度而言可以将可靠性分为单元可靠性和系统可靠性两大类。单元可靠性也 称作部件可靠性。单元可靠性的研究于2 0 世纪3 0 年代末开始,经过7 0 多年的研究发展, 己经形成以概率论为基础的完善的可靠性理论体系和成熟的工程技术。目前,以其它非确 定理论为基础的可靠性理论也在不断的发展和完善之中,如论据理论,模糊理论等。单元 可靠性是系统可靠性的基础。2 0 世纪5 0 年代,人们总结了单元可靠性与系统可靠性的关 系,如图1 所示。星载并行计算机可靠性分析的重点在于其中的整机或者分系统可靠性。 图1 可靠性分析金字塔 当前系统可靠性理论及模型方面的研究主要集中在以下几个方面:在改进可靠性技术 方面,主要包括多重逆推技术,分解简化技术与随机图简化技术等;在改进可靠性分析方 面,主要包括n 中取k 系统,连续n 中取k 系统分析法和故障树分析法等;在改进工具方 面,主要集中在有向图与因果树,p e m 网,v e r t 网的应用等;在改进模型方面,主要包 括随机模型、马尔可夫链用于计算机机要系统的可靠性分析,模糊问题的定量描述等。 按照国家标准的定义,可靠性是指产品在规定的条件下和规定的时间内,完成规定功 能的能力。j c l a p r i e 把计算机系统可信性定义为计算机系统提供可信赖服务的属性。这 些属性包括:可靠性、可用性、可维性、可测性、安全性、保险性。其中可靠性主要研究 和评估系统在指定的环境下确保其功能的能力,侧重考虑系统能够维持服务的时间。可维 性和可测性主要考虑系统避免故障和在故障发生时检测、定位并纠正故障的能力。安全性 主要考虑系统失效时的后果。可用性侧重通过加入保护机制,测量系统正确运行的能力。 保险性包括机密性和完整性。l a 耐e 在2 0 0 1 年提出的计算机系统可信性特征如图2 所示。 第2 页 国防科学技术大学研究生院学位论文 广- 故障 厂缺陷一r 篓囊 l 外部后果 r 一可靠性 l 一可用性 可信性+ 属性e 姜篆 l 一保险性 l 完整性 r 一故障避免 l 手段士鐾嚣囊 l 故障预测 图2 计算机系统可信性特征图 对高可靠计算机系统的实现而言,包括硬件可靠性研究和软件可靠性研究。在硬件可 靠性方面,通常通过硬件的冗余提高系统可靠性,主要是通过增加系统故障诊断部件和冗 余部件来实现的,实现的方案包括三模冗余( t m r ) 等。该领域的研究从上个世纪5 0 - 6 0 年 代就已经开始了,目前从技术和实现上都较为成熟,代表产品是美国s t r a t u s 公司的 c o n t i n u u m 系列容错计算机系统和美国t a n d e m 公司的i n t e g r i t y 及h i m a l a y a 容错系统,这 些系统专用于银行等高可靠系统应用。t 觚d e m 在系统结构上采用了多种容错技术,包括系 统元件的对偶通路、电源冗余、磁盘镜像和基于消息的操作系统等,系统依靠硬件和软件 对故障进行检测和恢复。s t r a t i l s 侧重于系统的连续不问断运行、不丢失数据、不降低性能、 不需要特殊编程等特性。其高可靠系列计算机采用多处理器及双重部件级冗余为中心的硬 件设计,实现了双机热备份、动态热插拔等容错技术。 软件可靠性研究主要包含设计技术和评测技术两方面的内容。其中,软件可靠性设计 又可以分为高可靠性设计、鲁棒性设计和可测试设计等研究领域,即利用软件手段使得软 件少发生故障、以及在软件发生故障时能够自我检测和修复。软件可靠性设计的基本技术 包括避错设计、查错设计、改错设计和容错设计。软件高可信评测技术是软件高可信研究 的重点问题,目前对此领域的研究还没有达到实用化的程度。 国内高可靠计算机系统的研究起步比较晚,8 0 年代中期开始研究计算机系统的容错技 术。目前国内对于高可靠计算机系统的研究内容主要集中在高可靠系统设计、系统故障诊 断、高可信软件系统结构研究、系统可信性评测等方向。 1 4 星载嵌入式计算机系统发展概况 五十年代末,美国开始进行空间计算的研究,先后实施了s a t 啪i 、g e m i m 、s a t 眦i b 、 s a 衄mv 、s k y l a b 以及后来的s p a c es h 眦l e 计划,在这些计划中均不同程度的考虑了高可 第3 页 国防科学技术大学研究生院学位论文 信空间计算的要求【2 】。目前,由多家国际i t 业界大企业组成的可信计算集团( t c g ,1 h s t c o m p 埘n gg r o u p ) 为高可信计算制定开放的标准【3 】。目前,星上信息处理与数据管理技术快 速发展,对星载计算机的处理能力提出了更高的要求。并行处理技术是提高星载计算机处 理能力的主要技术途径,也是国际上星载计算机技术发展的主流方向。目前,美国和俄罗 斯已经在星上应用了并行处理计算机。 由于星载计算机处于比较恶劣的外部环境,可能会受到宇宙射线粒子和放射性原子衰 变的干扰,出于器件高可靠性的考虑,在当今国际航空领域,普遍采用高性能抗辐照的微 处理器芯片。例如,l o c k h e e d 的具有较高性能的p o w e r p c 结构的微处理器r a d 7 5 0 、欧空 局广泛使用的基于s p a r cv 7 结构的t s c 6 9 5 系列处理器、基于s p a r cv 8 结构的l e o n 2 的多处理器系统、g e n e r a ld y i l a m i c sa “a n c e di n f o n a t i o ns y s t e m 公司的i n t e 2 r a t e d s p a c e c r a f ic o m p u t e r ( i s c ) 系列采用的p o w e r p c6 0 3 e 处理器等。以往在确保集成电路可靠性 方面依靠的主要技术手段是失效检测,上世纪末出现了能够在模拟电路功能的同时对电路 可靠性进行模拟的技术,例如集成电路模拟器b e i 盯。这类集成电路可靠性模拟技术可以 对由于热电子效应、m o s 氧化层击穿、电迁移、静电释放、c m o s 栓锁效应以及辐照效 应等引起的器件可靠性问题进行模拟。 在星载计算机软件可靠性方面,美国航空航天局( n a s a ) 和联邦航空局( f a a ) 对航空航 天软件的可靠性给予了极大的关注,美国和欧洲发布了著名的s o f t 、v a r cc o n s i d e r a t i o n si n a i r b o m es y s t e m sa i l de q u i p m e mc e r t i f i c a t i o n 成为航空航天系统中软件的事实标准。2 0 0 3 年 著名的n a s a 喷气推进实验室成立了可靠软件实验室,并成为其空间任务信息和软件系统 中心的一部分。 1 5 课题成果与文章组织结构 本课题主要研究星载并行计算机系统研制过程中采用的可靠性技术,重点对系统的核 心模块进行了可靠性研究与设计。建立了星载并行计算机系统的可靠性模型,并对整个系 统的可用性进行了分析与计算。 本文是对课题研究的总结与升华,全文共分为六章。 第一章,概要介绍本课题的基本情况。 第二章,分析星载计算机体系结构设计需要考虑的诸多因素,探讨星载并行计算机体 系结构设计。 第三章,从器件、微体系结构、体系结构等多个角度讨论星载计算机的可靠性技术。 第四章,介绍星载并行计算机可靠性关键技术的设计实现。 第五章,研究星载并行计算机可靠性模型并对该系统的可用性和性能作了分析。 第六章,总结并对星载计算机系统的可靠性设计作进一步展望。 第4 页 里堕型兰茎查奎堂堑茎兰堕堂垡笙塞 第二章星载并行计算机体系结构设计 星载计算机工作于外太空,空间环境与地面环境有很大的不同,其工作环境决定了星 载计算机在体系结构设计上具有与地面计算机系统不同的诸多特点。 首先是可靠性。计算机系统可靠性按生命周期分为固有可靠性和使用可靠性。固有可 靠性在计算机系统设计与制造过程中确定,根据星载计算机系统的苛刻工作环境,在设计 时需要为其设定远远高于地面应用的可靠性指标。使用可靠性既受设计制造的影响,又受 使用条件的影响,星载计算机的使用环境恶劣,其使用可靠性远低于固有可靠性。因此在 设计初期就要从体系结构上提高星载计算机的固有可靠性,在设计过程中需要从系统、部 件、逻辑设计、电路板、器件等多个角度考虑提高其固有可靠性。 其次是抗辐照性。空间辐射环境中的高能质子、中子、a 粒子、重离子等都能导致星 载计算机系统中的半导体器件发生单粒子效应和总辐照剂量效应,严重影响其可靠性和寿 命。因而星载计算机设计必须考虑其抗辐照特性。 再次是低功耗性。由于真空中散热困难,星载计算机技术的发展使得系统实现日趋复 杂,系统功耗也日趋增大,而散热问题解决不好会影响系统运行的可靠性,甚至导致计算 机掉电无法正常工作。此外,星载计算机的运行依靠卫星太阳能蓄电池中的能源,太阳能 电池板蓄电时间有限,因而系统的低功耗设计变得十分重要。降低功耗不但可以提高星载 计算机系统的可靠性,而且可以减少电能缺失。因此,星载计算机体系结构设计必须考虑 其低功耗特性。 2 1 星载并行计算机体系结构研究 本节针对上面所述星载计算机的特点探讨其体系结构设计。由于采用并行体系结构是 当今星载高性能计算机所采用的主要方式,因而本节主要对星载并行计算机体系结构进行 研究。 现有的并行计算机系统从宏观上可以分为s i m d 和m i m d 两大类。其中向量体系结构 是s i m d 并行处理结构的重要形式。m i m d 并行处理结构包括集中式的对称多处理机 ( s m p ) 、分布式共享存储多处理机( d s m ) 、基于分布存储的大规模并行处理系统( m p p ) 和机 群系统( c l u s t e r ) 等几类【4 1 。 根据多处理机之间传递数据方式的不同,又可将上面的多处理机系统分成两类不同的 结构。一类通过共享的地址空间进行通讯,即所谓的共享存储器结构,根据存储器的组织 方式可以将其分成均匀存储器存取( u m a ) 、非均匀存储器存取( n c c n u m a 或c c - n u m a ) 以及只用高速缓存的存储器结构( c o m a ) 。另一类由多个私有的地址空间组成,这些私有 地址空间在逻辑上是分散的,并且不能被远程处理器寻址,如多计算机系统( m u l t i c o m p u c e r ) 国防科学技术大学研究生院学位论文 和机群系统,这类机器一般利用显式的消息传递机制来传送数据。 采用并行体系结构实现星载计算机一方面是为了提高计算能力,另一方面要根据其自 身应用的特点,研究并行结构对提高其可靠性的作用。随着星载计算机技术的发展,星载 计算机所承担的任务变得更加复杂,与以往对数据的单一处理不同的是,现代星载计算机 的计算任务变得更加多样化,因而星载计算机采用s i m d 结构不合适。 共享存储器结构( s m p 或d s m ) 具有以下一些优点 5 】:1 对称性,任何一个处理器可访 问任何存储单元和任何设备;2 单一地址空间,自然支持单一系统映像,因为它只有 一份操作系统的拷贝驻留在共享内存中,由单一的操作系统根据多处理机当中各处理器的 工作负载进行进程调度,易于达到动态负载平衡和有效的资源利用;3 高速缓存层次结构 支持数据局部性;4 一致性,高速缓存的一致性由硬件实施,但不同的s m p 或d s m 机器 可支持不同的共享存储器模型;5 存储器通信,由于处理器间的通信用简单的读写指令来 完成,因此共享存储器通信是低延迟的,与多处理机中的i ,o 通信相反,i o 通信需要执行 许多指令,且不能利用高速缓存的一致性信息。 大多数s m p 系统采用总线互连,通过类似于m e s i 的监听协议实现高速缓存一致性【6 】。 星载并行计算机体系结构设计在借鉴s m p 结构时,需要考虑三个主要问题:一是其可用 性,因为总线、存储器或是操作系统的任何失效都可能导致系统的崩溃,这在要求高可靠 性的星上应用中是不允许的;二是所有的处理器和i 0 控制器争用存储器总线和共享存储 器造成的瓶颈问题;三是其总线结构限制了可扩展性。由于在星载计算机的计算任务中, 大部分的数据存取属于本地访问,因此仅仅采用单纯的s m p 结构不合适。 d s m 机器是s m p 系统的扩展,大多数d s m 多处理机系统采用基于目录的高速缓存 一致性协议,既保持了s m p 结构的优点,又缓解了传统s m p 系统扩展性差的问题。其逻 辑上的共享存储器在物理上分布于所有处理机的本地存储器上,各处理机上所有存储单元 的集合组成了全局地址空间,访存时间随存储单元的位置不同而变化,访问本地存储器速 度较快,访问远程存储器相对较慢。由于应用程序可充分利用数据的局部性,在大部分时 间内能同时访问多个局部存储器,从而缓解了争用和带宽问题。这种结构虽然实现了全局 存储器共享,但复杂度较高。 对于c 0 m a 结构,它是一种只用高速缓存的多处理机结构,全部高速缓冲存储器组 成了全局地址空间,远程高速存储访问则借助于分布的高速缓存目录进行,系统复杂,同 样不适合应用于星载并行计算机系统。 m p p 结构的每个计算节点使用一个或多个商品化的高性能微处理器,也可以使用s m p 机器作为其计算节点;每个物理节点上都有自己的本地存储器,即存储器是分布的:采用 高通信带宽和低通信延迟的互连网络;体系结构可扩展性强,能扩充至成千甚至上万个计 算节点。但由于每个处理机不能直接访问非本地存储器,只能通过消息传递方式来解决这 一问题,使得编程困难且增加了通信开销。 由通用计算机组成的机群系统其每个节点往往都是一个完整的高档商品微机或者工 第6 页 国防科学技术大学研究生院学位论文 作站,各个节点用高速互连网络连接起来,具有群体可扩展性。每个节点内部都有本地磁 盘,都驻留一个完整的操作系统。但由于其远程数据访问全部是通过消息传递机制实现, 时延很大,故无法满足星上计算任务的实时性要求。容错系统具有很高的可用性,但扩展 性较差。图3 比较了上面几种系统的可扩展性和可用性。 可扩展性 系统可用性 图3 几种系统的可扩展性和可用性比较 为了达到星载并行计算机高可靠性的要求,其体系结构设计不能过于复杂。星载计算 机系统对可扩展性的要求不是很高,因而可以考虑采用较少的处理单元组成相对简单又能 保证处理能力的并行结构。在这种情况下,采用处理节点数目多且通信开销大的m p p 结 构,或耦合度小且通信开销大的机群结构都不合适。d s m 的分布共享存储结构有效地降低 了通信开销,可扩展性好,编程容易,有较好的软件移植性,值得借鉴。已有的研究结果 表明,在分布共享存储结构上编制的程序比用消息传递方式编制的程序效率要高,因为数 据以块或高速缓存行的方式进行传送,如果一个程序具有较好的局部性,则当把一个数据 块传送到一个结点后,该结点对它的访问就成为本地访问,而消息传递方式的每次访问都 需要通信。由于目前星上应用要求的处理节点数目不是很多,因而实现起来相对简单的 s m p 体系结构值得我们借鉴。 考虑到星载计算机低功耗的要求,系统适合采取冷备份策略。i o 设备同样消耗较大 的系统功耗,故功0 设备应该被多个处理节点共享使用。由于存储器和m d 设备的共享使 用,我们更加偏重于借鉴对称式共享存储体系结构。由于星上计算任务的相关性较小,通 信粒度也较小,如果采用消息传递作为通信机制,需要操作系统的参与和管理,造成额外 的处理开销。在共享存储体系结构方案下,在通信机制上采用共享变量通信模型,处理器 只需对同一个地址单元进行读写操作即可实现通信,当然还需要实现保证同步的硬件原 语。此外,采用对称式体系结构和共享变量通信机制还可以简化应用程序的编写,符合星 上计算任务的要求。 考虑到星上计算任务的相关性较小,适合于采用静态任务划分,避免动态调度,降低 系统开销。s m p 结构中所以处理器使用单一运行队列,可靠性不高,而m p p 和机群中使 用多运行队列,各运行队列相互合作以平衡负载,但是开销较大。为了防止系统中的某个 处理节点故障而降低系统可靠性,考虑将关键任务同时分配到多个处理节点上,从而在某 个处理节点故障后,仍能保证系统关键任务的完成。由于每个处理节点执行其私有任务时 第7 页 国防科学技术大学研究生院学位论文 相互之间无通信,故考虑为每个处理节点设置本地存储器以存放私有任务和私有数据,而 不将私有数据放置于共享存储器,避免对共享存储器访问造成的串行化,提高私有任务的 执行效率。 2 2 星载并行计算机硬件体系结构 根据上一节的讨论,我们采用如下设计。系统由具有相同双c p u 并行体系结构的甲机、 乙机两个计算单元,容错模块以及二次电源模块构成双c p u 并行双机冷备份体系结构。其 中乙机作为甲机的冷备份,容错模块监控系统状态,二次电源模块在容错模块的控制下提 供系统各部分所需的电压。甲( 乙) 机由c p u 模块和i o 模块组成,其中c p u 模块包括两个 t s c 6 9 5 f 处理器、总线桥接器以及存储器,这部分构成了双c p u 并行体系结构的核心部 分;模块通过c o m p a c t p c i 总线与c p u 模块相连,提供1 5 5 3 b 和1 3 9 4 等外设总线接口。 系统结构如图4 所示。 图4 星载并行计算机系统结构 甲( 乙) 机双c p u 并行结构中,每个c p u 具有私有随机存储器和只读存储器,总线桥 接器将两个c p u 的存储器总线连接起来并提供它们之间的通信。c p u o 与c p u l 之间的通 信通过c p u 0 存储器总线上的共享存储器进行。c p u o 对共享存储器的访问与访问本地存 储器的方式相同;c p u l 访问共享存储器时,由桥接器捕获访存请求并向c p u 0 发出d m a 请求,通过d m a 的方式来访问共享存储器。c p u 0 内部的总线仲裁器保证了对共享存储 器的访问不会发生冲突。总线桥接器连接两个c p u 和c o m p a c t p c i 总线,完成双c p u 之 间的同步与通信,处理外设的d m a 请求与中断请求,c p u 总线到c o m p a c t p c i 总线的协 议转换等。此外,桥接器还通过1 2 c 总线与容错模块相连,传递状态和控制信息。 该体系结构与上一节讨论的几种现有体系结构不同,我们结合星上计算的特点,分别 借鉴了其优点。星上计算对星载计算机系统最主要的要求是可靠性,这要求系统在内部出 现故障的情况下,计算机仍能正确地运行程序并给出正确结果,即具有容错性,因而我们 国防科学技术大学研究生院学位论文 设计了由容错模块监控的双机冷备份结构。由于过高的系统复杂度会降低系统可靠性,我 们在保证并行计算性能的前提下采用相对简单的对称式体系结构。一方面分别为甲( 乙) 机 计算单元中的两个处理器设置私有存储器,各自对其私有存储器具有相同的访问延时,即 具有对称性;另一方面除私有存储器外,还设置共享存储器,处理器利用共享存储器进行 通信,比不设置共享存储器而用消息传递方式通信效率要高。 上述星载并行计算机体系结构设计中不具备高速缓存,因而该并行结构不存在高速缓 存一致性问题,简化了系统设计与实现。当然,该结构在系统可靠性方面也存在一些不足, 例如桥接器的单点失效会影响双c p u 系统的运行,容错模块进行双机切换的粒度较粗,容 易造成资源浪费等等。这些问题留在第四章详细讨论。 2 3 星载并行计算机软件体系结构 针对上一节讨论的星载并行计算机体系结构,其计算任务采用分布存储的m i m d 方 式,不同类型的任务分配到不同的c p u 上运行,虽然任务间的通信会引入额外开销,但因 为使用共享存储器方式且数据交换粒度小、数据量不大,绝大多数的数据在局部的存储器 上处理,所以能够获得较高的加速比。 星载并行计算机每个处理器上运行一个嵌入式操作系统p e m s ,该系统代码存放在每 个c p u 各自的r o m 中,这种执行模式使得各处理器的执行代码相对独立,有利于星上计 算任务的并行处理,p e m s 多处理器间高效的通信基于硬件提供的共享内存和消息传递机 制实现。 p e m s 原则上在r e m s 原有系统框架的基础上进行改造和扩展,采用层次式、模块化 设计,保证系统的可移植性、可扩展性和灵活性。系统组成如图5 所示,灰色部分表示原 有! m s 的结构和实现;黄色部分( 初始化组件、中断组件、同步通信组件、存储组件、 硬件相关代码等) 表示在r e m s 现有结构的基础上修改和补充的模块;红色的两部分( 多处 理器支持、i o 组件) 需要重点解决,其中多处理器支持层的设计是实现双机并行的关键。 从图中可见,我们尽量保持r e m s 的底层内核结构和上层用户接口不变,一方面保持原有 软件代码的可移植性,另一方面尽量采用与单处理机系统兼容的应用编程模型,减小并行 应用开发的难度。 第9 页 国防科学技术大学研究生院学位论文 图5p e m s 系统组成 各层次的功能描述如下: ( 1 ) 硬件相关代码层:提供一组与处理器及目标板相关的例程。 ( 2 ) 基本内核层:一个结构精简、运行高效的内核,提供了包括基本的调度、任务分派 器、内存分配、对象管理等在内的基础功能,为应用服务组件功能的实现提供内核级的支 持。 ( 3 ) 多处理器支持层m p s l ( m u m p r o c e s s i n gs u p p o r tl a y e r ) :基于共享主存实现不同结点 上任务之间的隐式通信,使得应用程序只需调用与单机版本兼容的任务间通信接口完成交 互,除了对远程结点进行操作的时间稍长以外,应用不必感知任务的位置来进行较为复杂 的远程通信,这很大程度上降低了并行应用的开发难度。 ( 4 ) 基于组件的应用服务层:提供面向应用的系统资源管理器,包括任务组件、线程间 同步通信组件( 由信号、信号量、事件和消息队列四个管理器组成) 、存储组件( 由提供动态 分配固定或者可变大小内存空间功能的两个管理器组成) 、中断组件、时间组件、i 0 组件 等。应用服务层的各组件都是以对象的形式进行管理,与单处理器版本不同的是,多处理 器的应用中将对象区分为局部对象和全局对象。对局部对象的访问与单处理器情况下相 同,直接调用本地内核层提供的功能完成操作;而全局对象的设置是为多处理器间通信服 务的,对全局对象的访问则会调用多处理器支持层的接口完成远程任务之间的交互。除了 为各组件增加多处理器支撑模块,这一层次另一重点需要实现的功能是基于共享p c i 总线 的模块,包括1 5 5 3 b 和1 3 9 4 总线接口的驱动程序。应用服务层的组件可以根据用户 需要灵活选择和配置,满足用户对嵌入式软件小型化的需求。 ( 5 1 用户接口:提供一套符合i 汀e i d 的c l a s s i ca p i ,并支持p o s i x 和i t r o n 标准编 程接口。编程模式采用单进程、多线程结构,粗粒度任务并行。 第1 0 页 里堕型兰垫查奎兰堑茎生堕堂垡丝苎 第三章星载计算机硬件系统可靠性设计研究 星载计算机是卫星综合电子系统的控制和管理中心,承担着卫星姿态与轨道控制、卫 星星务管理、有效载荷数据管理与处理等任务,是卫星控制的中心,其重要性不言而喻。 而且星载系统要在恶劣的空间环境中长时间可靠运行,所以高可靠性设计成为系统设计的 关键。本章介绍了星载系统工作的空间环境和抗辐照设计,分别从微电子器件、微体系结 构、体系结构等角度讨论了星载计算机的可靠性设计。 3 1 星载计算机抗辐射可靠性设计 宇宙空间的强辐射环境对星载计算机中的电子元器件危害十分突出。据报道,法国地 球资源卫星s p o t - l 星载计算机存储器在轨工作的头3 5 年期间共发生1 1 次单粒子翻转事 件,通常每次要影响卫星正常工作1 3 天:美国林肯试验卫星9 由于单粒子翻转使陀螺漂 移超出规定值,严重干扰了卫星的正常运行;我国发射的风云1 号气象卫星也曾由于不堪 恶劣的辐射环境而遭受重大挫折。因此,空间辐射效应日益引起人们的重视,自六十年代 初国外就开展了对电子元器件乃至整个电子系统辐射失效机理及抗辐射加固的研究,并取 得重大进展。本节在介绍空间辐射环境的基础上,分析星载计算机的抗辐射技术。 3 1 1 空间辐射环境 空间辐射主要来自宇宙射线、范艾仑带、极光辐射和太阳耀斑等【竹。在宇宙射线中, 9 0 为质子( 氢核) ,7 为d 粒子( 氦核) ,1 为电子,此外还有y 射线等。被地球磁场所捕 获的宇宙射线中的带电粒子,在地球周围形成以地磁赤道为中心的内、外两个环形辐射带, 称为内、外范艾伦辐射带。1 9 5 8 年美国发射的探险者1 号卫星上的带电粒子计数器,首次 证明了空间高能带电粒子的存在。这些电子和质子来自宇宙射线及太阳风,受到洛伦兹力 的作用而围着地磁场磁力线作螺旋运动。由于在两极附近磁场增强,即磁力线变密,这些 带电粒子受到反射而往复在地球南北极之间作螺旋运动。内带从离西半球地面约6 0 0 公里 起,延伸至6 0 0 0 公里的高空,主要由高能量的质子组成;外带距地心2 万公里,可延伸 到6 万公里的高空,主要由高能量的电子组成。在太阳活动周期中,空间环境的辐射通量 可能改变一个数量级,太阳耀斑则可能使粒子辐射通量增加几个数量级。 空间辐射环境可按下列三个区域估计:近地轨道;地球同步轨道;介于近地轨 道和地球同步轨道之间( 范艾仑辐射带) ,尤其是太阳同步轨道。 由于地球自然磁场屏蔽作用的不同影响,近地轨道的辐射环境可能变化几个数量级。 具体数值视轨道倾角和高度而异。在太阳耀斑活动的不同时期,近地轨道环境也可能发生 国防科学技术大学研究生院学位论文 重大变化。对电子器件的影响一般是针对太阳耀斑活动的两种水平( 即太阳耀斑最大值和 a d 锄s1 0 最坏情况) 加以讨论。地球同步轨道及介于其与近地轨道之间的飞行任务必须考 虑范艾仑带中所俘获的粒子辐射效应,其高能粒子主要是质子和电子。近年来的研究表明, 除了上述辐射环境外,对于半导体器件,不能忽视某些工艺过程( 如电子束光刻、电子束蒸 发、等离子体腐蚀、离子注入) 引入的辐射效应以及封装材料的a 粒子放射所造成的影响【8 l 。 3 1 2 空间辐射效应对星载器件可靠性的影响 如上节所述,星载计算机工作于辐射环境复杂的外太空,极有可能受到宇宙射线等各 种带电粒子或不带电粒子,如质子、电子、中子、x 射线以及y 射线的辐射影响。其对微 电子器件的损伤,可以分为永久、半永久及瞬时损伤等几种情况。下面简单介绍星载计算 机器件的辐射效应。 3 1 2 1 空间辐射效应 空间主要辐射效应包括位移辐射效应、电离辐射效应、瞬时辐射效应和单粒子效应【吼。 其中位移辐射效应是由于中子与硅原子发生碰撞时,晶格原予在碰撞中获得能量而离开其 原来位置进入晶格间隙,在原来的位置处留下一个空位而造成的一种永久损伤。电离辐射 效应是电子、质子、y 射线等辐射粒子进入硅材料并与原子轨道上的电子相互作用,使电 子获得足够的能量脱离原子核的束缚而成为自由电子,原子则成为带正电的离子束,即辐 射粒子产生电子一空穴对的过程。瞬时辐射效应是瞬时y 脉冲在p n 结空间电荷区内产生 的大量电子一空穴对,其在结电场作用下产生的瞬时光电流对器件形成的瞬时损伤。单粒 子效应主要是指a 射线、高能中子束和宇宙射线中的高能重粒子使d r a m 的存储单元产 生错误的效应,将在下文中详述。 3 1 2 2 辐射效应对星载计算机集成电路的影响 由于星载并行计算机所用器件大多为m o s 型集成电路,m o s 型集成电路对电离辐射 特别敏感,中子辐射对其也有影响,其损伤阈值可达1 0 ”1 0 1 6 中子厘米2 对于m o s 型集 成电路而言,电离辐射引起的失效模式有以下两种【1o 】: ( 1 ) 总剂量损坏。这是由于s i s i 0 2 界面态的产生和栅氧化层内正电荷的积累,使阈值 电压发生负漂移,从而导致材料加速退化、逻辑功能失效、漏电流增加、工作速度降低、 噪声容限下降引起的失效。总剂量损坏是辐射效应中最常见的一种,它与辐射的种类和能 谱无关,只与最终通过电离作用沉积的总能量有关,属于累积效应。 ( 2 ) 单粒子效应。y 射线等电离辐照感生的电子空穴对被p n 结电场收集,形成瞬时光 电流,它能引起m o s 电路的瞬时失效,如存储器信息发生差错( 包括a 粒子辐照引起的软 第1 2 页 国防科学技术大学研究生院学位论文 错误) 、逻辑电平变化、计数器停止计数,或读写、寻址等功能出错以及c m o s 电路的闩 锁等现象。 3 1 2 3 单粒子翻转效应对星载存储器件的影响 单粒子翻转效应( s e u ) 是一种随机性的非破坏性误差。星载计算机集成电路封装材料 本身所含的微量铀、钍等元素都是n 粒子的放射源,由于封装陶瓷距离器件表面很近,以 致几乎全部a 粒子都有足够的射程撞击硅片。更重要的是,宇宙射线中大量的高能粒子f 如 质子、a 粒子、重离子) 和光子( 如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 天然气输气管道工程建议书(模板范文)
- 2025年度计算机设备维护保养合同范本汇编
- 二零二五年水利工程测量与监控合同范本
- 2025年房地产工程建设贷款合同(含环保标准)
- 数字孪生技术在危化品港口信息化建设中的应用
- 2025年杭州商品房预售合同规范文本
- 2025版酒店员工入股与企业文化融合合同
- 2025版互联网医疗股权合作转让及服务网络协议
- 二零二五年环保能源股份收购协议范本
- 二零二五年度建筑工程材料供应三方合作协议合同范本
- 珊瑚礁生态修复施工方案
- 我的家乡泉州
- 质量环境职业健康安全管理体系程序文件(终稿)
- 体外冲击波碎石
- AEO贸易安全培训
- 科研办公楼建筑设计与规划方案
- 2024年代养宠物繁殖合同范本
- 《乙肝指南》课件
- GB/T 23444-2024金属及金属复合材料吊顶板
- 安全文明施工检查考核奖惩制度(4篇)
- 医务人员职业道德培训课件
评论
0/150
提交评论