(计算机科学与技术专业论文)星载计算机的硬件容错设计与可靠性分析.pdf_第1页
(计算机科学与技术专业论文)星载计算机的硬件容错设计与可靠性分析.pdf_第2页
(计算机科学与技术专业论文)星载计算机的硬件容错设计与可靠性分析.pdf_第3页
(计算机科学与技术专业论文)星载计算机的硬件容错设计与可靠性分析.pdf_第4页
(计算机科学与技术专业论文)星载计算机的硬件容错设计与可靠性分析.pdf_第5页
已阅读5页,还剩80页未读 继续免费阅读

(计算机科学与技术专业论文)星载计算机的硬件容错设计与可靠性分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院硕士学位论文 摘要 星载计算机是卫星的核心部件,主要负责姿态控制、任务管理、数据处理等 任务。在空间辐射环境中,星载计算机内部的电子器件将受到高能粒子的严重影 响,出现工作异常或故障。另外,星载计算机的工作具有长期性和不可维护性。 因此,星载计算机需具备极高的可靠性,这对其容错设计与可靠性分析都提出了 较高的技术要求。 星载计算机的硬件容错设计是指在系统级、电路级、器件级等多个层次为星 载计算机提供可靠的硬件设备支持。本文针对单粒子翻转效应,提出了可通信的 高可靠双机温备方案和具有刷新功能的存储器容错技术,构成了基于f p g a 的多 级容错机制,旨在提高整个系统的抗单粒子翻转能力;同时,针对单粒子闭锁效 应,设计了重启时间可控的抗单粒子闭锁电路,以保护关键器件和系统能够正常 运行。最后,在星载计算机的原型系统中实现了这些容错方案,证明了这些方案 的正确性和可行性。 可靠性分析是通过定性和定量的方法,为系统的可靠性及失效特性建立可靠 性模型。可靠性分析为系统能否完成预定任务提供科学的理论验证,以避免由于 设计失误而导致整体任务的失败。由于采用了多种容错设计方案,星载计算机的 结构呈现出许多新特点,例如结构复杂、参数多样化等。本文将针对星载计算机 的特点,从存储系统和星载计算机系统两个角度深入的研究星载计算机的可靠性 分析问题。 在存储系统的可靠性分析方面,本文将具有刷新功能的三模冗余存储系统视 为半可修系统,提出了具有刷新功能的三模冗余存储系统的马尔可夫模型;同时, 在对具有纠一检二功能的存储系统进行可靠性分析时,考虑了多次单粒子翻转发 生在同一位这一特殊情况,给出了纠一检二存储系统同位多次故障模型,并在此 基础上计算了存储系统的平均无故障时间。 在星载计算机系统的可靠性分析方面,本文针对星载计算机这类由可修部件 和不可修部件组成的复杂系统,提出了软硬件结合的可靠性分析方法,并以星载 计算机原型系统为例进行了分析。同时,还分别从硬件和软件这两个角度出发, 对该原型系统进行了可靠性分析,而且在从软件角度分析时,考虑了系统的切换 时间,更精确的描述了系统的可靠性。 统 主题词:星载计算机,硬件容错设计,可靠性分析,马尔可夫模型,存储系 第i 页 国防科学技术大学研究生院硕士学位论文 a b s t r a c t o nb o a r dc o m p u t e r ( o b c ) ,ac o r ec o m p o n e n to ft h es a t e l l i t e ,i sm a i n l yr e s p o n s i b l e f o rg u i s ec o n t r o l l i n g ,t a s km a n a g e m e n t ,d a t ap r o c e s s i n ga n do t h e rt a s k s i nt h es p a c e r a d i a t i o ne n v i r o n m e n t ,t h ee l e c t r o n i cd e v i c e so fo b cw i l lb es e r i o u s l ya f f e c t e db yh i g l l e n e r g yp a r t i c l e s a n da b n o r m a lw o r ko rf a i l u r ew i l lo c c u r i na d d i t i o n o b c sw o r ki s l o n g t e r ma n du n m a i n t a i n a b l e t h e r e f o r e o b cm u s th a v eh i g hr e l i a b i l i t y w h i c hm a k e s h i g h e rt e c h n i c a lr e q u i r e m e n t sf o ri t sf a u l t t o l e r a n td e s i g na n dr e l i a b i l i t ya n a l y s i s t h eh a r d w a r ef a u l t t o l e r a n td e s i g no fo b cr e f e r st ot h er e l i a b l eh a r d w a r es u p p o r t f o ro b ci ns y s t e ml e v e l c i r c u i tl e v e l d e v i c el e v e la n do t h e r1 e v e l s a sf o rt h es i n g l e e v e n tu p s e t ( s e u ) ,t h i sp a p e rp u t sf o r w a r dt h em u l t i l e v e lf a u l t t o l e r a n tm e c h a n i s m b a s e do nf p g a ,i n c l u d i n gt h ec o m m u n i c a b l ea n dh i g h l yr e l i a b l ew a r ms p a r eo fd u p l e x c o m p u t e ra n dt h er e d u n d a n c yd e s i g no fm e m o r ym o d u l ew h i c hh a st h ef u n c t i o no f s c r u b b i n g i no r d e rt oe n h a n c et h ew h o l es y s t e m sa b i l i t yo fa n t i s e u b e s i d e s a sf o r t h es i n g l ee v e n tl a t c h u p ( s e l ) ,t h i sp a p e ra l s oo f f e r sa n t i s e lc i r c u i tw h o s er e s t a r t t i m ei sc o n t r o l l a b l e 。s oa st ok e e pc r i t i c a lc o m p o n e n t sa n dt h es y s t e mr u nn o r m a l l y f i n a l l y ,t h e s ef a u l t t o l e r a n ts c h e m e sa r ei m p l e m e n t e di nt h eo b cp r o t o t y p es y s t e m ,a n d 也e ya r ep r o v e dt ob ec o r r e c ta n df e a s i b l e r e l i a b i l i t ya n a l y s i sp r o v i d e s m o d e lf o r s y s t e m sr e l i a b i l i t y a n df a i l u r e c h a r a c t e r i s t i c sb yq u a l i t a t i v ea n dq u a n t i t a t i v ea p p r o a c h e s r e l i a b i l i t ya n a l y s i sg i v e s t h e o r e t i cv e r i f i c a t i o nt ot e s tw h e t h e rt h es y s t e mc a nf u l f i l lt h es c h e d u l e dt a s ko rn o t s o a st oa v o i dd e s i g ne r r o r sw h i c hw i l lr e s u l t si nt h ef a i l u r eo ft h ew h o l et a s k b e c a u s eo f v a r i o u sf a u l t t o l e r a n td e s i g n s ,0 b ch a sm a n yn e wf e a t u r e s ,s u c ha sc o m p l e xs t r u c t u r e , d i v e r s ep a r a m e t e r ,e t c a c c o r d i n gt ot h ef e a t u r e so fo b c ,t h i sp a p e ri n t e n d st os t u d yt h e r e l i a b i l i t ya n a l y s i so fo b cf r o mt w oa s p e c t s :m e m o r ya n do b cs y s t e m s a st ot h er e l i a b i l i t ya n a l y s i so fm e m o r ys y s t e m ,t h i sp a p e rt a k e st h em e m o r y s y s t e mo ft r i p l em o d u l er e d u n d a n c y ( t m r ) a sh a l f - r e p a i r a b l es y s t e m ,a n do f f e r st h e m e t h o dw h i c hi sb a s e do nm a r k o vm o d e l t oa n a l y z et h er e l i a b i l i t yo ft m r sm e m o r y m o r e o v e r ,w h e nt h er e l i a b i l i t yo fm e m o r ys y s t e mw i t hs i n g l ee r r o rc o r r e c t i o na n d d o u b l ee r r o r sd e t e c t i o n ( s e c d e d ) c o d ei ss t u d i e d ,t h i sp a p e rc o n s i d e r st w o ( o rm o r e ) s e u sa f f e c t i n gt h es a m eb i t ,a n dp r e s e n t sar e f i n e dm o d e lw h i c hc a nb ea p p l i e dt o c a l c u l a t et h em c a nt i m et of a i l u r e ( m t t f ) o fm e m o r ys y s t e m a sf o rt h er e l i a b i l i t ya n a l y s i so fo b c ,f i r s t l y ,t h i sp a p e rp r e s e n t st h em e t h o do f r e l i a b i l i t ya n a l y s i sw h i c hi n t e g r a t e st h eh a r d w a r ea n ds o f t w a r e i no r d e rt oa n a l y z et h e r e l i a b i l i t yo fo b cc o m p o s e do fr e p a i r a b l ea n du n r e p a i r a b l es u b s y s t e m s 。腑a t sm o r e 。 t h ep r o t o t y p es y s t e mi sa l s oa n a l y z e df r o mt w oa s p e c t s :h a r d w a r ea n ds o f t w a r e w h e ni t i sa n a l y z e df r o ms o f t w a r e ,t h es w i t c h i n gt i m eo fs y s t e mi sc o n s i d e r e da n dt h er e l i a b i l i t y o fs y s t e mi sd e s c r i b e dm o r ep r e c i s e l y 第i i 页 国防科学技术大学研究生院硕士学位论文 第i i i 页 国防科学技术大学研究生院硕士学位论文 表目录 表1 1 中国卫星轨道姿态控制计算机的研究概况8 表2 1 四类m a r k o v 过程2 3 表3 1 错误检测3 3 表4 1m t t f 小结5 3 表5 1 可靠度计算结果5 7 第1 v 页 国防科学技术大学研究生院硕士学位论文 图1 1 图1 2 图1 3 图1 4 图2 1 图2 2 图2 3 图2 4 图3 1 图3 2 图3 3 图3 4 图3 5 图3 6 图3 7 图3 8 图3 9 图3 1 0 图3 11 图3 1 2 图3 1 3 图3 1 4 图3 1 5 图3 1 6 图3 1 7 图3 1 8 图4 1 图4 2 图4 3 图4 4 图4 5 图4 6 图目录 数字集成电路的主要单粒子效应4 s c s 7 5 0 的容错设计框图7 t s 1 1 星载计算机系统硬件结构框图7 论文主要内容的组织结构及其相互关系1 3 串联系统可靠性框图18 并联系统可靠性框图1 9 表决系统可靠性框图1 9 系统状态转移图2 3 双机备份的四种工作方式- 一2 5 双机温备系统结构框图2 7 可通信的高可靠双机温备系统结构框图2 8 双机通信结构图2 9 测控应用程序流程图31 存储器容错设计总体框图3 l e d a c 模块内部结构图3 2 t m r 逻辑原理图3 4 s 洲的刷新流程3 5 f l a s h 的刷新流程3 6 抗s e l 保护电路的基础设计3 7 s i 4 4 6 5 d y 的转移特性3 7 c p u 板的电源转换系统3 8 电源自动关断重启的实现图3 9 重启时间可控策略3 9 系统重启情况图4 0 星载计算机原型系统实物图4 0 c p u 板内部结构图4 1 s e u 下三类事件的概率空间4 4 三模冗余存储系统框图4 6 具有刷新功能的三模冗余存储系统m a r k o v 状态转移图4 6 具有刷新功能的三模冗余存储系统的不可靠度与时间的关系4 8 具有刷新功能的三模冗余存储系统的不可靠度与s e u 率的关系4 8 具有刷新功能的三模冗余存储系统的不可用度与m t t r 的关系4 8 第v 页 国防科学技术大学研究生院硕士学位论文 图 图 图 图 图5 3 图5 4 图5 5 图5 6 图5 7 图5 8 图5 9 图5 1 0 擦除情况下,传统模型和同位多次故障模型的m t t f 比较5 4 不擦除情况下,传统模型和同位多次故障模型的m t t f 比较5 4 c p u 板的可靠性框图5 6 多种失效率下,可靠度之比与时间的关系5 6 双机温备系统的可靠性框图5 8 双机温备系统的m a r k o v 状态转移图6 l 固定口时,可用度与切换成功率的关系6 2 固定时,可用度与切换成功率的关系6 3 软件正常工作图6 4 c p u 板的可靠度与时间的关系6 5 软硬件结合的双机温备系统状态图6 5 双机温备系统和c p u 板的不可靠度与时间的关系6 6 第v i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:星錾进篡扭鲍堡鲑窒垡遮进皇互囊性佥堑 学位论文作者签名: 幺叠金1日期:哆年,) ,月巧日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:星裁i 土篡狃鲍亟住空篮遮让生互靠性金堑 学位论文作者签名:! 堇鱼 日期:7 叼年,二月巧日 作者指导教师签名: 奁塑型日期:冽年,三月巧- 日 国防科学技术大学研究生院硕士学位论文 第一章绪论 自从1 9 5 7 年l o 月4 日前苏联发射第一颗人造卫星s p u t n i k 以来,世界各国便 展开了对卫星的开发竞赛。纵观这5 0 多年的卫星发展史,可以清楚地发现卫星的 发展经历了小卫星到大卫星又到小卫星的过程。同其它飞行器相比,卫星飞得高 看得远,能同时看到地面的区域很大;同时,飞行速度快,能在短时间内邀游太 空、环视全球、洞察一切;并且不受国界疆域限制和地理气候条件影响,能长时 间连续工作。由于卫星具有这些独特优点,一般用于科学探测、技术试验、资源 勘测、通信以及气象观测等方面。 作为卫星上的核心部件,星载计算机( o nb o a r dc o m p u t e r ,o b c ) 主要用于 完成卫星控制、星务管理、数据处理等任务。无论是何种用途的卫星,卫星上各 种传感器获取的信息量越来越大,全部传递到地面处理需要占用巨大的星地带宽, 而且实时性也不高。因此,数据的在轨处理能力越来越受到关注,美国空军引人 瞩目的a i r f o r c e 2 0 2 5 计划中指出:“数据的在轨处理意味着关键信息能够快速分 发至分布在全球的作战单元,是确保陆地、空中和空间统治能力生死攸关的一步 【1 】。对在轨数据处理能力的无尽追求,使得卫星对高性能星载计算机的需求也越来 越迫切。 然而,传统的星载计算机多由采取特殊工艺处理的宇航级器件组成,与商用 现货( c o m m e r c i a l o f f - t h e s h e l f ,c o t s ) 器件相比,这些经过抗辐射加固的宇航 级器件普遍在性能上滞后1 2 代【2 1 ,可供选择的范围也比较小。近十年来,越来 越多的国家和组织开始尝试在星载计算机中采用性价比更高的c o t s 器件。v d c 公司于2 0 0 7 年发布的关于军事、航天与防务应用中嵌入式c o t s 系统的市场调查 报剖3 】显示:包括定浮点d s p 和s r a m 型f p g a 在内的c o t s 高速数字信号处 理类器件的广泛应用已经成为现阶段星载计算机的典型特征。但是,由c o t s 器 件组成的星载计算机抗辐射能力低,面临着可靠性难以满足要求的困境【4 j 。 在这种背景下,“9 7 3 国家安全重大基础研究发展项目、“8 6 3 高技术研究 发展计划 和“国防预研项目 专门设立相关方面的研究项目,目标是研制满足 卫星使用要求的高性能高可靠的星载计算机系统,并在此基础上开展有关星载计 算机系统的硬件容错设计和可靠性分析关键技术研究,这是本文的选题依据。 1 1 研究背景 1 1 1 空间辐射环境 空间辐射环境主要由宇宙射线构成,包括银河宇宙射线、太阳宇宙射线和地 第1 页 国防科学技术大学研究生院硕士学位论文 球辐射带【5 1 。 银河宇宙射线是指来自太阳系外银河系的高能粒子,由电子和元素周期表中 所有原子核组成。其中,质子所占比重最大,约为8 8 ;其次是口粒子,约为1 0 ; 其余为重离子【6 】。粒子的能量范围约为4 0 m e v i o t e v ,平均能量约为3 5 0 0 m e v 。 对于如此高能量的粒子,卫星壳体已经无法阻止它们进入舱体内【7 1 。银河宇宙射线 的能谱变化与太阳活动期相关,太阳活动低年时,银河宇宙射线积分注量较高; 太阳活动高年时,银河宙射线积分注量较低。 太阳宇宙射线是太阳发生耀斑时和日冕质量喷射时发射出的高能带电粒子 流,能量范围一般为1 m e v 1 0 g e v 。太阳宇宙射线中绝大部分是质子( 占9 0 以 上) ,当然也含有电子和口粒子以及少数电荷大于3 的粒子。虽然太阳耀斑爆发 因其偶然性而具有多变性和不可预测性,然而可以确定的是,太阳宇宙射线将造 成空间辐射环境的辐射强度呈数量级地增长【引。 在地球周围一定的空间范围内存在着大量被地磁场捕获的高能带电粒子,此 捕获区称为地球辐射带( 又称v a na l l e n 辐射带) 。这些带电粒子主要是电子、质 子以及少量的重离子【9 j 。地球辐射带通常又分为内辐射带( 1 5 r e 至2 8 r e ,r e = 6 3 8 0 k m 为地球半径) 和外辐射带( 2 8 r e 至1 2 r e ) ,内辐射带以质子为主,而外 辐射带以电子为主。内辐射带中质子能量可达5 0 0 m e v ,外辐射带中电子能量可达 7 m e v ,而典型的卫星壳体只能够屏蔽能量小于1 0 m e v 的质子,因此对于低轨道 ( l o we a r t ho r b i t ,l e o ) 卫星来说,质子对其内部电子器件的辐射破坏尤为严重。 1 1 2 星载计算机 星载计算机是典型的嵌入式计算机系统,主要用于完成卫星中的控制和计算 任务。星载计算机的称谓并不完全统一,欧洲空间局( e u r o p e a ns p a c ea g e n c y , e s a ) 称为星载数据管理系统( o nb o a r dd a t ah a n d l i n g ,o b d h ) ,美国国家航空 航天局( n a t i o n a la e r o n a u t i c sa n ds p a c ea d m i n i s t r a t i o n ,n a s a ) 则称为指令和数据 管理系统( c o m m a n d & d a t ah a n d l i n g ,c & d h ) 。鉴于星载计算机在卫星中的作 用越来越重要,负责的任务越来越多,将其称为星载计算机( 系统) 会更加合适。 下面分别从构成、功能、性能、可靠性、成本和功耗六个方面简要的对星载计算 机进行介绍。 、 就目前国内外应用现状来看,星载计算机的构成形式大致可以分为三类:第 一类由专用定制处理器构成,处理器针对应用进行了高度优化,处理性能很高, 但其成本偏高,设计风险较大,且灵活性不足。第二类由数字信号处理器( d i g i t a l s i g n a lp r o c e s s o r ,d s p ) 或p o w e r p c 等高性能微处理器组成,不同的处理任务按 照时间片分享处理器的硬件资源。第三类将f p g a 作为信号处理器,兼有d s p 、 第2 页 国防科学技术大学研究生院硕士学位论文 p o w e r p c 等高性能微处理器。 星载计算机是卫星控制和计算系统的核心,主要完成星上控制、卫星测控和 在轨数据处理三大功能。星上控制包括卫星姿态和轨道控制、卫星状态管理等; 卫星测控是指地面要及时了解卫星运行轨道及卫星各分系统的工作情况和各种工 程参数,同时还要在地面对卫星飞行轨道、姿态以及各种分系统工作状态进行控 制,通常是通过无线电信道来完成测控信息的传递;在轨数据处理包括星上控制、 卫星测控相关的计算和卫星应用本身的计算,星上控制需要计算姿态和轨道参数、 计算有效载荷开关时间、处理星上有关分系统的数据并支持个分系统间的信息交 换和共享;卫星测控需要处理跟踪测轨、遥测和遥控的数据等;卫星应用的计算 需要多媒体【l o j 、通信方面的数字信号处理。 随着卫星任务的多样化和复杂化,对星载计算机性能的要求越来越高,要求 星载计算机有很高的在轨数据处理能力【i 】。在轨数据处理大体分为两类:控制相关 ( 如卡尔曼滤波、轨道参数计算) 和应用相关( 多媒体、通信) 。控制相关的计 算具有复杂的算法结构和要求很高的计算精度,需要高性能的c p u 实现;应用相 关的数字信号处理不适合c p u 实现,需要在星载计算机系统中增加数字信号处理 系统的设计。 星载计算机不仅要经历火箭起飞时的冲击、振动等严酷的力学环境,而且还 要承受强辐射、高温差、超真空、微重力的空间恶劣环境。空间环境中存在着大 量带电粒子,星载计算机会遭受电磁场辐射和高能粒子冲击,其内部的电子器件 将可能受到各种辐射效应的影响,从而引起系统的工作异常或故障。而小卫星的 工作又具有长期性和不可维护性,因此需要星载计算机系统有很高的可靠性,而 其可靠性设计主要体现在其抗辐射能力的设计上。 传统的星载计算机为了保证足够高的可靠性,一般在选用宇航级器件的基础 上采用冗余结构,设计成本昂贵。另外,卫星的太阳能方阵和电池提供的能源是 有限的,分配给星载计算机的又只是其中的一部分,所以星载计算机的功耗要控 制在一个限定的范围内。 1 1 3 空间辐射环境对星载计算机的影响 空间辐射环境是由各种不同来源的高能粒子( 质子、重离子、口粒子等) 组 成的【1 1 1 3 】。高能粒子与物质相互作用能够引起核能损和电子能损,其中对半导体 集成电路影响较大的是电子能损导致的电离辐射效应【l4 1 。按失效机理不同,又可 将电离辐射效应分为长期电离辐射累积引起的总剂量效应( t o t a li o n i z i n gd o s e , t i d ) 和单个高能粒子电离辐射引起的单粒子效应( s i n g l ee v e n te f f e c t s ,s e e ) 。 诱发单粒子效应一般要求粒子具有足够高的线性能量转移( l i n e a re n e r g yt r a n s f e r , 第3 页 国防科学技术大学研究生院硕士学位论文 l e t ) 值,空问辐射环境中的重离子符合这一特征。高能质子的l e t 值很小,一 般不会直接引起电离辐射,但其与器件内部材料发生核相互作用所释放出的次级 粒子( 口粒子、重离子等) 具有足以诱发单粒子效应的l e t 值。正因如此,高能 质子占主要成分的地球辐射带【1 2 ,1 5 1 是导致低轨道卫星出现单粒子效应的主要诱 因。 在星载计算机所属的数字集成电路范围内,主要的单粒子效应如图1 1 所示。 图1 1数字集成电路的主要单粒子效应 单粒子翻转( s i n g l ee v e n tu p s e t s ,s e u ) 是发生在芯片内部存储单元( 如触 发器、锁存器、存储器、寄存器) 上的位翻转( b i t f l i p s ) 现象,即逻辑值从0 变 为1 或从l 变为o 。单粒子多位翻转( s i n g l e e v e n tm u l t i p l eb i t su p s e t ,m b u ) 则 是单个粒子入射引起多个存储单元同时发生位翻转的现象。单粒子瞬态脉冲 ( s i n g l ee v e n tt r a n s i e n t s ,s e t ) 是模拟或组合逻辑电路中出现的瞬态电压脉冲。 s e t 在传播过程中也有很大可能被时序单元锁存而产生位翻转现象。在现行国际 标准【1 6 - l8 】中,常将s e u 、m b u 和s e t 所引起的“位翻转”现象统称为软错误( s o f t e r r o r s ) ,主要是由于这种位翻转现象可以通过重写操作而得到修复,不会造成器 件永久性的损坏。由于所指的现象都是位翻转,在很多文献中“s e u 与“软错误” 互相通用。单粒子闭锁( s i n g l ee v e n tl a t c h u p ,s e l ) 会导致体硅c m o s 器件内 部出现异常大电流,有可能将器件烧毁,即发生单粒子烧毁( s i n g l ee v e n tb u m o u t , s e b ) ,因此将其归为硬错误( h a r de r r o r s ) 。闭锁现象是体硅c m o s 器件所特有 的,在采用s 0 1 抗辐射工艺的器件中,由寄生晶体管构成的p n p n 结构已被消除, s e l 将不再可能出现i l 弘2 3 j 1 1 4 计算机容错技术 容错( f a u l t t o l e r a n c e ) 是容忍故障的简称,容错计算机系统是指在发生硬件故 障或存在软件错误的情况下仍能继续正确完成指定任务的计算机系统,设计与分 析容错计算机系统的各种技术称为计算机容错技术【2 4 】。 第4 页 国防科学技术大学研究生院硕士学位论文 计算机容错技术有三个米源【2 5 】: 1 ) 从研制第一台计算机开始,人们就认识到,不论怎么精心设计,选择多么 好的元件,物理缺陷和设计错误是不可避免的。人们不得不用各种容错技 术来维持系统的正常运行。 2 ) 随着工程技术的发展,用不可靠元件搭建可靠系统这样一个理论问题,首 先由计算机科学的创始人之一v o nn e u m a n n 2 6 】在19 5 2 年,及m o o r e 和 s h a l l l l o n 【2 7 】在1 9 5 6 年给以精彩的论述。 3 ) 1 9 5 8 年n a s a 为星际探索研制无人宇宙飞船的技术要求容错,于是在 1 9 6 1 年研制出s t a r 计算机f 2 8 】。 容错技术是依靠线性增加的资源来换取指数增加的可靠性的【2 9 1 。主要方法有 硬件冗余、时间冗余、信息冗余和软件冗余。 硬件冗余是对关键性的硬件配备备份,通过备份的元部件或模块实现容错。 硬件冗余又可分为两种:工作冗余和非工作冗余。在工作冗余系统中各单元同时 工作,结构为相同单元的串联、并联或n 倍单元;在非工作冗余系统中,有m + 1 个模块,但只有1 个处于工作状态,其余m 个处于储备状态,当工作模块出现故 障时,立刻切换到一个储备模块,直至资源枯竭。在实际应用中,时常将两种冗 余结构结合运用,构成混合冗余系统。 时间冗余通过消耗时间资源来达到容错目的,换取系统可靠性。典型的应用 是指令复执和程序卷回。指令复执是重复执行己发现错误的指令;程序卷回是重 复执行发现错误的一段程序。 信息冗余是靠增加信息的多余度进行容错,来提高可靠性的。其典型应用是 在数据信息上附加各种检错纠错码,如奇偶码、海明码、循环码等。一般来说, 附加的信息位越多,其检错纠错能力越强。 软件冗余是指开发容错软件的适宜环境和系统方法,其主要目的是提供足够 的冗余信息与算法程序,使系统在实际运行中能够及时发现程序错误,采取补救 措施,保证整个计算的正确性。目前较为典型的软件冗余技术为恢复块技术及多 版本设计方法,恢复块技术是以针对同一任务采用不同算法的多个独立程序体间 的差异为容错基础,由冗余管理系统将这些程序组织在一起构成完整的可恢复模 块;多版本技术是采用不同的算法、语言、环境和工具,由不同技术风格和工作 习惯的程序员针对同一任务设计出多个程序同时运行,对结果进行表决以获得正 确结果。 硬件冗余在故障检测、故障屏蔽等方面具有非常突出的优点,是容错效率最 高的方法;信息冗余冗余度低,效率高,在逻辑域中获得了广泛的应用;时间冗 余和软件冗余也以硬件冗余为基础得到了更充分的应用和发挥。总之,必须根据 第5 页 国防科学技术大学研究生院硕士学位论文 系统特性,综合应用各种冗余技术,但是,冗余是以消耗资源为代价的,因此, 在可靠性和资源消耗之间也要权衡利弊,决定取舍。 1 1 5 可靠性分析 目前,各种可靠性标准中并没有“可靠性分析的明确定义,但在可靠性工 程中,所谓的“可靠性分析”通常是指通过定性和定量的方法,为产品的可靠性 及失效特性建立框图和数学模型( 即可靠性模型【3 0 】) 的过程。可靠性分析是保证 系统各级可靠性的一项基础性工作。在设计初期,通过可靠性分析准确判定系统 中各分系统的重要度,分配各分系统的可靠性参数,能够在优化设计、规划实施 等方面起到重要的指导作用,并在减小设计制作成本等方面带来经济效益。在设 计中期,通过可靠性分析能够进一步细化系统在可靠性设计方面的进展,为达到 最终的设计目标提供量化指导。在设计后期即系统定型阶段,可靠性分析可对系 统能否完成预定任务提供科学的理论验证,避免由于设计失误而导致整体任务的 失败。为了进行可靠性分析,必须建立系统可靠性模型,有关可靠性模型的知识 将在2 1 2 节中详细介绍。 1 2 研究现状 星载计算机本身是一种嵌入式计算机系统,但与在地面工作的普通计算机系 统不同。星载计算机工作在空间环境中,会遭受电磁场辐射和高能粒子冲击,其 内部的电子器件将可能受到各种辐射效应的影响,从而引起系统的工作异常或故 障。因此,星载计算机对可靠性的要求非常苛刻( 预计寿命内的可靠度不低于 0 9 9 e 3 1 】) 。然而,目前的商用v l s i 技术所能达到的失效率一般只有1 0 7 h 1 左右【3 2 1 , 即使是经过特别的处理和加固的宇航级器件也只能达到1 0 母h 。为此,研究人员开 始探索如何使用容错技术来实现错误的自动屏蔽或自动修复,以便提高系统的可 靠性,延长使用寿命。同时,针对相应容错技术的可靠性分析也在广泛展开,因 为只有通过可靠性分析得到系统的可靠性参数,才能判断容错技术的采用能否提 高系统的可靠性,以及评价多种容错技术在提高系统可靠性方面的优劣。 迄今为止,国内外在星载计算机的硬件容错设计与可靠性分析方面已经开展 了广泛深入的研究,取得了许多重要的研究成果,本节将对相关研究成果进行归 纳。 1 2 1 星载计算机的硬件容错设计 星载计算机的硬件容错设计目标是:在星载计算机所处的空间环境和任务周 第6 页 国防科学技术大学研究生院硕士学位论文 期已经确定的前提下,提高系统在轨期间的平均故障间隔时间( m e a n t i m e b e t w e e n f m l u r e s ,m t b f ) 缩短系统出现失效后的平均修复时间( m e a nt i m et or e p a i r , m t t r ) 。实现这一目标的基本方法就是进行低代价的冗余容错,p i g n o l 在2 0 0 5 年 发表了一篇关于微处理器类里载计算机系统如何应对s e u 和s e t 影响的综述文 献,将微处理器层次的容错技术分为双模结构、三模结构和其他解决方法三种主 要类别例。 s c s 7 5 0 单扳计算机是m a x w e l l 公司为了满足航天工业的需求而研制的高性 能、高可靠的星载计算机。s c s 7 5 0 采用高性能的处理器p o w e r p c 7 5 0 f x ,通过对 处理器进行三模冗余( t r i p l em o d u l a rr e d u n d a n c y ,t m r ) 、对存储器进行纠错 检错机制( e r r o rd e t e c t i o na n dc o n e c t i o n ,e d a c ) 等硬件容错设计,来提高计 算机的可靠性,如图12 。 图12s c s 7 5 0 的容错设计框图 在国内,中国空间技术研究院5 0 2 所研制的资源一号星载计算机是首先采用 e d a c 技术的,采用了h a r r i s 公司的5 4 h c 6 3 0 捡错纠错芯片。由哈尔滨工业大学 研制的立体测绘小卫星( t s 一11 ) 的星载计算机系统采用的是双机热冗余的结构 “,如图13 。由两台3 8 6 e x 与4 台8 0 c 1 5 2 的单片机组成计算机之间咀系统 总线b u s a 、b u s b 互连,3 8 6 e x 计算机分别以双端口r a m 与两台8 0 c 1 5 2 单片 机分别相连,每个8 0 c 1 5 2 单片机又分别与两条串行总线b u s a 、b u s b 相连,由 此构成以3 8 6 e x 为主机,以8 0 c 1 5 2 单片机为辅机的计算机系统。 吣鲫i 鞲 b 咖_ 一l 一一 一j 一 图13 t s 1i 星载计算机系统硬件结构框嘲 另外,文献【”蛤出了北京控制工程研究所研制的星载计算机容错结构见表 这些星载计算机都1 0 0 的完成了飞行任务。根据航天器的任务需求,各星 第7 页 ;一一一 国防科学技术大学研究生院硕士学位论文 载计算机的功能不尽相同,但是普遍采用了多机的冗余结构,用线性增加的冗余 资源来换取指数增长的可靠性。 表1 1中国卫星轨道姿态控制计算机的研究概况 序号卫星种类计算机功能容错结构 l 返回式姿控、程控双机热备份 2 第三代返回式姿轨控三模单模变结构系统 3 弟二代返酬式程控双机热备份 4 神舟飞船制导、导航控制器三模单模变结构系统 5 中巴地球资源卫星姿轨控双机模块级可重组,冷备份 6 资源2 号卫星姿轨控1 热+ 2 冷备份 7 实践5 号卫星姿轨控双机冷热备份 8 神舟飞船轨道舱姿轨控双机冷备份 9神舟飞船 轨道舱姿轨控应急控制器单机 1 0 资源2 号卫星星敏感器处理单元双机冷备份 l1d f h 3 平台 变轨及位置保持控制双机模块级可重组,冷热备份 1 2 d f h 3 平台后继星姿轨控双机模块级可重组,冷热备份 1 2 2 存储系统的可靠分析 存储系统的可靠性设计主要有两种方法:硬件冗余和信息冗余。硬件冗余是 指成倍的增加存储器的数量,构成双模系统或三模系统;信息冗余是在数据信息 上附加各种检错纠错码,如奇偶码、海明码、循环码等。一般来说,附加的信息 位越多,其检错纠错能力越强。因此,存储系统的可靠性分析通常是对这两类或 是其相结合的可靠性设计的分析。 f i r u l 【3 8 】首次用m a r k o v 链模型对s e u 影响下硬件冗余的存储系统进行了可靠 度和可用度的分析,主要是比较了纠错码( e r r o rc o r r e c t i o nc o d e ,e c c ) 和擦除 ( s c r u b b i n g ) 技术在控制s e u 影响上的差别。b l a u m 等人【”】假设存储器有存储单 元失效、行失效、列失效、行一列失效和芯片失效五种失效类型,并在此基础上 给出了使用纠一检二码( s i n g l ee r r o rc o r r e c t i o na n dd o u b l ee r r o rd e t e c t i o n , s e c d e d ) 的存储器的m t t f 。y a n g 4 0 】给出了经过编码的存储器在软错误和硬错 误的同时影响下的可靠度,并且研究了芯片级编码和芯片级板级两级编码下的软 错误擦除技术。s a l e h 等人【4 l 】分析了s e c d e d 存储系统中对软错误进行恢复的擦 除技术,给出了定期擦除和随机擦除两种模型。 g o o d m a n 和s a y a n o 4 2 j 给出了单错误纠正码( s i n g l ee r r o rc o r r e c t i o n ,s e c ) 保 护下的存储器的m t t f ,并且研究了软错误擦除技术对存储单元的软错误和各种硬 件失效的影响。g o o d m a n 和m c e l i e c e 4 3 】给出了计算公式,使得系统设计人员可以 第8 页 国防科学技术大学研究生院硕士学位论文 计算得到使用编码的存储器之后系统可靠性的提高值。 v a i d y a1 4 4 针对不使用纠错码( e c c ) 的三模系统、使用错误检测码( e r r o r d e t e c t i n gc o d e ,e d c ) 的双模系统、使用单错误纠正码( s e c ) 的双模系统以及 使用s e c d e d 的双模系统,使用了独立对称的错误模型(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论