(电气工程专业论文)容错加固计算机的设计与实现.pdf_第1页
(电气工程专业论文)容错加固计算机的设计与实现.pdf_第2页
(电气工程专业论文)容错加固计算机的设计与实现.pdf_第3页
(电气工程专业论文)容错加固计算机的设计与实现.pdf_第4页
(电气工程专业论文)容错加固计算机的设计与实现.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(电气工程专业论文)容错加固计算机的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 在国防和工业领域等恶劣环境下,可靠性是实时计算机控制系统 设计的最重要的目标之一。本文以x x 舰综合导航显控台中信息处理加 固机的研制过程为背景,研究了提高抗恶劣环境加固计算机可靠性的 容错技术和方法,实现了具有容错功能的综导信息处理加固机双机备 份系统。 通过参阅国内外大量相关技术资料,对提高可靠性的主要容错技 术进行了深入的研究。在比较多种容错硬件设计方案的基础上,提出 了综导信息处理加固机双机备份系统的技术设计方案,在硬件设计中 采用了c p l d ( c o m p l e x p r o g r a m m a b l e l o g i cd e v ic e ) 高密度可编程 芯片,通过先进的v h d l ( v i r t u a lh a r d w a r ed e s i g nl a n g u a g e ) 语言 设计了带有自检功能的计程仪模块;为实现容错功能的双机仲裁模块。 解决了发生故障时系统输出的准连续性问题,使工作进程不受系统故 障的影响,从硬件平台的角度保证一定的可靠性;同时,对系统软件 提出了双机通讯、故障诊断、故障恢复和系统重组的容错设计方法, 使系统整体的可靠性通过软件平台得到进一步的提高,实现了该系统 对可靠性的设计要求。 本文建立了系统的可靠性模型,在理论一h 进行了分析。该系统已 经通过了可靠性试验,并交付x x 舰综合导航显控台使用。从理论分 析、实验室测试和交付使用的结果看,该系统的双机备份技术方案是 合理的,具有一定的先进性,对恶劣环境下的高可靠计算机系统设计 具有很大的实用价值。 关键字:冗余、容错技术、可靠性、抗恶劣环境加固机、仲裁器 a b s t r a c t t h er e l i a b i l i t yi s o n eo ft h em o s ti m p o r t a n t o b j e c t i v e s i n r e a l t i m ec o n t r o ls y s t e md e s i g n ,e s p e c i a l l yi nt h e m i l i t a r ya n d a e r o s p a c ef i e l d s b a s e do na ni n t e g r a t e dn a v i g a t i o ni n f o r m a t i o n p r o c e s ss y s t e m i nx xs u b m a r i n e t h i st h e s i sr e s e a r c h t h e t e c h n o l o g y a n dm e t h o du s e dt o i m p r o v e t h e r e l i a b i l i t y o f r u g g e d i z dc o m p u t e rf o r h a r s he n v i r o n m e n t ,a n dr e a l i z e st h e d u p l e xm i c r o c o m p u t e rs t a n d b ys y s t e m o ft h e i n f o r m a t i o n p r o c e s s o ri nt h ei n t e g r a t e ds h i pn a v i g a t i o ns y s t e m b yl o o k i n gu pa n dr e s e a r c h i n gal o to ft h er e l a t i v et h e o r y a n da r t i c l e sa b o u tf a u l t - t o l e r a n tt e c h n o l o g yi nc o m p u t e rs c i e n c e o v e r s e aa n dd o m e s t i c ,a f t e r c o m p a r i n g s e v e r a lf a u l t t o l e r a n t r e d u n d a n c y o fh a r d w a r e d e s i g nm e t h o d s ,ad u p l e xc o m p u t e r s t a n d b ys y s t e m s o l u t i o ni s p r o p o s e d i n h a r d w a r e d e s i g n , c p l dd e v i c ei su s e dt o i m p l e m e n t 3 2b i t sc o u n t e rw i t h s e l f - c h e c k i n g f u n c t i o n t h ed u a l c o m p u t e r s w i t c h o v e ri s d e s i g n e dt o r e a l i z ef a u l t t o l e r a n to ft h e s y s t e m ,w h i c ha r et h e , k e yp a r t sf o ra s s u r i n gt h es y s t e mr e l i a b i l i t y a tt h es a m et i m e , t h ed e t a i lm e t h o di sp r o v i d e df o rf a u l t - t o l e r a n tc o n t r o ls o f t w a r e , a n dm a k e ss y s t e mr e a c hah i g h e rr e l i a b i l i t y f i n a l l y ,t h i sp a p e re v a l u a t e st h er e l i a b i l i t yo ft h i sd u p l e x c o m p u t e rs t a n d - b ys y s t e mt h e o r e t i c a l l y t h er e s u l to ft h e s y s t e mi nl a b o r a t o r ys h o w st h a ts o l u t i o np r e s e n ti nt h ep a p e ri s r e a s o n a b l e t h e s y s t e m h a r d w a r ef u l lm e e tt h ed e m a n d o f i n t e g r a t e ds h i pn a v i g a t i o ns y s t e m t h i s p a p e r h a s g r e a t s i g n i f i c a n c e i nt h e e n g i n e e r i n gp r a c t i c e o f i m p r o v i n g t h e r e l i a b i l i t yo fi n t e g r a t es h i pn a v i g a t i o ns y s t e m k e yw o r d s :r e d u n d a n c y ,f a u l t t o l e r a n t t e c h n o l o g y ,r e l i a b i l i t y , r u g g e d i z dc o m p u t e rf o rh a r s he n v i r o n m e n t ,a r b i t r a t i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:裼琳肆盗字隰埘年堋五日 学位论文版权使用授权书 本学位论文作者完全了解盔鲞盘鲎有关保留、使用学位论文的规定。 特授权苤鲞盘茎:可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名 彰蟛荦 聊躲锄 签字日期:如;年,) 月章日签字日期:z 帅弓年,五月名日 第一章概述 1 1 问题的提出和背景 第一章概述 现代战争是高技术、智慧和综合实力的较量,在较量的背后起支撑作用 的就是计算机。计算机的高可靠性、高性能以及计算机的综合应用水平在现 代战争中起着至关重要的作用。 抗恶劣环境加固计算机( 以下简称“加固机”) 是指适用于恶劣环境的 军用计算机”。所谓“抗恶劣环境”意味着能够在下列环境条件下长期工作 和储存: 1 更宽的环境温度和湿度范围 2 强烈机械振动、颠震、冲击 3 防霉菌、防盐雾、耐湿热和耐低气压 4 电源允许有较大的电压波动,交流供电时电压为2 2 0 v _ + 1 0 5 ,有较强的抗电磁干扰、防电磁泄漏和抗核辐射能力 加固机要在这样一个环境中工作,对其生存能力是一严峻的考验。在提 高加固机系统的可靠性方法中,除了采用物理加固措施外,还有两种方法可 以进步提高系统的可靠性:一种方法是避错法,试图构建出一种不包含故 障的“完美”系统,其手段是采用正确的设计和质量控制方法尽量避免把故 障引入系统。第二种方法是容错法,它的基本思想是在系统体系架构上精心 设计,当系统中的某一部分( 或) 整机出现故障时,可以由冗余的部分或整 机顶替故障部分工作,以保证系统在规定的时间内正常地完成规定的功能, 利用外加资源的冗余技术来达到掩蔽故障的影响,从而自动地恢复系统或达 到安全停机的目的。因此,要达到提高可靠性的目标,必须综合利用避错和 容错两种方法。 我们在针对军用加固机系统的设计时,均采取了一系列避错措施,但是 要设计出“零故障率”的系统几乎是不可能的,只要系统的故障率不是零,就 不能保证在执行任务的关键时期内无故障。又由于系统的复杂性和开放性, 也给应用系统的运行带来了许多不确定因素。这些因素严重威胁着应用系统 稳定有效的运行因此,要做到在执行任务的关键时期保证“万无一失”,进 一步提高系统的可靠性,只能依靠容错技术进一步提高可靠性,必须对信息 处理加固机采取容错设计,爿1 能满足系统的高可靠性要求。容错技术借助其 故障自动检测、故障判断、系统重构、恢复等技术使系统能消除故障,恢复 正常,以保证在系统中出现故障时不影响系统的正常工作。 第。章概述 1 2 容错技术简介 容错( f a u l t t o l e r a n t ) 顾名思义是“容忍出错”之意。容错系统的定义是能 够对系统中的软件和硬件故障做出相应处理,以保证整个系统能够不因这些 故障而导致任务处理中断。具备此种能力的系统即为容错系统。 研究容错的目的,在于纠正故障所产生的后果。首先需要对故障及其表 现形式作具体分析。 1 故障及其表现形式“1 计算机系统的故障形式极其复杂,可分为失效、故障、错误。 失效是指硬件物理特性的异变;故障是硬件或软件的错误状态;错误是 指程序或数据结构中的故障表现形式,是故障和失效造成的结果。其因果关 系为失效_ 故障_ 错误一失败。 按时间划分,故障可以分为以下三类: 1 ) 永久性故障:是由元件中的不可逆变化所引起的,无论对硬件和软件 来说,这类故障都是一个不可自动恢复的错误状态。 2 ) 瞬时性故障:这种故障的出现是短暂的,是非重复性的。如瞬时的 外界干扰,元件参数的暂时变化等。这类故障只引起元件当前值的变化而不 导致不可逆变化。 3 ) 间歇性故障:这种故障是短暂的,但却是断续的,它有偶然性、不 定期的重复性。如一个处于临界状态的电路、一个虚焊点都有可能引起这种 故障。 2 故障的处理步骤 划分故障的目的在于针对不同的故障采取不同的容错处理方法,故障的 主要处理步骤如下: 1 ) 故障的检测:为了容忍系统中的故障,系统必须能自动地适时地检 测出这一故障。 2 ) 故障的诊断:根据检测到的系统故障信息,寻找故障源;确定故障的 类型和大小。 3 ) 故障的恢复:在故障的检测和诊断之后,应采用恢复技术,其目的 在于把目前的错误系统状态转换成为一个确定的无错系统状态,以便继续正 常的系统操作。 4 ) 故障的处理:尽管故障恢复阶段可能使系统回到无故障的状态,仍然 需要一种技术确保已被恢复了的故障效应不会立即再现,以便系统继续提供 规定的服务。 第一章概述 首先精确地定位故障,接着是恢复故障或重组系统以避免发生故障。这 一过程形成所有容错技术的基础,也是设计和制造容错系统的基础。 3 ,容错系统的设计原则”1 容错系统设计的一个基本原则是冗余。冗余的代价往往是资金、时间和 体积,如冗余的硬件会增加用户的设备投资、占据更大的空间、功耗更大、 系统运行速度会减慢等。因此设计者往往需根据用户的实际可靠性与可用性 的要求,选择不同的冗余方案。许多容错技术要求使用硬件容错技术和软件 容错技术的有机结合。 在采用硬件冗余系统设计时应该考虑以下几点: 1 ) 单元的可靠性是系统可靠性的基础,必须努力提高其可靠性。 2 ) 对简单并联冗余系统来说,当冗余单元超过一定数量时,可靠性提 高的速度大为减慢,所以不是冗余数愈多,可靠性增长愈快。因此在设计中 要考虑可靠性增长与成本、体积、重量以及能耗等之间的关系,进行优化设 计。 3 ) 在采用冗余设计时,采用何种冗余方法要根据实际情况决定,一般 在级别低的部位采用冗余的效果比级别高的部位效果好。但工程上有时不允 许进行单元级的冗余。例如,火箭动力装置若采用单元级冗余,就意味着各 发动机的许多重要组合件的输入与输出问必须连接在一起。 4 ) 用冗余系统在一定程度上可以使系统的可靠性提高,但在下列情况 下不能采用工作冗余系统:源功率不足;发生失效的单元无法有效地隔离。 4 实现容错计算的主要方法 实现容错计算可以通过硬件冗余、软件冗余、时间冗余和信息冗余四种 方法柬实现。这些方法往往要合理使用才能达到提高可靠性的目标。 1 ) 硬件冗余 硬件冗余是指系统中关键的单元除了工作所需的基本单元之外,另外设 置一个或几个以上的单元,这些冗余的单元可以与工作的单元同时工作,也 可以处于等待工作状态,一旦工作单元出现故障就可以顶替故障的单元继续 工作。 2 ) 时间冗余 时间冗余是用重复执行某段程序甚至整个程序的方法来检测故障或从 故障中恢复工作。时间冗余是通过消耗时间资源来达到容错的。它的一个典 型应用是程序卷回。这种技术用来检验一段程序完成时的计算数据,如有错, 则卷回重新计算那部分:如果卷回一次不解决问题,还可以多次卷回,直 到故障消除或判断不能消除故障为止。 第一章概述 3 ) 信息冗余 信息冗余是靠增加信息的冗余度来提高可靠性的。这些附加信息位具有 如下功能:当代码中某些信息位发生错误时能及时发现错误或者能恢复原来 的信息。信息冗余利用各系统之涮存在的已知函数关系来产生冗余信息,从 而用以检测故障,识别故障。这种冗余多用于动态系统的容错技术中的故障 检测。信息冗余的优点是增加的冗余度比别的方法低,而且许多码的信息位 和校验位在运算中可统一处理。 4 ) 软件冗余 软件冗余通常是针对计算机系统而言,其目的就是防止因软件故障而引 起的系统失败。这些软件包括用于故障检测和诊断的软件,执行错误恢复和 缺陷处理的软件等。 从系统结构而言,有两种软件冗余方式:静态冗余和动态冗余。静态冗 余方式构成的容错软件系统,需要冗余硬件的支持,如n 个独立程序在独立 的硬件模块中运行,其典型的代表时“n 份程序”( n v p ) 结构。用动态冗余 方式构成的容错软件是通过备份软件来实现的。这种结构由单机支持,其代 表是“恢复块”( r b ) 机构 5 ) 各种冗余技术的综合应用 要实现一个容错系统,必须根据系统所确定的可靠性指标、成本诸多因 素选择适当的冗余方式。一般而言,信息冗余的冗余度低,效率高,在逻辑 域中获得了广泛的应用;各种硬件冗余适合于各个级别,所用级别越低,可 靠性越高,但会增加成本;软件冗余成本高;对程序比较固定的地方可采用 时间冗余。在一些可靠性要求极高的系统中,往往要综合应用各种冗余技术, 取长补短,已达到最佳的效果。 出于计算机系统在国防、航空、金融、交通及工业控制中应用越来越广 泛,因而对其可靠性的要求也越来越高。在一些重要的应用场合,如宇航发 射控制中心、指挥中心,要求在执行任务期间要保证“万无一失”。当一个系 统已具有很高的可靠性,再要求进一步降低故障率、提高平均无故障时f 刚, 就需要付出高昂的代价。只要系统的故障率不是零( 零故障率是不可能的) , 就不能保证在执行任务的关键时期内无故障。这种苛刻的要求,只能依靠容 错技术进一步提高可靠性。容错技术借助其故障自动检测、故障判断、系统 重构、恢复等技术使系统能消除故障,恢复正常,以保证出现故障时不影响 系统的正常工作。由于容错系统具有极高的可靠性,对于许多无法承受由于 系统出现故障带来的灾难性后果的重要部门,几乎都采用了容错技术来保证 其重要数字系统的可靠性。 4 第一章概述 1 3 容错加固机的国内外研究现状 在国外,起初,人们从四个二极管串并联代替单个二极管工作可以提高 可靠性的事实得到启发,研制了4 倍冗余线路:6 0 年代末,出现了以白检、 自修s t a r 型计算机为代表的容错计算机;7 0 年代容错技术研究蓬勃发展的 时期,应用范围迅速从宇航领域扩展交通、工厂自动化、医院病人监护、银 行、证券、空港管理及国防领域。近年来是超大规模集成电路和微计算机技 术迅速发展和广泛应用的时代,容错技术的研究也随着计算机技术的普及而 深入到整个工业界,许多国外公司生产的商用容错计算机,如s t r a t u m s i b m s y s t e m 8 8 ,t a n d e m l 6 等已商业化并推入市场。 美国在7 0 年代就投入了大量的经费研制军用容错计算机,己研制出多 种用途的容错计算机,如适用于无人宇宙飞船、卫星等控制系统的长寿命系 统;适用于车载、舰载等应用的延迟维修系统等,其军用容错计算机在性能、 可靠性等方面居世界领先地位“。 从1 9 9 1 年海湾战争以来,美国的军费开支逐年大幅度增加,但还是负 担不了军用领域的极大需求,容错军用计算机的性能日显陈旧。随着商用计 算机技术日新月异的发展,许多技术已经达到甚至超过军用水平,可以直接 应用到军事应用中去。于是出现了种新的“商用即军用”的理念。为了减 少重复开发的费用,采用当前主流、成熟的、高性能的商用计算机技术,主 要在功能和专用软件、计算机的结构组装、系统工艺、质量控制等上下工夫, 使研制出的计算机能在恶劣环境下稳定可靠地工作。经过了科索沃、阿富汗 战争,在这十几年的不断改进,相信在伊拉克战争中使用了大批的高性能容 错计算机,军备大幅度改良,高科技武器的发展迅速。 我国容错加固机的研制起步相对较晚,多数是各军种针对特定需要设计 的专用容错系统。以某研究所1 9 9 2 年研制的x x x x x 4 8 6 抗恶劣环境计算机为 例,该容错计算机是为舰载使用设计的,它的目标是开发出一个具有通用特 性的实时容错计算机系统,利用原有m u l t i - b u s 总线的加固模块来实现容错 计算,使之在指挥控制系统等要求高可靠的实时系统中得到广泛的应用。系 统总体性能特点如下”,: 1 ,高可靠性。系统提供足够的硬件模块冗余,系统自动实现了容错计 算的各个环节。 2 快速响应能力。x x x x x 4 8 6 容错计算机建立了多处理机运行环境, 多处理机独立地、并行地工作,既可以共享系统的公用软硬件资源,又拥有 自治的资源实现分布式处理。 第一章概述 3 兼容性。与i n t e l 公司的m u l t i b u s 硬件模块兼容。 其系统结构如图卜l 。 凹“ 黜 呲从 叭 ll1l802867 3 27 2 45 3 450 9ii0 5 6 b1 l1 lf llll m u t i b u s 总线 软驱两串一并 图卜1x x x x x 4 8 6 计算机系统结构 虽然该容错计算机在一定程度上满足了高可靠军用计算机的要求,但也 存在着许多不足: 1 该系统是为兼容多总线系统而设计的一个过渡性产品。只是对 m u l i t i - b u s 局部功能模块的容错设计,并没有从整体系统的角度进行容错设 计。 2 m u l i t i - b u s 功能模块集成度不高,相对体积较大。不能适应新型舰 载设备对体积和重量等的要求。 3 由于设计较早,技术和配套芯片已经接近淘汰,关键芯片在国外已停 产,往往需花费几十倍的费用去采购。 为了避免以上这些问题,该项目在进行容错系统设计时应用当前先进的 c p l d ( c o m p l e xp r o g r a m m a b l el o g icd e v jc e ) 高密度可编程芯片和先进的 v h d l ( v i r t u a lh a r d w a r ed e s i g nl a n g u a g e ) 设计技术,从整体上进行容错 设计,在功能逻辑层和软件层引入冗余设计方法,使研制出的计算机具备了 客错、避错的能力。适用于x x 舰用综合导航信息处理加固机双机备份系统。 6 第一章概述 1 4 论文的研究工作 本文以x x 舰综合导航显控台中信息处理加固机( 以下简称为综导双机备 份系统) 的研制过程为背景,研究提高抗恶劣环境加固计算机可靠性的容错 技术和方法,实现具有容错功能的综导双机备份系统。可以推广到各种水面 舰艇的综合导航系统中,从而提高我们水面舰艇的综合实力。 本文研究的主要内容: 1 _ 参阅国内外大量资料和我单位现有技术资料,对当前提高可靠性的 主要容错技术进行了深入研究和分析。 2 对适用于本系统的几种硬件容错设计方法加以分析、比较;对容错 工怍方式进行了深入细致研究,提出了适合于x x 舰综合导航显控台使用的综 导双机备份系统技术方案。该系统依据相关国军标、可靠性设计标准进行设 计,由主、付处理机构成的双机系统组成,从硬件平台的角度保证了系统的可 靠性。 3 确定了组成综导双机系统的主要功能模块;设计了系统中的通讯模 块、计程仪模块以及双机系统仲裁模块,在硬件设计中采用了c p l d 高密度可 编程芯片,通过先进的v h d l 语言进行逻辑设计。设计了带有自检功能的3 2 位计数器、对计程仪设备的数据进行采集,并对其结果进行了仿真,仿真结 果表明了设计的正确性。在双机仲裁模块中设计了双机备份系统进行同步的 同步装置、双机通讯平台的双端口r a m 存储器和实现容错所需仲裁、切换电 路。 4 对应用软件和系统管理软件提出了具体的容错方法,使系统整体的 可靠性通过软件平台得到进一步的提高。实现了该系统对可靠性的设计要求。 5 本文对系统建立了可靠性数学模型,并在理论上进行了可靠性分析, 结果表明综导双机备份系统的可靠性较原单机系统有很大的提高。 第二章系统总体方案的选择 第二章系统总体方案的设计 2 1 综导双机备份系统总体概述 随着科学技术的不断进步,现代化舰船的导航系统也在不断发展,逐步 采用计算机技术。综合导航就是利用计算机技术和数据处理技术,把具有不 同特点的单一导航设备有机地组合在一起,对多种导航信息综合优化处理, 达到提高精度和提高可靠性的一种导航系统。 x x 舰综合导航系统是以电罗经和计程仪为主导航设备,以其它导航设备 为辅的一种综合导航系统。采用数字滤波、优化组合等一系列的数字处理技 术,对各种导航设备进行取长补短,构成冗余的导航方式,从而达到提高精 度的目的“o 。 综合导航系统的主要组成如图2 一l 所示。 甲甲甲甲宁甲掣 综导双机备份系统 i 测控、作战、指挥系统 图2 1 综合导航系统组成示意图 综合导航系统的主要任务是: 1 全天候、全球性、连续航海导航 2 实时记录、显示各种导航信息 3 对多种导航信息进行综合、优化、误差补偿,以提高精度 4 通过网络向作战、指挥系统等提供准确的导航信息 5 对各种导航设备的工作状态监视,有故障报警功能 6 对航行的数据进行双机备份 第二二章系统总体方案的选择 7 导航方式冗余,并自动地进行切换 8 为航保部门准确地提供航向、航速、艇位、航行计划到达点距离, 保证航行安全 x x 舰综导双机备份系统是x x 舰综合导航系统的核心部分。从它的实时 作战总体要求出发,主要完成以下三项主要任务:一是实时、快速、准确地 把各个单的导航设备的信息进行接收,监控各导航设备的工作状态;二是 对各种导航信息进行综合处理,如滤波、优化组合、信息备份、矩阵运算等, 实时自主地进行舰位推算,自动计划导航作业;三是将接收来的数据以及综 合处理完的数据及时发送到测控系统、作战系统和指挥系统,如到自动舵、 电子海图等其它应用系统。系统的可靠性指标m t b f 1 1 5 0 0 小时。 根据以上任务要求,确定该系统必须具备以下基本功能模块: 图2 - 2 信息处理机系统框图 x x 信息处理机系统参照以下文件进行设计。 总参、国防科工委( 2 0 0 1 ) 技七字第x x x x 号批复( x x 舰综导双机备份系 统战术技术指标 海军装备技术部、船舶工业总公司船总军( 2 0 0 1 ) x x x x 号关于x x 舰综 导双机备份系统研制任务书的批复 g j b 4 1 4 1 3 8 3 舰船电子设备环境试验 g j b l 5 l 一8 6 军用设备和分系统电磁发射和敏感度测量 h j b 3 4 9 0 舰船电磁兼容规范 x x 舰综导双机备份系统技术规格书、研制任务书 根据以上战术技术指标和标准,该综导双机备份系统采用高可靠性的抗 恶劣环境计算机7 j s p 系列机型,符合我国军用标准要求。在结构上采取了 系列的加固和避错措施,提高了计算机系统的可靠性。 从系统的主要任务可以看出,综导双机备份系统是x x 舰整个导航系统 的核心部分,它对舰船的安全航行起着至关重要的作用,系统的可靠性指标 较高,原单机系统的可靠性指标己不能满足其要求,所以对其硬件采取容错 设计。 9 第二二章系统总体方案的选择 下面主要分析常用的两种硬件容错设计方案一模块级容错设计和计 算机级容错设计。 2 2 硬件容错技术 真正实现系统容错,达到不停顿处理信息且不降低性能的方法必须采用 硬件冗余”“。硬件容错技术是采用多套硬件来保证当个别单元( 该单元可以 是元器件级、模块级或计算机级) 故障时,系统的工作不受影响。硬件冗余 包括计算机级、模块级和元器件级的三级冗余。从理论上讲硬件冗余应该放 在低层的元器件一级,系统的可靠性较高。然而越是底层的冗余方式给故障 测试和电路设计带来的困难也越大,同时如果一台计算机使用了大量的元器 件,那么将增加元器件数量和内部连线,使系统过于复杂,而且成本加大。 基于以上原因,在实际应用中,冗余设计大部分放在功能模块一级甚至 计算机整机一级,利用检测和切换等装置实现检错和纠错。 对于该综合导航信理处理机系统来说,由于对所采用的各模块已经采取 了一定的避错措施,如精心设计,元器件的老化筛选,进行严格的质量控制, 提高加工工艺等等,其本身可靠性已经较高,采用3 模以上的冗余模式对系 统的可靠性提高不大,而舰船上的空间十分狭小,采用双机就能满足本系统 对可靠性的要求。因此,本文只分析二模的模块级与计算机级的容错设计。 2 2 1 模块级的窖锚 模块级容错计算机系统是以各个功能模块为单元部件实现的容错系统。 下面以二模为例简单介绍其工作过程,如图2 - 3 示。 图2 3 部件级容错系统示意图 在模块级容错方案中,各模块均带有各自的检测电路,每个模块的输出 分别接到切换器,自检测器控制着切换器。如果双模均j 下常,任选其中之一 作为输出;如果有一个模块出现故障,则它的检测器立即检测出其故障存在, 并控制切换器,封锁该模块的输出,并令其停止工作。输出另一j f 常工作的 模块,由该模块代表本级工作向f 一数提供输出。 o 第二章系统总体方案的选择 2 2 2 计算机级的容错 在实时性要求严格的环境里,系统整体的可靠性是非常重要的因素。计 算机级的容错设计是由两套( 双机容错备份系统) 或多套相同计算机构成的 具有容错功能的系统。双机容错备份系统是最常用的一种,使用双机备份系 统可以大大提高系统的可靠性。 在民用许多领域如证券、银行、医院、交通部门等,为防止数据丢失造 成巨额的损失,当系统崩溃时能迅速恢复运作,采取双机备份系统,可以防 止因主机无法正常运作而造成的数据丢失,双机容错的目的在于保证数据永 不丢失和系统永不停机。 目前,比较通用的实现方法是利用网络、智能型磁盘阵列柜、服务器等 来实现。利用两台服务器,一台称之为主服务器p r i m a r yh o s t ,另一台为从 服务器s e c o n d a r yh o s t ,正常情况下,主服务器将从服务器“输出”的硬盘 视为一个外部的磁盘设备,专用数据链路担负着传输镜像数据的任务,互相 监视对方的运行情况。从服务器不仅镜像主服务器的硬盘数据,而且还实时 监测主服务器,并不断完成同步操作,一旦发现主服务器出现故障,不能支 持信息系统正常运营,则停止其工作,自动接管( t a k eo v e r ) 异常机的工作, 继续主持信息的运营,完成预定的功能,这样主服务器就可以像对本地硬盘 一样读、写从服务器上的硬盘。保证了用户数据的可靠性和系统的持续运行, 从而保证信息系统能够不间断的运行,双机容错的目的在于保证数据永不丢 失和系统永不停机。 计算机级的双机容错系统示意图如图2 - 4 所示。“。 图2 4计算机级的容错系统 第二章系统总体方案的选择 2 2 3 计算机级与模块级容错的比较 假定有一台计算机是由n 个功能模块构成的,我们可以如图2 5 那样分 别构成图( a ) 那样的计算机级的二模系统,也可构成如图( b ) 那样的模块 级的二模系统。 a _ 一- 电鎏一;i 一摩 上 ( a ) 计算机级的双机系统( b ) 模块级的双机系统 图2 5 计算机级与模块级的双机系统比较 对两种容错方案的比较,可以归纳如下几点: 如果系统中任何一个模块出现故障,那么对模块级的二模系统来说,只 要不是致命故障,且互为备份的模块能够正常工作,系统就能够正常工作, 同时也是一个容错系统。 系统级容错则不然,如果一个模块出现故障,那么含有此模块的计算机 将会出错,这台机器将停止运行,此时系统就降为单机运行了,不再是一个 容错系统了。 此外,假定在计算机运行时,同时有两个模块出现了故障,如图2 5 中 模块a 2 和a 3 同时出故障,这时模块级系统仍然可以正常工作,但系统级却 出现了双机均错而造成整个系统瘫痪的局面。从这个直观概念上来看,模块 级系统较计算机级有较好的纠错能力和较高的可靠性,尤其是在同时出现多 故障的情况下,这种差异会更明显。 第二章系统总体方案的选择 2 3 系统软件不同的工作方式 双机系统根据其冗余资源部分工作情况可分为“热备份”和“冷备份” 两类。 冷备份的冗余部分处于静止待命状态,也称之为“待命储备方式”。 热备份的冗余部分与工作部分同时参与工作,如接受输入数据、进行数 据处理等,但冗余部分不参加操作,即不输出。一旦工作部分故障则自动( 或 人工) 切断故障部分,而其余部分继续工作,这种工作冗余又分为双机并联 冗余、负荷分担冗余。 以下就几种常用的工作方式加以介绍。 2 3 1 待命储备方式 待命储备方式是指一台机器为正常工作状态,而另一台机器只是处于待 命状态,它只做一些自测试和监督工作机状态等简单工作。当工作机出现故 障时,待命储备机则自动替换故障机,将故障机隔离或挂起,转为单机运行 状态。 储备级别可根据需要选在系统级或功能模块级。 这种方式的主要优点有以下几点:可靠性高,系统结构简单,切换控制 逻辑电路简单,系统软件也简单,较易于工程实现。 它的主要缺点是:由于冗余部分处于静止待命状态,但它替换工作机后 需要进行初始化等一系列的工作,所以切换时间较长。 2 3 2 负荷分担冗余方式 负荷分担冗余方式的思路是:在双机都不存在故障的情况下,双机可按 照所分配的不同功能的程序同时运行,以期获得较高的处理能力。它们可并 行处理构成左、右手;也可串行处理构成前、后台。双机共同承担整个实时 过程控制系统的控制任务。当一台机器发生永久故障后,不是简单地用一台 取代另一台,而是任务的重新调整,功能降级,由一台机器继续完成。转为 单机运行后可有两种工作状态:一是只降低处理速度,而保留双机运行时的 全部功能;二是删除部分次要功能,而保留系统的主要功能。 这种方式的主要优点在于兼顾了处理能力和可靠性两个方面。系统资源 得到了最大程度的利用。 缺点是增加软件的难度和工作量。如出现故障,将面临任务的重新调整, 功能降级,系统的性能将下降。如果是瞬时故障,重新启动还要有诸如初始 化、归队等软件运行,占用一定的系统资源。 第二章系统总体方案的选择 2 3 3 双机并联冗余方式 对于双机并联冗余方式,双机系统除了两套硬件系统外,还需要配置专 用切换软件和管理软件。 为了确保系统正常运行,必须不断地进行两种检查:联机相互健康检查 及检查点检查。联机相互健康检查是在系统服务的过程中,校验程序每隔一 定时间或利用中央处理机的空闲时间自动启动,在两台计算机( 计算机a 及 计算机a ) 之间相互进行。 这两种检查都要占用计算机一定的资源和开销,并且用户在应用程序中 要设置检查点,占用计算机系统的工作时间,计算机的效率有所下降。 各自带有自检测装置的两台计算机同时运行相同的程序,执行相同的任 务,通过事务处理中的检查点检查,交换中间运算结果或最终结果,进行比 较,相互校验处理结果,若双机工作正常,结果一致,自检测装置通过“切 换装置”任选一个输出作为正确的输出;若结果不一致,则可以发现相对错 误;然后每台计算机分别实施本机自诊断检查,就可以判别是那一台机器出 了故障,判别故障机后,令其停机,封锁其输出,由另一台计算机继续工作, 完成预定功能。 通过屏蔽瞬时故障、间歇故障;检测出永久故障各种检测技术后,隔离 故障机,进入维修,系统转入单机运行状态。有关的“停机、封锁、切换” 均由切换装景来完成。该切换装置是在检测器控制下执行操作的,这样的系 统既可以纠正永久性故障,又可以纠正偶然性故障。 对于永久性故障来说,这样的系统有比较明显的纠错效率,而对于偶然 性故障来说,所花的代价就显得太大了。因为每检测次错误,就要切换一 次,并停止一台计算机工作,如果再重新启动它还要有诸如初始化、同步、 归队等软件运行,这种协同系统的不足还有双模必须保持一定范围内的同 步、通信占用一定的系统开销。 在并联运行的两台计算机中,对于各路输入信息,两台计算机的地位完 全相同。但只允许台计算机( 主机或称“上岗机”) 输出,并对整个实时 过程控制系统进行控制。另一台计算机( 副机或称“下岗机”) 进行假输出 或空操作。 该方式的优点在于故障诊断依靠自测试程序实现,故障检出性好,故障 定位程序简单。这里对自测试程序的要求,仅仅是提供本机是否存在故障的 信息。实际上,并联比较双机系统的故障测试程序是通过比较实现的。它的 另一优点是切换时间较短。这些优点很适合于实时性要求强的应用场合。 4 第二章系统总体方案的选择 2 4 综导双机备份系统方案 双机容错是计算机应用系统稳定、可靠、有效、持续运行的重要保证。 通过系统冗余的方法解决计算机应用系统的可靠性问题。 在硬件上,我们采取以下综合设计方法: 由于电源在系统中起着及其重要的作用,所以电源部分采用自动负载平 衡的双冗余电源,两块相同的容错电源放在独立的加固电源箱内。双电源正 常工作时平均承担负载,减小了各电源的负载,提高了电源的使用寿命。一 旦其中一个电源发生故障,另一个电源立刻承担所有负载,并设有声光报警, 将坏电源从系统中隔离,此时可在不影响系统正常工作的情况下更换电源。 易于发现并排除故障。这样,只要有一个电源模块正常工作,系统仍然能够 稳定可靠地工作。 主机模块选用集成度高、功能强、成熟的定型产品。由于主机模块的故 障检测点太多,切换控制过于复杂,所以对其硬件没有做任何改动,只在软 件级对其进行检测。根据系统需要配置通讯模块、计程仪等接口模块,以完 成各项基本任务。该容错加固机系统框图如图2 - 6 所示。 图2 - 6 容错加固机系统框图 为了实现双机备份,在该系统中设计了双机系统仲裁模块。在该模块 中了设计有双机系统进行同步的同步装置、双机通讯平台的双端口r a m 存储 器和实现容错所需仲裁、切换电路。对系统输出部分根据双机的工作状态采 取比较、仲裁输出。如当a 机中的某一通讯端口出现故障时,则自动切换, 第二章系统总体方案的选择 由b 机中互为备份的端口发送数据。这样设计的理由是对于各个接口通道可 以做到元件级的冗余,只要系统中互为备份的两个接口通道有一个在正常工 作,系统就能完备地、可靠地运行,从而大大地提高了系统的可靠性。 由于e l 显示器本身的可靠性很高,又因其成本高、舰艇上空间狭小等 原因,在本系统中两个处理机共用一个e l 显示器。 在软件上,针对该综导双机备份系统的技术指标,选择使用双机并联冗 余工作方式。这是因为: 1 综合导航系统是一个实时测量系统,它本身要求较高的实时性,待 命储备方式的可靠性高,但故障检出性能差,不能及时检测出瞬时故障,也 就不能屏蔽它对系统的影响,而且,它的切换时间较长,所以不适于本系统。 2 负荷分担冗余方式虽然兼顾了处理能力和可靠性两方面,资源得到 了最大程度的利用,但是如出现故障,将面临任务的重新调整,系统的功能 将下降,软件系统过于复杂。采用双机备份方案旨在进一步提高系统的可靠 性,所以对于综合导航系统不宜采用此方案。 综导双机备份系统的工作过程是这样的:双机同时运行相同的程序,定 期向双端口r a m 存储器中发送反映其工作正常与否的状态字,对所采集的数 据、中间运算结果或最终结果也按照一定的格式写入双端口r a m 的各对应单 元中。双机对运算的结果进行比较,在双机正常工作时,由a 机输出,这两 台计算机的地位完全相同,b 机和a 机一样f 常工作,并实时监视a 机的工 作状态。一旦b 机监视到a 机中的主机模块出现故障时,由双机仲裁模块切 换,及时替换a 机,b 机成为“上岗机”。a 机在成为“下岗机”后,复位重 新开启,如能正常工作则系统回到双机状态;如不能正常工作,系统则成为 单机工作方式,并向系统提出报警。 对于通讯模块和计程仪模块,系统设计为元件级的冗余方式,只要互为 备份的接口通道有一个是正常的,就能可靠地运行。如检测出a 机中的l # 通 讯端口和b 机中的2 # 通讯端口出现故障,系统则采集b 机中的1 # 通讯端口和 a 机中的2 # 通讯端口的数据。而不因为这两个端口损坏造成系统功能的降低。 系统在这样的工作方式下能够及时地检测出瞬时故障,从而有效地抑制 了瞬时故障的影响,它的故障检出性能好,实时性高,因而很适合于x x 舰综 合导航的双机备份系统。 2 5 小绪 本章对提高系统可靠性主要的硬件容错方法和软件容错工作方式进行 了细致的分析,确定了适用于该系统的硬件和软件容错方案一双机热备份。 第三章系统的硬件设计 3 1 系统硬件架构 第三章系统的硬件设计 依据x x 舰综合导航系统导航设备的配置和系统的任务要求,为可靠准确 地完成各项任务,确定综导双机备份系统是由以下各部分组成: 系统结构图见图3 一l 8 槽的a t r 机箱一个 图3 - 1 系统结构图 加固键盘1 个 加固e l 一台 第三章系统的硬件设计 由于待处理的数据量很大,运算较复杂,要求主机处理速度高,性能可 靠,所以采用成熟的、高性能的主机模块,以提高运行速度,满足可视化图 形操作界面、复杂的控制算法的要求。 主机模块设计为a l li no n e 模式,采用了军用元件级加固技术,改进 了传统的导热板式的热设计技术,取而代之为散热壳体结构,元器件9 0 以 上选用c m o s 低功耗器件,采用s m b 回流焊接技术,输入输出信号采取e m c 电磁兼容技术处理。所有这些措施使得模块的结构紧凑,集成度高,功能强, 功耗较低,散热性能好,硬件性能稳定可靠。具有抗冲击、抗灰尘和抗高低 温等恶劣环境的特点。 主总线采用双9 6 芯连接器,i s a + p c i 总线结构,通用性好,可扩展8 个i s as l o t 和3 个p c is l o t 。 其主要有以下功能: i c p u 采用i n t e lc e l e r o n4 5 0 m 1 g h z 。 2 ,内存:2 5 6 m bs d r a m ; 3 高速缓存:2 5 6 k b 同步c a c h e 。 3 2 m b :翥篇喜篡至i j v 2 卧0 4 届8 5 3 6 篆。 配z 一块 ,显示分辨率最高可支持到 1 高彩。 一一 5 ,内置a c 9 7 声卡,可以实现声光报警。 6 一个i d e 电子盘接口,由于电子盘的抗振动、冲击的能力较硬盘强, 可靠性高,所以在本系统中采用电子盘。 7 一个数字显示接口,直接驱动e l 显示器。 8 两个串行接口分别与互为备份的另一块主机模块的两个串口相连,作 为双机通讯、交换信息的备份通道。 9 看门狗定时器:可产生一个系统复位或中断信号。当使用看门狗时, 系统需对其进行初始化,并定期地设置看门狗,防止系统正常运行时,看门 狗溢出而误报。反应时间间隔可设为1 到6 3 秒。 1 0 内置双i n t e l8 2 5 5 91 0 0 m 自适应网卡:可对外( 如作战系统、指挥系 统等) 交换数据、发送数据。可实现双机或多机联网。最高速传输速率可达 l o m b p s 。 对于通用的加固机箱、加固e l 以及加固键盘在本文中就不加

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论