(计算机应用技术专业论文)空管系统中若干可靠性技术的研究与应用.pdf_第1页
(计算机应用技术专业论文)空管系统中若干可靠性技术的研究与应用.pdf_第2页
(计算机应用技术专业论文)空管系统中若干可靠性技术的研究与应用.pdf_第3页
(计算机应用技术专业论文)空管系统中若干可靠性技术的研究与应用.pdf_第4页
(计算机应用技术专业论文)空管系统中若干可靠性技术的研究与应用.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机应用技术专业论文)空管系统中若干可靠性技术的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

空管系统中若干可靠性技术的研究与应用 计算机应用技术专业 研究生赵巍指导教师游志胜教授 摘要: 空中交通管制系统( a t c ) 系统中的业务特点是实时性强,可靠| 生高,并且 处理业务不能中断:尤其在可靠性方面有很高的要求。针对a t c 系统的这些特 点,本文根据在川大智胜相关项目的研发工作,从整个空管系统的可靠性的角 度,针对空中交通管制监控模块的若干关键技术,进行了大量深入细致的研究。 本文研究的主要问题如f : 双机热备份系统的设计和实现:相对于前期的双机系统,鉴于空管系统对 实时性的高要求,在双机管理进程中加入主动探测被管理进程的机制,与以前 超时探测机制相结台,更精确的把握主从切换的时机,提高系统的可靠性。并 根据空管系统的进程繁多复杂的实际情况,提出了被管理进程优先级的思想, 设计了一种优先级判定算法,取得了电好的效果。 双网冗余技术及其实现:双网冗余保证了网络数据通信的准确可靠,是空 管系统重要的冗余措捕。它采用了两个物理子网并行工作的模式,当一个子网 出现故障时,后备子网能继续提供网络通信的功能。主要包括硬件配置、工作 方式、网络切换、故障诊断定位等多方面内容。 对s n m p v 3 的研究:监视与控制子系统监视整个空管系统的工作状态。它是 整个系统正常运行的保证。目前的监控子系统是全面基于s n m p v 2 的。从可靠 性的角度来讲,由于s n m p v 2 协议本身存在着安全隐患,并且监控子系统也提 供与外界进行通信的接口,这对整个a 丁c 系统来说,增加了网络安全方面的威 胁。而s 皿v 3 采用u s e r - b a s e d 安全模型提供s n m p 网络管理的可靠性。本文 将从s n m p v 3 的体系结构着手,就u s m 巾s e t - b a s e ds e c u r i t ym o d e l ) 基于用户的 安全模型和v a c m ( v i e w b a s e da c c e s sc o n t r 0 1 ) 基于视图的访问控制模型两方面 来研究s n m p v 3 的可靠性。 目前所设计的双机系统以及双网冗余的方案均已经在公司某大型项目中实 现,从用户的反馈情况来看满足用户的需求。在监控模块中,通过仿真试验, 能够在基于s n m p v 3 的代理端获取系统信息,并分析了s n m p v 3 安全特性所带来 的附加开销对网络系统性能的影响,得出以下结论:s n m p v 3 的安全机制( 尤其 是加密时) 对系统性能的影响主要体现在处理器负荷增加方面,而对通信链路的 影响则是次要的。 关键词:可靠性:双机热备份系统:双网冗余;系统监控;s n m p v 3 a b s l m r e s e a r c ha n da p p l i c a t i o no ft h er e l i a b l et e c h n o l o g i e s i na i rt r a f f i cc o n t r o ls y s t e m m a j o r :c o m p u t e ra p p l i c a t i o n g r a d u a t e :z h a ow e it u t o r :p r o f y o uz h i s h e n g a b s t r a c t : 1 ka i r1 h 币cc o n t r o l ( a 1 1 c ) s y s t e mr e q u i r e sh i g hr e a lt i m ea b i l i t ya sw e l la s h i g hr e l i a b i l i t y 1 1 1 es e r v i c ep r o v i d e db yt h ea t cs y s t e mm u s tn o tb ei n t e r r u p t e d s o r e l i a b i l i t yr e q u i r e m e n ti se s p e c i a l l yn e e d e dt ob em e t b a s e do nt h e s ec h a r a c t e r i s t i c s o f a t cs y s t e m a n do nt h eb a s i so f t h er e s e a r c hw o r ki nt h ew i s e s o rl t d i ns i c h u a n u n i v e r s i t y , t h ea u t h o rh a sd o n eag r e a td e a lo fd e e pa n dd e l i c a t er e s e a r c h e so ns o m e k e yt e c h n o l o g i e s i nm o n i t o ra n dc o n t r o ls u b s y s t e mo fa t cs y s t e m a l lt h e r e s e a r c h e sa r er e l a t e dt ot h er e l i a b i l i t yo f a t cs y s t e m t h em a i np r o b l e m st h i st h e s i s i n t e n d st oe x p l o r ea r e j u s tb e l o w : d e s i g na n da p p l i c a t i o no ft h ed u a lr e d u n d a n c yb a c k u ps y s t e m :c o m p a r e dt o t h ef o r m e rb a c k u ps y s t e m ,t h ea t cs y s t e mh a v eh i g hr e q u i r eo nr e a lt i m e t h e m e c h a n i s mo fp o s i t i v e l yd e t e c t i n gt h em a n a g e dp r o c e s si sa d d e dt ot h em a n a g e m e n t p r o c e s s n l i sm e c h a n i s m 谢t l lt h ec o m b i n a t i o nf o rt i m el i m i to f t h ef o r m e rs y s t e m 。 t h en e wo n ed o e st h es h i f t so fm a j o ra n dm i n o rm a c h i n e sm o r ea c c u r a t e l ya n dt h e n m a k e st h es y s t e mm o r er e l i a b l e i na d d i t i o n , d u et ot h ec o m p l e x i t ya n dv a r i e t yo f t h e p r o c e s si na 1 陀s y s t e m 鞠i d e ao fp r i o rm m a a g e dp r o c e s si sp u tf o r w a r da n dap r i o r j u d g i n ga l g o r i t h mi sd e s i g n e d t h r o u g hi n v e s t i g a t i n ga n ds t u d y i n g ,t h ea l g o r i t h mh a s b e e np r o v e df e a s i b l e + d i - l a nr e d u n d a n c yt e c h n o l o g ya n di t s a p p l i c a t i o n :d i l a nr e d u n d a n c y g u a r a n t e e st h eq u a l i t yo fn e t w o r kc o m m u n i c a t i o n i nt h i ss y s t e mt w op h y s i c a li n d e p e n d e n c e “i a b s t r a c l n e t w o r k sa r ea p p l i e d w h e no n ei sd o w n , t h eo t h e ri sa b l et os u b s t i t u t et h ef o r m e ro n e d 卜l a n r e d u n d a n c ym a i n l yi n c l u d i n gh a r d w a r ec o n f i g u r a t i o n ,w o r km o d e l s ,l a ns w i t c h , d i a g n o s i sa n dl o c a t i o no ff a u l t ,e t c r e s e a r c ho ns n m pv 3 :m o n i t o ra n dc o n t r o ls u b s y s t e mi st o s u p e r v i s et h e w o r k i n g s t a t u so ft h es y s t e m ,r a d a ri n t e r f a c e ,f l i g h td a t ap r o c e s si n t e r f a c ea n ds oo n i ti st h eg u a r a n t e eo ft h en o r m a lo p e r a t i o no ft h ew h o l es y s t e m m o n i t o ra n dc o n t r o l s u b s y s t e mn o w a d a y si sb a s e do ns n m p v 2 b e c a u s et h e r ei sh i d d e nd a n g e ri n s n m p v 2p r o t o c o la n dt h ei n t e r f a c et ot h eo u t s i d ei sp r o v i d e db ys u b s y s t e m ,t h e i n t e m e ts a f e t yi st h r e a t e n e di na t cs y s t e m s n m pv 3w o u l dm a k es n m p m a n a g e m e n ts a f eb yu s i n gu s e r - b a s e ds e c u r i t ym o d e l b a s e do nt h es t r u c t u r eo f s n m p v 3s y s t e m ,t h et h e s i sw o u l de x p l o r et h er e l i a b i l i t yo ft h i ss y s t e mf r o mt w o a s p e c t s :u s mf u s e r - b a s e ds e c u r i t ym o d e l ) a n dv a c m ( v i e w - b a s e da c c e s sc o n t r o l m o d e l ) t h ed u a lr e d u n d a n c yb a c k u ps y s t e ma n dd i l a n r e d u n d a n c ys y s t e mh a v eb e e n e m p l o y e di ns o m ea t cs y s t e mp r o j e c t a n ds a t i s f a c t o r yr e s u l t sh a v eb e e nr e c e i v e d f r o mu s e r s a c c o r d i n gt ot h ee m u l a t i o nt e s t , s y s t e mi n f o r m a t i o nc a nb eg o tf r o mt h e p r o x ya c c e s so fs n m p v 3i nt h em o n i t o ra n dc o n t r o ls u b s y s t e m 黝t h ea n a l y s i so f i n f l u e n c et on e t w o r ks y s t e mp e r f o r m a n c eb r o u g h tf r o ma d d i t i o n a l e x p e n s eb y s n a f p 、,3s a f e t y , t h i sp a p e rg e tt h ec o n c l u s i o nt h a tt h ei n f l u e n c eo fs n m p v 3s a f e t y s y s t e m ,e s p e c i a l l yw h e ne n c r y p t e d ,t ot h e , # h o l es y s t e mm a i n l yl i e si nt h ea s p e c to f d e a l i n gw i 也c h a r g ei n c r e a s eo fp r o c e s s o rw h i l et h ei n f l u e n c et oc o m m u n i t yl i n ki s m i n o r k e y w o r d s :r e l i a b i l i t y ;d u a lr e d u n d a n c yb a c k u ps y s t e m ;d i l a nr e d u n d a n c y ; s y s t e mm o n i t o r ;s n m p v 3 四川大学硕士学位论文 1 绪论 1 1 空中交通管制系统 空中交通管制系统是广泛应用于航空部门的空中交通控制和管理系统。它 用于管理和控制各类飞行事务,有效调整飞行事务计划,控制和防止飞行交通 事故。空中交通管制系统一般分布在不同的地理位置,安装在各个不同的空管 区域中心,如机场或各个航管站。空管控制系统通过前端雷达数据处理系统获 得对本区域飞行事务的实时数据,实时她对本区域的飞行事务进行调控。并维 护着本区域的飞行计划数据库系统,通过各类通讯设备与其他的空管区域进行 着飞行控制信息的交互。由于空中交通事务有重大的安全性和可靠性要求,直 接关系到飞行人员的生命安全,因此空中交通管制系统有着很高的安全性和可 靠性的保障要求。 1 2 系统研制的背景、目的和意义 随着我国航空运输业的持续高速发展,致使空中飞机的架次增多、密度增 加、间距缩小,空中交通日趋繁忙,用户对空管系统的需求量很大,对空管软 件的要求也很高,需要增加大量功能完备、性能先进、可靠性高的空中交通管 制系统;而一些原有的管制设备也因设备陈旧,频繁出现故障,管制中心迫切 需要更新换代。用户的需求和技术的发展使我嗣空管系统的研制和生产处于大 发展时期。 近年来,我国已陆续从欧美引进了一些新一代管制设备,但远远不能满足 当今和今后空中交通管制的需求,扩容价格昂贵:另外由于设备来源于多个国 家和公司( 如:美国r a y t h e o n 、w e s t i n g h o u s e 、t e l e p h o n i c s 意大利a l e n i a , 法国t h o m s o n c s f 等) ,因而显示设备在系统构成、功能、界面、硬件配置上都 有很大的差别,不易于设备的维护和人员的交换。进口系统价格昂贵,远不能 满足我国的国情和实际需要,因此迫切需要加强对窑管系统关键技术的研制川。 从而建立具有我国自主知识产权的新一代空警自动化系统,打破国外的技术封 锁,空中交通管制系统的研制,特别是具有自主知识产权的管制系统更是具有 很大的社会效益和战略意义,我们的新一代空管系统研究就是在这种背景下产 四川大学硕士学位论文 生的。 m r d 2 k 系统是四川大学图形图像研究所独立开发的新一代空中交通管制 系统,具有独立自主知识产权,它在1 9 9 9 年1 1 月通过了中国民用航空总局的 鉴定,目前已在重庆江北机场作为主用系统投入管制工作。该系统是由雷达数 据显示控制席位、飞行数据显示控制席位、雷达数据处理机前端和飞行数据处 理前端等部分组成,并通过局域网相连成统一的分布式处理系统。它能够完成 雷达数据处理、飞行计划处理和雷达数据显示等空中交通管制必备的功能。系 统的设计充分借鉴了目前国内正在使用的国外空管系统的优点,同时广泛听取 了空管员对现有管制设备的意见,设计了有自己特色的空管系统。 空中管制系统是四川大学川大智胜公司在m r d 2 k 的基础上,结合我国的 业务特点,开发出来的新一代空管系统:智胜公司利用长期的民航空管系统开 发经验,充分对空管系统的需求进行调研,并针对我空军现有管制作业流程, 提供了很多符合管制工作习惯的、减少工作量的功能,在飞行情报界面优化、 计划航路通报地址自动生成、电子飞行进程单和电子卡片、模拟训练、航管雷 达和非航管雷达融合等方面有特色。 空管系统是专门面向管制作业对象而设计的先进、高效的空管系统,在遵 循行业规范的前提下,以用户需求为准则,面向用户、紧密围绕管制作业特点, 采用了经过验证的先进技术,形成了实用性强、自动化程度高的空管系统。该 系统的开发,具有我国自主知识产权,在很大程度上弥补霪家的技术空白,也 打破国外的技术封锁,同时该管制系统更是具有很大的社会效益和战略意义, 对于促进我国空中交通管制事业的协调发魇具有羹大意义。 1 3 可靠性在空管系统中的重要角色 伴随着航空业的迅猛发展,空中交通管制日益成为制约我国航空安全的重 要因素。北京、上海、广州等大型航空港飞行任务繁重,航线交叉密布,起落 航班相互影响,给空中交通管制带来很大的压力。2 0 0 2 年4 月1 5 日上午,中 国国际航空公司c a l 2 9 航班8 7 6 7 - 2 0 0 型b 2 5 5 2 号飞机,在执行由北京飞往韩国 釜山的航班任务时,在韩嗣釜山附近坠毁。2 0 0 2 年5 月7 日,中国北方航空公 司c j 6 1 3 6 航班m d 8 2 型b 2 1 3 8 号飞机执行北京大连航班任务时,与空管部门 失去联系,飞机于大连机场东侧约2 0 公里海面失事。尽管空难事件的发生概率 四川大学硕士学位论文 非常小,而一旦发生则会给国家和人民带来巨大的损失。加强空中交通管制的 建设可以大大减小空难事件的发生。加强空中交通管制的建设不仅需要增加更 多的网点,而且还需要提升空管系统的准确度和可靠性,不能因为空管系统自 身的原因导致事故的发生。空管系统的设计是一个系统工程,实现单雷达数据、 多雷达数据、电报数据、飞行计划数据等多源数据的实时处理和融合是它的重 要任务。为达到这个目的,系统必须具有强有力的实时处理能力:同时,空管 自动化系统是一个具有“关键使命”的系统【2 】,系统的稳定性与可靠性至关熏 要。 系统采用分布式结构,通过高可靠性的双冗余局域网将各个设备和席位连 接起来,协同工作。系统主要由雷达数据显示控制席位、飞行数据显示操作席 位、雷达数据处理前端、飞行数据处理前端、数据库管理系统、网络系统等构 成,其中,雷达数据显示控制席位和飞行数据显示操作席位组成为一个完整的 管制席位。为了保证系统的高可靠性,硬件设备采用了冗余设计,即采用双冗 余网络通讯、多台备用机等方式。并且设计专门的监控子系统来监控整个网络 的运行情况,对各子系统送来的报告或未按时送来报告的情况进行分析,并且 对局域网内关键节点的任何出错或故障征兆尽快作出反应。这些相关机制的设 计都表明可靠性在空管系统中扮演了一个举足轻重的角色。 1 4 笔者所做的工作 本文作者于2 0 0 3 年9 月至2 0 0 5 年2 月底参加川大智胜公司某大型空管项 目( 基于u n i x 平台) 中的监控子系统的设计和开发工作,至2 0 0 5 年2 月,经 过需求分析、概要设计、详细设计、编码、测试等,最终完成代码2 万行,主 要完成了以下的工作: 1 双机热备份系统的设计和编码( s c ou n i x ,a i x ,l i p t r u 6 4 多个平台上) 2 双冗余网络模块的实现 3 系统监控中代理扩展的设计和编码及s n m p v 3 安全性方面研究 本文讨论的空管系绕采用的操作系统有s c 0u n i x 撇e 、h pt r u 6 4 、a i x 等 几种,绝大部分代码采用t i n s ic c + + m 写。 四川大学硕士学位论文 2 双机热备份系统的设计和实现 2 1 双机系统概述及分类 对一个复杂的系统来讲,在一般情况下,当系统不能正常运行时,我们需 要用人工的方法进行故障的认定、分析、恢复及测试。这些都需要花费很长的 时间。在这段时间内,系统必须停顿下来以等待恢复,从而给企业带来难以估 计的经济损失。 双机热备份口】是计算机应用系统稳定、可靠、有效、持续运行的重要保证。 通过系统冗余的方法解决计算机应用系统的可靠性闯题,并具有安装维护简单、 稳定可靠、监测直观等优点。当一台主机出现故障,双机系统可及时启动另一 台主机接替原主机任务,保证了用户数据的可靠性和系统的持续运行。 双机系统目前已经有很多的双机产品,一个卖磁盘阵列的厂商,一般都会 销售或开发一种或数种双机容错软件。从目前来看:企业界一般对双机容错解 决方案,提供如下的一些方法: 基于某种特别硬件的双机容错操作系统,如很早以前的n o v e l ls f t 版 本,以及w i n d o w sn t 配合使用磁盘r a i d ( r e d u n d e n ta r r a yo fi n e x p e n s i v e d i s k s ) 一j ,这种需要和特定硬件配合使用的方式称为非纯软件方式。 另夕 ,双机软件实现对操作系统改造,配含或不使用磁盘阵列的方式,这 种不使用磁盘阵列的称为纯软件方式吼 所谓磁盘阵列是把多个磁盘组成一个阵列,当作单一磁盘使用,它将数据 以分段( s t r i p i n g ) 的方式储存在不同的磁盘中。存取数据时,阵列中的相关磁盘 一起动作,大幅减低数据的存取时间,同时有更佳的空间利用率。磁盘阵列所利 用的不同的技术,称为r a i dl e v e l l 6 。不周的l e v e l 针对不同的系统及应用,以解 决数据安全的问题。 双机热备份系统的目的在于保证数据永不丢失和系统永不停机,从基本架 构可分两种模式;双机互备援( d u a l a c t i v e ) 模式和双机热备份( h o ts t a n d b y ) 模式川。 1 双机互各援( d u a l a c t i v e ) : 所谓双机热备援就是两台主机均为工作机,在正常情况下,两台工作机均 为信息系统提供支持,并互相监视对方的运行情况。当一台主机出现异常时, 4 四川大学硕士学位论文 不能支持信息系统正常运营,另一主机则主动接管( t a k eo v e r ) 异常机的工作, 继续主持信息的运营,从而保证信息系统能够不间断的运行,而达到不停机的 功能( n o n s t o p ) ,但正常运行主机的负载( l o a d i n g ) 会有所增加。此时必须 尽快将异常机修复以缩短正常机所接管的工作切换回已被修复的异常机。 暇务; ! 雌务器b z 二一一。 圆 雪 雾1 渊l 。鬟 登幽 黑 i l j p u b l i c n e t l f z * * 目目 p l a b l i c n e t 2 围2 - 1 双机互鲁援 切换时机( t a k eo v e r ) 包括如下几种情况: 系统软件或应用软件造成服务器当机 服务器没有当机,但系统软件或应用软件工作不正常 s c s i 卡损坏,造成服务嚣与磁盘阵列无法存取数据 暇务器内硬件损坏,造成服务器当机 服务器不正常关机 2 双机热备份( h o ts u m a b y ) : 所谓双机热备份就是一台主机为王作机( 1 h i m 挝3 , s e r v e r ) ,另一台主机为备 份机( s t a n d ys e r v e r ) ,在系统正常情况下,工作机为信息系统提供支持,备份 机监视工作机的运行情况( 7 - 作视也同时监视备份机是否正常,有时备份机因 四川大学硕士学位论文 某种原因出现异常,工作机可尽旱通知系统管理员解决,确保下一次切换的可 靠性) 。当工作机出现异常,不能支持信息系统运营时,备份机主动接管( t a k e o v e r ) 工作机的工作,继续支持信息的运营,从而保证信息系统能够不问断的 运行( n o n - s t o p ) 。若工作机经过修复正常后,系统管理员通过管理命令或经由 以人工或自动的方式将备份机的工作切换回工作机;也可以激活监视程序,监 视备份机的运行情况,此时,原来的备份机就成了工作机,而原来的工作机就 成了备份机。 腿务措b 罐张卧卅 图2 2 双机热备份 切换时机包括如下几种情况: 系统软件或应用软件造成服务器宕机 服务器没有宕机,但系统软件或应用软件工作不正常 s c s i 卡损坏,造成服务器与磁盘阵列玉法存取数据 服务器内硬件损坏,造成服务器窘机 服务器不正常关机 对于目前比较流行的商用双机产品丽畜,具备以下几个特点: 1 ,心跳探测( 采用专用的数据线或潮卡,网线( 被称为私有网) ,专用的 6 四川大学硕士学位论文 s c s i 通道) 2 ,数据一致性( 当前空管系统中的难点,使用磁盘阵列的原因,非常难, 是纯软件版比较少的原因) 3 ,i p 漂移( 双机对外只使用一个i p ,一台主机) 4 ,接管操作 5 ,工作方式都可以配置( 工作方式的配置包括:启动杀死进程的方法,顺 序,真实i p 地址和需i p 启动时的初始主从状态) ,并且都支持主各和双主机的 工作模式。 目前在空管系统中所使用的双机系统,就是从以上几个方面出发,结合空 管系统实际情况来进行设计的。 2 2 双机系统的设计 2 2 1 双机系统工作原理 双机系统采用主从方式的双机热备份工作模式。工作原理:主机工作,备 机处于监控准备状况;当主机宕机时,备机应监控到主机的状态,并主动接管 主机的一切工作,待主机恢复正常后,按使用者的设定以自动或手动方式将服 务切换到主机上运行;数据的一致性通过共享存储系统解决。 在整个空管系统中存在两个双枫分组:通讯处理机和数据处理服务器。整 个双机系统由双机进程、双机管理进程d p m ( d o u b l ep r o c e s sm a n a g e ) 1 8 】构成。 双机进程指在双机主机上运行的,被双机管理进程进行管理的进程,如 m r a d p ( 多雷达数据处理) ,f d p ( 飞行数据处理) 等。一台主机上的双机进程在 工作时可以在主从两种状态之间进行切换,处于主从状态时进程的功能存在 较大区别。双机管理进程d 附是整个双机管理系统的核心,是指对本主机中运 行的双机进程进行管理的进程。双机管理进程之闯通过网络发送心跳数据报文, 自主地确定本机和伙伴机的主从状态。另外系统设计为技术监控软件可以发出 针对指定双机组的切换命令,切换双机管理进程的主从状态。 在目前的机场管制中心样机阶段,双枫管理目前只傲到整体切换,即在一 台主机上,所有的双机进程都只有一种主从状态,这些进程的主从状态与双机 管理进程的主从状态一致。 四川大学硕士学位论文 2 2 2 双机进程双机管理进程交互操作描述 双机进程的主从工作状态有三种:主态、从态、中间态。 在双机进程运行之初,双机进程的主从工作状态为中间态,这时不进行接 收、处理的工作,只定时地发送双机进程的主从状态报文,这时的状态为中间 态,其实这相当于主从状态请求报文。这个报文由于是广播发送的,两个双机 管理进程可以收到所有双机进程的主从状态,为了设计上的简洁,双机管理进 程只对本机的双机进程的状态进行记录、管理。 在开始运行后的一个较短的时间里,双机管理进程会确定出本机的主从状 态,主态的双机管理进程的会对本机所有定时报告了主从状态的双机进程发出 设置该进程为主态的报文,这些双机进程在收到这个报文以后,需要首先从这 个报文的报文头里取出发出数据的主机编号,如果发现发出数据的是本地主机, 则设置本机的状态为主态。同样的,呈从态的双机管理进程在确定本机状态以 后,将向本机的双机进程发送设置该进程为从态的报文。 在双机管理进程发生切换的时候,不论发生切换的原因是双机管理进程自 身产生的还是由技术监控席位发出切换命令产生的,都需要在双机管理进程确 定主从状态以后,由主态双机管理进程对双机组里的主机的双机进程发出切换 命令。 在运行中,双机管理进程不断收到双机进程的主从状态,对本机的双机进 程其主从状态与双机管理进程主从态不符的,立即发出置主从状态的命令,双 机进程在收到这个报文以后应该立即修改主从状态,并使用定时上报命令立即 上报主从状态。 双机管理进程( 主)l o u m l双机管理进程( 从) 占竺占占兰占 圈2 - 3 ( a ) 双机正常状态的模式 四川大学硕士学位论文 心睁e 双机管理进程( 主)双机管理进程( 从) 置为从态 置为主态 1r 1r 际际翮l 讲挥,i i 讲稃。j 图2 - 3 ( b )双机发生切换后的操作 i 双机管理进程( 主) f 扭曲 为主态 圉2 - 3 ( c )双机进程状态异常处理 空管系统中双机容错实现方法基本上是主从方式。主从方式实际上是镜 像方式,即两台服务器是完全一致的。对用户来讲就相当于只有一台服务器存 在。从服务器总是和主服务器那里实时地获取相同的数据,只是对数据的处理 上存在差别,以保证两台服务器完全同步。当主服务器发生故障时,从服务器 自动地接替主服务器的工作。成为主服务器,原来的主服务器降为从服务器, 主从服务器之间相互通过定时发送状态包来确定各宦的状态,并随着各自所管 理的进程的状态( 进程是否死亡) 来进行自主的主从切换。 2 3 双机系统的具体实现 由双机的含义知,主从服务器在逻辑上对外是等同的,有两种方法保持其 四川大学硕士学位论文 逻辑上的一致性。一种方法是通过i p 地址确定主服务器,即事先约定主服务器 的i p 地址。当从服务器升为主服务器时,要给自己的i p 地址绑定一个别名, 作为主服务器的i p 地址,而主服务器降为从服务器时要删除这个别名i p 地址。 很多磁盘阵列冗余系统一般采用这种方法。这里由于受系统其他需求的限制, 没有用上述方法,而是用进程号的方法保持服务器的对外一致性( 这里的进程号 是根据其功能不回而划分进程标识) 。主、从服务器上运行了相同的服务器进程, 所以进程标识是相同的。主、从服务器都能收到发给服务器的广播,不同的是 根据自身的主从标识来作进一步处理。 囝2 - 4 双机警理避程d c d & c c o 图2 4 为双机管理进程与外界进行交互的d c d ( d a t ac o n t e x t d i a g r a m ) & c c d ( c o n t r o lc o n t e x td i a g r a m ) 圈,由图可知,双机管理进程接受技 术监控席的主从切换命令,接受席位代理或者服务器代理的进程控制命令,并 且接受被管理进程的状态信息。此外双机管理进程还对被管理进程,以及主监 控进镗主从态控带4 ,并向监控代理报告管理进程的状态,以便监控代理可以根 据情况对双杌管理进程进行杀死或者启动。 2 3 1 主从服务器的确认 双机管理进程( d p m ) 运行后,首先进入中间态,进入 t z p u b c o n f e r m a i n s e c o n d a r y 模块来首次确定本机的主从态;由于2 台机器上 l o 四川太学硕士学位论文 运行d p m 后相互之间要定时发送心跳包d p m h e a r t b e a t ,包结构如下: t y p e d e f s t r u c t c h a p h o s t _ d e v i c e _ c o d e ; ,报告当前主从状态的主机的设备编号 c h a rd i n _ r e a d y _ s t a t u s ;n 本主机的准备就绪态,0 初始态l :正常态 c h a rd i n _ s t a t u s ; :s i r 主机的主从状态o :主t ;从,0 x f f :中闻态 c h a r p r o cs t a t u s :棚r 机进程状态:o ,1 2 ,3 。死掉进程最高的优先级 s d w o r d c o u n hl l 龟焉 d p m h e a n b e a t : 在t z p u b _ c o n f e r m a i n s e c o n d a r y 这个模块中,用定时器程序设定了一个超 时值,如果在这个超时值门限内d p m 收到了伙伴机发过来的心跳包,则根据 伙伴机心跳包的主从状态信息来决定自己的主从状态,如果在门限值内没有收 到伙伴机的心跳包,则认为伙伴机上的d p m 没有运行,在超过时间门限后本 机d p m 状态自动变为主态。 田2 _ 5 双机状态转换围 当d p m 的状态发生切换后,改变蓐量主态的d p m 对他本机管理下的 双机进程和伙伴机下的双机进程进行一次切换,改变后里从态的d p m 在这时 并不做任何的处理,这样设计的原因是理论上讲,任何完善的双机系统都存在 四j i i 大学硕士学位论文 主从混乱的情况,其是在网络繁忙的情况下,可能两台主机d p m 之间的心跳包 会出现延迟,即在同一时刻存在两台主服务器( 或两台从服务器) 。状态改变 为:从态一 主态的d p m 来控制本机和伙伴机的双机进程比由两台机器上的d p m 同时管理双机进程更可靠,更能避免双机进程的反复切换。由于系统的数据通 信量大,加上使用了广播的方式,所以网络通信采用了u d p 方式。考虑到u d p 网络传输可能存在的掉包现象,d p m 向双机进程发送了2 次切换包,包结构如 下: c h a rd m s w i t c h ) d m m s w i t c h p r o c ; 双机进程所在的主机设备编号 o :切换成主态l :切换成从态 这时呈主态的d p m 不仅向本机,要向伙伴机的双机进程发送d m m s w i t c h p r o c 包,由于d p m 采用的是广播方式向局域网发包,如果不对接受到的控制包进行 区分,势必造成主从态的混乱。在这里,我们绘每一台主机设定了一个主机设 备号,即h o s td e v i c ec o d e ,同一台主机上的避程只对本具有相同主机设备号 的双机管理进程d p m 才进行响应,当这些进程接受到d 刚发出的d m m s w it c h p r o c 包时,根据包结构定义,主机设备号在这个d m s w i t c h p r o c 包中,被管理进程 首先判定是否是本机d p m 发出的d m s w i t c h p r o c 包,如果d m m s w it c h p r o c 包中 的主机设备号与本机设备号相同,则接受此包,不相同就把它丢弃。 当开始时,主态d p m 要对双机所有的迸穗进行控制这时d p m 不仅向本机, 要向伙伴机的双机进程发送d m m s w i t c h p r o c 包,包的内容各不相同,发给伙伴 机进程的d m m s w i t c h p r o c 是要把伙伴机进程切换成从态,因此,必须在 d m m s w i t c h p r o c 包中将h o s t d e v i c e c o d e 设为伙伴机的设备号,否则发给伙伴 机的d m m s w i t c h p r o c 包将被过滤掉。由于双机组的主机设备编号都是成对出现, 目前服务器最多支持5 组双机分组,我们对双机组做出规定,服务器主机设备 号从1 开始,到1 0 结束。通讯处理机设备号从1 l 开始,如服务器的主机设备 号为1 和2 或3 和4 ,通讯处理机的主机设备编号为l l 和1 2 或1 3 和1 4 ,本机 设备编号从本机的i p 地址获得,这里设计了一个算法根据本机设备编号计算出 伙伴机的设备编号: 四川大学碰士学位论文 当双机进程收到这个包,首先判断h o s td e v i c e c o d e ,只有当 h o s t d e v i c e _ c o d e 与本枫设备号相同才进行处理。使本双机进程的主从态与 d m _ s w i t c h 保持一致。 2 3 2 双机主从切换机制 2 3 2 1 坟机进程状态的确定和维持 当d p m 的主从状态确认后,它所管理的双机进程应为之随动后并且始终保 持与d p m 一致,实现方法是当被管理的双桃进程定时向d p m 发送状态包 p u b p r o c d m ,间隔一般为l o 移。 t y p e d e fs t r u c t c h a rh o s t d e v i c e c o d e ;本机设鍪号 c h a rd m _ s t a t u s : 本进程的主从状态o :主1 :从 ) p u b p r o c d m : 当d p m 收到这个状态包,首先判瞬h o s t _ d e v i c e _ c o d e 。期果是在同一台主 机上,再判断双机进程的主从状态是否和d p m 一致,如果一致不做任何处理, 1 3 四川大学硕士学位论文 如果不致则d p m 将自己的状态写入d r n s w i t c h p r o c 包发送给双机进程,使双 机进程的状态与d p m 保持一致。 2 3 2 2 双机超时检测机制 双机进程定时上报进程状态后,双机管理进程d p m 将每个进程报告状态的 时间记录到每个进程相对应一个结构t a g p r o c s t a t u s 中,这个结构包括上次接 受到进程定时报告的时间o l d t i m e 和进程编号,t z p u b c h e c k p r o c s t a t u s ( ) 函数 被定时调用,每次调用都将当前时间和每一个进程对应结构中o l d t i m e 比较, 蓍时间差值是否大于我们定义的超时值g p r o c o v e r t i m e 如果大于 g p r o c o v e r t i m e ,则认为该进程死亡,然后根据相应的算法来判断是否进行切换。 2 3 2 3 超时检测机制在实时性上的设计缺陷 上述超时检测的机制在空管系统的实际使用当中,就实时性而言,存在着 一定的设计缺陷。在前两个版本的性能测试中发现,当双机系统在自主切换的 时候,r a d p ( 单雷达和a d s 数据处理) 或者m r a d p ( 多雷达和a d s 数据融合处理) 出现航迹短暂消失的情况,在数秒中内航迹恢复。 单雷达和a d s 数据处理( r a d p ) 所完成的功能:完成对单雷达和a d s 数据 的时空变换、跟踪等处理,生成航迹,并输出给其它模块使用。 多雷达和a d s 数据融合处理( m r a d p ) 的功能:完成对单雷达和a d s 数据的 融合处理,生成综合系统航迹,并输出给其它模块使用。 分析出现这种情况的原因,发现双机系统中作为主从态的r a d p 或者m r a d p 在接收雷达数据的时候是同时接收的,但是只有主态r a d p 或者m r a d p 才完成对 单雷达与a d s 数据的融合处理,生成航迹,而从态情况下不傲任何处理。当主 态下的r a d p 或者m r a d p 发生问题的时候,这时航迹无法生成。而按照双机的超 时检测,要d p m 没有收到进程定时上报的状态包的时间超过我们最初设定的时 间门限值时,才认为该进程发生了问题,进而进行了主从切换。因此在这一段 时间内会出现航迹丢失的情况,当双机切换完成后,航迹才重新恢复。 在最初的参数配置中对时间门限值设为1 0 秒,分析航迹丢失的原因可能与 时间门限值过长有关系,缩短时间门限值到5 秒,在随后的单元测试中,当双 机系统在自主切换的时候,航迹短暂消失的情况有所改观,由以前的航迹全部 1 4 四川大学硕士学位论文 消失变成航迹部分消失,但出现了新的问题。在莱些时候,出现了双机主从态 切换,而被管理进程并没有出现进程死亡等问题。分析出现这种情况的原因, 发现在网络特别繁忙的情况下,尤其是在飞行情报大量收发的时候,由于整个 网络通讯采用u d p 方式1 9 i ,很可能在时间门限内d p m 没有收到管理进程向上报 告的状态报,因而认为进程出现问题,进行主从切换。光依靠超时来检测进程 存在着设计上的缺陷,不能满足空管系统实时性的高需要。 2 3 2 4 主动探测进程技术的研究 单靠超时检测不能很好的满足双机切换高实时性的需要,在目前双机系统 中提出了另外一种方案,即用双机管理进程来主动探测各个进程是否还在运行, 实现的方法是从u n i x 系统提供的接口提取信息,这一节将详细阐述通过u n i x 提供的系统文件里来获取系统内进程信息的方法。 一个中等规模的u n i x 系统中,经常会有几百个甚至上千个进程“生存”着。 这些进程信息都存放在p r o c f s 进程文件系统中。p r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论