(计算机软件与理论专业论文)t比特路由器智能故障恢复系统的研究与实现.pdf_第1页
(计算机软件与理论专业论文)t比特路由器智能故障恢复系统的研究与实现.pdf_第2页
(计算机软件与理论专业论文)t比特路由器智能故障恢复系统的研究与实现.pdf_第3页
(计算机软件与理论专业论文)t比特路由器智能故障恢复系统的研究与实现.pdf_第4页
(计算机软件与理论专业论文)t比特路由器智能故障恢复系统的研究与实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)t比特路由器智能故障恢复系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 故障管理的有效与否和功能强弱直接关系到被管网络的可用性和可靠性。故障检测 阶段的目的是在故障发生以后,尽可能地将其识别出来;检测出的异常事件经过关联进 行故障定位,确定故障的位置。故障诊断阶段的任务是对定位后的故障进行有效的诊 断,给出故障原因,并对故障进行修复。本文结合国家8 6 3 项目“可扩展到t 比特的高 性能i p v 4 v 6 路由器基础平台及实验系统”,给出了t 比特路由器智能故障恢复系统的实 现方案。 本文所做的主要工作如下: 对故障检测技术进行了进一步的研究,针对主动轮询存在管理开销多、轮询时 延大、不能保证故障信息的实时性等缺点,设计出一种能满足实时性要的基于 管理信息变化频率的动态轮询算法。 夺对多种事件关联方法进行了研究,比较各种关联方法的优缺点,总结出一种较 有效的关联算法基于图的设备故障关联算法。 夺对基于传统专家系统的故障诊断、基于神经网络的故障诊断进行了详细的研 究。两种故障诊断方法均有自己的优点和缺点,使用中均有一定的局限性。在 故障诊断中仅仅使用其中的一种方法可能对许多故障无法进行有效的诊断,要 对大多数故障均能进行有效的诊断复需要将多种诊断方法进行结合。 结合t 比特路由器的实际情况,综合运用传统专家系统及神经网络两种故障诊 断方法,设计出多a g e n t 智能故障恢复系统,并予以实现,在实际应用中取得 良好的效果。 关键词:故降恢复;故障检测;故障关联;散障诊断;智能体;多智能体系统 第1 页 a b s t r a c t t h ee f f c e t i v e n e s sa n dp o w e ro ff a u l tm a n a g e m e n ts y s t e mc o r r e l a t ew i t l lt h ea v a i l a b i l i t ya n d r e l i a b i l l t yo fm a n a g e dn e 铆o r k f a u l td e t e c t i o ni st oi d e n t i f yaf a u l ta f t e ri to c c u r r e d a n df a u l t c o r r e l a t i o ni st ol o c a t eaf a u l ta f t e ri ti sd e t e c t e d f a u l tl o c a l i z a t i o ni st od e t e r m i n et h el o c a t i o no f t h ef a u l t n l ea i mo f f a u l td i a g n o s i si st oe f f e c t i v e l yd i a g n o s et h ef a u l ta n d g i v et h ec a u s a t i o na n d t or e c o v e ri t b a s i n gt h er e q u i r e m e n t so f8 6 3t e r a b i tr o u t e rp r o j e c t ,t h i st h e s i s p r e s e n t st h e r e a l i z a t i o ns c h e m eo f i n t e l l i g e n tf a u l tr e c o v e r i n gs y s t e m n l em a i nc o n t r i b u t i o n so f t h i st l l e s i sa r ea sf o l l o w s i ) d or e s e a r c hf u r t h e ro nt h ef a u l td e t e c t i o nt e c h n o l o g y b e c a u s et h ep m a e t i v ep o l l i n gh a s s o m ed i s a d v a n t a g e s ,s u c ha sb i gm a n a g e m e n te x p e n s e s ,h i g hp o l l i n gl a t e n c y , a n dn o n - r e a l t i m e f a u l ti n f o r m a t i o n ,an e wd ”a m i cp o l l i n ga l g o r i t h mt h a tc a nm e e tt h er e a l - t i m er e q u i r e m e n ti s g i v e n i i ) d od i s c u s so ns o m ek i n d so ff a u l tc o r r e l a t i o nt e e h n o l o g ya n dd oc o m p a r ew i t ht l l e i r a d v a n t a g e sa n dd i s a d v a n t a g e s an e wf a u l tc o r r e l a t i o na l g o r i t h m ,t h ed e v i c ef a u l tc o r r e l a t i o n a l g o f i t h mw h i c hi sb a s e do ng r a p hi sp u tf o r w a r d i i i ) d os t u d yd e t a i l e d l yo nt w ok i n d so ff a u l td i a g n o s i st e c h n o l o g y , t r a d i t i o n a l e x p e r t s y s t e ma n da r t i f i c i a ln e u r a ln e t w o r ks y s t e m t h e s ef a u l td i a g n o s i st e c h n o l o g yh a si t so w n a d v a n t a g ea n dd i s a d v a n t a g ea n dh a ss o m el i m i t a t i o ni np a r c t i c e i np r a t i c a lu s e ,w es h o u l d c o m b i n et h e s ef a u l td i a g n o s i st e c h n o l o g ya n dm a k ee f f e c t i v e l yf a u l td i a g n o s i s i v ) b a s e do nt h ef o r e m e n t i o n e da n a l y s i sa n da c c o r d i n gt 0t h er e q u i r e m e n t so f8 6 3t e r a b i t m u t e rp r o j e c t , w es y n t h e t i c a l l yu s et r a d i t i o n a le x p e r ts y s t e ma n da r t i f i c i a ln e u r a ln e t w o r ka n d p r e s e n tm u t i - a g e n ti n t e l l i g e n tf a u l tr e c o v e r ys y s t e m t h i ss c h e m ew o r k sw e l li nt h ef a u l t m a n a g e m e n ti np r a c t i c e k e y w o r d s :f a u l tr e c o v e r y ;f a u l td e t e c t i o n ;f a u l tc o r r e l a t i o n ;f a u l td i a g n o s i s :a g e n t : m u l t i a g e n ts y s t e m 第1 i 页 笪星三堡查堂堡主兰竺丝苎 表目录 表1m i b 功能表7 表2s n m p v l 使用的5 种通信原语8 表3t r a pp d u 格式1 4 表4 几种轮询算法的性能比较1 8 表5 专家系统、神经网络的区别比较3 7 表6 系统性能分析5 0 第v i 页 笪星王堡盔堂堡主兰堡丝茎 图目录 图ls n m p 体系结构图6 图2 故障管理过程9 图3 动态轮询算法流程图1 8 图4 协议实体依赖关系图2 3 图5 示例网络拓扑图2 4 图6 示例网的邻接矩阵2 5 图7 示例网的关联矩阵2 5 图8 故障示例2 5 图9 锁定故障时间与故障节点数关系图2 8 图1 0 专家系统的基本结构2 9 图l l 传统故障诊断专家系统结构图3 0 图1 2 人工神经元模型3 4 图1 3 神经网络故障诊断专家系统结构图3 6 图1 4 智能a g e n t 的工作过程4 1 图1 5t 比特路由器故障恢复流程4 3 图1 6t 比特路由器智能故障恢复系统的状态转移模型4 4 图1 7t 比特路由器智能故障恢复系统结构4 5 图1 8 故障诊断结果截图4 9 图1 9 故障统计信息截图4 9 第v i i 页 学位论文原创性声明 所提交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所 知。除了文中标注和致谢的相关内容外,论文中不包含其他个人或集体已经公开的研究 成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表 示谢意。 学位论文题目:至出挂路由墅智能故瞳迭复丕统的班究里塞理 学位论文作者签名: 凑垒!日期:历彩年占月彳日 学位论文版权使用授权书 本人完全了解信息工程大学有关保留、使用学位论文的规定。本人授权信息工程大 学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允许论文被查阅和 借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。 ( 涉密学位论文在解密后适用本授权书。) 学位论文题目:! e 挂路由矍蟹能越瞳丛复丕统的硒窥生塞丑 学位论文作者签名: 作者指导教师签名: 日期:p 辟月彩日 日期:锄年月髟日 信息丁程大学硕七学何论文 第一章绪论 1 1 课题的研究目的及意义 随着计算机及通信技术的不断发展,计算机网络的应用规模呈爆炸式增长,计算机 网络已渗透到国民经济和国防经济的各个领域。为了提高网络的稳定性,减少故障的发 生,人们亟待对网络本身进行管理。一个完善的网络管理系统是网络能够可靠稳定运行 的保证。而网络规模的不断扩大、功能复杂性的不断增加以及异构类型网络的融合,使 得网络管理面临着新的挑战。 网络管理主要是关于规划、监督设计和控制网络资源的使用,以及与网络有关的各 种活动,同时也是为满足用户安全、可靠地使用网络服务,以及保证网络正常、高效的 运行而进行的一系列的监控、维护和管理操作。面对网络发展的新特点,探索新的管理 方法、构筑新的管理体系结构、应用新的管理技术成为网络管理领域迫切需要解决的任 务。 目前,大多数网络都采用集中式网络管理系统进行管理。这些集中式网络管理系统 多数都具有一些局限,如:采用轮询任务繁重、时间长的集中轮询方式,降低了网络效 能;运行分析功能单一,不能对长期数据进行统计分析并给出决策支持,缺乏智能化 等。随着网络互联技术的飞速发展和广泛应用,传统的集中式网络管理已经远远不能满 足人们对网络服务及其管理的更高要求。w e b 技术的出现及流行为创建一个平台独立的 通用的网络管理系统提供了一条新的解决途径 2 1 1 3 1 1 4 1 。 根据o s i 规定,一个网络管理系统有五大功能域:故障管理、配置管理、性能管 理、计费管理和安全管理【5 】。其中故障管理是网络管理的基本功能,是保证网络可靠性和 可用性的基础。故障管理是网络管理体系结构的一个重要组成部分,主要包括检测、隔 离、确定故障因素、纠正故障等功能。设立故障管理的目标是提高网络可用性、降低网 络停机次数并迅速修复故障。故障分析及诊断是故障管理的核心内容,目的是面对大量 的告警信息,能够迅速对故障根源进行精确定位和对故障进行诊断。通过故障诊断,获 得故障原因,可及时对故障部件及网络进行修复。智能化的故障管理是应对日益复杂的 故障管理环境的必然方向。适应网络发展不断出现的新问题,提高网络的智能化,进行 有效地故障管理是人们关注的热点。因此,进行智能故障管理理论与技术研究,探讨研 究方法在网络故障管理系统中应用的可行性,以及时、准确、快速的对网络进行故障诊 断及修复势在必行。 本课题的研究目的就是解决t 比特路由器故障恢复系统多任务、诊断困难的难题, 使故障恢复系统可以实时有效地获得故障信息;使其能够实现准确的故障定位;使故障 第l 页 信息t 稃大学硕士学位论文 诊断具体化、简单化;使多种诊断方法结合,实现智能化的故障管理。 本课题研究的意义主要体现在以下方面:有利于实时、有效地获得故障信息;有利 于实现准确的故障定位;有利于提高故障诊断的实时性和准确性;有利于提高故障恢复 系统的可维护性,保证t 比特路由器可靠、有效的运行;有利于实现故障的智能化、自 动化管理,减少网管人员的劳动强度。同时,本文的研究成果不仅可以解决本领域的难 题,也可能为其他工程实际应用提供良好借鉴。 1 2 课题的研究背景 为了推动我国在下一代互联网技术上的研究,以便我国能够掌握下一代互联网的核 心技术,国家“十五”8 6 3 计划信息技术领域高性能宽带信息网重大专项设立了“可扩展 到t 比特的高性能i p v 4 v 6 路由器基础平台及实验系统”重大课题。t 比特核心路由器是 基于模块化的可扩展体系结构。1 ,实现速率达1 0 0 m 、1 0 0 0 m 、2 5 g 和1 0 g 的各类线路接 口,支持i p v 4 v 6 协议和b g p 、r i p 、o s p f 、i s i s 等路由协议,支持m p l sv p n 功能以 及组播路由协议。 作为面向下一代互联网的核心路由器设备,t 比特路由器系统中包括多个设备,而各 个设备及网络之间又是相互关联的,一个设备的故障可能同时会引起关联的一个或多个 设备或网络故障的发生,从而可能会导致整个网络瘫痪。传统的故障管理方法只能对单 设备故障进行有效的管理,对多设备的关联故障不能及时的进行诊断及修复,不能保证 网络的正常运行。 本文的研究就是以这一项目为背景,研究如何在高性能的t 比特核心路由器中实现 智能故障恢复系统,并使其具有可扩展性。 1 3 智能故障恢复系统的研究现状 1 3 1 故障管理面临的挑战 在近几十年中,通信业务需求有了全面的扩张,造成了网络规模的持续扩大、网络 复杂性不断提高和带宽需求的显著增长。在网络中,由于被管理网元( n e ,n e t w o r k e l e m e n t ) 物理上和逻辑上具有相关性,单一的故障往往会在相关的网元中产生大量的关联 告警,使得故障的识别和定位变得困难1 7 1 。例如:当网络中某个设备出现故障时,这台设 备及与之相连的设备都可能会失去与网络管理站的联系。当网络管理站轮询这些设备 时,它们都不会响应,这将导致大量关联告警的产生。实际上,许多告警事件并没有包 含产生故障信息的真正原因,在此情况下,收到的告警报告中含有很多的冗余信息。具 体有以下几种情况: 由于一个故障,导致设备产生了多个告警: 故障本身间歇性发作,这意味着每当故障发生时便发送告警事件; 第2 页 信息工程大学硕士学位论文 单独一个告警可能被多个网络部件监测到,每一个部件都会发送告警信息; 已知的部件故障可能影响到其他的部件,产生故障扩散; 多个故障同时发生,此时的告警事件有许多潜在的重叠; 这使得网络管理员面对大量的告警信息往往很难准确的分离出有效的故障信息和发 现产生故障的真正原因,从而无法快速实施故障修复和障碍排除。 将智能技术引入故障管理,进行自动故障定位和故障原因诊断及故障修复,是满足不 断发展的网络故障管理要求的前提和基础。 1 3 2 智能故障恢复系统的研究现状 智能化网络管理的研究开始于8 0 年代末9 0 年代初,到现在已经取得了很大的进 展。计算机科学不同领域的方法被运用到智能化网络管理中,特别是在故障诊断领域, 包括人工智能、图论、信息论、自动控制理论、神经网络等等。把这些技术引入故障管 理中,主要是为了对故障进行自动定位和诊断,获得故障原因以达到迅速修复故障的目 的。 目前,国内外关于网络故障管理的研究取得了很大的进展,在智能化故障管理的理 论研究中也取得了较多的成果。但是,理论研究不够贴近工程实现。相关产品在国内外 尚未得到广泛应用。一方面是由于故障管理一般不单独存在,而是作为网络管理系统的 一部分,目前国内尚无使用较广泛的通用网络管理平台,多数网络管理系统所提供的智 能故障管理功能也多集中在对事件的过滤和历史事件的统计上。另一方面是由于不同的 智能故障管理技术要结合不同的网络情况使用,在开发上困难较多。 作为高速宽带网络核心结点的t 比特路由器的故障管理系统,必须提供智能的故障 管理功能。因此我们要在智能故障恢复系统理论研究的基础上对智能故障1 1 9 【复系统进行 有效的实现。这不仅是路由器系统设计的需要,也是研究和掌握最新智能故障恢复系统 相关理论和技术的需要,具有重大的理论意义和应用价值。 1 4 本文的主要研究内容及组织结构 1 4 1 本文的主要研究内容 本文主要包括以下内容: 夺对故障检测技术进行了进一步的研究,针对主动轮询存在管理开销多、轮询时延 大、不能保证故障信息的实时性等缺点,设计出一种能满足实时性要的基于管理 信息变化频率的动态轮询算法,并在t 比特路由器系统中予以编码实现,在应用 中取得了较好的效果。 对多种事件关联方法进行了研究,比较了各种关联方法的优缺点,总结出一种满 足t 比特路由器故障恢复系统要求的故障关联方法,即基于图的设备故障关联算 第3 页 信息工程大学硕十学何论文 法。 对基于传统专家系统的故障诊断、基于神经网络的故障诊断两种诊断方法进行了 详细的研究,并对两种故障诊断方法的优缺点进行了详细的比较。两种故障诊断 方法均有自己的优点和缺点,在使用中均有一定的局限性。在故障诊断中仅仅使 用其中的一种方法可能对许多故障无法进行有效的诊断,要对大多数故障均能进 行有效的诊断复需要一种新的技术或方法来实现,即将多种诊断方法结合进行故 障诊断。 夺对智能体( a g e n t ) 技术及多a g e n t 系统进行了研究,并结合t 比特路由器的实际情 况,综合运用基于传统专家系统的故障诊断、基于神经网络的故障诊断两种诊断 方法,设计出多a g e n t 智能故障恢复系统,并予以实现及在t 比特路由器中应 用,取得较为满意的效果。 1 4 2 本文的组织结构 本文剩余部分安排如下: 第二章主要对故障管理进行了介绍,包括网络管理及s n m p 协议、故障分类及故障 恢复系统的功能,并明确了t 比特路由器智能故障恢复系统实现的几个关键 问题。 第三章介绍了两种故障检测技术:告警和轮询。设计出一种能满足实时性要的基于 管理信息变化频率的动态轮询算法。比较多种故障关联方法,总结出一种满 足t 比特路由器智能故障恢复系统要求的故障关联方法,即基于图的设备故 障关联算法。 第四章介绍了基于传统专家系统的故障诊断及基于神经网络的故障诊断两种故障诊 断方法,并对两种故障诊断方法的优缺点进行了详细的比较。明确了两者结 合起来形成混合智能系统,功能要比单一系统更强。 第五章介绍了智能体( a g e n t ) 技术及多a g e n t 系统,并结合t 比特路由器的实际情 况,综合运用基于传统专家系统的故障诊断及基于神经网络的故障诊断两种 故障诊断方法,设计出t 比特路由器多a g e n t 智能故障恢复系统并予以实 现。 结束语对全文进行了总结,指出了目前的研究中还存在一些问题和不足,并给出了 下一步可能的研究设想。 第4 页 信息t 稃大学硕士学位论文 第二章故障管理 2 1 网络管理概述及s n g p 协议 2 1 1 网络管理概述 网络规模的日益扩大及其应用水平的不断提高,一方面使得网络的维护成为网络管理 的重要问题,例如使网络故障排除更加困难、维护成本上升等;而另一方面,如何提高 网络性能成为网络系统应用的主要问题。虽然可以通过增强或改善网络的静态措施来提 高网络性能( 如增强服务器处理能力、拓宽网络带宽等技术) ,但是网络运行过程中采用 负载平衡等动态措施提高网络性能却日益重要。通过静态或动态措施提高的网络性能分 别称为网络的静态性能和动态性能,而网络动态性能的提高是需要通过网络管理系统实 现的引。 网络管理的主要任务是实现监督、规划、设计和控制网络资源使用的各种活动,它的 基本目标是将所有的管理子系统集成在一起,向管理员提供统一的控制方式,其复杂性 取决于网络资源的数量和种类。简而言之,网络管理即是通过某种方式对网络状态进行 调整,使网络中的各种资源能得到正常、高效的运行,并且在网络出现故障时能及时作 出报告和处理,协调、保持网络的良好运行等。 现代网络管理系统中网络管理协议是最重要的部分,它定义了网络管理站与被管代理 间的通信方法,规定了管理信息库的存储结构、信息库中关键字的含义以及各种事件的 处理方法。目前影响最大的网络管理协议是基于t c p f i p 协议簇的s n m p ( 简单网络管理协 议,s i m p l en e t w o r km a n a g e m e n tp r o t o c 0 1 ) 、基于开放系统互连o s i 标准的管理框架模型 c m i p c m i s ( 公共管理信息协议公共管理信息服务,c o m m o nm a n a g e m e n ti n f o r m a t i o n p r o t o c o l s e r v i c e ) 孝l 基于电信网的t m n 标准( 电信管理网,t e l e c o m m u n i c a t i o n sm a n a g e m e n t n e t w o r k ) 1 9 t 。由于s n m p 流传最广,应用最多,获得的支持也最广泛,它已经成为数据网 络管理事实上的工业标准。 2 1 2s n m p 简介 目前,使用的最广泛的网络管理协议是s n m p 。几乎所有的网络产品以及许多软件都 支持s n m p 协议【1 0 i 。 1s n m p 体系结构 基于s n m p 的网络管理系统将网络设备分成两大类:( 1 ) 网络管理站( n m s ,n e t w o r k m a n a g e m e n ts t a t i o n ) ,是网络上一台运行着网络管理应用软件的主机,负责监控和管理网 络元素,是网络管理系统的核心;( 2 ) 网络元素( n e ) ,是指网络中各种被管理的网络设 备。在支持s n m p 的网络元素上运行着一个s n m p 代理( a g e n 0 进程,该进程负责实现网 第5 页 笪星三堡奎堂堡主鲎竺丝奎 络管理站对网络设备的各种管理请求。s n m p 体系结构如图1 所示: 例1s n m p 体系结构图 s n m p 协议规定了网络管理站与被管理设备之间进行通信时的语法和规则。它是一系 列协议组和规范。包括管理信息库( m i b ,m a n a g e m e n ti n f o r m a t i o nb a s e ) 、管理信息的结 构和标识( s m i ,s t r u c t u r ea n di d e n t i f i c a t i o no fm a n a g e m e n ti n f o r m a t i o n ) 、简单网络管理协 议( s n m p ) 。 s n m p 是一种管理者代理模型。一个s n m p 代理负责对来自s n m p 管理者的信息查 询和动作执行的请求做出响应,同时还可能异步地向管理站提供一些重要的非请求信 息。关键的设备都有可能配置了s n m p 代理,以便管理者进行管理。 s n m p 从逻辑上区分了管理系统和被管系统,规定了管理站和被管结点的职能,它定 义了管理站如何对代理进程的m i b 对象进行读写操作,允许在管理站上的用户远程监视 和管理网络实体。 2m i b 一管理信息库【l l 】1 1 3 1 m i b 是网络设备及其内在要素的逻辑表示,它是一个管理信息的概念库,提供数据 的逻辑存储,而不涉及管理信息的物理存储方式。它定义了可以通过网络管理协议进行 访问的管理对象的集合。m i b 的结构在s m i 中定义。 m i b 的变量共分两类:简单变量和表格变量。前者包括有符号或无符号整数、字符 串,如系统对象标识;后者则是类似于数组或结构的数掘集合,如i p 路由表。基于 t c p i p 的m i b 定义了i n t e m e t 各类组成部分管理和控制中所需的变量,这些变量记录着 每个网络接口的状态、网络流量、错误报文记数以及内部协议的统计信息,这些变量按 功能的不同划分为十个组:系统组、接口组、地址组、i p 组、i c m p 组、t c p 组、u d p 组、e g p 组、t r a n s m i s s i o n ( 传输) 组、s n m p 组,包含一百多个变量。表l 给出了各组的 功能。 第6 页 信息工稃大学硕十学付论文 表1m i b 功能表 # 擎。7 嘲一4 ;拶i # 滞 挂f # 蹲:尹,簿9 9 ;”嚣粼:? 例“$ 舻螂蝴唧h 自”# 黟”嚣嚣。* “獬蟹8 0 攀誊嘲 酝乏一。:m 墩辫纽。二。 氨。扭:。一。l 泰& m 糍纛。藏赫黛 系统组描述被管结点本身的信息,如标识号、启动时间 接口组 描述结点上的端口或网络接口的情况 地址组 定义网络地址映射 i p 组 描述网络协议( i p ) 的状态 i c m p 组描述网际控制消息协议( i c m p ) 的状态 t c p 组 描述传输控制协议( t c p ) 的状态 u d p 组 描述用户数据报协议( u d p ) 的状态 e g p 组描述外部网关协议( e g p ) 的状态 t r a n s m i s s i o n 组 保留为与介质有关的m i b s n m p 组 s n m p 通信量统计 基于t c p i p 的m i b 变量规定的只是一些概念上的变量,这些变量在t c p i p 数据结 构中都有映像。通讯时,s n m p 使用a s n 1 ( 抽象语法记法,a b s t r a c ts y n t a xn o t a t i o n1 ) 表示报文,用a s n 1 对象标识符为m i b 变量命名。当管理者收到一个报文时,必须把 a s n 1 变量名称的数字表示变换成本地变量,并存储对应的数值。 3s m 卜一管理信息的结构和标识【1 4 】1 1 5 1 s m i 协议详细定义了m i b 库的组成结构,规定了描述和标识m i b 变量的组规则。 s m i 标准规定了所有m i b 变量必须使用i s o 的a s n 1 来定义和引用。m i b 变量使用的名 字取自i s o 和i t u 管理的对象标识符( o b j e c ti d e n t i f i e r ) 名字空间。对象标识符提供了一种 标识对象的方法。原则上,每个正式标准中定义的对象都能被唯一地标识,使用的机制 是定义一棵标准树,将每个标准中的对象放在树上一个唯一的位置。在这个分层结构 中,每个对象的标识符是由根出发到对象所在节点的途中所经历的各个节点标号的系列 集合。 4s ;n m p s n m p 是t c p i p 协议集中的应用层协议,建立在无连接的用户数据报协议u d p 基础 上。s n m p 经历了从v l 到v 3 的发展历程,s n m p v l “”支持单纯的集中式管理, s n m p v 2 n 7 8 9 1 支持分布式分层式的网络管理结构,而s n m p v 3 2 0 1 的提出主要是为了弥 补s n m p v l 和s n m p v 2 在安全性方面的严重不足“”。s n m p 使用客户j r 务器模型,分别 对应着管理者和代理。管理者是管理系统中的一个软件模块,它负责完成网络管理的各 种应用。代理是在一个被管理的网络设备中运行的软件模块,它负责维护本地的管理信 息及通过s n m p 向管理者发送消息。s n m p 报文封装在u d p 中经过网络进行传送,管理 者在1 6 1 号u d p 端口接收代理发来的响应报文,在1 6 2 号u d p 端口接收陷阱报文t r a p ; 第7 页 信息t 稃大学硕十学付论文 代理在1 6 1 号u d p 端口接收管理者发来的请求报文。s n m p v l 使用5 种通信原语,如表 2 所示: 表2s n m p v l 使用的5 种通信原语 雾# 彤”2 + “”冒。“撼:?;一嚣增嬲一拶铲z 黔焉嚣蹦嚣扩扩蠖# ;帮q 8 孵誊嘴磷v 谨嘲 琵;巍幺疆翁原谖一。 煮赫融镕# 轴:。# 蕊纛纛。藏“i 。骥。纛麓+ 旗。纛荔 g e t r e q u e s t 从一个指明的变量中读取值 g e t n e x t r e q u e s t 读取一个值但不知道其准确的名字 g e t r e s p o n s e 对一个读取操作的回答 s e t r e q u e s t将一个值存到一个指明的变量中 t r a pa g e n t 发送给n m s 的种请求信息 在s n m p v 2 中还增加了i n f o r m 消息和g e t b u l k 操作。i n f o r m 消息仅仅是一个需要得 到响应的s n m p v 2t r a p 。g e t - b u l k 操作允许获取表的一部分,类似通过重复的g e t - n e x t 命 令遍历一个表。 2 2 故障恢复系统 2 2 1 故障恢复系统概述 故障是指软、硬件的缺陷,错误则是软硬件的不正确输出,失效是指所有和某故障 有关的错误造成的网络非正常运行。网络故障按生命周期可分为永久故障、暂时故障和 瞬间故障三类。按故障对网络造成的空间失效范围的大小,可将失效分为四类:任务失 效、基本网络部件失效、结点失效和予网失效。 网络故障管理又称失效管理,是指网络中某个组成部分失效时,故障管理系统能迅 速找到故障源并及时排除故障的活动,它是网络管理中最基本的功能之一,其管理过程 如图2 所示。其有效与否和功能强弱直接关系到被管理网络的可用性( a v a i l a b i l i t y ) 和可靠 性( r e l i a b i l i t y ) 。故障管理一般包括故障的检测、故障的诊断和故障的修复三个步骤,主要 功能概括如下o ”: 故障的检测:检测偏离正常行为问题状态的发生以及标识其性质; 故障的诊断:确定故障检测阶段所发现问题的根本原因( r o o tc a u s e ) : 故障的修复:根据识别出的故障原因,自动或手动的对网络或设备进行控制操 作,恢复网络的正常运行。 2 2 2 故障的分类 所谓网络故障,是指由于网元设备或链路部分工作不正常,导致了网络运行处于不 正常状态。网络故障的表现现象很多,但从用户角度看网络故障的直接表现形式为网络 不通或网络的通信速度慢。下面是从不同角度给出的几种故障分类方法: 按故障发生的时间历程分,有突发性故障和渐进性故障。突发性故障是发生故障 第8 页 信息t 稃大学硕十学位论文 前,不能提前测试与预测,这种故障表现出随机性;渐进性故障是由系统参数的逐步劣 化产生的,这种故障能够在一定程度上早期预测,一般正常使用下在其有效寿命的后期 才表现出来。 按故障存在的时间历程分,有间歇性故障和永久性故障。间歇性故障是系统功能 输出或附加输出在短时间内超出规定界限的现象;永久性故障是系统功能输出或附加输 出持续超出界限的现象。 图2 故障管理过程 按故障的显现状况束分,有潜在故障和功能故障。潜在故障是系统功能输出并未 超出允许范围,但其附加输出已有明显的表现;功能故障则是系统的功能输出超过规定 范围,一般是子系统的功能降低,严重的情况是设备的损坏。 按故障原因分,有内在故障和环境故障。内在故障由系统内部各部分结构关系不 协调或结构劣化引起:环境故障由系统的输入异常引起。 故障的主要性质表现如下:层次性,从系统论的观点看,可以认为系统是由元素按 一定的规律结合而成,显然系统是有层次的,故障的产生对应于系统的不同层次而表现 出层次性;时间性,系统故障的产生与表现常常与时间有关,以及由其运行的动态性所 决定,如渐进性故障等;相关性,复杂系统是由若干相互联系的子系统组成的整体,某 些子系统的故障常常是由于与之相关的子系统或下一级子系统故障传播所致,从而表现 第9 页 信息工程大学硕十学位论文 出相关性;模糊性,系统运行状态中的模糊性,以及人们在状态监测和技术中存在着许 多模糊的概念及方法;随机性,故障的发生常常与与时间紧密相关的随机过程有关;未 确知性,它既不是由于故障描述的模糊性引起,也不是因随机性而产生,而是由于人为 主观上因条件的限制,在系统故障己产生后,不能准确说明其发生的部位与原因,而它 又确实已经存在,只是因条件不足不能完全感知;相对性,系统故障与一定的条件和环 境有关,不同条件和环境下的故障表现以及对其描述与划分存在不一致。 2 2 3 故障恢复系统的功能 故障恢复系统的主要功能具体描述如下: 1 故障检测 故障检测的目的即在故障发生以后,尽可能的将其识别出来。这一阶段的输入是代 理报告关于网络资源改变的信息,代理提供两种类型的事件信息: 轮询应答:管理者每隔一定的时间请求被管对象的属性,称之为轮询; 事件通告:当代理检测到所负责资源某种状态时,可以主动地生成告警消息即事件通 告。 在接收代理发出告警信息的同时,故障恢复系统还必须主动监测被管设备的运行状 态,及时有效地发现更多的异常行为1 。有些设备对于整个网络的运行至关重要,必须 重点监测这些设备。监测的信息包括端口的状态、线路质量、环境参数、高层服务的日 志信息等。这些数据有些可以直接从m i b 库中查询到,如端口状态和环境参数等。有些 参数需通过计算才能得到,如c p u 利用率等。对高层服务监测最简单的方式是查询日志 信息,先将日志文件从服务器方取来,然后再作分析,分析的方法包括统计等。 实现故障检测功能的关键是检测手段是否有效。在一些情况下,为了防止故障漏 检,往往采用多种检测手段,但这种方法不能过度使用,否则同一故障会产生过多的事 件信息,反而不利于故障根源的确定。 2 事件过滤 故障恢复系统应提供过滤机制以过滤过量的信息。通过设置过滤机制过滤掉不重要 和不关心的事件及重复告警噪音等,找出真正需要处理的事件。在这一过程中的重点和 难点是需要排除已检测或己处理事件的干扰,发现真正新的事件信息。 3 故障定位 故障定位的目的是确定网络中故障的位置,这是实现故障恢复系统的难点之一”。 一个理想的告警事件应该包括有关故障的五个方面的信息:w h o ,w h a t ,w h e r e ,w h e n 和w h y 。w h o 是发出告警事件的对象;w h a t 是故障的症状;w h e r e 是对故障发生位置的 描述;w h e n 是检测到故障的时闯;w h y 是故障发生的原因。但是由于每个设备对于自身 以外的网络情况只具备非常有限的知识,所以大部分设备事件消息只回答了w h o ,w h a t 第1 0 页 信息t 程大学硕士学付论文 和w h e n 三个问题,而对于故障诊断至关重要的w h e r e 和w h y 信息却没有提供。在一个 典型的网络环境中,由于被管网元( n e ) 物理上和逻辑上的相关性,单一的故障往往会在 相关网元中产生大量的症状事件,使得故障的识别和定位变得困难;在多个故障并发 时,情况变得更加复杂。另外,由于网络的传输问题,事件消息中可能包含有噪声,这 进一步增加了故障定位的难度。 4 故障诊断 故障诊断是指在一定工作环境下,查明导致系统某种功能失调的原因或性质,判断 劣化状态发生的部位或部件,以及预测状态劣化的发展趋势等。故障诊断主要是通过逻 辑方法、模型方法、推理方法及人工智能方法,分析判断产生故障的原因,以利于敖障 修复的进行。 5 故障修复 故障恢复系统自动或指导手工完成一系列动作以修复故障,并保留详细的故障处理 记录。故障告警机制必不可少,在管理人员的p c 机上可以驻留监听后台进程,负责监听 网管站发来的故障信息,并以图形、声音的方式通知管理者。同时,故障从产生到修复 的整个过程都应该有完整的记录,记录的数据包括发生故障的设备、设备类型、故障产 生时间、修复时间、维护人员、处理过程等。而且,帮助系统应包含无法自动修复的故 障处理的指导信息。为了在发生故障时继续提供业务,需要配备适当的预备资源。修复 策略主要有以下几种:隔离引起故障的设备,使其余的资源能够继续支持业务( 虽然业 务能力可能下降) ;将业务从故障设备切换到正常的预备设备,这可以通过l :l 或m : n 预备来实现;使用网络本身具有的异径功能。 6 故障清除校验 故障修复过程完成后,应进行故障清除校验过程,测试故障是否真正清除,如果没 有,则需要收集更多的数据,重新进行诊断和修复。 7 统计和分析 故障恢复系统应支持故障记录、统计和分析,例如故障发生频率、哪些故障影响提 供的服务等,还包括故障恢复系统自身性能的分析统计,例如故障识别率等。 2 3 实现t 比特路由器智能故障恢复系统的几个关键问题 从网络管理层次上看,路由器作为网络中的设备,其管理属于网元级管理平面,其 网管系统首要实现的功能包括配置管理、故障管理和性能管理,其中有效的故障管理对 路由器的正常运行具有至关重要的意义。实现t 比特路由器智能故障恢复系统主要包括 下面几个关键问题。 第1 1 页 信息工稃大学硕七学位论文 2 3 1 故障检测 1 故障监测 故障监测的目的是及时发现网络中己发生或将发生的故障。要发现网络故障,需要 收集各种网络状态信息。收集网络状态信息一般有两种方法: 异步告警:发生故障的设备( 被管对象) 主动向管理者报告。 主动轮询:由管理者定时查询各网络设备( 被管对象) 的状态。 对网络进行监测以实时获取网络状态是网络管理的一项重要功能。在s n m p 中,网 络监视通过轮询实现。如果连续两次轮询请求的时间间隔太长,就无法实时获得网络状 态;相反如果太短的话,轮询消息通信量将增,加重网络的负载。这就需要根据网络状 态动态调整轮询间隔。 动态轮询算法不尽相同,适用情形也不同。简单的动态轮询算法检查结点是否存 活,或者根据响应时间或网络结点的处理负荷来决定下一个轮询时间间隔,这样的轮询 算法可以控制轮询消息通信量的增加,且算法消耗资源较少,速度快。在监测信息随时 间变化特性对监视任务至关重要的情况下,例如对管理信息设置阀值用于实时检测网络 异常现象,如c p u 负荷的异常增加等等,采用简单轮询算法,越过阀值上限和下限的值 或极值常常会被遗漏,这就可能导致网络故障症状的遗漏。因此,需要采用的轮询算法 能够一致地监视极大值和极小值。 2 告警过滤及故障定位 对检测到的故障信息应加以过滤处理,比如设置告警重要度、设置过滤规则过滤掉 不重要和不关心的事件及重复告警噪音等,找出真正需要处理的事件。过滤的一项重要 任务是需要排除已检测或已处理事件的干扰,发现真正新的事件信息。 从故障管理的角度来看,网络传输( t r a f f i c ) 特性包含了许多不同网络故障的症 状。故障症状会聚集( a g g r e g a t e ) 并通过传输特性表现出来,管理者很难将这些由聚集 传输特性显示的症状进行隔离。有时症状空间中会云集太多的症状,一些症状可能被另 一些症状所掩盖,使得故障定位的任务无法实现。因此,故障恢复系统必须提供有效的 方法对故障进行准确的定位。 2 3 2 智能故障诊断技术 智能故障诊断技术是一门综合性技术,它涉及人工智能、现代控制论、信号处理、 模式识别、计算机科学、电子技术和统计数学等学科。目前用于网络故障诊断的人工智 能方法主要有:基于规则库专家系统的故障诊断、基于神经网络的故障诊断等多种方 法。实际应用时,各种故障诊断方法均有自己的优点和缺点,均存在一定的局限性。在 故障诊断中仅仅使用其中的一种方法可能对许多故障无法进行有效的诊断。 作为高速宽带网络核心结点的t 比特路由器的故障恢复系统,必须提供有效的故障 第1 2 页 信息t 稃大学硕十学位论文 诊断及恢复技术,以确保路由器正常、高效的运行。这就要求在t 比特路由器故障恢复

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论