




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着计算机技术及i n t e r n e t 的发展,网络规模的扩大,建立完善的网络管理 系统显得非常重要。故障管理是网络管理的核心故障诊断又是其中的难点与 重点,其有效与否和功能强弱直接关系到被管网络的可用性和可靠性。 本文针对嗣前的智能故障诊断技术难以满足对复杂鼷络故障进行准确、有 效的定短和诊断麴要求这一问题,将故障诊断分必故障定位和故障原因诊断两 个阶段,并设计了一种综合的事件关联策略,在故障诊断过程中把事件关联技 术、基于事例的攘理技术用于不同赡故障诊断阶段,针对各阶段任务的不同, 采用不同的智能化技术,为实现智能故障诊断进行了深入的研究。 第一阶段,采用基于网络攘扑关联图的故障关联算法进行故障定位。针对 网络故障的传播性,明确定义网络事件基本的关联关系,在此基础上提穗了罄 予网络拓羚关联图的故障关联算法。该故障关联算法依据网络故障之闻的关联 关系确定故障源,有效避起到赦障过滤和定经的功能。 第二阶段,在故障诊断阶段采用基于事例推理的方法,对事件关联过程确 定的故障源进行了进一步熬敖障诊断。该方法将k - d 树和遥邻检索法等技术耀 结合,提高了事例检索的效率,从两有效的提高赦障诊断的效率。 为了深入研究,客观评价本文所提出事件关联策略,作卷利用仿真实验对 其进行了测试,结果显示该方案使故障诊断其有较高的有效性。 最后,本文将智熊故障诊断技术具体应用i t m a n a g e r 的统一嘲管平台,设 计和实现了一种基于j 2 e e 体系结构的通用故障管理系统,并甥步实现了该事件 关联模型的原型系统。 关键词:鼷络故障管理;智麓故障诊断;事件关联:嬲络攘羚9 基予事铡的推 理 a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rs c i e n c ea n di n t e m e t ,i ti si m p o r t a n tt os e tu p a p e r f e c tn e t w o r ka d m i n i s t r a t i o ns y s t e m f a u l tm a n a g e m e n ti st h em o s ti m p o r t a n t p a r to fn e t w o r ka d m i n i s t r a t i o n t h ee f f e c t i v e n e s sa n dp o w e ro fi tc o r r e l a t ew i t ht h e a v a i l a b i l i t ya n dr e l i a b i l i t yo fm a n a g e dn e t w o r k w i t hr e g a r dt ot h ep r o b l e mt h a tas i n g l ea i i n t e l l i g e n tt e c h n o l o g yc a n n o tm e e t t h ew h o l ed e m a n d so ft h ee x a c tf a u l ti d e n t i f i c a t i o na n dd i a g n o s i s ,f a u l td i a g n o s i si s d i v i d e di n t ot w op a r t si nt h i st h e s i s :f a u l tl o c a l i z a t i o na n df a u l tc a u s ed i a g n o s i s , d i f f e r e n ta i t e c h n i q u e sc a l lb ea p p l i e dt ot h e s et w op a r t s ac o m p r e h e n s i v ee v e n t c o r r e l a t i o ns t r a t e g yw h i c hc o m b i n e se v e n tc o r r e l a t i o nt e c h n o l o g ya n dc a s e b a s e d r e a s o n i n gt e c h n o l o g y , i sd e s i g n e dt od e a lw i t hf a u l td i a g n o s i si nd i f f e r e n ts t a g e i l lt h ef i r s tp h a s e ,t h ee v e n tc o f r e l a f i o nm o d e lb a s e do nn e t w o r kt o p o l o g yi s p r e s e n t e di nt h i st h e s i st oi m p l e m e n t f a u l tl o c a l i z a t i o n 。a c c o r d i n gt ot h er e l a t i o n s h i p o ff a i l u r e s ,w eg i v eam e t h o dt od e t e r m i n et h es o u r c eo ff a i l u r ei nt h i sp a p e r ,w h i c h w i l lp e r f o r mf a i l u r ef i l t r a t i o na n dl o c a t i o nf u n c t i o ne f f e c t i v e l y i nt h es e c o n dp h a s e ,af a u l td i a g n o s i st e c h n o l o g yb a s e do i lc b rh a sb e e n b r o u g h tf o r t h t h i st e c h n o l o g yw h i c hc o m b i n e sk - dt r e e sa n dk n e a r e s tn e i 曲b o r c a nr a i s et h ee f f i c i e n c yo ff a i l u r ed i a g n o s i s f o re v a l u a t i n gt h ee v e n tc o r r e l a t i o ns t r a t e g yi ns t u d y , t h ew r i t e rt e s t sa l g o r i t h m s w i t he m u l a t o r i ts h o w sg o o dp e r f o r m a n c eo ff a u l td i a g n o s i s a tl a s t ,t h ed e s i g na n di m p l e m e n to ft h ep r o t o t y p ei sg i v e ni ni tm a n a g e r , t h e n e t w o r kf a u l tm a n a g e m e n tp l a t f o r mb a s e do nj 2 e e k e y w o r d s :n e t w o r kf a u l tm a n a g e m e n t ;i n t e l l i g e n tf a u l td i a g n o s i s ;e v e n tc o r r e l a t i o n ; n e t w o r kt o p o l o g y ;c a s e d - b a s e dr e a s o n i n g 第_ l 章绪论 1 1 课题的研究背景、目的及意义 随着信息技术的飞速发展,计算机网络已经成为社会生产、生活必不可少 的部分,对社会经济快速发展起着巨大的作用。网络短时间的失效会造成无 法估计的巨大损失,为了保持和增加网络的可用性,减少故障的发生,人们急 需对网络本身进行管理。 网络管理是指对网络的运行状态进行监测和控制,使其能够有效、可靠、 安全、经济堍提供服务。按照国际标准化组织( i s o ) 的定义,网络管理可分为故 障管理、性熊管理、配置管理、安全管理以及计费管理等功能域。故障管理是 网络管理的一个重要组成部分,它的有效与否和功能强弱直接关系到被管理网络 的可用性( a v a i l a b i l i t y ) 和可靠性( r e l i a b i l i t y ) t l j 。 故障管理一般包括故障检测、故障的诊断和故障修复三个步骤掰,其中故障 诊断是其中最为关键的一环。网络故障诊断如果可以快速准确地排除故障,就 可以减小因网络故障而造成的损失,保证网络的可靠性和可用性,还可以在一 定程度上预防故障的发生。早期的故障诊断主要靠人工的方式,效率低,而且 很难快速准确地摊除故障。因此,敌障诊断只有离着智能化方向发展,才麓满 足网络发展的需要。智能化故障诊断的实现方法有很多,每种方法都有自己的 优势,但也存在不足。单一的智能化故障诊断方法比较难完成复杂的故障诊断 过程。需要把凡种方法结合起来,取长补短。 本文针对以上问题,将故障诊断分为故障定位和故障原因诊断两个阶段, 目的是在不同的阶段采用不同的智能化故障诊断的方法,提高故障诊断的方法。 可以在故障定位阶段,因为网络故障具有传播性,可以采用事件关联技术进行 定位。在故障诊断阶段应用基于事例的推理技术,并对现有的基予事铡的推理 技术中检索方法进行了改进,为实现智能故障诊断进l 亍了积极地探索。 该系统主要是针对电信网络管理而开发的,但是可以广泛应用于电信、商 业和军事等许多领域。 蓬壹窑鋈盔堂受圭塑塞圭堂筵鲨塞墓;嚣 1 2 网络故障管理的研究现状和发展前景 4 早期豹故障管理是通过网管人员分耩告警信息以人工方式实现,该方式代 价离,效率低,无法进行实时、有效的故障诊断。把人工智能技术引入故障诊 断领域,使故障奁动宠位和故障漂困诊断成秀可髓。零l 入人王智能技术於誉黔 就是希望通过尽可能少的人工干预,使故障诊断畿够独立的驱动智裁诊断过糕, 实现其露标的鸯动控制。僵爨前的智能故障诊断按术,多采翔某种单一熬人王 智能技术运用于整个故障诊断过程,难以满足对复杂网络故障进行准确、有效 的定使和诊断的全部要求。 嚣蔫,各大电信设备提供巍都邑经有了黧己的投入商渡运营豹综合耀警故 障管理系统,但是告警相关性产品总体还处于不成熟的阶段,在国内还没有得 到广泛应用。下面对几个沈较著名的霹络管理软件中酶网络故障管理部分作筒 荤的介绍和比较。 1 。e v e n tc o r r el 贰lo ns e r v c e s 惠普公霹已经开发麴告警相关性产瑟e c s ( e v e n tc o r r e l a t i o ns e r v i c e s ) ,并把它们作为o p e n v i e w 平台的部分。e c s 是个 基予规鬓| j 的系统,是基于构箨来实现告警提关性分析和告警过滤。透过各个功 麓模块构静斡组合,完成不闭鹣功麓,适应不丽嬲络的实骣情况。 但是o p e n v i e w 不能处理因为某一网络对象故障而误导致的其他对象的故 障。具体说来就是,它不具备理解所有网络瓣象在网络中相互关系的麓力,函 j 毙一里这些掰络对象中的一个发生故障,导致其他正常的溺络对象停止响应瓣 终管理系统,它会把这些正常鼹终对象当作故障对象对待。 2 n e t f a c ti b m 的n e t v i e w 是一个相对比较新,同时又具有兼容性的网络 管理系统。n e t f a c t ( n e t w o r kf a u l ta n da l a r mc o r r e l a t e ra n dt e s t e r ) 是其中的故障 管理模块,它通过分析鼹络中的告警事件,可戬确定故障原魏。该系统可戮对 接收到告警进行规格化,同时系统中存在包含网觉配置信息的网络模型。 n e t f a c t 系统采用路径分析技术和投票( v o t i n g ) 策略。 跟o p e n v i e w 样,n e t v i e w 作为企业级的网络管理系统,但它也不能对敲 障事件进行舞并,它不能找窭裙关故障卡片的蠹在关系,嚣武对一个失效设备, 即使是一个重要的路由器,将导致大量的故障卡片和一系列类似的告警,这是 难以接受的。因此,n e t v i e w 不具备在掌握整个潮络结构情况下管理分数对象 的能力。在一个大型、异构网络中,这意昧着服务的开销不能轻易地从网络开 。m 。mh ih i 西南交通大学硕士研究生, 学位论m l 塞,墓2 垂 l _ l l _ _ l _ _ - o l - - - _ o - 一 销中区分出来。 3 t a s a 芬兰赫尔辛基大学计算机科学系的h a t o n e n 等人开发了一个基 于透信网络中报警数据库的知识发现系统t a s a ( t c l c c o m m u n i c a t i o nn e t w o r k a l a r ms e q u e n c ea n a l y z 神。该系统是与一个通信设备生产厂商及三个电话经营 商( 两个固定城市电话网和一个国家范围的移动通信网) 合作开发的,其目的是寻 找有助于处理警报序列的规剐,这些规剃用来过滤、转换警报,并用来预测故 障。t a s a 系统知识发现中所采用的是基于规则的形式,一个一般的规则形式 如下:“如果某一警报组合在段时间内发生,那么,在给定的时间间隔内,某 一类型的警报可能发生。 4 。4 e s s - e s 在a t & t 网络中绝大多数长途话务量交换容量由4 e s s 交换机 实现。4 e s s e s ( 4 e s se x p e r ts y s t e m ) 负责对这此交换设备的管理:包括对交换 机的检测,运行诊断测试和对告警的过滤。4 e s s e s 是第一代基于规则的专家 系统,采用一种非常流行的基于规则的o p s 5c 5 语言,于1 9 9 0 年完成。它与 第一代的专家系统面幅同样的问题:对靓则的修改和维护变 ! 譬非常露难。在1 9 9 6 年,该系统采用混合的、基于规则的策略重新设计和实现。 由上述几个网管产品可以看出,传统上对告警相关性分析主要是通过人工 分析出相关性规则,然后再加入系统中。在网络规模较小的情况下,还可以满 足实际要求,但是隧着透信嬲终规模越来越大,越来越复杂,仅仅通过专家获 得告警相关性知识,已经无法满足网络维护的要求。并且,单一的智能故障诊 断技术,己经难以满足复杂网络故障诊断的全部任务要求。因此越来越多研发 人员专注于通过缀合多种智能诊断方法来分析告警事件序列,挖掘告警相关性 规则或者直接通过智能推理方式撂到故障根源。 1 3 论文的主要研究内容 网络管理系统的建设是一个复杂的系统工程,故障管理系统是网络管理体 系的一个重要功能模块,在整个网管系统中有着重要的地位和作用,面敏障的 准确诊断又是其中的重中之重。 本文旨在对智能化网络故障管理的相关理论和技术进行深入的研究。首先 对故障源定位、故障原因诊断以及故障修复等过程中的智能化技术进行了详细 的分析,然薏提出了融合的网络拓扑关联和基于事例豹推理的智能诊断模型, 要壹窑鋈盔堂壅圭墅窒生兰鳇迨塞蓥量墓 并给出了详细的设计方案。该方案充分利用不同智能故障诊断技术的优势互补, 改善了故障管理系统的性能。 蓝外本文逶过对智畿故障诊断技术的研究,将其具体应用于在网管的故障 管理这一重要领域中。在i t m a n a g e r 的统一网管平台的基础上,设计和实现了 一种基于j 2 e e 体系结构的通用故障管理系统,该系统已实现了网络管理中规定 的故障管理系统的相关功能,能够完成对各种类型网络设各的统一管理。 1 4 论文结构 本文的组织结构如下: 第一章绪论介绍网络故障诊断技术的背景及现状,本文的研究目的及意 义,并简要介绍了本人所做的工作及论文结构。 第二章网络故障概述分绍网络故障和故障管理的基本概念,对故障管理 系统进行了分析,指出各种故障管理系统的优点和存在的问题,并阐述了故障 管理系统的发展方向。 第三章事件关联技术重点分绍事件关联技术,并对现有的几种事件关联 技术进行了分析,指出了其中存在的问题。 第四章基于拓扑结构和c b r 的智能故障诊断技术详细介绍故障管理系统 中的基于事例的推理和关联图的智能故障定位技术的实现,提出基于事件关联 技术的敖障诊断模型。 第五章系统总体设计方案首先介绍了本系统总体设计方案,并从客户端、 服务器、平台支撑、数据库等多个方面详细的介绍了网管系统的整体架构。 第六章总结全文并对未来进行展望。 第2 章网络故障及故障管理 计算机网络服务发生意外中断是常觅的,这种意外中断在某些重要的时候 可能会对社会或者生产带来极大的影响。但是,与单个计算机系统不同的是, 在大型计算机网络中,当发生失效故障时,往往不能轻易、具体地确定故障所 在的准确位髭,而需要相关技术的支持。因此,需要有个故障管理系统,用 来科学地管理网络发生的所有故障,并记录每个故障的产生及相关信息,最后 确定并排除那些故障,傺证网络能提供较可靠的服务。 2 1 网络故障 2 1 1 相关概念 网络是由各个设备和子系统组成的,因此网络中各个设备和予系统是互相 影响,如果系统出现故障就会影响和它相连的其他系统的正常运行。 故障是指某一软、硬设备( 单元) 处于不能正常实现其功能的状态,后者 是指与预定操作目标、系统功能之间有偏差。故障可以是暂时性的,可以是永 久性的;可以是软故障,也可以是硬故障。其表现为系统不能满足其操作目标1 4 l 。 只有引起瘸络失效,影响网络的性缝和可用性的那部分放障才称为溺络故 障。网络故障的表现,可以是e r r o r , f a i l u r e 或者某些其它症状,但是从网络中 采集到的管理数据,主要有三种:s y s l o g ( s y s t e m 1 0 9 ,系统日志) 、t r a p 和 m i b ( m a n a g e m e n ti n f o r m a t i o nb a s e ,管理信息库) 数据。对于s y s l o g 和t r a p ,可以 将其统称为告警或事件,有关事件及事件相关性的知识将在第三章作详缨介绥。 2 1 2 网络故障类鍪 网络故障按不同的准则进行分类,根据网络故障的性质把网络故障分为物 理故障与逻辑故障,根据网络故障的对象把网络故障分为线路故障、路由故障 和主机故障。根据故障发生来源的不同,可以将它们划分为薅大类,即硬故障 ( h a r de r r o r s ) 和软故障( s o f te r r o r s ) i 6 ,7 l 。 1 按照网络故障的性质的分类: 耍童奎适盔鲎塑圭塑窒圭兰焦鲨塞整i 戛 ( 1 ) 物理故障物理故障指的是设备或线路损坏、插头松动、线路受到严重 电磁干扰等情况。 ( 2 ) 逻辑故障逻辑故障中最常见就是配嚣错误,也就是嚣为网络设备配置 问题而导致的网络异常或故障。配置错误可能是路由器端口参数设定有误、路 由掩码设置错误和路由器路由配置错误导致路由循环或者找不到远端地址等。 2 按照网络故障的对象的分类: ( 1 ) 线路故障线路故障最主要是线路不通。 ( 2 ) 路由器故障路由器常见故障有:吞吐量不足、地址表错误或没有及时 更新、子网掩码错误、没有在路由器上配置默认网关、定时器配置错误、w a n 链路问题、路由器之闻的逶信故障和安装及配置错误。 ( 3 ) 主枧故障主机故障中最常见是主机的配置不当。例如:主帆配置的撑 地址与其它主机冲突,或口地址根本就不在子网范围内,导致主机无法连通。 主机的另一故障就是安全故障。 3 按照故障发生来源分类: ( 1 ) 硬故障硬故障是指网络的硬件设备在工作过程中产生的各种错误。这 些错误与该设备的作用有密切关系,网络系统的复杂性也正是由于设备的多样 性而体现出来的。根据这些设备我们可以不难引申出相应的故障类型:连接 设备故障这种故障的现象主要是网终的物理连接出现闻题,也可以称为通路故 障。造成故障的原因可能是电缆线断开、收发器断开或不能正常工作以及其它 连接设备间的接口出问题等等。共享设备故障这种故障的表现是用于资源共 享的设备出现闯题,不能提供或享受所需的服务。同样,该类型的故障也可以 缨分为服务器故障( 打印机故障、文件服务器故障等) 、工作站故障等等。其它 设备故障包括电源故障、监控器故障、测试仪故障、分析仪故障等等。由于网 络中的硬故障多种多样,采用这种分层的方法有利于全面、清晰地找到网络阅 题於所在。 ( 2 ) 软故障软故障是指网络系统软件运行出错。软故障的发现和处理是在 管理过程中逐渐被人们所认识的,因为软件属于一种无形的东西,问题的表现 不如硬件那么直观。款这个意义上看,软故障的识剐和诊断趸加爵难。故障管 理中所处理的软故障主要针对与网络通讯和服务有关的系统软件,它可以直接 根据网络软件来划分,包括通讯协议软件故障、网络文件系统( f n s ) 故障、文件 传输软件故障、域名服务系统( d n s1 等等。 il l u l l l l l li i嚣南- 交通大兰一硕士研究生学位i 论文iii 第7 页i i 一 故障类型并不是一成不变的,随着网络在复杂性和规模上提高,网络故障 管理的要求也在不断增加。新的技术、设备的应用使故障的类型、故障原因、 赦障源方面都在发生变化,这就故障管理系统增加新的内容。 2 1 3 网络故障的特征 1 故障传播网络是由各个设备和予系统组成的,不同的设备和子系统是 互相关联,紧密耦合。一个设备产生故障会影响很多和它相连的设备或子系统, 甚至会导致嬲络的瘫痪,这静现象就翼嵯傲网络传攒。 故障在网络中的传播路径1 9 0 i o i 主要有两种:横向传播和纵向传播。横向传播 是指故障沿着物理连接或逻辑连接的设备之间水平传播。纵向传播是指故障在 一个设备内部沿着协议栈从低层向高层传播。故障诊断可以依据故障传播路径 把故障诊断分为两部分:横肉诊断和纵向诊断。这样就可以提高故障诊断的效 率和准确性。一系列故障发生的时间是这些故障如何传播的个线索,当然和 网络拓扑图结合在一起就可以更全面的了解故障是如何传播的。这些都是故障 诊断的依据。 2 。网络故障持续时间网络故障持续时间被看作网络故障的一个重要标准, 但要想精确计算网络故障持续时间很困难i s ) 。因此,网络故障只能按照其持续时 间粗略的分为三类:永久性故障、间断性故障以及短暂性故障。 永久性故障一直存在于网络中直到效障排除,永久性故障严重影畴系统性 能。永久性故障必须对网络配置进行修改。间断性故障以一种非连续的、周期 性的方式发生,间断性故障会使当前的处理失败,并在短时间内降低系统性能, 但如果闻断性故障严重,也将会转交为永久性故障。短暂性故障只是在瞬闯产 生,短暂性故障只会对系统性能有轻微的影响,因此不容易被察觉。 2 2 故障管理 故障管理的主要功能故障管理的主要功能是对被管设备和路径节点进行监 控及时发现黼络中的故障,对鼓障进行定位、诊断并提供排除故障的方案瓣l 。 故障管理过程如图2 _ l 所示。 扶持续 图2 - 1 故障管理过程 故障管理一般包括故障检测;故障诊断;故障修复;故障记录。 2 2 1 故障检测 通过异步告警和主动轮询两种方式在正常操作中,收集网络的状态信息, 及时发现网络设备或网络服务的异常。 故障检测的爵的即是在故障发生以后,尽可能将其识别出来。这一阶段的 输入是代理报告关于网络资源改变的信息,代理提供两种类型的事件信息: 轮询应答:管理者每隔一定的时间请求被管对蒙的属性,称之为轮询; 事件通告:当代理检测到所负责资源某种状态时,可以主动地生成告警 消息郎事件通告。 在接收代理发出的告警信息的同时,故障管理系统还必须主动监测被管设 备的运行状态,及时有效地发现更多的异常行为。 2 2 。2 故障诊断 通过分析涉及被管理对象的故障和事件报告,执行诊断测试程序。在故障 管理中,核心和难点在于故障诊断,由于故障具有传播性,单个故障会产生大 量的网络告警,要想快速准确的故障对故障进行定位和诊断就很困难。当多个 故障同时发生时,就交得无从下手了。故障诊断根据大量的网络告警,找到故 露南交通大学硕士研究生学位论文第9 页 _ ii r 一i i i i i i i i l 障源,还要对故障源的故障产生原因进行分析最终达到排除故障的目的。 故障有传播性,而且故障产生的原因非常多,光靠人工的方式进行故障诊 断肯定不能满足现在网络发震的需要,嚣此需要智能纯故障诊断技术。 2 2 3 故障修复 故障管理系统自动或有指导地手工完成一系列动作以修复故障,保留详细 的故障处理记录。故障通告机制必不可少,在管理入员的p c 机上可以驻留监听 后台进程,负责监听鼹管站发来的故障信息,并以图形、声音的方式通知管理 者。同时,故障从产生到恢复的整个过程都应该有完整的记录。为了在发生故 障时继续提供业务,需要配备适当的预备资源。恢复策略主要有以下几种:a 隔离弓l 起故障的设备,使其余的资源能够继续支持业务f 虽然业务熊力可能下 降) ;b 将业务从故障设备切换到正常的预备设备,这可以通过l :l 预备或m :n 预备来实现;c 使用环或网状网络本身具有的异径功能。 2 。2 。4 故障记录 以日志的形式记录告警、诊断和处理结果,为以后的故障诊断提供依据。 故障管理的一个重要方面是收集运行情况的有关数据,监督故障的损坏程度和 修复成本,以反映故障管理的有效性。 这些数据可以用来确定网络维护的当前成本和未来预期成本,并为制定故 障管理策略,提供故障管理质量提供资料。还可以进行更详细的分析,如:按 故障类型划分、常见故障分析、设备的可靠性( 平均失效时间) 和可修复性( 平 均修复时间) 等等。 2 3 故障管理的发展 早期的网络故障管理一般采用简单的网络监视手段。网络监视包括收集有 关网络状态的信息,将信息综合为关于网络运行状况的表征,并以一种直观和 可理解的方式显示给网络管理人员。轮询m i b 信息库是网络故障诊断的最基本 的方法。系统管理员可以为每个可能指示故障的m i b 对象设定门限值( 上限或下 限) 。当故障管理系统轮询到某管理代理上的某个m i b 对象超过了门限值,则 - - i i匿南交通i i 大学- 硕- 士m l l 研究i l 生l l l l l l 学m 位i l l 论文 第1 0 基i l l l l l l l一 向管理员报告一个故障信息。这种故障报告仅仅给出了在哪个m i b 上( i p 地址) 的哪个m i b 对象越界了,而不对这种越界情况作任何的分析处理。这种故障管 理系统实现成本低,管理功能毙较弱,对管理员的能力要求比较高。随着网络 复杂性和网络规模的不断增加,这种方法显然不能满足现代网络管理的要求【1 3 l 。 近几年来,人工智能技术特别是专家系统方法被引入到网络管理中。基予 人工智能的网络管理模型主要采用基于规则的推理( r b r :r u l e 。b a s e dr e a s o n i n g ) 方法1 1 甥、基于事例的推理f c b r :c a s e b a s e dr e a s o n i n g ) 方法1 1 6 1 等。 最常用的自动网络管理平台采用基于规则的专家系统模型,将局部性知识 用组规则来表示,用网络当前状态的“事实或“知识”与知识库中的规则 进行匹配。然而,专家系统仅适用于有限的、易于理解的故障撑除任务,丽不 具备学习能力、不能排除新的故障以及难于跟上迅速变化的动态网络环境等。 因此,知识获取“瓶颈 、知识难以维护、推理能力弱、实用性差及精确推理不 适合解决模糊问题等不足,限制了入工智能技术和传统专家系统在智能网络管 理中的迸一步应用l 。 诊断的实现方法有很多,每种方法都有优势,但也存在不足。因此针对上 述不足,本文在现代网络管理中引入了网络拓扑关联图和基于事例推理的网络 管理信患处理技术。将基于网络拓扑关联图和基予事例推理技术引入到现代网 络管理,量的是揭示出隐含的网络管理信息数据库孛先前未知的却有潜在价值 的信息和模式,做出分析,从而实现网络故障自动诊断、预测和恢复,保证网 络服务具有高质量和高可靠性。 2 4 本章小结 本章首先介绍网络故障篱理的基本概念,对故障管理系统进行了分析,指 出目前故障管理系统的优点和存在的问题,并阐述了故障管理系统的发展方向。 嚣南交通大攀硕士研究生堂焦迨皇篁! ! 夏 第3 章事件关联技术分析 3 1 事件、事件关联的概念 3 1 1 事件( e v e n t ) 在网络故障管理领域,事件也称为告警,是由在特定事件发生时被管对象 发出的通报( n o t i f i c a t i o n s ) 构成的事件报告,用于传递告警信息鞠。 事件分为简单事件和组会事件。简单事件是由单一消息产生的事 粤;组合 事件是由简单事件按照定的规则组合的事件1 1 7 1 。同时事件按其性质又可分为: 连通性事件和性能事件。连通性事件:是指网络管理工作站向被管设备发p i n g 命令,而这些被管设备没有响应,说明被管设备和网络管理工作站失去连接。 性能事件:是指虽然被管设备能和网络管理工作站通信,但表征网络性能的 一些参数超过了设定的阀值,就会触发的事件。故障和事件是紧密联系的,故 障是原因而事件则是网络中出现的征兆。但故障和事件不是一一对应的,一个 敌障可能会产生很多事件。事件可以逶过设备向管理系统报告关键的网络事件、 系统日志和主动轮询等方式获取,但要想从这些事件中找到故障则比较困难的。 3 1 2 事件关联( e v e n tc o r r e l a t i o n ) 事件关联,也可以称为告警相关性分析,就是指通过时间( t e m p o r a l ) 和空 闻( s p a t i a l ) 对告警信息进行相关处理,对告警事件进行合并和转化,并将多条告 警记录合并成一条具有更多信息量的告警,形成能准确反应故障根本原因的告 警,并且可以准确定位故障。告警信息的时间戳可以来确定告警的序列用于故 障定位。空间信息主要是指网络拓扑结构信息,显示被管网元之间的相关性。 事件相关性的形式化定义如下:告警事件a 与告警事件集合 a l ,a 2 ,a i 【 相 关表示为:a = a l ,a 2 ,a k 。 3 2 事件关联的类型 事件关联类型已由j a c o b s o n 给出,具体如下: 一, ii,i,ll嚣- l 南i t l l l - 交- i 通大学i - 硕- 士i 研究生学位i 论文 mm 复, , , , , , 兰噩_lll_ ( 1 ) 告警压缩( c o m p r e s si o n ) 告警压缩就是取出发生多次的相同事件,检查 重复的信息,去除冗余,按单一的事件报告。因而,1 0 0 0 个“路由失败”警报成 了单个警报,说“路由失败了1 0 0 0 次”。如下表示: 将发生的多个告警压缩到一个告警中:【a ,a ,a ,a 】= a ( 2 ) 告警过滤( fi lt e rin g ) 告警过滤就是定制系统只对某类的事件进行处 理,例如某个时刻只关心t r a p 事件和级别较高的s y s l o g 事件,就可以把级别低 的s y s l o g 事件过滤掉不处理。 如果告警a 的p ( a ) 值不属于含法集合u ,则过滤掉告警a :【a ,p ( a ) 聪u 】= 巾 ( 3 ) 告警抑翩( s u p p r e s s lo n ) 抑制与警报的优先等级有关联,如果出现较高 优先级的警报,它让系统抑制较低优先级的事件。 在告警a ( 例如高优先级告警) 发生的情况下,抑制告警b ( 低优先级告 警) :f a ,b 1 = a ; ( 毒) 告警计数( c o u n t ) 对重复到达囝样的告警进行统计和设定门限值。例 如,用告警b 代替n 次出现告警a 。 甩告警b 代替n 次出现告警a :【n * a 】= b ( 5 ) 告警泛化( g e n e r al iz a tlo n ) 告警泛化与一些较高级别的事件的警报有 关联,指出报告的是什么。例如涉及同交换枧或路由器上多个端口的事件在 交换机或路由器失效的情况下进行相关处理时,如果你能确定整个设备有问题, 你就不需要察看每个具体的故障。 用告警的超类代替该告警:【a ,a cb 】= b ( 6 ) 告警特化( s p e c ializ a tio n ) 告警特化与告警泛化过程相反,它确定把 多条告警归并为一个告警子集。即如果你能确定一个设备中的一个端口或者配 置有关键问题,你就不需要察看这个设备的其它每个具体的故障。 餍告警黔特定子集代替该告警: a ,a :b l = b ( 7 ) 告警时序关系( t e m p o r ai r eia tio nt ( b e f o r e a f t e r ) ) 基于时间的事件 相关有助于建立因果关系。例如,从连接故障追查到硬件的失效部件。常常通 过对具有特定基予时间的关系的事件进行相关,就能收集到更多的信息。有些 润题只要通过时阕相关就熊确定。 关联的告警依赖于告警发生时间顺序,使用t 表示时间顺序( b e f o r e a f t e r ) , 以上关系可以表示为: ii ii i i i i ii 西南交通大学一硕士研究生学位论文i i ig l li i i ii i i i i i i墓1 2 嚣 -l_-_l_lll_一 觚b a t b 】篇 c 。 3 3 事件关联技术 3 3 1 事件关联技术的分类 事件关联技术到目前为止已经得到了巨大的发展,国内外的研究机构已先 后提出多种事件关联技术。这些事件关联技术涉及了计算机科学的不同研究领 域,包括:人工智能、囊动控制论图论、神经网络、信患论以及图论,如图3 1 所示,事件关联技术主要包括以下三大类型: e v e n tc o r r e l a t i o nt e c h n i q u e s 。g r a m r r 氇m l 图3 1 事件关联技术的分类 1 人工智能技术( a r t i f i c i a fi n t e i ii g e n c et e c h n i q u e s ,a i ) 人工智 能是- i 1 众多学科广泛交叉的前沿科学,它的目标在于研究雳机器来模仿和执 行人脑的某些智能功能,开发相关理论和技术。其在事件关联中的应用主要有: 基于事例的推理( c a s e - b a s e dr e a s o n i n g ,c b r ) 基于规则的推理( r u l e b a s e dr e a s o n i n g ,r b r ) 基于模型的推理( m o d e l b a s e dr e a s o n i n g ,m b r ) 神经网络( n e u r a ln e t w o r k s ) - 决策树( d e c i s i o nt r e e s ) 它们的原理都是利用告警事件本身所包含信患的因果关系以及网络的拓扑 结构等9 霹识进行接理,以确定故障发生的真正根源。 2 模型遍历技术( m o d e it r a v e r s in gt e c h njq u e s ) 模型遍历技术,采用 形式化描述网络的方法,清晰的标记了网络实体问的连接关系,而故障通常就 鹜童窑湮盔堂壅圭受窒生兰丝鲨塞签:兰嚣 是沿着这种连接在网络中进行传播。因此,对其进行有效的形式化描述,可以 协助故障定位过程区分哪些告警为关联告警,薨找到真正的故障源。模型遍历 技术只有当被管网元间的连接可以正确获取,并能被图形化攒述的情况下,方 能轻松实现。但由于该技术不能描述网元间的逻辑连接,因此很少单独使用。 3 故障传播模型( f a u l tp r o p a g a t i o nm o d e i s ) 故障传播模型的核心是通 过优先权指定来确定网络实体间的告警关联关系,基于这种信息,系统执行某 种关联算法,以分离出所有告警中的真正故障源,并返回一组故障假设。关联 算法好坏是以其返回故障假设的最少个数作为的评价标准。腰前,基于这种放 障传播模型已有多种技术提出,主要有: 代码书技术( c o d e b o o kt e c h n i q u e s ) 贝叶斯网络( b a y e s i a nn e t w o r k ) 依赖图( d e p c n d e n c yg r a p h s ) 因果图( c a u s a l i t yg r a p h s ) 短语结构文法( p h r a s es t r u c t u r e dg r a m m a r s ) 。 3 3 2 几种事件关联技术的介绍 在上述三种类型的事件关联技术中,常用的主要有以下几种: 1 基于规则的推理( r b r ) 基于规则的推理( r 娃l e b a s e dr e a s o n i n g ,r b r ) 又称为基于规贱的专家系 统、产生式系统和黑板系统等,它是最早出现的一种事件关联技术i 1 5 1 。这种方 法的特定领域知识包含在一组规则集中,再将网络当前状态与规则的条件部分 进行比较,以确定是否采用该规则。每个基于规则的系统都有个控制策略,决 定应用规则的次序。例如,当结束条件已经被满足,则停止计算。基于规则的 推理系统的工作原理如图3 2 所示。 图3 2 基于规则的推理系统的工作原理图 耍童窒渔盔鲎亟主墅窒生耋垡鲨銮笺:i 翼 基于规则的推理系统一般由工作存储器( w o r k i n gm e m o r y ) 、推理引擎 ( i n f e r e n c ee n g i n e ) 和知识库( k n o w l e d g eb a s e ) 组成f 1 9 l 。 2 基于事例的推理( g b r ) c b r 是人工智能发展较为成熟的一个分支,与其它人工智能技术相比,其 不同之处在于它不依赖于问题领域的一般知识,也不是产生式规则。c b r 能够 利用有经验的、具体事例的特殊知识,透过寻找类似的过去事例来解决新问题 1 1 6 1 。在基于事例的系统中,知识的基本单元是事例( c a s e ) i 聂i 不是规则。很多过 去发生的范例被存储、检索,并用来解决新问题。由解决新问题的经验构成新 的事例,系统将新的事例加入到数据库中,为将来使用。 图3 3 给出了基于事例推理的一般结构。 象婀题 确认解 建议解 图3 3 基于事例推理的结构示意图 3 基于模型的推理( m b r ) m b r 是一种基于面向对象模型的方法,它与潜在系统的深层知识相结合, 这些知识包括系统中各个组件的属性、结构及其行为。m b r 通过对这些知识进 行模型化描述来进行接理1 7 2 1 。其最旱是应用于工业自动化控制当中,随后扩展 到网络中的实时故障管理。在故障管理中,被管网元的属性( 如:网元类型、规 范限制) 、结构( 如:拓扑结构) 和行为( 如:告警关联过程) 均被模型化,模型之间 的关系反映出它们所代表的被管阏元之闯的关系,丽事件关联是模型之间协作 的结果。 。 4 代码书技术( c o d e b o o k ) 代码书技术不同于前面几种事件关联技术,它不需要专家知识来将问题和 事件联系起来,而是运用信患论的知识,把盘问题弓l 发的完整事件集视作标识 蚕壹奎迢盔堂亟圭塑i i i i 究堡学焦监文一i 篷! 垦篡i i_ _ - _ _ _ _ _ - _ _ _ - _ 。 问题的“代码”,事件关联的整个进程仅仅是对一系列观测症状进行“解码”, 即判定哪个问题的代码最大限度地匹配观测症状。其基本思想是为潜在的问题 和表征这些阀题的症状形成关联矩阵谬l 。 5 。贝叶斯网络( b a y sn e t w o r k s ) 贝叶斯网络是个有向无环图,每个节点代表一个随机变量,通过前序节点 代表变量值的所有可能组合,可计算出该节点上的相关条件概率。图中的边代 表相互连接的节点之闻存在着因果关系l l l l 。 贝叶斯网络同提出处理不确定性的新方法。通过这此方法即使在信息不完 全和不精确的情况下,也可以进行推理。通信网络中发生的告警事件,可能会 发生丢失,如通信线路如现问题,所以收集到的具有相关性告警事件是不确定 的。丽且激发相关性告警的赦障原嚣也是不确定的。所以通过贝叶斯网络来分 析通信网络中告警相关性,可以克服告警事件的不确定性。 6 神经网络( n e u r ain e t w o r k s ) 前馈神经网络在医疗诊断、多传感器霉标跟踪、图像、数据压缩已有成功 应用,用神经网络来处理的告警相关性问题有同样的效果。前馈神经网络的多 层反馈网络特性使它成为解决这些问题的有力工具陋珂。 如果给定前馈网络足够多的神经元,它可以逼近任何一个函数,包括布尔 函数和分类器。这傻神经蘸络在调练不同的告警模式时具有足够的灵淫性。它 们的泛化性能很好并且可以学习已知函数的最大近似值,而不需要更深了解领 域知识。它们可以处理不完全和不明确的数据。 3 4 几种常用的事件关联技术的分析与比较 基子案例的摧理方法、基于规则的推理方法、神经网络、统计方法等都有 着各自的优点和缺点,它们都有一定的适用范围。在进行复杂问题的求解或设 计复杂的知识系统时,需要用到各种方法,这样才能发挥各种方法的优势,更 好、更快豹解决问题,才能设计出功糍更强大、傻焉范围更广的系统。 下面首先把各种推理方法逐一分析,然后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中生物:校园花卉生态多样性保护与教育实践论文
- 高中地理VR教学中的学生问题解决能力培养与策略论文
- 艾灸馆安全管理制度
- 苗圃门卫室管理制度
- 衬胶管道技术规范
- 《怎么都快乐》课件
- 财务人员个人上半年工作总结(33篇)
- 设备租赁合同模板1
- 财务会计形成性考核册答案
- 幼儿园《美丽的夏天》主题教案
- 活动策划服务投标方案(技术方案)
- 术后尿潴留预防与处理
- 2025慢性阻塞性肺病(GOLD)指南更新要点解读课件
- 2025年果树种植技术培训与咨询服务合同范本
- 制作水果电池及实验报告
- 核心素养导向的初中英语单元作业设计策略探究
- 2025年高压电工作业考试国家总局题库及答案(共280题)
- 2024年03月安徽省农业信贷融资担保有限公司2024年招考笔试历年参考题库附带答案详解
- DB12T 692-2016 天津市文书类电子文件元数据规范
- T-ACEF 148-2024 危险废物物联网智能监控设备技术要求
- 门店规章制度守则范本
评论
0/150
提交评论