




已阅读5页,还剩50页未读, 继续免费阅读
(计算机应用技术专业论文)基于规则的多设备告警相关性系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 摘要 在电信事业蓬勃发展的今天,综合化、分布化、智能化已经成为 电信网络管理技术发展的方向。电信管理网( t e l e c o m m u n i c a t i o n s m a n a g e m e n tn e t w o r k ,t m n ) 作为一个国际通行的电信管理网的规范架 构,已经被越来越多的网管系统所采纳实行。t m n 是i t u ,t 在m 3 0 1 0 系列标准中提出的针对电信网的网络管理体系。它部分继承了o s i 管 理框架的内容,如m a n a g e r 、a g e n t 概念,体现了管理网和被管理网分 离以及分层管理的思想,对网络的故障、配置、性能、安全和计费进行 了有效的管理。 故障管理是网络管理中最基本的功能之一。告警的大数据量问题成 为了影响网管性能和系统稳定性的关键。告警处理如果以单一的过滤方 式不能有效控制告警数量和快速定位故障,有成为性能瓶颈的隐患。因 此,实现告警相关性也是网络层网管的一个基本的故障管理的要求。 本文从网管系统中实现告警相关性的必要性出发,首先比较了国内 外的几种告警相关性的实现方法,介绍了几个典型电信网管开发软件公 司的现有技术和产品状况。通过对目前电信网管系统中告警相关性技术 的分析研究,确定了基于规则的告警相关性实现方法。就电信网管的特 点,从实际课题项目遇到的问题出发,设计和实现了告警相关性模块。 系统实现过程中,首要的问题是规则引擎的选择,其次,主要的难点是 公共业务规则的提取和告警相关性处理流程的设计。通过对目前实际开 发情况的分析,确定采用i l o gj r u l e s 作为本系统的规则引擎;通过 对某公司各个事业部的调研和业务逻辑分析提取了公共业务规则;通过 研究惠普和c d m a 事业部的告警模块实现方案,设计了告警相关性处 理流程。 关键词:告警管理;事件相关性;处理规则;相关性规则 哈尔滨工程大学硕士学位论文 a b s t r a c t t o d a y , w i t ht h eb o o m i n gd e v e l o p m e n to ft e l e c o m m u n i c a t i o ni n d u s t r y , t h et e l e c o m m u n i c a t i o nn e t w o r k m a n a g e m e n tt e c h n o l o g y t e n d st ob e c o m p r e h e n s i v e ,d i s t r i b u t e da n di n t e l l i g e n t a sap r e v a i l i n gi n t e r n a t i o n a l s t a n d a r da r c h i t e c t u r eo ft e l e c o m m u n i c a t i o nn e t w o r k ,t e l e c o m m u n i c a t i o n s m a n a g e m e n tn e t w o r k ( t m n ) h a sb e e nw i d e l ya d o p t e db ym o r ea n dm o r e n e t w o r km a n a g e m e n ts y s t e m t m ni sp r e s e n t e db yi t u tm e a s u r i n g u pt h e m 3 0 1 0s e r i e ss t a n d a r d i np a r t ,i ti n h e r i t e dt h es o m ei d e a so ft h eo s i s u c h a st h ec o n c e p to fm a n a g e ra n da g e n t ,w h i c hr e f l e c t st h ei d e ao ft h e s e p a r a t i o nb e t w e e nt h em a n a g e m e n tn e t w o r ka n dt h em a n a g e dn e t w o r k ,a n d t h ei d e ao ft h eh i e r a r c h i c a l m a n a g e m e n t ,a n da l s o r e a l i z e st h ee f f e c t i v e m a n a g e m e n to nf a u l t ,c o n f i g u r a t i o n ,p e r f o r m a n c e ,s a f e t ya n da c c o u n t s f a u l tm a n a g e m e n ti so n eo ft h em o s tb a s i cf u n c t i o n so fn e t w o r k m a n a g e m e n t i nt h en e t w o r km a n a g e m e n to ft e l e c o m m u n i c a t i o n ,t h el a r g e a m o u n to fa l a r mi st h ek e yf a c t o ri n f l u e n c i n gt h ec a p a b i l i t yo ft h en e t w o r k m a n a g e m e n ta n dt h es t a b i l i t yo ft h es y s t e m s ot h ei m p l e m e n t a t i o no ft h e f a u l tm a n a g e m e n ts y s t e mi st h em a i np r o b l e mi nt h ee x p a n d i n go ft h e n e t w o r ks c a l e t h ei n t r o d u c t i o no ft h ea l a r mc o r r e l a t i o nm o d u l es o l v e st h e p r o b l e mo ft h el a r g ea m o u n to fd a t a ,a n da v o i d i n gt h ep o s s i b i l i t yo ft h ef a u l t m a n a g e m e n ts y s t e mb e c o m i n gt h eb o t t l e n e c ko ft h ec a p a b i l i t y o nt h eb a s i so ft h ei m p l e m e n t a t i o nn e c e s s i t yo fa l a r mc o r r e l a t i o ni n t m n ,i nt h i st h e s i s ,s e v e r a lm e t h o d st h a ti m p l e m e n tt h ea l a r mc o r r e l a t i o na t h o m ea n da b r o a da r ec o m p a r e d ,a n dt h ee x i s t e dt e c h n o l o g ya n dp r o d u c t i o n a l s oi n t r o d u c e d b ya n a l y z i n gt h es t r o n g p o i n ta n ds h o r t c o m i n go ft h e s e m e t h o d s ,t h er u l e b a s e dm e t h o di su s e d a c c o r d i n gt ot h ec h a r a c t e r so ft h e n e t w o r km a n a g e m e n to ft h et e l e c o m ,t h ea l a r mc o r r e l a t i o nm o d u l ei s d e s i g n e da n dr e a l i z e d ,w h i c hs o l v e st h ep r o b l e mi nt h ep r a c t i c a lp r o j e c t d u r i n gt h ei m p l e m e n t a t i o no ft h es y s t e m ,t h e r ea r et h r e em a i np r o b l e m s t h ef i r s to n ei st h ec h o i c eo fr u l e se n g i n ea n di l o gj r u l e si ss e l e c t e da t l a s t ;t h es e c o n do n ei st h er e f i n i n go ft h ep u b l i cb u s i n e s sr u l e s w h i c hi s s o l v e db yr e s e a r c h i n ga l lt h ed e p a r t m e n t si nt h ec o m p a n ya n da n a l y z i n gt h e 哈尔滨工程大学硕士学位论文 b u s i n e s s ;t h et h i r do n ei sd e s i g n i n go ft h ea l a r mc o r r e l a t i o nf l o w , w h i c hi s s o l v e db ya n a l y z i n gt h ei m p l e m e n t a t i o no ft h ea l a r mc o r r e l a t i o nm o d u l e so f h pc o m p a n y a n dc d m a e n t e r p r i s e k e yw o r d s :a l a r mm a n a g e m e n t ;e v e n tc o r r e l a t i o n ;m a n a g e m e n tr u l e ; c o r r e l a t i o nr u l e 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指 导下,由作者本人独立完成的。有关观点、方法、数据 和文献的引用已在文中指出,并与参考文献相对应。除 文中己注明引用的内容外,本论文不包含任何其他个人 或集体已经公开发表的作品成果。对本文的研究做出重 要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 作者( 签字) :麴! 壹 日期:上0 叶年k 月卫i 曰 哈尔滨工程大学硕士学位论文 1 概述 第1 章绪论 当今电信网络的发展特点是网络规模不断扩大、功能复杂性不断增加、 异构类型的网络不断融合,这种趋势给网络管理带来了前所未有的挑战【l j 。 随着电信网络的发展,对电信网络的管理提出了更高的要求。电信网管系统 是对电信网络管理系统的简称【2 j 。一般来说,网络管理就是通过一定的手段 对网络进行监控、维护,协调网络系统的持续、稳定、安全、可靠、高效运 行【引,使网络中的资源得到充分的利用。当网络出现故障时能够及时报告和 处理。 从网络层管理的角度看,网络层网管必须能够提供电信企业中i t 系统 的综合故障处理能力,包括对在整个分布式计算机系统中所发生的网络 s n m p 事件、系统事件、数据库事件、应用事件的收集与自动响应能力,以 及对所发生的故障类型的判断、处理人员的指定、处理过程的记录和解决方 案知识库的生成等能力。通过告警的综合管理实现告警的统一监控,对发生 的告警快速进行定位、判断,并加以处理,减少故障历时。为电信企业提供 一套完善的故障分析、处理及查询系统。但是综合通信网设备量大,设备间 连接关系复杂,尤其对于中继传输设备来说,一个故障可能影响其它设备不 能正常工作,这样给故障诊断和定位带来一定困难。在收到故障的上报告警 之后,对其进行相关性分析,再做一些相应处理,能够实现故障诊断和故障 定位f 4 1 。 网络故障是通过网络中被管对象的状态变化表现出来的。而网络中部分 被管对象之间是相互关联,相互影响的。随着网络规模的不断扩大,网络拥 塞掉线等问题越来越多,告警数量也迅速膨胀,由于网络之中的各个网元在 业务上存在很强的接续关系,一个网元的故障可能引起成千上万条告警,这 种情况给维护人员的告警定位和故障诊断带来了极大的困难。告警相关性就 是对告警进行分析,减少冗余和无信息的告警。实现故障的定位和减少网络 中的数据流量。 本课题的直接来源是某地区的综合网管。在其网络使用过程中每天要产 生大量的告警数据。而这些告警数据有大量的重复和冗余信息,使实时监控 哈尔滨工程大学硕士学位论文 系统和告警显示屏幕以及数据库系统都带来严重的负担。尤其是在告警风暴 发生的时候,由于告警数据数量大影响了系统的性能和稳定性,也不能快速 准确的定位故障,排除故障。在网络规模发展时,告警数据量太大而限制了 网络规模。为了解决此问题,对告警数据进行相关性分析,过滤掉冗余的告 警,成为了急切需要解决的事情。在某公司的统一网管系统中,尚缺乏该功 能的实现。为了提高系统的稳定性和适应性,提高软件质量,增强客户满意 度,公司决定相关性功能模块的实现。同时,进行告警相关性处理对网络的 性能和网络管理员的工作都会有一个很好的改善。 2 告警相关性问题发展历程 有效的故障管理需要有充足的触发整个故障管理过程的告警事件管理来 保证。然而当今的告警事件管理对事件活动的处理不够深入,导致最常见的 事件风暴出现。由于告警相关性对网络的性能和网络的运行效率有着极其重 要的意义,致使越来越多的网络管理研究人员致力于告警相关性的研究。 1 2 1 国外现状 通信网络系统特点是规模大、结构复杂、异构性、高度分布。管理如此 复杂的网络变得越来越困难,尤其在故障管理方面,因为故障管理需要有丰 富维护经验的工程师。他要先对告警相关性进行分析,找出反应出故障原因 的告警,这样才可能查出产生故障的原因。 告警相关性分析是指对告警进行合并和转化,将多个告警合并成一条具 有更多信息量的告警,确定能反应故障根本原因的告警,从而准确定位故 障,减少故障数量,避免故障风暴的产生。对于告警相关性的知识,从原则 上讲可以从设备设计人员或有丰富操作经验的工程师获得1 1 1 。然而,这一过 程相当烦琐,并且单从工程师那里获取告警相关性知识,已无法满足网络维 护的需要,尤其是随着网络的快速发展,迫切需要新的方法分析网络中的告 警相关性,辅助网络管理员查明产生故障的原因。 面对这一蕴含着巨大商机的需求,世界各大技术巨头争相推出了自己的 一套解决方案。从2 0 世纪9 0 年代开始,并在这一国际领域中展开竞争。一 时之问,实现告警相关性的方法百出,产品多样,各有千秋。 目前,占据主流位置的方法有:基于规则的方法,以i - i p 公司的产品 e c s ( e v e n tc o r r e l a t i o ns e r v i c e s ) 年da t t 公司的产品4 e s s e s ( 4 e s se x p e f l 哈尔滨工程大学硕士学位论文 s y s t e m ) 为代表;基于事例推理的方法,以i b m 公司的n e t f a c t ( n e t w o r k f a u l ta n da l a r mc o r r e l a t i o na n dt e s t e r ) 产品为代表;模糊逻辑的方法,以 g t e 公司的i m p a c t ( i n t e l l i g e n tm a n a g e m e n tp l a t f o r m sf o ra l a r mc o r r e l a t i o n t a s k s ) 为代表;贝叶斯网络的方法;人工神经网络的方法:编码的方法;数 据挖掘的方法,以a t & t 的s c o u t 为代表1 5 j 。 在目前这样一种状态下,每种方法都有其不同的特征。基于编码的方法 减低了相关性事件分析的复杂性,但对网络对象的构建模型要求很高;基于 神经网络的方法具有很好的自学习能力,但很难找到较好的训练数据:贝叶 斯网络的方法可以在可接受的时间内计算出几千个节点的数据,但是其边界 效率的解决仍是个难题。 1 2 2 国内现状 目前综合网管系统在国内电信、电力等行业已有应用,但仍处在发展完 善阶段,针对其发展前景也有不同的看法。但是,作为其中一个主要组成部 分的电信网管系统( t m n ) ,已经有了不小的突破。而作为网管系统一个主 要功能的故障管理,虽然也有了一定的发展,但在某些具体方面,比如在本 文讨论的故障相关性分析方面,与国际市场相比,还有很大的差距。 在国内市场,目前的大部分相关产品,都提出了相关的支持功能,也有 许多产品说自己实现了告警相关性的分析,但其实可能只是实现了一些较基 础的告警同志、告警规避等功能。即使有较强大的功能,也大部分是集成了 国外的同类产品。 基于规则判断的专家系统技术强化了复杂问题诊断处理机制。如在故障 管理过程中,为了能对全网告警做到全程的、端到端的、多层次的、复杂的 相关性分析,需要引入基于规则判断的专家系统技术,它也是人工智能技术 的一个分支,这种技术已经较为成熟,但是在网络管理系统中的应用相对较 少,尤其是国内网络管理软件这种应用应该还是处在起步阶段,且多为集成 国外软件同类产品,因为原来网管系统基本是分专业建设的,管理对象较 少,相关性简单些,没有迫切要求。在综合网管系统中这种技术应该存在较 好的应用前景。 1 2 3 典型告警相关性技术产品 ( 1 ) 惠普的e v e n tc o r r e l a t i o ns e r v i c e s 哈尔滨t 程大学硕士学位论文 惠普公司已经开发告警相关性产品e c s ,并把它作为o p e nv i e w 平台 的一部分。e c s 是一个基于规则的系统。是一种经过实践验证的、强大而 又灵活的问题管理解决方案,为应用集成提供了更强的可扩展性和更新的功 能。 e c s 能够与h p 中介设备和f m 服务器完全集成。e c s 基于功能强大的 技术范例,支持事件流的实时相关。一组称为相关节点的客户化处理单元可 以执行特定的相关功能,同时,这些节点可以很容易地组合在一起,通过建 立简单或复杂的相关线路来处理所有的网络事件。在网络单元级,e c s 对 来自同一网络单元的瞬态或重复告警进行过滤( 例如,过滤条件设为来自某 一正被调查问题的告警) 。在网络级,e c s 可以根据用户定义的规则使这些 告警相关,其中这些规则基于设定的网络拓扑结构。e c s 可以接入不同格 式的告警数据源。e c s 系统的简洁和灵活性意味着它可以高速地处理告警 事件,每秒钟可以处理几百个告警事件风暴。其告警模块单独成为一个子系 统,以专家系统的形式,应用外购的i l o gj r u l e s 规则引擎实现告警相关 性。其告警数据量可以减小8 0 ,是业界最好的告警相关性产品。 ( 2 ) 4 e s s - e s 在a t & t 网络中绝大多数长途话务量交换容量由4 e s s 交换机实现。 4 e s s - e s ( 4 e s se x p e r ts y s t e m ) 负责对这些交换设备的管理:包括对交换 机的监测,运行诊断测试和对告警的过滤。4 e s s e s 是第一代基于规则的专 家系统,采用一种非常流行的基于规则的o p s 一5c 5 语言,于1 9 9 0 年完 成。该系统从有几十年经验的领域专家获得,非常简单,由重要规则构成。 它与第一代的专家系统面临同样的问题:对规则的修改和维护变得非常困 难。在1 9 9 6 年,该系统采用混合的、基于规则的策略重新设计和实现。 ( 3 ) i l o g 公司的j r u l e s i l o g 公司是一个专门开发电信软件中间件和软件模块的公司。其产品 有良好的适应性和可靠性,被广大电信软件的公司所应用,i l o g 公司提出 了业务规则管理系统的概念,是针对电信领域的业务规则提供一套功能强大 的实现方案。将基于规则的编程和面向对象编程结合起来,在新的和现有的 应用程序中添加业务规则处理功能。j r u l e s 是面向j a v a 环境的完整的业 务规则管理系统,i l o gj r u l e s 提供一种规则引擎,关键的业务规则将从 应用程序源代码中分离出来,转换成可执行格式,由规则引擎执行。这些分 离出来的规则可以被业务规则管理系统管理,规则引擎可以容纳数千条规 则,每秒能够触发几万次规则的执行。 4 哈尔滨工程大学硕士学位论文 i l o g 的j r u l e s 只实现了一个基于规则算法的相关性规则引擎,而规 则引擎仅仅是实现告警相关性的工具。所以我们借鉴现有的产品的特点,在 此基础上,开发一个更适应现有网管和被管网络的、能提高系统稳定性和效 率的告警相关性模块。 1 3 本文的工作及安排 目前为止,某公司统一网管平台故障管理系统已经实现了故障管理的基 本功能,包括告警类型和级别设置、告警显示、告警查询、实时告警上报监 控、告警确认、告警过滤设置等。对大数据量告警的处理,采用了客户端接 口的过滤、服务器端对下层网管或设备的过滤,告警屏蔽等。这些方法有好 处也有不足。好的方面,对告警风暴的抑制和得到客户感兴趣的信息都有很 大的益处。但是也有不少的弊端:它并没有解决大数据量告警对系统性能的 影响,客户端从后台接收到的数据量还很大,已有的基本功能只是在客户端 把不感兴趣的信息丢掉,当网络规模扩大的时候,大量的告警数据将成为影 响系统性能的瓶颈。 本课题的主要工作就是要设计和实现一个告警相关性模块,作为告警管 理系统的子系统应用到实际项目中,成为解决告警数据量和故障定位的一个 解决办法。作者在课题实现中完成的工作如下:对告警相关性功能的预研, 包括实现告警相关性的可行性,对告警相关性方法的了解,国内外研究状况 等;参考惠普的告警专家系统的实现流程和公司内部事业部提出的需求,设 计了告警相关性模块的主体框架、体系结构和实现流程;详细设计部分完成 对每个功能点的详细设计,这里最主要的是告警相关性规则引擎的设计、业 务规则和业务逻辑在告警相关性规则内的表示;实现部分主要完成了处理流 程的实现、告警相关性引擎的实现、告警相关性规则的实现;测试和应用联 调工作。 本文第2 章介绍了电信网管系统中的告警相关性,包括告警相关性的 定义、告警相关性模块所处的故障管理系统的特点、告警相关性的实现意义 和目前实现告警相关性存在的问题。 本文第3 章介绍了基于规则的告警相关性。这是本文所使用的关键技 术,这部分涉及基于规则告警相关性实现方法的核心和总体实现步骤。 本文第4 章是本文的一个核心。在这罩,详细介绍了本系统的需求分 析,包括功能需求和性能需求;体系结构的设计实现过程,包括处理流程的 哈尔滨工程人学硕士学位论文 确定;本模块的输入输出设计及最后的测试设计。 本文第5 章介绍了告警相关性模块的实现与应用。包括处理流程和规 则引擎的实现和测试的完成。 在结论部分对本文的工作做了一个总结,并展望了未来的工作。 哈尔滨工程大学硕士学位论文 第2 章网管系统中的告警相关性 2 1 关于告警相关性 在网络管理领域,故障被定义为产生功能异常的原因。故障是产生告警 事件的原因。告警是由在特定事件发生时被管对象发出的通报构成的一种事 件报告,用于传递告警信息。但它只是表明可能有故障发生,并不一定有故 障发生。资源的被管对象可以发出告警事件作为对系统当前发生异常的响 应。告警事件包含被管对象状态异常的信息。当网络中出现故障时,会引发 一系列告警,但并不是所有告警都表明故障原因,所以需要对网络中发生的 告警事件进行相关性分析,确定产生故障的根本原因。 告警相关性分析是指对告警进行合并和转化,将多个告警合并成一条 具有更多信息量的告警,确定能反应故障根本原因的告警,准确定位故障。 告警相关性可用于对产生的多个告警进行解释,这给最初定义的告警事件增 加了新含义。 对告警相关性的形式化定义:告警事件a 与告警事件集合 a l ,a 2 ,a 3 , a 4 ,a n 相关表示为:a = a 1 ,a 2 ,a 3 ,a 4 ,一a n 。告警相关性可以用于网络 故障定位和告警过滤。 2 1 1 告警相关性类型 告警相关性类型已由j a k o b s o n 给出【6 1 , ( 1 ) 告警压缩 将发生的多个告警压缩到一个告警中。 ( 2 ) 告警过滤 具体如下: a a ,aa - a = a 如果告警a 的p ( a ) 值不属于合法值集合h ,则过滤掉告警a 。 a ,p ( a ) 懿) = 中 f 3 1 告警抑制 在前提c 告警( 例如高优先级告警) 发生的前提下,抑制告警a ( 例 如低优先级的告警) 。 a ,c = 中 ( 4 ) 告警记数 对重复到达同样的告警进行统计和设定门限值。例如,用一个告警b 哈尔滨工程大学硕士学位论文 代替n 次出现告警a 。 n a = b ( 5 ) 告警泛化 用告警的超类代替该告警。 a ,a c b = b ( 6 1 告警特化 用告警的特定子集告警代替该告警。f a ,a d b = b ( n 告警时序关系 相关的告警依赖于告警发生时间顺序,告警a 、告警b 顺序发生时, 就会发生告警c 。 a tb = c 2 1 2 当前告警相关性分析方法 目前事件相关性方法可以分成两大类,第一类方法通过一组包含症状 原因的案例,在此上做一些推理。当基于案例的事件相关器接收到事件时将 它们当作一组症状,并从案例库中查找与症状相似案例,并且如果可能的话 找出存储的解决方案。这类方法的关键在于如何适当地定义案例的相似性, 如何获取相配的案例库。通过神经网络我们可以定义案例的相似性,通过使 用一个存储历史问题的故障单存档,我们可以获取相配案例库。显而易见这 种方法极大地依赖于案例库的质量。 第二类方法定义一些设计语言使得专家能够输入相关知识,从而建立事 件相关器知识库。一种流行的设计风格是基于规则的:“如果事件x 和y 到 达,则发出事件z ”;另一种是基于模式的:根据事件发出行为对系统建 模。可设计的知识定义在一些时间约束条件下事件是如何相关的。一些产品 如t i v o l i 、s i e m e n s n i x d o r f t r a n s v i e w 、m i c r o m u s e n e t c o o l 对一些通用可编 程语言( s q l ) 进行定制,使得它们满足事件相关需求。另外一些产品如 h pe v e n tc o r r e l a t i o ns e r v i c e s ( e c s ) 、n e r v e c e n t e r 、s m a r t s i n c h a r g e 发明自己 的语言( c o r r e l a t i o nc i r c u i t s 、b e h a v i o u rm o d e l s 、m o d e l ) 专用于事件相关。 2 1 3 告警相关性存在的基础 电信网络管理中,告警相关性的技术涉及到故障管理系统的结构这里就 这些涉及的技术做一个简单的介绍。 典型的故障处理流程如图2 1 所示,它包括告警采集、告警过滤和相关 性分析处理、故障定位、故障修复、修复后的测试和验证等主要环节。由于 许多故障模式不可能在故障管理系统开发之初被考虑到,为了使系统具有较 哈尔滨t 程大学硕十学位论文 长久的生命力和可持续完善的能力,故障管理系统还需要实现类似“知识 库”的功能,可以把在运维中碰到的新的故障模式和解决方式“记忆”在知 识库中,知识库中的“知识”可以被系统自动调用对以后出现的类似故障进 行分析和处理1 7 1 。 图2 1 故障处理流程 ( 1 ) 某公司统一网管平台故障管理系统 在某公司统一网管平台中,故障实际上是从告警中反映出来的。所以故 障管理系统又称为告警管理系统,是平台中的一个主要模块。告警管理主要 负责实时采集数据网络范围内的各种网元生成的各种设备告警和网络事件报 告,包括告警、告警恢复、通知,对这些事件进行相应的处理后,存入数据 库,发送到客户端并在客户端显示,并以声、光的方式提醒用户:同时支持 用户对告警的各种操作,包括确认、反确认、清除、同步等;并维护告警过 滤、告警重归类、告警屏蔽等告警处理有关的规则数据;提供手动和自动同 步的方式来保证服务器与告警源数据的一致性。告警服务端主要完成了告警 信息在服务端处理,包括对告警的过滤、重归类,对后台告警的处理,以及 对各种命令的支持。 ( 2 ) 某公司统一网管平台告警模块描述 在某公司统一网络管理平台的整个架构中,告警服务端管理模块在统一 网络管理平台中的位置如图2 2 的阴影部分所示。在这罩,故障管理又称作 告警管理,是和拓扑管理、安全管理、策略管理一起构成了统一网管平台的 习兰 习 弋j v 9 当 哈尔滨工程大学硕士学位论文 主要框架。在此基础之上实现对网络进行有效的管理。 图2 2 统一网管平台总体功能划分图 ( 3 ) 某公司统一网管平台告警模块的设计 告警的处理流程大致如图2 3 所示:网元中介功能模块( e l e m e n t m e d i a t o rf u n c t i o n 简称e m f ) 接收从告警源上报的事件,将其转换为平台 的告警、告警恢复和通知。其中告警消息通过告警预处理器,进行告警重定 义、告警过滤等,然后告警数据入池、入库,根据一定的告警前转规则,也 可以将告警前转至手机、e m a i l 等。根据当前告警的过滤状态决定是否向 客户端发告警消息,客户端异步接收告警,匹配告警码描述、原因码描述等 告警描述信息,将告警放入消息队列,定时向告警监听器分发告警。 如果是恢复消息,则查找与恢复对应的告警,将恢复消息添加到告警, 形成历史告警。历史告警入历史告警库,当前告警从当前告警库删除,同时 从客户端当前告警显示删除该条告警。 1 0 哈尔滨工程人学硕士学位论文 图2 3 告警管理服务端接口关系图 ( 4 1 某公司统一网管平台告警模块的局限性 平台的告警模块实现了故障的有效管理。当网络规模增大时,告警数 据量的大小将直接成为影响平台性能的最关键的因素。尤其是系统扩容或者 多级级联( 几个网管的数据统一到更高级别的网管中) 的时候,此问题尤为 严重。当告警风暴发生的时候,被管网络的设备频繁的上报告警数据,这给 整个系统带来严重负荷。使系统有崩溃的危险。虽然,告警模块也采用了很 多的机制来防止这些现象发生。但是,由于每个实现的方法和机制都是固定 在程序内部的,因此缺乏灵活性和通用性。 ( 5 ) 告警相关性在某公司统一网管平台中的重要性 告警相关性的实现可以解决告警模块的局限性,使得告警模块不再有 成为软件升级和发展的障碍的隐患。告警相关性模块的实现可以防止告警风 暴的产生,使得告警数据量不再成为网络规模发展的局限和性能瓶颈1 7 j 。 2 2 电信领域告警相关性的实现意义 告警相关性主要用于两个方面:故障处理和告警过滤。 ( 1 ) 故障处理方面 故障处理过程可以分为三个处理阶段:告警相关性分析( a l a l i n c o r r e l a t i o n ) 、故障定位( f a u l ti d e n t i f i c a t i o n ) 、故障验证( f a u l tv e r i f i c a t i o n ) 。 前两个阶段通常认为是故障定位的处理过程【8 1 。通过对告警相关性进行分 哈尔滨工程大学硕士学位论文 析,提出各种对故障情况的假设。最后一个阶段是验证各种故障假设是否正 确。例如:在网络监测方面,接收到两个告警事件:服务器连接失败 ( s c l ) 和客户端连接失败( e e l ) 。故障的原因可能是路由器故障( r 1 ) 或 者交换机故障( s 1 ) ,这可表示为:r lo rs l = s o l ,e e l 。此时网络管理员无 法判断是路由器,还是交换机的故障。如果知道告警相关性规则r l = s c l , c c l ,就可以直接判断是路由器的故障1 9 1 。网络管理员可以直接检查路由 器的工作情况,不需要再对交换机进行检查。这样减少了网络管理员的劳动 强度,同时提高了工作效率。 ( 告警过滤方面 告警过滤是用来把非故障性告警过滤掉,保留主要的、根本性原因告 警。例如上例如果知道告警相关性规则r l = s c l ,c c l ,可以直接过滤掉 s c l 和c c l 告警,只报告订告警事件。 2 3 告警相关性分析中存在的问题 实际上许多告警事件并没有包含产生故障原因的信息。因为,在网络中 如果有一个故障产生经常会导致接收到多个告警事件。在此种情况,收到的 告警报告中含很多冗余信息,准确分离和定位产生故障的原因非常困难。具 体有以下几种情况: ( 1 ) 由于一个故障,导致设备产生了多个告警。 ( 2 ) 故障本身间歇性发作,这意味着每当故障发生时便发送告警事件。 ( 3 ) 当设备中某一个部件发生故障时,每次由该部件提供的服务被激活 时,都可能发出告警事件。 f 4 1 单独一个告警可能已经被多个网络部件检测到,每一个部件都发送 告警事件。 ( 5 1 已知部件的故障可能影响到其它几个部件,产生故障扩散。故障的 影响会沿着网络设备扩散,如路由器和主机连接关系所形成的路 径。 ( 6 ) 多个故障同时发生,则此时告警事件有许多潜在重叠。 ( 7 1 产生故障的问题并不总可以观察到。许多产生故障的根本性问题可 能无法直接观察到。 除了以上几方面的原因外,还有以下几个方面i ”1 : ( 1 1 告警事件中包括许多无意义信息、冗余信息。 哈尔滨工程人学硕士学位论文 ( 2 1 隐含的依靠性。在告警相关性进行分析之前,要建立被管网络模 型。可能由于网络模型过于精简,许多网络构件没有被包含在网络 模型中。这样发生在未知网络构件上的故障很可能被认为发生在其 它己知的网络构件上。 ( 3 1 复杂的依靠性。被采纳的依靠模型有一个前提:当关键的前提不成 立时,所有依赖这个前提的元素也都不成立。 不完整的数据。通常都假设可以获得网络设备发出的全部告警信 息。但在某些特殊情况下一些信息是不可能得到的,例如传输的中 断,就无法获得告警信息。 ( 5 ) 在大型、异构通信网络中没有统一的网络时间。这为告警事件的分 析和比较带来无法克服的困难。 ( 6 ) 可能存在多个反应故障告警事件同时发生,例如网络的连接出现故 障,连接两端都会发出告警事件。 ( 7 1 动态发展、变化的通信网络。由于通信网络是一个不断发展变化的 网络,如配置参数发生变化和网络拓扑结构改动,都会引起告警相 关性规则出现变化。 2 4 本章小结 结合本课题的背景环境,本章对目前电信网管中告警相关性技术的总体 状况进行了研究,介绍了告警相关性类型、当前告警相关性分析方法及本课 题所存在的故障管理系统的特点,强调了在电信领域中实现告警相关性的必 要性,并指出了在实现告警相关性分析的过程中所要注意的问题。 哈尔滨工程火学硕士学位论文 第3 章基于规则的告警相关性 3 1 基于规则的告警相关性 基于规则的告警相关性是综合故障管理系统的一个关键特性,也是人工 智能技术在电信领域应用比较成熟的一项技术,迄今为止,人工智能技术在 故障管理中的应用主要有两种方向,种是基于规则的故障相关性分析技 术,该技术的特点是将专家的经验以i f t h e n 的确定形式表示出来,从而 形成独立的专家库,人工智能的另一种是基于模糊逻辑算法进行推理,可以 根据经验的积累自动调整某种情况发生的几率,因此这种方法可以对不确定 的情况通过类似于人类的“直觉”能力进行判断。目前市场上尚没有商用化 的基于模糊逻辑的故障诊断系统。而基于规则的分析技术由于效率高,知识 表示方式简单,实用性好等特点已经在电信领域获得广泛的应用。 基于规则的算法最大优点是它更符合人的思维,便于人们的理解。这种 方法的特定领域知识包含在一组规则集中,而与特定情况相关的知识构成了 事实。每个基于规则的系统都有一个控制策略,决定应用规则的次序。例 如,当结束条件已经被满足,则停止计算。 但问题在于基于规则的系统,当规则数目达到一定量时,规则库的维护 变得越来越困难。然而,在电信网管系统尤其是故障管理中,业务逻辑的维 护和新业务的拓展都是建立在业务规则之上的,这就给了基于规则系统一个 广阔发展的空间。虽然,基于规则算法有其自身的局限性,比如过分依赖现 有的规则,不能自学习;对错误规则的重复处理,不能自适应新的情况。但 是,就电信网管领域而言,基于规则的方法以其成熟的研究成果占据了该领 域主要地位。 3 2 相关性业务规则 所谓相关性规则,又称为事件相关性规则,就是在进行告警相关性处理 的过程中,所遵守的策略方法。一种流行的设计风格是:“如果事件x 和y 到达,则发出事件z ”。 事件相关性规则的描述分成两部分:模型的描述和配置数据的描述。模 型是规则描述的模板,在模型中读入不涮的配置数据,就形成了不同的规 1 4 哈尔滨工程大学硕士学位论文 则。 以上面的例子为例,“如果和,则”,这就是一个规则模型,而 “事件x 发出事件z ”等,即为配置数据1 1 “。 用户通过规则配置界面进行规则的增加修改,规则配置只能对配置数据 部分进行修改,不能对模型进行修改和增加。对于不同的模型,配置数据的 描述是不同的,但都要包含如下两部分: ( 1 ) 规则条件 ( 2 ) 规则动作 条件描述部分包含对事件d 、对象类型和对象之间连接关系的描述, 采取何种行动部分描述应该对符合条件的事件做何种处理,这些处理手段包 括:屏蔽,提升级别,降低级别,产生新的告警等。 电信网管中通用的告警相关性规则种类如下: 告警压缩和消除冗余告警【1 2 】。同一条告警被多个检测设备所捕获,同 时上报给服务器,必须在入库之前进行处理,过滤掉重复的告警;同一个故 障被多个设备重复捕获,反映的是相同的事件,为了减小服务端,数据库, 客户端等的负荷,也要消除冗余。 抑制衍生型告警。衍生型告警也就是告警的依赖关系,此类告警的特 点是,当主告警a 发生的时候,从告警b 必然发生。所以b 告警所带的信 息量为0 ,也就是完全没有意义,我们从业务规则的逻辑中,可以完全抑制 告警b 的上报,消除冗余。减小数据流量。 抑制同源型告警。同源型告警的特点是,有些告警具有“共振”现象,即 要么同时出现,要么同时消失。对于这种告警模式,系统只需要保留一种告 警。 根故障推理。有时候,不同的故障组合,和先后次序可能代表某种的 故障情况,这个时候我们可以产生一种新的代表该特殊故障的的一种告警。 同时把原始的告警数据消除掉。此类规则是最具有特殊性的,这些规则往往 只有特定的技术人员才能掌握,也是反映系统功能的最好的测试方法。 与时序相关的处理。这是一种比较复杂的相关性处理,因为它涉及到 时序关系和事件段,这种模式要确定一个处理时问问隔,此时问间隔如果太 长,就达不到实时处理,如果时间问隔太短,就无法实现告警相关性。 3 2 1 相关i 生规则的特点 在故障处理模块中,每个环节都涉及到诸多的处理逻辑。比如告警过滤 1 5 哈尔滨工程大学硕士学位论文 和相关性分析处理这个环节,如图2 1 ,系统需要根据预先定义的处理逻辑 来过滤冗余的重复告警,分析告警之间的相关性;在故障定位环节,系统需 要制定某些策略来定位故障原因;在故障修复环节,系统需要通过预设的策 略来产生故障单,提供故障修复的方法等i ”j 。所有的这些逻辑和策略,通 俗的讲就是业务规则。传统上,业务规则都是程序逻辑,参数表或数据库等 方式实现。这些方式实现的业务规则是“固化”在系统内部,它可读性差、 不可管理、无法查询、不可复用,过度的依赖系统开发人员的支持。 从故障管理角度来看,业务规则就是对故障管理中根据某种条件对某种 具体方式和操作业务逻辑的描述。通常一条业务规则包括条件和执行这两个 部分:条件部分包含“测试”语句,用于发现符合条件的对象;执行部分用 于触发某些操作1 1 ,如过滤、告警升级等。例如下面这些规则:如果在5 分钟内告警没有被确认,那么提升该告警级别;如果发现来自同一个网元设 备的告警超过1 条,那么只保留最后一条告警;如果发现链路两端出现告 警,那么过滤这些告警,生成一个代表该链路故障的派生告警。 从i t 角度来讲,业务规则就是对以上这些业务逻辑的程序实现。假如 业务规则不经常变化,用程序代码实现业务逻辑的方式比较高效。但是由于 故障管理系统在实际运作时应对的问题会千变万化,针对每个问题的处理方 式也各不相同。没有任何一个故障管理系统可以保证它的系统提供了完备的 故障处理策略,它们都需要根据实际部署的情况作特殊的配置和调整。如果 业务规则是以程序代码的方式实现,或者以复杂难懂的参数表形式呈现,那 么对系统的调整和配置的工作将会非常复杂耗时,而且不可靠。所以把业务 规则提取到系统之外进行管理。于是就出现了许多基于业务规则技术的故障 管理系统。业务规则技术的基本原理是:用一个或多个规则引擎替换以程序 代码“固化”在系统中的业务逻辑。被替换的业务逻辑存储在“盒外”的规 则库中;规则库中的规则可以通过规则管理工具实现定制、修改、管理和部 署。 由于业务规则可以存储在规则库中( 而不是“固化”在系统程序中) , 所以规则库就自然而然地成为了“知识库”,“知识库”中的“知识”,即 业务规则。 3 2 2 相关性规则给系统带来的优势 ( 1 ) 保障
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乐高考试题及答案
- 广东法学小自考考试题及答案
- 蓝月亮考试题及答案
- 口腔病历考试题及答案
- 课件时间轴模板
- 辽宁省沈文新高考研究联盟2025-2026学年高二上学期开学考试政治试题(含答案)
- 客房考试题及答案合集
- 浸润剂配置工突发故障应对考核试卷及答案
- 羽绒羽毛加工处理工技能比武考核试卷及答案
- 铁合金高炉冶炼工三级安全教育(车间级)考核试卷及答案
- 画法几何及土木工程制图课件
- 第2课 树立科学的世界观《哲学与人生》(高教版2023基础模块)
- 录入与排版教学计划
- 2023免拆底模钢筋桁架楼承板图集
- 云计算技术基础应用教程(HCIA-Cloud)PPT完整全套教学课件
- 呼吸衰竭小讲课课件
- 成人学士学位英语1000个高频必考词汇汇总
- GB/T 5271.29-2006信息技术词汇第29部分:人工智能语音识别与合成
- 全屋定制家居橱柜衣柜整装安装服务规范
- 沥青及沥青混合料试验作业指导书
- 义务教育阶段学生艺术素质测评指标体系小学音乐
评论
0/150
提交评论