




已阅读5页,还剩63页未读, 继续免费阅读
(信号与信息处理专业论文)基于关联规则挖掘的网络告警关联.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于关联规则挖掘的网络告警关联 摘要 现代电信网络的特点是大规模、复杂、异构,这就要求必须对网 络进行有效地管理以维持其高可靠性和高可用性。告警相关性分析作 为网络故障管理中的重要内容,可以辅助网管人员删除冗余告警、定 位故障以及预测故障的发生。传统的相关性分析方法由于过多地依赖 专家知识而难以适应网络复杂、多变的情况,采用数据挖掘的方法则 可以弥补这方面的不足。本论文针对此目标,设计一种通用的预处理 算法有效的处理大规模数据,提出一种改进的关联规则挖掘算法使其 能够满足面向纷繁复杂的电信网络告警数据进行大规模、实时性的告 警数据关联挖掘的要求,提出一种基于电信网络拓扑结构特点和告警 传播特征的过滤频繁模式的网络拓扑约束算法,从而提高挖掘的精 度。论文的主要工作包括以下几点: 第一,分析研究某移动通信公司告警数据的特征,全面学习预处 理大规模数据的算法,设计并实现了一种通用的预处理方案。 第二,对基于关联规则挖掘的告警关联算法作了全方位的研究, 并分析研究成果,提出改进的关联规则挖掘算法,a p r i o r i e n 算法。 第三,以某移动通信公司网络以蓝本,研究了电信网络的拓扑结 构特点和告警数据传播特征,构造适合该电信网络的拓扑约束文件, 提出了适合一般电信网络的通用网络拓扑约束算法。 第四,参与设计和实现一个适合于实际电信网络应用的网络告警 关联规则挖掘系统。在电信网络告警关联规则挖掘平台的原型系统开 发过程中,笔者完成了预处理模块的设计和实现工作,网络拓扑模块 以及a p r i o r i e n 算法的设计工作。 关键词:告警关联关联规则预处理a p r i o r i e n 算法网络拓扑约束 t h et e l e c o mn e t w o r ka i ,a rm c o r r e l p 汀i o nb a s e do nc o r r e i 。a t e d r u l e sm i n i n g a 。b s t r a c t m o d e mt e l e c o m m u n i c a t i o nn e t w o r k sa r ec h a r a c t e r i z e dw i t hl a r g e s c a l e ,c o m p l e x i t ya n dh e t e r o g e n e i t y , w h i c hr e q u i r e t h a tw eh a v et o m a n a g et e l e c o m m u n i c a t i o nn e t w o r k se f f e c t i v e l yt o m a i n t a i nt h e i rh i g h r e l i a b i l i t ya n dh i g hu s a b i l i t y a sa ni m p o r t a n tp r o b l e mi nn e t w o r kf a u l t m a n a g e m e n t ,a l a r mc o r r e l a t i o na n a l y s i sc a nh e l pn e t w o r ka d m i n i s t r a t o r s t od e l e t er e d u n d a n ta l a r m s ,l o c a t ef a u l t sa n dp r e d i c tf a u l t sb e f o r et h e y h a p p e n h o w e v e gt r a d i t i o n a l a l a r mc o r r e l a t i o na n a l y s i sm e t h o d sc a n h a r d l yw o r kw e l lw h e nn e t w o r k sa r ec o m p l e xa n dc h a n g e f u l ,w h i l et h e k n o w l e d g ed i s c o v e r ym e t h o dc a no v e r c o m et h es h o r t a g eo ft r a d i t i o n a l m e t h o d s f o rt h i sp u r p o s e ,t h i sp a p e rd e s i g n e dag e n e r a lp r e p r o c e s s i n g a l g o r i t h m w h i c hc a n p r o c e s sl a r g e d a t ae f f i c i e n t l y ;i n n o v a t e do n e i m p r o v e d c o r r e l a t e d r u l e sm i n i n g a l g o r i t h m w h i c hc a ns a t i s f yt h e r e q u i r e m e n tt h a tm a k e sd a t am i n i n go nc o m p l e xt e l e c o mn e t w o r kd a t ao n al a r g es c a l e ;b r o u g h tf o r w a r dan e t w o r kt o p oc o n s t r a i n ta l g o r i t h mb a s e d o nt e l e c o mn e t w o r kt o p oc h a r a c t e ra n da l a r ms p r e a dt r a i t ,w h i c hc a nf i l t e r f r e q u e n tp a t t e r n sa n de n h a n c et h ep r e c i s i o no fm i n i n g t h em a i n w o r k so f t h e s i si n c l u d et h ef o l l o w i n ga s p e c t s : f i r s t l y , a n a l y z e dt h e c h a r a c t e ro fo n em o b i l ec o m m u n i c a t i o n c o m p a n ya l a r md a t a ,a n dm a d eaw h o l es t u d yi np r e p r o c e s sa l g o r i t h m s u s e df o rp r o c e s s i n gl a r g ed a t a ,t h e nd e s i g n e da n di m p l e m e n t e dag e n e r a l p r e p r o c e s s i n gs o l u t i o n s e c o n d l y , m a d eaf u l l s c a l er e s e a r c hi na l a r mc o r r e l a t e da l g o r i t h m s b a s e do nc o r r e l a t e dr u l e sm i n i n g ,a n di n n o v a t e di m p r o v e da p r i o r i e n a l g o r i t h m t h i r d l y , r e s e a r c h e dn e t w o r kt o p oc h a r a c t e ra n da l a r ms p r e a dt r a i t b a s e do nt h i sm o b i l et e l e c o m m u n i c a t i o nn e t w o r k ,a n dg e n e r a t e dt o p o c o n s t r a i n tf i l e so n l yf i tf o rt h i sm o b i l et e l e c o m m u n i c a t i o nn e t w o r k ,a n d d e s i g n e d an e t w o r k t o p o c o n s t r a i n t a l g o r i t h ma p p li e d f o r a l l t e l e c o m m u n i c a t i o nn e t w o r k s f o u r t h l y , t o o kp a r ti nd e s i g n i n ga n di m p l e m e n t i n gan e t w o r ka l a r m c o r r e l a t e dr u l e sm i n i n gp r o t o t y p es y s t e mu s e df o ra c t u a lt e l e c o mn e t w o r k i nt h ep r o c e s so fd e v e l o p i n gt h ep r o t o t y p e ,iu n d e r t o o kt h ed e s i g na n d r e a l i z a t i o no fp r e p r o c e s sm o d u l e ,a n dt h ed e s i g no fn e t w o r kt o p om o d u l e a n da p r i o r i e na l g o r i t h m k e yw o r d s :a l a r mc o r r e l a t i o nc o r r e l a t e dr u l e sp r e p r o c e s s a l g o r i t h ma p r i o r i e na l g o r i t h mn e t w o r kt o p o c o n s t r a i n t 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:苤挞主暨日期:塑! 星:墨:鱼 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:苤超垫 日期: 导师签名:_ 3 兰l 垄缉一日期: 泖孑弓6 北京邮电大学硕士学位论文基于关联规则挖掘的嘲络告警关联 1 1论文的研究背景 第一章概述 随着通信和信息技术的飞速发展,电信网络提供给人们的服务也同渐丰富, 除了普通的通信业务、资源共享业务外,还有网络教育、网络银行、电子钱包、 电子商务和电子政务等集网络和信息技术为一体的新一代网络业务。这一切使得 电信网络不再仅仅是一个通信的媒介,而是一个为人们提供综合服务的分布式信 息处理平台。正是由于电信网络变得如此重要,人们必然要求对其进行有效的网 络管理以维持其高可靠性和高可用性,从而确保一些重要业务不问断地运行。 然而电信网络大规模、复杂、异构的特点决定了故障管理始终是电信网络管 理中的一个难题。一个电信网络往往包含由多个厂商生产的成千上万的设备和系 统,这些设备和系统又通过多种媒质互连而成,彼此之间普遍存在着复杂的关联 关系。因此即使是单一的故障也可能引发巨量的告警,众多的告警既增加了网管 系统的开销,也掩盖了表示故障的根源告警,非常不利于网管人员排查故障。这 时就需要一种技术,通过对告警进行合并和转化,将多个告警合并成一条具有更 多信息量的告警来代替多条告警,以协助网管人员分析故障信息、快速故障定位。 这种技术就称之为告警关联分析。 研究如何有效挖掘和利用告警序列中的模式知识将显著提高网络故障管理 智能化程剧,它是在网络发生故障后,网络管理人员根据故障告警来发现并排 除故障。但是,由于网络本身的复杂性及其在物理和逻辑上的关联性,单一的故 障可能引发大量的告警,形成所谓的“告警风暴”。众多的告警信息既增加了网 管系统的开销,也不利于网管人员根据告警排查故障。因此,网络故障管理的首 要问题是进行告警关联性分析,即对告警进行合并和转化,将多条告警合并成一 条具有更多信息量的告警来代替多条告警,以协助网管人员分析故障信息、并快 速故障定位。 传统上的告警关联i 生分析主要是通过人工分析出关联规则,然后再加入到系 统当中。然而,随着网络规模越来越大,单纯依靠网管人员获得告警关联性知识 已经无法满足网络维护的需要。网络告警数据库中存储了大量历史告警信息,其 中蕴含了许多反映网络运行规律的有用信息,利用这些信息可以完善网络故障管 理。因此可通过用知识发现的方法分析告警序列,挖掘告警关联规则。 在电信网络故障管理中,现今的技术研究引入了数据挖掘的概念和方法,基 本思想是将数据挖掘技术引入到告警关联中,目的是为了揭示出隐含在海量原始 北京邮电人学硕上学位论文基于关联规则挖掘的网络告警关联 低层故障征兆信息后面有意义的知识和规则,从更全面的视角解释网络故障及性 能问题,使网管人员能快速的进行故障定位并进一步做出故障决策和预测。这一 方法能够较好的适应网络的动态变化,从而找出告警数据之间的规则。 1 1 1 告警相关性分析的定义 在对告警关联分析定义之前,首先介绍两个重要概念故障和告警。故障 是指组成被管网络的硬件设备或软件系统所发生的功能异常,而告警则是特定事 件发生时被管对象发出的通报( n o t i f i c a t i o n ) 构成的一种事件报告,用于传递告 警信息。一条告警的出现只是表明可能有故障发生,并不表示一定有故障发生, 因为一些普通的事件通报如系统配置改变、性能异常等也是以告警的形式上报 的;而故障的发生则可能导致相关的设备和系统出现异常,从而引发一系列相关 告警。因此我们只能说,通常是故障产生了告警,一个故障可能是另一个故障的 根源,但一个告警不会产生出其它告警。 在对告警相关性分析定义之前,首先介绍两个重要概念故障和告警。故 障是指组成被管网络的硬件设备或软件系统所发生的功能异常,而告警则是特定 事件发生时被管对象发出的通报( n o t i f i c a t i o n ) 构成的一种事件报告,用于传递 告警信息。一条告警的出现只是表明可能有故障发生,并不表示一定有故障发生, 因为一些普通的事件通报如系统配置改变、性能异常等也是以告警的形式上报 的;而故障的发生则可能导致相关的设备和系统出现异常,从而引发一系列相关 告警。因此我们只能说,通常是故障产生了告警,一个故障可能是另一个故障的 根源,但一个告警不会产生出其它告警。 在由故障所引发的一系列相关告警中,显然不是所有告警都表明故障原因, 这就需要对这些告警进行相关性分析来确定代表故障的根源告警。关于告警相关 性分析,文献曾经给出一个一般性的定义: 定义1 1 告警相关性分析被定义为对多个告警的一种解释,通过这种解释使告警的数 量得以精简,而包含的语义信息内容却更加丰富。 文献则对告警相关性分析的概念进一步做出了阐述,并给出了关于告警相关 性的形式化定义: 定义1 2 告警相关性分析是指对告警进行合并和转化,将多个告警合并成一条具有更 多信息量的告警,确定能反映故障根本原因的告警,准确定位故障。 其形式化定义为:告警事件口与告警事件集合 ,口:, 相关,表示为 口辛 口1 ,口2 ,口t ) 。 2 北京邮电人学硕士学位论文甚于关联规则挖掘的网络告警关联 从定义1 - 1 和定义1 2 可以看出,告警相关性分析主要被看作是故障定位的 重要辅助手段,即首先对故障引发的大量告警进行相关性分析,滤除冗余告警, 找出代表故障的根源告警,然后进一步做出故障定位。事实上,告警相关性分析 不仅可以辅助故障定位,而且能预测故障的发生。由于网络设备之间以及组成设 备的各个模块之间普遍存在着关联性,很多网络故障( 如病毒导致的节点瘫痪、 网络拥塞导致的节点阻塞) 都具有一定的传播特性,反映到告警中就使得相关设 备的某些代表故障的告警之间也存在着很强的相关性。如果应用告警相关性分析 能够找出这类相关关系,一旦发现相关条件被满足就发出故障预警,及时做出保 护措施,则可以避免故障的进一步扩散和重大故障的发生。由此,本文在定义 1 - 1 和定义1 2 的基础上进一步总结告警相关性分析的定义: 定义1 3 告警相关性分析是指对告警进行合并和转化,将多个告警合并成一条具有更 多信息量的告警,从而确定反映故障的根源告警、定位故障或者对当前告警可能 预示的故障做出预测。 其形式化定义为:告警事件口与告警事件集合 ,口护,a 。 相关,表示为 a 号 口,口:, 或 q ,口:, 辛口。前者表示根据 a 。,口:, 确定反映当 前故障的根源告警;后者表示根据 q ,口,口。 预测可能发生的故障,而a 则表 示代表该故障的重大告警。 1 1 2 告警相关性分析的难点 电信网络大规模、复杂、异构的特点决定了告警相关性分析也存在不少难点, 具体表现在1 2 j : 复杂的依靠性:在告警相关性分析之前,要建立被管网络的模型。然而被管 网络的大规模和高度复杂性使得对其建立精确的模型存在很大的难度,但模型过 于简单又会使相关性分析产生完全错误的结果。 数据的不完整性:我们通常假设可以获得全部的告警数据,然而某些特殊情 况下一些告警是不可能获得的,如设备瘫痪、设备断电时不可能收到来自该设备 的告警。 故障的扩散:某一设备发生的故障可能扩散到相关设备上,造成多个故障的 同时发生。 网络的动态发展和变化:电信网络是一个不断发展变化的网络,配置参数的 变化或网络拓扑的改动都可能使某些相关性知识发生变化。 1 2论文的研究内容 3 北京邮电人学硕上学位论文基于关联规则挖掘的网络告警关联 目前,基于知识发现的告警相关性分析正处于发展阶段,虽然已经取得了很 多的研究成果,但仍然有一些问题需要进一步研究,主要体现在: 如何有效的处理原始数据 存在不完整的、含噪声的和不一致的数据是大型的、现实世界数据库或数据 仓库的共同特点,因此运行数据挖掘前做数据进行预处理是必须的。 这种特点也存在于移动告警数据中,同时移动告警数据存在自身的特点。在 告警数据库中描述一条告警记录的信息包括:发出告警的设备信息,包括设备名 称,设备标号,设备类别等;发生告警的标题内容;告警的发生时间和解除时间; 告警的附加信息,如原始告警级别和重定义告警级别,告警的可能原因描述等。 这种描述很完整但很冗余,因为挖掘仅仅关心的是什么设备在什么时间发生了什 么告警。 多种告警关联技术的比较和选取 每种处理技术都存在有各自的优缺点,在业内没有形成通用的处理方法,要 根据不同的处理部分选取对应的处理方法,其中常用的处理方法的概述及其优缺 点如下【3 l : 1 基于规则的相关性分析 基于规则( r u l e b a s e d ) 的相关性分析把告警相关性知识总结为一组相关性 规则集,规则的形式为i fc o n d i t i o nt h e na c t i o n 。对于网络中实时产生的告警, 系统通过将其与现有的规则进行比较对故障的原因做出判断。基于规则的相关性 分析系统一般由三部分组成:工作存储区、相关性规则库、推理引擎。 基于规则的方法的优点是直观,便于人们理解。但这种方法的问题在于,当 规则数目达到一定程度时,规则库的维护将变得十分困难;由于相关性规则主要 来自专业的网管人员,系统本身没有自学习的能力,另外,缺乏记忆性也是这种 方法的一个主要限制,导致即使出现同样的情况,系统也要从成千上万的规则中 去查找,严重影响了系统的工作效率。 2 基于事例的相关性分析 基于事例的推理( c a s e b a s e dr e a s o n i n g ) 通过直接利用过去的经验和方法 来解决当前出现的问题。过去解决问题的经验都是以事例的形式存放在事例库 中,遇到新的问题就从事例库中寻找相同或相似的事例,用该事例的解决方法来 解决新的问题,而解决新问题的经验又作为新的事例被添加到数据库中。 基于事例的推理的一个显著特点是系统具有自学习的能力。另一特点是它可 以根据出现的错误来对将来的行为自动做出纠正,而且可以通过调整过去的事例 来构建新的方法,对新出现的情况做出处理。然而其缺点在于系统应用总是局限 4 北京邮电大学硕士学位论文 基于关联规则挖掘的网络告警关联 于具体领域,缺乏通用性,另外对事例的分析和处理也是一个复杂费时的过程, 导致系统效率不高。 3 基于因果模型的相关性分析 因果模型法( c a s u a lm o d e la p p r o a c h ) 是一种简单通用的告警相关性分析方 法。系统由事实库( f a c tr e p o s i t o r y ) 、告警知识模型( a l a r mk n o w l e d g em o d e l ) 、 相关器( c o r r e l a t o r ) 和网络监视器( n e t w o r km o n i t o r ) 组成。事实库包含了关 于出现故障的网络或系统中的对象以及它们之间的关系的一些动态信息;告警知 识模型则从事实库中抽象出各个对象之间可能的因果关系,并用树、图、因果规 则或有限状态机的形式描述这些因果关系。相关器利用告警知识模型对网络监视 器采集的当前告警信息进行相关性分析,从而对故障的位置和起因做出判断。 4 基于模型的相关性分析 基于模型( m o d e l b a s e d ) 的相关性分析通过建立网络模型来对网络的行为 进行推理。网络模型主要包括网络结构信息( 如网元类型、网络拓扑、包含的约 束等) 和网络行为信息( 如告警相关性分析的动态过程) 。基于模型的相关性分 析系统对新的故障具有一定的分析能力,但当处理超出其知识范畴的问题时,系 统的性能将显著下降。此外,模型的复杂性也是这种方法的一个问题,建立一个 精确的网络模型往往由于过于复杂而难于实施,而过于简单的模型则可能得出错 误的结果。因此,对网络的建模应该尽可能采用模块化的思想,对网络的不同层 面单独建模,而每个模块的内部则根据实际问题需要确定相关功能、结构、组成 及因果关系的语义表达的精确程度。 5 基于神经网络的相关性分析 神经网络( n e u r a ln e t w o r k s ) 是由许多神经元相互连接而构成的系统,能够 实现并行计算,克服了一般串行计算所带来的瓶颈问题。对于一些复杂的问题, 在没有算法或者算法非常慢的情况下,神经网络通常是一个好的选择。 神经网络具有很好的自学习能力,而且能够处理告警信息中包含噪声的情 况。但其缺点是在实际应用之前必须经过大量的训练,以便存储所有关于故障的 模式,否则就会影响学习的性能,然而在电信网管理领域这一点是不容易做到的。 6 基于数据挖掘的相关性分析1 4 j 传统的相关性分析方法主要通过专业网管人员获得告警相关性知识,然后再 加入到系统中。对于小型网络,这种做法可以满足实际需要。然而,随着网络规 模越来越大,结构越来越复杂,单纯依靠网管人员获得告警相关性知识已经越来 越不实际。因此,越来越多的人们开始研究通过数据挖掘的方法分析告警数据, 挖掘告警相关性规则。 数据挖掘能够从数据中发现新颖的模式,是基于过去事例泛化的一种归纳学 5 北京邮电大学硕1 :学位论文基于关联规则挖掘的网络告警关联 习,可以解决分类、聚类、时间序列分析、关联规则挖掘等问题。为了减少对网 管人员和专家的依赖,通过挖掘历史告警数据来获得相关性知识己成为目前网络 管理领域的一个研究热点。 这种方法的优点很多,适合对海量数据的处理。但是其缺点就是往往忽略了 网络拓扑,因此在实际的方法中可以吸取其它方法的优点,尤其考虑网络建模。 如何提高挖掘精度和速度 在电信网络中,告警或者事件的时序信息很重要。但是通常这些告警信息不 完整、不精确。例如告警序列周期不固定,序列周期长度不确定,周期长度变化 可能很大;由于时钟不同步、网络延迟等原因导致时间信息不精确;告警序列周 期重复次数变化且不确定;告警数据噪声大;由于设备或者网络等原因导致告警 数据不完整,告警序列周期不完整;等等。另外,在这种不确定的环境下,需要 更好的模型和算法来更有效地确认挖掘结果的置信度,确认何种序列不是偶发序 列,并防止产生错误的挖掘结果。因此,需要采用特殊的技术来处理这类不确定 性。 1 3论文的组织安排 论文各章节的组织安排如下: 第一章为概述,介绍了论文的研究背景以及论文的主要研究内容; 第二章以某移动通信公司告警数据作为实验数据,分析电信网络告警数据的 特征,提出了预处理大规模数据量的算法; 第三章研读大量中外文献,对关联规则挖掘算法作了一个详细的调研。对经 典的a p r i o f i 算法的思想、实现以及瓶颈作了一个详细的描述,并提出了关联规 则挖掘算法的改进方向,简单描述了每种改进算法的实现思想、优缺点; 第四章以第三章内容为基础,结合电信网络告警数据的特征,提出了适合电 信网络告警数据的改进关联规则挖掘算法a p r i o r i e n ,详细描述了该算法的关键 理论以及工程实现,并以该移动通信公司的告警数据分析该算法; 第五章以该移动通信网络为蓝本,研究其拓扑结构特征以及告警传播特点, 构造了适合该移动网络的拓扑约束文件,设计了适合电信网络的网络拓扑约束算 法,用于过滤不符合网络拓扑特征的频繁模式,从而提高挖掘算法的精度;并以 实际的告警数据验证网络拓扑约束算法的效果。 第六章对全文的工作进行了总结。 6 北京邮电人学硕上学位论文基于关联规则挖掘的网络告警关联 第二章预处理大规模数据量算法 2 1 原始告警数据 原始告警数据是由某移动通信公司所提供的从艺0 0 6 年3 月1 日到4 月6 日 的在该移动通信网络范围内发生告警的原始数据。 原始告警数据是由该公司网管中心提供,原始表由 a l a r m 一2 0 0 6 0 3 0 1 0 3 0 9 c s v ,a l a r m 一2 0 0 6 0 3 1 0 0 3 1 5 c s v ,a l a r m 一2 0 0 6 0 3 1 6 - 0 3 2 0 c s v , a l a r m2 0 0 6 0 3 2 1 0 3 2 5 c s v ,a l a r m2 0 0 6 0 4 0 1 0 4 0 6 c s v 五个文件组成。截至2 0 0 7 年2 月,该移动通信公司话务、信令和管理网含1 9 类共2 6 0 9 个网元。自2 0 0 6 年3 月1 日起的3 1 天内共产生告警信息4 1 6 ,0 3 1 条,平均每天产生1 3 ,4 2 0 条; 共产生告警标题7 3 7 项;共1 2 ,5 7 1 条告警信息发生时间和清除时问相等。一条 告警记录包含多个字段,但我们重点考察与实验内容相关的“i n ti d 、 “a l a r m t i t l e ”、“e v e n t t i m e ”、“o r g _ s e v e r i t y 和“o r g _ t y p e ”等字段的内容,各 字段的含义具体见表2 1 。 表2 - 1 原始告警数据记录的格式 黪缫瓣隔缁麟戮黝缓缓鳞缓缀燃 i n ti d 发出该条告警的嘲元唯一标识整型 o b j e c t c l a s s 该网元的类型标识整型 a l a r m t i t l e告警标题 整犁 e v e n t t i m e该条告警发生的时问日期时间型( 精确剑秒) 原始的告警严重性级别 1 :c r i t i c a l :严重 2 :m a j o r :主要 o r g _ s e v e r i t y 整型 3 :m i n o r :轻微 4 :w a r n i n g - 警告 5 :i n d e t e r m i n a t e :不确定 v e n d o r _ s e v e r i t y对告警严霞性级别的重定义 字符型 原始的告警类型 0 :c o m m u n i c a t i o na l a r m :通信告警 1 :p r o c e s s i n ga l a r m :处理器告警 2 :q u a l i t yo fs e r v i c ea l a r m :服务质革告警 3 :e q u i p m e n ta l a r m :设备告警 。玛一t y p e 整型 4 :e n v i r o n m e n ta l a r m :环境告警 5 :a d m i n i s t r a t i v ea l a r m :管理告警 6 :s w i t c h i n g :切换告警 1 0 0 :n ep e r f o r m e n c ea l a r m :网元性能告警 1 0 1 :n m sp e r f o r m e n c ea l a r m :网管系统性能告警 v e n d o r t y p e 重定义告警类型字符型 a c t i v e s t a t u s 该条告警的当前状态:整型 7 北京邮电人学硕上学位论文基于关联规则挖掘的网络告警关联 0 :c a n c e l l e d :清除 1 :a c t i v e :活动 3 :c a n c e l e db yu s e r :被用户清除 4 :s y n cc a n c e l e d :同步清除 1 0 :程序强行清除 c a n c e l t i m e 该条告警的清除时间日期时间型( 精确到秒) o m ci d 网元所属m s c 的标识整犁 o m c a l a r m i d 该条告警在m s c 中的唯一编号整型 整数表示的可能告警原因,通过查询川户手册可 p r o b a b l e _ c a u s e 整型 以获得详细的描述 文本表示的可能告警原因,作为告警标题的辅助 p r o b a b l e _ c a u s e _ t x t 字符型 信息 l o c a t e i n f o f ml o c a t ei n f o ,告警定位信息 字符型 2 2 电信网络及其告警信息特征分析 当前的移动网络环境具有大型、分布、异构、动态、多供应商等特征【5 1 ;网 络的告警信息则具有数据海量但信息不完整、冗余信息多且时序相关等特点。大 规模分布式网络包含大量的网络实体,它们在运行过程中会产生各种各样的网络 告警信息。这些信息潜在地展示了网络实体的运行状态和行为,例如链路断路、 网络拥塞、设备失效等。 然而,当前移动网络的故障管理非常被动,它是在网络发生故障后,网络管 理人员根据故障告警来发现并排除故障。由于网络本身的复杂性及其在物理和逻 辑上的关联性,单一的故障可能引发大量的告警,形成所谓的“告警风暴”。众 多的告警信息既增加了网管系统的开销,也不利于网管人员根据告警排查故障。 因此,网络故障管理的首要问题是进行告警关联性分析,即对告警进行合并和转 化,将多个告警合并成一条具有更多信息量的告警来代替多条告警,以协助网管 人员分析故障信息、快速故障定位。 通过对该移动通信公司告警数据的统计和分析,电信通信网络及其告警信息 具有如下特点。 1 网元数量多 一个典型的省级移动通信网络包含的网元大约为几千个。 2 网元动态变化但是变化不频繁 3 告警数据数量大 一个典型的省级移动通信网络每天产生1 3 万条告警记录,每月产生4 0 8 0 万条告警记录。 4 告警类型( 告警标题) 数量大 一个典型的省级移动通信网络所产生的告警标题多达数百到数千种。 8 北京邮电人学硕上学位论文 基于关联规则挖掘的嘲络告警关联 5 告警标题产生的告警分布存在大头现象 极少量告警标题产生了最大量告警,例如,前5 种告警标题( 占告警总标 题数的0 6 8 ) 产生了4 3 9 的告警信息。 6 告警标题产生的告警分布存在长尾现象 大量告警标题产生了少量告警。4 4 3 7 的告警标题每个只产生1 - 9 个告警。 7 5 3 1 的告警标题每个只产生1 9 9 个告警。 7 实际的关联规则或序列模式相对大量的告警信息来说是稀疏的 在一个网络中,即使同一故障每月发生1 0 0 次( 这种情况非常罕见) ,但是 相对于每月4 0 多万条告警数据来说,还是非常小的。 8 不能排除长尾中的告警信息属于故障的关键告警信息 2 3 预处理算法 存在不完整的、含噪声的和不一致的数据是大型的、现实世界数据库或数据 仓库的共同特点,因此运行数据挖掘前做数据进行预处理是必须的。 这种特点也存在于移动告警数据中,在2 2 节中已经给出详细的描述。从2 1 节中实验数据中我们可以看出:在告警数据库中描述一条告警记录的信息包括: 发出告警的设备信息,包括设备名称,设备标号,设备类别等;发生告警的标题 内容;告警的发生时间和解除时间;告警的附加信息,如原始告警级别和重定义 告警级别,告警的可能原因描述等。这种描述完整但也冗余,因为挖掘仅仅关心 的是什么设备在什么时间发生什么告警。 预处理的目标包括两个方面:去除告警信息中的冗余信息;将告警数据转换 为统一数据格式。 告警信息中的冗余信息分为两类,一类是告警数据库中本身存在的冗余,这 类冗余必须去除,这类冗余是由告警的本身特点引入的,告警是由故障引起的, 在故障消除前,告警会反复发生,对于这类冗余,必须直接处理掉;另一类冗余 是自定制的,不同的应用,所关注的研究对象有所不同,因此需要设计灵活预处 理方案,提供通用设置生成自定义的方案,并根据方案完成预处理任务。 将告警数据转换为统一数据格式,是指将原始告警数据转换为统一的数据格 式。由于在原始告警信息中,描述告警的信息多而杂,另外很多为文本信息,而 且描述告警时问特征的数据为绝对时f b j ,因此,首先需要从原始告警数据中挑选 出足够描述告警信息的最少字段组合,同时将文本信息和绝对时间进行数据转 换,在此基础上,将转换结果保存为文件,供后期算法使用,保证算法的运行脱 离数据库系统。 9 北京邮电大学硕上学位论文 基于关联规则挖掘的网络告警关联 以上描述的是以该移动通信公司的告警数据作为代表的电信网络告警数据 的通性特征和预处理需求。在开发预处理部分时,除了要满足针对告警数据提出 的预处理要求,更进一步的是,要开发一个通用的预处理模块,这个模块可以实 现对任何类型数据的做自定义的数据过滤,可以实现对可作数据挖掘的任何类型 数据的做数据转换。整个预处理模块的设计除了通用以外,另一个特征就是独立 性,这个独立性一方面体现在预处理模块独立于挖掘算法模块,挖掘算法模块的 运行不依赖于预处理模块,这就表明挖掘算法模块可以使用以前预处理结果而不 需要先做预处理再做挖掘;另一个独立性体现在预处理模块的数据过滤和数据转 换功能间,这就是说数据转换可以利用以前的数据过滤结果不需要每次转换前必 须先做数据过滤。 预处理从功能上分为公共部分算法,数据过滤算法和数据转换算法。处理的 数据源以及数据过滤算法和数据转换算法生成的结果数据表储存于m i c r o s o f t s o ls e r v e r2 0 0 0 。 2 3 1 公共部分算法 算法概述 公共部分算法是预处理模块的公共部分,提供数据源,负责调度数据过滤算 法和数据转换算法。 输入参数说明 名称:处理的数据源 类型:s q ls e v e r2 0 0 0 数据库中的数据表 含义:数据过滤或者数据转换处理的数据源 输出参数说明 数据过滤输出参数1 名称:最终过滤结果数据表 类型:s o l s e v e r2 0 0 0 数据库中的数据表 含义:处理的数据源经过一系列自定制的数据过滤模式生成最终过滤结果数 据表。 数据过滤输出参数2 名称:数据过滤操作日志 类型:字符串 含义:描述数据过滤操作的详细信息,包括数据过滤时间,过滤的数据源名 称,过滤的最终结果数据表名称,数据源记录条数,结果数据表记录条数,过滤 条数。 1 0 北京邮电大学硕士学位论文基于关联规则挖掘的网络告警关联 数据转换输出参数1 名称:映射表 类型:s q l s e v e r2 0 0 0 数据库中的数据表 含义:根据数据表生成的挖掘中使用的项目集对应的二维关系表。表中每一 行记录为一个项目内容以及项目标号。 数据转换输出参数2 名称:转换表 类型:s q l s e v e r2 0 0 0 数据库中的数据表 含义:根据原始数据表和映射表生成的压缩表,表中每一行表示一个项目编 号及其该项目发生的时间,其中项目发生的时间由绝对时间转换为相对时间。 数据转换输出参数3 名称:映射表文件 类型:二进制文件 含义:将数据转换算法生成映射表中的内容保存到硬盘的二进制的文件中。 数据转换输出参数4 名称:转换表文件 类型:二进制文件 含义:将数据转换算法生成转换表中的内容保存到硬盘的二进制的文件中。 数据转换输出参数5 名称:数据转换操作日志 类型:字符串 含义:描述数据转换操作的详细信息,包括数据转换的操作时间,转换的数 据源名称,转换的生成的映射表名称和转换表名称,以及映射表记录条数和转换 表记录条数,以及映射表二进制文件和转换表二进制文件在硬盘中的路径。 算法流程图 选择数据源 illl l 新建过滤 新建转换选过滤日志选转换日志 上上 l 调过滤算法调转换算法调删除过滤调删除转换 上上上上 i 写过滤日志写转换日志删过滤日忐删转换日志 算法逻辑说明 图2 - 1 预处理公共部分算法流程 北京邮电大学硕上学位论文基于关联规则挖掘的网络告警关联 公共部分算法分为两步:选择数据源和执行操作。 执行操作分为四类:新建过滤,新建转换,撤销过滤,撤销转换。新建过滤 通过调过滤算法,实施自定制的过滤方案,保存最终过滤结果表,将数据过滤的 操作时间和操作结果写到过滤日志中,新建转换通过调转换算法,生成映射表和 转换表以及将映射表和转换表保存为二进制文件,将数据转换的操作时间和操作 结果写到转换日志中,撤销过滤依据选择的已经实施的过滤日志,删除过滤日志 中的结果过滤表,同时删除此条日志,撤销转换是依据选择的已经实施的转换日 志,删除转换同志中映射表和转换表以及映射表和转换表对应二进制文件,同时 删除此条日志。 2 3 2 数据过滤算法 算法概述 数据过滤算法设计上很通用,使用于处理任何数据表。数据过滤算法首先自 定义一个数据过滤模式,根据选择的数据过滤源,灵活增加过滤条件,依据过滤 模式下的过滤条件生成s q l 语句,执行s q l 语句完成数据过滤功能。 输入参数说明 名称:处理的数据源 类型:s q ls e v e r2 0 0 0 数据库中的数据表 含义:数据过滤或者数据转换处理的数据源 可控参数说明 参数1 名称:数据过滤模式名称 类型:字符串 含义:表征数据过滤模式的名称 参数2 名称:数据过滤字段 类型:字符串 含义:数据过滤条件中的过滤字段,是过滤数据表中的一个字段。 参数3 名称:过滤匹配条件 类型:字符串 含义:表示过滤字段的过滤匹配方式,包括三种方式,精确匹配,时间匹配 和模糊匹配。 参数4 1 2 北京邮电人学硕上学位论文 基于关联规则挖掘的网络告警关联 名称:精确匹配的过滤值集合 类型:字符串 含义:表示过滤字段在精确匹配过滤模式下的过滤值集合。 参数5 名称:模糊匹配的过滤值集合 类型:字符串 含义:表示过滤字段在模糊匹配过滤模式下模糊匹配字符串。 参数6 名称:时间匹配的过滤值集合 类型:字符串 含义:表示过滤字段在时间匹配过滤模式下的起止时间字符串。 输出参数说明 参数1 名称:数据过滤日志 类型:字符串 含义:表征本次数据过滤的操作日志,字符串a r r a y 中的每一个字符串表示 一个操作日志,包括数据过滤模式名称,过滤的数据源名称和记录条数,以及过 滤的数据结果名称和记录条数,以及过滤的条数。 参数2 名称:数据过滤条件 类型:字符串 含义:保存数据过滤模式下过滤条件组合 参数3 名称:最终过滤结果数据表 类型:s q l s e v e r2 0 0 0 数据库中的数据表 含义:处理的数据源经过一系列自定制的数据过滤模式生成最终过滤结果数 据表。 算法流程 1 3 北京邮电大学硕士学位论文基于关联规则挖掘的网络告警关联 图2 2 预处理数据过滤算法流程 算法逻辑说明 从流程图上可以看出,过滤算法可以选择数据源后做多次过滤模式,第一次 过滤基于选择的数据源,第二次过滤的数据源基于第一次的过滤结果,依次类推, 所以数据过滤算法结束前删除所有的中问过滤表,数据过滤算法向公共部分传递 的也是最终的过滤结果表名称以及记录条数和过滤的条数。 针对数据过滤算法中每一个过滤模式,先定义过滤模式名称,然后增加过滤 条件,过滤条件分为两大类,一类是通用字段设置过滤,该类过滤又分为三类, 精确匹配过滤,模糊匹配过滤和时间匹配过滤,另一类是为该移动通信公司告警 1 4 北京邮电大学硕上学位论文 基于关联规则挖掘的网络告警关联 数据提供的告警特征过滤条件,分为三种,告警发生时间和解除时间相等,告警 发生时间和解除时问不相等,告警解除时间为n u l l ,依据增加的所有的过滤条件, 生成s q l 语句,执行s q l 语句完成制定的过滤模式。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 特质车辆加油合同范本
- 展会样品购销合同范本
- 网上合同范本怎么
- 田螺回收合同范本
- 健康产业展销会策划
- 2025年初级电工考试题目及答案
- 2025年小学数学黄冈题库及答案
- 2025年审计试题及答案案例分析
- 2025年汽车新能源考试题及答案
- 2025年上海市事业单位工勤技能考试题库(含答案)
- 2025秋外研新版三起点小学英语四年级上册教学计划
- 2025-2026学年人教版(2024)初中数学八年级上册教学计划及进度表
- 2025秋部编版二年级上册语文教学计划+教学进度表
- 智慧城市管理技术专业教学标准(高等职业教育专科)2025修订
- 南京市2025届高三年级学情调研(零模)物理试卷(含答案详解)
- (正式版)JBT 14449-2024 起重机械焊接工艺评定
- 人教版部编四年级道德与法治上册全册课件
- 《高等数学》全册教案教学设计
- 血栓弹力图-PPT课件
- 十八项核心制度完整版
- 一、问题解决型课题QC小组成果案例
评论
0/150
提交评论