数据挖掘技术在移动通信网络告警管理中的研究与应用_第1页
数据挖掘技术在移动通信网络告警管理中的研究与应用_第2页
数据挖掘技术在移动通信网络告警管理中的研究与应用_第3页
数据挖掘技术在移动通信网络告警管理中的研究与应用_第4页
数据挖掘技术在移动通信网络告警管理中的研究与应用_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南大学硕士学位论文数据挖掘技术在移动通信网络告警管理中的研究与应用姓名马东洋申请学位级别硕士专业软件工程指导教师林亚平;袁志刚20111118数据挖掘技术在移动通信网络告警管理中的研究与应用挖掘的告警事务。第二,分析了告警信息各个属性对挖掘效率的影响,分析了常息进行加权工作,形成带权值的告警事务数据库。第三,在带权值告警事务数据算法。论文最后对全文做出了总结,并对未来研究方向进行了展望。关键词告警信息;相关性分析加权关联规则数据挖掘琀瑃琣琭琭,猘琣,甀瑃琄,数据挖掘技术在移动通信网络告警管理中的研究与应用籧;表数据集描述表一表聚类实验结果表本文研究背景及意义。微的故障,也可能给用户造成巨大的经济和时间上的损失。其次,网络中各种技基于这种情况,网络管理开始向着自动化、智能化以及综合化方向靠拢。而在实际的网络运营管理和维护过程中,当网络出现故障时,通常需要在最短时间内,准确找出故障发生位置、故障类型以及可能联动造成的其他故障。由于现代网络过于复杂,拓扑结构多种多样,不同网络之间差异也非常大,故障产生后,由此产生的告警类型和数量也极为丰富。告警产生的突然性、不可预测性、联动性等特点,使得准确、及时地分离和定位产生告警的根源很重要也非常困难。为了找出这些有用信息,往往需要对大量告警数据进行相关性分析,即,通过过滤掉不必要或不相关告警,通过压缩、合并、泛化、分类以及模式匹配等方式,减少告警种类,以达到快速准确进行网络故障定位和诊断的目的。这些对数据的处理方法,往往凭借网管人员长期的经验积累和相关知识来解决。但是,网络中网元设备、网络业务、网络结构等都在不断变化,告警模式以及告警数据之间的关联性也会产生相应的变化。而这些变化,使得建立告警相关性模型非常困难。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的国内外研究现状输入、输出、过滤、延迟、技术、组合、更改等功能,能实现告警相关性的分析快速、高效的挖掘算法,无疑是关联规则挖掘的核心,关联规则挖掘算法最数据挖掘技术在移动通信网络告警管理中的研究与应用本文以移动公司中网络告警数据库为基础,运用关联规则数据挖掘技术,对告警相关性进行规则挖掘,利用聚类的方法,对告警信息的时序性进行聚类分析,然后利用加权规则,对告警信息进行相关性分析,最终达到简化告警数据、过滤告警信息及寻找告警根信息的目的。行挖掘工作,开展相关性分析,验证了本文提出的算法的合理性和有效性。本文结构算法,实现了该算法,并用湖南移动的告警数据库进行了实验,对算法进行了评估与评价。第五章,对本文的工作进行总结,并对本研究课题未来的发展趋势和可能的发展方向做进一步展望。通常对告警相关性分析是通过人工统计分析出相关规则,然后再将这些规则应用到相关性分析系统中。其缺陷是,当网络越来越大时,仅仅通过专家获得告信息抽取的主要对象有结构化文本、半结构化文本、自由文本三类。电信网络主要有两种固定网络、移动网络。两种网络类型,均由一系列互联的交换与传输网元组成。实际上,日常生活中的网络,主要由无线接入网和骨干网组成,无线接入网通过基站与骨干网相连。故障检测的主要内容包括维护和监测差错日志,检测该事件是偶然还是必然食欢你兄担钩晒收以及接收故障报告。查找故障原因,根据告警信息以及知识库进行故障的分析与诊断则属于故障诊断的范畴。故障恢复则主要是根据相关规则,恢复到故障前的状态,保持网络的畅通性和可用性。在故障管理中,诸如子系统、设备或软件模块等各个网元,都有可能产生告在实际的大型通信网络中,网络是分层的,当低层的网元产生异常发出告警信息时,这些告警信息需要经过大量的传递并最终送到网管中心。每一层的设备会根据告警信息得出部分自己的故障理解。这就导致了故障原因的多样性和复杂图思科告警信息图告警相关性分析关于网络告警的相关性分析,可以给出如下定义两个定义从不同角度阐述了告警相关性,目前还没有统一的结论。琣,仇喙赜辛街智榭觥莞婢录蟨。,海,可以得出琣,吼根据告警事件集合其形式化表示为冢口鞨菸绻婢疧闹挡辉诤戏涤騂中,则数据挖掘技术在移动通信网络告警管理中的研究与应用解决问题的策略有很多,基于事例推理是其中之一。基于事例推理的系统与的推理角度分别是告警信息的结构以及功能行为。在通信网络的实时故障管理中,基于模型的系统运用较为广泛,诸如网络拓扑、网元类型以及其中的关系限制等网络结构、告警的动态相关性等行为均被建模。一太尚。在大型复杂通信网络中,告警事件大量产生,很可能发生部分丢失,一旦通信线路发生波动,网管中心收集到的相关性告警事件就可能不完全,也就无法建立确定性。而且,激发该组相关性告警的故障也无法确定。通过贝叶斯网络分析告警相关性,则能克服这种不确定性。数据挖掘技术在移动通信网络告警管理中的研究与应用基于规则的相关性分析瓸一组规则集,与特定情况相关的知识则被封装成事实。规则的具体形式与人类思维相似该方法的工作原理很容易理解,利用规则分析系统,将网络实时告警信息与规则库中的规则进行匹配,匹配建立,则可以较为准确的判定故障原因。该系统将监控网络的拓扑结构以及其他实时告警信息存储在工作存储区,从而达到实时监控的目的。而已知的告警规则则存储在相关性规则区。对实时告警信息进行分析则由推理引擎完成。该方法最大的优点便是其工作过程符合人的思维方式,便于理解,但缺点也很明显,该系统需要存储大量的规则,如果规则数量达到一定规模,规则库的维护将付出巨大的代价。而且,规则的定义需要专家参与,这样就限制了知识的获取过程,很容易形成瓶颈。过去的经验也被该系统抛弃,演绎推理完全从头开始,过于浪费。现实大型网络,拓扑结构复杂,很难建立精确模型,但通过模糊逻辑方法能用来处理一些具体问题。而且,电信领域发展速度飞快,网络设备、配置变更时间非常短,网络模型越详细,模型就越脆弱,过时的时间也就越短。故障和告警信息,通常不具备完全因果关系,通过模糊逻辑,可以描述出不精确的网络模型,对不完全的告警相关性分析是一大助力。但是,模糊逻辑分析不具备通用性,系统过于复杂,其逻辑规则可能非常复杂。数据挖掘是近年兴起的新兴领域,一经推出,便迅速在多个领域得到应用。基于历史告警数据,总结告警相关性规则是数据挖掘在通信领域中最典型的应用之一。将发现的规则归纳成规则库,利用这些规则对网元可能出现的故障进行分析和预测,极大的减轻了网管的工作强度,大大提高其工作效率。网络故障的定位检测、严重故障的预测等都能用上这些有价值的规则。数据挖掘概念与技术据集进行分类产生。目前国际上最有影响力的决策树方法主流为惴,以种。该方法描述简单,构造出来的决策树具备很强的自我学习能力,对于大规模的数据处理比较适合。但是,该方法也存在一定问题,对噪声数据过于敏感、不能增量接受训练样本、不能处理连续值属性等等。惴慕薎算法的某些缺点,如可以对连续属性进行离散化操作、可以对未知属性进行处理并由此产生规则。亓9嬖蚬槟煞椒诠嬖蚩庵校琲规则是最有价值的,而关联规则相同。琒惴。模糊和不精确性问题的新型数学工具【】;重要的分类问题、属性的约简、属性的最小子集、去掉冗余对象等都是粗糙集方法能解决的问题。该方法能够合理的近似分类,得到质量在阈值范围内的分类。而且,用决策规则几何的形式,粗糙集方法还可以表示最重要属性和特定分类之间的所有重要关系。向数据挖掘的基本过程如图所示数据挖掘技术在移动通信网络告警管理中的研究与应用萃诰颍焊菔导实耐诰蛉挝瘢袷屎系耐诰蚣际一种或多种技术在节中,我们知道,电信告警数据结构复杂,数据间具备很强的关联性,历史数据能为现在的告警提供诸多的借鉴作用,综合几点,我们发现,数据挖掘技术非常适合告警数据。数据挖掘中的聚类分析技术、关联规则过滤技术等,能成功的消除大部分的冗余告警、挖掘出告警数据之间的相关性,提高故障分析和处理速度与效率。本章小节本章主要从告警相关性分析的有关理论知识出发,研究了告警相关性分析的数据挖掘技术在移动通信网络告警管理中的研究与应用时序相关性概念介绍时序相关性之前,给出如下几个概念【】婢蛄校篠,其中兀表示起始时间,硎局罩故奔洌瑂表示告均按照顺序出现,这类似于现实世界中的时间轴。告警情景中包含告警事件的个数定义为情景长度,记为。罡婢榫凹次3任狵的告警情景。如果告,时,必有婢钠蚬叵担泄叵担捍嬖卺埽耍瑊彳,蔆彳,如的窗口中出现的比率定义为口的支持度,口的支持度表示为枷叫一班策器主要聚类算法分类。划分方法有两个必要条件分组不能空,每个分组至少包含一个元组;谎紎其中J荻韵笫噶浚硎敬谻闹市氖噶浚琹忠凰为误差矢量的模但甅算法缺点也较为明显计算平方差时采用的是类中对象的均值,定的,无法动态添加。在甅算法和狹算法之前,围绕中心点划分算法彩荎中心算法之一。拇砉涛浚菏紫龋婊馣个中心点,然后,随机匹配对象对,以其中一个为中心点,另一个为候选点,计狹算法。根据随机性抽样理论,当样本抽取方式非常随机时,部分可以取代整体。惴允菁槿喔鲅荆缓蟮赖脑擞肒甈数据挖掘技术在移动通信网络告警管理中的研究与应用针对惴蚄惴娜钡悖珻算法【】提出了新的采样技术,它将之与甅算法结合起来,搜索过程中,每一个子过程都抽取一个随机样本,不局限于单一样本。因此,惴菴和甅更有效。凝聚的层次聚类算法与之正好相反,算法首先将所有对象封装成一个个单独不能合并停止。行调整和优化。惴肓肆礁鲋匾8拍睿壕劾嗵卣途劾嗵卣魇两个参数决定。算法的基本思想是首先划分样本数据,然后分别进行局部聚类,处理孤立点,对聚类完成的簇进行二次聚类,直至达到终止条件。算法的代价函数中,距离的计算方法舍弃了质心方式,而是采用一组点,利用多个对象取代一个对象,这样就很大程度上减少了由于质心选取不当带来的偏差问题。同样的,针对大数据集,算法也采用随机抽样,为提升效率,加速簇的收敛速度,又对随机性进行了一定的限制,属于伪随机策略。但是,随机抽样方式对枚举型数据处理能力比较差,算法同样如此。于是,适用于枚举型数据聚类的自底向上聚类算法应运而生。该算法的代价函数同样计算簇间相似度,但该相似度舍弃了节点间距离计算方法,而用不同簇间共同邻居数取而代之。算法不需要用户参与提供静态模型,能动态的进行聚类。无论是惴惴惴算法还是其他层次算法,都有一个共同的缺陷,在局部贪婪策略的基础上没有全局最优化目标函数,无法保证最后的聚类结果为全局最优。惴】。算法很算法声和密度阈值设置失当,聚类质量将大为降低。基于网格的聚类算法,将整个对象空间切割为多个单元。基于网格的聚类算法比较有代表性的有算法、惴例,前者超过后者,则为密集的,后者超过前者,则为稀疏的。维度扩展性和规模伸缩性,但由于算法过于简单,聚类精确性无法得到保证。该算法利用了数据处理中常用的小波变换。对数据空间的形状没有任何要求。基于模型的聚类算法有一大前提,数据必须符合潜在的概率分布。该类算法事先建立一系列的数学模型,然后用给定数据与这些模型进行匹配,不断的优化匹配结果,最终达到拟合度超过阈值停止。神经网络算法以距离为度量,对每个聚类进行原型性描述,估算相似度后,将对象分配到与之相似度最高的聚类中,而且,由于原型带有属性,可以对新对象与原型属性进行相关性计算,提供预测依据。神经网络聚类利用了生物学特性,在生物学中,不同生物的大脑功能是有较大差距的,随着处理时间的延长、数据复杂度的增加,该聚类算法是否适合大型数据库还有待进一步的研究。告警时序聚类算法数据挖掘技术在移动通信网络告警管理中的研究与应用给定聚类数目攵允菁韵骕做时间聚类,设计其代价函数为,。琙,形琙琗类的可能性。而且满足公式中,模糊指数用代替,该值可以指定,意味着精确聚类,与本实验中,只考虑数值属性,不考虑分类属性,所以,差异度兀,只于一个组,肌具有以下性质嘞,以阈值为半径的球体包含的粒子数除以球体体积为质心球的密集度,与以该粒子为核心,以阈值为半径的球体与质心球体相交包含的粒子数除以相交部分体积为比较每个粒子的适应度与初始适应度的值,如果适应度更高,则更新,否将找到的最优解作为算法的初始输入值,再重复一次算法过程,求解全局最优解,如果得到最优解,则算法结束,否则转到步骤。实验结果实验以中国移动湖南分公司龈婢菁描述见表,这三个数据集位于表数据集描述表其中,硎敬砦缶劾嗍浚琋表示总对象数。将炙惴直鸬诵次,分别对代价函数的最大值、最小值、平均值表聚类实验结果表劾嘀副闑代表算法的性能,指标越小,聚类的正确性就越高,从表我们可以看出,针对三个数据集而言,菿惴腅值要小,证明其在正确性方面有多提升。的数据集。本章小节本章对聚类算法进行了理论研究,分析了影响聚类算法的质量和效率的因素,告警数据库预处理一般的,原始告警数据存在以下几个问题噪声告警对于加权关联规则挖掘来说,只有规则和故障诊断才是有用的信息,其他的数据全是噪声数据,其对相关性分析具有很大的干扰作用,预处理阶段应该尽量排除噪声。告警信息中各属性等重站在不同的挖掘角度,关注的告警信息的属性会有很大的差异。而且,不少属性是分等级的,如告警的严重程度,普通告警,一般告警、重大告警、严重告警,本身应引起的关注就不能等同,如果一味的平均,则意味着理想化状况。我们的挖掘目的就是尽可能的排除人工思维,挖掘出真正有用的模式和相关性。本实验通过中国移动湖南分公司内部的告警预处理专家系统对告警原始数据表聚类后的告警信息表数据格式归一化是告警信息抽取与整理的第一步,正如秦始皇提出“书同文、根据网络故障的确立原则,我们知道,知道告警序号、告警类型、告警级别、务项。然后对该告警事务项进行噪声和孤立点处理,去掉空白事务项等操作。表甤工叮疉蕆或翟閏二托。二皇亭琖嚎梗和醵就倍二誄二壹唬痕模憾碥训芒罙矗篹甔宥世督锰海篶叮疉王二醵緎瓹王基苎景堋叮疍甤皇蓖鮝嚣醵濉蟡矗亭疉工五二夯叮疉和蠸嚣杀越意曩簅鬯鑕疍疉图告警事务图由于网络分层,故障间往往具有联动性,一个设备故障被其他故障探测到后很可能引发多个冗余故障,而且,在故障被解决之前,这些设备会在时间周期内,不间歇的向网管中心发送告警,这导致告警数据库中存在大量除告警序号有差差别,其他内容大致相同或相近的告警,对这些告警进行压缩和删减工作,无疑能提升挖掘效率。跷罚喝糴疉管二縠宥基阥置咄粒二孑疍二蒲鞘鮟瓵穗曩墨疍二五匹图压缩和删减后的告警事务图如果仅凭经验和主观思想简单的为各字段赋权重影响权重的因素过多时,经验很可能出错,而且,不具备灵活性,无法自由组当钒后逐层分解,形成树的枝叶,对因素的相对重要性的考虑则采用因素间两两比较值计算的规律,这样可以最大程度的避免人的主观预测造成的偏差。数据挖掘技术在移动通信网络告警管理中的研究与应用通过文献浚颐堑弥珹方法属于多准则决策方法的一种,是典型的我们将子树的高度定义为婢难现爻潭榷逦狟,构建分析矩阵结合,计算相对权值,然后进行归一化处理。告警加权关联规则挖掘算法据集中的数据是经过处理后的事务项。结合网络告警的特点,我们将告警信息各务项峙湟桓鋈祄,歹,刀。表告警事务数据库表的猚,瑊,腟瑊,腟,的,的。频繁项集表如表所示表频繁项集表数据挖掘技术在移动通信网络告警管理中的研究与应用酚善捣蹦剿惴第一个基于加权的关联规则算法为惴,该算法实现了非加畇;甃;甪甼;畐萜;,热嘶谄捣蹦绞魈岢隽似捣蹦焦亓M诰蛩惴瓽】,该算法包含两大部分,频繁模式树的构造,基于该树进行频繁模式的挖项按照承蚺判颍行蚱捣毕畋砑俏緋】,淼谝桓鲈K兀琍代表剩余输出频繁模式完全集算法过程乖臁翁跫交乖臁蔚奶跫;甶巍由于算法是基于频繁模式树而不是基于事务的,的大小远远小于原始事务数据库,所以,算法。但是,算法依然需要多次扫描数据库,需要自底向上扫描频繁模式,一旦事务数据库成倍增长,这很容易成为性能瓶颈。实际上,算法的工作过程主要是构建一个,然后在该上进行挖掘,我们可以不采用自底向上,逐层扫描的方式,而是比较两颗子树的不用物理距离和网络拓扑结构来衡量,而采用一种异或编码方式,引入一个“路由表概念,该“路由表”中保存部分邻居节点的信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论