(通信与信息系统专业论文)网络智能故障定位系统的研究.pdf_第1页
(通信与信息系统专业论文)网络智能故障定位系统的研究.pdf_第2页
(通信与信息系统专业论文)网络智能故障定位系统的研究.pdf_第3页
(通信与信息系统专业论文)网络智能故障定位系统的研究.pdf_第4页
(通信与信息系统专业论文)网络智能故障定位系统的研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(通信与信息系统专业论文)网络智能故障定位系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 故障管理是网络管理五大功能模块之一,而故障定位是故障管理的核心。 近年来,随着网络规模的急剧扩大,客观上要求能有一种故障定位技术投入 商用,国外的各大电信厂商( h p 、b e l l 、i b m 、n o k i a ) 都在积极研究网络故 障定位技术,所以故障定位技术是目前国内外研究和开发的热点之一。 本文采用基于规则和基于数据挖掘两种关联模式相结合的方法来定位网 络中的故障,这种方法可以克服仅使用单一关联模式的不足,这可使系统不 仅具有逻辑推理能力,而且具有学习能力。本系统包括两太模块:规则引擎 模块和挖掘规则模块。 关于规则引擎模块,我们采用高效的模式匹配算法r e t e 算法作为核 心算法。为了能够使规则引擎与现有的使用面向对象语言编写的系统实现无 缝集成,我们采用一种新颖的知识表示方式和r e t e 网络结构,并对传统的r e t e 算法进行了优化。 关于挖掘规则模块,在定义一个告警事件序列模型的基础上对r o b u s t s e a r c h 算法进行了些改进,这种改进的算法能够有效避免符合要求的告警 序列的丢失。 最后我们采用跨平台j a v a 语言对规则引擎模块和挖掘规则模块进行了分 别实现,并使用了u m l 对设计过程进行了描述,然后把二者有机地集成起来。 关键词:相关性分析,事件关联,产生式系统,规则引擎,数据挖掘 哈尔滨工程大学硕士学位论文 a b s t r a c t f a u l tm a n a g e m e n t ,i nw h i c hl o c a l i z i n gm a l f u n c t i o ni st h ec o r et a s k ,i so n eo f t h ef i v en e t w o r km a n a g e m e n tm o d u l e sa c c o r d i n gt od i f f e r e n tf u n c t i o n s t h e l o c a l i z i n gm a l f u n c t i o nt e c h n i q u eh a sb e e nb e c o m i n go n eo fr e s e a r c hh o ts p o t si n t h ef i e l do ff a u l tm a n a g e m e n t i nt h i sp a p e r , b o t ht h er u l e - b a s e dm e t h o da n dt h ed a t am i n i n gm e t h o da r e e m p l o y e di no r d e rt oo v e r c o m et h ed i s a d v a n t a g er e s u l t e df r o mt r a d i t i o n a l l yu s i n g s i n g l em e t h o d ,w h i c hm a k et h es y s t e mh a v en o to n l yl e a r n i n ga b i l i t yb u ta l s o l o g i c a li n f e r r i n ga b i l i t y t h e r e f o r e ,t h es y s t e mi n c l u d e st w om o d u l e s :r u l ee n g i n e m o d u l ea n dm i n i n gr u l em o d u l e a sf a ra sr u l ee n g i n em o d u l ei sc o n c e r n e d t h eg r e a te f f i c i e n tr e t ea l g o r i t h m i s i m p l e m e n t e d i no r d e rt os e a m l e s s l yi n t e g r a t et h er u l ee n g i n ew i t ht h e a p p l i c a t i o np r o g r a m m e di nt h eo b j e c t - o r i e n t e dl a n g u a g e ,an a t i v ek n o w l e d g e p r e s e n t a t i o nm e t h o da n dr e t en e t w o r ka r ei n t r o d u c e d i na d d i t i o n t h et r a d i t i o n a l r e t ea l g o r i t h mi so p t i m i z e d a sf a ra s m i n i n gr u l em o d u l ei sc o n c e m e d ,b a s e do na na l a r me v e n t s e q u e n t i a lm o d e l ,t h er o b u s t _ s e a r c ha l g o r i t h mi si m p r o v e dt oa v o i dl o s i n gt h e s e q u e n c e st h a ta 托s a t i s f i e dw i t ho u rp r e d e f m e dn e e d s b o t ht h er u l ee n g i n em o d u l ea n dt h e m i n i n gr u l em o d u l e ,w h i c ha r e i n t e g r a t e d ,a r ei m p l e m e n t e di nj a v al a n g u a g er e s p e c t i v e l y t h ec o n c r e t ed e s i g n i n g p r o c e s si si l l u s t r a t e di nt h eu m lg r a p h s k e yw o r d s :p e r t i n e n c ea n a l y s i s ,e v e n tc o r r e l a t i n g tp r o d u c ts y s t e m ,r u l e e n g i n e ,d a t am i n i n g 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独 立完成的。有关观点、方法、数据和文献的引用已在文中指出。除文中已注 明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成 果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本人完全意识到本声明的法律结果由本人承担。 作者 日 i 垒玺鎏三翟盔主鎏圭兰j 耋鲨銮 1 1 概述 第1 章绪论 随着以d w d m 、i p 网络、全光网络和无线网络等为代表的电信技术【l j 和w w w 、高性能计算设备、存储设备等计算机软硬件技术的发展,全球电 信运营体制正在发生深刻的变化。电信运营商不得不面对多种多样的技术, 设备更新和网络规模的日益扩大,同时还经受着日趋激烈的竞争所带来的压 缩运营成本的巨大压力,如何才能利用最少的成本对运行中的网络进行最高 效的管理和维护,保证各种业务的顺利运行,是每一个电信运营商都急需解 决的问题。 电信技术和网络的不断发展为运营商带来了更多的商机,但庞大复杂的 网络所带来的管理和故障监控问题也使运营商很难达到节省人力和物力资源 的目的。采用集中式的网管中心,利用综合网管平台实现单点对多点的实时 监控,以少而精的人力资源来管理大且杂的网络达到大量节省人力和物力的 目的,这种方法无疑将是各个运营商的最佳选择。但是这个方法也存在着一 些问题:在实时网络的故障监控上,存在信息量太大,过于庞杂,无法快速 定位故障根源等,而解决这些问题的最佳途径是事件相关性分析的运用。 告警相关性分析能协助网络管理人员分析故障信息并进行故障定位,修 复网络故障所用时间将大大缩减。告警相关性分析是用于分析大量事件的首 选技术。通过过滤掉不必要的或者不相关的告警,可以减少呈现给网管操作 人员的不必要信息;通过相关性分析,能够增加信息的语义内容,从而有助 于判断内部问题或者事件根源。如果能够实现告警相关性分析,则提高潜在 收益,因为故障可以被更快地诊断和定位,从而可以更快地恢复q k 务。 1 2 智能故障定位系统的特点 对一种智能相关性分析系统来说,系统不仅要有逻辑推理能力,而且还 要具有自我学习的能力。逻辑推理能力能够使系统根据现场的环境情况作出 l 哈尔滨工程大学硕士学位论文 分析判断,学习能力能够帮助系统不断地丰富自己的知识库,只有同时具备 这两种能力的系统,才能称得上智能系统;也只有同时具备这两种能力的系 统,才能适应网络的不断发展需求。 1 3 国内外的研究现状及存在的问题 迄今为止已有多种告警相关性分析方法,如基于规则、案例、模型和编 码等相关分析法,每种相关性分析方法在实际中都有应用。单纯地使用某一 种关联方法构建的告警相关性分析工具经常会顾此失彼,最终使系统不是缺 乏学习能力,就是逻辑推理能力不足,难以适应网络发展的需要,如单纯使 用“基于规则的相关技术”的系统不具备学习能力,其知识库的改变只能依 赖具有丰富经验的网络管理专家。 此外,利用贝页斯网络进行告警关联是当前研究的一个热点,尽管此方 法具有许多优点【3 】1 4 ,但是随着网络的复杂度增加,贝页斯网络本身的复杂 度呈指数级数增加,所以其计算量非常大,是一个n p h a r d 问题。因此, 使用概率网络进行告警关联的技术还不适合于实际的应用。 目前,在国外已经有一些比较成熟的相关性分析产品( 如h p 的e c s 、 i l o g 的j r u l e s ) ,但在国内还没有真正意义上属于我国自主研发的同类产品。 即使是某些大的公司( 如:大唐电信) 声称拥有相关性分析模块,但是实际 上都是使用国外的相关性分析产品,仅是在表面上作一包装而已。 1 4 实现智能故障定位的难点和意义 面 智能故障定位是一项极具挑战性的任务,其困难主要体现于以下五个方 l 、网络是不断发展变化的,网络的规模以及网络承载的业务在与日俱 增,所以要想实现故障的准确定位,要求系统必须具有良好的伸缩性 和适应性,即故障定位系统必须具有很强的自我学习能力; 2 、网络设备来源多元化导致网络所收到的告警信息差异很大,要想解 析某种设备的告警必须添加相应的适配层,实现适配层的前提是必须 熟悉相应厂商的协议,但这在实施过程中比较困难; 哈尔滨工程大学硕士学位论文 3 、具体使用那一种算法或哪几种算法,在使用多种算法时如何实现“恰 当的启发”来完成一次成功的逻辑推理:实践已经证明单纯使用一种 算法很难使系统适应真正的运营环境; 4 、知识如何表示,知识库该如何组织,知识库的更新不能影响核心推 理引擎的正常工作; 5 、计算能力的限制,要想实现实时的故障定位,在所采用的算法和知 识表示方法都满足要求的前提下,计算机运算速度必须足够的快,但 是这对一些普通的运营商来说,拥有超级的计算能力是不可能的; 所以要想实现真正意义上的实时故障定位系统变得非常困难,只能是根据实 际情况来平衡系统的各种特性。 本课题是“北京瑞斯康达科技发展有限公司”的重大研究课题,其最终 的产品智能故障定位系统会被集成到该公司统一网管平台n v i e w 中 的故障管理模块中。 1 5 本文的主要工作 本课题的目的旨在设计并开发一种智能故障定位系统,与传统的告警关 联分析工具相比,此智能系统不仅具有逻辑推理的能力,而且具有学习能力。 首先,为了使系统具有逻辑推理能力,我们采用一种专家系统产生 式系统进行推理,但这种专家系统与现有的专家系统如c l i p s 、j e s s 等不 同,它不是自封闭的,它可以与现有的任何j a v a 应用系统实现无缝集成; 其次,为了使系统具有学习能力,我们采用一种全新的学习方法数 据挖掘来发现告警历史库中的规则,而不是单纯地依赖网络专家输入规 则来更新知识库,需要说明的是这种学习能力并不排斥网络管理专家事先输 入一些经验性的规则,只是在尽量减小对网络管理专家的依赖程度。 最后,将逻辑推理能力与学习能力有机地集成起来,即用户可以把挖掘 出的规则直接转化为推理模块可识别的规则,此过程只需用户选择,单击转 化按钮,具体的转化工作由系统自动完成,不需要用户重新编辑规则。 堕玺鎏三堡盔兰量圭主垒鲨銮 第2 章网络故障的相关性分析 2 1 引言 在过去的几十年中,通信业务需求有了全面扩张,造成了网络规模的扩 大、复杂性的提高和带宽需求的显著增长。这些通信网络由成千上万的厂商 通过多种传输媒质互连的节点构成。因此,当一个网络发生故障时,可能会 有大量的告警信息产生。这些告警信息通常被用于故障诊断,但是当告警信 息多得将网络管理中心淹没起来时,就需要某种技术来减少告警数据。 告警的相关性分析能协助网络管理人员分析故障信息和进行故障定位, 将修复网络故障所用时间将大大缩减。告警相关性分析是用于分析大量事件 的首选技术。通过过滤掉不必要的或者不相关的告警,可以减少呈现给网管 操作人员的信息,同样,通过相关性分析,能够增加信息的语义内容,从而 有助于判断内部问题或者事件根源。如果能够实现告警相关性分析,则提高 潜在收益,因为故障可以被更快地诊断和定位,从而可以更快地恢复业务。 告警相关性分析是指对告警进行合并和转化,将多个告警合并而成一条 具有更多信息量的告警,这样可以通过发送一条告警来替代多条告警。对于 告警相关性的知识,从原则上讲可以从设备设计人员或由丰富操作经验的工 程师获得,但这个过程相当繁琐,而且单从工程师那里获取的告警相关性知 识已无法满足网络维护的需要,因此迫切需要新的方法分析网络中的告警相 若性,辅助网络管理人员查明产生故障的原因。因此,告警相关性分析是目 前网络管理领域的个热点问题。 本章将介绍告警相关性分柝的定义,探讨故障相关性分析的需求,并给 出故障相关性分析的若干方法以及这些方法在实际产品中的应用,最后在分 析现有技术的基础上描述了本论文中所使用的整体框架。 2 2 告警相关性分析的概念 本节将介绍什么是告警,告警相关性分析的定义以及告警相关性分析的 4 堕玺鎏三堡盔兰翟圭兰生鲨耋 需求。 2 2 1 什么是告警 在网络管理领域,故障被定义为产生功能异常的原因。故障是产生告警 事件的原因。告警是在特定事件发生时被管对象发出的通报构成的一种事件 报告,用于传递告警信息。告警是一个系统发出的短消息,表示其发出了某 些事情或者异常。告警只是表示可能有故障发生,但并不一定有故障发生。 资源的被管对象可以发出告警事件作为对系统当前发生异常的响应。 告警事件包含被管对象的状态异常信息,一个告警消息通常包含以下信 息:有关发出告警设备的信息、故障的征兆以及告警产生的时间。不幸的是, 告警通常并不明显包含网络中的故障和问题根源的确切位置信息,当网络中 出现故障时,会引发一系列的告警,但并不是所有的告警都表明故障原因所 在,这就需要通过分析网络中产生的所有告警来判断故障的根本原因。需要 注意的是,告警仅仅是反映网络状况发生改变的征兆,这就是说,通常是故 障产生了告警,一个故障可能是另一个故障的原因,但一个告警绝对不会产 生出其它告警。 2 2 2 告警相关性分析定义 “相关性”表示两个或者更多实体之间具有相互联系的情况,相关性分 析的结果有两种:种是信息的语义内容被增加了;另一种是独立单元的总 数缩减了。因此告警相关性分析可以被定义为:通过对多个告警的分析解释, 从而提高了一个数量缩减后的告警集合的语义信息内容。告警相关性分析是 指对告警进行合并和转化,将多个告警合并成一条具有更多信息量的告警, 确定能反映故障根本原因的告警,从而准确定位故障。告警相关性可用于对 产生多个告警进行解释,这给最初定义的告警事件增加了新的含义。 2 2 3 故障处理 故障处理过程可分为三个阶段:告警关联( a l a r mc o r r e l a t i o n ) 、识别故 障( f a u l ti d e n t i f i c a t i o n ) 和故障验证( f a u l tv e r i f i c a t i o n ) 。前面两个阶段通常 认为是故障定位的处理过程,通过对告警相关性进行分析,提出各种对故障 情况的假设。最后一个阶段是验证各种故障假设是否正确。例如,在网络检 5 i ;j2 i 三l 兰至i i 兰兰垡鲨兰二。一 测方面,接收到两个告警事件服务器连接失败和客户端连接失败,故障 的原因可能是路由器故障或交换机故障,此时网络管理员无法判断是路由器 还是交换机故障。如果知道告警相关性规则,如只有路由器可以造成上述告 警,就可以直接判断是路由器的故障。网络管理员可以直接检查路由器的工 作情况,不需要在对交换机进行检查,这样就减少了网络管理员的劳动强度, 同时提高了工作效率。 2 2 4 告警过滤 告警过滤使用来把非故障性告警过滤掉,保留主要的、根本性原因告警。 例如,上例如果知道告警相关性规则,就可以直接过滤掉服务器理解失败告 警和客户端理解失败告警,而报告了路由器失败报警事件。 在网络管理领域,告警相关性分析有助于故障的实时诊断和故障定位。 在通信网络中,通过对被认为是一个共有的故障和状况造成的告警消息的相 关性分析,可以减少操作人员看到的告警信息量。同时,剩下来的更加通用 的消息将帮助操作维护人员指出问题的根源。显然,信息太少或太多同样是 灾难性的,因此两者之间的平衡将是重要的。理想情况下,一个具有告警相 关性分析功能的故障管理系统可以在没有专家帮助的情况下,判断问题根源, 并采取相应的措施和自动发出维护请求。告警相关性分析也可以用于协助网 络规划和配置。 2 2 5 告警相关性分析的需求 告警相关性分析的基本机制包括对来至一个或多个源的告警的过滤、计 数、压缩、泛化、分类和模式匹配。根据告警消息中的数据域内容来分析告 警,告警相关性分析的核心功能是处理告警的时间特性,告警产生是被打上 时间戳,但时间戳的准确性通常不能保证,此外,告警不可能按顺序到达。 作为一个实用的系统,任何一个相关性分析引擎都必须能够处理这种与现实 情况不一致的情况。 告警相关性分析系统必须是足够的通用,从而能够不断地扩张并适应通 信领域内部的快速发展变化,任何一个过分紧密耦合于某一种应用场景的系 统都可能被抛在当前的发展步伐之下。此外一个前端友好的用户界面是一个 6 哈尔滨上程大学硕士学位论文 现代网络管理系统的重要方面。 实际上,许多告警事件并没有包含产生故障原因的信息。因为,在网络 中如果有一个故障产生,经常回收到多个告警事件。在这种情况下,收到的 告警报告中含有很多冗余信息,准确分离和定位产生故障的原因非常困难。 具体有以下几种情况: 由于一个故障会导致设备产生多个告警; 故障本身间歇性发作,这意味着每当故障发生时便发送告警事件; 当设备中某个部件发生故障时,每次由该部件提供的服务被激活,都 可能发出告警事件; 单独一个告警可能被多个网络部件检测到,每个部件都发送一个告 警事件; 己知部件的故障可能影响到其它几个部件,产生故障的扩散。故障的 影响会沿着网络设备扩散,如路由器和主机连接关系所形成的路径: 多个故障同时发生,则此时的告警事件有许多潜在的重叠: 产生故障的问题并不总是可以观察到。许多产生的故障的根本原因可 能无法直接观察到。 除了以上几个原因之外,还有以下几个方面: 告警事件中包含了许多无意义信息、冗余信息; 隐含的依靠性。在告警相关性分析之前,要建立被管网络模型。可能 由于网络模型过于精简,许多网络构件没有被包含在网络模型种,这 样发生在位置网络构件上的故障很可能被认为是发生在其它已知的 网络构件上。 复杂的依靠性。被采纳的依靠服务有一个前提,当关键前提不成立时, 所有依赖这个前提的元素也都不成立。 不完整的数据。通常都假设可以获得网络设备发出的全部告警信息。 但在某些特殊的情况下,些信息是不可能得到的,例如传输中断就 无法获得告警信息。 在大型、异构通信网络种没有统一的网络时间,这为告警事件的比较 和分析带来了无法克服的困难。 可能存在多个反映故障的告警事件同时发生,例如网络连接出现故 7 堕玺i 耋苫堡盔兰鎏圭兰垒譬銮 。 障,连接两端都会发出告警事件。 动态发展、变化的通行网络。由于通信网络是一个不断发展变化的网 络,如配置参数发生变化和网络拓扑结构改动,都会引起告警相关性 规则出现改变。 2 2 6 告警相关性的类型 告警相关性的类型具体如下: a ) 告警压缩( a l a r mc o m p r e s s i o n ) :将发生的多个告警压缩到一个告警 中。1 4 ,a l ja b ) 告警过滤( a l a r mf i l t e r i n g ) :如果告警a 的p ( a ) 值不属于合法值 集合l ,则过滤掉告警a 。l 一,p ( 4 ) 芒l l jo c ) 告警抑制( a l a r ms u p p r e s s i o n ) :在前提p 告警( 高优先级的告警) 发生的情况下,抑制告警c ( 如低优先级的告警) 。1 4 ,c l jm d ) 告警计数( a l a r mc o u n t i n g ) :对重复达到同样的告警进行统计和设 定门限值。例如,用一个告警b 代替n 次出现告警a 。k 4 l jb e ) 告警泛化( a l a r mg e n e r a l i z a t i o n ) :用告警的超类代替该告警。 乜,a c 曰1 j b f )告警特化( a l a r ms p e c i a l i z a t i o n ) :用特定的子集告警来替代该告警。 阻,a 口】辛b g ) 告警时序关系( a l a r m t e m p o r a l r e l a t i o n t ( “b e f o r e a f t e r ”) ) :相关的 告警依赖于告警发生时间顺序,告警a 、告警b 顺序发生时,则会 产生告警c 。i 彳他i c 2 3 告警相关性分析方法和算法 目前已经出现了许多告警相关性分析技术,本节将简要的介绍各种主要 的告警相关性分析方法。 2 3 1 基于因果关系的相关性分析 基于因果关系的相关性分析是一个监视和分析通信系统的简单和通用的 方法,并得到了一些比较典型的应用,它由动态事件库、事件知识模型和相 s 堕:鎏苫堡盔兰鎏圭兰j 垩鲨兰 一 关性分析器三部分组成。其中动态事件库包含了一个网络或者问题系统中的 对象及它们之间关系的信息。事件知识模型从事件库中提取信息,将系统中 的各种可能的事件以及它们之间的因果关系表示出来,这些因果关系可以用 树、图、因果规则、有限状态机结构描述出来,或者用由功能节点构成的互 连网络来描述。相关性分析器使用只是模型来分析系统监视器收集的信息, 从而可以找到问题的位置和本质。 2 3 2 基于编码相关性分析 基于编码相关性分析是基于因果关系模型的相关性分析方法的变种,它 通过对事件知识模型的预处理,减少了实时告警相关性分析的复杂性。根据 可观察到的告警,问题( 故障) 被编码,称为编码手册。这些编码手册被保 存的尽可能小,并不丢失与其它问题区分的能力,这是一个很重要的特性, 因为它可以减少必须要进行的监视。可观测的告警被转换为一个矢量代码, 这样就可以加快通过参考编码手册找出根源的速度。 通过测量问题代码之间的汉明距离,可以测量问题之间的差距,这将在 一定程度上提高对告警信息丢失和被破坏的容忍程度,这也是相关分析固有 的能力。基于这种方法的系统已经出现,相对于其它传统的方法,这种方法 更快速。如果不能得到确定性模型,这种方法还允许引入概率统计模型。 2 3 3 基于模型推理的相关性分析 基于模型推理的系统是个基于知识的系统,从对其结构和功能行为的 显示表示来对系统进行推理。基于模型的系统已经被工业晃主要用于工程任 务的自动化,例如:模拟、设计、监视、测试、和诊断。同样地,这种原理 可以推广应用到通信网络的实时故障管理、网络结构( 网元类型和拓扑,包 含关系限制) 和行为( 告警的动态相关性分析) 都被建模。基于模型的系统 具有解决问题的潜力,但当遇到超出它们知识范围的问题时,其性能将大大 下降。由于分析过程中的每个阶段都可以被跟踪,理解它们有利于对决定和 结论的扩展。采用模块化方式,基于模型推理的系统可以按照一个实际系统 的不同侧面来分别建模,如果需要,它们可以很好地满足可扩展、可升级的 系统。此外,一个系统模型可以不仅仅用于告警相关性分析,还可以根据不 9 哈尔滨工程大学硕士学位论文 同用户和任务来对知识采用不同的视图。 然而,基于模型的相关性分析方法对于许多系统来说是过于复杂难于实 现。如果采用更有效的问题解决算法和采用合适的系统模型,这个问题也许 可以部分解决。选择合适的抽象模型级别是很重要的,这个模型应该包括相 应的功能、因果关系、组合关系、以及设备的结构语义信息。 2 3 4 基于事侮q 推理的相关性分析 在基于事例的系统中,知识的单位是事例而不是规则。很多过去发生的 事例被存储、检索,并用来解决新的问题。由于解决新问题的经验构成新的 实例,系统将新的事例加入到数据库中,为将来使用。这样系统可以通过自 己的方法来获取知识而不必从通信专家那里获取知识。另外一个特点是基于 事例的推理可以根据出现的错误来自动改正将来的行为,而且基于事例的推 理可以通过调整过去的事例来构建新的方法,用于处理出现的新情况。 基于事例的推理是直接通过利用过去的经验和方法,来解决给定的网络。 事例是以前遇到并已经解决的特定问题。例如,如果碰到了一个新问题,基 于事例的推理首先检查已存储的事例,查找相似的事例,然后将该事例的解 决方案应用到新问题,最后将该问题添加到存储的事例集。事例库( 知识库) 维护主要是按著名的遗忘曲线理论,即长期不用的信息将会被遗忘,所以要 册1 j 除长期不用的信息。 基于事例的推理的一个重要特性是它的学习能力。当一个问题被解决后, 解决方案中可能被未来使用的部分将被存储下来,如果解决问题的方法失败 后,则会找到失败的原因并记录下来,防止未来重犯相同的错误。 一个事铡通常包含了当时的情况、解决方案、解决的结果以及有可能用 于寻找相似事例的一些属性的信息。一个基于事例推理的系统可以认为是 个包含四个过程的循环系统,它们分别是:在过去的事例中查找最符合的事 例;重用找到的事例,找到一个针对新问题的建议解决方法;通过测试来修 改建议解决方法;保存那些有可能被未来使用的经验。 基于事例推理的相关性分析方法的确定是过于拘泥于具体的应用领域, 没有通用的基于事例图例方法。尽管这个方法具有学习能力,但专家仍要在 优化推理方法方面做一些事情,而不是只依赖与预先定义的过程。基于事例 1 0 堕玺鎏三堡盔主翟圭兰鲁鲨兰 推理的相关性分析方法的事件效率也存在问题,分析处理过程将是复杂和费 时的,但当系统启动和运行后,一个快速有效的系统将会逐渐进化处理,这 个过程对网络规模和配置的改变具有一定的弹性。 2 3 5 基于规则的相关性分析 基于规则的相关性分析方法的特定知识领域包含在一组规则中,而与特 定情况相关的知识构成了事实。每个基于规则的系统都有个控制策略,决 定应用规则的次序,例如:当结束条件已经被满足,则停止计算。 基于规则的算法的最大优点是它更符合人的思维习惯,便于人们理解。 但问题在于基于规则的系统当规则数量达到一定量时,规则库的维护变得越 来越困难。而且知识的获取是基于规则系统的个很大的瓶颈,因为规则获 取主要从专家那里获得,且没有自我学习的能力。 这种方法的另外一个限制是,在这种演绎推理的过程中,没有充分利用 过去经验并缺乏记忆。因为缺乏记忆,每次遇到同样的情况,总是要从成千 上万的工作中查找,求得同样的结论。由于该方法并没有充分利用过去的经 验,基于规则的系统总是重复同样的错误,这会降低系统的精度和性能。基 于规则系统不能处理规则不适用的情况,因此经常由于系统在通信管理中处 理例外情况,影响了系统的健壮性。 2 3 6 模糊逻辑 由于通信网络结构十分复杂,几乎不可能建立这些网络的精确模型,所 以要用模糊逻辑( f u z z yl o g i c ) 方法来处理一些具体的问题。而且实际上由 于网络配置经常发生变化,网络模型越详细,则它过时的速度就越快。在故 障和告警直接的因果关系上通常是不完全的,如由于路由故障,一些告警事 件发生丢失,因此可以通过模糊逻辑描述出不精确的网络模型,用于分析不 完全的告警相关性。 由通信专家提供的知识通常是不精确的,很难直接用于网络管理。模糊 逻辑中最基本的概念是模糊集合。模糊集合中任何一个元素归属于某个集合, 不再是从t r u e 或f a l s e 中两者选择其一,而是在区间【o ,1 之间的一个值,所 以可以通过模糊逻辑来描述网络模型,采用模糊推理来确定出相关性规则。 哈尔滨工程大学硕士学位论文 2 3 7 贝叶斯网络 贝叶斯网络f 3 】,1 4 1 提出了处理不确定性问题的新方法。通过这些方法,即 使在信息不完全和不精确的情况下,也可以进行推理。通信网络中发生的告 警事件可能会发生丢失,如通信线路出现问题,所收集到的具有相关性告警 事件是不确定的,而且激发相关性告警的故障原因也是不确定的,通过贝叶 斯网络来分析通信网络中的告警相关性,可以克服告警时间的不确定性。尽 管贝叶斯网络存在上述优点,但是它是一个n p h a r d 问题,目前在实际的应 用中还很难推广。 2 3 8 神经网络 前馈神经网络在医疗诊断,多传感器目标跟踪、图像、数据压缩中已有 成功的应用,同样可以用神经网络处理告警相关性分析。前馈神经网络的多 层反馈网络特性使它成为解决这些问题的有力工具。 一个人工神经网络是由很多互相连接的元素构成的系统,这些元素之间 有简单的输入和输出关系。神经网络具有并行计算结构和快速计算能力,避 免了串行计算带来的瓶颈。神经网络适用于解决没有算法或者算法非常慢的 情况。 神经网络可以识别与以前相似的条件,而且在此条件下方法是已知的。 如果给定前馈神经网络足够多的神经元,它可以逼近任何一个函数,包括布 尔函数和分类器。这使神经网络在训练不同的告警模式时具有足够的灵活性。 它们的方法性能很好并且可以学习已知函数的最大近似值,而不需要深入了 解领域的知识。神经网络可以处理不完全和不明确的数据。在前馈神经网络 中,神经元被分成了集成,每一层的输出是下层的输入。这个模型有单独 一个输入和单独一个输出,有一个或更多的隐含层。网络中所有连接都是向 前的方向,没有反馈。前馈神经网络可以从输入和输出中学习一般化的知识, 因此它具有学习的功能。 另外有一种处理告警相关性分析的神经网络方法,利用这种方法去处理 非线性动态系统的行为。此时神经网络基于过去系统观察和系统当前状态来 预测系统的行为。 因此,利用人工神经网络进行告警相关性分析,具有良好的自学习能力, 1 2 哈尔滨工程大学硕士学位论文 而且在输入数据包含噪声时,也能较好地识别出相关性模式。 神经网络的缺点是,在将输入模式和输出模式结合起来之前,它需要透 彻的训练。由于必须要进行这种学习过程,因此在网络管理领域会带来一些 不方便的地方,例如当故障产生的所有告警不被认识或者根本不能使用的情 况下会带来不便。 2 3 9 数据挖掘 传统上对告警相关性分析主要通过人工分析出相关性规则,然后在再入 到系统中。在网络规模较小的情况下,还可以满足实际需要。当网络规模越 来越大时,仅仅通过专家获得告警相关性知识,已经无法满足网络维护的需 要。因此越来越多的研发人员专注于通过知识发现的方法来分析告警事件序 列,挖掘告警相关性规则。 数据挖掘( d a t am i n i n g ) 口】是在数据中发现新颖的模式,它是基于过去 事例的泛化的一种归纳学习。数据挖掘在通信领域的典型应用是基于历史告 警数据,发现告警相关性规则,根据发现的规则来分析和预测网络元件可能 出现的故障。数据挖掘可以用来解决许多问题,具体如下: a ) 分类( c l a s s i f i c a t i o n ) :分类是通过个分类模型,将数据库中的数据 项映射到给定类别的某一个。 b ) 聚类( c l u s t e r i n g ) :聚类是把一组个体按照相似性规程若干类比,即 “物以类聚”。 c ) 依靠模型( d e p e n d e n c ym o d e l i n g ) i 发现一些可以解释各变量之间依 靠性的模型。 d ) 时序模式的检测( s e q u e n t i ma n dt e m p o r a lp a t t e r nd e t e c t i o n ) :发现实 例之间的序列或者时间上的模式。 为了减少对网管人员和专家的依赖,相关性分析所需的知识可以通过数 据挖掘来获得,这个问题已经成为一个研究热点,文献 2 6 3 3 】针对不同的情 况,提出了各种数据挖掘的方法,提高了相关性分析的效率和准确性。 2 3 1 0 几种算法的比较 文献 2 】, 3 】, 4 1 , 2 l 】对上述算法进行了一定的比较。基于规则的方法适合 哈尔滨工程大学硕士学位论文 于配置和结构很少发生变化的网络,但很难适应于经常变化的网络。在实际 应用中,几乎无法确定所总结出的规则是否可以足够分析网络故障。规则数 量与网络规模和网络复杂性成指数级数增长,而过多的告警规则则会影响分 析故障的效率和可靠性。任何网络配置和结构的变化都会使许多告警相关性 规则发生变化,一次如何确认哪些相关性规则是无效的,则是一个非常困难 的过程。通过人工来维护大量的告警相关性规则非常困难,因此基于规则的 方法很难适应大规模的和技术复杂的通信网络模型。 基于事例的方法是一种解决问题的策略。它与专家系统的不同之处是, 它是基于过去的经验和事例来解决问题而不是通过该问题域中一般化的知 识。基于事例方法的一个很大欠缺是,它总是与某个特定应用领域紧密相关, 而不存在个通用的事例方法。它对于网络变化处理反应不敏感,处理过程 较复杂且费时,这对于要求实时性高的告警处理是一个问题。 基于编码相关性分析的方法通过对时间知识模型的预处理,降低相关性 分析的复杂性。根据可观察到的告警集合对故障进行编码,成为编码手册 ( c o d e b o o k ) 。在能区分故障的前提下,编码手册要尽可能小,这可以减少 监控对象,提高效率。在性能上和健壮性方面基于编码的方法都是一种较好 的选择,但它对网络管理对象的模型构建要求很高,所以对于复杂性很高的 网络不建议采用这种方法。 已知贝叶斯网络和证据集合,可以计算出每个节点相关概率是一个 n p - h a r d 的问题。虽然通过采用恰当的启发式算法,可以在可接受的时间内 完成几千个节点的计算,但贝叶斯网络边界概率计算效率仍是一个有待解决 的问题。 基于神经网络的方法具有良好的学习能力,而且对输入的数据具有较好 的容错性。但神经网络需要过多的训练,在电信网络中很难找到较好的训练 数据。 数据挖掘方法不需要知道网络拓扑结构关系,因此当网络拓扑结构发生 变化时,可以通过告警的历史记录进行分析,自动发现新的告警相关性规则, 减轻了网络管理员的工作强度,提高了工作效率。因此基于数据挖掘的告警 相关性分析系统可能可以解决这个问题,能很快地调整适应些变化快的通 信网络,解决通信网络中出现的新问题。 1 4 哈尔滨工程大学硕士学位论文 2 4 告警相关性分析产品的简介 目前告警相关性产品总体上还处于不成熟的阶段,在国内还没有得到广 泛应用。表2 1 列出了一些比较著名的告警相关性分析产品及其使用的关联 技术。 表2 1告警相关性分析产品及其使用的关联技术 开发者 产品 使用主要技术 惠普 e c s 基于规则关联 l b m n e t f a c t 采用路径分析技术和投票策略 g t e 实验室 i m p a c t 基于模型关联 n o k i a t a s a 数据挖掘 a t & ts c o l i t 机器学习和关联技术分析告警的历史数据 a t & t轭s s e s 基于规则关联 l u c e n t i n c h a r g e ”7 j采用面向对象网络建模语言和基于编码的方法 i l o gj r u l e s 基于规则关联 2 5 智能故障定位系统的整体框架 文献 2 7 】对基于规则、基于案例和基于模型推理的优缺点进行了详细的 分析,同时指出三种推理方法的相互组合( 混合方式) 可以弥补各自的不足。 目前研究和应用的一个重要热点就是把不同的推理模型组合在一起。在混合 结构中,两种和更多种模式被集成到一起,以得到一种协作的效果:用一种 策略的优点来弥补其它策略的不足。通过组合,我们可以弥补前面讨论所提 到的各种不足。不过建立这样的系统并不是一件简单的事,需要解决很多问 题,比如决定在给定的情况下使用那种推理方法;决定何时改变推理方法: 解决推理方法间的差异;以及设计允许知识共享的表示等问题。 在本论文中,我们采用一种混合的方式来完成故障的定位。具体地说, 我们采用数据挖掘的方法来发现规则,利用规则引擎来依据事先输入的规则 执行逻辑推理,数据挖掘可以解决规则引擎自我学习能力差的问题,规则引 擎可以弥补数据挖掘在知识表示方面和逻辑推理方面的不足。第三章和第四 章分别阐述了规则引擎和挖掘规则的实现算法,这是本系统的理论基础,第 五章给出了系统的具体实现。 哈尔滨工程大学硕士学位论文 2 6 小结 随着通信网络的迅速的发展,对网络的维护变得越来越困难,对告警处 理愈显重要。本章介绍了告警相关性分析的概念,简要介绍了告警相关性分 析的几种方法和产品,这些知识对我们进行智能故障定位系统的开发具有极 其重要的指导意义,并在此基础上引出了我们的智能故障定位系统的整体框 架。 1 6 鉴玺鎏:;馨盔耋鎏圭兰簦鎏銮 第3 章智能故障定位系统中的专家系统 3 1 引言 网络结构和网络配置的快速变化,客观上要求网络故障管理系统不仅要 具有现场的推理能力,而且还要求网络管理系统要具有很强的学习能力,只 有同时具备了这两种能力推理能力和学习能力的故障管理系统才能 够适应运营环境的快速变化与发展。由于在特定环境下网络管理人员建立的 知识库一般都不是详尽的( e l a b o r a t i n g ) 和完备的,所以网络故障管理系统 需要通过自己的不断地学习来丰富自己的知识库。 在第二章中,我们对传统的故障关联技术进行了简要地介绍并且列出了 几种使用这些技术实现的产品。通过分析,我们发现单独地使用某一种关联 技术很难开发出一个高效的、具有较强生命力的故障管理系统,所以我们决 定采用混合的实现方式:通过使用多种技术( 例如,规则、用例和数据挖掘 等) 来使我们的故障管理系统不仅具有推理能力,而且具有一定的学习能力。 具体地说,我们使用规则引擎来对现场情况进行推理判断,利用数据挖掘来 学习一些有用的关联规则,此外我们把过去一些成功解决问题的事例保存起 来以备将来使用。 在本章中,我们将详细地介绍智能故障定位系统中的专家系统的理论基 础。具体地说,第一节给出有关专家系统的组成和产生式系统的一些基本概 念,同时这一节中给出了需要实现的基本目标:第二节详尽地描述了规则引 擎所使用的种非常重要的推理算法:r e t e 算法,并且阐述了此规则引擎 所使用的规则表示( 或描述) 方式,第三节简要地解释子系统的实现思想。 3 2 专家系统的组成 3 2 1 专家系统介绍 人类专家能够表现出很高的推理水平是因为他们对自己所处的专业领域 1 7 2 jj j i 三;! 兰ii 氅圭i 譬1 2 :;一一 了解的非常透彻。这个简单的道理是设计强方法或基于知识的问题求解程序 的理论基础。例如,专家系统就是这样的程序,它使用针对某一问题域的知 识为该领域提供“专家级”的服务。概括地讲,专家系统设计者首先在人类 专家的帮助下获取知识,然后再用专家系统来模仿人类专家的方法和能力。 和人类专家一样,专家系统往往是专门针对某一狭窄领域的。另外和人类一 样,专家系统也可以通过在求解问题实践中获得知识来增加技巧、捷径和启 发,从而提高它们对问题域的理论理解。 因为专家系统都有使用启发和知识密集型的特征,所以它们通常: 1 ) 支持观察推理过程,既可以给出中间步骤,也可以回答有关求解过程 的问题。 2 ) 允许很容易地向知识库中增加或从中删除技巧。 3 ) 启发式推理,利用( 经常是有缺陷的) 知识得到有用的解。 专家系统的推理过程是对观察开放的,它可以提供问题求解状态的信息, 也可以对程序的决策或选择作出解释。如果让人类专家接受计算机的推荐, 那么解释是非常重要的。因为很少有那个专家在没有理解某个建议时就轻易 接收它,更不用说计算机提出的建议了。 a i 和专家系统编程的探索性要求这些程序必须可以很容易地被原型化、 检验和修改。设计a i 编程语言和环境时的一个目标便是如何支持这种循环 的开发方法。例如在纯粹的产生式系统中,修改某个单一规则根本不会对全 局语法产生任何副作用。因此,在加入或删除规则时不需要对更上级程序进 行修改。 专家系统的另一个特征是使用启发式的问题求解方法。专家系统设汁者 们已经发现,非正式的“窍门”和“经验法则”是对正式理论的重要补充。 有时这些规则以可理解的方式扩展理论知识,而且经常成为行之有效的捷径。 专家系统可以用来求解很多领域的问题,比如医疗、数学、工程、化学、 地质学、计算机科学、商业、法律、国防和教育等领域的问题。这些程序所 针对的问题非常广泛,下面列出了一些常见的问题: 解释从大量原始数据总结出高层的结论: 预测推测出给定情况下可能发生的结果; 诊断根据可观察的症状决定复杂环境中的故障原因: 1 r 堕玺鎏三堡盔兰堡圭兰垡鲨銮

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论