已阅读5页,还剩53页未读, 继续免费阅读
(计算机软件与理论专业论文)基于事件关联的网络故障管理研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着计算机网络的规模越来越大,在网络运行过程中产生了大量 的事件,有效的网络管理的重要性已经日益突出。从某种角度来说, 故障管理的主要任务就是监视、分析和处理网络事件。网络管理人员 必须能够从观察到的众多事件中找出产生这些事件的问题。事件管理 操作目前仍主要通过人工来完成。人工处理不能满足网络在速度、复 杂性和规模等方面日益增长的需求,网络管理人员的人工处理速度跟 不上网络事件的生成速度。 本文立足于网络故障管理的核心技术即事件关联技术的研究,通 过分析目前事件关联技术的研究现状,在日志分析和代码本优化的基 础上,提出了一个基于事件关联技术的网络故障管理模型,该模型的 关键技术是预处理技术和代码本与数据挖掘结合的关联引擎。本文研 究了下面几个方面的内容:首先是因果图化简算法,针对因果图中的 症状环和其他冗余信息,分别利用拓扑排序算法和图的广度优先遍历 算法提出了相应的化简算法,提高了处理的自动化程度;其次根据日 志文件的特点,利用计数字典和过滤提出了一种改进的日志行模式生 成算法,给出了关键的步骤、算法流程和简单的分析,提高了处理的 速度;然后阐述了代码本优化技术,使用动态权值和计数矩阵提高模 型的自适应性,利用数据挖掘发现频繁故障集和故障模式,进一步提 高处理速度和预测功能,使用海明码解码器处理噪声环境下的故障匹 配,利用代码本技术上的时序关系降低噪声和解决变长编码的问题; 最后阐述了事件关联技术在网络故障管理中的应用,提出了一个基于 事件关联技术故障管理模型,描述的各个功能模块的作用以及系统的 部署方式。 关键词事件关联,代码本,网络故障,行模式 a bs t r a c t w i t ht h es c a l e g r o w i n gc o m p u t e rn e t w o r k s ,l a r g en u m b e r so fe v e n t s a r ep r o d u c e da n de f f e c t i v em a n a g e m e n to ft h ei m p o r t a n c eo ft h en e t w o r k h a sb e c o m ei n c r e a s i n g l yp r o m i n e n t i ns o m ew a y s ,n e t w o r km a n a g e m e n t i st h em a i nt a s ko fm o n i t o r i n g ,a n a l y z i n ga n dp r o c e s s i n gn e t w o r ke v e n t s n e t w o r km a n a g e r sm u s tb ea b l et oo b s e r v ef r o mt h em a n ye v e n t st o i d e n t i f yt h ep r o b l e m so ft h e s ee v e n t s e v e n tm a n a g e m e n to p e r a t i o ni ss t i l l m a i n l yt h r o u g ha r t i f i c i a lt oc o m p l e t e m a n u a lp r o c e s s i n gi nt h en e t w o r k c a nn o tm e e tt h es p e e d ,c o m p l e x i t ya n ds i z eo ft h ea r e a sg r o w i n gd e m a n d , n e t w o r km a n a g e m e n ts t a f ff a i l e dt ok e e pp a c ew i t ht h es p e e do ft h e n e t w o r ke v e n t sg e n e r a t e d i nt h i sp a p e r , i tb a s e so nt h en e t w o r kf a u l tm a n a g e m e n t st h ec o r e t e c h n o l o g yt h a ti se v e n tc o r r e l a t i o nt e c h n o l o g yr e s e a r c h ,t h r o u g ha n a l y s i s o fc u r r e n te v e n t sr e l a t e dt e c h n o l o g y , o nt h eb a s eo ft h el o ga n a l y s i sa n d o p t i m i z a t i o no ft h ec o d ep r o p o s i n gae v e n tc o r r e l a t i o nb a s e dn e t w o r k f a u l tm a n a g e m e n tm o d e l t h em o d e l sk e yt e c h n o l o g yi sp r e p r o c e s s i n g t e c h n o l o g ya n dt h ee n g i n eb a s e do nd a t am i n i n ga n dc o d e b o o k t h i s p a p e rs t u d i e st h ef o l l o w i n ga s p e c t s :f i r s t l y , f o rc a u s a lm a p o fs y m p t o m s c y c l ea n do t h e rs y m p t o m so fr e d u n d a n ti n f o r m a t i o n ,t h e r e d u c t i o n a l g o r i t h mo f t h ec a u s a lm a pu t i l i z e st o p o l o g ys o r t i n ga l g o r i t h ma n dt h e b r e a d t h f i r s tt r a v e r s a la l g o r i t h mt or e d u c et h ec a u s a lm a p ,w h i c hi sa b l e t oh a n d l et h ed e g r e eo fa u t o m a t i o n ;s e c o n d l yi na c c o r d a n c ew i t ht h e c h a r a c t e r i s t i c so ft h el o gf i l e ,i tu s e sd i c t i o n a r yw i t hc o u n t i n ga n df i l t e r i n g a n dp r e s e n t sa ni m p r o v e da l g o r i t h mo ft h el o gl i n ep a t t e r n ,i n c l u d i n gk e y s t e p s ,t h ea l g o r i t h mp r o c e s s e sa n ds i m p l ea n a l y s i s ,i m p r o v i n gt h es p e e d o fp r o c e s s i n g ;t h e no nt h ec o d eo p t i m i z a t i o nt e c h n o l o g y , i tu s e sd y n a m i c w e i g h ta n dc o u n t i n gm a t r i xt oi m p r o v et h em o d e l sa d a p t a b i l i t y , f i n d i n g t h a tf r e q u e n ts e ta n dm o d eu s i n g ,f u r t h e r l yi m p r o v i n gt h ep r o c e s s i n g s p e e da n df o r e c a s t i n gf u n c t i o n s ;t h eu s e o fh a m m i n gc o d ed e c o d e r sd e a l w i t hn o i s ef a u l tu n d e rt h em a t c h ,t h et e c h n i c a lu s eo ft h ec o d et or e d u c e n o i s ea n dt i m i n gr e l a t i o n st or e s o l v et h ei s s u eo fv a r i a b l el e n g t he n c o d i n g ; f i n a l l yi t s t a t e st h ee v e n tc o r r e l a t i o nt e c h n o l o g yi nt h en e t w o r kf a u l t m a n a g e m e n to fa p p l i c a t i o n s ,a n dp r o p o s e s f le v e n tc o r r e l a t i o nb a s e df a u l t h m a n a g e m e n tm o d e l ,d e s c r i b i n gi nt h er o l eo ft h ev a r i o u sf u n c t i o n a l m o d u l e sa n ds y s t e m sd e p l o y m e n t k e yw o r d se v e n tc o r r e l a t i o n ,c o d e b o o k ,f a u l tm a n a g e m e n t ,l i n e p a u e m i i i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作妥签名:杏鹕 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 名鹤喻旦年上月兰日 硕士学位论文 绪论 l 。1 研究背景 第一章绪论 随着计算机技术及i n t e r n e t 的发展,计算机网络已经成为社会生产、生活必 不可少的一部分,对社会经济快速发展也起着巨大的作用。因此,网络短时间的 失效也会造成无法估计的巨大损失。现在的网络趋向分布式,拥有多种通信模式、 多种网络管理子系统和多厂家的产品,此外还具有开放性和可扩展性。为了保证 网络的高性能、高可靠性、高可用性和高服务质量,网络故障管理已经成为一个 迫切需要解决的问题。网络故障管理可以快速准确地检测、定位和排除故障,减 少因网络故障造成的损失,保证网络的可用性和可靠性,并且能够在一定程度上 预防故障的发生。 对网络服务需求的急剧扩张,计算机网络在规模、复杂性、应用等方面得到 快速的发展。网络通常由几百个、甚至几千个由不同厂商制造、运行于各种各样 传输媒介中的网元设备交互连接而成。当网络出现问题或发生故障时,可能产生 大量的事件,这些事件通常被用作诊断网络故障的依据,但是一个中等规模的管 理中心在运营期间,每天会收到几万个事件,采用人工处理的方法是行不通的。 除了网络设备产生的大量事件之外,主机、应用系统等会产生大量的事件日志, 这为故障诊断提供了大量有用信息。由于这些事件之间存在因果关系、时序关系 等,因此采用数据关联分析技术来解决故障管理是有必要的。 。 这种关联性分析技术在过滤冗余事件的同时,能够增强其内部所蕴含的语义 信息。而且它还能帮助网络管理员通过分析事件来找出产生的潜在原因及条件, 并指出相关故障的位置,使得代价高昂的网络失效时间得以显著减少。这种数据 关联性分析技术就是“事件关联。 事件关联技术是网络故障管理中一项非常重要的关键技术,也一直是智能化 故障管理领域研究的重点和热点,目前它正快速成为管理大量事件和报警信息的 一种主要手段,因为它能及时识别网络中出现的问题,从而可以采取措施将网络 恢复正常,避免了网络失效带来的重大损失。 1 2 研究的目的与意义 目前对于事件关联技术的研究采用了各种各样的技术,但是不同的技术各有 优缺点,单一的技术只能够在某一方面或某些方面相对于其他技术具有优势,因 此需要根据不同的环境进行选择。 事件关联技术与网络环境有着密切的关系,包括网络拓扑、网络中运行的应 用系统等。因此,一个实用的事件关联系统需要网络运行过程中各种情况的知识, 硕士学位论文绪论 也就是说在构造事件关联系统的过程中现有的各种技术大部分需要专家知识,这 就使事件关联系统的构造有些困难。 因此,研究实用的、易于实现的、尽可能不需要或者较少需要专家知识的事 件关联技术显得非常重要。 1 3 国内外研究现状 目前国内外在事件关联技术领域开展了广泛而深入的研究,采用了各种方法 与技术,包括基于p e t r i 网m 1 【5 2 l 、基于贝叶斯网络【4 6 1 、基于s t a t ( s t a t et r a n s i t i o n a n a l y s i st e c h n i q u e ) 技术1 4 5 1 、基于语义嵌套规则1 5 等,下面介绍几种常用方法: 1 基于规则的关联 在这种方法中,某一领域内的知识由一组规则构成。每一个规则由两个表达 式组成,这两个表达式是形式规则的谓词演算公式。每个规则的左边包含一个先 决条件,判断的具体内容来自数据库,当条件满足的时候,规则的右边会执行相 应的动作。 每一个基于规则的系统( 或产生式系统) 都具有一个控制策略,它能决定规 则的使用次序。当数据库中的内容满足结束条件的时候,关联计算能够中止运行。 在基于规则的系统中,有两种操作模式。第一种是前向模式,第二种操作模 式为后向模式。同一规则既可以用于前向模式的推理,也可以用于后向模式的推 理。 基于规则的专家系统简单,模块化并且易于维护,这是由其独具特色的三层 结构所决定的l l 】 推理引擎。 知识库。 工作存储区。 它们的局限在于知识获取比较困难,而且在推论过程中不能利用过去的经 验。 2 贝叶斯网络 贝叶斯网络1 4 8 1 是处理不确定性的一种有用的方法1 2 】。即使在已有信息不全面、 不精确的情况下,也能进行推理。贝叶斯网络是一个有向无环图,由多个“节点 组成,节点间的连接称之为“边。每个节点表示一个随机变量,该变量是一个 条件概率,边则表达了节点上随机变量之间的因果关系。 计算每个节点上的条件概率是一个n p 难题。,。 3 基于案例的推理 继基于规则的方法之后,一些学者提出了以其技术特点来命名的基于案例的 2 硕士学位论文 绪论 推理( c a s e b a s e dr e a s o n i n g - c b r ) 。在c b r 模型1 4 】1 5 】中,基本的知识单元是一个 案例,而不是规则。案例记录了与过去发生的一系列事件有关的各个方面,可以 被存储和提取,并能在解决新问题时使用。解决新问题所获得的经验构成了新的 案例,并被添加到数据库中以备将来使用。因此,系统的知识可以来自于自身, 省去了访问专家带来的麻烦。c b r 系统根据过去的错误,能够修正其未来的行 为。除此之外,c b r 系统还可以通过修改过去的案例来适应新的情况,从而有 可能成功解决未曾遇到的一些问题。 c b r 面临的问题主要是如何表达案例,如何检索案例,如何快速、准确地提 取案例以及如何修改、测试案例等。 4 代码本方法 代码本方法 6 1 1 17 】的核心是称为。关联矩阵 的数据库。矩阵的每一行对应着 一个“症状( 事件) ,每一列对应着出现的“问题( 故障) 。“症状”可以用矢量s 表示,而“问题可以用矢量p 表示。“关联矩阵是“症状与“问题之间 的一种编码。 代码本选择使编码的维数得以降低,从而人们的注意力可以集中在感兴 趣的“症状 上,避开了无关“症状 对关联结果的干扰,有利于提高准确性。 另一方面,由于减少了编码矢量的维数,计算量也大大减少。 基于代码本的事件关联方法效率很高,如果按照每秒能处理的事件数目来计 算,比其他文献中记录的事件关联算法处理速度要高2 到4 个数量级。该方法的 优点在于:简单、适应范围广、速度快,能够处理较高比率的症状丢失及虚假症 状,但是该方法自适应性不够好,代码本的设计和修改需要人工参与,智能化程 度不高,本文的主要工作之一就是对代码本方法进行优化。 5 依赖图 依赖图是一种比较好的事件关联模型1 1 2 】,其产生背景在于观察到网络运行 过程中各种服务、设备、网元等各个层次内以及各个层次之间错综复杂的相互依 赖关系。 依赖图的每个节点表达了一个网元,也称之为被管对象( m o ) 。依赖图上的 有向线段表示了这些m o 之间功能上的依赖关系,“被管对象a 依赖于被管对象 b ”是指b 中的故障可以导致a 中的故障,和面向对象的模型相比,依赖图模型 显得很精简,因为m o 之间除了依赖关系以外,没有其他的关系。 它的优点是,图上的操作比较可靠健壮,网元之间的依赖管理比较清晰,依 赖图可以被分布式的管理。依赖图的算法建立在这样一个全局假定上,即两个相 互独立的故障不可能同时发生。缺点就是,如果在同一时间内发生了多个故障, 那么本算法仅仅关联其中的一个。 3 硕士学位论文 绪论 6 基于数据挖掘与知识发现的事件关联 这是一种利用数据挖掘与知识发现技术进行事件关联的方法【8 】【9 j 。这种方法 通常包括预处理、数据挖掘、后处理、知识库四个模块。 预处理模块的主要任务是为数据挖掘模块准备数据。数据挖掘模块在领域专 家的帮助下,利用现有的数据挖掘算法,从日志数据中发现知识。关联引擎的输 入来自两个方面:一个是真实网络中实时产生的事件,另一个是存储在知识库中 的知识。关联引擎在输出端得出被定位的故障。 这种方法的最大好处是利用了数据挖掘与知识发现领域大量的优秀算法与 方法,能够自动找出隐藏在事件日志中的规律性【b 】。这些规律性往往刻画了一 些故障情形,即故障引起大量事件周期性发生。当得到这些知识以后,就可以实 现知识引导下的实时事件关联。 1 4 研究内容 事件关联技术是网络故障管理中的一项重要技术,本文主要研究了下面几个 方面: 1 关联系统预处理技术研究 针对因果图中的症状环和其他冗余信息分别利用拓扑排序算法和图的广度 优先遍历算法提出相应的处理算法,并且对算法进行了分析。 传统的数据挖掘算法一般都是针对特定环境开发,不适合处理日志文件,本 文针对事件日志的特点,利用计数字典和过滤功能提出了一个改进的日志行模式 生成算法,计数字典和过滤功能的使用减少了日志文件的扫描次数提高了处理速 度。 2 代码本与数据挖掘的结合 代码本方法的特点是速度快、计算复杂度低,这是选择代码本方法进行改进 的原因。但是传统的代码本技术有许多缺点,针对这些缺点我们提出了改进的具 体方法,利用动态权值提高模型的自适应性。利用数据挖掘技术可以发现网络的 故障频繁模式和频繁集,针对于具体的网络会有特定的频繁模式和频繁集,因为 对于某个具体的网络环境它的故障的发生总有某些规律,所以挖掘出这些规律比 较有价值,而且可以利用这些规律预测网络的运行情况。 3 原型系统的设计 事件关联系统的实现较复杂,它需要利用大量的专家知识,设计一个具有易 于实现、易于维护、容易扩展等特点的系统具有重要的价值,因此本文提出了一 个基于事件关联的网络故障管理系统,并给出各个功能模块的说明。 4 硕士学位论文 绪论 1 5 本文的组织结构 本文的组织结构如下: 第一章介绍本文的研究背景。分析了目前常用的几种事件关联方法,指出 本文的研究目的和意义,并在此基础上给出了研究内容。 第二章网络故障与事件关联。首先分别介绍了故障管理和事件关联的基本 概念,然后分析了事件关联的体系结构方面的问题,说明了故障管理与事件关联 的关系,最后指出事件关联在故障管理中的应用。 第三章关联系统预处理技术研究,首先介绍了因果图的化简,分别利用拓 扑排序算法和图的广度优先遍历算法提出了针对症状环和其他冗余信息的化简 算法;然后通过分析事件日志本身的特点,使用计数字典和过滤功能提出了一种 改进的行模式生成算法,给出了算法的主要流程和关键步骤的流程图并对算法进 行了分析。 j 第四章基于代码本和数据挖掘的关联技术研究,首先阐明选择代码本的原 因,然后分析现有方法的优缺点,提出了动态权值技术增加代码本的自适用性, 使用数据挖掘技术挖掘频繁故障集和故障模式提高代码本的处理速度和预测功 能,噪声环境下的故障匹配使用海明码解码器解决噪声的问题,时序关系处理则 主要解决噪声和变长编码的问题。 第五章设计了一个基于事件关联技术的网络故障管理系统。 第六章总结全文并展望今后的工作。 5 硕士学位论文网络故障与事件关联 第二章网络故障与事件关联 随着网络复杂性的增加,事件关联技术正迅速成为网络故障管理的迫切需 要。因此,开展事件关联方法的研究是十分有意义的。 事件关联作为一种智能化的关联分析方法,从实际网络故障管理的需求出 发,使各种智能技术获得成功的运用,推动了智能技术的发展。目前,国外发达 国家对事件关联技术开展了深入的研究,取得了丰硕的成果,并已有大量相关产 品。 2 1 故障管理概述 2 i 1 网络故障及其分类 所谓网络故障,是指由于网元( n e t w o r ke l e m e n t , 简称n e ) 设备、链路或部分 功能工作不正常,导致了网络处于不正常状态,如系统行为超过允许范围、系统 功能低于规定的水平等。网络故障的分类i0 6 】可以从以下几个方面来进行: l 、硬故障与软故障 ” 硬故障是指由于意外原因使网络设备失效或通信链路中断等突发性故障。 “软故障”是指那些由于网络性能逐步恶化而产生的故障( 如网络拥塞、资源耗 尽、交换效率下降等) ,故障n e 及周边n e 都有可能产生大量事件。通过对事件 进行关联性分析,就可以在一定程度上进行早期预测,避免网络失效。 2 、间歇性故障与永久性故障 软故障通常可以分为两类,一类是间歇性故障,指n e 设备的某些性能指标 经常性地在短时间内超过给定的阈值。另一类是永久性故障,是指网络系统性能 参数永久性超过阈值的故障。例如n e 设备性能恶化到无法正常工作。这种故障 往往需要外界的干预( 例如通过重新启动) 来恢复正常。 3 、内在故障与环境故障 内在故障是n e 设备本身发生的故障,如网络负载不均衡、路由表配置不当 等等;环境故障则是指由于周边环境出现的网络故障或链路故障、外部环境给网 络传输介质带来的噪声、网络管理员的误操作等原因,导致了本地网元功能上的 不正常。 2 1 2 网络故障的性质 网络故障具有如下的性质: l 、传播性 所谓故障的传播性,就是指一个n e 故障会影响其他n e 的通信,从而导致 6 硕士学位论文 网络故障与事件关联 其他网元上程度不同的性能劣化并引发大量事件。 故障传播与网络拓扑密切相关。距离发生故障的n e 越近,周围其他n e 受 到的影响越大;距离越远,受到的影响越小。当底层的n e 发生故障时,往往会 向高层传播。 2 、时间性 受故障传播的影响,故障的产生往往前后相继,一个故障往往会引发其他的 故障。反应在这些故障的症状上,即为事件之间的时态关系( t e m p o r a l r e l a t i o n s h i p ) 。大量事件在发生时间上也是前后相继,呈现出一定的规律性。 3 、相关性 网络系统是由若干相互连接的子系统组成的整体。网络中任何一个n e 故障, 都有可能给其他n e 造成不同程度的故障,这些故障彼此相关,具有一定的因果 关系。 4 、模糊性 为了诊断网络中的故障,通常要搜集并分析大量事件,根据这些事件进行推 理。在有些情况下,由于诊断推理方法以及症状信息的不足,无法得出精确的结 论,而只能得出一个故障假设n e 集合,在这个集合中,所有的n e 或链路都有 可能发生故障,因而就存在一定的模糊性。尽管如此,需要进一步定位故障的范 围缩小了。 5 、随机性 故障的发生往往呈现出一定的随机性。这与n e 、链路的独立失效概率、网 元间的依赖关系、网络拓扑以及特定的网络运行环境有关。 6 、不确定性 不确定性的出现是由于故障检测手段的局限性以及事件信息量的不足,当系 统出现故障以后,虽然不能准确定位故障并找出原因,但是网络管理员却清楚地 意识到故障的确存在。 2 1 3 故障管理 ,故障管理的主要功能是对被管设备和路径节点进行监控及时发现网络中的 故障,对故障进行定位、诊断并提供排除故障的方案。 故障管理直接关系到网络的可用性和可靠性,有效的故障管理可以把网络失 效造成的直接损失和间接损失降到最低。随着网络不断承载越来越多的功能,对 网络可靠性提出了更高的要求。故障管理不仅要发现故障、对故障进行诊断、修 复,同时还需要预防故障的发生。 7 硕士学位论文 网络故障与事件关联 2 2 事件关联技术 2 2 1 定义 事件是网管应用程序或某个应用系统在特定环境下遇到网络状态发生改变 时发出的消息,表达了网络状态的某种变化。在基于s n m p 的集中式网络管理 环境中【2 1 ,网络管理中心产生的事件来自两个方面,一个是当网络管理中心轮询 到被管设备的m i b 变量超出阈值时产生事件;另一个是当n e 设备发生故障时 主动向网络管理中心发出的t r a p 报文。 想办法尽快分析出当前的故障。 网络管理员接收到这些事件之后,必须 报警是对一个或多个事件进行的可视化、文字性的描述,它是网络症状的具 体表现1 j 1 。 需要注意的是,报警内部并不总是包含对故障位置及原因的明确描述。这是 因为一个事件通常反应了网络状态变化的细节,它往往是网络故障所对应的某一 个症状,而报警则是该症状的文字性描述。 关联是指两个或多个实体间的一种相互关系,表明为什么这些实体可以被组 合在一起,或被看做一个整体。关联过程有两个好处:首先,实体的数量得以减 少;其次,被关联的整个信息的语义内容得以增加。 事件关联是对多个事件的一种解释,一方面通过去除冗余减少了事件数量, 另一方面增强了事件内所含的语义信息。事件关联可以看成是一种数据简约及由 事件推理与识别故障的技术【4 】。目前,在研究事件关联技术的大量参考文献中, 有的称为“事件关联,有的称为“告警关联”,两者在实质上是一致的,在下面 的内容中统称为“事件关联”。在具体实现上,事件关联是指计算机按照特定算 法执行的系列操作。同时应该注意,该技术在协助诊断故障的同时,会带来一定 的计算开销。 在网络故障管理领域,事件关联常常用于实时网络故障诊断。当网络管理工 作站上显示出蜂拥而至的大量报警时,通常认为他们是由某些潜在的故障引起 的。通过分析这些事件与故障的关联性,就可以识别出潜在的故障。同时应注意, 没有产生事件的n e 不见得就是正常的。相反,产生大量事件的网元也未见得就 一定发生故障。例如,在路由器遇到突然断电的情况,尽管不会产生任何事件, 我们绝不能说该n e 一定是正常的。如果由于相邻路由器失效而导致对本地路由 器大量数据的访问无法进行,就会产生大量事件报告这一情况,如果得出结论“本 地路由器有故障则必然是错误的。可见,为了找出产生大量事件的真正原因, 事件关联所面临的任务无疑是非常艰巨、复杂的。 理想情况下,一个含有事件关联功能的网络故障管理系统在不需要专家经验 硕士学位论文网络故障与事件关联 的情况下,应该能够诊断出当前问题的原因,并自动发出故障根源告警。在实际 网络管理的环境中,有一个基本的观点就是,整个网管任务绝不是仅凭网络管理 员一个人就能够处理的,他需要网络运营商和用户的共同参与才能使网络运行在 一个较高服务层次上;类似地,事件关联技术的使用同样需要网络管理员与用户 的共同参与,在网络管理软件的事件关联模块中需要一个供网络管理人员参与、 定制的接口,通过该接口将用户处理故障的结果反馈到事件关联系统,实现网管 中心与用户协同进行的故障管理。 2 2 2 事件关联的类型 事件关联操作有很多类型,较为重要的有以下几种吐 ( 1 ) 压缩( c o m p r e s s i o n ) 在已知的时间窗口内,当检测到有大量重复事件发生时,我们可以简单地用 一个事件加上该事件出现的次数来代替。 ( 2 ) 选择性抑锘j ( s e l e c t i v es u p p r e s s i o n ) 是指针对特定事件,根据一定的原则,暂时性地禁止某个事件的出现。该原 则是由事件关联系统动态决定的,它与整个网络管理过程密切相关。抑制原则通 常与其他事件有关,例如事件之间的动态关系、事件发生的优先级。 ( 3 ) 过滤( f i l t e r i n g ) 根据预先指定的一系列参数值来抑制符合条件的事件。从严格意义上讲,过 滤只考虑那些与被过滤事件相关的一系列参数。从更广泛的意义上讲,过滤还可 能考虑任何其他的原则。这种情况下的过滤称为“智能化过滤,过滤的概念因 此得以拓展,它有可能包含其它类型的关联操作,如压缩和抑制。 ( 4 ) 计数( c o u n t i n g ) 每当给定类型事件的发生次数超过预先设定的阈值时,便产生一个新的事 件。 ( 5 ) 缩放( s c a l i n g ) 在特定的网络运行环境下,首先生成一个事件的副本,然后升高副本中某些 属性值( 如将优先级升高) ,最后抑制原事件。该操作依据的上下文环境包括: 与其同时发生的其他事件、事件之间的时态关系、在给定时间窗口内的事件发生 次数、网络管理员设定的优先级关系。 ( 6 ) 泛化( g e n e r a l i z a t i o n ) 依据关联操作的上下文环境,将一个事件替换为更高层次上的一个事件。例 如,某电缆中断引发了大量事件,首先找出那些具有相同路由信息的所有同时期 发生的事件,然后对所有事件进行泛化,把它们的内容全部替换为“某一个连接 9 硕士学位论文网络故障与事件关联 中断,接着压缩泛化后的事件,最后得到一个事件,表明某一个连接中断,即 连接电缆出现问题。 该操作建立在归纳推理的基础上,这种推理的由来可以上溯到公元前四世纪 a r i s t o t l e 的研究著作。针对复杂性日益增加的事件关联问题,归纳推理通过向关 联结果中引入一定程度的不确定性,来帮助我们拓宽已有知识范围。 泛化操作主要分为两类,一类是通过减少条件约束而实现泛化:另一类是基 于实例的泛化,通过组合已有多个事件的多个条件,人为生成一个新事件。 ( 7 ) 特殊化( s p e c i a l i z a t i o n ) 特殊化是一种与泛化相反的操作,它用一个位于较低管理层上的一个更加具 体的事件替换已有事件。该操作建立在演绎推理的基础上,不会在已有事件的基 础上增加任何新的信息,但是该操作清晰地说明了一个给定管理层中的事件必然 在更低一层的管理层中有更具体的表现。 ( 8 ) 时态关系( t e m p o r a lr e l a t i o n s h i p ) 事件之间的时态关系是指事件发生与结束的时间及其前后次序【8 】。假设有两 个事件e 1 和e 2 ,它们的发生时刻分别为t 1 和t 2 ,结束时刻分别为t l 和t 2 ,则 两个事件之间的关系如下: 1 ) e 2 在e l 发生后发生,相隔时间为h ,“e 2a f t e r ( h ) e l = t 2 _ t l + h ” 2 ) e 2 在e l 结束后发生,相隔时间为h ,“e 2f o l l o w ( h ) e l 。t 2 t l + h 3 ) e 2 在e l 结束前发生,相隔时间为h ,“e 2b e f o r e ( h ) e l = t l t 2 + h ” 4 ) e 2 在e l 持续时间内发生, “e 2d u r i n ge l = t 2 t la n dt l t 2 ” 5 ) e 2 的开始时刻与e 1 相同,“e ls t a r t s e 2 = t l = t 2 6 1e 2 的结束时刻与e 1 相同,“e 2f i n i s h e se l = t l - - t 2 ” ne 2 与e 1 的起止时刻相同,“e 2 c o n c i d e sw i t he l zt l = t 2a n dt l - - t 2 ” 8 、) e 2 与e 1 相互交叠,“e 2o v e r l a p e se l ;t 2 t l t 2 t l ( 9 ) 聚类( c l u s t e r i n g ) 当接收到的大量事件中检测到复杂的关联模式时,就用一个新的事件来代替 这些已有事件。 2 2 3 事件关联体系结构 在描述事件关联系统的过程中,需要详细考虑以下几个方面: ( 1 ) 事件关联的目标 ( 2 ) 网络拓扑结构 ( 3 ) 整个网络体系结构 除了说明事件关联有哪些功能外,对关联目标的描述也是相当重要的,也就 1 0 硕士学位论文网络故障与事件关联 是减少提供给网络管理员的信息量。取而代之的是更加详细、能够说明问题的信 息,如故障诊断与定位信息,或在趋势分析的基础上预测未来的网络行为。 在对事件关联的目标进行详细说明之后,运行关联系统的网络的拓扑结构也 需要阐明,即被关联设备在网络拓扑中的位置,它们之间存在什么样的关联关系, 关联的类型有哪些。对于每_ 种类型的关联,正在实现的有哪些关联方法,已有 哪些成熟可用的关联方法,以及关联操作发生在哪一个拓扑层次上等等。 在网络体系结构中,由于被关联的对象可能位于不同的网络层次上,因此相 应的关联操作可能分为若干等级。这就要求在各个层次( 从独立的网元到整个网 络) 上分别配置关联操作。网络拓扑底层发生的关联操作简单、频繁、快速,由 于一个关联器通常仅负责一个局部区域,关联后发送给网络管理员的事件数量明 显减少,极大地减少了冗余事件占据的网络带宽。另一方面,由于没有考虑整个 网络范围的事件关联上下文环境,所以这种类型的事件关联仅能反应局部的网络 小环境,从而无法适应更广的范围,这种现象被形象地称为“近视 。 当事件关联操作发生在更高的层次上,所有相关信息被作为输入送往关联 器,事件关联操作就会有非常宽阔的“视野 ,克服了“近视”的缺陷,能够在 把握全局的情况下得出正确的关联结果。 ,上述两种关联器分别称为“局部关联器”与“全局关联器 。“金字塔”式的 事件关联方案1 9 1 能够很好地发挥两者的优势,弥补各自的不足。各个局部关联器 的结果可以作为更高一级关联器的输入,这种层次化的关联方法兼有上述两种层 次上事件关联操作的优点。从未来发展趋势来看,特别是在网络的规模较大和分 布式异构网络情况下这种方法应该比较有前途。 2 3 故障管理与事件关联 事件关联算法的设计与实现不能脱离具体的应用环境。由于事件关联是整个 故障诊断过程中的重要一环,因此在故障管理中需要考虑下列问题: l 、事件的接收与存储 2 、故障发生时系统的配置 3 、发生故障的网元对周围其他n e 产生的影响 4 、对故障假设的测试 5 、来自于外部数据库、用户的先验知识。这些知识的获取非常困难,阻碍 了事件关联系统的商业化应用 在设计事件关联算法时,需要考虑下面几个问题【1 0 1 : 隐含的依赖关系:为开展事件关联研究,往往用简化的模型来仿真网络,由 于简化的原因,往往会漏掉一些网元或某些网络部件,当这些网元或部件出现故 硕+ 学位论文 网络故障与事件关联 障的时候,可以归结到周围相关的网元上,认为它周围的某个n e 发生了故障。 复杂的依赖关系:是指在整个网络系统中,各个n e 及各个子系统之间具有 复杂的依赖关系,当某个子系统出现问题时,就认为所有依赖于该子系统的所有 n e 及下一级子系统也出现了问题。显然,这是依赖图模型事件关联算法的关键。 噪声:包括无意义事件,冗余事件,虚假事件,偶然事件,周期性频繁出现 的事件以及重复发生的事件。 不完整数据:这符合实际网络中遇到的情况。例如,当发生连接中断而且也 没有其他路由的情况下,虽然连接另一端的n e 上的确产生了事件,却无法传送 到网络管理员那里,也就是说,网络管理员无法接收到因为该连接中断而产生的 全部事件。 2 4 故障管理模型与关键技术 2 4 1 故障管理模型 “ 随着计算机和通信技术的飞速发展,网络管理变得越来越重要。目前主要有 两大网络管理体系:i e t f ( i n t e m e te n g i n e e r i n gt a s kf o r c e ) 基于t c p i p 的简单网 络管理协议( s n m p ) 和i s o 基于o s i 七层模型的公共管理信息协议( c o m m o n m a n a g e m e n ti n f o r m a t i o np r o t o c o l ,c m i p ) 。网络管理就是通过规划、配置、监视、 分析和控制计算机网络来保证网络服务。网络管理的目的就是保证网络的连续正 常运行,能够提供有效的服务。根据i s o 的定义,网络管理主要包括故障管理、 配置管理、计费管理、性能管理和安全管理五个方面。 故障管理的主要功能是对被管设备和路径节点进行监控及时发现网络中的 故障,对故障进行定位、诊断并排除故障。故障管理的模型如图2 1 所示。 在故障管理模型中,关联引擎是一个重要的组成部分。它的作用是通过通信 接1 3 收集网络中发生的事件,这些事件包含很多种类型,例如设备发出的l i n k u p 、 l i n k d o w n 消息等。在一个网络中的单个设备发生故障可能导致大量的事件,这些 事件可以看作是故障发生时的症状,关联引擎的目的就是把通过这些可以观察到 的或接收到的症状得到故障发生的根源,而不是简单地把所有这些症状都传到控 。制台。 关联引擎产生的结果会发送给告警系统,由告警系统根据系统预定义的策略 和规则显示给用户并且采取相应的措施。当网络管理人员确认故障的根源之后, 可以通过配置部件或其他工具排除故障,并把真正的故障与检测的事件或症状作 为一条规则存放在数据库中,以便可以使用数据挖掘等技术进行知识挖掘,获取 特定网络系统的故障模式。 1 2 硕士学位论文网络故障与事件关联 2 4 2 关键技术 图2 1 故障管理模型 事件关联技术是故障管理的关键技术。事件关联器采用事件关联技术对收集 到的事件或症状进行关联分析,综合利用网络拓扑知识、故障与症状之间的因果 关系,得出关联结果,并将其通知网络管理人员,最后由网络管理管理人员进行 确认,排除真正的故障,将这一次排除故障的过程保存。事件关联器的内部结构 如图2 2 。 网络上应用系统和网络设备可能产生大量事件,有些系统产生事件可以直接 传送给实时关联器进行关联分析,而有些系统产生的事件不能直接发送给实时关 联器而是发送到日志文件中,通过对日志文件的实时监控也可以处理实时关联。 这样区分的目的是考虑到各种设备和系统的特点,特别是不能实时发送事件和历 史遗留的系统。 日志文件中记录了大量的信息,日志行模式生成器就是在日志文件上进行处 理,以便发现知识,包括特定的行模式和频繁项集。本文研究了行模式生成算法。 日志行模式生成器产生的行模式模式可以表示一种事件类型,将其发送到转换器 并存储起来。当实时事件到达之后可以匹配这些模式,用于将实时事件进行编码 并生成事件向量。 因果图作为故障传播模型表达了故障与症状之间的因果关系。因果图转换器 的输入是由用户通过图形用户接口输入的因果图。因果图图形用户接口的目的是 允许用户根据已有的知识创建故障和症状之间的因果图。由于用户初始创建的因 果图可能带有大量的冗余信息,。这些冗余信息对于故障诊断没有价值,因此必须 对因果图进行化简。 不同的网络环境的因果图是不同的,因此它的创建需要大量的关于特定网络 1 3 硕士学位论文网络故障与事件关联 的知识,例如网络拓扑、不同应用系统之间的依赖关系等。特定网络中某个故障 与它导致的症状之间的对应关系也非常重要,因为因果图就是反应这种关系。对 于网络管理人员来说,由于网络的复杂性,因果图可能比较复杂,因此通过图形 化的接口表达因果关系比较直观。 行模式 编 图2 - 2 事件关联器内部结构 告警斗 当因果图创建之后,就可以使用化简算法去除冗余信息,生成二分图进而转 化为其他形式或者直接通过二分图进行关联分析。 通过分析各种不同的事件关联方法可以得出,代码本方法在健壮性、速度和 计算复杂性等具有一定的优势,但是代码本方法也有缺点,例如代码本的创建较 复杂,自适应性较差,不能处理复杂的时序关系等。针对这些缺点本文提出了优 化技术。由于每个网络都有自己的故障模式,因此在实时关联过程中产生的历史 数据就隐含了大量的关于故障模式的知识,本文引入数据挖掘理论将这些模式挖 掘出来,以便在实时事件关联的过程中可以利用,从而进一步降低计算复杂度, 提高实时处理的速度。 1 4 硕士学位论文 关联系统预处理技术研究 3 1 介绍 第三章关联系统预处理技术研究 大多数事件关联系统的一个主要部分是创建初始的关系或规则。如果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子设备装接工安全专项测试考核试卷含答案
- 雕塑翻制工岗前技能掌握考核试卷含答案
- 墨锭制作工班组评比评优考核试卷含答案
- 残疾人就业辅导员岗前绩效目标考核试卷含答案
- “智阅小帮手”综合辅助数字化应用建设项目采购文件
- 空压机操作工安全技能培训课件
- 2026年保险行业客户档案管理知识测试题
- 2026年环保电价及垃圾焚烧发电电价补贴审核测试题
- 2026年外贸业务竞聘面试题库
- 2026年技术合同认定登记及税收优惠练习题
- 湖北烟草招聘面试全攻略:面试技巧与题目解析
- 桥式起重机安全检查表
- 2025年全国行政执法人员执法资格考试必考题库及答案
- 留样样品管理办法
- GB/T 45711.2-2025皮革撕裂力的测定第2部分:双边撕裂
- 药品进货查验管理制度
- 乡镇医院科研管理制度
- 湖南省三支一扶招聘考试真题2024
- 《GPCR信号转导》课件
- TCFLP0026-2020散装液体化学品罐式车辆装卸安全作业规范
- 大数据知识产权法课件
评论
0/150
提交评论