(计算机应用技术专业论文)故障管理系统中故障检测与事件关联技术的研究.pdf_第1页
(计算机应用技术专业论文)故障管理系统中故障检测与事件关联技术的研究.pdf_第2页
(计算机应用技术专业论文)故障管理系统中故障检测与事件关联技术的研究.pdf_第3页
(计算机应用技术专业论文)故障管理系统中故障检测与事件关联技术的研究.pdf_第4页
(计算机应用技术专业论文)故障管理系统中故障检测与事件关联技术的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)故障管理系统中故障检测与事件关联技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a士它二 论几 因一 ab s t r a c t t h e e f f e c t i v e n e s s a n d p o w e r o f f a u l t m a n a g e m e n t s y s t e m c o r r e l a t e w i t h t h e a v a i l a b i l i t y a n d r e l i a b i l i t y o f m a n a g e d n e t w o r k . f a u l t d e t e c t i o n i s t o i d e n t i f y a f a u l t a ft e r t h e y o c c u r r e d . d e t e c t e d a b n o r m a l i t i e s a r e t h e n f i l t e r e d . s u b s e q u e n t f a u l t l o c a l i z a t i o n i s t o d e t e r m i n e t h e l o c a t i o n o f t h e f a u l t . t h e s e p h r a s e s a r e i m p o rt a n t t o f a u l t m a n a g e m e n t . i n t h i s t h e s i s , p r o b l e m s i n f a u l t d e t e c t i o n , f i l t e r i n g a n d l o c a l i z a t i o n a r e a n a l y z e d a n d t h e a u t h o r s s o l u t i o n i s p r e s e n t e d . t h e ma i n r e s e a r c h w o r k a n d a c h i e v e me n t o f t h i s t h e s i s a r e a s f o l l o ws f i r s t , t h e a u t h o r p r o v i d e s a w h o l e f u n c t i o n a l f r a m e w o r k o f f a u l t m a n a g e m e n t a n d a d i s t r i b u t e d a n d c o o p e r a t e d a r c h i t e c t u r e t o m a k e a s c a l a b l e n e t w o r k m a n a g e m e n t s y s t e m f o r l a r g e a n d c o m p l e x n e t w o r k s . s e c o n d , f a u l t d e t e c t i o n a p p r o a c h e s c a p t u r i n g r i c h e r i n f o r m a t i o n o f n e t w o r k s t a t e w h i l e s a v i n g n e t w o r k r e s o u r c e e x p e n s e a r e p r e s e n t e d . t h i r d , t o s o l v e t h e m a i n p r o b l e m s i n e v e n t f i l t e r i n g p h r a s e , a d y n a m i c s y m p t o m i s o l a t i o n s c h e m e i s p u t f o r w a r d e d . b y c o n s t r u c t i n g f i l t e r s d y n a m i c a l l y t o s u p p r e s s i n fl u e n c e o f c a p t u r e d s y m p t o m s t o f a u l t d e t e c t i o n , t h i s t e c h n o l o g y c a n i s o l a t e s n e w s y m p t o m s a n d t h u s t h e s p e c t r u m o f s y m p t o m s d e t e c t e d a r e b r o a d e n e d a n d t h e a c c u r a c y w i t h w h i c h s y m p t o m s a r e d e t e c t e d i s i n c r e a s e d . a t l a s t , e v e n t c o r r e l a t i o n i s a n e w t e c h n o l o g y i m p l e m e n t i n g f a u l t l o c a l i z a t i o n , t o s o l v e t h e p r o b l e m t h a t n e t w o r k e v e n t s c a n p r o p a g a t e a m o n g r e l a t e d o b j e c t s a n d r e s u l t i n e v e n t s t o r m s b y c o r r e l a t i n g e v e n t s s e m a n t i c a l l y . a c o d e b o o k - b a s e d e v e n t c o r r e l a t i o n a p p r o a c h i s i n t r o d u c e d p r o b l e m s , d e t e c t e d . b y c o n s i d e r i n g d e t e c t i o n a n d i d e n t i f i c a t i o n o f a b n o r m a l e v e n t s a s c o d i n g f a u l t l o c a l i z a t i o n c a n b e d o n e e f f i c i e n t l y a n d n o i s e s i n e v e n t s t r e a m s c a n b e a t p r e s e n t , d e m a n d s f o r f a u l t m a n a g e m e n t a u t o m a t i o n a r e v e r y w i d e . h o w e v e r , t h e t h e o r y a n d t e c h n o l o g y o f f a u l t m a n a g e m e n t a u t o m a t i o n a r e s t i l l i m m a t u r e . w e h o p e o u r r e s e a r c h w o r k g i v e s o m e v a l u a b l e t h e o r e t i c a n d p r a c t i c a l i n s i g h t s i n t o t h i s e x c i t i n g a r e a . k e y w o r d s n e t w o r k ma n a g e m e n t f a u l t ma n a g e m e n t s n mp f a u lt d e t e c t i o n s y m p t o m i s o l a t i o n d y n a m i c p o l l i n g e v e n t co r r e l a t i o n co d e b o o k 暑) 、学 二 论 又 1 , 卜 n i : 卜伙 第一章绪论 1 .1概述 网络系统规模的日益扩大和网络应用水平的不断提高, 一方面使得网络 的维护成为网络管理的重要问题, 例如使网络故障排除更加困难、维护成本 上升等 p 1 : 而另一方面, 如何提高网 络性能成为网 络系统应用的主 要问 题。 虽然可以 通过增强或改善网络的静态措施来提高网络性能 ( 如增强网络服务 器处理能力、 采用交换网络、 拓宽网络带宽等新技术) , 但是网络运行过程中 采用负载平衡等动态措施提高网络性能却日益重要。通过静态或动态措施提 高的网络性能分别称为网络的静态性能和动态性能,而网络动态性能的提高 是 通 过网 络 管理 系统来 加以 解 决的 z 1 网络管理主要任务是关于规划、监督、设计和控制网络资源的使用和网 络的各种活动,它的基本目 标是将所有的管理子系统集成在一起,向管理员 提供统一的控制方式, 其复杂性取决于网络资源的数量和种类3 1 。 简而言之, 网络管理即是通过某种方式对网络状态进行调整,使网络中的各种资源能得 到正常、 高效地运行, 并且在网络出现故障时能及时作出报告和处理, 协调、 保 持 网 络 的良 好 运 行 等 4 1 网络管理对网络的发展有着很大的影响,并已成为现代信息网络中最重 要的问题之一 5 1 。但它并不是一个新概念,从广义上讲, 任何一个系统都需 要管理,只是根据系统的大小、复杂性的高低,管理在整个系统中的重要性 也就有所不同。 计算机网络作为一个系统, 它的管理可以说伴随着 1 9 6 9 年世 界上第一个计算机网络a r p a n e t的产生便出现了。 在网络规模小且复 杂性不高时,一个简单的网络管理系统就可以满足网络正常管理的需要,但 随着网络的发展,规模逐渐增大,复杂性增加,网络管理技术也在迅速地发 展6 1 现代计算机网络管理系统中网络管理协议是最重要的部分,它定义了网 络管理器与被管代理间的通信方法,规定了管理信息库的存储结构、信息库 中 关键字的含义以及各种事件的处理方法7 l 。目 前影响最大的网络管理协议 是基于 t c p / i p协议簇的 s n m p( 简单网络管理协议,s i m p l e n e t w o r k m a n a g e m e n t p r o t o c o l ) ,基于开放系统互连 o s i标准的管理框架模型 c m i p / c m i s( 公共管理信息 协议 / 公 共管理信息服务, c o m m o n m a n a g e m e n t i n f o r m a t i o n p r o t o c o l / s e r v i c e )和基于电信网的 t mn 标准 ( 电信管理网, t e le c o m m u n i c a t i o n s m a n a g e m e n t n e t w o r k ) 8 1 。由 于s n m p 流 传 最 广, 应用 最多, 获得的支持也最广泛, 它已 经成为数据网络管理事实 上的工业标准19 1 肇), 下 二 , 几 1 . 2 s n mp协议 s n mp 是1 9 8 6 年由i n t e rne t 体系结构委员会 ( i a b , i n t e r n e t a r c h i t e c t u r e b o a r d ) 领导的i n t e r n e t i程任务组 ( i e t f , i n t e r n e t e n g i n e e r i n g t a s k f o r c e ) 提出的,目 的 是 在i n t e r n e t 上实现一些进行简 单管理的 功能 l o 。 随着i n t e r n e t 的迅速发展,s n mp也在不断发展以适应新的要求,到目前为止,s n mp已 历经了 三 个 版 本 1 1 1 一个网络管理系统不一定包含网络管理的所有功能,而只是选取其中几 个加以实现。 网 络管理系统原则上由以下四 部分组成: 多个被管代理( a g e n t ) , 至少一个网络管理者 ( m a n a g e r ) ,一种通用的网 络管理协议,一个或多个管 理 信 息 库 12 1 网 络管理系 统结 构通常可分为分 布式和集中 式两大类 1 3 1 。 集中 式管理结 构的优点是简单、易于实现。在这种结构下,一个管理者与多个代理交换管 理信息 1 4 1 。 然而对于目 前规模越来越大的网络而言 , 仅用一个管理者对整个 网络进行管理是不现实的,这种结构缺乏层次性,不适用于大规模的网络管 理 。 5 。 比 较 理 想的 是分 布式网 络管理结 构 i 6 , 这 种结 构中网 络管 理系 统功能 由分布在网络中的多个管理者共同实现,管理者之间还可以体现层次关系, 即网络中的某些管理者会被更高层的管理者所管理 1 7 1 一个网络管理应用程序必须定义: . 应用程序的功能; . 管理网 络的体系结构; . 管理系 统的结构; . 被管理的对象; . 通信方法的实现。 为 此 建 立了 相 应的网 络管理 模型 f 18 1 1 .功能模型 ( f u n c t i o n mo d e l ) 国际标准化组织在i s o / i e c 7 4 9 8 - 4中定义并描述了o s i 管理的术语和概 念, 提出一个o s i 管理的结构并描述i s o管理应有的行为。 它认为开放系统 互联管理 ( o s i m a n a g e m e n t ) 是指这样一些功能, 它们控制、协调、 监视 o s i 环境下的一些资源,这些资源保证 o s i 通讯。i s o在i s o / i e c 7 4 9 8 - 4文 档中定义了网络管理五大功能, 这五大功能模型被s n mp在内的各种网络管 理协议广泛地接受和实 现。 它们是 1 9 . . 故障管理:对计算机网络中的故障进行定位和解决; . 配置管理:发现和配置网络关键设备; . 安全管理:控制对计算机网络中信息的访问; . 性能管理:测量网络中硬件、软件和媒体的性能; 肇 a ;, 士宇二 沦文 v a i ; r t : f f i i i . 计费管理: 跟踪个人和团体用户对网络资源的使用情况, 对其收取合 理的费用。 2 .体系结构模型 ( a r c h i t e c t u r a l mo d e l ) s n m p体系结构设计目 标是使网络管理功能尽量简化、网络管理协议容 易扩充、 网 络管理结 构尽可能 独立而与网 络设备无关12 0 1 。 为了 尽可能 减少网 络管理协议本身对网络的影响而造成的不精确性, s n mp 不是基于t c p 协议, 而采用了轻量级的 u d p协议。作为 t c p / i p协议簇中的一部分,s n m p在 t c p / i p 协议簇中的位置如图 1 . 1 所示。 s n mp管理系统s n mp被管理系统 图1 . 1 s n m p 在t c p / 1 p 体系中的结构 3 . 信息模型 ( i n f o r m a t i o n mo d e l ) 信息模型主要是实现被管理的虚拟资源、软件及物理设备的逻辑表示。 现有的网络管理信息模型多采用面向对象的方法定义网络管理信息。网络资 源被以对象的形式存放于被称为管理信息库 ( mi b )的虚拟库中。对象在 m i b中的存放形式被称作管理信息结构 ( s m i , s t r u c t u r e o f m a n a g e m e n t i n f o r m a t i o n ) 12 0 。目 前的两个标准数据模型是i n t e rn e t s m i 和o s i s m i . o s i s mi 采用完全的面向对象方法,其被管理对象由对象有关属性、操作、事件 和行为封装而成,对象之间有继承和包含关系。i n t e rne t s mi 是面向属性的, 因此i n t e rn e t mi b对象之间没有集成和包含的关系,它的定义更注重简单性 募卜士 军 二 ;了 又 、 气 ,汉 火 和 可 扩 展性。 这两 种s m i 均 用i s o的 抽象语 法表 示 语 言( a s n . 1 ) 表示 (2 2 1 0 4 . 组织 模型( o r g a n iz a t i o n m o d e l ) 组织模型包括管理者、代理的概念,管理实体间的通信方法,这种通信 模型提供管理和被管理系统间的协议接口。图1 .2 示出了管理者一 代理之间的 通信模式2 3 1 。 由s n m p v 2 开 始, s n m p 和c m i p 一 样 支 持管 理者 之间 的 通信 2 4 1 管理系统被管理系统 图1 .2 管理者一 代理之间的通信 1 . 3网络管理的发展方向 随着企业网规模的扩大,结构和功能日 益复杂,管理难度也逐渐增大, 对网络管理技术也 提出了 新的挑战 1 2 5 1网管领域的 研究 吸取了 分布式计算、 软件工程、通讯协议、基于计算机支持的协同工作 ( c s c w)技术、人工智 能技术等最先进的相关技术成果,发展企业网的管理解决方案。网络管理系 统的发展呈现出以下几大趋势: 1 .分布式网络管理 为了适应网络在地理上、拓扑结构上、功能上的分布,新型的网络管理 模型也应该具有一种分 布式结构2 6 1 。 传统的集中 式网 管 模式浪费网 络资 源, 缺乏灵活性, 可靠性低,己 无法满足网络发展的需要四。 今天的网络管理方 案必须解决扩展性、降低复杂性、更快速及更独立地解决问题以及信息的可 访问性这几个关键问题。 分布式管理通过将数据采集、监视以及管理的任务在整个网络上向多个 控制台分散开来而实现综合分析,其核心思想是将信息和智能分布到网络各 处,使得管理变得更加自 动,并使得能够在问题源或更靠近问题源的地方作 出 基本决 策2 8 1 。 网 络管理 研究领域已 对分布式管理有相当 的 关注2 9 1 , 例如基 f m o b i l e a g e n t . w e b / c o r b a 等技术实现分布式网管的研究。分布式管理为 网络管理员提供了更加有效地管理大型的、地理上分布广泛的企业网络的框 架3 0 1 ,成为现代多业务信息网 络管理技术的主要发展方向。 f :; 士手 全 介 遏一 2 .集成管理 现有的网管软件不能提供一种统一的管理方法来管理包括多厂商网络设 备硬件和软件组成的网络,网管系统应用在分布化的同时也必须解决这种集 成网 络管理的问 题3 1 1 , 其中的 代表是基于c m i p 与基于s n m p 协议的网 管平台 的 集 成 3 2 1 s n m p 主要用于管理计算机网络或 工 p 网络,c m i p 则主要用于管理电信网 等,两者在通信协议、数据格式以及管理功能上都有较大的差别3 3 1 。现在, 多网合一己经成为一种趋势,如果分别管理存在多厂商难以一致、冗余程序 多、 难于灵活升 级等一系列缺点, 因 而有必要 将两种管理平台 集成在一 起3 4 1 为更高 层的 应用提 供统一的基本管理服务, 而不用考虑两者之间的区别 3 5 1 0 网管协议集成主要有协议共存 ( c o e x i s t ) 和协议互通 ( i n t e r w o r k i n g ) 两种 方式。协议共存又分为双协议栈、混合协议和应用程序接口三种方式;协议 互通是通过委托代理( p r o x y ) 通过功能上等同的服务和协议转化来沟通管理 协议的差异。 除此之外,新技术的应用也带来了管理平台之间无法互通、管理应用难 以统一等困难,这也是对网络管理集成化的新要求。 3 .自 动化网络管理 网络维护需要具有丰富专业知识和经验的维护人员,这种专业技术人员 比较缺乏、 培训成本高, 而且人工操作容易出错 3 6 1 。随着网络日 趋复杂, 对 网络的管理也日 益困 难,网管任务已 超出 人力所能控制的范围3 7 1 。因此, 要 求网络管理自 动化。 网管 研究引 入人工智能实现自 动化管理 3 8 1减少对人工操作的 依赖, 提 高管理的准确率与响应速度。但是目 前的研究离真正的智能化、自 动化管理 还有很遥远的距离。 目前网络管理领域中对人工智能技术的应用主要是专家系统的应用,管 理站收集各种网络管理信息 ( 如网络设备的接口状态、数据流量、出 错率、 告警信息等) , 对它们进行分析、 过滤, 送入专家系统触发推理过程, 专家系 统则依据规则作出判断。 而对其它人工智能技术的应用也正在积极研究之中, 例如利用贝叶斯网 络、人工神经网络技术、多a g e n t 系统实现故障管理等。 4 . r mo n / r mo n 2 广泛应用于网络管理中 r m o n 3 9 1 及r m o n 2 a o 1 的引 入使得网 络管理能够更容易、 更有效地 监控 和维 护整 个网 络的 正 常 运 行4 11 r mo n的目 标是为扩展 s n mp的mi b - i i 使 s n mp更为有效、 积极主动 篡卜士 住 一二 全又 地监控远程设备。r mo n - m i b由一组统计数据、分析数据和诊断数据构成, 利用许多供应商生产的标准工具都可以显示这些数据,因而它具有独立于供 应商的远程网络分析功能。r mo n监视器和 r mo n客户机软件结合一起在 网络环境中实施r mo n . r m o n的监控功能是否有效, 关键在于其监视器是 否具有存储统计数据历史的能力, 这一能力对于网络管理工作是非常有用的, 这样网管站就不需要不停地轮询以获取信息,它可以 利用 r m o n进行脱线 ( o ff - l i n e ) 操作,就能获得一个有关网络运行状况趋势的视图。 5 .扩展s n mp mi b的定义 虽然严重故障可能导致整个网络的崩溃,但是很多情况下,故障可能阻 碍特定任务的运行,降低它们的 速度或停止特定应用程序, 还可能使一部分 用 户 无法 访问 网 络,因 此 对高 层 应用的 管理也 成为 网 络管 理的 一 个部分 4 2 1 目前, 对于www, f t p , e m a i l 等高层网络应用, 检测它们的主要手段 是读取某日志文件并对其进行分析和过滤处理,得到所需的关于访问者、数 据流量、访问时间等信息。以这种方式获取的信息量十分有限,而且需要等 待日志文件被更新之后才能获得这些信息,因而需要对这些高级服务定义 m i b 信 息 4 3 1 网络拓扑信息对于整个网络管理系统的各部分功能都是至关重要的,但 从不同供应商的网络设备中获取网络拓扑信息,尤其是获取多层网络拓扑信 息却有较大的差别。因此同样也需要定义统一的描述拓扑信息的mi b o 除此之外还有其它类型的扩展管理信息, 这些新的m i b的标准草案有的 己 经 或正 在 制订 之中 14 4 1 6 . 新兴网络的管理支持 随着新兴网络和服务, 如智能网、 3 g ( t h i r d g e n e r a t i o n ) 服务等的发展, 如何有效地管理这些网 络也对现 有网 络管理技术提出 挑战 4 5 1 。 特别是近年来 随着移动通信技术的发展,移动通信网在不断发展壮大,其覆盖范围和复杂 程度有很大程度的扩大和提高。因此对移动网络管理系统的要求也随之越来 越高,仅仅依靠目前各个设备自身的管理工具进行分别管理己经不能满足网 络发展的需要。现代化的移动网络需要一个覆盖面广、自 动化程度高并可以 灵活配置和扩展的标准移动网络管理系统。 1 . 4本文的研究工作和本文的结构 在阅读和研究当前故障管理存在的问题,以及分析、比较当前各种故障 管理技术的优缺点后,本论文针对故障检测、过滤和定位中需要考虑的主要 问题, . . a ,), 士学位论文 k l s i e r s i i f l s i s 提出了本文的解决方法。主要研究成果如下: 提出了完整的故障管理功能框架; 分析故障检测的几种手段,捕获丰富的网络状态信息,同时节约网 络资源开销; 针对事件过滤阶段的主要问题,提出动态症状隔离方案,通过动态 构造过滤器抑制己捕获症状对故障检测的影响,隔离出新的症状, 扩大检测症状的范围并提高准确率; 基于代码书的事件关联技术针对网络事件可能沿相关对象传播而引 起事件风暴的问题对事件进行语义上的关联,从而有效地完成故障 定位; 提出分布式的系统结构使故障管理系统能适应于任何大型复杂网络 环境,并向用户提供一种分布式协同故障管理平台。 本文的结构安排如下: 第二章,介绍故障管理的概念,并建立故障管理系统框架; 第三章,介绍故障检测基本方法,动态轮询算法以及动态症状隔离的过 滤技术; 第四章,阐述基于代码书的事件关联技术,包括事件关联的概念,详细 的代码书算法,以及其优越性; 第五章,总结全文并对今后的工作提出建议。 肇 石 万 士学了 二 : 兮 无 1 下 厂 u 、 1 、 、 第二章故障管理 2 . 1故障管理概述 故障管理包括对网络异常运行情况的检测、 诊断和校正, 它是网络管理 的一个重要组成部分,故障管理的有效与否和功能强弱直接关系到被管理网 络的 可用 性 ( a v a i l a b i l it y ) 和 可 靠性 ( r e l ia b i l it y ) 14 6 1 。 好的 故障管理解决 方 案可通过合理利用人力资源、处理过程、故障修复方法、诊断工具和管理系 统, 最大限 度地提高网 络可用性, 而将网 络运行风险降 至 最小 4 7 1 。 故障管理 系统通过自 动检测、跟踪和控制故障减少服务中断和相应的损失。 故障是软、硬件的缺陷, 错误则是软、硬部件的不正确输出,失效是指 所有和某故障有关的错误造成的网络的非正常运行。一个故障是若干错误的 直接或间接的原因,错误是故障的表现,失效是故障的总效应。某部件的错 误不一定由于内部存在故障,在网络环境中更有可能是由于故障的传播所导 致的。 网络故障按其生命期可分为永久故障、 暂时故障和瞬间故障三类。按故 障对网络造成的空间失效范围的大小,可把失效分为任务失效、基本网络部 件失效、结点失效和子网失效四类。故障的传播介质可分为参数介质、数据 介质和流量介质三类。图2 . 1 反映了故障、失效和告警事件之间的关系4 s 故障错误失效 事件 故障管理系统 故障定位 图2 . 1 故障和观测事件的关系 故障管理方案试图在最短时间内尽可能准确地定位和识别系统与网络 故障, 如有可能还提供解决方法4 9 1 。为了完成这些功能, 故障管理需要其它 管理功能特别是性能和配置管理的数据输入。为成功地支持故障管理,需要 以下信息:实际配置、事件报告和告警信息、消息日志、网络部件的属性、 全 甲二 沦丈 、日 s 呈 、 网络部件的状态指示器、网络部件的性能指示器及关于性能指示器的更详细 的数据、整个网络的流量信息、备用的部件及其状态、备份路由及其状态、 解决问题的流程、供应商的详细信息等。 故障管理一般包括故障的发现、 故障的定位和故障的修复三个步骤5 0 主要功能概括如下: . 故障检测:检测偏离正常行为的问题状态发生以及标识其性质; . 故障诊断:确定故障检测阶段所发现问题的根本原因 ( r o o t c a u s e ) : . 故障修复:解决问题的一组动作,还包括测试。 2 . 2故障管理系统 故障管理系统的功能及流程具体描述如下。 1 .故障检测 故障检测的目 的即是在故障发生以 后,尽可能将其识别出来。这一阶段 的输入是代理报告关于网络资源改变的信息, 代理提供两种类型的事件信息: . 轮询应答:管理者每隔一定的时间请求被管对象的属性,称之为轮 询; . 事件通告:当代理检测到所负责资源某种状态时,可以主动地生成 告警消息即事件通告。 在接收代理发出的告警信息的同时,故障管理系统还必须主动监测被管 设备的运行状态, 及时有效地发现更多的异常行为5 i 。 有些网络设备对于整 个网络的运行至关重要, 如路由 器、 交换机、 d n s 服务器、 e m a i l 服务器等, 必须重点监测这些网络设备。监测的信息包括端口的状态、线路质量、环境 参数、高层服务的日志信息等。这些数据有些可以直接从mi b库中查询到, 如端口状态和环境参数等。 有些参数需通过计算才能得到, 如线路的质量等。 对高层服务监测最简单的方式是查询日志信息, 先通过f t p 将日 志文件从服 务器方取来,然后再作分析,分析的方法包括使用过滤器、统计等。 故障检测功能的关键是检测手段是否有效。在一些情况下,为了防止故 障漏检,往往采用多种检测手段,但这种方法不能过度使用,否则同一故障 会产生过多的事件信息,反而不利于故障根源的确定。 2 .事件过滤 故障管理系统应提供过滤器和阀 值机制以 过滤过量的信息1 5 2 1 。 通过设置 过滤器过滤掉不重要和不关心的事件、重复告警噪音等,找出需要处理的事 件。在这一过程中的重点和难点是需要排除己检测或己处理的事件干扰,发 现真正新的事件信息。 掌 夕 一 去 下 近 为有效地支持故障管理,必须设定关键网络性能指示器的阀值。它包括 以下问题的确定:哪些性能参数必须连续监测、合适的读取频率是多少、告 警阀值是多少、 谁有权改变阀值、 阀值应该如何存储、 告警报文的更新频率、 报文的合适生命周期是多长、网络操作控制应该对什么报文作出响应等。 3 。故障定位 故障定位功能的目的是确定网络中故障的位置,这是故障管理的难点 5 3 1 。 一个理想的告 警事件应该包括有关故障的五个方面的信息: wh o , w h a t , w h e r e , w h e n 和w h y . w h o 是发出告 警事 件的 对 象; w h a t 是 故障的 症 状; w h e r e 是对故障发生位置的描述;w h e n 是检测到故 障的时间:wh y是故障 发生的原因。但是由于每个设备对于自 身以外的网络情况只具备非常有限的 知识, 所以网络设备大部分事件消息只回答了wh o , wh a t 和wh e n 三个问题, 而对于故障诊断至关重要的wh e r e 和wh y 信息却没有提供。在一个典型的 网络环境中,由于被管网元 ( n e ) 物理上和逻辑上的相关性, 单一的故障往 往会在相关网元中产生大量的症状事件,使得故障的识别和定位变得困难 5 4 1 :在多个故障并发时, 情况变得更加复杂。另外,由 于网络的传输问 题, 事件消息中可能包含有噪声,如事件丢失和错误事件等,这进一步增加了故 障诊断的难度5 5 j 事件关联 ( e v e n t c o r r e l a t i o n )技术是全新的故障管理策略,简单地说, 事件关联就是对观测到的异常事件从语义上通过相关算法发现并定位真正故 障原因的过程5 6 1 。 事件关联过程寻找故障源, 对于无法确诊的故障, 事件关 联步骤排除由网元相关性和依赖性引发的冗余事件信息,提供精简的症状视 图给网管人员,以利于网管人员作进一步的故障诊断。 4 .业务修复 故障管理系统自 动或有指导地手工完成一系列动作以修复故障,保留详 细的故障处理纪录。故障通告机制必不可少,在管理人员的 p c机上可以驻 留监听后台进程,负责监听网管站发来的故障信息,并以图形、声音的方式 通知管理者 5 7 1 。同时,故障从产生到恢复的整个过程都应该有完整的记录, 记录的数据有发生故障的设备、设备类型、故障产生时间、恢复时间、维护 人员、处理过程等。而且,帮助系统应包含故障处理的指导信息,理想的方 式是将制造商的帮助信息以标准化的方式集成到网络管理帮助系统中。 为了在发生故障时继续提供业务,需要配备适当的预备资源。恢复策略 主要有以下几种:a . 隔离引起故障的设备,使其余的资源能够继续支持业务 ( 虽然业务能力可能下降) ; b , 将业务从故障设备切换到正常的预备设备, 这 可以通过1 ; 1 预备或m: n预备来实现; c . 使用环或网 状网络本身具有的异 、肇 q士学位论文 v a s i i r i . 4 ! 曰、 径功能。 5 .故障清除校验 故障修复过程完成后,应进行故障清除校验过程,测试故障是否真正清 除,如果没有,则需要收集更多的数据,重新进行诊断和恢复的过程。 6 .统计和分析 故 障管 理 系 统 应支持 故障记 录、 统计 和 分 析 5 8 1 , 例如故障 发生 频 率、 哪 些故障影响提供的服务等,还包括故障管理系统自 身性能的分析统计,例如 故障识别率等。 2 . 3网管系统结构 为满足伸缩性、灵活性和提高效率的要求,网管结构采用层次式和协作 式相结合的分布管理模型 ( 见图2 . 2 ) 。网元根据地理位置或管理功能划分成 多个管理域,各个管理域有自己的域管理者,彼此之间采用对等通信,管理 者之间根据需要也可以形成层次管理关系。这对于故障管理是很有用的,因 为故障的诊断通常涉及处于不同管理域的相连设备,必须通过不同管理域之 间的协作或以更高层的管理视图来完成故障定位和恢复的管理任务。 图 2 . 2 网管系统结构 各个域管理者负责自己域内的管理任务。就故障管理功能而言,域管理 者收集本域内设备运行状态信息,检测异常行为的出现,得到的事件信息经 过过滤,进入事件关联引擎进行故障定位并采取修复行动,在故障定位和修 复过程中可能涉及到相关域的信息,这样对于跨域故障诊断就需要多个域之 间的协作或者由掌握域间高级管理信息的高层管理者来完成。 肇 6 ,6 士学位论文 火二/ 、, 气 % 二 口 s i i i e si ti 2 .4小结 故障管理的主要任务是发现故障并及时排除, 包括发现异常、 故障诊断、 业务恢复、测试校验等,同时还需维护故障日志,提供各种通告和相关的统 计分析手段。 故障管理的基本好处是它通过提供快速检测网络问题和发起恢复过程的 工具,增加了网络的可靠性。 故障管理系统分为以下几个步骤:故障检测、事件过滤、故障定位、业 务修复、故障清除校验和故障统计分析。 分布式的管理结构采用域模型,域之间可以是协作或层次关系。 肇 a士学三 论文 , 气 下 f r 、 下 : 卜 第三章故障检测与症状隔离 3 . 1故障检测技术 故障检测主要采取两种方式:接收代理告警和网管工作站主动轮询。 1 .告警 告警是在系统异常状态时由网管代理发出的通知信息,通常是以 s n m p - t r a p ( 陷 阱) 消 息发出 的, 它被 用来向 网 管 站 提 供某些重 要的 事 件 5 9 告警中包含的信息有: . 企业域: 指出 产生陷阱的子系统, 其值来自 系统组中的s y s o b j e c t i d ; . 代理地址:产生陷阱的对象的i p 地址; . 一般陷阱:一个预定义的陷阱类型; . 特定陷阱:更具体地指出陷阱性质的一个代码; . 时间戮:在发出陷阱的网络实体最后一次初始化与陷阱产生之间的 时间; . 变量绑定:关于陷阱的附加信息,这个域的重要性依赖于特定的实 现。 一般陷阱域可以取下面的7 个值中的一个: c o l d s t a r t ( 0 ) :发送s n m p实体重新初始化自 身,并改变代理的配置或 者协议实体的实现。这是一个由于意外或者严重错误而引起的重启。 w a r m s t a r t ( i ) : 发送s n m p 实体重新初始化自 身, 但不改变代理的配置 或者协议实体的实现。这是一个常规的重启。 l i n k d o w n ( 2 ) :告知一个代理的通信连接失败。在变量绑定域中的第一 个元素是接口的i f l n d e x实例的名字和值。 l i n k u p ( 3 ) : 告知一个代理的 通信连接己 经正 常。 在变量绑定 域中的 第 一个元素是接口的i f i n d e x 实例的名字和值。 a u t h e n t ic a t io n f a i lu r e ( 4 ) :告 知 管理 站收 到了 一 个认证失 败的 协议消 息。 e g p n e i g h b o r l o s s ( 5 ) : 告知管理站一个e g p 邻居 ( 该邻居是发送协议实 体的e g p 对等实体) 被标志为d o w n ,对等关系不再存在。 e n t e r p r i s e s p e c i f i c ( 6 ) : 告知管理站发生了 某种厂商特定事件。 特定陷 阱 域指出陷阱的类型。 企业自定义陷阱在数量上往往大大超过一般陷阱。一些公司为工作站上 的磁盘使用设计陷阱,另一些网络设备可以为在网络上发现的高利用率或错 误率发送陷阱。 厂商可在其特有的网络设备上实现企业自 定义s n mp陷阱的 潜在数目 是无限的。 2 .轮询 肇 石 币 士学 、 ! 人 、 r 卜 认 j 二 ; 仑文 , 、i s 可以看到,s n mp定义的陷阱在数量上很少。虽然私有陷阱的实现是可 能的,但这些陷阱可能不能被来自 其它供应商的网络管理站理解。因此,实 际上管理站获得的绝大部分信息都是通过查询收集到的6 0 1 如图 3 . 1所示,管理者监视和控制网络 ( 如一个 l a n) ,轮询网络结点 ( 如路由 器、网桥、 工作站、 p c机或打印机) 上的代理以获得网络设备的最 新状态,例如响应时间、吞吐量或处理负荷。 人g e n t 图3 . 1 基于轮询的网络管理 管理者的轮询请求中指定需要的管理信息值,每个管理信息值对应着代 理上管理信息库中的一个s n m p 对象实例。 代理发出轮询应答将轮询结果返 回给管理者。 如果查询仅仅在开始的时候和对一个陷阱进行响应时进行,管理站管域 网络的视图可能是非常过时的。例如,管理站将不会觉察到网络拥塞问题。 但是,还有另一个必需被考虑的因素由轮询流量引 起的网络负担。 因此管理站需要一个查询频率的策略。它的实施取决于管理站的速度, 不同子网段的数据传输率,网络的拥塞程度和一些其它因素。 为了说明这个问题, 这里假定管理站一次只能处理一个代理。 也就是说, 当管理站查询一个特定代理时, 它不做其它的工作, 直到它已查询完该代理。 该查询可能涉及单个的g e t / r e s p o n s e 事务或者一系列这样的传输。 考虑到管 理站所有的时间都用于查询,这样可以确定管理站能够处理的最大结点数。 于是有下面的方程式: n ( t/ 其中n为代理数;t为希望的查询间隔,也就是在对同一代理的连续查 询之间的时间;为执行一个查询所需的平均时间,的值取决于下面的几 个因素:管理站产生一个请求的时间、从管理站到代理的网络延迟、代理解 6 士学位论又 日气 气 下 k ti 丁 h l ! 、 鼻 释一个消息的处理时间、代理产生一个响应的处理时间、从代理到管理站的 网络延迟、管理站接收和解释响应的处理时间以及从一个代理获得所有需要 的信息所用的请求/ 响应交换数。 例如,在一个单个的l a n中,每个被管设备每1 5 分钟被查询一次。假 设命令执行时间为 5 0 m s ,网络延迟大约 i m s( 包大小为 1 0 0 0 个字节,无明 显的网络拥塞) ,那么大约是0 . 2 0 2 秒。则n - r e s p o n s e t h r e s h o l d ; a t t r i b u t e l o n g a v g r e s p o n s e ; a tt r ib u t e l o n g r e s p o n s e t h r e s h o l d ; i n t e r f a c e t c p n o d e : n o d e p r o b l e m t c p p a c k e t s l o s s = a b o rt e d t r a n s a c t i o n s , s l o w r e s p o n s e ; , 爵一) 石干 士 干 二: 二 了 、 j i p r o p a g a t e a b o rt e d t r a n s a c t i o n s = c l i e n t , u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论