




已阅读5页,还剩60页未读, 继续免费阅读
(计算机系统结构专业论文)网管系统故障处理流程的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文 摘要 摘要 随着网络规模的不断扩大,用户数目的日益增多,网络管理员的工作难度也 越来越大。网络中的负荷容易不均匀,某些部分因线路上的负荷太重而造成整个 网络性能严重下降;某些i p 和m a c 地址的绑定非法;服务器出现故障,无法连 接;各种不同厂商的不同类型的设备的工作状态无法方便获知并管理;这些都是 网络管理中遇到的棘手问题。为了使结构复杂的网络高效运行,就必须建立针对 多厂商、多类型设备的网络管理系统,提高全网的维护管理效率,降低管理成本。 故障管理是一个网管系统的核心功能。网管系统故障处理的基本流程为: 监视并收集网元的使用率、各种状态参数、流量等信息。设置门限,当网元的状 态参数超过所设定的门限时。产生告警。分析告警信息定位故障和可能的故障 原因。将故障信息、采集到的部分关注数据等有价值的信息保存到数据库,方便 随时浏览。如果故障符合一定的严重度,以短信或者电子邮件的方式通知管理员。 一些故障可以自动被解决,一些故障需要等待人工解决。管理员可以随时通过网 管客户端查询,过滤、统计、确认、清除、导出告警信息,对整个网络的状态有 整体的清晰把握。网管系统的故障处理功能减少了网络故障时间,提高了网络可 用性,使网络能尽快恢复至正常,以保证网络高效运行。 本文首先介绍了网元的信息采集方法。主动告警系统的告警信息采集方法, 如基于s n m p 轮询采集、基于s y s l o g 的日志记录;被动的网元信息采集方法,如 通过s n m p 协议,被管设备出现某种故障时主动发送t r a p 时间通知网管系统。随 后介绍了根据采集到的网元信息产生告警,对告警进行分析,对告警进行合并和 转化,将多个告警合并成一条具有更多信息量的告警,确定能反应故障根本原因 的告警,定位故障的可行方法。现在已提出的告警分析方法有基于案例推理、基 于规则推理、基于代码方法和基于数据挖掘的方法。然后设计了对生成的告警的 系列处理动作,如告警的查询、过滤、统计、确认、清除等。针对系统中出现 的故障,网管系统中的邮件,短信、故障工单能使管理员及时发现故障,及时通 过故障确认、故障自动恢复、故障连锁诊断等方式作出处理。最后,采用了分布 式的系统设计,这样的设计是自适应的基于策略的管理,提供分布查找与监测, 能智能过滤,提供分布式阀值监测,动态轮询和判断逻辑。在具体实现方面,介 绍了j a v a 应用程序的轻量级框架s p r i r i g ,对象关系映射持久化框架h i b e m a t e ,j a v a 消息服务j m s 的基本知识,以及这几个框架的整合过程,并提出了网管系统故障 浙江大学硕士学位论文 摘要 管理的框架搭建和具体实现的方法。 关键词网络管理,简单网络管理协议,1 h p ,s y s l o g ,告警分析,故障处理, 告警确认,告警清除,当前告警,历史告警,故障通知 浙江大学硕士学位论文 a b 蚰c t a b s t r a c t m o d 唧n e t w o r k sl l a v eg r o w ni nc o i n p l e x i t yb e y o n dt l l ep o i mw h e r et h e yc a nb e m a r 增g e db yam 卸u a lp r o c e s sa l o n e t 1 1 i sc o n l p l e x i t yg a v ed s et oa 咖m a t e di 他t w o r k m 锄g e m e 眦s y s t e m st l l a ti l l t e m c tw i t hn 咖o r kc l e m e n t st og a i l id a t aa b o u tt l l e i r b e h a v i o ra n dp e 面m a n c e ,a n dt o n t l o l 也出b e h a v i o rb y 孵m n go p e r a t i o n a l p a m m e t c 鸺s e v e m lp r o t o c o l sh a v eb 咖p r o p o s e df o rt l l ei n t e m c t i o nb c t w nn e t 、o r k e l e m 朋t s 锄dn e t 、o r km 柚a g e m e ms y s t c m s ,a tp 陀s e n t ,t l l e s i m p l en 栅r k ma i :l a g e m 咖p m t o c o l ( s n m p ) i st l l em o s ta c c e p t e d 觚dd e p l o y e d k e 印t l l en c t w o r ki i l 圮a i t l l ys t a _ t ei st l l ep o i ma d i l l i nc o n c e m sm o s t a l l dt 1 1 en e e df o ra r o b u s ts o l u t i o nt on e t w o f kf a i l u r eh 嬲b e c o m ec r i t i c a li nt o d a y sn 咖o r k e de c o n o m y a u t o m a t i n gt l l e 矾t w o r kf a u l tm 蝴g 锄e n tp f o c e 鼹h 弱b e c o m ee s 黯n t i a l t h em n c t i o n o ff a u l tm a g e m e mi s m o i i i t 0 血ga l l dc o l l e c t i n go fs t a t i s t i c so nn e t w o r kd e v i c e s , t r a 伍cc o n d i t i o 衄柚d 璐a g ei i i a l t i m et oa v o i da i l df 0 1 呜c a s tp o t e m i a lf a u l t s ,s e n i n g t 量l r e s h o l d s 锄da l a 肌st l l a tm a yc a u 傩t w o r kf a i l u 糟t ow a mt l l en e t w o r k 枷n t h e n d e t e 砌n et l l ec a u ,l o g ,n o t i 母l l s e 岱o ea i l d ( t ot h ee x t e n tp o s s i b l e ) m 埔d m t i c a l l yf i x n e t v r kp r o b l e l n st 0k e e pt i i en e t w o r k 删n ge 行醯t i v e i y t h eo b j c c t i v o fd o 啦 f 狐nm a m g 咖e n ta r e 幻i i l c r e a 卵m t 、o r ka v a i l a b i l i 娥他d u c en e 铆o r kd o 啪t i m e 柚d r c s t 0 他n e t w o r kf 甄1 u r eq l l i d d y b e c 螽u s e 胁i t sc a nc a u d o w m i m eo ru n 扯c e p t a b l e n e t i r l cd e 掣砸a t i o n ,f a u nm 如a g e m e mi sp e r h a p s1 1 1 em o s tw i d e l yi m p l e m e n t e do f 协e i s on c t w o r km a n a g e m e me l c n l e n t s t l l i sp a p 盯a d d r e s s 龉a 缸啦e 、o r ko fa u t o m a t i l l gf h u l tm 锄g e m 朋tf o ri pn e 脚o r k p f o v i d e sc v e n t ,a l 射n ,锄dr e i 幻n i n gc 印a b i l i t i e s k 吖w o r d 3 n 的o f km 妣a g e r 脯n t ,s n m p t m p s y s l o g ,a l a r mc o f 他l a 曲i l ,f a u l t m 锄g e m e n t ,c o n f i m la l 锄,c 1 e a ra l a 埘【l ,c u r 他n ta l a m ,h i s t o r ya l 锄,a i a r mn o t i 母 浙江大学硕士学位论文 田目录 图目录 图2 1s n m p 网络管理的模型3 图2 2 管理信息库的内容4 图2 3s n m p 的5 种操作5 图5 1 一条告警的状态转换图2 9 图5 - 2 一条告警的处理流程。3 0 图5 3 用户处理告警的流程图,3 2 图6 1s p r i n gi o c 容器3 4 图6 2 网管系统中使用b e a n f t o r y 的配置文件示例3 5 图6 3 网管系统中使用b e 锄f a c t o r y 的代码示例3 6 图6 4 网管系统中远程通信的服务端配置文件3 7 图6 5 网管系统中远程通信的客户端配置文件3 7 图6 6h i b c m a t e 高层概览。3 9 图6 7 我们的网管系统中s p r i n g 框架下使用h i b e 珊舵的配置文件示例4 l 图6 - 8 我们的网管系统中s p r i n g 框架下使用h i b e 舢l 钯的代码示例4 2 图6 9 点到点消息模型4 4 图6 1 0 出版者订阅者消息模型4 5 图6 _ 1 l 网管系统使用j o 姗的a d m i n 配置文件4 8 图6 1 2 网管系统中消息订阅者配置文件5 0 图6 1 3 网管系统中消息出版者配置文件5 l 浙江大学硕士学位论文表目录 表目录 表2 1t r a p 报文中t r 印类型字段的内容6 表5 1 告警确认清除用例1 9 表5 2 查询当前历史告警用例:2 0 表5 - 3 当前或者历史告警过滤用例2 1 表5 - 4 当前历史告警统计用例2 2 表5 - 5 告警通知发送用例2 5 表5 - 6 告警映射用例2 6 表5 7 告警定位关联用例2 7 表5 8 告警严重度2 8 v 浙江大学硕士学位论文第l 章绪论 第1 章绪论 1 1 研究背景 随着网络规模不断扩大,用户对于网络性能和网络提供增值服务的要求越 来越高。网络系统的崩溃可能会造成灾难性的损失。 一个单位对高技术的依赖程度越强烈,它的网络也就越大,越复杂。要想扩 大服务范围,就得在网络中添加新设备。局域网上的用户,正在稳定增加之中, 许多网络都拥有几百个同时工作的用户。 然而随着网络规模的不断扩大,用户数目的日益增多,网络出现故障的可能 性也随之增大。网络中的负荷容易不均匀,使某些部分因线路上的负荷太重而造 成网络性能的严重下降;重要服务器需要被实时监控,保证正常工作;交换机、 路由器等设备的端口状态需要常被掌握,防止意外断开。在这种情况下,几乎任 何网络故障都会导致系统破坏并给操作员带来巨大负担。网络的维护工作十分困 难。 当前网络维护面临的问题主要有: 一、电脑设备分布在不同部门,数量越来越多,网络变得越来庞大。 二、内网和外网结合、系统漏洞、木马程序、蠕虫病毒层出不穷,网络管理 变得越来复杂。 三、应用系统越来越多,一旦出现故障,带来的损失越来越大。责任越来越 重大。 四、系统重装、查杀病毒、安装补丁,运维工作越来越繁杂,人手紧缺。 当网络出现故障时,各类人员之间需要传递大量的信息,传统的故障信息传 递采用电话和传真方式,这种通知方式有几个弊端【”: ( 1 ) 滞后性 故障和故障单的信息不能实时地传递给相关人员导致故障处理的时间无谓 地延长,管理者也无法在第一时间内知道故障的处理情况。 ( 2 ) 被动性 故障处理人员不得不周期性地进入故障处理系统进行查询或被动地守在电 话机旁等候通知,以免漏掉最新的故障处理信息。 ( 3 ) 不准确 由于人们的口音( 方言) 、语言表达方式和对信息理解程度的差异性,信息 l 浙江大学硕士学位论文 第l 章绪论 在传递过程中可能会出现偏差,影响了故障的正鬻处理。 ( 4 ) 高成本 电话或传真的大量使用,尤其是故障在涉及到异地时长途电话的频繁使用 会导致很高的故障处理成本。因此,为克服以上弊端,需要在故障处理系统中采 用一种高效的故障信息的通知告警方式。 如何加强对网络的管理和维护? 如何执行高效的网络故障管理? 尤其是在 个具有一定规模的企业网络时,必须考虑到网络故障处理的问题。 1 2 网管系统的故障处理流程简述 拥有一个高效的网管系统来处理故障十分必要。我们的网管系统的故障处 理流程为;监视并收集网元的使用率、各种状态参数、流量等信息。设置门限, 当网元状态参数超过所设定的门限时,产生告警。分析告警信息,定位故障和可 能的故障原因。将故障信息、采集到的部分关注数据等有价值的信息保存到数据 库,方便随时浏览。如果故障符合一定的严重度,以短信或者电子邮件的方式通 知管理员。一些故障可以自动被解决,一些故障需要等待人工解决。管理员可以 随时通过网管客户端查询、过滤、统计、确认,清除,导出告警信息,对整个网 络的状态有整体的清晰把握。 一个成熟的故障分析管理系统还可以对大量的告警信息进行告警相关性分 析,定位故障产生的地点,找出故障的可能原因,并自动诊断处理故障,更新故 障处理知识库。 1 3 本章小结 在网络系统越来越复杂的今天,任何网络故障都会导致系统破坏并给操作 员带来巨大负担,网络的维护工作十分困难。网络管理系统的故障处理能帮助管 理员轻松发现并管理网络故障,提高网络可用性,使网络尽快恢复至正常,以保 证网络高效运行。 2 浙江大学硕士学位论文第2 章同元信息采集 第2 章网元信息采集 2 1 用基于s n m p 的轮询方法采集网元信息 2 1 1s n m p 协议简介 s n m p 是专门设计用于在m 网络中管理网络节点( 服务器,工作站、路由 器、交换机及h u b 等) 的一种标准协议,它是一种应用层协议。s n m p 是一种 简单的s n m p 管理进程和s n m p 代理进程之间的请求一应答协议。通过s n m p 协议采集网元的信息并分析,网络管理系统能获知网络出现问题,使网络管理员 能够管理网络效能,发现并解决网络问题以及规划网络增长。目前s n m p 有三种 版本s n m p v l 、s 1 哪v 2 、s n m p v 3 。 2 1 2s n m p 在网管中的应用 基于t c p i p 的网络管理包含两个部分【2 】;网络管理站( 也叫管理进程, t i i a n a g e r ) 和被管的网络单元( 也叫被管设备) 。被管设备种类繁多,例如:路由 器、x 终端、终端服务器和打印机等。这些被管设备的共同点就是都运t c p ip 协议。被管设备端和管理相关的软件叫做代理程序( a g e n t ) 或代理进程。管理站一 般都是带有彩色监视器的工作站,可以显示所有被管设备的状态( 例如连接是否 掉线、各种连接上的流量状况等) 。 2 浙江大学硕士学位论文 第2 章网元信息采集 管理工作站 图2 - ls n m p 网络管理的模型 管理进程和代理进程之间的通信可以有两种方式闭。一种是管理进程向代理 进程发出请求,询问一个具体的参数值( 例如:你产生了多少个不可达i c m p 端 口) 。另外一种方式是代理进程主动向管理进程报告有某些重要的事件发生( 例 如:一个连接口掉线了) 。管理进程除了可以向代理进程询问某些参数值以外, 它还可以按要求改变代理进程的参数值( 例如:把默认的i p r r l 值改为6 4 ) 。 基于t c p i p 的网络管理包含3 个组成部分1 2 】: 一、一个管理信息库m 1 b ( m 矾a g 锄e n ti n f o 唧a t i o nb a ) 。管理信息库包含 所有代理进程的所有可被查询和修改的参数。所谓管理信息库,或者m i b ,就是 所有代理进程包含的、并且能够被管理进程进行查询和设置的信息的集合。 m i b 定义了所有代理进程所包含的、能够被管理进程查询和设置的变量,这 些变量的数据类型并不多。所有这些变量都以对象标识符进行标识,这些对象标 识符构成了一个层次命名结构,由长串的数字组成,但通常缩写成人们阅读方 便的简单名字。一个变量的特定实例可以用附加在这个对象标识符后面的一个实 例来标识。m i b 被划分为若干个组,如s y s o 咖,i m e r f 如e s ,a t ( 地址转换) 和i p 组 等。管理信息库的内容见图2 2 。 浙江大学硕士学位论文第2 章网元信息采集 图2 2 管理信息库的内容 二、关于mib 的一套公用的结构和表示符号。叫做管理信息结构s m i ( s 帆l c n l r eo fm 醐a g e m 锄ti n f o 砌a t i o n ) 。s n m p 协议下有众多的供应商提供设备 和服务,如果没有一种约束机制,可能各个企业写出来的m i b 都各不相同,使这 样的一些网络设备在s n m p 层上的协同工作上出现大麻烦,所以,需要一种机制, 来限制和规范m i b 的定义,这就是;管理信息结构( s m i ) 。s m i 是a s n 1 的一 个子集,约定了使用到的语法、类型、宏、数据格式等。例如:s m i 定义计数器 是一个非负整数,它的计数范围是o 42 9 49 6 72 9 5 ,当达到最大值时,又从o 开始计数。 三、管理进程和代理进程之间的通信协议,叫做简单网络管理协s n 肝( s i m p l e n e t w o r km 卸a g e r m n tp r o t o c 0 1 ) 。尽管可以在运输层采用各种各样的协议,但是在 s n m p 中,用得最多的协议还是u d p 。 s n m p 协议关于管理进程和代理进程之间的交互信息定义了5 种报文【2 j : 1 g e t 心q u e s t 操作:从代理进程处提取一个或多个参数值。 2 g e t n e x t - r e q 、1 e s t 操作:从代理进程处提取一个或多个参数的下一个参数值。 3 。t r e q u e s t 操作:设置代理进程的一个或多个参数值。 4 g e t - r e s p o n s e 操作:返回的一个或多个参数值。这个操作是由代理进程发出 的。它是前面3 中操作的响应操作。 5 仃a p 操作:代理进程主动发出的报文,通知管理进程有某些事情发生。 前面的3 个操作是由管理进程向代理进程发出的。后面两个是代理进程发给 管理进程的。s n m p 的五种操作见图2 3 所示。 4 浙江大学硕士学位论文第2 章同元信息采集 snmp管理避捏蛩函癣代理进程 _ 阻七r q 1 1 - 七 一 u 呻端口1 6 1 一 口t t r ,p o n e e n x t r e t l u e 七 l u ) p 端日l 酏 g e c r 鼍日p o n 0 - 匕一r a u t 一 l 础口1 6 l 一尊鼍tz譬-po矗鼻e u d p 端口1 6 2 t溯 图2 3 s n m p 的5 种操作 大部分的s n m p 采集网元信息是这样的过程闭: 1 取得某设备的对象d f o i d ) 2 通过s n m p 协议得到该o i d 相应的值。赋值给v a l u e 这个变量 3 取当前的时间( 秒) ,赋值给t i m e 这个变量 4 取上次采集的值和时间,分别赋值给l a s t v 砒峨l a s t v 酊 5 根据该o i d 返回值代表含义,构造一个表达式,这个表达式只能包括v a j u e , t i 巾e ,l a s t v 酊u e ,l a s t n m e 这4 个变量,有时不必全部用上,而且该表达式应回一 个布尔类型的值,如果为真则需要告警。 6 保存v a l ue t i m e 为l a s t 叫u c ,l a s t t i m e ,用来在下次采集判断时使用。 2 2 用基于s n m p 的t r a p 事件通知获知告警 代理进程也可以主动发t r a p 到管理进程,以告诉管理进程在代理进程侧有某 些管理进程所关心的事件发生。 t r a p 发送到管理进程的1 6 2 号端口。 现在已经定义了6 种特定的t r 印类型,第7 种t r 印类型是由供应商自己定义的 特定类型1 2 j 。t r a p 报文中的t r a p 类型字段的内容见表2 1 所示。 浙江大学硕士学位论文第2 章网元信息采集 表2 - lt r a p 报文中t r a p 类型字段的内容 砸p 类型名稗描琏 o c o l d s t a n 代理进程对自己卯嫱化 l n n s t 越 代理硅程耐自己重新柳耸化 2l i i 止d 叫m 一个接口已经从工作扶态改变为故障拭态( 图1 5 1 2 j 撮文中的第一个变量标识此接口 3 h n k 唧一个接口已经从敲障状态改饔为工柞扶态i 图2 5 l 幻。 搬文中的第一个童繁拆识l i l :接口 4 蚰出e l 血c d o n f | i 虹e 从s i m p 管理进程收到无靛共同体的推文 5 e g 埘a 茸l b o f h h 一千e g p 部站已变为故障状态报文中的第一t 奎繁包台 此糍站的球地址 6 d 牡e 1 1 即麓却e c l 丘c在这个特定的代码字段中鸯挂伽州g 患 2 3 用基于s y s l o g 协议的日志记录事件信息 2 3 1s y s l o g 协议简介 s y s l o g 是一种工业标准的协议,可用来记录设备的日志。使用s y s l o g ,一个 远程u n i x 主机能够很好的跟踪另一台u n i x 主机。任何应用程序都能够产生 s y s l o g 信息。 在u n i x 系统,路由器、交换机等网络设备中,系统日志( s y s t 鲫l o g ) 记 录系统中任何时间发生的大小事件:管理者可以通过查看系统记录,随时掌握系 统状况。该协议是在u n i x 系统上被创建出来的。在u n i x 系统里,被s y s l o g 协 议接受的事件可以被记录到不同的文件,通过适当的配置,我们还可以实现运行 s y s l o g 协议的机器间通信,通过分析这些网络行为日志,藉以追踪掌握与设备和 网络有关的状况。s y s i o g 协议通过i p 网络允许一台机器发送事件通知信息给事 件收集者( s y s l o g 服务器或者s y s l o gd a e m o n ) 。换言之,就是一台机器或者设 备能够被配置,使之产生s y s l o g 信息并且发送到一台特定的s y s l o g 服务器 d a e m o n 。 s y s l o g 信息建立在u d p 之上,一般s y s l o g 信息在u d p 5 1 4 端口上被收集, s y s l o g 信息的长度不大于1 0 2 4 字节。由于基于u d p 协议,所以当如果因为网络 拥塞等情况导致信息包丢失,那么信息将不再重发,而是简单的丢失掉。 s y s l o g 已被许多日恚函数采纳,它用在许多保护措施中,任何行为都可以通 过s y s l o g 记录事件。通过s y s t e mc a l l ,记录用户自行开发的应用程序的运行状 况 4 。 6 浙江大学硕士学位论文 第2 章同元信息采集 2 3 2s y s l o g 在网管中的应用 s y s l o g 协议提供了一个传递方式,允许一个设备通过网络把事件信息传递给 事件信息接受者( 也称为日志服务器) 。由于每个进程、应用程序和操作系统都或 多或少地被独立完成,在s y s l o g 信息内容会有一些不一致的地方。因此,协议中 并没有任何关于信息的格式或内容的假设。这个协议就是简单地被设计用来传送 事件信息,但是事件已经被接受至4 不会被通知。s y s l o g 协议和进程最基本原则就 是简单,在协议的发送者和接受者之间不要求有严格的相互协调。事实上,s y s l o g 信息的传递可以在接受器没有被配置甚至没有接受器的情况下开始。反过来,在 没有被清晰配置或者定义的情况下,接收器也可以接收到信息。 被传输的s y s l o g 信息的格式主要有3 个容易识别出来的部分,分别是p r i 、 h e a d e r 、m s g 【扪。 s y s l o g 需要呈现记录的信息的字段如下: s o u r c c佗a l s o l l f c cm i s e d t i m er e c c i c d t i m ef a c i i i l ys e v e r i t ym s g 大部分的l i l l i | ) 【系统中都要使用s y s l o g 工具,它是相当灵活的,能使系统 根据不同日志输入项采取不同的活动。s y s l o g 工具由一个守护程序组成。它能接 受访问系统的日志信息并且根据踟s y s l o g i l f 配置文件中的指令处理这些信 息。程序,守护进程和内核提供了访问系统的日志信息。因此,任何希望生成日 志信息的程序都可以向s y s l o g 接口呼叫生成该信息。通常,s y s l o g 接受来自系 统的各种功能的信息,每个信息都包括重要级。,c 纠s y s i o g c o n f 文件通知s y s l o g d 如何根据设备和信息重要级别来报告信息。 s y s l o g d 守护进程进行系统记录。触c s y s l o g c 伽f 这个文件由一系列定义消息 发送的行组成。以群开头的是注释行。s y s l o g d 可以简单地被称为记录系统活动的 一个d a c i i l o 璐。比如可以记录谁,在什么时间,在哪里,做了什么事情;也可以 记录系统曾经发生过什么事情,比如什么时候重新引导过、软硬件的错误信息等: 也记录者系统上运行着的服务的信息。 s y s l o g d 记录的日志一般在,v 酬1 0 9 下,也有存储在另外的服务器上的。因为 s y s l o g d 记录的信息实在是太重要了,所以还要涉及日志安全的问题。 几乎所有的网络设备都可以通过s y s l o gp r o t o c o l 将日志信息以u d p 方式传送 到远端服务器,远端接收日志服务器必须通过s y s l o g d 来监听u d pp o r t5 1 4 ,并 且根据s y s l o g c o i l f 中的配置来处理本机和接收访问系统的同志信息,把指定的事 件写入特定档案中,供后台数据库管理和响应之用。也就是说可以让任何所产生 7 浙江大学硕士学位论文第2 章网元信息采集 的事件都登录到一台或多台服务器上,以便后台数据库可以相对远端设备以 o f f l i n e 的方法分析事件。 由于s y s l o g 是以u d p 方式传送,个别的日志消息可能会遗失;在网络设备崩 溃的情况下,可能不会将最有用的信息发送到s y s l o g 服务器上,这对于排除崩溃 故障不是很有用;而且s y s l o g 日志服务器容易成为攻击者的目标,对于防范系统 方面的攻击比较脆弱,需要特别注意【4 1 。 2 4 其他信息采集方法 可以通过特定的命令访问网元,获得一些信息。具体命令参考附录。 2 5 本章小结 主动告警系统的告警信息采集主要有四种方法【3 】: 一、通过s n m p 协议,取回相应o i d 的值,进行判断告警。 二、接收设备发过来的系统日志( s y s l o g ) ,并通过相应的规则库( 正则表达式) 匹配 判断是否需要告警。 三、在告警服务器p i n g 各种设备,判断设备是否存活和掉包率 四、提取网管系统的告警信息。 被动的网元信息采集方法主要有:通过s n m p 协议,被管设备出现某种故障 时主动发送t r a p 时间通知网管系统。 8 浙江大学硕士学位论文 第3 章告警相关性分析 第3 章告警相关性分析 在网络管理领域,故障被定义为产生功能异常的原因。故障是产生告警事件 的原因。告警是由在特定事件发生时被管对象发出的通报构成的一种事件报告, 用于传递告警信息。但它只是表明可能有故障发生,并不一定有故障发生。资源 的被管对象可以发出告警事件作为对系统当前发生异常的响应。告警事件包含被 管对象状态异常的信息。当网络中出现故障时,会引发一系列告警,但并不是所 有告警都表明故障原因,所以需要对网络中发生的告警事件迸行相关性分析, 确定产生故障的根本原因。 告警相关性分析是指对告警进行合并和转化,将多个告警合并成条具有 更多信息量的告警,确定能反应故障根本原因的告警,准确定位故障。告警相关 性可用于对产生多个告警进行解释,这给最初定义的告警事件增加了新含义。 3 1 告警相关性的类型 告警相关性类型已由g a b r i e lj a k o b s o n 给出,具体如下【6 】: 1 告警压缩:将发生的多个告警压缩到一个告警中。 2 告警记数:对重复到达同样的告警进行统计和设定门限值。用一个告警代几次 出现告警。 3 告警抑制:例如高优先级告警发生的前提下,抑制低优先级的告警 4 告警过滤:如果告警a 的某值不属于合法值则过滤掉告警a 。 5 告警泛化:用告警的超类代替该告警。 6 告警特化:用告警的特定子集告警代替该告警。 7 告警时序关系:相关的告警依鞭子告警发生对闼顺序,告警a 、告警b 顺 序发生时,就会发生告警c 。 3 2 告警相关性分析的方法 3 2 1 基于案例推理 案例推理是基于集中存储的认知模型,是一种解决问题的策略。知识的基本 单元是案例而不是规则。它是基于过去的经验和事例来解决问题而不是通过该问 题域中一般化的知识。它的基本思想是将以前解决问题的经验以案例的形式存放 9 浙江大学硕士学位论文 第3 章告警相关性分析 在案例库中,当遇到问题时,就从案例库中查找同类案例的求解,通过直接利用 过去的经验和方法,来解决当前的问题。例如,如果碰到一个新问题,基于案例 的推理机首先检查已存贮的实例,查找到相似的案例,然后将该案例的解决方法 应用到新问题,最后将该问题加到存贮的案例集。案例库( 知识库) 维护主要是 按著名的遗忘衄线理论,即长期不用的信息将会被遗忘,所以要删除长期不用的 案例。 在基于案例的系统中,很多过去发生的案例被存储、检索,并用来解决新问 题。由解决新问题的经验构成新的案例,系统将新的案例加入到数据库中,为将 来使用。这样系统可以通过自己的方法来获取知识而不必从通信专家那获取知 识。另外一个特点是基于案例推理可以根据出现的错误来自动改正将来的行为, 而且基于案例推理可以通过调整过去的案例,来构建新的方法,用于处理出现的 新情况m 。 基于案例推理的优点是建立案例库比较方便,在解决问题时简单快速并且效 率高;具有自学习和自组织的能力【s l ;适用于知识抽取比较困难或知识比较缺乏 的领域。但是它总是与某一个特定应用领域紧密相关,而不存在一个通用的事例 方法,必须为每一个应用领域量身定做。它对于网络变化处理反应不敏感,处理 过程较复杂而且费时,对于实时告警关联处理能力不足。同时这种方法没有严格 意义上的理论基础,限制了它的应用发展。 3 2 2 基于规则推理 在这种方法中,领域内的普通知识表示成一组规则,而与特殊情形相关的知 识则由事实组成。一个基于规则的系统由三部。分组成:工作存储区、知识库和 推理引擎i s 】。 规则的一般形式为:i f ( 前提) t h e n 每个基于规则的系统都有一个控制策略,决定应用规则的次序。例如,当结 束条件已经被满足,则停止计算1 7 】。 基于规则的系统的推理机制是一个“识别一动作”的循环过程:匹配满足当 前状态的所有规则构成冲突集;选择冲突集中最优匹配的规则;执行规则。这样 一个过程重复执行直到没有匹配的规则。 基于规则的算法最大优点是它表达直观,表示灵活,便于推理;格式清晰, 诊计和检测方便嗍;可进行模块化处理,更符合人的思维,便于人们的理解。 l o 浙江大学硕士学位论文 第3 章告警相关性分析 但问题在于基于规则的系统,当规则数目达到定量时,规则库的维护变得 越来越困难。而且知识的获取是基于规则系统的一个很大瓶颈,因为规则获取主 要从专家那里获得,规则的提取和维护比较困难,且无自学习的功能。几乎无法 确定所总结出的规则是否足够可以用来分析网络故障。规则数量与网络规模成指 数基数增长,而过多的告警规则会影响分析故障的效率和可靠性。任何网络配置 和结构的变化都会使许多告警相关性规则发生改变,因此如何确认那些相关性规 则是无效的是一个非常困难的过程。通过人工来维护大量告警相关性规则是非常 困难。因此基于规则的方法很难适应大规模的通信网络模型。 而且另外一个限制是:在这种演绎推理过程中,没有充分利用过去经验并且 缺乏记忆。因为缺乏记忆,每次遇到同样情况总要从成千上万的规则中查找,求 得同样的结论。由于该方法并没有充分利用过去的经验,基于规则的系统总是重 复同样错误,这会降低系统精度和性能。基于规则系统不能处理规则不适用的情 况。因此经常由于系统缺乏在通信管理中处理例外情况,影响了系统的健壮性【7 j 。 3 2 3 基于代码方法 代码方法的基本思想是建立潜在的问题( 故障) 和表征这些问题症状( 告警) 的 关联矩阵并用其进行问题定位。 使用代码方法进行事件关联可以分为四个步裂8 】:为系统中的部件建立事件模 型和传播模型;为所监控系统中的可能的问题和它们的症状生成规范表示即矩 阵;通过一定的方法减少矩阵中的信息量直到可以唯一标识问题,找到最小代码 书;不断的监测并通过代码书解码症状定位所发生的问题。 基于代码的告警关联方法简单、适用范围广、速度快,效率非常高,能够处 理较高比率的症状丢失和虚假症状,而且具有良好的健壮性,当网络拓扑发生变 化时也很容易调整。 该方法通过对事件知识模型的预处理,降低了进彳亍相关性分析的复杂性。根 掘可观察到的估警集合对故障进行编码,称为编码手册。在能区分故障的前提下, 编码手册尽可能要小,这可以减小监控对象,提高效率【| ”。在性能和健壮性方面 基于编码的方法都是非常不错的一种选择,但是它对网络对象的模型构建要求很 高。该方法自适应性不够好,码书设计和修改需要人工参与智能化程度不高。 所以对于复杂性很高的网络不建议用该种方法。 浙江大学硕士学位论文 第3 章告警相关性分析 3 2 4 基于数据挖掘 将数据挖掘技术引入到告警关联中,目的是为了揭示出隐含在海量原始低层 故障征兆信息后面有意义的知识和规则,从更全面的视角解释网络故障及性能问 题使网络管理者能快速地进行故障定位并进一步作出故障决策和预测佯】。 数据挖掘是在数据中发现新颖的模式。它是基于过去事例的泛化的一种归纳 学习。数据挖掘在通信领域中的典型应用是基于历史告警数据,发现告警相关性 规则。根据发现的规则,来分析和预测网络元件可能出现的故障。数据挖掘可以 用来解决许多类问题,具体如下: 分类:分类是通过一个分类模型,将数据库中的数据项映射到给定类别的某 一个。 聚类:聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。 依靠模型:发现一些可以解释各变量之间依靠性的模型。 时序模式的检测:发现事例之间的序列或时间上的模式。 使用数据挖掘方法进行告警关联能够较好她适应网络的动态变化,不需要知 道网络拓扑结构关系,因此当网络拓扑结构发生变化时,可以通过告警的历史记 录进行分析,自动发现新的告警相关性规则”l ,这减轻了网络管理员的工作强 度,提高了工作效率。因为数据挖掘的过程是不断进行的;而且可以利用挖掘领 域中大量的优秀方法找出隐藏在事件日志中的规则。数据挖掘方法因此基于数据 挖掘告警相关性系统可以很快地调整适应一些变化快的通信网络,解决通信网络 中出现的新问题。 但是这种规则过于琐碎,而且由于使用该方法忽视了网络拓扑结构等全局信 息使得关联规则只能反映局部范围的规律,需要与其他方法结合起来进行处理才 能取得较好的效果。 3 3 告警相关性分析的产品 使用不同的方法进行告警关联,有些已经应用到实际的产品中,有些还处予 研究开发阶段。下面列举一些应用不同方法进行告警关联的产品以供参考。 h e w l e t tp a c k a r d 公司开发的e c s ( e v e n tc o r r e l a t i o ns e r v i c e s ) 提供了基于 规则的告警关联操作; c a b l e t r o n 公司的s d e c t r u m 是一个基于案例推理的网络管理系统: i m p a c t 是由g t c 公司丌发的基于模型的告警关联产品; s 姒r t s 公司提供了一个基于代码方法的告警关联产品i n c h a r g e 州; 1 2 浙江大学硕士学位论文第3 章告警相关性分析 t a s a ( t h et e l e c o 册u n i c a t i o nn e t w o r ka l a r ms e q u e n c ea n a l y z e r ) 从通信 网络告警数据库中挖掘网络行为的知识。通过提供删除不感兴趣序列的操作、对 序列集合进行排序并且组成相似的序列,来完成第二阶段的工作。 a t t 的s c o u t 系统考虑重复发生的暂时性故障,使用机器学习和关联技术分 析告警的历史数据【7 j 。 还有其他的产品诸如a t & t 贝尔实验室的e c x p e n 、a g ls s y t e m s 公司的 n o 一从、i b m 公司的n e t f a c t 、s e a g a c e 公司的n e r v e c e m e r 等产品。 3 4 本章小结 目前故障管理面临的主要挑战在于报警的及时性、准确性和灵活性。一旦告 警信息产生,网络监控中心必须在最短的时间内准确定位故障点,根据故障原因 发布故障单,并派遣维修人员修复故障【9 】。 告警关联是网络故障诊断研究中的难点和热点。现在已经出现了一些告警关 联方法,但它们的关联性能在不同应用环境下存在着较大的差异。同时,不同告 警关联方法之间的优点和不足在一定程度上可以相互弥补,因而使用多种关联方 法进行故障诊断是一个较好的实现途径,具有定的借鉴意义。 浙江丈学硕士学位论文第4 章故障处理 第4 章故障处理 4 1 故障确认 当系统发生故障时,自动重新执行一次对该系统组件的数据查询,以确认确 实是发生了故障,故障确认操作可用,相关系统管理工程师可以将处理故障的方 法、过程等相关信息填入故障确认注释框里,系统将该信息自动进行存储。以后 遇到同类型的故障时,工程师可以通过查看故障确认日志获得相关参考信息。 故障确认功能能避免系统管理人员进行重复性操作,提高对故障的处理速度 和水平,帮助系统管理人员及时沟通故障处理情况。故障处理臼志功能,更能为 其它网络管理人员提供技术指导和参考,有效地提高系统管理人员的工作效率, 为企业信息平台的稳定运行提供可靠的保障【1 0 1 。 4 2 故障自动恢复 故障自动恢复功能对网络管理人员具有非常重要的意义。当出现一个临时性 的标准故障时,自动恢复功能自动执行指定脚本或p o s t 数据到指定的c g i 程 序,使服务恢复正常。比如,把一个挂起的服务器操作通过自动启动功能而使它 重新运行;把一个耗费系统过多资源的进程停止或者重新启动设备f 1 0 1 。 4 3 故障诊断 当系统发生故障后,由于系统复杂几十台路由器、服务器,用户很难 立刻根据表面现象判断出故障的真正原因,用户会根据经验一步一步地检查故 障,如p i n g 一下路由器、检查一下系统c p u 使用率、内存使用率等。这样手 工检查的缺点一是对网管人员要求高,普通网管很难胜任该工作,二是随意性强、 没有规范,很容易漏掉一些关键点,三是效率低,网管人员一边思考、一边检 查,耗时长,而网络瘫痪时间越长,企业的损失就越大。 针对此情况,可以提供工具将此连锁诊断过程程序化,一旦系统出现异常, 自动启动连锁诊断功能,实现零时定位故障,帮助用户快速查找故障根源。用户 可以根据自己的经验对某个应用或某台设备定义好连续诊断的过程,一旦该应用 或该设备运行异常,将自动启动连锁诊断程序,对可能产生故障的原因逐一进 行确认,直至找到故障根源。由于过程自动化,非常规范,不会漏掉一些关键步 骤,使检查更准确,并且这个连锁诊断过程可逐步积累,形成知识库,即使是普 1 4 浙江大学硕士学位论文第4 章故障处理 通圉管人员也可以轻松使用。流程诊断模块能使故障诊断更加快捷、方便、准确 t 1 0 1 。 4 4 邮件、短信通报
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 索引动态更新算法-洞察及研究
- 慢镜头技术的情感传递研究-洞察及研究
- 碳中和国际合作路径-洞察及研究
- 人民法院建筑方案设计
- 零延迟交互技术-洞察及研究
- 化肥厂化肥渠道开发规定
- 河北省张家口市蔚县2025-2026学年上学期九年级历史第一次月考质量检测题(无答案)
- 物联感知技术和智慧城市建设-洞察及研究
- 安徽省安庆市九一六学校2024-2025学年高三下学期第七次强化训练物理试题(含答案)
- 北京市文汇中学2024-2025学年八年级下学期4月期中道德与法治试题
- 大学英语四级冲刺需牢记的700核心词
- 设备管理的风险评估和应对策略
- 研学导师培训课件模板
- 人教版小学数学五年级上册 4 可能性 全国获奖
- 人教版小学数学四年级上册《第二单元练习题》
- 养殖场走访方案
- 上海西门妇孺医院研究(1884-1952)
- 劳动创造美好生活课件 第二课 璀璨的星空
- 《新纲要云南省实验教材 信息技术 四年级第3册(第2版)》教案(全)
- 单元12 市场营销计划、组织、执行与控制
- 使用林地可行性研究报告
评论
0/150
提交评论