(计算机应用技术专业论文)基于linuxunix的机群监控系统的关键技术的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于linuxunix的机群监控系统的关键技术的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于linuxunix的机群监控系统的关键技术的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于linuxunix的机群监控系统的关键技术的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于linuxunix的机群监控系统的关键技术的研究与实现.pdf_第5页
已阅读5页,还剩106页未读 继续免费阅读

(计算机应用技术专业论文)基于linuxunix的机群监控系统的关键技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 迅速发展的p c 机、工作站和高速网络系统,使高性能超级计算机从高端大 型机向计算机机群发展。但是,机群系统因其结构松散、节点独立性强等原因会 导致维护困难。国际上流行的方式是在节点机的操作系统之上建立一层机群管理 系统。机群监控系统是机群管理系统中的重要组成部分,其基本任务是监控机群 系统的各个性能指标,在系统发生异常时提供报警预警信息。 国内外已有机群监控系统虽具有丰富的功能和良好的性能,但仍存在普遍的 不足:( 1 ) 大部分机群监控系统采用c s 架构,在节点软件发生异常时,监控系 统将无法获取该节点的监控信息;( 2 ) 未充分利用监控信息预测系统的异常;( 3 ) 在无人值守的情况下,在某个节点发生异常时,虽然有些监控系统已提供电子邮 件或短消息报警功能,但无法判断系统管理员是否已收到报警信息。 作者在对现有几个典型机群监控系统研究分析的基础上,设计了基于c m s 的三层通信模型和半异步通信协议,对机群监控系统进行了总体设计,并实现了 数据采集器、流数据挖掘器和短消息收发器等模块,从而实现了基于l i n u x u n i x 的机群监控系统a c m s ( a u t o m a t i cc l u s t e rm o n i t o r i n gs y s t e m ) 。 本文的主要特色和创新之处为:( 1 ) 通过实现t e l n e t 协议,可获得与服务器 端软件失效的节点的通信,并采集该节点的监控信息。( 2 ) 提出了将流数据挖掘 技术应用于机群监控系统中,设计了流数据挖掘算法,用以预测机群系统将来时 间可能发生的异常和发生异常的概率,并根据预测结果进行预警。( 3 ) 设计了短 消息报警预警系统和系统管理员之间的人机交互协议,使监控系统在无人值守 时具有判断系统管理员是否获悉报警预警信息的功能,并且具有重发短消息的 功能,从而提高了报警预警系统的可靠性。 本文对a c m s 的主要模块数据采集器、流数据挖掘器和短消息收发器 进行了测试,验证了它们的可行性和功能。a c m s 中的各模块实现了预定的功能, 弥补了现有机群监控系统存在的几个不足之处,提高了机群监控系统的可靠性, 使其向智能化方向迈进。 本文研究实现的a c m s 已首次运行于对上海华虹集团计通智能卡系统有限 公司所研发和维护的上海轨道交通3 号线、4 号线和5 号线的a f c ( 自动售检票) 系统的中央计算机系统服务器的监控上。其中用于预警的流数据挖掘模块需要大 量真实数据进行反复测试和验证,因此还处于测试阶段。运行实践表明,a c m s 性能稳定,能可靠地实现监控报警功能。 关键词:机群监控系统数据采集器流数据挖掘器短消息收发器 数据分析器数据存储器 a b s t r a c t t h ef a s td e v e l o p m e n to fp c ,w o r ks t a t i o na n dh i i 曲p e r f o r m a n c en e t w o r ks y s t e m p r o m o t et h ed e v e l o p m e n to fh i g hp e r f o r m a n c es u p e r c o m p u t e rf r o mm a i n f r a m et o c o m p u t e rc l u s t e r b u tf o r t h er e a s o n sl i k el o o s es t r u c t u r e ,h i 【曲l yi n d e p e n d e n tn o d e s , e t e ,i ti sh a r dt om a i n t a i nt h ec o m p u t e rc l u s t e r t h ep o p u l a rs o l u t i o nt ot h ep r o b l e m si s t ob u i l dac l u s t e rm a n a g e m e n ts y s t e ma b o v et h eo p e r a t i n gs y s t e mo ft h o s en o d e m a c h i n e s t h ec l u s t e rm o n i t o r i n gs y s t e mi sa l li m p o r t a n tc o m p o s i t i o no ft h ec l u s t e r m a n a g e m e n ts y s t e m i ti sm a i n l yr e s p o n s i b l ef o rm o n i t o r i n ga l lp e r f o r m a n c ei n d e xo f t h es y s t e ma n d p r o v i d i n ga l a r mw h e ne x c e p t i o n i st h r o w no u t a l t h o u g ht h ee x i s t i n gc l u s t e rm o n i t o r i n gs y s t e m si nt h ew o r l dh a v er i c hf u n c t i o n s a n dg n o ap 胃触n 勰。岛t h e y 则h a v e3 锄cd r a w b a c k sa sf o l l o w s :1 ) m o s to f t h e m u s ec sf r a m e w o r k ,w h i c hm a k e st h es y s t e mu n a b l et og e tt h en o d ei n f o r m a t i o nw h e n s o f t w a r eo nt h a tn o d et h r o we x c e p t i o n s 2 、t h em o n i t o r i n gi n f o r m a t i o ni sn o tf u l l y u t i l i z e dt op r e d i c te x c e p t i o n so fs y s t e m 3 ) e s p e c i a l l yw h e ne x c e p t i o nh a p p e n sw i t h 1 1 0o n eo ns i r e , s o m es y s t e m sa l r e a d yu s ee m a i lo rs m st oa l e r tr e s p o n s i b l ep e r s o nb u t i tc a n n o tm a k es u r et h a tw h e t h e rt h ei n f o r m a t i o ni sr e c e i v e dc o r r e c t l yo rn o t o nt h eb a s i so fr e s e a r c ho ns e v e r a le x i s t i n gt y p i c a lc l u s t e rm o n i t o r i n gs y s t e m s , t h i sp a p e rh a sd e s i g n e dat h r e e - l a y e rc o m m u n i c a t i o nm o d e lb a s e do nc m sa n dt h e h a l fa s y n c h r o n o u sc o m m u n i c a t i o np r o t o c o l ,a n dc o m p l e t e do v e r a l ld e s i g no ft h e c l u s t e rm o n i t o r i n gs y s t e m sw h i c hr e a l i z et h ea c m s ( a u t o m a t i cc l u s t e rm o n i t o r i n g s y s t e m ) b a s e do nl i n u x u n i xt h r o u g hi m p l e m e n t i n gm o d u l e ss u c ha sd a t ac o l l e c t i n g , s t r e a m i n gd a t am i n i n ga n ds m sr e c e i v i n ga n ds e n d i n g t h em a i nw o r ko f t h i sp a p e ri n c l u d e s :1 ) u s i n gt e l n e tp r o t o c o l ,i th a sr e a l i z e dt h e s c h e m eo fa c h i e v i n gm o n i t o r i n gi n f o r m a t i o nt h r o u g hc o m m u n i c a t i o nw i t hn o d e s w h i c hh a sf a i l e dt oc o n n e c tw i t hs e r v e rm a c h i n e 2 ) b ya p p l y i n gs t r e a m i n gd a t a m i n i n gt e c h n o l o g yt oc l u s t e rm o n i t o r i n gs y s t e m s ,i td e s i g n ss t r e a m i n gd a t am i n i n g a l g o r i t h m ,f o rt h ep u r p o s eo f p r e d i c t i n gc l u s t e rs y s t e m sp o s s i b l ee x c e p t i o n sa n dt h e i r p r o b a b i l i t ya sw e l la ss e t t i n ga l e r ta c c o r d i n gt ot h ep r e d i c t i n gr e s u l t s 3 1i td e s i g n s a l e r ts y s t e m st h r o u g hs h o r tm e s s a g ea n dh u m a nm a c h i n ei n t e r a c t i o np r o t o c o l sf o r s y s t e ma d m i n i s t r a t o r , w h i c hw i l lr e s e n dt h es h o r tm e s s a g ew h e nt h es h o r tm e s s a g ei s t r a c e dt ob el o s tw h i c hi m p r o v e st h er o b u s t n e s so f t h es y s t e m t h i sp a p e rf i n i s h e dt h et e s t i n go nm a j o rm o d u l e so f a c m s - - - d a t ac o l l e c t i o nu n i t , s t r e a m i n gd a t am i n i n gu n i ta n ds h o r tm e s s a g es e n d i n ga n dr e c e i v i n gu n i t ,w h i c h t e s t i f i e dt h e i rf e a s i b i l i t ya n df u n c t i o n s a i lm o d u l e si na c m sr e a l i z et h e i rs c h e d u l e d i l f t m e t i o n s , m a k e1 md i s a d v a n t a g e so fe x i s t i n gc l u s t e rm o n i t o r i n gs y s t e m ,i n c r e a s et h e s y s t e mr e l i a b i l i t ya n dc o n t r i b u t et oi t si n t e l l i g e n t i z a t i o n a c m sh a sa l r e a d yb e e ni no p e r a t i o ni nm o n i t o r i n ga f c ( a u t o m a t i cf a r e c o l l e c t i o n ) s e r v e ro fs h a n g h a im e t r ol i n e3 ,l i n e4a n dl i n e5 ,w h i c hi sd e v d o p e d a n dm a i n t a i n e db yh u a h o n gs m a r tc a r dl i m i t e dc o r p o r a t i o ni ns h a r i g h a i b e c a u s et h e s t r e a m i n gd a t am i n i n gm o d u l ef o ra l e r tr e q u i r e sl a r g eq u a n t i t i e so fr e a l d a t at o r e p e a t e d l yt e s ta n dv a l i d a t e ,i t ss t i l li nt e s t i n gp e r i o d p r a c t i c es h o w st h a t ,a c m sc a n b er e l i a b l ei np e r f o r m i n gm o n i t o r i n ga n da l a r mf u n c t i o no ft h ec l u s t e rm o n i t o n n g s y s t e m 1 畸w o r d h :c l m t 蕾m o n i t o r i n $ 蹄啦锄,d c u ,d m u , s m u , d a d , d s u 1 1 i 华东师范人学顿l 学位论文 基于l i n u x u n l x 的机群监控系统的关键技术的研究和实现 主要符号对照表 缩写英文中文含义 a c m sa u t o m a t i cc l u s t e rm o n i t r i n gs y s t e m自动机群脓掩系统 a f ca u t o m a t i cf a r ec o l l e c t i o n 自动售检票 d c ud a t ac o l l e c t i o nu n i t数据采集器 d m u s t r e a m i n gd a t am i n i n gu n i t 流数据挖掘器 d a u d a t a a n a l y z e u n i t 数据分析器 d s ud a t as t o r a g eu n i t数据存储嚣 g m ug l o b a lm a n a g e m e n tu n i t全局管理器 s m u s h o r t m e s s a g e r e c t i v e s e n d u n i t 短消息收发器 d c up i n ed a t a c o l l e c t i o ni a b i t u s i n g p r o c f l l m y s t c m 采用牺文件系统的敦据采集模块 d c u1 b l n c td a t ac o l l e c t i o nu n i tu s i n gt e l n e ts e r v i c e采用t e l n e t 服务的数据采集摸块 f s mf i n i t es t a t em a c h i n e 有限状态机 p d up r o t c o ld a t au n i t协议数据单元 s m s cs h o r tm e s s a g es e r v i c ec e n t e r 短消息服务中心 g s m g l o b a ls y s t e mf o rm o b i l ec o m m u n i c a t i o n全球移动通信 s m ss h o r tm e s s a g es e r v i c e短消息业务 1 0 l 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究 成果据我所知,除文中已经注明引用的内容外,本论文不包含其他个人已经 发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在 文中作了明确说明并表示谢意。 作者签名:墨挞 作者签名:么盈骆 学位论文使用授权声明 日期;遮:! 三:篁 本人完全了解华东师范大学有关保留、使用学位论文的规定,学校有权保 留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权 将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。有 权将学位论文的内容编入有关数据库进行检索。有权将学位论文的标题和摘要 汇编出版。保密的学位论文在解密后适用本规定。 学位论文作者签名:星蛰壅导师签名:i 耋篁堑墨 日期:2 生:! 兰日期:丝12 :! 三:! o r i g i n a l i t yn o t i c e i np r e s e n t i n gt h i st h e s i si np a r t i a lf u l f i l l m e n to f t h er e q u i r e m e n t sf o rt h em a s t e r s d e g r e ea te a s tc h i n an o r m a lu n i v e r s i t y , 1w a r r a n tt h a tt h i st h e s i si so r i g i n a la n da n y o ft h et e c h n i q u e sp r e s e n t e di nt h et h e s i sh a v eb e e nf i g u r e do u tb ym e a n yo ft h e r e f e r e n c e st ot h ec o p y r i g h t ,t r a d e m a r k ,p a t e n t ,s t a t u t o r yr i g h t ,o rp r o p r i e t yr i g h to f o t h e r sh a v eb e e ne x p l i c i t l ya c k n o w l e d g e da n di n c l u d e di nt h er e f e r e n c e ss e c t i o na t t h ee n do f t l l i st h e s i s s i g n a t u r e :殳孵d a t e :砷m ,r c o p y r i g h t n o t i c e ih e r e i na g r e et h a tt h el i b r a r yo fe c n us h a l lm a k ei t sc o p i e sf r e e l ya v a i l a b l ef o r i n s p e c t i o n if u r t h e ra g r e et h a te x t e n s i v ec o p y i n go ft h et h e s i si sa l l o w a b l eo n l yf o r s c h o l a r l yp u r p o s e s ,i np a r t i c u l a r , s t o r i n gt h ec o n t e n to ft h i s t h e s i si n t or e l e v a n t d a t a b a s e s ,a sw e l la sc o m p i l i n ga n dp u b l i s h i n gt h et i t l ea n da b s t r a c to ft h i st h e s i s , c o n s i s t e n tw i t h ”f a i ru s e ”a sp r e s c r i b e di nt h ec o p y r i g h tl a wo ft h ep e o p l e s r e p u b l i co f c h i n a s 咖翼孵o a t e :嘲m 厂 华东师范人学硕十学位论j 基于l i n u x u n i x 的机群监控系统的关键技术的研究和实现 1 1 研究背景和意义 第一章引言 自2 0 世纪9 0 年代提出机群这一概念后,高性能超级计算机的趋势从高端的 大型高性能计算机向计算机机群发展,促进了机群这一计算技术得到了飞速发 展。机群是由大量计算节点通过网络互联构成的并行计算系统,具有庞大且复杂 多变的运行环境。机群系统有以下优点: ( 1 ) 高可靠性。机群计算机的体系结构能够保证为用户提供不问断的服务, 由于系统中包括多个节点,当一个节点出现故障时,整个系统中的其它 节点仍能够继续为用户提供服务。 ( 2 ) 高性价比。机群是传统的大型主机和m p p ( m a s s i v e l yp a r a l l e lp r o c e s s o r , 大规模并行处理机) 的低成本变种,而且具有水平相当的性能。 ( 3 ) 良好的扩展性。在机群系统中可以动态地增加和删除服务器,从而能够 最大限度地扩展系统以满足不断增长的应用需求。 ( 4 ) 资源可充分利用。机群中的每个节点都是相对独立的机器,当这些机器 不提供服务或者不需要再使用时,仍然能够被充分利用,而大型主机上 更新下来的配件就难以被重新利用了。 机群系统的诸多优点使其成为高性能计算的主流体系结构。随着机群技术在 科学计算、网络服务和数据库应用中的普遍应用,我们将越来越多地面临机群系 统在硬件和软件方面的故障问题,一旦某个部件失效,系统中的其他部件可能得 不到通知,由此将带来不可预见的错误和损失。因此,我们需获得机群当前的配 置情况,察看各个节点的运行状态,评估系统的性能以及诊断系统是否正常运行。 机群管理是机群充分发挥其能力的重要保证,而高效的机群管理有赖于机群 监控系统提供准确及时的机群运行状态信息作为其资源调度和机群配置的依据。 机群监控系统的主要目标是从各个节点采集监控信息,如c p u 利用率、内存利 用率、磁盘空间利用率、主板电压、进程数、c p u 温度等,然后将这些监控信 息汇集到一起,以便于综合分析和处理,最后根据分析和处理的结果作出相应的 管理决策。通过机群监控系统,可以迅速了解机群系统的整体配置情况,可以准 确地把握机群系统各个节点的监控状况,可以全面地察看节点的性能指标,可以 快速地进行机群监控系统运行时故障诊断。作为机群管理的重要基础设施,机群 监控系统的性能和能力直接影响机群管理的效率,进而影响着机群的整体性能。 目前,大部分机群监控系统的研究都集中在可靠性和扩展性上,并且有如下 普遍的特点:( 1 ) 获取多类型的监控信息。( 2 ) 提供监控信息的存储,以便于历 华东师范大学硕上学位论文基于l i n u x u n i x 的机群监控系统的关键技术的研究和实现 史数据的查询。( 3 ) 提供可视化的图形界面实时显示机群的运行状态。 但是,这些监控系统仍存在以下不足之处:( 1 ) 大部分机群监控系统采用c s 架构,在节点软件发生异常时,监控系统将无法获取该节点的监控信息。( 2 ) 未 充分利用大量的监控数据并从中获得有用的隐藏信息。( 3 ) 需要耗费人力资源时 刻监视,在无人值守状态下系统将无法实现实时报警预警。 本文研究的意义是:研究现有的国内外机群监控系统,发现其不足之处并提 出改进的方法,促进机群监控系统技术的发展。国内外已经存在不少机群监控系 统,但各监控系统采用不同的实现技术和方法,没有统一的标准可循,因此对于 机群监控系统还有很大的研究空间。 1 2 典型机群监控系统的分析 国外对帆群监控系统的研究较国内起步早,针对不同机群研制了多种不同架 构的机群监控系统,典型的有印度高性能开发中心研制的p a r m o n ”、美国 c a l i f o r n i a 大学l o s a l a m o s 国家高性能计算机实验室研制的s u p e r m o n 2 1 、美国加 州大学b e r k e r l e y 分校开发的g a n g l i a 3 1 等。国内对机群监控系统的研究有:曙光 公司的d c m s ( d a w n i n gc l u s t e rm a n g e m e n ts y s t e m ) 和d c m m 2 4 1 ( d a w n i n g c l u s t e rm o n i t o rm a n a g e m e n te d i t i o n2 叫) 等机群系统软件。此外,还有不少商用 机群监控系统,如o p e n v i e w i 扪、t i v 0 1 i 【6 1 和b i gb r o t h 一7 1 等。 以下将对其中几个机群监控系统作简要的介绍和分析。 1 2 1 现有典型机群监控系统简介 p a r m o n 采用了典型的c s ( c l i e n t s e r v e r , 客户端服务器) 体系结构,它 主要由p a r m o n s e r v e r 和p a r m o n - c l i e n t 两个部分构成。p a r m o n s e r v e r 部署在每 个计算节点上,它是用c 语言和p o s i x s o l a r i s 开发,用于采集节点监控信息。 p a r m o n c l i e n t 部署在一个管理工作站,它是用j a v a 语言开发,主要用于从 p a r m o n - s e r v e r 获取每个节点的监控信息,并以图形化界面的形式展示给系统管 理员。p a r m o n 监控系统所监控的内容包括:处理器的健康状况监控、资源利 用率监控、系统日志监控、节点操作系统内核监控、内存监控、磁盘监控、网络 监控等。由于p a n n o n s e r v e r 与p a r m o n c l i e n t 之间是交互式的,所以该监控系统 可以灵活选择被监控的对象,这个对象既可以是整个机群,一个节点,甚至具体 到节点上的某个部件。因此,队r m o n 可以从三个层面对机群进行监控,即机 群整体、机群节点和节点部件。 s u p e r m o n 是针对超大规模机群的高性能的机群监控系统。它通过开发定制 的l i n u x 核监控信息采集模块( k d s b p :k e r n e ld a t as a m p l e sb a s e dp r o c ) ,使得节 2 华东师范人学碗十学位论文基于l i n u x 1 3 n l x 的机群监控系统的关键技术的研究和实现 点机具有很高的信息采集效率,降低了信息采集对节点机产生的性能影响。由于 其各部件( 数据集中器s u p 锄o n 和单节点机监控服务器m o n ) 均采用同样的t c p 通信协议,因此可以灵活组织形成多级代理层次式结构,实现对超大规模机群的 监控。k d s b p : u 用了l i n u x 的可加载内核模块机制( l i n u xk e r n e lm o d u l e ,l k m ) , 通过l k m 与p r o c 文件系统采集内核信息,m o r t 用于访问本地的k d s b p 模块,同 时m o n 实现了与s u p e m a o n 通信的通信协议,s u p e r m o n 用于访问所有的m o n ,从而 采集所有节点的监控信息。虽然s u p e r m o n 采用了分层的c s 架构,但由于在工作 时s u p e r m o n j | 囔序连接每一个m o n ,使得s u p e r m o n 成为系统中的单一实效点,从而 导致系统的可靠性下降。 g a n g l i a 系统是建立在分级、联邦的基础之上,其结构为树状结构,这使得 它有着很好的可扩展性,可以容易地适应不同规模的机群。基于x m l 技术的数 据传递可以使得系统的状态数据跨越不同的系统平台进行交互。此外,集中式的 管理、低负载和系统的健壮性等也都是该监控系统的特点。g a n g l i a 使用了一种 树状结构,这种树状结构使得g a n g l i a 可扩展性大为提高,理论上可以进行无限 扩展。通过此树状结构,g a n g l i a 将节点分成了不同的区,在一个区域内部的所 有单个节点都有一个共同的多播地址,节点通过多播交换信息。区域内的每个节 点定期通过多播向所有区内的邻居发出自身的节点状态信息,同时也接收其他所 有邻居发来的多播信息,从而每个节点都形成了一张区内所有节点的节点状态 图,这样节点只需连接区内的任意其他节点都可得到整个区的状态,并最终得到 一张所有节点的状态图。g a n g l i a 通过多播实现动态增删节点,而不需要任何的 配置,因为节点加入后就向多播地址发送自己的状态信息,并最终被邻居获得, 节点退出时它的信息在邻居表中不再被更新,这将导致超时而使其信息失效。 曙光公司的d c m m 2 是在d c m m l 的基础上开发的,在功能上有了很多改 进。d c m m 2 不仅提供对机群节点的软硬监控信息的实时显示,而且提供一些 设备如交换机、盘阵的实时信息监控,并实时预警。d c m m 2 使用了数据库存储 监控的信息,提供历史数据分析和查询。它还提供远程监控功能,可以远程监控 机群的资源信息,并提供远程开关机功能。对于大规模机群,支持机群的模块化 扩展功能。d c m m 2 机群监控系统在性能方面也做了很多优化,它采用串行并行 模型和异步通信方式,减少采集监控信息的延迟,同时当机群规模较大时,选择 增加监控机的方式,进行大规模节点监控数据的采集。还增加了一个检查各节点 状态的进程,用于检查配置文件中列出的各节点是否连通,对标注为不通的节点 跳过不操作,有效减少了采集模块连接节点超时等待的时间,提高了采集数据的 效率。数据库查询采用分步返回,将查询结果分成多个数据包返回给客户端,无 需等待全部数据返回后显示,缩短了客户端查询数据的延迟。 牛东师范大学顾1 :学位论文基于l i n u x u n i x 的机群监控系统的关键技术的研究和实现 1 2 2 现有机群监控系统存在的不足 本文通过现有机群监控系统的分析,发现这些监控系统主要存在的不足有如 下几点: ( 1 ) 机群监控系统软件的自适应性差。 当机群监控系统软件发生异常,即节点软件失效( 未安装或发生故障) 时, 将无法获取机群的运行状态信息。大部分监控系统采用c s 架构,客户端和服务 器端的任何一方软件发生异常,都使得监控系统无法从节点机上获取监控信息, 例如p a r m o n 和s u p e r m o n 。 ( 2 ) 未充分利用监控数据来预测系统潜在的异常。 现有机群监控系统都只是对某项指标( 如c p u 、内存等) 的参数显示,而 且多数为即时数据的显示,获得的监控信息有三个用途:第一,将监控信息与设 定的阈值比较,判断是否触发报警;第二,采集的监控信息提供客户端图形界面 的即时显示;第三,将监控信息存储于数据库,以供历史数据的查询和报表的生 成。此外,监控数据还存在其他用途,例如,不同监控信息流之间的相关性有助 于系统管理员更早地发现潜在异常。但是,多数现有的机群监控系统均未充分利 用监控数据来预测系统潜在的异常,例如p a r m o n 和s u p e r m o n 。 ( 3 ) 无人值守情况下,监控系统与系统管理员的交互性差。 现有机群监控系统大部分提供可视化的图形界面来显示即时的监控信息,并 在系统异常时使用不同颜色或形状的图标将报警信息传递给系统管理员,因此系 统管理员需时刻关注监控系统提供的信息。而在无人值守的情况下,一旦某个节 点系统产生故障,监控系统无法将报警信息即时传递给系统管理员,由此可能造 成不可预见的损失。虽然,有些监控系统已提供电子邮件或短消息报警的功能, 但监控系统只能发送报警信息,而无法判断系统管理员是否己收到报警信息。例 如p a r m o n 、s u p e r m o n 和d c m m 2 都提供可视化图形界面,但是在无人值守时, 都无法将报警信息传递给管理员,即使通过已经发出了报警信息,仍无法判断系 统管理员是否获知了这一报警信息。 1 3 本文的主要研究工作 作者设计并实现了机群监控系统a c m s ,主要研究工作如下: ( 1 ) 对机群监控系统的通信模型和通信协议的研究:分析常用的基于c s 架 构的通信模型和r e q u e s v r e s p o n s e 模式的通信协议的缺点,即在服务器 数量较大时,监控信息通信的效率较低。因此,本文在c s 架构中引入 了中间代理,设计了c m s 的三层通信模型。基于该三层通信模型,分 4 华东师范人学顾七学位论义 举于l i n u x u n l x 的机群监控系统的关键技术的研究和实现 别研究了同步和异步的r e q u e s t r e s p o n s e 模式的通信协议,分析它们的 优缺点,最后提出了半异步通信协议,结合了同步和异步通信协议的优 点。该半异步通信协议比同步通信协议效率高,比异步通信协议可靠性 高。继而在c m s 架构的三层通信模型和半异步的r e q u e s t ,r e s p o n s e 模 式的通信协议的基础上,设计了机群监控系统的系统架构和各个模块。 ( 2 ) 对p r o c 伪文件系统的研究:比较四种可用的监控信息的采集方法,从实 现难易、工作量大小、灵活性好坏、效率高低等方面进行评价分析,并 从本文设计的数据采集器的功能目标出发,采用基于p r o e 伪文件系统的 方法,并设计和开发了基于p r o c 文件的监控信息采集模块d c up r o c 。 ( 3 ) 对t e l n e t 协议的研究:研究t e l n e t 协议规范,深刻理解网络虚拟终端、 选项协商原理和通信两端的对等性这三个概念及其中的规范。通过设计 有限状态机的方法来描述t e l n e t 协议如何处理字符命令并进行协商。实 现了在节点软件失效时,通过实现t e l e n t 协议的方法取得与该节点的通 信,设计和开发了基于t e l n e t 协议的监控信息采集模块d c ut e l n e t 。在 被监控机端信息采集模块未安装或失效时,d c ut e l n e t 能够临时获取监 控信息。 ( 4 ) 对流数据挖掘进行研究:提出了将流数据挖掘技术应用于机群监控系统。 导出了多个流数据相关系数的计算公式,设计了基于概率统计的流数据 挖掘算法,该算法从大量的监控信息中挖掘出隐藏的知识,帮助监控系 统提高性能,发现被监控机潜在的异常,并触发预警。本文的流数据挖 掘算法对流数据的处理依次包括:a ) 离散数据的分段直线拟合:离散数 据的分段直线拟合是将数量较多的离散数据转化为相对数量较少的流数 据模式,通过转化后的模式流可以描述流数据的上升或下降的趋势。b 1 相关性计算:相关性计算是计算流数据间的相关系数。对于相关系数的 绝对值超过阈值才进行模式依赖挖掘。c ) 模式依赖挖掘:模式依赖挖掘 是根据一个模式流中出现的模式串预测另一个模式流出现的可能在较短 时问内导致异常的模式串,并触发预警。 ( 5 ) 对短消息收发的研究:设计实现了短消息收发模块s m u ,并设计人机交 互协议,利用o r a c l e 数据库中序列号的近似唯一性,使得监控系统能够 判断系统管理员是否获知报警预警信息,并设置了超时重发功能。从而 提高了机群监控系统的可靠性。 本文研究实现的a c m s 已首次运行于对上海华虹集团计通智能卡系统有限 公司所研发和维护的上海轨道交通3 号线、4 号线和5 号线的a f c ( 自动售检票) 系统的中央计算机系统服务器的监控上。其中用于预警的流数据挖掘模块需要大 华东师范人学颇i 二学位论文基十l i n u x u n i x 的机群髓控系统的关键技术的研究和实现 量真实数据进行反复测试和验证,因此还处于测试阶段。运行实践表明,a c m s 性能稳定,能可靠地实现监控报警功能。 1 4 本文的组织结构 本文共分为七章: 第一章引言。阐述机群系统的发展和研究机群监控系统的必要性,分析现 有典型机群监控系统及其不足,并介绍本文所做的主要工作。 第二章机群监控系统a c m s 的总体设计,包括机群监控系统a c m s 的功能 介绍、通信模型和通信协议的分析和设计、a c m s 系统架构及系统 中各个组成模块的简单介绍。 第三章数据采集器的设计。j b x 过,p r o c 伪文件系统获取监控信息,并提出了 在被监控机端软件失效时,通过实现t e l n e t 协议来建立连接,由中 j 、日j 代理主动获取p r o c 文件,并进行解析后发送给监控机。用有限状 态机描述t e l n e t 协议处理字符的过程,以指导代码的实现。 第四章流数据挖掘器的设计。针对大量流数据近似无限的特性,设计了一 种在有限内存空间内对具有较强相关性的流数据进行模式依赖挖掘 的算法,通过计算获得四元组,并根据当前四元组,对相应监控信 息流数据在某一将来时间可能发生的危险模式进行预测。 第五章短消息收发器的设计。设计了一种人机交互协议,实现简单,使得 监控系统能够感知到系统管理员是否获知报警预警信息,从而向未 收到报警预警信息的系统管理员重发短消息,增强了监控系统的可 靠性,并在此协议的基础上,对短消息收发功能实现的处理流程进 行设计。 第六章机群监控系统a c m s 的三个主要模块数据采集器d c u 、流数据 挖掘器d m u 和短消息收发器s m u 的测试。验证了它们的可行性和 功能,并介绍了a c m s 的运行情况。 第七章总结和展望。对本文的内容和所做的工作进行总结,并提出本文下 一步的研究和探讨的方向。 6 华东师范人学硕l 学位论文基十l i n u x u n i x 的机科监控系统的关键技术的研究和实现 第二章基于l i n u x u n i x 的机群监控系统a c m s 的总体 设计 本章中,作者在确定了机群监控系统a c m s 的设计目标及功能之后,分析 了基于c s 架构的两层通信模型的缺点,设计了基于c m s 架构的三层通信模 型;分析和比较r e q u e s t r e s p o n s e 模式的同步和异步两种方式的通信协议的优缺 点,设计了r e q u e s t r e s p o n s e 模式的半异步通信协议,最后阐述了a c m s 的总 体架构和其中各组成模块的功能。 2 1 机群监控系统a c m s 设计的目标 本文设计的基于l i n u x u n i x 的机群监控系统a c m s 的目标是: ( 1 ) 可扩展性:机群监控系统作为监控机群工作状态的重要工具,必须能够 在机群规模变大时不影响原有系统的工作,新增加的节点应当能够动态 加入监控系统,同样当节点规模变小时也能自动识别,即机群规模变化 后系统仍能正常工作。 ( 2 ) 可靠性:作为机群监控系统,其自身的可靠性将严重影响整个机群系统 的正常工作,因此当单个节点的监控软件出现故障时,监控系统应能自 动采取措施,使其仍能从该节点获取基本的监控信息。 ( 3 ) 可管理性:系统易于控制和操作,并且是高效的。在机群系统中,因为 节点数量较大,让系统管理员亲临每个节点进行操作将耗费大量人力。 为机群系统提供易用和高效的管理,是机群监控系统设计的一个目标。 ( 4 ) 自动分析:以往的机群监控系统是利用阈值触发报警,这使得机群监控 系统只有在节点发生了故障或异常后才能报警。能够主动分析大量监控 信息并作出决策是今后机群监控系统发展的方向。 ( 5 ) 无人值守:虽然可视化的图形界面使得系统管理员对机群系统的管理更 快捷,但是在无人值守情况下的髓控将使机群监控系统更加可靠。 2 2 机群监控系统a c m s 的功能 本文设计的机群监控系统a c m s 的功能如下: ( 1 ) 静态信息的收集。 静态信息是指机群中每个节点的配置信息,包括c p u 个数、c p u 型号、c p u 频率、主板频率、磁盘空间大小、内存大小等。获取每个节点的配置信息有利于 7 牛东帅范人学硕i :学位论文苯十l i n u x u n i x 的机群监挖系统的关键技术的研究和实现 系统管理员了解机群的整体状况,而由于机群一般具有较大的节点数量,因此有 必要使用监控系统自动收集机群中各节点机的配置情况。 ( 2 ) 动态信息的收集。 动态信息是指c p u 利用率、c p u 温度、磁盘空间利用率、可用磁盘空问大 小、内存利用率、可用内存大小、进程数等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论