




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)大规模机群远程监控管理关键技术及实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
、 独创性声明 : , i t 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。就我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 虢起嗡蹶少砌2 9 关于论文使用授权的说明 中国科学院计算技术研究所有权保留送交论文的复印件,允许论文 被查阅和借阅:并可以公布论文的全部或部分内容,可以采用影印、缩 印或其它复制手段保存该论文。 签名匆如同本 导师签名日期:铱2 p 摘要 目前高性能的超级计算机的趋势是从高端的大型机向商业化计算机机群发 展。这是因为迅速发展的p c 、t 作站和高速网络系统,使得机群系统的性能和可 用性不断提高,完全有可能替代原有的大型机系统。由于机群系统结构松敖、节 点独立性强、网络连接复杂难以维护。为了解决这个问题,国际上流行的方式是 在节点机的操作系统之上建立一层监控管理系统来管理整个机群,称之为机群监 控管理系统。本文以曙光机群系统为背景,对机群环境下的大规模服务器远程监 控管理关键技术进行了分析,并在此基础上实现了一套大规模的机群监控管理系 统d c m m 2 。 d c m m 2 机群监控系统采用软硬件结合的结构体系,c s 的分层结构,可对大 规模机群进行远程监控和控制。d c m m 2 实现了对各服务器节点软硬件数据的实 时监控、资源信息的实时监控。d c m m 2 机群监控系统还提供了历史查询和分析 的功能,采用了多元化报警方式,并可以远程控制各个节点服务器的开机、关机 和重启。d c m m 2 采用三层异步通信模式,保证了监控数据的刷新延迟很低,使 其使用性能提高。d c m m 2 机群监控系统丰富的功能和稳定的性能,对大规模机 群系统有效运行起到很好的监控保证作用。 本文首先讨论了机群监控系统的现状,综合分析了现有的各种实现方法,总 结了现在机群监控系统的优缺点。在此基础上,提出了研制适用大规模机群监控 的设计目标。d c m m 2 监控系统是在此目标基础上提出的一套解决方案。本文分 析了大规模机群监控系统d c m m 2 采用的关键技术,软硬件结合的体系结构,采 用s n m p 模型实现对机群资源的监控、采用三层异步的通信模式、和灵活的s o c k e t 网络连接。然后,介绍了d c m m 2 的整体设计方案。最后对d c m m 2 机群监控系统 从功能和性能方面进行了评价。文章最后,讨论了目前系统还存在的一些问题和 进一步的工作。 关键词:机群监控系统协议服务 t h ek e yt e c h n o l o g ya n di m p l e m e n t a t i o no f m o n i t o r i n gs y s t e mf o rl a r g es c a l ec l u s t e r z h a oy u e h u i ( c o m p u t e r a p p l j c a t i o nt e c h n o l o g y ) d i r e c t e db yn i eh u a a b s t r a c t c u r r e n t l yt h et r e n do fh i g h p e r f o r m a n c es u p e rc o m p u t e r i s g r o w i n gf o r m h i g h e n dl a r g ec o m p u t e rt oc o m m e r c i a lc o m p u t e rc l u s t e r t h er e a s o ni s t h eg r e a t d e v e l o p m e n to fp c ,w o r k s t a t i o na n dh i g h - s p e e dn e t w o r ks y s t e m t h i sm a k e t h e p e r f o r m a n c eo fc l u s t e rs y s t e mi si n c r e a s i n gs p e e d i l y s oi ti sp o s s i b l et h a tt h ec l u s t e r t a k e sp l a c et h el a r g ec o m p u t e rs y s t e m t h em a i n t e n a n c ea n dm a n a g e m e n to f c l u s t e ri s h a r db e c a u s eo f i n c o m p a c ts t r u c t u r e ,s t r o n g l yi n d e p e n d e n tn o d e sa n dc o m p l e xn e t w o r k i no r d e rt os o l v et h i sp r o b l e m ,t h ep o p u l a rm e t h o di st ob u i l dac l u s t e rm o n i t o r i n g s y s t e ma b o v et h en o d eo p e r a t i n gs y s t e m b a s e d o nt h er e s e a r c ho f t h ed a w n i n gc l u s t e r , a n a l y z e st h ek e yt e c h n o l o g yo fl a r g es c a l ec l u s t e rm o n i t o r i n g ,a n dd e s i g nas y s t e mo f l a r g es c a l ec l u s t e rm o n i t o r i n gn a m e dd c m m 2 t h es t r u c t u r eo fd c m m 2i sc o m b i n i n gh a r d w a r ea n ds o f t w a r e d c m m 2i sc l i e n t a n ds e r v e rm o d e ,c a nm o n i t o rt h el a r g e rs c a l ec l u s t e rr e a lt i m e d c m m 2c a ng a t h e rt h e s t a t u so ft h es w i t c ha n dr a i di nt h ec l u s t e rs y s t e m d c m m 2p r o v i d e st h er m c t i o no f q u e r y i n ga n da n a l y z i n go fh i s t o r yd a t a w ec a ng e tt h ea l a r mo fc l u s t e rt h r o u g h m u l t i - m e t h o d w ea l s oc a nc o n t r o lt h en o d e st op o w e ro f f , p o w e ro na n dr e s e tt h r o u g h i n t e r n e t r t b e c a u s ed c m m 2u s et h r e el a y e r sc o m m u n i c a t i o nm o d e l ,t h ed e l a yo f d c m m 2i sv e r ys h o r t t h a tm a k et h ep e r f o r m a n c eo fd c m m 2i se x c e l l e n c e t h e a b u n d a n tf u n c t i o na n ds t a b i l i t yp e r f o r m a n c eo f d c m m 2 ,g r a n tt h el a r g ec l u s t e rs y s t e m o p e r a t i n go r d e r l yu n d e rt h ee f f i c i e n c ym o n i t o r i n ga n dc o n t r o l l i n g f i r s tt h i sp a p e rt a l ka b o u tt h es t a t eo f c l u s t e rm o n i t o r i n g ,a n a l y z e st h em e t h o d so f c l u s t e rm o n i t o r i n gn o w a d a y s ,s u m m a r i z e st h em e r i t sa n ds h o r t c o m i n go ft h e s ec l u s t e r m o n i t o r i n gs y s t e m b a s e do nt h i s ,w eg o tt h eg o a lo fd c m m 2 d c m m 2i sas o l v i n g p l a no fl a r g e rc l u s t e rm o n i t o r i n g a f t e ra n a l y z i n gt h ek e yt e c h n o l o g yo fd c m m 2 , 2 s o f t w a r ea n dh a r d w a r ec o m b i n i n gs t r u c t u r e ,m o n i t o r i n gc l u s t e rr e s o u r c eb a s e do n s n m pm o d e l t h r e el a y e r sc o m m u n i c a t i o nm o d e l ,a n dc o m m u n i c a t i o nt h r o u g hs m a r t s o c k e t t h e nt a l k i n ga b o u tt h ew h o l ed e s i g np l a no fd c m m 2 f o l l o w i n g ,v a l i d a t i n g t h ef u n c t i o na n dp e r f o r m a n c eo fd c m m 2 a tt h ee n d , t a l k i n ga b o u tt h ep r o b l e ma n d n e x tw o r ko f d c m m 2 k e yw o r d s :c l u s t e r ,m o n i t o r i n gs y s t e m ,p r o t o c o l ,s e r v i c e 大规模服务器远程监控关键技术及实现 第一章引言 1 1 机群系统 目前高性能超级计算机的趋势是从高端的大型高性能计算机【1 1 向商业化的计 算机机群发展。这是因为迅速发展的p c ,工作站和高速网络系绀2 1 使得机群系统 的性能和可用性不断提高,完全有可能替代原有的高性能大型机系统。将服务器 集中在一起统一进行管理和维护就是我们所说的机群系纠3 1 。它保持了分布式客 户机服务器模式的开发性、可扩展性的优点,同时又具备了终端主机模式的资 源共享和集中易于管理的优点。相对集中的机群系统,降低了系统管理的成本, 而且还提供了和大型服务器系统可比拟的服务能力。也就是可以用比原来相对较 低的费用来获得高性能的服务。下面具体的谈一谈机群计算机的优势: 1 1良好的扩展性 在机群系统中可以动态地加入新的服务器和删除需要淘汰的服务器,从而能 够最大限度地扩展系统以满足不断增长的应用的需要。 2 ) 可靠性好 可靠性是服务型应用中最重要的因素,是评价和衡量系统的一个重要指标。 机群计算机的体系结构能够保证为用户提供不问断的服务,由于系统中包括了多 个结点,当一个结点出现故障的时候,整个系统中的其它节点仍然能够继续为用 户提供服务,从而保证可靠性。 3 ) 性价比高 性能价格比和传统的大型主机和m p p 机器相比,具有很大的价格优势,而且 具有水平相当的性能。在实际应用中,性能价格比往往是决定一个产品可否生存 的关键。 4 )资源可充分利用 机群服务器的每个结点都是相对独立的机器,当这些机器不提供服务或者不 需要使用的时候,仍然能够被充分利用。而大型主机上更新下来的配件就难以被 重新利用了。 由于以上的优点,机群技术已成为高性能计算机体系结构的发展趋势之一, 而且利用机群技术产生的机群系统以其良好的可扩展性和性能价格比,迅速成为 6 第一蕈引言 高性能计算领域的主流体系结构。 但是由于机群系统结构松散、节点独立性强,造成机群难以管理和维护,用 户用起来也不十分方便。为了解决这一问题,国际上流行的方式是在各节点的操 作系统之上再建立一层监控管理系统来管理整个机群,称之为机群管理系统 5 1 。 相比于单机操作系统、s m p 操作系统,机群管理系统的设计仍然停留在落后的局 面,一般只能针对专有的体系结构设计,移植困难。在国内曙光公司一直从事这 方面的研究。陆续推出了曙光1 7 0 0 、曙光3 0 0 0 和曙光4 0 0 0 a 等一系列机群系统。 同时其研究的内容也包括机群管理系统的设计和开发。推出了自主研发的d c m s ( d a w n i n gc l u s t e rm a n g e m e n ts y s t e m ) 和d c m m ( d a w n i n gc l u s t e rm o n i t o r m a n a g e m e n t ) 等系列机群系统软件,且其功能也不断的增强。 1 2 机群监控系统 随着机群技术在科学计算、网络服务和数据库中的普遍应用,我们越来越多 地面临系统硬件和软件的故障问题。在机群系统中,一旦某个部件失效,管理员 不能及时得到通知,由此可能会造成不可预见的损失。因此我们需要监控这种失 效,并采取措施。作为监控机群系统状态的监控技术1 6 l ,应该能够有效的检测各 种相关部件的状态,而且在相关错误发生或者一定的状态出现时,能够及时的给 予通知。另外,它还应该提供友好的用户界面,方便用户监控整个机群系统。 另外目前机群应用越来越广泛,机群节点也越来越多元化,资源也越来越丰 富,这些资源的状态也会影响整个机群系统的稳定运行。所以需要对这些扩展的 机群资源进行监控【_ 1 。然而,目前这样的信息融合的系统监控工具比较少,因此, 构建一个全面有效的机群监控系统,是机群系统稳定运行的重要保证【8 】。 机群监控系统应能够实时监控整个机群的工作状态【9 1 ,管理机群系统,保证 机群高效、可靠和安全运行而设计的一套多功能、易使用、可扩展的实用化图形 化机群监控工具。此外,由于机群技术不断发展,对机群管理系统的要求也越来 越高。首先,它必须具有可移植性,能够管理异构机群( 机群中的结点具有不同 的操作系统) ;应该具有可扩展性,使得机群规模不断增加;由于i n t e m e t 的飞速 发展,异地化管理的需求也越来越高,对于远程监控管理的要求也是必不可少的。 最后,还必须具有可操作性,界面友好,使用户使用方便等等。 7 大规模服务器远程监控关键技术及实现 1 3 本文的主要内容 本文作者有幸参加了d c m m 2 机群监控软件的开发工作,参与了机群监控系 统的监控中整体架构的设计,并完成了主要功能模块的开发。d c m m 2 机群监控 系统是一套远程大规模机群监控系统。d c m m 2 可以实时监控节点状态、存储设 备工作状态、交换机工作状态,它同时提供了历史数据查询、数据分析功能、远 程控制和多元化报警等功能。是一套具有良好可扩展性、可用性和可管理性的远 程大规模机群监控系统。 本文共分为六章,第一章为引言,讲述机群系统的发展,和建立机群监控系 统的必要性。然后介绍本文主要的内容。第二章介绍了目前比较流行的几种机群 监控系统,并阐述现有机群监控系统存在的一些问题。第三章介绍了d c m m 2 机 群监控系统的关键技术和实现方法。第四章比较了d c m m 2 和d c m m l 的区别。 第五章从功能和性能上分析了d c m m 2 ,并做出评价。第六章是结论,总结论文 所做的工作,及下一步的工作方向。 第二章目前机群监控管理系统现状 第二章目前机群监控管理系统现状 随着机群的广泛应用,为了使管理员能够及时了解机群的运行状态信息,针 对不同机群设计和开发了多种不同架构的机群监控系统。这些系统中比较典型的 包括s u p e r m o n t l 0 1 、g a n g l i a 1 1 1 【1 2 】 d p a r m o n 【1 3 1 。下面对这几个系统进行简单介绍 2 1s u p e r m o n s u p e r m o n 是由美 亘l o sa l a m o sn a t i o n a ll a b o r a t o r ya d v a n c e dc o m p u t i n g l a b o r a t o r y 开发的一套面向l i n l l ) ( 机群的一种监控系统它的结构如图2 1 所示。 图2 1s u p e r m o n 的体系结构 s u p e r m o n 使用了分层的c s 的结构,在部署时m o n 驻留在机群中所有需要被侦 测的节点上( 它是一个定制的内核模块,这使得节点机具有很高的信息采集效率, 降低了信息采集对节点机产生的性能影响) ,机群内所有的m o n 在同一个t c p 端 口上进行监听。工作时s u p e m o n 顺序地连接每一个m o l l ,通过和m o n j 挂行交互获 得数据,这种结构虽然使用了分层结构,但是因为只有一个s u p e r m o n ,所以节点 规模变大时速度会线性下降。同时s u p e r m o n 监控系统只是基于l i n u x 操作系统开发 的,它的可移植性较差,使得它的应用范围变的很有限。 g a l l g l i a 是由加州大学伯克利分校开发的,并被应用在了n p a c i r o c k s y f a 目中, 完成对r o c k s 系统的监控。o a n g l i a 系统是建立在分级基础之上,其结构为树状结 构,这使得它有着很好的可扩展性,可以容易的适用不同规模的机群,这也是它 大规模服务器远程监控关键技术及实现 被广泛应用与分布在世界各地的多个不同规模机群上的一个主要原因。基于x m l 技术的数据传递可以使得系统的状态数据跨越不同的系统平台而进行交互,这是 该系统被广泛应用的另一个重要原因。此外集中式的管理、低负载和系统的健壮 也是该监控系统的特色。他的结构如图2 2 所示。 1 7 1 u s l e r 图2 2g a n g l i a 的体系结构 a u s t e r g a n g l i a 使用了一种树状的结构,这种树状结构使得g a n g l i a 可扩展性大为提 高,理论上可以进行无限扩展。如图所示,g a n g l i a 将节点分成了不同的区,在一 个区域内部的所有g m o n d 有一个共同的多播地址,节点通过多播交换信息。区域 内的每个节点都定期的通过多播向所有区内的邻居发出自身的节点状态信息,同 时也接受其他所有邻居发来的多播信息,从而每个节点都形成了一张区内所有节 点的节点状态图。这样g m e t a d 只需要连接区内的任意一个g m o n d 就可以得到整个 区的状态,并最终,根据g m e t a d 可以得到一张所有节点的状态图。 使用多播使g a n g l i a 可在不进行任何配置的情况下动态增删节点,因为当节 点加入后它就向区内多播地址发送自己的状态信息,并最终被它的邻居获得并由 g m e t a d 取走;节点退出时它的信息在邻居的表中不再被更新,这将导致超时使得 第二章目前机群的远程监控管理系统现状 此信息失效,最终这种失效会被g m e t a d 感知。 g a n g l i a 信息传输模式带来了一个网络传输的问题,此问题是由交换网络对多 播的处理造成的。在交换网路中如图2 3 所示,当l 至8 属于同一个多播组时,l 发 出的多播信息,将被传送给2 至8 ,同时2 至8 发出的多播消息也将以这种方式被发 送。这使得高效的交换网络蜕变为了一个存在大量冲突的总线网络。当节点数量 上升、交换层数变多的情况下,这将使网络的性能恶化。而现在大多数机群使用 的都是交换网络,这就在一定程度上限制了同一区内节点的规模和数据发送频率。 并且每个节点都保存一份全局的冗余数据也是一种浪费,在区内节点数增加时效 率会很低。 图2 3 交换网络 g a n g l i a 目前支持的操作系统平台只是l i n u x 和a i x 。 2 3p a r m o n p a r m o n 是由印度高性能计算开发中心研制的用于机群环境的监控系统,目 前应用于p a r m o n ( w o r k s t a t i o nc l u s t e r ) 机群中。结构如图2 4 所示。 丈规模服务器远程监控关键技术及实现 r 一一1 i 一一 c l u s t e ro fw o r k s t a t i o n sp a r m o nc l i e n t s 图2 4p a 刚o n 的体系结构 p a r m o n 的监控系统工作模式为c l i e n t s e r v e r 模式,p a r m o ns e l v e r 位于每个节 点上,负责收集该节点状态信息,p a r m o n _ c l i e n t 是一组用j a v a 开发完成的图形化 程序,负责从每个p a r m o ns e r v e r 那里得到系统信息并显示到界面上。由于c l i e n t 与s e r v e r 之间是交互的,所以该监控系统可以很灵活的选择被监控的对象进行显 示,这个对象即可以是整个机群,也可以是一个节点,甚至具体到节点上的某个 资源。但同时如果机群规模很大的情况下,如几百个节点,c l i e n t 要一次得到所有 节点的状态信息将会比较耗时,使得该监控系统所反映的整个机群系统状态信息 的实时性稍差。 2 4 现有监控系统存在的主要问题 通过对现有机群监控管理系统的分析,可以看出目前监控管理系统存在的一 些问题。 2 4 1 监控范围和资源单一 目前的监控管理软件主要是个机群服务器厂家配合自己的服务器产品提供的 监控管理软件,其监控管理系统仅能监控个系列产品的资源信息,如璐m 1 2 第二章目前机群的远程监控管理系统现状 p s s p l l 4 1 机群管理系统中,仅提供了对i b mr s 6 0 0 0 系列机群的监控管理。而现在 机群系统往往采用大量商业化的服务器节点,这些节点往往采用异构的系统。需 要对不同平台的系统进行监控同时机群系统包括磁盘阵列和交换机等设备。这 些设备的状态也严重影响机群系统的性能,所以对这些资源的监控也是必不可少 的。 2 4 2 机群远程控制限制 由于i n t e r n e t 的飞速发展,人们需要实时监控到机群的状态,并能够进行必要 的控制,如关机、重启和开机的操作。而目前的监控软件对机群的控制做到还不 完善,尤其开机操作,是纯软件而做不到的。这就需要一套硬件来支持这些操作。 2 4 3 节点规模的限制 现有监控管理系统都受机群规模的限制,往往不能支持大规模机群的需要, 这样大大限制了机群监控软件的应用范围和效果。 2 4 4 缺乏历史查询和分析 现有的监控系统,大多数都只是系统某项指标( 如c p u 、内存等) 的参数显 示,而且多数都是即时数据的显示,而且也没有提供分析功能。这将影响对系统 的状态分析能力。 大规模服务器远程监拧关键技术及实现 第三章d c m m 2 机群监控管理系统的设计与实现 d c m m 2 ( d a w n i n gc l u s t e rm o n i t o rm a n a g e m e me d i t i o n2 ) 机群监控系统【1 8 】 是在d c m m l 的基础上推出的。d c m m l 仅提供了一些服务器节点的硬件监控信 息,不能监控网络设备和磁盘阵列等其他设备,不支持远程监控功能,也不提供 历史数据的查询和分析。面对现在功能越来越强大的机群系统,d c m m l 越来越 显得力不从心。一套可以提供对机群服务器节点,及其他网络设备运行状态的全 面监控,使得管理员可以更为便捷迅速地处理情况的监控系统的研制是非常必要 的。 3 1d c m m 2 设计目标 机群监控管理系统的总设计目标可以归纳为: 一、 可扩展性( s c a l a b i l 时) 【1 9 】:机群监控系统作为监控机群工作状态的 重要工具,必须能够满足不同规模机群的需要。在机群规模变大时 不影响原有系统的工作,新增加的节点应当能够动态的加入监控系 统。同样当节点规模变小时也能自动识别。不应当出现机群规模变 化后系统无法正常工作的情况。 二、 好用性( u s a b i l i t y ) :作为机群监控系统,应当具有友好的界面,更 丰富的功能,使管理员可以很方便、直观的监控这个机群的运行状 态,同时发现问题可以迅速进行处理。 三、 可管理性( m a n a g e a b i l i t y ) :系统易于控制和操作,并且是高效的。 在大规模机群环境下,因为节点数量是非常庞大的,让管理员亲l 临 每个节点进行操作是非常困难的事情。为机群系统提供一个易用和 高效的管理,一直是机群监控系统追求的一个目标。 四、可用性( a v a i l a b i l i t y ) :系统功能丰富,性能稳定,运行可靠。作为 机群监控系统,其自身的可靠性将严重影响整个机群系统的正常工 作。如果不能很好地解决机群监控系统的可用性,那么它上层应用 的可靠性就更无法保障了。 作为大规模机群监控系统的d c m m 2 ,它的设计路线都是以这些目标作为出 发点的,可以说d c m m 2 的设计目标和机群监控系统的目标完全一致。基于这些 1 4 第三章d c m m 2 机群监控管理系统的设计与实现 对机群操作系统的要求,确立了d c m m 2 的设计目标为: 丰富的监控功能 作为机群监控系统应当能够全面地反映机群的运行状态,包括各服务节点 的状态、网络设备和存储设备的状态。还应当提供对这些数据的查询和分 析功能,这样有利于对机群运行状态进行分析。如果采集的信息不够充分, 将会直接影响对系统的有效分析,大大降低了其作为机群监控系统的可用 性。 跨平台节点监控; 作为如今应用越来越广泛的机群系统,其服务节点的操作平台也不尽相 同,目前较为流行的操作系统有w i n d o w s 操作系统和l i n u x 操作系统。 兼容此两种平台的监控系统显得更为必要。 监控远程化; 由于h t e m a 的发展,对于异地化管理的需要越来越高,这样无论身处何 地,只要能够连接到i n t e m e t 网络,就可以监控到机群的运行状况。 远程的开关机控制,包括单独操作,批量操作等: 如果管理员身处异地,需要对节点进行操作,亲临现场显然是不可能的, 这样提供远程的控制功能,管理员就可以轻松的实现对节点的控制。这样 监控系统的可管理性大大增加。 机群规模可不断扩大 由于机群规模总是在不停的变化,如果机群规模变大或是变小的时候,监 控系统的性能受到影响,这样此监控系统的可扩展性很低。当机群规模变 大时,应当可以很容易的进行扩展,而不影响现有正在运行的机群系统。 当机群规模交小的时候,应当可以自动识别,而不影响系统的运行。 监控系统工作稳定 作为机群监控系统,其自身应当是一套运行稳定的系统,这样才能起到监 控机群运行状态的作用。如果其自身就不够健壮,又怎能保证机群系统的 运行正常。 大规模服务器远程监控关键技术及实现 3 2d c m m 2 关键技术 3 2 1 软硬件结合的监控体系 d c m m 2 机群监控系统采用软件信息收集和硬件信息收集融合的监控系统 1 4 1 。硬件信息通过硬件网络采集各个节点的硬件信息,然后通过监控机的串口传 送给硬件信息采集进程。软件信息采集由驻留在各个服务器节点的c o l l e c t 进程采 集服务器的的静态和动态信息,通过基于t c p i p 的网络传送到监控机。同时监控 机上的多个管理进程,通过网络收集机群中磁盘阵列及交换机的状态信息。监控 节点还可以从u p s 设备采集到交流电的信息。通过专用的硬件网络系统采集一些 软件很难采集到的系统硬件信息。通过软件和硬件的配合使用,使得软件占用系 统的资源大大降低,各节点的采集进程仅占各节点c p u 资源的1 左右,占用几 十k 的内存空问,不占用硬盘资源。d c m m 2 机群监控系统的结构图如3 1 所示。 第三章d c m m 2 机群监控管理系统的设计与实现 图3 1 d c m m 2 系统结构 1 7 大规模服务器远程监控关键技术及实现 3 2 1 1d c m m 2 硬件部分体系结构 d c m m 2 监控系统硬件部分主要由两部分组成,一个是安装在节点机上的采 集卡,另一个是安装在监控机上的转换卡。采集卡之间通过专用的网线以菊花链 的方式连接,最后连接到转换卡。具体连接方式参见下图。 l 节点机1 网 高 图3 2 硬件网络连接图 采集卡从节点机的s m b u s 总线上通过1 2 c 串口通信协议读取硬件信息,硬件 信息包括: 1 、各个c p u 电压 2 、环境电压:5 v ,1 2 v ,3 3v 3 、各个c p u 温度 4 、环境温度 收集到的硬件信息经过采集卡处理后,通过专用网络采用4 8 5 总线协议,送 到监控机上的转换卡。监控机上的转换卡将数据处理后送到监控机的串1 :3 ,用于 监控机上的硬件信息收集进程读取采集到的硬件信息。硬件采集网络数据控制如 图3 3 所示。 图3 ,3d c m m 2 硬件部分数据流控制图 3 2 1 2d c m m 2 软件监控部分体系结构 。c 竺。慧篇仅黧嚣蓊嚣警 躲集竺黑髫黧篇型鬟。兰兹磊茹瓤作 独使用,其通过t c p ,【p 连接各个节点采聚佰恳。u “ ,、鬟竺禁兰苎髦纂多种方式进行艄 4 、信息超出设定的阈值时通过多种方式进们可 乏旨。 监控篡苎譬鼍王黑:仰收集各个节点中代理收集的软件鼢 ,、竺篓。篓麓詈嚣箸茹蓄茹磊; 2 、硬件信息:监控机串口处各个节点的馒仟州冶木米”4 “ 大规模服务器远程监控关键技术及实现 图3 4 d c m m 2 软件结构 d c m m 2 机群监控系统通过软件和硬件结合的形式,对机群系统进行全面的 实时监控。这种方式即利用了软件方式灵活、易于布置和实现的特点,也利用了 硬件的独立性,不占用系统资源的特点,大大提高了机群监控系统的可用性。 3 2 2 通信模型和协议的设计 3 2 2 1d c m m 2 通信模型 机群监控系统数据采集通信模型是指,为了采集所有节点的监控信息而参与 通信和协作的实体的集合,以及这些实体之间的相互协作的关系。最常见的通信 模型是基于管理代理( m am a n a g e r a g e n t ) 模式的两层通信模型【2 2 1 ,这种通信 模型包含了两种参与通信的实体,第一种是节点代理,代理部署在每个节点机上 面,负责采集该节点的监控信息。另一种是管理端,也就是机群监控系统中为管 理员提供统一管理界面的控制台,管理端通过访问节点代理采集所有节点机的监 控信息。s u p e r m o n 和p a r m o n 这两种机群监控系统是这种通信模型的典型代表。 第三章d c m m 2 机群监控管理系统的设计与实现 图3 5 基于m a 模式的两层通信模型 基于管理代理模式的两层通信模型的优点是通信协议简单。由于通信协议只 涉及到通信的两方,所以简单地应用r e q u e s t r e s p o n s e 模式的通信协议就能满足要 求,如s l l r p c r n l o n 和p a m o n 这两种系统中就是采用r e q u e s t r e s p o n s e 模式的通信协 议。但是,基于管理,代理模式的两层通信模型也存在不容忽视的缺点,由于管理 端是直接与每个节点通信的,也就是说控制台每次进行通信只能采集到一个节点 的监控信息,即使控制台采用广播的方式送采集命令,但是各个节点的监控信息 也是单个返回的,而且还容易造成丢包,在一个大规模的机群监控系统中,由于 节点的数量很大,如果采用这种通信模型,这将大大降低监控信息采集通信的效 率。 为了解决这个问题,本文采用一种基于中间代理【2 3 1 的三层通信模型,如图所 示。 2 1 大规模服务器远程监控关键技术及实现 图3 6 基于中间代理的三层通信模型 这种通信模型引入了中间代理的思想,为了避免监控系统监控端直接访问所 有的节点,在节点代理与监控端之间插入了中间代理层。一个中间代理可以与多 个节点代理通信,采集多个节点的监控信息,然后一次性将多个节点的监控信息 发送给监控端。这样大大减少了监控端的数据采集通信的次数,而且多个中间代 理可以同时进行节点信息采集。 3 3 2 2d c m m 2 数据采集通信协议 先讨论一下引入中间代理之后的监控信息采集方式。之所以被称为中间代理, 是因为中间代理在整个采集过程中起到了监控信息的中转作用。一个中间代理负 责采集的节点机的集合可以称之为组,中间代理首先采集到该组中所有节点的监 控信息,然后将这些节点的监控信息次性发送给监控端。这种采集方式的通信 协议有同步方式和异步方式 2 2 1 两种。即监控端、中间代理、节点代理三者之间的 同步与异步问题。在同步模式下,在次数据采集过程中,三者之间足同步的, 中间代理不缓存节点的监控信息,中间代理采集到节点的监控信息之后立即发送 给监控端。异步模式就有所不同,在一次数据采集过程中,三者不是同步进行的, 中间代理采集到该组中所有节点的监控信息,并将这些监控信息缓存在中间代理, 第三章d c m m 2 机群监控管理系统的设计与实现 当收到监控端的采集命令之后再将缓存中的信息发送给监控端。同步模式通信协 议。 监控端 中间代理( 监控机)节点代理 采集命令 监控信息 、 采集命令 、 监控信息 r 监控信息 r 图3 7 同步通信协议 同步通信模式易于实现,但是其效率不高。在同步通信模式中存在不必要的 等待时间,当监控端没有向中间代理发送采集命令时,中间代理处于等待状态, 当中间代理接收到采集命令时,中间代理采集节点监控信息,而监控端处于等待 状态。异步通信模式则避免了这些不必要的等待时间,即使监控端没有发送采集 命令,中间代理也采集节点的监控信息,并把这些信息缓存起来,当收到监控端 的采集命令之后从缓存中读取监控信息发送给监控端,这样中间代理与监控端都 不存在不必要的等待时间。虽然异步通信协议的实现有一定的复杂性,但是在一 个大规模的机群监控系统中,为了提高数据采集效率,采用异步通信协议是有必 要的。d c m m 2 采用的异步通信协议。异步通信协议如图所示。 采集命令 采集命令 0 缓存区缓存区 监控信息 图3 8 异步通信协议 d c m m 2 机群监控系统通过采用三层通讯模型和异步通信协议,使监控界面 大规模服务器远程监控关键技术及实现 的数掘刷新延迟大大降低。通过在大规模机群的测试中体现出明显的优势。 3 2 3 对网络资源信息的监控 由于网络的发展和机群系统的功能不断增加,机群系统不仅仅局限于多个服 务器节点的组合,而是有很多交换机1 2 j :和磁盘阵列等网络资源【2 6 j 。这些网络资源 的远行状况也会严重影响机群系统的工作性能。所以对这些资源的监控也是必不 可少的。为了能够全面对这些网络资源进行监控需要这些资源支持s n m p 协议, 同时提供m i b 库的结构信息,以便可以通过网络收集到相应的信息。为了更好的 理解d c m m 2 监控系统对网络资源监控的实现,先简单介绍一下s n m p 协议。 3 2 3 1s n m p 模型 s n m p ( s i m p l en e t w o r km a n a g e m e n tp r o t o c 0 1 ) 1 1 1 1 简单网络管理协议 2 7 1 ,它为 网络管理系统提供了底层网络管理的模型。s n m p 模型主要包括四个要素: m a n a g e r ( 管理者) 、a g e n t ( 管理代理) 、m m ( 管理信息数据库) 、p r o x y ( 代理 服务设备) 。一般说来,前三个要素是必需的,第四个只是可选项。d c m m 2 机群 监控系统是基于s n m p 网络管理模型基础上构建的系统监控模式。下面分别阐述 一下s n m p 四个要素的功能。 。 1 m a n a g e r ( 管理者) 网络管理软件的重要功能之一,就是协助网络m a n a g e r 完成管理整个网络的 工作。网络管理软件要求a g e n t 定期收集重要的设备信息,收集到的信息将用于 确定独立的网络设备、部分网络、或整个网络运行的状态是否正常。 2 a g e n t ( 代理) 网络a g e n t 是驻留在网络设备中的软件模块,这里的设备可以是工作站、交 换机、磁盘阵列,也可以是其它的网络设备。a g e n t 可以获得本地设备的运转状 态、设备特性、系统配置等相关信息。a g e n t 就象是每个被管理设备的信息经纪 人,它们完成网络管理员布置的采集信息的任务。a g e n t 所起的作用是,充当管 理系统与a g e n t 驻留设备之间的中介,通过控制设备的管理信息数据库( m i b ) 中的信息来管理该设备。a g e n t 可以把网络m a n a g e r 发出的命令按照标准的网络 格式进行转化,收集所需的信息,之后返回芷确的响应。在某些情况下,m a n a g e r 2 4 第三章d c m m 2 机群监控管理系统的设计与实现 也可以通过设置某个m i b 对象来命令系统进行某种操作。 3 m i b ( 管理信息数据库) m i b ( 管理信息数据库) 定义了一种数据对象,它可以被网络管理系统控制。 m m 是一个信息存储库,这里包括了数千个数据对象,网络管理员可以通过直接 控制这些数据对象去控制、配置或监控网络设备。网络管理系统可以通过a g e n t 来控制m m 数据对象。不管到底有多少个m m 数据对象,a g e n t 都需要维持它们 的一致性,这也是a g e n t 的任务之一。 4 p r o x y ( 代理设备) 代理设备在标准网络a g e n t 和不直接支持该标准协议的系统之间起桥梁作用。 利用代理设备,不需要升级整个网络就可以实现从旧协议到新版本的过渡。 s n m p 是一种无连接协议,无连接的意思是它不支持象t e l n e t 或f t p 这种 专门的连接。通过使用请求报文和返回响应的方式,s n m p 在a g e n t 和m a n a g e r 之间传送信息。这种机制减轻了a g e n t 的负担,它不必要非得支持其它协议及基 于连接模式的处理过程。 3 2 3 2d c m m 2 机群监控系统中的s n m p 模型 d c m m 2 机群监控系统中采用了s n m p 模型【2 舯,建立了一套网络监控系统。 s n m p 模型中的m a n a g e r 驻留在机群系统的监控节点中,而网络a g e n t 在各个支 持s n m p 协议的网络设备中,管理着各个网络设备的m i b ,这样监控节点上的 m a n a g e r 就可以通过网络从各个网络设备的m m 读取网络设备的状态数据。 d c m m 2 中的s n m p 模型参见下图。 大规模服务器远程监控关键技术及实现 图3 9 d c m m 2 的s n m p 模型 3 2 3 3d c m m 2 对网络资源监控的设计 d c m m 2 中实现了对交换机和磁盘阵列的监控,d c m m 2 中网络资源监控子系 统的整体结构如图所示。 图3 1 0d c m m 2 中网络资源监控子系统图 各个模块功能简单描述如下: 1 ) 界面模块 界面模块运行在客户端,用于将监控数据按照一定的格式显示给用户。界 面模块按照用户设定的时间间隔或者请求读取数据结果分类显示在用户 界面上。帮助用户了解机群中网络的运营状况,并为机群管理和故障分析 提供依据。此模块同时负责其他监控数据的显示。 2 ) 数据请求应答模块 此模块置于监控节点机上,负责监听客户端数据请求,并从内存映像文件 中取出相应的数据,发送给客户端。此模块同时负责其他的数据请求。 3 ) 数据查询模块 此模块置于监控节点机上,负责监听客户端查询数据库的请求,并从数据 库中取出需要的数据,按照一定的格式发送给客户端。此模块同时负责其 他数据的查询请求。 4 ) 数据存储模块 第三辜d c m m 2 机群监控管理系统的设计与实现 此模块置于监控节点机上,负责定时将内存映像文件中的数据存入m y s q l 数据库中。此模块同时负责其他数据的存储。 5 ) 交换机采集模块 此模块置于监控节点机上,负责采集各个交换机的信息,并将信息按照 定的结构格式存到内存映像文件中。 6 ) 盘阵采集模块 此模块置于监控节点机上,负责采集各个磁盘阵列的信息,并将信息按照 一定的结构格式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 代持方协议书
- 锅炉设备制造工问题分析深度考核试卷及答案
- 白酒酵母工岗位职业健康及安全技术规程
- 学生保密协议书
- 感光材料乳剂熔化工岗位工艺技术规程
- 公司金属材丝拉拔工设备安全技术规程
- 福建省泉州市泉港一中学、城东中学2026届七年级数学第一学期期末考试模拟试题含解析
- 江苏省泰兴市实验2026届数学八上期末调研模拟试题含解析
- 2026届吉林省白城市名校数学七年级第一学期期末经典模拟试题含解析
- 专职安全员岗前培训总结课件
- 2025年学校少先队知识应知应会题库(含答案)
- 2026中国农业银行秋季校园招聘备考考试题库附答案解析
- 核桃肽粉生产技术规程(征求意见稿)编制说明
- 《储能技术》课件-3.各种类型的蓄能技术
- 工业厂区场地平整建设方案
- 2024年丽水市莲都区事业单位招聘真题
- 锂电池pack工厂安全培训课件
- (2025秋新版)青岛版科学三年级上册全册教案
- 跨境电商合规管理操作手册
- 第14课《渡荆门送别》课件-2025-2026学年统编版语文八年级上册
- 住院病人防止走失课件
评论
0/150
提交评论