(计算机系统结构专业论文)机群监控系统关键技术的研究与实现.pdf_第1页
(计算机系统结构专业论文)机群监控系统关键技术的研究与实现.pdf_第2页
(计算机系统结构专业论文)机群监控系统关键技术的研究与实现.pdf_第3页
(计算机系统结构专业论文)机群监控系统关键技术的研究与实现.pdf_第4页
(计算机系统结构专业论文)机群监控系统关键技术的研究与实现.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

型塑塑l 一 摘要 随着机群技术的广泛应用,机群系统的性能和可用性需要也在不断提高,但是机群 系统结构松散、节点独立性强、网络连接复杂、故障难以维护。为了解决以上存在的问 题,采用在节点机的操作系统上建立一层机群监控系统,它是大规模机群系统中一个非 常重要的基础设施。机群监控系统的基本任务是获得机群当前的配置情况,监控机群的 健康状况和性能指标,并提供机群系统故障诊断功能。 国内外机群监控系统虽具有良好的性能和可用性,但仍存在一些不足:1 ) 机群监控 系统在进行信息采集时用户不能及时获取所需的数据信息,会引入较大的系统歹1 :销,从 而对机群系统产生负载影响。2 ) 当监控节点发生故障时,无法实现故障节点的自动转移 和恢复,造成监控数据传输失效,降低机群监控系统可靠性。 本文的主要研究内容及创新之处:( 1 ) 通过对监控信息采集技术的详细分析,采用 i e e e l 3 9 4 协议和g a n 9 1 i a 机群监控技术相结合,设计实现了一种新型的机群 盗控信息采 集模型,该模型不仅降低了机群监控系统对机群系统产生的负载,而且乍j 效地捉岛厂: f 控信息的采集速率和机群监控系统的可用性。( 2 ) 分析了机群监控系统在处理监控节点 故障时存在的问题,提出了一种容错的机群监控节点模型,避免了机群;l f 控节点敝障, 增强监控系统的可用性,提高了无人值守的可信度。 本文针对机群监控系统n g m o n 的主要性能指标机群监控信息采集引入的负载和 通信效率,以及系统的容错性进行了测试,验证了它们的可行性和实用功能,弥补了现 有机群监控系统存在的不足之处,提高了机群监控系统的性能、可靠性、可用性和町管 理性。本文研究内容是大连市科学技术基金计划项目:新型网络服务器的资源管理j 系 统状态监控( 编号:2 0 0 5 j 2 2 j h 0 3 1 ) 的重要组成部分。 关键词:机群;机群监控系统;l e e e l 3 9 4 ;容错 b e y o n dr e c o v e r y i no r d e rt os o l v et h ea b o v ep r o b l e m s ,t h ec l u s t e re s t a b l i s hac l u s t e r m o n i t o r i n gs y s t e mb a s e do nt h en o d e so p e r a t i n gs y s t e m i ti sv e r yi m p o r t a n ti n f r a s t r u c t u r eo n al a r g ec l u s t e rs y s t e m ,i t sb a s i ct a s ki st oo b t a i nt h ec o n f i g u r a t i o no ft h ec l u s t e r ,m o n i t o r c l u s t e r sh e a l t hc o n d i t i o na n dp e r f o r m a n c ei n d i c a t o r sa n dp r o v i d ec l u s t e rs y s t e mf a u l t d i a g n o s i sf u n c t i o n c l u s t e rm o n i t o r i n gs y s t e ma th o m ea n da b r o a dh a v eg o o dp e r f o r m a n c ea n du s a b i l i t y ,b u t t h e r ea r es t i l ls o m ed e f i c i e n c i e s :( 1 ) w h e nc l u s t e rm o n i t o r i n gs y s t e mi s c o l l e c t i n g t h e i n f o r m a t i o n ,t h eu s e rc a nn o ta c q u i r ei n f o r m a t i o ni nt i m e ,i tw i l li n t r o d u c et h el a r g es y s t e m o v e r h e a d ,t h u st oc l u s t e rs y s t e ml o a d ( 2 ) w h e nam o n i t o r i n gn o d eh a saf a u l t ,i tw i l lb eu n a b l e t or e a l i z et h ea u t o m a t i ct r a n s f e r ,c a u s em o n i t o r i n gd a t at r a n s m i s s i o nf a i l u r ea n dr e d u c ec l u s t e r m o n i t o r i n gs y s t e mr e l i a b i l i t y t h em a i n w o r ko ft h i sp a p e ri n c l u d e s :( 1 ) t h r o u g hh a v i n ga n a l y z e dm o n i t o r i n gc o l l e c t i o n i n f o r m a t i o n t e c h n o l o g y ,c o m b i n i n g i e e e139 4 p r o t o c o l a n dg a n g l i ac l u s t e rm o n i t o r t e c h n o l o g y ak i n d o fc l u s t e rm o n i t o r i n gi n f o r m a t i o n c o l l e c t i o nm o d e li sd e s i g n e da n d i m p l e m e n t e d ,t h i sm o d e ln o to n l yr e d u c e st h ec l u s t e rm o n i t o r i n gs y s t e ml o a d ,e f f e c t i v e l y i m p r o v e s t h e m o n i t o r i n g i n f o r m a t i o nc o l l e c t i o nr a t ea n dc l u s t e r m o n i t o r i n gs y s t e m a v a i l a b i l i t y ( 2 ) a n a l y z i n gt h ec l u s t e rm o n i t o r i n gs y s t e mi nt h et r e a t m e n to ft h en o d ef a u l t m o n i t o r i n g ,ak i n do ff a u l t t o l e r a n tc l u s t e rm o n i t o r i n gn o d em o d e li sp u tf o r w a r d ,t h i sm o d e l a v o i d st h ec l u s t e rm o n i t o r i n gn o d ef a u l t ,s t r e n g t h e n sm o n i t o r i n gs y s t e ma v a i l a b i l i t ya n d a d v a n c e st h er e l i a b i l i t yo fn o b o d yh o l dm o n i t o r i n g t h i sp a p e rh a sm a i np e r f o r m a n c ei n d e x e sb a s e do nn g m o nc l u s t e rm o n i t o r i n gs y s t e m - - c l u s t e rm o n i t o r i n gi n f o r m a t i o nc o l l e c t i o nl o a d ,c o m m u n i c a t i o ne f f i c i e n c ya n dt h es y s t e m f a u l tw a st e s t e d ,v e r i f i e st h ef e a s i b i l i t ya n dp r a c t i c a lf u n c t i o no ft h e m ,n g m o n r e c o v e r i e s c l u s t e rm o n i t o r i n gs y s t e md e f i c i e n c y ,i m p r o v e st h ec l u s t e r m o n i t o r i n gs y s t e mp e r f o r m a n c e , r e l i a b i l i t y ,a v a i l a b i l i t ya n dm a n a g e a b i l i t y t h i sp a p e rc o n t e n t s a 1 ed a l i a ns c i e n c ea n d t e c h n o l o g yf u n dp r o j e c t :t h i sp a p e ri sa ni m p o r t a n tp a r to fn e ww e bs e r v e rr e s o u r c e s m a n a g e m e n ta n dm o n i t o r i n gs y s t e m ( n u m b e r s :2 0 0 5 j 2 2 j h 0 3 1 ) k e yw o r d s :c l u s t e r :c l u s t e rm o n i t o r i n gs y s t e m ;i e e e 13 9 4 ;f a u i t t 0 1 e r a n t 2 2 1 提高监控信息采集效率5 2 2 2 优化机群监控系统通信模型6 2 2 ,3 解决机群监控系统故障6 2 2 4 目前研究热点6 2 3 典型机群监控系统及i e e e l 3 9 4 协议7 2 3 1 目前几种典型的机群监控系统一7 2 3 2g a n g l i a 实现技术l0 2 3 3i e e e l 3 9 4 总线协议1 2 2 4 本章小结1 2 3 机群监控系统n g m o n 的总体设计1 3 3 1 机群监控系统n g m o n 的设计目标1 3 3 2 机群监控系统n g m o n 的基本功能1 3 3 3 机群监控系统n g m o n 的组成要素1 4 3 4 机群监控系统n g m o n 的通信模型1 5 3 5n g m o n 的高效信息采集技术16 3 6n g m o n 机群监控节点的容错机制17 3 7 本章小结18 4n g m o n 高效信息采集模型1 9 4 1n g m o n 高效信息采集模型的设计1 9 4 2n g m o n 信息采集模块的实现:一2 0 i v j u l l l 2 3 3 3 3 5 辽宁师范人学硕十学位论文 4 2 1i e e e l 3 9 4 信息采集模块的实现2 0 4 2 2g a n g l i a 信息采集模块的替换2 1 4 3n g m o n 信息采集模块的测试及评价2 2 4 3 1n g m o n 信息采集模块的测试2 3 4 3 2n g m o n 信息采集模块的评价2 5 4 4 本章小结2 5 5n g m o n 容错的监控节点模型2 6 5 1n g m o n 容错的监控节点功能目标及体系结构2 6 5 1 1n g m o n 容错的监控节点功能目标2 6 5 1 2n g m o n 容错的监控节点体系结构2 6 5 2g a n g l i a 机群监控技术一2 7 5 3h e a r t b e a t 技术2 8 5 3 1h e a r t b e a t 的主要功能2 8 5 3 2h e a r t b e a t 的工作原理2 8 5 4n g m o n 容错的监控节点模型设计及实现2 8 5 4 1n g m o n 容错的监控节点模型设计2 8 5 4 2n g m o n 容错的监控节点模型实现2 9 5 5n g m o n 容错的监控节点测试及评价3 】 5 5 1n g m o n 容错的监控节点测试31 5 5 2n g m o n 容错的监控节点评价3 3 5 6 本章小结3 3 结 论3 4 参考文献3 5 攻读硕士学位期间发表学术论文情况3 8 致谢3 9 v 一 辽宁师范大学硕十学位论文 1 绪论 1 1 课题研究背景和意义 随着高性能计算的需求不断扩大,高性能计算的应用领域也达到了前所未有的广 阔,如大范围气象服务、石油勘探、大型信息服务、复杂科学与工程计算、人工智能等 等n 1 。机群系统是由众多计算节点以高速网络为基础聚集而成的超级计算机,有着庞大 且复杂多变的运行环境,具有良好的可扩展性,可靠性,高性价比,资源可扩充利用等 特点昭1 。但是随着机群技术在各领域的普遍应用,我们将越来越多地面临机群系统软件 和硬件故障,系统各个节点的性能指标达不到用户需求的问题。为了解决这一问题,我 们需要获得机群当前的配置情况,察看各个节点的运行状态,评估系统的性能以及珍断 系统是否正常运行,。 机群监控系统可以迅速地了解机群的整体配置情况,准确地把握机群各个监控书点 的信息,企面地察看监控节点的性能指标,使机群系统具有较高的管理性川。机群在控 系统的主要目标是从各个监控节点采集监控信息,如c p u 温度,c p u 利用率、用户数、 进程数、内存利用率等,然后将获得的监控信息汇集起来,便于综合分析和处理,最后 根据分析和处理的结果作出相应的决策晡1 。 目前,大部分机群监控系统的研究都集中在可扩展性和可靠性上,并且有如下特点: 1 ) 根据用户需求不同,获取多种类型的监控信息。2 ) 提供监控信息存储,便于历史数 据查询。3 ) 提供可视化的图形界面,实时显示机群的运行状态。4 ) 实现分层的体系结 构,以适应机群系统规模的变化。 但是,这些监控系统仍然存在以下不足之处:1 ) 监控系统在进行信息采集时会引 入较大的系统开销,从而对机群系统产生影响。2 ) 机群监控系统在进行j l 【控信息获取 时效率较低,使得用户不能及时获取所需的数据信息。3 ) 当监控节点发生故障时,无 法实现故障自动转移和恢复,不间断地完成监控数据的传输。 本课题研究的主要意义是:对机群监控系统作深入研究,发现其不足之处并提卅相 应的改进方法,促进机群监控系统技术的不断发展。针对目前国内外研究的现状,虽然 已存在不少机群监控系统,也积累了一定机群监控方面的技术,但是各种机群监控系统 采用的技术都大相径庭,而且各种机群监控系统的质量指标也参差不齐。冈此说,机群 监控技术还处在发展阶段,并没有成熟的标准可依,还存在很大的研究窄f b j 。 1 2 本文主要研究工作 论文工作主要从以下几方面展开: 机群监控系统关键技术的研究与实现 ( 1 ) 对监控信息采集技术进行研究:比较了三种可用的机群监控信息的采集方法, 从灵活性好坏、性能高低、工作量大小、难易程度等方面进行分析评价,选择采用p r o c 伪文件系统进行监控信息采集。 ( 2 ) 针对机群监控系统负载的研究:采用将i e e e l 3 9 4 协议和g a n 9 1i a 监控系统桐结 合,弥补了g a n g l i a 存在的问题,同时降低了机群监控系统对机群产生的负载影响。本 文详细分析g a n g l i a 源代码和其存在的弊端,深入研究i e e e l 3 9 4 协议,并分析其节点 管理模块的功能和优点,设计和实现了一种基于i e e e l 3 9 4 的高效机群监控信息采集模 型。 ( 3 ) 针对机群监控系统容错机制的研究:详细分析h e a r t b e a t 心跳技术和g a n g l i a 机群监控技术,通过修改与两种技术相关的配置文件,实现了监控节点的故障转移和恢 复。本文详细分析h e a r t b e a t 工作原理和基本功能,实现h e a r t b e a t 和g a n g li a 之i 【i j 的 无缝连接,设计了一种具有容错机制的机群监控系统。 1 3 本文组织结构 本文共分五章: 第一章绪论。阐述机群系统的发展和存在的问题,研究机群监控系统的必要性, 分析了现有机群监控系统存在的不足,并介绍了本文所做的主要j 作。 第二章对机群监控系统进行概述,包括机群监控系统的基本功能、组成要素、通 信模型及目前国内外几种典型的机群监控系统介绍,针对目前机群监控系统的技术研 究,分别从监控信息采集技术、机群监控系统通信模型、机群监控系统容错三个方面分 析了现有技术的优势及不足,并提出了目前机群监控系统研究的热点。并且针对 g a n g l i a 机群监控技术和i e e e l 3 9 4 协议源代码进行详细分析,包括g a n g l i a 机群监控系 统中监控信息采集部分和监控信息汇集部分的信息采集、信息汇集和通信模型,以及 i e e e l 3 9 4 中节点管理模块功能及其实现过程的源码分析。 第三章n g m o n 机群监控系统的总体设计,包括机群监控系统n g m o n 的基本功能、 组成要素、通信模型的分析和设计,高效的信息采集模型和容错的机群监控系统的介绍。 第四章n g m o n 高效信息采集模型。通过p r o c 伪文件系统获取监控信息,并按照 i e e e l 3 9 4 节点管理模块的存储方式实现监控信息的存储,用来替换c a n g l i a 中信息采集 部分,并且实验验证了高效信息采集模型的可行性,提供了实验结果和数据。 第五审n g m o n 容错的机群监控节点模型。针对监控节点故障,提出了将h e a r t b e a t 和g a n g l i a 相结合,实现监控节点故障转移和恢复,并验证了该容错机群监控系统的呵 行性。 辽宁师范大学硕十学位论文 2 机群监控系统 2 1 机群监控系统 2 1 1 机群监控系统体系结构 机群监控系统的基本功能体现在以下几个方面饰1 : ( 1 ) 机群监控信息的获取,由于机群系统是由多个节点聚集而成的,尤其在大规模 机群系统中,机群系统节点数量很大、种类丰富、配置情况复杂,因此需要获取每个节 点的监控信息有利于系统管理员了解机群的整体状况。 ( 2 ) 监控机群系统的性能指标,为了达到机群系统最大利用率,需要从单个节点和 整体上评估机群系统性能,而评估机群系统性能一个重要的手段就是察看节点机的性能 指标和相关参数,因此,机群监控系统需要及时提供性能指标察看的功能。 ( 3 ) 监控机群系统的健康状态,为了保证机群系统中每个节点能够正常地、健康地、 无故障地运行,机群监控系统必须及时快速地定位故障节点,实时地对节点的健康状况 进行监控。 机群监控系统基本组成要素包括以下几个单元盯1 : ( 1 ) 监控信息采集单元:主要用于从监控节点获取所需的监控信息,通过收集豁控 节点实时信息来判断机群系统及每个节点的运行状态。 ( 2 ) 监控信息汇集电元:主要用于将分布在各个监控节点机e 的单个节点的峪控信 息汇集到一起,以便于进一步的综合分析和处理。 ( 3 ) 监控信息存储单元:主要用于把所有的监控信息存储起来,以利于其它系统访 问监控信息和历史数据分析。 ( 4 ) 图形化的用户界面:用户操作系统界面,方便用户察看这个机群的性能及健康 状态。 2 1 2 机群监控系统通信模型 ( 1 ) 基于c s 架构的两层通信模型 机群监控系统数据采集通信模型是指,为了采集所有监控节点的监控信息这一目的 而参与通信和协作的监控节点的集合以及这些节点之间的相互协作。最常见的通信模型 是基于c s 架构的两层通信模型,该模型包含两种参与通信的实体,一种为服务器端, 部署在每个监控节点机上,负责采集本节点机的监控信息;另一种为客户端,为管理员 , 机群监控系统关键技术的研究与实现 提供统一管理界面,并获取所有监控节点机所采集的监控信息。如图2 1 所示,基于c s 架构的两层通信模型。 图2 1c s 架构的两层通信模型 f i g 2 1 c sa r c h i t e c t u r em o d e lo ft w o - l a y e rc o m m u n i c a t i o nm o d e l 该模型涉及两种通信协议:拉模式和推模式。拉模式即r e q u e s t r e s p o n s e ( 请求 应答) 模式的通信协议,是指客户端在需要采集服务器端的监控信息时需要发送采集命 令,则服务器端把相应的监控信息返回给客户端,该协议设计简单,健壮性好,但会带 来一定的时间延时,占用不必要的网络带宽资源。与拉模式相反的,还有一种推模式, 是指服务器端主动将自身获取的监控信息发送给客户端,该通信协议提高了监控信息的 实时性,但容易产生冲突和丢包,并且实现复杂,工作量大。 ( 2 ) 基于c m s 架构的三层通信模型 基于c m s 架构的三层通信模型引入了中间代理的思想,它在整个监控信息采集过 程中起到了监控信息中转的作用,如图2 2 所示。这样可以避免客户端南接访问所有的 服务器端,一个中间代理可以与多个服务器端通信并采集监控信息,然后一次将多台服 务器端的监控信息发送给客户端,有效地降低了客户端的信息采集通信次数。 该模型采用r e q u e s t r e s p o n s e 模式通信协议有同步和异步方式,下面埘两干中方式 进行分析和评价:( 1 ) 同步通信协议:在客户端向中间代理发送请求后,等待中间代理 的响应后才能向下一个中间代理发送请求,同样,中间代理也依次向其管理的服务器端 发送请求并等待响应。该协议虽然易于实现、简单、可靠,但延时较大、效率较低,。( 2 ) 异步通信协议:客户端向中间代理发出请求后无需等待响应即可向下一个中间代理发送 请求,同样,中间代理向与其通信的服务器端发送请求后也无需等待响应即可向下一个 服务器发送请求。该协议虽然效率高,但是容易产生冲突和丢包,实现复杂m 1 。: 2 2 机群监控系统技术 2 2 1 提高监控信息采集效率 目前许多研究者针对如何有效地提高监控信息采集效率进行了深入研究,如文献 9 分析了g a n g l i a 机群监控系统的特点,并详细分析了g a n g l i a 监控信息采集时对机群系 统性能产生的影响,为本论文在提高监控信息采集效率方面提供了理论基础。文献l o , 1 l ,1 2 针对机群监控信息采集所引入的负载,采取减少信息采集项的个数和信息采集 的频率,从而提高信息的采集效率。文献 1 3 设计了一种信息采集的硬件设备,实现了 在进行监控信息采集时可用性和可定制性增强。文献 1 4 提出了浮动域监控节点方法, 以应对域监控节点负载过重的情况,从而降低监控任务的开销,加快信息采集的响应时 问。文献 1 5 ,1 6 分别采用动态加载技术和动态汇集表技术来记录被监控项,优化了信 息采集功能。以上作者实现的技术和所做的工作都从不同角度提高了监控信息采集的效 机群监控系统关键技术的研究与实现 率和机群监控系统的管理性,但是也存在一些弊端,如文献 1 0 只适用于特定的应用 程序,文献 1 1 ,1 2 仅适用于c p u 和内存等监控信息的采集。文献 1 3 带来了高成本和 硬件资源的浪费。文献 1 5 ,1 6 虽然提高了监控信息存储和管理的灵活性,但是都住不 同程度上加大了机群监控系统负载。 2 2 2 优化机群监控系统通信模型 由于一些机群监控系统存在弊端,导致机群监控系统通信效率低问题产生,许多学 者做了较多相关研究,尤其针对通信模型和通信协议进行改进,使得机群监控系统通信 机制得以不断完善。文献 1 7 采用了机群监控系统三层通信模型和中间代理技术,该通 信模型在监控信息传输过程中几乎没有发生丢包现象,采集效率得到了很大提高。论文 1 8 在三层通信模型的基础上又提出了半异步通信协议,该协议较异步通信协议简单, 并且在效率方面比同步通信协议有了较大的提高。以上研究技术虽然有效地提高机群监 控系统地通信效率,但实现起来比较复杂,而且仅对大规模机群监控信息通信模型的建 立有一定的参考价值,针对小型机群会浪费较多的资源。 2 2 3 解决机群监控系统故障 目前为解决机群赂控系统的故障问题,主要采用以下三种方式:1 ) 关键部件) c 余, 如双机热备份,r a i d 网络冗余和节点冗余。2 ) 部件失效枪测,如“门限检验”,心跳 协议和拜占庭协议。3 ) 失效后的恢复机制,如系统重启,回卷,进程迁移,热切换等。 文献 1 9 ,2 0 采用线路冗余的方法分析并解决了g a n g li a 机群监控节点故障问题。文献 2 1 建立了一个容错系统模型,该模型采用两级容错机sm j 且u 节点级容错和任务级容错, 提高了分布式计算机群监控系统的可靠性,增强了机群监控系统的容错能力。文献 2 2 采用心跳协议进行监控节点故障检测,并构造任务断点表提出一致性断点的概念,有效 地实现故障的恢复。上述方法虽然增强了系统的容错性,但也由此带来了系统设备成本 提高和管理复杂等问题。 2 2 4 目前研究热点 容错机制是大规模机群监控系统中一个富有挑战性的问题,也是目前研究的一个热 点。早期的计算机容错主要采用“纠错码或“校验码”,多路复用等部件级容错技术。 随之大规模集成电路迅速发展,系统包含多个独立的节点,系统资源多有冗余,于是采 用冗余的方法快速恢复故障而不会导致服务中断。目前智能化的自修复技术也应运而 生,该预测机制能够及时发现并定为系统中的故障隐患,有计划地主动维护,避免了e j 大丌销。因此,许多学者都集中于这方面的研究,目的为了大大提高机群的可靠性。 辽宁师范人学硕士学位论文 提高机群监控系统的可用性也是目前研究的热点之一。许多学者针对高可用性机群 监控系统已做了大量的工作,但是随着机群规模的不断扩大,监控节点在进行信息采集 时会占用较多的c p u 时问、内存空间和通信带宽,这些额外开销不仅引入了负载,而且 降低了机群监控系统的性能,不得不引起更对人的关注,本文针对这方面做了大量的研 究,并实现了高效的信息采集模型。 2 3 典型机群监控系统及le e e l3 9 4 协议 2 3 1 目前几种典型的机群监控系统 国内外针对不同机群研制了多种不同架构的机群监控系统。比较典型的包括美国加 州大学b e r k e r l e y 分校开发的g a n g l i a 乜3 1 ,印度高性能开发中心研制的p a r m o n 他4 i ,美国 c a lif o r n i a 大学l o sa l a m o s 国家高性能计算机实验室研制的s u p e r m o n 心引,美困k a n s a s 州立大学计算机系统丌发用于监控b e o w u l f 机群系统的d i s t o p 心,以及国内曙光集团 d c m m 系统乜 ,香港大学的c l u s t e r p r o b e 陋8 1 等机群监控系统。以下将对这几种机群监控 系统进行简要地介绍和分析。 1 ) g a n g l i a g a n g l i a 监控系统是由加州大学伯克利分校开发的,用于大规模的机群和分布式网 格等高性能计算系统。g a n g l i a 主要由g m o n d 和g m e t a d 两部分组成,g m o n d 负责监控节 点信息的获取,g m e t a d 负责监控信息的汇集,它向下层节点订阅和接收用户所需的监控 信息,并对数据出错做出相应处理。它是建立在分级、联邦基础之卜的树状结饿j 这种 结构使得g a n g l i a 有着很好的扩展性,可以容易地适应不同规模的机群。如图2 3 所示, g a n g l i a 将节点分成了不同的区,在一个区域内部的所有g m o n d 节点有一个其同的多播 地址,区域内的每个节点定期通过多播向区域内的所有邻居发出自身的节点状态信息, 同时接收其他邻居节点发来的多播信息,这种多播的传输方式可以在不进行任何配置情 况下动态增删节点。基于x m l 。技术的数据传递可以使系统的状态数据跨越不同的系统甲 台而进行交互,采用简洁紧凑的x d r 方式,实现监控数据压缩和传输。 机群监控系统犬键技术的研究 j 实现 r 岛 lg m e t a d i 1 1 一囱 , p o u j clester(1rater 图2 3g a n g l i a 体系结构 f i g 2 3g a n g l i as y s t e ms t r u c t u r e 2 ) p a r m o n p a r m o n 采用了典型的c s ( c 1 i e n t s e r v e r ,客户端服务器) 体系结构。它主要 由p a r m o n s e r v e r 和p a r m o n c lie n t 两部分组成,p a r m o n - s e r v e r 部署在每个节点上, 负责采集该节点的状态信息,p a r m o n - c l i e n t 部署在一个管理工作站,主要用于从 p a r m o n s e r v e r 端获取每个节点的监控信息,并以图形化界面的形式展示给系统管理 员,如图2 4 所示。为了达到高效监控,p a r m o n 提供了群组的功能,即一组节点形成一 个群组,每个群组中的节点是根据分配给不同用户组的资源来选择的,这种机制有利于 监控和收集可用的统计信息,同时管理员也可以利用这些信息改变资源分配策略。 图2 4p a r m o n 体系机构 f i g 2 4 p ar m o n s y s t e ms t r u c t u r e 辽宁师范大学硕十学位论文 3 ) s u p e r m e n s u p e r m e n 是一套面向l i n u x 机群的监控系统。主要由k d s b p ,m e n ,s u p e r m e n 三部 分组成,k d s b p 是基于p r o c 文件系统的l i n u x 内核监控信息采集模块,m e n 是节点监控 信息采集代理,s u p e r m e n 是监控信息汇集中心。图2 5 所示,s u p e r m e n 采用了分层的 c s 结构,在部署时m e n 驻留在机群中所有需要被侦测的节点上,并且所有的m e n 在同 一个t c p 端口上进行侦听。s u p e r m e n 通过开发定制的l i n u x 内核监控信息采集模块,使 得节点机具有很高的信息采集效率,降低了信息采集对节点产生的性能影响。但由于 s u p e r m e n 采用t c p 通信协议访问所有的m e n 时,会顺序连接每个m e n ,随着节点规模的 扩大,会占用大量的网络带宽,影响整个机群的效率。 图2 5s u p e r m e n 体系结构 f i g 2 5s u p e r m e ns y s t e ms t r u c t u r e 4 ) d i s t o p d i s t o p 机群监控系统由3 个部分组成:d a e m o n 、s e r v e r 和c l i e n t 。其中d a e m o n 和s e r v e r 部署在每个监控节点机上,d a e m o n 用于访问l i n u x 的p r o c 文件系统,从p r o c 文件系统中读取相关的监控信息,将采集到的监控信息缓存在一个共享内存中,s e r v e r 监控客户端发来的请求,收到客户端采集命令的时候从共享内存将监控信息返叫给客户 端,s e r v e r 与c l l e n t 之间的通信采用r p c 通信机制。 5 ) d c m m d c m m 是一种基于硬件体系结构的机群监控系统,机群内部采用工业标准的1 2 c 总线 进行系统监控信息的传输;该系统采用专用的机柜,具备控制节点和l c d 显示屏;曙光 的d c m m 系统监控软件可监控机柜系统环境、各节点直流电压、各部件温度、内存及网 络使用情况等。目前研制的d c m m 2 在功能上又有很大改进,不仪提供了对机群监控市点 的软硬监控信息的实时显示,而且提供了一些设备交换机、盘振的实时信息监控和实 时预警功能。 6 )c l u s t e r p r o b e 一9 一 机群监控系统关键技术的研究与实现 c iu s t e r p r o b e 是一种为j e s s i c a 机群系统定制的基于j a v a 的机群监控系统。它主 要由三部分组成:m o n i t o r s e r v e r 客户程序访问机群监控系统的入口,m o n i t o r p r o x y 用于豁控一个域中的所有节点,a g e n t 部署在每个节点机上,用于采集节点机监控信息 或执行监控命令。c l u s t e r p r o b e 是基于域的监控策略,即整个机群系统被分为多个域, 有一个m o n it o r p r o x y 负责对一个域进行监控,同时,各部分之问的通信协议都是可配 置的,根据实际需求配置成t c p ,u d p ,h t t p ,r m i 等通信协议。 本文通过对现有机群监控系统的分析,发现目前这些监控系统主要存在的不足有如 下几点: ( 1 ) 机群监控系统引入较大负载。随着机群规模的扩大,机群监控系统会对机群系 统产生较大的负载。监控系统在进行监控信息汇集时,通常采用t c p 及u d p 数据传输方 式,对网络带宽产生较大的影响,如g a n g li a 和p a r m o n 。同时,信息的获取也会占用大 量的c p u 利用率和内存占用率。 ( 2 ) 机群监控节点的自适应差。当机群监控节点失效后,由于不能及时进行故障转 移和恢复,导致无法获取机群的运行状态信息。大部分监控系统采用c s 架构,客户端 和服务器端的任何一方发生故障,都使得监控系统无法从节点机上获取监控信息。 ( 3 ) 机群监控节点规模的限制。现有机群监控系统大都受到机群规模的限制,往往 不能支持大规模机群系统的需要,大大限制了机群监控软件的应用范围和效果,降低了 监摔系统的效率和可用性。 2 3 2g a n g lia 实现技术 g a n g li a 监控系统是由加州大学伯克利分校开发的,用于大规模的机群和分布式网 格等高性能计算系统。基于x m l 技术的数据传递可以使系统的状态数据跨越不同的系统 j f 台而进行交互,采用简洁紧凑的x d r 方式,实现监控数据压缩和传输。g a n g l i a 主要 山g m e t a d 和g m o n d 两部分组成,g m e t a d 主要负责监控数据的汇集,它向下层节点订阅 和接收用户所需的监控信息,并对数据出错做出相应处理。g m o n d 主要负责监控节点信 息的获取。 ( 1 ) g m e t a d 源码分析 g m e t a d 首先初始化g m e t a d c o n f 文件配置项信息,并从该配置文件中读取 “d a t a s o u r c e ”配置项定义的数据源,同时依次分配h a s h 存储空间为s o u r c e s , r o o t a u t h o r i t y ,r o o t m e t r i c s u m m a r y ,并定义g m e t a d 默认的配置项,如g r i d n a m e , x m l p o r t ,i n t e r a c t i v e p r o t 等。然后在g m e t a d 监控节点上创建用于t c p 通信的 s e r v e rs o c k e t 和i n t e r a c t i v es o c k e t 端口,并且调用b i n d 将一个网络地址分配给该 辽宁师范大学硕十学位论文 端口,网络地址包括主机、端口,同时启动li s t e n 进程允许接入客户端发来的呼叫, 并设置呼叫队列的长度为1 0 ,紧接着采用a c c e p t 接收客户端发来的数据信息,即监控 节点g m o n d 发来的监控信息,服务器端通信连接建立之后,调用d a t a t h r e a d 过程,用 于建立与客户端的连接,即与g m o n d 监控子节点的连接,该过程首先调用s o c k e t ,为该 客户端口创建一个用于t c p 通信的s o c k e t 端口,接着调用c o n n e c t 用于建立与服务器 端( g m e t a d 端) 的连接,连接成功建立之后,调用r e a d 过程用于数据传输,t c p 通信 过程如图2 6 所示。当g m e t a d 与g m o n d 间的t c p 通信连接建立好之后,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论