(计算机系统结构专业论文)单一系统映像机群监控系统的关键技术研究.pdf_第1页
(计算机系统结构专业论文)单一系统映像机群监控系统的关键技术研究.pdf_第2页
(计算机系统结构专业论文)单一系统映像机群监控系统的关键技术研究.pdf_第3页
(计算机系统结构专业论文)单一系统映像机群监控系统的关键技术研究.pdf_第4页
(计算机系统结构专业论文)单一系统映像机群监控系统的关键技术研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机系统结构专业论文)单一系统映像机群监控系统的关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单一系统缺像机群监控系统的关键技术研究:摘要 摘要 系统管理的自主化是当前系统管理研究的趋势,机群的系统管理也在朝着这一方向 发展。以单一系统映像机群监控为主要特征的机群监控系统,本文简称之为单一系统映 像机群监控系统,对于实现机群环境下系统管理的自主化具有很重要的意义。本文从实 现技术的角度讨论了单一系统映像机群监控系统的特点和难点,分析了与之对应的技术 目标和技术挑战,给出了技术评价的衡量尺度,并详细论述了单一系统映像机群监控系 统核心模块的实现技术,最后还介绍了我们开发的一个单一系统映像机群监控系统。 单一系统映像机群监控系统的特点与难点与自主机群管理系统的特点息息相关。本 文基于目前机群监控系统的技术和自主机群管理系统的机理,从技术目标、技术难点和 评价标准多个角度对单一系统映像机群监控系统的技术问题进行了分析。在评价标准方 面,通过技术目标与难点的综合给出了具体的衡量尺度,覆盖了单一系统映像机群监控 系统所面临的需求和挑战,有助于对单一系统映像机群监控系统相关技术的分析和评 价。 单一系统映像监控系统核心模块的实现技术包括信息采集模块i p m 在信息采集、同 步和预处理等方面的多种实现技术,以及信息收集模块i c m 在拓扑结构、通信模型和 存储模型等方面的多种实现技术。本中分别分析了现有技术的机理和应用特点,提出了 一些新的技术,论述了这些技术在多个衡量尺度上的表现,对单一系统映像机群监控系 统的实现起到了指导作用。 文中的最后介绍了我们实现的一个单一系统映像机群监控系统:深腾慧眼。该系统 成功地用于监控具有2 5 6 个结点的深腾1 8 0 0 机群系统,表现出很高的性能。 关键词:自主计算,系统管理,机群监控,单一系统映像 单一系统殃像机群监控系统的关键技术研究:a b s t r a c t r e s e a r c ho nk e y t e c h n i q u e so f s i n g l es y s t e mi m a g e c l u s t e rm o n i t o r i n gs y s t e m g u g u a n g d a o ( c o m p u t e ra r c h i t e c t u r e ) d i r e c t e db yh e z h i q i a n g a st h et r e n do fa u t o m a t i n gs y s t e mm a n a g e m e n t ,c l u s t e rs y s t e mm a n a g e m e n ti so nt h e r o a dt ob ea u t o n o m i c an e w t y p e o fc l u s t e rm o n i t o r i n gs y s t e mc h i e f l yc h a r a c t e r i z e db ys i n g l e s y s t e mi m a g e ( s s i ) c l u s t e rm o n i t o r i n g ,a c t sa st h ef e e d b a c km e c h a n i s mi na u t o n o m i cc l u s t e r m a n a g e m e n ts y s t e ma n dt h u sp l a y sa ni m p o r t a n tr o l ei nt h ea u t o n o m i cm a n a g e m e n tc y c l e t h i sd i s s e r t a t i o nd i s c u s s e st h ec h a r a c t e r sa n d p r o b l e m so f s s lc l u s t e rm o n i t o r i n gs y s t e mf r o m at e c h n i c a lv i e w , a n a l y z e st h e i rc o r r e s p o n d i n gt e c h n i c a lo b j e c t sa n dc h a l l e n g e s ,c o n s t r u c t s e v a l u a t i o nf o r c e sf o rp o n d e r i n gt h ee f f i c a c yo ft h er e l a t e dt e c h n i q u e s ,a n dg o e si n t od e t a i l a b o u tt h ei m p l e m e n t a t i o nt e c h n i q u e sf o rt h ek e r n e lo fs s ic l u s t e rm o n i t o r i n gs y s t e m f i n a l l y , as s ic l u s t e rm o n i t o r i n gs y s t e md e v e l o p e d b yu s ,s u n e y e ,i si n t r o d u c e d t h ec h a r a c t e r sa n dp r o b l e m so fs s ic l u s t e rm o n i t o r i n gs y s t e ma r ec l o s e l yl i n k e dt ot h e s p e c i a l i t i e so f a u t o n o m i c c l u s t e rm a n a g e m e n t s y s t e m o n t h e g r o u n d o f s t a t eo f t h ea r ta n dt h e m e c h a n i s mo fa u t o n o m i cc l u s t e rm a n a g e m e n ts y s t e m ,t h i sd i s s e r t a t i o na n a l y z e st h et e c h n i c a l i s s u e so fs s ic l u s t e rm o n i t o r i n gs y s t e mf r o ms e v e r a la s p e c t s ,i n c l u d i n gt e c h n i c a lo b j e c t s , t e c h n i c a lc h a l l e n g e sa n de v a l u a t i o nf o r c e s e s p e c i a l l y , t h ea n a l y s i so u t c o m eo ft h ef o r m e rt w o a s p e c t sa r eu s e dt o c o n s t r u c tt h ee v a l u a t i o nf o r c e s ,w h i c ha r eh e l p f u lt ot h ea n a l y s i sa n d e v a l u a t i o no f t h es s ic l u s t e rm o n i t o r i n gs y s t e mr e l a t e dt e c h n i q u e s t h ek e r n e lo fs s ic l u s t e rm o n i t o r i n gs y s t e mc o n s i s t so fi n f o r m a t i o np r o b i n gm o d u l e ( i p m ) a n di n f o r m a t i o n c o l l e c t i o nm o d u l e ( i c m ) ,i m p l e m e n t a t i o n t e c h n i q u e so fi p m a n di c m a r ed i v i d e di n t os e r v e r lc a t a l o g u e s ,i n c l u d i n gi p mi n f o r m a t i o np r o b i n g ,i p ms y n c r o n i z a t i o n , i p mp r e p r o c e s s ,i c mt o p o l o g y , i c mc o m m u n i c a t i o nm o d e la n di c ms t o r a g em o d e l t h i s d i s s e r t a t i o n a n a l y z e s t h em e c h a n i s ma n da p p l i c a t i o nc h a r a c t e r so fe x i s t i n g t e c h n i q u e s , p r o p o s e ss o m en e wt e c h n i q u e sa n dp o n d e d n gt h e i re f f i c a c ya n dp e r f o r m a n c e ,t h e s ew o r k s g i v et h eg u i d e l i n e sf o rt h ei m p l e m e n t a t i o no f s s l c l u s t e rm o n i t o r i n gs y s t e m a tt h ee n do ft h i sd i s s e r t a t i o n ,i ti n t r o d u c e sas s ic l u s t e rm o n i t o r i n gs y s t e md e v e l o p e d b yu s ,s u n e y e ,w h i c hs u c c e s s f u l l ya p p l i e dt oi c l u s t e r1 8 0 0 ,ac l u s t e rw i t h2 5 6n o d e s ,a n d p r e s e n t e dh i g hp e r f o r m a n c e , k e y w o r d s :a u t o n o m i cc o m p u t i n g ,s y s t e mm a n a g e m e n t ,c l u s t e rm o n i t o r i n g ,s i n g l es y s t e m i m a g e 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究正作及取得 的研究成果。就我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果。与我,一同工作的同志对禾研 究所做的任何贡献均已在论文中作了明确的说明井表示了谢意: 作者签名:砸坛f ;弱:加泓呵 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、 缩印或其它复制手段保存该论文。 作者签名:弘毙争 导师签名日期:易邪; 单一系统映像机群监控系统的关键技术研究:引言 引言 随着自主计算这一概念的提出,系统管理的自主化成为当前研究的热点。在机群环 境下,系统管理也朝着自主化方向发展。以单一系统映像机群监控为主要特征的机群监 控系统,本文简称之为单一系统映像机群监控系统,作为自主机群管理系统的重要环, 即反馈机制,成为实现机群系统管理自主化的重要基础。 目前的机群监控系统难以满足自主机群管理系统对机群监控系统提出的单一系统 映像机群监控、高强度监控和低资源消耗等方面的需求。因此,需要对现有的技术进行 分析和评估,并提出新的技术来解决单一系统映像机群监控系统所面临的技术挑战。 本文的第一章结合当前研究的现状,对机群监控系统的任务划分、组织结构和技术 构成进行了综合的介绍,指出目前研究中存在的问题,并通过对自主机群管理系统的分 析,揭示了机群监控系统面临的新需求和新挑战。 在第二章中,我们就单一系统映像机群监控系统的技术问题进行了分析。我们明确 了单一系统映像机群监控系统的技术目标,定义了一个具有代表性的企业级机群系统模 型,c e c s ( c l a s s i ce n t e r p r i s ec l u s t e rs y s t e m ) ,作为我们技术分析与研究的环境。 随后,我们指出了实现单一系统映像机群监控系统所要解决的技术难点,并给出了具体 的衡量尺度作为评价的标准,这在随后两章关于关键技术的研究中得到了运用。最后, 该章指出了哪些是我们要研究的关键技术。 第三章和第四章分别研究了单一系统映像机群监控系统的核心模块,信息采集模块 i p m ( i n f o r m a t i o np r o b i n gm o d u l e ) 和信息收集模块i c m ( i n f o r m a t i o nc o l l e c t i o n m o d u l e ) 的实现技术。前者被划分为信息采集、同步和预处理三个方面的多种实现技术, 而后者被划分为拓扑结构、通信模型和存储模型三个方面的多种实现技术。我们运用第 二章中的成果,对这些技术的原理和应用特点进行了研究,讨论了它们在不同衡量尺度 上的表现,并对每一方面的多种实现技术进行了小结。这些都对单一系统映像机群监控 的实现起到了指导作用。 第五章介绍了一个单系统映像机群监控系统的具体实现。该系统是我们为联想万 亿次机群深腾1 8 0 0 ( 当年t o p 5 0 0 排名第4 3 位) 开发的专用监控系统产品深腾慧跟 机群监控系统。通过对系统设计与实现的介绍,我们可以看到部分关键技术的应用效果。 深腾慧眼能对机群运行过程中6 0 0 0 多个软硬件参数进行全面、实时、精确的监测和记 录,能智能化地进行故障预警和故障定位,在实际应用中获得了中科院数学所,中国海 洋石油总公司等客户的一致好评,经专家评审认为达到了世界先进水平。 本文的主要贡献可归结为以下几个方面。 第一,通过本文的研究,使我们明确了实现单一系统映像机群监控系统所要解决的 技术问题以及在实现过程中多个需要关注的方面,本文将这些方面总结为若干衡量尺 度,用以帮助我们权衡考量在实现单一系统映像机群监控系统过程中采用的技术。 单一系统映像机群监控系统的关键技术研究:引言 第二,本文对单一系统映像机群监控系统核心模块的关键技术的研究,以及提出的 一些新的技术解决了单一系统映像机群监控所面临的技术难点,实现了技术目标,并对 我们在不同的机群环境下如何应用这些技术给予了指导,指出了每种技术的特点和存在 的问题。 第三,基于本文的部分研究成果,我们实现了一个单一系统映像机群监控系统 联想深腾慧眼机群监控系统。作为我国第一台万亿次机群深腾1 8 0 0 的监控系统产品, 深腾慧眼在实际应用中表现出很高的性能,满足了需求,并且其中的一些技术取得了专 利( 机群网络中间代理节点的选择方法,官方已受理,受理号0 2 1 4 2 1 6 4 1 ;一种机群监 控系统和方法,官方已受理,受理号0 2 1 4 2 1 6 6 8 ;超级服务器监控管理系统,官方已受 理,受理号0 2 1 2 5 6 2 7 6 ) ,为今后的相关研发积累了经验。 第一章机群监控系统技术综述 第一章机群监控系统技术综述 机群计算已经不是计算领域的新事物了。自2 0 世纪9 0 年代提出了机群这一概念后, 机群这一计算技术得到了飞速的发展,其应用领域越来越广泛,逐渐成为高性能计算的 主流。由于机群是由大量结点机通过网络互联构成的并行计算系统,具有庞大的且复杂 多变的运行环境,因此高效的机群管理是机群充分发挥其能力的重要保证,而高效的机 群管理有赖于机群监控系统提供准确及时的机群运行状态信息作为其资源调度和机群 配置的依据。作为机群管理的重要基础设施,机群监控系统的作用犹如机群的神经系统, 它的性能和能力直接影响机群管理的效率和能力,进而影响着机群的整体性能。 本章首先介绍了机群监控系统的任务和组织结构;然后综述了包括监控信息的采 集,监控信息的收集,监控系统对外应用接口以及用户控制端等各方面的技术;最后讨 论了当前自主机群管理系统对机群监控系统提出的新需求和对其实现技术提出的新挑 战。 1 1 机群监控系统的任务 作为机群管理的重要基础设施,机群监控系统的主要任务是获取机群的系统配置和 性能参数,例如c p u 个数、内存大小、c p u 利用率、内存利用率、网络流量等。然后 以一定的形式提供给机群管理系统或其他上层应用。机群监控系统帮助机群管理系统发 现并定位机群系统存在的潜在问题,同时为机群管理系统对机群进行资源调度和机群配 置提供依据,例如机群任务调度器可依据机群监控系统提供的机群c p u 负载分布情况 进行任务调度。 一般来说,机群监控系统为机群管理系统提供以下几个方面的支持: 1 机群配置机群监控系统可以反映机群的配置情况,例如有哪些硬件设备, 哪些结点是可用的,结点的类型,运行什么操作系统,负责执行何种任务等信 息。这些配置是动态的,机群监控系统要实时反映这些配置。 2 机群状态这是机群监控系统的主要任务,即反映机群的运行状态,例如 c p u 利用率,内存分配情况,进程数等信息。机群的运行状态也是动态的,机 群监控系统要实时反映机群运行状态,同时提供历史数据归档和分析。 3 机群监测机群监控系统可以反映机群的故障情况,即对机群状态信息进行 分析,发现故障和潜在故障,并做出相应的初步处理,例如报告给管理员或机 群管理系统。 4 机群控制机群监控系统提供一定的控制功能,比如开关机。高级的控制功 能和实时的状态和配置信息获取形成闭环系统,会增加机群监控系统的复杂程 度,因此多数机群监控系统的实现都没有包含控制功能,而是由机群管理系统 来实现。 单一系统映缘机群监控系统的关链技术研究 5 支持上层应用机群监控系统向上层应用,如机群管理系统或其他应用软件, 提供接口,统一了机群中状态和配置信息获取的途径,提高了整体效率。尤为 重要的是为机群管理系统的管理任务提供数据支持。 在实际系统中,这些任务通过两个途径表现出来: 1 提供机群配置和状态信息的可视化输出,以便管理员掌握整个机群的配置和运 行状态,对故障和其他异常情况做出相应的处理,并且可以通过监控系统对机 群进行一定的控制。这是以可视化用户控制端程序来实现。 2 提供编程接口,使其它应用,尤其是机群管理系统,能够对机群监控系统进行 访问,使用机群监控系统提供的服务和数据。这是以编程接口函数库的形式来 实现的。 监控是系统管理的重要组成部分 3 ,因此机群监控系统的主要服务对象是机群管 理系统。机群监控系统作为一个子系统和功能模块,与机群管理系统有机融合,共同支 持机群系统的运行。因此,机群管理系统的运行模式和功能特点对机群监控系统具有重 要指导意义,而机群监控系统应优先满足机群管理系统的需求。 1 2 机群监控系统的组织结构 机群监控系统由如下几个部分组成,他们的关系如图1 i 所示。 i p m 信息采集模块( i n f o r m a t i o np r o b i n gm o d u l e ) :机群监控系统与结点操 作系统的接口模块,主要负责结点信息的采集,同时也可对结点进行某些状态 检查生成另一类监控信息事件i - 6 。采集到的信息和状态检查生成的事件 将被发送或收集到机群监控系统的其它部分。 i c m 信息收集摸块( i n f o r m a t i o nc o l l e c t i o nm o d u l e ) :机群的监控信息( 结 点信息和事件) 由该模块负责收集和存储。此外,该模块还可综合分析收集到 的监控信息生成更高层次的事件。该模块可视为机群监控系统的缓存区,以避 免反复查询数据给整个机群的运行带来影响。 i a m 信息接口库模块( i n f o r m a t i o na p il i b r a r ym o d u l e ) :这是外部应用程 序与机群监控系统的接口模块,使得外部程序能够访问和使用机群监控系统的 监控信息。 c 以控制与可视化模块( c o n t r o la n dv i s u a l i z a t i o nm o d u l e ) :该模块向用户 呈现机群的性能状态,用户可以设定呈现的方式和内容,行使机群监控系统提 供的控制功能。该模块实际上是使用i a m 的外部应用程序。 该组织结构反映了机群监控系统的典型架构。所有的机群监控系统尽管在具体实现 上各不相同,但都可划分为这四个模块。其中i p m 和i c m 是机群监控系统的核心,它 们完成了机群监控的主要功能。 第一蕈机群监控系统技术综述 1 3i p m 的监控信息采集 图1 1 机群监控系统的组织结构 信息采集模块 p m 主要负责结点信息采集,同时也可进行某些状态检查生成事件。 这些任务可通过多种技术,应用结点机操作系统的相关接口来完成。这些技术和方法可 总结为如图1 2 所示。 图1 2 获取结点系统信息的途径 直接访问内核内存采集结点信息 单一系统映像机群监控系统的关键技术研究 通过读取特定内核地址( 一些u n i x 系统可通过d e v k m e m 接口来实现这一目的) 的内容来获取结点系统信息。这种方式依赖于内核版本,但任何内核的升级改动都将可 能导致原有方式失效。对于像l i n u x 这样的不断改进的内核,这种方法是不适合的。一 些内核通过提供特定的a p i 来避免这一问题。还有些工具 7 通过安装专门的驱动来 实现接口的固定,当然驱动依然要随着内核的改动而做出相应的改动。无论上述哪种方 式,其主要优点都是能够快速采集系统信息。 通过文件系统获取结点信息 多数u n i x 操作系统提供名为p r o e 的目录,该目录下以文件的形式提供了绝大多 数系统信息。由于该目录的结构内容是相对稳定的,不随内核的升级改变而变动。因此, 通过该方法获取系统信息对于u n i x 操作系统具有良好的可移植性。而且由于p r o c 通 过虚拟文件系统直接映射到内核内存,所以其访问速度也很快。一些机群监控系统,如 s c m s 2 8 在p r o c 之上开发了函数库,具有更好的可移植性,而且使编程变得更容 易。 通过系统a p i 获取结点信息 随着d m t f 9 的c i m 规范 1 0 的日渐成熟,一些操作系统厂商提供符合c i m 规范的系统a p i 。例如,w i n d o w s 系统提供w m i a p i 1 1 来完成系统信息的采集。目 前u n i x 系统对c i m 的支持还不够,但作为d m t f 推出的公认的分布式系统管理信息 模型的规范,这是未来的趋势。 利用脚本通过系统管理命令获取结点信息 u n i x 类系统提供标准的命令行工具获取系统信息,通过脚本编程提取命令行工具 生成的信息,从而完成结点系统信息的采集。在u n i x 系统中,这种方法具有良好的可 移植性,可维护性。但速度较馒,系统开销相对前述方法较高,适合开发初期功能实现, 在优化阶段应用更高效的方法替代。该方法在w i n d o w s 下不适用。 1 4 i c m 的监控信息收集与缓存 信息收集模块 c m 将各结点i p m 采集的信息收集,汇总,格式化后进行缓存。如 有必要,该模块还可综合分析收集到的信息生成更高层次的事件,格式化后进行缓存。 同时,该模块接受来自上层i a m 的请求,将相应的信息反馈给监控客户端。i c m 工作 方式很大程度上决定了整个机群监控系统的特点,它是机群监控系统的核心。 第一章机群监控系统技术练述 i c m 的相关技术可归结为拓扑结构,通信模型和存储模型三个方面。 拓扑结构 拓扑结构决定了i c m 收集监控信息能力的可扩展性,进而决定了机群监控系统的 可扩展性。 许多机群监控系统 1 2 1 3 1 4 1 5 采用集中式的拓扑结构,即各结点i p m 采集到的信息直接传输到一个专用服务器监控服务器集中管理。该结构对中小规模 的机群监控具有结构简单,信息收集效率高的优点。但随着大规模机群系统的越来越普 遍,该结构中的监控服务器负载加重,同时占用大量的网络带宽,信息收集效率随之下 降。 因此,具有良好可扩展性的机群监控系统 1 6 普遍采用层次式多级拓扑结构。该 结构将监控的机群划分成多个域,每个域由多个结点和一个代理构成。代理接收来自上 层域的代理的请求,将自身所在域收集到的结点信息合并后发送给上层代理。这样监控 信息能够逐层传递最终到达监控服务器。 通信模型 通信模型是i c m 收集监控信息所采用的协议和方法,它同拓扑结构一起决定了监 控信息收集的效率。提高监控信息收集的效率具有两层含义,一是尽可能快地收集监控 信息,二是尽可能少地占用网络带宽来完成监控信息收集。拓扑结构的选择对这两点都 会产生影响,尤其是信息逐层传输的层次式多级拓扑结构。 机群监控系统的通信模型通常有推( p u s h ) ,拉( p u l l ) 和推拉混台三种模式。 1 拉模式 基于拉模式的通信模型是指只有当接收方发出请求,数据源才将信息发送至接收 方。这是最为经典的通信模型。绝大多数机群监控系统 c m 均采用轮询这种拉模式的 通信模型,即按一定时间间隔,i c m 中的接收方向数据源发送请求,数据源接收到请求 后向接收方发送监控信息。在s y m o n 1 9 中,其通信模型采用的是s n m p 2 3 通 信协议,s u p e r m o n1 - 2 4 中采用的是s u nr p c i 2 5 协议,而c l u s t e r p r o b e 1 6 采用 的是j a 、,ar m i 2 6 。这三种协议均属于拉模式的通信协议,因此,这三种机群监控系 统的i c m 通信协议是拉模式的。 2 推模式 单系统映像机群监控系统的关键技术研究 基于推模式的通信模型是指无需接收方发出请求,数据源按一定规则将信息主动发 送至接收方,接收方按一定规则选择接收或忽略信息。在机群监控系统中,采用推模式 的通信模型要求数据源按一定时间间隔主动向接收方发送监控信息。在大多数情况f , 推模式的通信模型必须采用某种机制去同步接收方和数据源的发送和接收工作时序,否 则不一致的时序会导致接收方无法收到所要的数据。因此采用纯推模式的通信模型的机 群监控系统很少。 3 推拉混合模式 基于推拉混合模式的通信模型是指接收方定时向各数据源发送同步信号,数据源收 到同步信号后,调整自身主动发送监控信息的时序,如此达到双方的步调一致,从而实 现高效率的信息收集。推拉混合模式汲取了前述两种模式的优点,屏蔽了它们的缺点 2 7 3 。推拉混合模式的通信模型适用于多层次的复杂的i c m 拓扑结构,使之克服逐层 传输带来过多的通信开销,实现高效率的监控信息收集。 存储模型 存储模型是指i c m 缓存监控信息的方式。缓存监控信息的目的是为了优化网络通 信,减少网络带宽的占用,同时还便于 a m 访问监控信息。因此存储模型与前述拓扑 结构和通信模型密切相关。需要指出的是,缓存并不是必需的,一些1 c m 拓扑结构简 单的系统并不进行缓存,也就谈不上存储模型了。但大多数机群监控系统i c m 都对监 控信息进行缓存。 i c m 中的存储模型可分为集中式缓存和分布式缓存两种。 1 集中式缓存 集中式缓存顾名思义是指将收集到的所有监控信息在i c m 拓扑结构中的某个子模 块集中缓存。监控客户端应用通过i a m 访问该子模块便可获取所有的监控信息。通常 该i c m 子模块是其拓扑结构中的顶端模块,部署在监控服务器中。集中式缓存具有良 好的可管理性和易维护性,易于对机群监控信息进行整体操作,但是鉴于集中式缓存对 网络通信负载的优化较为粗放,且存储量大导致缓存存取性能下降,不利于高强度的机 群监控,因此目前较少机群监控系统的i c m 采用集中式缓存的存储模型。 2 分布式缓存 分布式缓存是将机群的监控信息缓存于i c m 拓扑结构的各个层次子模块中。由于 第一章机群髓控系统技术综述 这种结构上的分布特性,相比于集中式缓存,分布式缓存有利于对网络通信负载进行较 为精细的优化。监控客户端分别从这些子模块中提取所需监控信息 2 7o 因此,分布 式缓存不易管理和维护,但由于各缓存规模小,能够进行高频率地读写操作,分布式缓 存为机群监控系统i c m 提供了良好的性能。 1 5 外部接口i a m 和o v i i i a m 属于机群监控系统的外部编程接口,而c v m 是面向管理员的机群建监控系统 外部交互接口。两者服务的对象不同,但都属于机群监控系统的外部接口。事实上,c v m 也是建立在i a m 之上的监控系统应用程序,但多是同机群监控系统的其它子系统一起 作为一个整体提供给用户。 i a m 为外部应用提供功能完备。定义清晰的编程接口,完善了机群监控系统提供的 监控服务。外部应用无需了解机群监控系统内部复杂的机制和操作方法,便可通过这些 接口获得机群监控系统提供的监控服务。此外,i a m 对机群的监控信息进行组织与格式 化,以符合其接口定义的行为。 i a m 的主要服务对象是机群管理系统。机群管理系统通过i a m 使机群监控系统成 为自己的子系统,成为机群管理活动中的重要一环。 目前还没有公认的机群监控系统接口标准,因此各个机群监控系统都有自己的一套 对外接口。这使得不同机群监控系统的外部应用不兼容。随着d m t f 一系列规范的完善, 例如c i m ,这一问题将得到解决。 c v m 通常是一个独立的应用程序,负责控制和可视化机群监控系统的监控服务。 与一般的外部应用相同,c v m 使用i a m 提供的编程接口来实现其任务。由于各机群监 控系统的i a m 之间兼容性很差,因此机群监控系统一般都提供自己的c v m 作为缺省的 监控客户端。c v m 的功能往往体现了机群监控系统的能力。用户可以通过c v m 查看 机群的系统信息和运行状态,并通过c v m 来指定要监控的部分( 结点,设备等) e 2 8 3 2 9 3 0 3 。 1 6 当前研究中存在的问题 p a r m o n 1 4 ,c l u s t e r p r o b e 1 6 1 和s u p e r m o n 2 4 3 是目前最具代表性的几个机 群监控系统。 p a r m o n 采用了经典的客户机服务器模式,机群结点上运行p a r m o n s e r v e r ,用户 通过p a r m o n c l i e n t 监控机群。其中p a r m o n s e r v e r 负责采集结点信息,是用c 开发完成 的,而p a r m o n c l i e n t 是用j a v a 开发完成的图形化程序,负责向各结点上运行的 p a r m o n s e r v e r 实时收集信息,并将信息可视化呈现给用户。p a r m o n 可以从三个层面 对机群进行监控,即机群整体,机群结点和结点部件。 c l u s t e r p r o b e 是基于j a 、,a 技术的机群监控系统。它采用了多级代理层次式拓扑结构 以适应监控大规模机群的需要,同时向上提供多种通讯协议支持( s q l ,t c w i p ,j a v a 单一一系统映像机群临控系统的关键技术研究 r m i ,c o r b a 等) 以适应不同应用的需要。这些使得c l u s t e r p r o b e 成为一个具有开放 环境的,高度灵活和可扩展的机群监控系统。c l u s t e r p r o b e 也可以从机群褴体,机群结 点和结点部件三个层面对机群进行可视化监控,此外还提供多种服务,如机群故障管理, 为机群应用提供支持。 s u p e r m o n 是针对超大规模( t e r a s c a l e ) 机群的高性能的机群监控系统。它通过开发 定制的内核模块使得结点机具有艰高的信息采集效率,降低了信息采集对结点机产生的 性能影响。由于其各部件( 数据集中器s u p e r m o n 和单结点机监控服务器m o l l ) 采用同 样的通信协议,因此可以灵活组织形成多级代理层次式结构实现对超大规模机群的监 控。s u p e r m o n 的数据表示采用类似于l i s p 语言的符号语言这使得监控信息易于组合, 易于跨平台传输,易于不同用途的应用程序将其转换成自己所需要的任意的数据格式。 s u p e r m o n 可以对大规模的机群进行大数据量高频率的实对监控。 p a r i v i o n 和c l u s t e r p r o b e 机群监控系统通用性好,体现了目前机群监控系统典型的 实现技术。这些技术很好的解决了机群监控系统在可用性丰富多样的数据组织表现 形式和监控功能,可管理性易于管理和部署,灵活性适应机群配置的变化,可 扩展性可监控不同规模的机群等方面的问题,然而,考感到系统监控是系统管理研 究内容的子集,结合当前系统管理的发展趋势和机群自身的特点,这两种机群监控系统 也体现了当前机群监控系统普遍存在的两大问题。 第一,目前的机群监控系统依然视机群为一个松散耦合的分布式计算环境,即机群 中各结点是相互独立或具有弱相关性。分布式计算环境的耦合程度取决于其物理分布和 应用特征。从物理分布来看,机群是通过高速局域网连接大量计算结点构成的,结点阁 数据交互通信延迟和代价高于m p p 和主机系统,低于网格,因此耦合度居中。从应用 特点来看,枫群存在两大分支:高性能计算机群( h p cc l u s t e r ) 和高可用机群( h a c l u s t e r ) 。这两种应用都表现为应用将任务分布在机群中多个甚至全部结点上运行,这 些结点相互配合共同完成应用目标。因此机群中结点往往具有很强的相关性,耦合度很 高。当前系统管理的研究对应用的运行时管理越来越重视i 3 1 1 4 5 ,这就要求机群监 控系统视机群为紧耦合的分布式计算环境。然而,保持机群监控数据的一致性,使之能 够体现结点问的相关性,是目前机群监控系统无法做到的。 第二,目前绝大多数机群监控系统( s u p e r m o n 除外) 的重点过多地集中在如何提 高可用性,提供更多样的数据组织表现形式和监控功能上,而忽略了系统管理对监控性 能的要求,即大数据量高频率的实时机群监控。然而,监控性能对于机群监控系统是至 关重要的。低性能的监控使系统管理无法及时和详细掌握机群的运行状况,无法对机群 出现的问题及时做出应对措施。鉴于机群的特点,加大监控的数据量,提高监控的强度 和降低监控对机群运行性能的影响三者之闯是相互关联,相互牵制的,如何在这三者之 间找到合理的平衡点,是当前机群监控系统面临的主要困难。 s u p e r m o n 是当前唯一致力于提高监控性能的机群监控系统,其高性能的代价是带 来过高的网络负载,监控1 0 0 个结点的机群要占用大约5 0 m b p s 的带宽。这对于偏重计 o 第一章机群随控系统技术综述 算的机群应用来说影响不大,但当前机群应用趋向于偏重i 0 ,如企业计算,因此过高 的网络负载使得s u p e r m o n 不适用于这样的机群。此外,s u p e r m o n 监控的内容仍然偏少, 也没有专门的措施来保持机群监控数据的一致性。 本文的目的就是试图从实现技术的角度解决机群监控系统面临的这两点问题,特别 是针对当前系统管理的自主化趋势 3 。自主系统管理要求机群从全局角度为机群管理 系统提供机群多方面的高层次抽象,为管理策略的选择提供支持,这无疑增加了监控内 容,并对数据一致性问题提出了更高的要求,随之也对机群监控系统的监控性能提出了 近乎苛刻的挑战。 1 7 自主机群管理系统中的机群监控系统 作为机群监控系统主要的服务对象,机群管理系统的特点直接影响着对机群监控系 统的需求。随着自主计算的概念提出 3 1 ,目前机群管理系统正向着自主化方向发展, 其基本运行模式如图l - 3 所示。 其中,管理目标是由管理员依据机群当前运行的任务指定的。自主机群管理系统依 据管理目标对反映机群配置和运行状态的监控信息进行评估,评估结果反映了当前运行 中的机群是否符合管理目标。自适应控制机制的学习算法根据该评估结果自动调整管理 策略,通过管理功能,如资源调度、机群配置等,改变机群的配置和运行状态。改变后 的机群配置和运行状态通过机群监控系统反馈到自主机群管理系统中重新进行评估。如 此周而复始,实现对机群的动态管理。由此可见,自主化的机群管理系统是基于反馈控 制机制的自适应自动控制系统1 - 3 6 。 数据流一控制流 图1 3 自主机群管理系统基本运行模式 基于上述运行模式,自主机群管理系统具有以下几个突出特点; 1 能够根据机群规模和设施的变化自动调整管理域。机群的突出特点之一是可扩 单一系统映像机群j i 【控系统的关键技术研究 展性,通过增加和删除机群的结点或更换网络和存储等设备来调整机群的能力。 智能化的机群管理系统能够依据实时获取的机群配置信息对此做出反应,调整 管理域,而无须人为干预,即所谓的热插拔功能。 2 能够根据机群应用环境的变化自动调整机群配置。针对应用类型的特点,机群 可通过参数配置来适应特定的应用,以达到期望的目标,如高可用性或高实时 性。智能化的机群管理系统能够通过获取机群的运行状态信息,分析应用运行 时的特征,依据指定的管理日标自动实现参数配置。 3 时刻对机群运行中的应用进行性能优化。机群和外部环境一起构成了一个复杂 的计算环境。机群中的应用占用着各种计算资源,并随着负载和实时响应需求 等因素的变化,或释放占用的计算资源,或请求更多的计算资源。智能化的机 群管理系统时刻掌握机群的整体运行状态和计算资源分配情况,依据指定的管 理目标适时统一协调这些计算资源的分配,实现整体应用性能的最优化。 4 能够根据机群的故障情况和趋势自动进行修复和预防。智能化的机群监控系统 通过获取机群的运行状态信息,分析机群存在的潜在问题,自动调整机群进行 预防;通过获取机群的故障信息,定位机群故障点,自动分析故障原因,进行 修复。 对机群监控系统的新需求 作为反馈机制,杌群监控系统成为实现自主机群管理的重要一环。自主机群管理系 统的运行模式和上述特点很大程度上都依赖于机群监控系统提供的数据和服务。这对机 群监控系统提出了新的需求,归纳如下: l ,单一系统映像机群监控 作为反馈机制,机群监控系统的监控范围( 监控哪些结点) 和监控内容( 监控哪些 配置和性能参数) ,首先与自主机群管理系统追求的管理目标密切相关。任何管理目标 都与机群中的多个或全部结点的配置与运行状态密切相关,涉及这些结点的多个,甚至 全部配置与性能参数。无论是同一结点的,还使不同结点的,这些配置与性能参数都不 是孤立的。机群上运行的应用赋予它们某种内在联系,使它们相互作用相互影响。自主 机群管理系统通过分析这些结点的配置与性能参数找出这种内在联系,从而做出正确的 机群管理策略的调整。因此只有在相同的时间点采集到的这些结点监控信息,即快照方 式,才能保留有在该时间点机群应用所赋予它们的内在联系。 此外,自主机群管理系统是从单一系统映像的角度对机群进行综合管理,除实现管 理员指定的管理目标外,还要兼顾机群其它的基本目标,如安全性、可靠性等。这些目 标综合起来涉及机群所有结点的配置与运行状态。同样,相关的配置与性能参数也不是 2 第一章机群黼控系统技术综述 孤立的,也具有机群应用所赋予的某种内在联系,也同样只有在相同的时间点采集到的 它们的监控信息,才能保留有该在时间点机群应用所赋予它们的内在联系。 因此,必须实现单一系统映像机群监控即机群监控系统对机群所有部件的相关配 置和性能参数进行同步采集,并将同一时间点采集到的监控信息作为一个整体反馈给 自主机群管理系统,以便其分析其中的内在联系,并结合管理目标对管理策略做出调整。 2 高强度监控 从控制理论的角度我们可以知道,反馈的长延迟会导致控制系统性能的严重下降 3 7 。例如,假设前述自主机群管理系统运行模式中机群监控系统的反馈延迟为5 秒 钟。当自主机群管理系统获得反馈数据时,该数据反映的是机群5 秒钟前的状态。据此 数据结合管理目标对管理策略做出的调整很可能是错误的,甚至是违背管理目标的,尤 其是当机群运行状态变化很快的情况下。因此必须根据反馈数据对当前机群的状态进行 预测,并据此结合管理目标对管理策略做出调整。这样,在机群运行状态变化速度平稳 的情况下,管理策略错误的可能性大大降低了。但是,反馈延迟越长,预测就与实际情 况更可能产生大的偏差,最终导致错误的不可避免乃至不可收拾。因此,作为反馈机制, 机群监控系统必须实现高强度的监控,即高频率地采集机群配置和运行状态信息,并快 速实时地将这些信息反馈给自主机群管理系统,从而减小反馈延迟。 3 低资源消耗 这里的资源主要指机群的计算资源。机群监控系统本身运行在机群之上,使用机群 的计算资源。因此低资源消耗意味着避免机群监控系统的运行对机群上其它应用的运行 产生大的影响。低资源消耗是对机群监控系统的基本要求,是机群监控系统可扩展性的 重要前提。之所以在这里作为新的要求着重指出是因为要满足前述两点需求必然导致机 群监控系统的资源消耗大大增加,导致自主机群管理系统中的机群监控系统的设计与实 现成为资源受限环境下的系统开发问题。这是目前机群监控系统所不曾面i 临的。 机群监控系统技术上面临的新挑战 鉴于单一系统映像机群监控是自主机群管理系统中机群监控系统的主要特征,本论 文将符合自主机群管理系统需求的机群监控系统简称为单一系统映像机群监控系统。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论