




已阅读5页,还剩56页未读, 继续免费阅读
(计算机系统结构专业论文)紧耦合行业网格的可管理性研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 紧耦合行业网格作为一种特殊的应用模式,与一般的网格相比有明显的区 别。在格点自治的同时,紧耦合行业网格中的格点属于同一个组织。格点具有系 统管理的多重性,即格点本身和主控格点都具有对之进行系统管理的能力。其资 源访问控制机制是一种“官僚体制”,即格点内部自治,不同格点之间的访问需 要主控格点的批准,而主控格点可以在授权后访问下属格点的资源。 作为面向商业应用的系统,紧耦合行业网格强调减少系统的总拥有成本,而 管理开支是总拥有成本的重要组成部分本文以提高紧耦合行业网格的可管理 性、减少其总管理开支为目标进行了研究。主要的研究成果有: 1 ,分析和定义了紧耦合行业网格这种特殊的应用模式及其最重要的特征, 并归纳了其对可管理性的关键需求; 2 ,提出了一个面向全局系统监控和控制的体系结构,使得部分格点系统管 理任务可以移交给主控格点管理员进行,从而减少了分布在各个格点的管理员的 重复劳动; 3 ,对传统的基于角色的访问控制模型r b a c 进行了扩展,并进行了形式化 的描述。扩展后的模型可以更好的满足紧耦合行业网格在资源访问控制方面的特 点,同时具有一定的可定制特性; 4 ,设计了一套平台白组织和自维护的协议。它可以处理格点的加入退出, 主控格点失效,网络分裂等情况,使得在这些情况下不必再引入管理员的人工劳 动。 5 ,基于中科院计算所国家智能计算机研究开发中心开发的机群操作系统 p h o e n i xo s ,我们实现了一个紧耦合行业网格管理平台p h o e n i xp l a t f o r m ,并进行 了一定的评价 关键词:紧耦合行业网格,可管理性,总拥有成本,r b a c 模型,自组织自维护, p h o e n i xo s 。1 目 a b s t r a c t a b s t r a c t t i g h t l yc o n n e c t e di n d u s t r i a lg r i di sd i f f e r e n tf r o mc o m n l o l lg r i d s a uu n i t so f t i g h t l yc o n n e c t e di n d u s t r i a lg r i db e l o n gt oas i n g l eo r g a n i z a t i o n , a n da r ed i s t r i b u t e d g e o g r a p h i c a l l y f o ro n eu n i to f s u c ha 面d ,b o t l io f t h eu n i ti t s e l f a n dc e n t r a lu n i th a v e t h ea b i l i t yd os y s t e mm a n a g e m e n to ni t a n dt h er e s o u r c 足a c c e s 螂b e t w e e nd i f f e r e n c e u n i t sn e e dt ob ea p p r o v e db yt h ec e n t r a lu n i t m o r e o v e r , t i g h t l yc o n n e c t e di n d u s t r i a lg r i de m p h a s i z e st h er e d u c t i o no ft o t a l c o s to fo w n e r s h i p ( r c o ) f o rt i g h t l yc o n n e c t e di n d u s t r i a lg r i d s ,t h e x p e l 丝eo f m a n a g e m e n ti sak e yp a r to f t c o a n dt h i sp a p e rd o e sr e s e a r c ht oc u tt h ee x p e n s e so f m a n a g e m e n t s a n dt h e ni n c r e a s ei t sm a n a g e a b i l i t y n 培m a i nc d n t r i b u t i o u sa r e : l ,i nt h i sp a p e r , t h et i g h t l yc o n n e c t e di n d u s t r i a lg r i di sa n a l y z e d , a n di t sk e y r e q u i r e m e n t sf o rm a n a g e a b i l i t yi sg i v e n ; 2 ,a na r c h i t e c t u r et os u p p o r to v e r a l ls y s t e mm o n i t o r i n ga n de o n t r o f l i n gi s d e s i g n e dt or e d u c er e p e a t e dl a b o r so f d i s t r i b u t e da d m i n i s t r a t o r s ; 3 ,1 1 坞仃a d i t i o n a lr o l eb a s e da c c e s sc o n t r o l ( r b a c ) m o d u l ei se x p a n d e dt ob e u s e dw i mt h er e s o u l - c ca c o e s sm e c h a n i s mo f t i g h t l yc o n n e c t e di n d u s t r i a lg r i d , w h i c h i sd e f i n e di naf o r m a lm o d e lt o o 4 ,t oh a n d l ea c c i d e n t sl i k eu n i tj o i n i n g , q u i t t i n g , c e n t e rd i s a b i l i t ya n ds oo n , a s e l f - o r g a n i z i n gp r o t o e n l i s d e s i g n e d , w h i c h na v o i d t h ei n t e r v e n t i o no f a d m i n i s t r a t o r s , t h u sr e d u c e st c o 。 5 ,b a s e do nac l u s t e ro p e r a t i n gs y s t e mp h o e n i xo s 。w h i c hi sd e v e l o p e db y n c i c - i c t , w oi m p l e m e n t e d0 1 1 m a n a g e m e n tp l a t f o r mf o rt i g h t l yc o n n e c t e d i n d u s t r i a lo d d s , p h o e n i xp l a t f o r m , a n de v a l u a t et o o k e y w o r d s :t i g h t l yc o n n e c t e di n d u s t r i a lg r i d s ,m a n a g e a b i l i t y , t c o , r b a cm o d u l o , s e l f - o r g a n i z i n g , p h o e n i xo s m 图表目录 图表目录 图表1 机群体系结构1 图表3 网程及其运行环境 图表4g a n g l i a 体系结构1 3 图表5c , r i d v i e w 系统框架图 图表6p h o e n i xo s 机群操作系统整体结构 。1 3 。2 0 图表7 面向全局监控和控制的统一构件框架2 2 图表9 标准r b a c 模型 图表l o 主客体属于相同域的访问控制模型3 0 图表l l 主客体属于不同域的访问控制模型。3 l 图表1 2 自组织协议的状态转换图 图表1 3 管理单元控制器的位置 图表1 4 m v c 设计模式 图表1 5p h o e n i xp l a t f o r m 系统截图 图表1 6 不同管理机制的管理开销 图表1 7 测试平台的节点配置 图表1 8 侦测代理和远程控制代理消耗的资源 i x 4 1 4 5 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。就我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 作者签名刁- 关于论文使用授权的说明 日期:1 ) 6 、参, 中国科学院计算技术研究所有权处理、保留送交论文的复印件, 允许论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采 用影印、缩印或其它复制手段保存该论文。 名枷臌:鼬吼弘多, 引言 第一章引言 本章首先介绍了分布式系统的发展,之后重点介绍了本文要研究的对象 紧耦合行业网格,分析了这种应用模式和网格的异同,并给出了其具体的定义。 紧耦合行业网格的核心需求之一是减少总拥有成本( t c o ) ,而t c o 中的很大一 部分是管理成本,这包括系统管理成本和资源共享的管理成本。而本文的主要研 究动机是减少管理成本的机制,从而有助于减少紧耦合行业网格的总拥有成本 在本章的最后给出了本文的研究贡献,以及本文的结构 1 1 紧耦合行业网格 1 1 1 分布式系统的发展 机群环境 从单机环境到机群环境的主要促动力是网络技术的发展,构成机群系统的 p c 、工作站的普遍和廉价和计算成本的大大降低。机群是一组计算机系统( 节点) 通过高性能网络或者局域网( l a n ) 互连而形成的具有单一系统映像( s i n o e s y s t e mi m a g e ) 的高可用、高性能,高可扩展性的计算机集群系统。它的每个节点 都是一个完整的计算机系统,如$ m p 服务器、工作站或p c 服务器,可以独立 工作。 编程环境和应用 匝明髓露嗣甄舞藕翰瓤强豳嘲丽蹑黼 二o i s ll o l si 年o s 匠疆硒面獗匠二: 图表1 机群体系结构 图表l 给出了机群系统的体系结构。机群的系统结构特点如下: 机群节点:每个节点是一台完整计算机这就意味着每个节点有自己的 处理器、高速缓存、磁盘以及某些i 0 适配器。此外在每个节点上驻留 有完整、标准的操作系统。 节点间互连:机群中的节点通过商品化网络,如以太网、f d d i 、光通道 以及a 1 m 开关进行连接。 紧耦合行业网格的a f 管理件研究 单一系统映像:一个机群是一个单一计算集资源。机群借助一些单一系 统映像技术,实现单资源概念。 网格环境 网格就是在缺少中央控制、没有全知者( o m n i s c i e n c e ) 以及强的信任关系的情 况下能够协同使用地理分布的各种资源的网络计算环境【3 8 】。 从机群环境到网格环境的主要促动力是网络技术的进一步发展,计算需求的 提高和用户需求的进一步多样化。网络计算环境的发展,使得人们认识到网络计 算环境不仅仅可以运用于大型问题的求解,也可以通过网格技术,构建虚拟组织, 进行资源的共享和交换,满足用户的不同需求,减少资源冗余,进一步降低成本。 广域网技术,尤其是i n t e m e t 技术的发展,w e b 技术的发展,使得在广域的,异 构的资源间实现共享成为可能。 与机群环境比较,网格环境存在如下新的特征,即自治性和资源管理的多重 性: 网格上的资源,首先是属于某个组织或者个人的,因此,网格资源的拥有者 对该资源具有最高级别的管理权限,网格应该允许资源拥有者对他的资源有自主 的管理能力,这就是网格的自治性。但是,网格资源也必须接受网格的统一管理, 否则资源间无法建立联系,实现共享,从而作为一个整体为更多的用户提供方便 的,廉价的服务。 因此,网格的管理具有多重性,一方面它允许网格资源的所有者对网格资源 具有自主性管理,另一方面又要求网格资源必须接受网格的统一管理,以实现资 源的贡献。 这里“资源共享”这个术语是指控制网格资源和服务怎样向包括用户,应用 或服务在内的其他实体提供可用能力的一组操作。严格的说,资源管理不是有关 资源和服务的核心功能,即资源和服务能够为客户做什么,而是指功能执行的方 式。如被请求的操作合适开始执行,或者它需要多长时间完成等。 1 1 2 特殊的应用模式紧耦合行业网格 在参与国家十五科技攻关项目( 编号;2 0 0 4 b a 8 1 1 8 0 9 1 ) “基于异构节点机 的分布式应用平台的研究“时,我们需要把某个单位分布在不同地域的子单位协 作起来,推进这些子单位之间的资源共享。这时,我们发现面对是一种新的应用 模式。 应用模式的特点 这种模式和一般意义上的网格有不少相似之处: 系统的资源以格点的形式分布在不同的地理位置,这些格点是异构的机 群或者局域网,格点之间通过广域网i n t e m e t 连接。 2 引言 每个格点本身是自治的。其内部有自己的系统管理机制,也有自己的资 源访问控制机制。 格点之间提供资源的共享和交换,从而满足用户的不同需求,减少资源 冗余。 但在和一般意义的网格环境有一定的相似性的同时,这种应用模式也有自己 的特点。由于整个系统属于同一个商业组织,而组织拥有总控中心,这就带来了 和一般意义网格上的一些区别。 格点对总控中心有较强的信任。虽然格点是自治的,但由于格点同时属 于同一组织,因此格点不但在该组织的不同格点间共享资源,也允许总 控中心处理单个格点的部分系统管理( 比如故障侦测、开关机管理等) , 我们称这种特性为“紧耦合”。 资源共享的“官僚体制”对于单个的自治格点来说,内部有自己的资源 访问控制机制,即内部的资源访问控制是自治的。但如果该格点的用户 试图访问其余格点的资源,就需要经过主控格点批准。同时,主控格点 的用户在授权之后,可以访问各个下属格点的资源。我们将这种自上而 下的资源共享机制称为“官僚体制”。 重视减少“总拥有成本”由于这种系统一般面向的是商业计算而非科学 计算,其拥有者一般比较在意系统的总拥有成本( t c o ,t o t a lc o s to f o w n e r s h i p ) 。即希望在保证服务质量的基础上,尽量减少系统本身的开 销这不仅包括硬件和软件的购置,也包括系统管理、资源访问控铝等 引入的管理开销在重视t c o 这点上,这种应用模式和一般的网格系统 有一定的不同后者主要面对科学计算 综上,我们可以给出这种特殊的应用模式的定义: 定义1 1 :紧耦合行业网格是一种应用于某些商业组织( 行业特性) 、格点自 治( 网格特性) 、格点和总控中心有强的信任关系( 紧耦合性) 、协同使用地理分 布的各种资源的网络计算环境 应用场景 许多商业组织,政府机关具有紧祸合行业网格的部分或全部特性,以我们在 实际项目中面对的国家某部委为例,他们的实际应用具有如下的特点: 该部委拥有很多子单位,这些子单位分布在全国各地,每个子单位都有 自己的计算和数据资源,并且有在单位内资源共享的需求。 虽然在系统管理方面各个子单位是自治的,但同时它们也信任总局,可 以让总局接手部分的系统管理。 加入北京的子单位希望访问上海子单位的资料,需要先向总局申请在 3 暨耦合行业阿格的可管理性研究 得到授权之后才可以去上海进行访问。 每个子单位都需要一定量的系统管理员来保证自己的计算和数据资源的 正常运转,这些系统管理员的人工劳动是巨大的。 可以看出,这里的应用模式基本符合紧耦合行业网格的特点。 1 2 研究动机:减少紧耦合行业网格的管理成本 1 2 1 系统管理与可管理性 据统计 2 8 1 ,系统管理和维护每年的开销是硬件的十倍,许多公司把降低以 系统管理为代表的总开销作为一个重要的目标 由于过去的几十年中,计算机科学的研究重点一直是对性能的追求。在摩尔 定律的推动下,计算机的性能每1 8 个月就会增长一倍,计算机存储器的容量和 传输速度非常规地发展,计算机网络的吞吐量跳跃式地增加。在计算机性能不断 提高的同时,计算机部件的平均价格却在不断下降。用户可以用更小的成本,购 t 买更快更稳定的设备。标准化、商品化的部件价格的降低更诱惑人们用更多便宜 的部件构造高性能的计算机。因此规模的扩大也是必然的趋势。在这个快速发展 的背景下,对性能的研究工作已经形成一整套相当成熟的方法和丰富的成果。 尽管有成熟的方法和丰富的成果,性能的提高却并没有带来令人满意的计算 机使用和管理状况。其中一个重要原因就是计算机软硬件故障引起的计算机整体 可用度下降。目i ; 的硬件提供商通常都声称自己能提供3 个9 、4 个9 甚至更高 的可用性,但是由于目前系统向着规模更大,更分散的趋势发展,管理上的难题 仍然不能完全依靠部件可用性的提高来解决。 可管理性已经成为阻碍计算机系统继续发展的一个绊脚石。d a v i dp a t t e r s o n 在h o t o s i i i 会议上言辞激烈地批评了操作系统界只注重性能,没有为计算机的 使用做出实质性的贡献。他在近几年的重要会议上大声倡导 a v a i l a b i l i t ya n d m a i n t a i n a b i l i t y p o r f o r m a n c e 2 6 ,认为当前是必须对追求性能的现有技术进行 可管理性和可维护性改造的时机。 为了探讨系统可管理性的问题,必须首先对可管理性的研究范畴进行界定, 进而研究影响系统可管理性的因素。现有文献对可管理性并没有给出精确的定 义,但是这个术语经常作为系统设计思想。与可管理性的研究范畴有最大相关的 是传统的可信性d e p e n d a b i l i t y 的研究,可信性被定义为若干属性如可用性、可 靠性、私密性、完整性和可维护性等的组合。定义系统管理员的所有工作内容都 属于可管理性的研究范围,可以看出这是一个非常广泛的研究领域,包括性能调 节、系统配置、系统监控、故障管理等等。 为讨论方便,考虑一个机群系统。当机群规模增加,由于冗余,多个节点同 4 引言 时不可用的概率大大降低,但是任何一个节点失效都需要维护,因此管理工作随 着规模增大而增加。一个能提供若干个9 可用度的机群系统的维护工作与该系统 的规模,系统节点的可用性有密切联系。我们定义系统管理的工作量用m 表示, 则一个机群系统处于节点维护的时间是; m 一( 1 一锄r 其中a 是节点可用性,n 是系统规模,t 是系统运行的总时间。 考查一个由可用度为9 9 9 的节点组成的机群,当系统规模达到1 0 0 节点的 时候,平均每天有4 8 个节点出错,系统维护时间是2 4 个小时,如果规模增长 到1 0 0 0 节点,每天会有4 8 个节点出错,系统维护时间将是2 4 个小时。 这还仅仅是理论上的分析实际系统在运行时并不能达到提供商所声称的几 个9 的可用性,原因在于操作系统错误、软件故障、系统管理操作错误等等都会 引起系统停机。因此系统在实际运行时所能达到的可用性通常会小于供应商提供 的可用性,维护工作m 也会大于上式计算得到的结果。 蜚 我们继续分析维护工作的具体构成。通过可用性 彳= 砀元m f t 石f f 丽得到吖= 面云m f i t 而r r ,当肘刀f 肘刀喂f 维护 朋刀下+ 朋刀盈 。 f 玎,+ 朋l 刀碗 一。一7 ” 时间肘= 篇r m 是规模为n 的机群运行t 时间后花在维护上面的时间积累,是一个绝对 量,表示共有m 的工作量需要系统管理员去做。 减少维护和管理工作的第一个途径是隐藏维护开销,主要手段有批量维护和 主动维护。主动维护和批量维护的依据在于机群内错误的发生具有时间相关性和 位置相关性。有研究发现,如果某一时刻发生错误,则在下一时刻发生故障的可 能性也非常大也就是说系统在某时刻出错,那么很有可能在以后的一段时间内 都处于错误状态。批量维护则利用错误的相关性,对同一错误引起的故障一起处 理,而主动维护则在刚发生故障征兆的时候或者还未发生故障的时候就对系统进 行状态重置,预防故障引起的不良后果。 减少维护工作的第二个途径是提高可用性a ,提高m t r f 或者减小m t t r 。 m t t f 和m t t r 的改进主要依赖硬件软件提供商的工作,改造软硬件的内部结 构,减少b u g ,充分而全面的测试都是可以采用的方法。 减少管理员维护工作的第三条途径是对设计的软件结构进行改进,使设计的 5 紧耦台行业硝格的町管理件研究 软件容易部署、维护和升级等。因为许多人为错误是由于系统的设计缺陷、使用 界面造成用户的困扰而引起的。这样一些人为错误对现有软件的体系结构和用户 界面都提出了新的挑战。 1 2 2 紧耦合行业网格对提高可管理性的需求 在目前的紧耦合行业网格中,对可管理性的要求主要是减少管理的成本,从 而减少总拥有成本。而管理成本包括系统管理员的人工劳动,也包括系统失效所 带来的维护开销等。在紧耦合行业网格中,主要的管理开销是系统管理开销和资 源访问控制开销。而相应的,如果要提高整个系统的可管理性,也应该从减少这 两方面的开支为主。 减少系统管理开销 如前所述,对于目前的紧耦合行业网格来说,大量的管理员分布在各个单独 的格点上进行系统管理工作。这些系统管理工作可能包括:节点的检测( 性能检 测、故障检测等) 和控制( 重启节点、杀死僵尸进程等) ,功能和模块的部署等。 将管理员分散在各个格点上会带来巨大的管理开销。假设在整个紧耦合行业 网格中有一百个格点,每个格点需要三个系统管理员来进行系统监控等,那么就 需要在整个系统中部署三百个管理员。可以想象,部署这三百个管理员的成本是 巨大的。于是,自然想到一个问题,是不是可以将某些重复的系统管理任务集中 起来,从而减少冗余的管理成本呢? 在这里可以打一个比方:酒店、银行往往安 装有闭路电视监控系统,这些系统在每个角落里面放上一个摄像头,同时在主控 室有一个保安监视所有的画面。这样带来的好处显而易见,即一个保安就监视所 有的位置了,而不是在每个角落里都派上一个。但在目前紧耦合行业网格的现状 中,相当于在每个角落中放上了一个保安。因此,这里面存在着减少系统管理开 销的空间。 减少资源共享的管理开销 资源共享需要资源访问控制的支持。在耳前的紧耦合行业网格中,资源共享 主要在两个层面进行,即格点内部和格点之间。由于紧耦合行业网格的格点有自 治性,格点本身有单一的系统映像,因此在格点内部的资源共享机制和普通的集 中控制系统没有区别,因此这块并不是我们研究的重点。 如1 1 2 节的分析,紧耦合行业网格在格点之间的访问控制具有“官僚体制” 的特点。如果格点a 想对格点b 进行资源访问,它不能直接向b 提出请求。与 之相反,它应该首先向主控格点提出请求,等待主控格点批准之后,再带着主控 格点的批准证书去b 访问。在目前的紧耦合行业网格中,这个过程并没有用一 套自动化机制管理起来。基于公函、电话等的授权过程是低效而烦琐的,不利于 对权限的精确控制和日志记录,也带来了相当大的管理开销。 如果能够简化紧耦合行业网格的权限管理,优化其资源共享的流程,必将大 幅度减少其资源访问控制方面的管理开销。 6 引言 1 3 本文贡献 本文以提高紧耦合行业网格的可管理性、减少其总管理开支为目标进行了研 究。主要的研究工作如下: 分析和定义了紧耦合行业网格这种典型的应用模式,并归纳了其最重要的特 征和其对提高可管理性的关键需求,即减少系统管理和资源访问控制方面的管理 开销,从而减少系统的总拥有成本 设计了一个支持全局系统监控和控制的体系结构。基于该体系结构,各个格 点可以把自己的部分重复的系统管理任务交给主控来做,从而用主控中心的一个 管理员代替了各个格点的多个管理员。这可以整合分布在各个格点的管理员的重 复劳动,从而有效减少了在系统管理方面的开支。 面对紧耦合行业网格在资源访问控制方面的特点,对标准的基于角色的访问 控制模型r b a c 进行了扩展,并进行了形式化的描述。扩展后的模型可以更好 的适应紧耦合行业网格的“官僚体制“特点,同时具有一定的可定制特性。该模 型可以简化权限管理,减少管理访问控制策略,并且易于描述和理解。 为了不让管理平台本身引入额外的管理开销,我们设计了一套格点自组织和 自维护的协议。它可以处理格点的加入退出,格点失效,网络分裂等情况,使得 在这些情况下不必再引入管理员的人工劳动。 基于中科院计算所国家智能计算机研究开发中心开发的机群操作系统 p h o e n i xo s ,我们实现了一个实际的紧耦合行业网格管理平台,并将该平台应用 在国家十五科技攻关项目( 2 0 0 4 b a 8 1 1 8 0 9 - 1 ) 中,取得了良好的效果。目前原 型系统已经顺利通过了项目的中期检查 1 4 本文结构 本文的结构如下:第一章是引言部分,简单回顾了分布式系统应用的发展, 并介绍了紧耦合行业网格的特点及其对可管理性的需求。第二章详细分析了提高 紧耦合行业网格可管理性的关键问题,并介绍了相关的研究背景。第三章中介绍 了面向全局监控和控制的平台体系结构的分析和设计。在第四章中,我们介绍了 基于r b a c 模型扩展的资源访问控制框架,它可以有效的适应紧耦合行业网格 的官僚体制。在第五章中,我们设计了一套平台的自组织自维护协议,并证明了 其正确性。在第六章中,我们给出了原型系统p h o e n i x 的设计,其中包括相关技 术的介绍在第七章中我们给出了功能的分析和性能的测评。而在最后的第八章 中,我们给出了我们的结论,并指出了下一步应该进行的工作。 7 提高紧耦合行业网格可管理性的关键问题 第二章提高紧耦合行业网格可管理性的关键问题 本章首先说明了紧耦合行业网格在提高可管理性方面的核心需求,即减少系 统管理开销和资源访问控制开销,之后说明了需要解决的关键问题。这包括提供 全局的系统监控和控制,优化资源访问控制流程。同时,平台本身不应该引入更 多的管理成本,也即平台本身应该具有自管理自维护的功能。 之后本章给出了针对这些关键问题的一些研究背景。在提高紧耦合行业网格 可管理性方面,这些过去的研究内容无法完全解决上面提到的关键问题,但可以 给本文的工作很多借鉴。 2 1 提高紧耦合行业网格可管理性的关键问题 紧耦合行业网格的需求之一是减少总拥有成本。而本文所研究的是它在可管 理性方面的核心需求,即:面对这种应用模式,如何在可管理性方面减少开支。 即减少总的管理开支 如1 2 2 节所述,减少紧耦合行业网格管理开销的主要内容是全局的系统监 控和系统控制和减少资源访问控制。与此同时,整套系统还应该具有自管理和自 维护特性,从而不会引入额外的管理成本 2 1 1 面向全局系统监控和系统控制的管理功能 在目前紧耦合行业网格的现状中,为满足系统监控和系统维护的需要,大量 管理员分布在各个格点中,引入了较大的管理开销( 管理员人工劳动为主) 这 些管理员的劳动中有相当部分是同质的,比如察看某个重要服务进程的状态、确 保所有节点正常运转等如果能够引入全局的系统监控和控制,那么很多管理操 作就可以集中在中心进行,从而减少了对管理员的重复投资。很明显,这样可以 有效的降低管理开销。 而为解决这个问题,必须提供面向紧耦合行业网格的、支持全局监控和控制 的功能由于牵涉到节点、格点、网格三层,这就需要一个多层m a s t e r - s l a v e 架 构的管理平台因为格点的数日可能在不断增多,同时单个格点内部的节点数目 可能也在持续的增添,该平台的结构还必须是可扩展的。另外为了不影响系统的 性能,该结构应该不引入额外的系统开销。 2 1 2 优化的资源访问控制策略 在格点之间,紧耦合行业网格的访问控制具有自己的特点,我们将之概括为 。官僚体制”在这种体制下,格点内部是自治的,但格点之间的资源访问确需 要经过主控格点的批准。如果格点a 想对格点b 进行资源访问,它不能直接向 9 紧耦合行业嘲格的町管理性研究 b 提出请求。与之相反,它应该首先向主控格点提出请求,等待主控格点批准之 后,再带着主控格点的批准证书去b 访问。同时,主控格点的用户如果要访问 下属的格点,其认证就直接在主控格点内部进行了。在目前的紧耦合行业网格中, 这个流程主要是基于公文和电话,这带来了相当大的管理开销。 为此,需要一套面向紧耦合行业网格的资源访问控制机制,以减少在资源访 问控制方面带入的管理成本。这套机制应该要简化权限管理,减少管理访问控制 策略开销,并易于描述和理解。 2 1 3 平台本身的自组织和自维护 在引入一套针对紧耦合行业网格的管理平台后,这套平台自身的管理成本也 要考虑进来。对于目前已有的分布式系统来说,不论结构是分布式的还是集中式, 在平台的构建、日常的运转、出错时的处理等基本上都需要管理员的介入。如果 能够让应用于紧耦合行业网格的管理平台可以自组织和白维护,这样就可以减少 管理员的人工劳动,也可以有效的降低管理成本。 2 2 研究背景 2 2 1 网格系统 目前已经有很多类型的网格系统出现。但由于已有的网格系统强调格点的完 全自治性,并没有主控格点的概念,所以在系统结构上和紧耦合行业网格有较大 的不同。同时,目前已有的网格系统也很少着眼于减少系统管理开销。 计算网格类的项目有g l o b u s 【3 ,4 】和s u n g r i d e n g i n e 【1 6 ,它们可以联合分 布的计算资源成为一个计算网格。通过使用c o r d o r 池( f l o c k s ) 来均衡负载,c o n d o r f l o c k i n g 1 7 支持多管理域的计算管理。通过使用g l o b u s 工具集,许多网格和中 间件技术可以被集成起来成为开放、可扩展的t e r a g r i d 【7 】。数据网格【6 】主要着 眼于大量科学数据的分布管理和分析。g r i dd a t a f a r mi s 结构主要用来进行海量 数据密集型计算,它提供了并行文件系统、在线海量存储、可扩展i o 带宽和并 行处理等功能。i n t e r a c t i v eg r i d s 【1 l 】扩展了应用域的概念,使之包含了交互的图 形会话。上面这些网格系统主要面对科学计算应用,同时它们都没有总控中心的 概念,这些都和紧耦合行业网格有很大的不同。 基于p 2 p 机制,目前有不少试图利用机器空闲计算能力的项目 c c o f ( c l u s t c r c o m p u t i n go nt h ef l y ) 【l s 的资源发现机制可以在动态的p 2 p 环境 中发现空闲的节点。普渡大学的f l o c k o f c o n d o r s 项目 19 】试图通过p 2 p 机制连 接多个c o n d o r 作业池,从而促进资源的共享并保证系统本身自组织、容错和可 扩展。就紧耦合行业网格的自组织过程来说,这些项目和本文的工作有些类似。 但是,这些工作的各个格点之间是一种完全p 2 p 的机制,而在紧耦合行业网格中, 一旦平台建立起来,主控格点和单元格点就是m a s t e r - s l a v e 关系了,从而不再需 1 0 提高紧耦合行业网格可管理性的关键问题 要额外的网络通信开销。 在已有的生产性网格系统中,u t g r i d 1 0 利用已有的数据网格技术,支持集 成化、高吞吐率的计算。g r i d 2 0 0 3 项雕9 】试图部署多虚拟组织、应用驱动的网 格实验室。本文的工作也着眼于生产性系统,不过我们所关注是减少系统的总拥 有成本 2 2 2 机群管理系统 对于紧耦合行业网格来说,单个格点内部的系统管理以及资源访问和机群系 统是类似的目前机群内的监控、控制、资源访问控制都已经比较成熟,这里我 们介绍一下中科院计算所在这方面的两个研究工作 机群操作系统p h o e n i xo s p h o e n i x0 s 1 5 2 7 是中科院计算所智能中心开发的一体化、高可靠、高扩展 性机群操作系统,它主要用于机群环境中,其体系结构如下图2 所示: 匾五圃臣圃匝亘固 圈 图表2p h o e n i x0 8 平台体系结构 上图2 展示了p h o e n i xo s 的主要子系统:共享子系统包括平台核心、平台构 造工具、系统控制和监控;面向科学计算的子系统包括并行编程环境和作业管理; 面向商业应用的子系统包括应用运行环境和应用开发环境。 在可管理性方面,p h o e n i xo s 提供完善的机群节点的配置、监控和管理操作, 可以大幅度的减少机群的管理开销。本文的底层工作就是基于p h o e n i xo s 系统 开发的。从这个意义上来说,本文的部分工作可以认为是p h o e n i xo s 在广域网 上的扩展。 网程 网程 2 8 1 是一套机群系统管理体系结构,由中科院计算所研究开发。 紧耦台行业网格的可管理性研究 囤p i l l 回- - ”_ l :j i e - - _ i :互 团- - - 图表3 网程及其运行环境 图3 中间的网程运行平台部分包含了网程以及支撑网程运行的所有机制。 , 白色的方块表示网程。此处只标出了网程的运行体,而网程间通信所要用到 的协同资源、同步资源,以及网程检查点由于都实现为资源,网程对这些资源的 访问与对系统其它资源的访问没有区别,因此图中没有标出。 蓝色的方块是网程运行所需的支撑,包括g r e ( g r i pr u n t i m ee n v i r o n m e n t ) 、 g m ( g r i pm a n a g e m e n t ) 、t m ( t r a n s a c t i o nm a n a g e m e n t ) 和r m ( g c s o a r c 虻 m a n a g e m e n t ) 。g r e 是网程运行时环境,负责网程的加载和控制,另外平台中为 网程提供的功能都做为系统调用,网程只能通过g r e 使用这些系统功能。g m 负责为网程分配d ,选择节点。t m 是事务管理器,负责事务d 分配、冲突检 测和死锁预防。r m 是资源管理,机群内所有节点上都有一个资源管理,保存受 管资源信息,维护网程运行时使用资源的动态信息。 图3 的下方是系统资源。系统资源的访问通过平台提供的轻量级远程过程调 用l r p c 进行。 2 2 3 分布式监控系统 为了及时了解网格分布式系统中资源使用情况和资源的当前运行状态,适应 网格环境的监控系统应运而生。这些系统都较好的考虑了大规模系统的扩展性、 缩放性。这里本文主要介绍了g a n g l i a 和g d d v i e w 系统,本文的工作在结构上借 鉴了g r i d e w 的设计思想。 g a n g l i a g a n g l i a 2 9 是由加州大学伯克利分校开发的一个可扩展的分布式监控系统, 可以用于高性能的机群或者网格计算环境的监控。它建立在分级、联邦的基础之 上,其结构为树状结构,这使得它有着很好的可扩展性,可以容易的适应不同规 模的机群,目前已用于5 0 0 个机群。单机群的结点数可达2 0 0 0 个。g a n g l i a 监控 系统的体系结构如下图4 所示: 1 2 提高紧耦台行业网格可管理性的关键问题 c l 啉i c 喇押r 图表4g a n g l i a 体系结构 g 锄g l i a 基于) 。咀,技术的数据传递可以使得系统的状态数据跨越不同的系统 平台而进行交互,很好的解决了系统之间的异构性问题,这是该系统被广泛应用 的另一个重要原因。同时用x d r 进行监控数据的传输、以减少机群内部往多波 地址上发送的监控数据的数量。 b g r i d 、,i e w g r i d v i e w 3 0 网格监控系统由状态侦测信息接口层( 状态侦测信息接口) 、机群 信息网关层( 机群信息网关) 、网格信息管理层( 网格信息管理器、数据库) 和网格 监控管理层( 网格监控管理视图) 四个层次构成其具体架构如下图5 所示。 一格直控 一播耳冀 t 毫蜃 lh 格监控管理税田l i 阿搭监控管理祝田i l 同格监控管理搅图l 一格倍 ,、i i l |l 曩据库k :a 一格信息管理暑 f 曩基 l = 一。an 帆群耳囊 i r 一。一。 机并环囊i 舰鼻倍 i i 将获得的不骨格式的i t 嚣l f 机:引 一关层 l帆霹信息同美l :j 为麓一格式,井上竹j 状杏售 i l r 谖接口可咀置盅不目的使_ 捷矗使l 信接口 i 状毒使一信丘接。l :j 彝ti 币彝謦蘸上屡结柑_ j 倍接口 层 图表5g r i d v i w 系统框架图 g - r i d v i e w 系统由机群信息管理和网格监控两个部分组成,其中机群信息网关 的主要工作是通过机群内部侦测服务的接口取得机群的当前状态和配置信息,并 在网格信息管理器需要的时候向它传递相应的数据。网格信息管理器建立在机群 信息管理层的上层,它的任务有两个,一是通过机群内部的机群信息网关取得机 群内所有成员( 结点) 的状态信息和配置信息;二是为该机群加入网格监控提供 一个通信的途径。网格信息管理器是网格环境中的一个服务,它处于机群环境之 外,通过与机群信息管理器的通信,取得该机群的各种配置及状态信息,并存入 紧耦合行业嗍格的可管理性研究 网格数据库中。网格监控管理视窗是一组图形化网格管理工具,它可以通过网格 信息管理器接入网格数据库,通过对数据库的查询,可以使用户直观的通过图形 界面得到网格内格点的配置信息和格点的当前系统运行状态以及历史运行状态 记录。 2 2 4 相关研究小结 由于已有的网格系统强调格点的完全自治性,并没有主控格点的概念,所以 在系统结构上和紧耦合行业网格有较大的不同。已有的网格技术不能完全满足紧 耦合行业网格的要求 机群内的监控、控制、资源访问控制都已经比较成熟由于紧耦合行业网格 的每个格点可以认为是一个机群,因此在格点内部可以基于机群操作系统进行。 本文的工作正是基于机群操作系统p h o e n i xo s 展开的。 分布式监控系统可以侦测分布式系统中资源使用情况和资源的当前运行状 态,它们的设计结构可以为本文借鉴。本文在结构上借鉴了中科院计算所开发的 g r i d v i e w 网格监控系统。 面向全局监控和拧制的平台体系结构设计 第三章面向全局监控和控制的平台体系结构设计 为了向紧耦合行业网格提供全局的监控和系统控制,就需要一套适应这种需 求的平台体系结构。同时,这个体系结构在完成必要的功能的同时,还应该做到 易扩展、跨平台、低额外开销等。 在本章中,我们首先分析了设计紧耦合行业网格管理平台体系结构的一些重 要考虑,比如基于服务的思想、构件化的设计等。同时我们也分析比较了各种可 选择的结构。结合紧耦合行业网格的特点及核心需求,我们设计了一个面向紧耦 合行业网格的管理平台的总体结构。它能够较好的满足我们提出来的设计目标 3 1 体系结构设计目标 3 1 1 支持全局监控功能 格点分布监控 根据格点加入平台时提供的位置信息,我们要能够显示出格点的多少和物理 位置,使中心的系统管理员能一目了然的观察到网格监控系统中当前已加入其中 的格点数目及物理分布。 静态配置监控 主要用来显示一些静态的配置信息,以使用户了解其所使用的一些资源的配 置情况。在整个网格层次,这包括格点数、主机数、c p u 总数、m e m 总数、当 前可使用的格点数等。在机群和局域网层次,这包括机群名称、机群位置、出口 m 、主机数、c p u 总数、m e m 总量、d i s k 总容量、此机群的运算峰值、到现 在为止的连续运行时间、此机群的状态等而在节点层次。这包括结点名称、结 点d 、结点口、结点位置、结点类型、结点操作系统、结点内存大小、结点c p u 个数及类型、结点的各套网络带宽等。 动态信息监控 监控系统的动态信息,包含c p u 利用率、m e m 利用率、n e t 使用带宽、s w a p 利用率几种信息。从中可以看到节点层次上是否有异常发生,比如长时间c p u 利用率过高等。 3 1 2 支持全局控制功能 多个节点控制 这包括批量的关闭某个格点的所有节点,重启多台机器上的特定应用等 单个节点控制 在节点层次上,可以包括下面的一些系统管理操作:关机,重启,杀进程, 1 5 羹耦合行业弼格的可管理性研究 添加或删除系统用户等。 3 2 总体设计思想 3 2 1 基于服务的设计思想 服务( s e r v i c e ) ,是指对外能够提供一组完备功能的实体。服务代表了某种 类型的活动,能够提供一个可通过另一程序调用的接口,并通过服务注册器进行 注册与定位。基于服务的设计思想有以下的优点: 服务可以提供统一接口层次和规范,使得无论远程还是本地都能够使用服 务; 由于采用了开放的结构和规范,不仅可以向本地局域网和机群,还可以向 网格、i n t e m e t ,或者其它系统提供使用本局域网的途径和手段,扩大了用户群和 客户端程序的范围; 服务都具有公共的行为和属性,例如加入和退出、对信息的查询等。还有 整齐的结构。 在不同背景下运行的服务都被打上了特定环境的烙印,i n t e r n e t 服务,机群服 务,电信服务,视频服务等都具有自己独有的特点。单个局域网的服务具有如下 特征: 一个或一组独立可运行的守
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年BIM技术在建筑项目可持续发展中的应用报告
- 冰雪运动主题公园2025年冰雪运动产业政策扶持与税收优惠研究报告
- 下沉市场消费金融消费行为与需求特征分析报告
- 2025年糖果电商O2O行业当前竞争格局与未来发展趋势分析报告
- 2025年乙二醇行业当前竞争格局与未来发展趋势分析报告
- 2025年银行理财产品行业当前竞争格局与未来发展趋势分析报告
- 2025年高端装备制造园区行业当前竞争格局与未来发展趋势分析报告
- 2025年公安信息化行业当前发展趋势与投资机遇洞察报告
- 2025年3D打印材料行业当前市场规模及未来五到十年发展趋势报告
- 2025年互联网对化妆品零售行业当前发展趋势与投资机遇洞察报告
- 棉花合伙种植合同模板
- 5S区域划分总平面图
- 超市经营服务方案
- “情指行”一体化运行机制中情报工作职能定位、运行困境与优化路径
- 2024新一代变电站集中监控系统系列规范第1部分:总则
- 2024年秋季学期新沪科版八年级上册物理课件 第三章 光的世界 第一节 探究:光的反射定律
- 仿生课程设计报告
- 放射科医学影像科专案改善PDCA缩短住院病人等候核磁检查时间品管圈QCC案例
- 铁总物资〔2015〕250号:中国铁路总公司物资采购异议处理办法
- GB/Z 42625-2023真空技术真空计用于分压力测量的四极质谱仪特性
- 人民医院心血管外科临床技术操作规范2023版
评论
0/150
提交评论