




已阅读5页,还剩65页未读, 继续免费阅读
(计算机软件与理论专业论文)网络作业管理系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 近年来,随着计算机应用的普及和不断发展,对于一个建立在集群技术之上, 能够实现企业内部网络资源优化利用的作业管理系统的需求变得日益迫切。本文 所研究的网络作业管理系统( n e t w o r kj o bm a n a g e m e n ts y s t e m 。n j m s ) 就是为了 满足这一需求而设计的。n j m s 系统是种建立在操作系统之上的系统软件,其 主要目标是强化操作系统的作业管理功能,以便更加有效地利用系统资源、平衡 网络负载、提高系统的整体性能。 本文引对特定的网络作业管理系统( n j m s ) ,深入讨论了其系统结构、负载 平衡机制、作业网络的调度策略及系统优化过程中所遇到的问题,主要的研究成 果体现如下: 1 ,n j m s 系统负载平衡机制的研究。深入讨论了n j m s 系统的工作组集群结 构以及基于该结构的负载平衡机制的实现过程;分析了工作组集群的局限 性,提出了网络集群的概念和网络集群负载平衡模型,并给出了其实现过 程。 2 作业网络调度策略的研究。分析了n j m s 系统的作业调度策略,深入讨 论了基于单机和多机的请求调度算法;进而提出了一种基于多机的加权批 量请求调度算法,并给出了算法的测试结果和评价。 3 n j m s 系统的优化。深入研究了n j m s 系统在应用中遇到的三个主要问 题,即多时区、多码制以及内存泄漏问题,给出了问题的解决方案及实旌 过程。 n j m s 系统的研究课题是西北工业大学软件工程中心的一个长期国际合作项 目,目前针对该项目第一阶段的研发已经基本结束,并顺利通过了国外专家的评 审和验收,发布了中,口、英三种语言的多个商业版本;第二阶段的研发工作也 日口将启动,重点将主要集中在系统性能的抒续优化,以及萋丁网格技术的作业管 理研究等。 关键诃:集群,作业管理系统,负载平衡,队列,作业调度。 a b s t r a c t w i t ht h ea d v a n c e dd e v e l o p m e n to fc o m p u t e ra p p l i c a t i o n ,t h er e q u i r e m e n to fj o b m a n a g e m e n ts y s t e mb a s e do nc l u s t e rt e c h n o l o g yw h i c hc a l lm a n a g et h e r e s o u r c e s e f f e c t i v e l yi sb e c o m i n gv e r yu r g e n ti nr e c e n ty e a r s t om e e tt h e s en e e d s ,t h en e t w o r k j o bm a n a g e m e n ts y s t e m ( n j m s ) i sd e s i g n e d n j m ss y s t e mi so n ek i n do fs y s t e m s o f t w a r eb a s e do l lo sa n di t sm a i ng o a li st or e i n f o r c et h ej 曲m a n a g e m e n tf u n c t i o no f o s n s et h er e s o u r c eo fs y s t e me f f e c t i v e l y , b a l a n c et h en e t w o r k1 0 a do fs y s t e ma n d i m p r o v e t h ep e r f o r m a n c eo ft h ew h o l es y s t e m t h es y s t e ma r c h i t e c t u r e ,l o a db a l a n c em e c h a n i s m j o bn e t w o r ks c h e d u l i n gs t r a t e g y a n dt h ep e r f o r m a n c eo p t i m i z i n gp r o c e s so fn j m ss y s t e ma r ei n t r o d u c e di nt h i st h e s i s t h em a i nr e s u i t sa r ea sf o l l o w s 1 。t h el o a db a l a n c em e c h a n i s mr e s e a m ho fn j m ss y s t e m d e e p l yd i s c u s s e dt h e w o r k g r o u pe l e s t e ra r c h i t e c t u r ea n dt h el o a db a l a n c er c a l i z a t i o no fn j m s s y s t e mb a s e do nt h i sa r c h i t e c t u r e a n a l y z e dt h ed e f i c i e n c yo fw o r k g r o u p c l u s t e r p u lf o r w a r dt h ec o n c e p to fn e t w o r kc l u s t e ra n dt h el o a db a l a n c em o d e b a s e do nm a c h i n en c t w o r kc l u s t e ra n dg a v et h ei m p l e m e n to f t h i sm o d e 2 t h er e s e a r c ho fj o bn e t w o r ks c h e d u l i n gs t r a t e g y a n a l y z e dj o bs c h e d u l i n g s t r a t e g yi nn j m ss y s t e m + d e e p l yd i s c u s s e d s o m ej o bs c h e d u l i n ga r i t h m e t i c o fn j m ss y s t e mb a s e do ns i n g l em a c h i n ea n dm u l t i m a c h i n e p a tf o r w a r da b a t c hr e q u e s ts c h e d u l i n ga r i t h m e t i cb a s e do nm u l t i - m a c h i n e ,m o r e o v e r , a c c o m p l i s h e dt h et e s t i n ga n de v a l u a t i n go ft h i sa r i t h m e t i c 3 t h eo p t i m i z a t i o no fn j m ss y s t e m d e e p l yr e s e a r c h e dt h em a i nt h r e e p m b l m a s ,i n c l u d i n gm u l t i - t i m ez o n e ,m u l t i - c o d ea n dm e m o r y l e a k g i v e nt h e s o l v i n gm e t h o d so ft h e s ep r o b l e m s n i m ss y s t e mi sal o n g - t e r mi n t e m a t i o n u lc o o p e r a n tp r o j e c to fn w p us o f t w a r e e n g i n e e r i n gc e n t e r n o wt h ef i r s tp h a s et a s kh a sb e e nf i n i s h e d n j m ss y s t e mh a sb e e n p a s s e dc h e c k i n ga n da c c e p t i n gb ys o m ef o r e i g ne x p e r t s m o r e o v c r , m a n yc o m m e r c i a l p r o d u c t s ,i n c l u d i n gc h i n e s e ,j a p a n e s ea n de n g l i s hv e r s i o nw e r er e l e a s e d t h er e s e a r c h o ft h es e c o n dp h a s ei s g o i n gt os t a r ta n dt h em a i nw o r ki s f o c u s e do nt h er e s e a r c h b a s e do l lg r i dc o m p u t i n g + a n dt h ec o n t i n u a lo p t i m i z a t i o no ft h es y s t e mp e f f o r m a n 如 k e yw o r d s :c l u s t e r , j o bm a n a g e m e n ts y s t e m ,l o a db a l a n c e ,q u e u e ,j o bs c h e d u l i n g i i 两北t 业大学硕士学位论文 第一章绪论 1 1 研究背景 第一章绪论 近年来,随着计算机硬件价格的不断下降和性能的不断提高,计算机在各行 各业应用也变得日益广泛,对各类计算机软件的需求空前高涨。特别是为了满足 目前许多企业优化利用内部各类资源的应用现状,对基于分布式、集群系统之上 的系统管理软件的研究和开发,也引起了国内外众多科研机构的兴趣,笔者所研究 的网络作业管理系统就是在这种背景下应运而生的。 网络作业管理系统一般具有典型的c l i e n t s e r v e r 结构,s e r v e r 端的功能主要 包括批处理排队、作业调度、作业执行及资源管理等,c l i e n t 端的功能主要包括 作业定义、启动与服务器的通讯、作业执行状态察看及控制等。在s e r v e r 与l i e n t 之间,采用t c p i p 网络连接协议及与平台无关的数据通讯协议。网络作业管理系 统涉及并行编程技术、并行机环境、事务处理、网络协议、数据库系统、网络文 件系统等多个技术领域。 近年来,国外许多科研机构对作业管理系统的研发工作一直很活跃,已经出 现了许多商业化的作业管理系统版本,如早期的p b s ”、n q s i “、l s 一”、n q e 、 d o s 、t a s kb r o k e r 、n et o o l s e t 、c o d i n e 、l o a d l e v e l e r l 4 1 以及n e c 公司的 n c t s h e p h e r d l 5 】等。 目前,对作业管理系统的研究可以大体分成两类:一类是通过扩展n q s 系统 而来,这类系统与原有的n q s 系统有着良好的兼容性;另一类则是自己重新定义 整个系统,与其它任何系统都不兼容,但是有的也提供了与n o s 系统协同工作的 方法。目前出现的作业管理系统,在目标、结构、功能和实现上各有差异。下面, 对几种主要的作业管理系统进行简单介绍和讨论。 1 p b s ( p o r t a b l eb a t c hs y s t e m ) 系统 p b s ( p o r t a b l eb a t c hs y s t e m ) 是由n a s aa m e s 研究中心和m l u 公司共同开发 的一个具有灵活性队列软件过程的通用作业管理系统。它可运行在基于网络,多 平台的u n i x 环境中,可以包括异构工作站集群,大型机和超大并行系统。主要 用于高性能计算领域。使用p b s 管理计算机资源可以增强用户需求与高性能计算 间的理解:增加已有资源的利用率,扩展它们的生命期;对所有计算机具有统一 西北工业大学硕士学位论文 第一章绪论 的接口;减少管理员和操作者的负担:提高服务质量。p b s 具有扩展性,灵活性, 可操作性,开放性等特点。 2 c r a yn q er n e t w o r kq u e u i n ge n v i r o n m e n t ) 系统 c r a y 公司的作业管理系统n q e ( n e t w o r kq u e u i n ge n v i r o n m e n t ) 州以c r a y 版本 的n q s 为基础,并增加了负载平衡、图形用户界面等多项功能。n q e 的基本组 成部分包括;网络队列系统( n q s ) ,网络负载平衡器( n l b ) ,负载信息收集器 ( c o l l e c t o r ) ,n q e 数据库( n q e d b ) ,数据库监测器( m o n i t o 鼬,n q e 调度 器f s c h e d u l e r ) ,轻量级服务器o r e s ) 。多台n o e 服务器和n q e 客户机形成一 个n q e 集群。每台n q s 服务器上运行着一个负载信息收集器,向中心嘲络负载 平衡器报告本结点的负载情况。用户使用n o e 的客户端组件提交作业,监控作 业的执行过程,作业最终在n q s 服务器上执行。网络负载平衡器维持网络上各台 主机的负载信息,并依据各台主机的负载大小对其进行排队,n q e 调度器使用这 个信息将作业传送到不同的n q s 主机上执行。n o e 中心数据库保存集群中的所 有批处理请求和n q s 服务器执行作业的结果,该数据库还是n q e 调度器调度作 业运行的基础。i j 田s 是以数据库为核心的n o e 与n o s 之间的一个桥接工具,l w s 从数据库中取得作业数据,将它提交给n q s ,作业在n q s 服务器上的运行结果, 又由l w s 经过格式转换存贮到数据库中。另外,n q e 的文件传输代理( f i l e t r a n s f e r a g e n t ) 提供了主机间传送文件的功能,用户作业的文件分段传输可以使用该代理 实现。 3 l s f ( l o a d s h a r i n gf a c i l i t y ) 系统 l s f ( l o a ds h a r i n gf a c i l i t y ) 系统是由加拿大p l a t f o r m 公司开发的著名的负 载共享软件。l s f 系统完全没有按照p o s l x 的标准开发,而是另外提供了一套解 决方案。l s fs u i t e 包括如下组件:l s fb a t c h ( l s f 的分布式和异构环境下的批 处理作业处理系统) 、l s fj o b s c h e d u l c 一7 j ( 是一个分布式的作业调度器,它能将 异构服务器集成为一个虚拟主机或虚拟超级计算机) 、l s fm u l t i c l u s t e r ( 使用l s f 产品可以支持在多个集群之间的资源共享,同时能维持集群自治和资源所有权的 l s f 组件) 、l s f a n a l y z e r ( 图形化的工作负载数据分析软件) 、l s f p a r a l l e l f 管理 并行作业在网络环境下运行的组件1 、l s fb a s e ( l s f 软件的基础部件,包括网络 服务器u m 和r e s ,l s f 发布的a p i 以及负载共享工具) 。 另外,还有很多作业管理系统,如佛罗里达州大学开发的公用系统d q s 8 , i b m 公司的l o a d l e v e l e r 系统 9 j ,a r g e n ts o f t w a r ei n c 公司的a r g e n tj o b s c h e d u l e r l i ,p l a t i n u m 公司的a u t o s y s 系统等,这里不再详细讨论。 笔者从2 0 0 4 年8 月份进入西北工业大学软件工程中心开始研制网络作业管理 两北l 业大学硕十学位论文 第一章绍沦 系统( n j m s ) 。n j m s 系统具有一般作业管瑚系统的特点,即分布操作、资源戈 享、负载平衡,底层扩展了n q s 系统。该系统目前弓经通过国外专家验收,并发 布了多种语言的多个商业版本,在同本和欧洲已经占据了一定的市场份额,去年 已经开始登陆同内市场。目前,针对该系统后续的研发工作也在紧锣密鼓的进行 中。 1 。2 本文主要工作 在n j m s 系统的研发过程中,笔者参加了r 1 2 3 6 、r 1 2 4 、r 1 2 4 ,1 、r 1 2 4 2 四个版本的研发工作,本文所讨论的内容体现了浚项目的主要技术以及笔者一 年多的工作和研究成果,表现如下: 1 n j m s 系统负载平衡机制的研究。分析了系统的工作组集群构成方式,及 基于队列工作组集群的负载平衡机制;深入讨论了工作组集群环境下的 作业( 负载) 分散过程及守护进程的实现;剖析了工作组集群的局限性, 并提出了网络集群的概念,给出了网络集群资源分配模型,及在该模型下 负载平衡机制的实现。 2 n j m s 系统作业调度的研究。深入研究了系统的作业调度总体策略、作业 网络的解析及请求的调度策略;着重分析了基于单机和多机的请求调度算 法及其适用性,进而提出了一种针对批量作业投交的多机加权批量请求调 度算法,并给出了对该算法的测试和评价。 3 n j m s 系统的优化。分析了系统在应用过程中发现的问题,即多时区条件 下出现的作业投交异常、多码制的协同工作及大量的内存泄漏导致系统性 能下降等问题:针对这些问题深入分析了产生原因,提出了解决方案,并 对方案进行了实施,使得系统的总体性能得到优化。 笔者在整个研发过程中主要参与了网络集群资源分配模型的提出,加权批量 请求调度算法的实现和基本测试,以及全部n j m s 系统的优化工作。 1 ,3 本文的组织结构 全文的组织结构如下: 第一章:绪论 介绍本文的研究背景、主要工作及组织结构。 第二章:作业管理系统概述 两北l :业大学硕士学位论文 第一章绪论 首先介绍了作业管理系统的发展历史、发展趋势及应用领域;然后 着重讨论了n j m s 系统的功能2 层次模型及应用模型。 第三章:n j m s 系统负载平衡机制的研究 首先介绍系统的工作组集群构成,及基于工作组集群的负载平衡原 理和实现;然后对工作组集群的局限性进行了分析,提出了网络集 群的的概念;最后对基于网络集群的负载平衡机制进行了讨论。 第四章:作业调度策略的研究 首先介绍了作业网络的定义:然后对作业的总体调度策略、作业网 络的解析及请求的调度算法进行了分析;最后提出了基于多机的加 权批量请求调度算法,并给出了算法的实现和评价。 第五章:n j m s 系统的优化 首先介绍了n j m s 系统在应用过程中发现的问题,即多时区、多码 制和内存泄漏问题:然后讨论了针对这些问题的解决方案和实施过 程,即系统的多时区改造、多码制改造及内存泄漏优化过程。 1 4 小结 本章主要介绍了n j m s 网络作业管理系统的研究背景,笔者所做的主要工作 以及本文的组织结构。 西北工业大学硕士学位论文 第二章作业管理系统概述 第二章作业管理系统概述 本章首先介绍作业管理系统的发展历程、发展趋势及应用领域,最后介绍了 笔者所参与研制的n j m s 系统的功能、层次模型及应用模型,从而勾勒出n j m s 系统的全貌。 2 1 作业管理系统的发展简史 作业管理功能最早由u n i x 操作系统本身实现。由于u n i x 主机通常昼夜运行, 在大多数的非工作肘间里系统资源无法得到有效利用,因此产生了“在以后某个时 刻执行作业”、“在资源得到满足的情况下执行作业”、“按某种时间周期有规律地 执行作业”等作业管理的思想,并将这些想法用a t ,b a t c h ,o r o n 三个命令实现。 由于u n i x 系统本身的作业管理功能非常有限,当大量的实际应用要依赖于 u n i x 时,就需要对p o s i x 标准及u n i x 的扩展,使之能够更加有效地满足批处理 作业管理的要求。大型机上的计算任务被分散在多台工作站上执行,人们使用自 己桌面上的台式机完成了更多的任务。但经过调查发现,工作站的资源利用率却 很低( 据美国l o sa l a m o s 国家实验室的一项调查表明,平均利用率不到总资源的 1 0 ) ,通常一台工作站任务繁重,丽另一台工作站却处于闲置状态。另外,从系 统运行时间看,在一周1 6 8 个小时中有效的工作时间往往只有加多个小时左右, 造成了资源的严重浪费。为了能够更加有效的利用计算机网络和工作站系统的能 力,人们扩展了批处理系统,出现以批处理队列系统( b a t c hq u e u i n gs y s t e m ) 为代 表的传统的作业管理系统。b q s 的前身是美国军方b a l l i s t i cr e s e a r c hl a b o r a t o r v 开发的批处理队列系统m d q s ( m u l t i p l ed e v i c eq u e u i n gs y s t e m ) 。但该系统不能满 足n a s a ( n a t i o n a la e r o n a u t i c sa n ds p a c ea d m i n i s t r a t i o n ) 对作业管理及设备管理的 高性价比需求,于是n a s a 与其他软件公司在1 9 8 6 合作开发出了n q s 。由于该 系统的广泛使用,i e e e 已经将n q s 确立为p o s i x 标准的一部分,即p o s i x 1 0 0 3 2 d ,“b a t c hq u e u i n ge x t e n s i o n s 如rp o r t a b l eo p e r a t i n gs y s t e m ”。当p o s 1 0 0 3 2 d 标准制订完成后,新出现的作业管理系统基本上都遵守了该标准的规范, 但大多数系统并没有采用基本n q s 的结构与源代码,只提供了标准所要求的外部 接l j ,并对作业管理系统的功能进行了很大的扩充。 西北工业人学硕士学位论文 第二章作业管理系统概述 到8 0 年代以后,计算机网络技术和分布式计算技术更为成熟。人们通过扩展 n q s 系统,或者重新定义和设计,研制了多种现代作业管理系统的产品。由n q s 系统发展起来的有c r a y 公司开发的n o e ( n e t w o r kq u e u i n ge n v i r o n m e n t ) 。n a s a 与m i l l 公司在n q s 基础共同开发了p b s ( p o r t a b l eb a t c hs y s t e m ) 。另一个主要分 支是c o n d o r 产品,m m 公司著名的作业管理软件l o a d l e v e l e r 就是在c o n d o r 的 后继u n i j e s 的基础上发展起来的。德国g e n i a s 软件公司的c o d l n e ( c o m p u t i n g i nd i s t r i b u t e dn e t w o r ke n v i r o n m e n t ) 是在c o n d o r 和d q s 基础上推出的。目前已 发布最新版资源管理系统r m sc o d i n e 和补充的全局资源控制器g r d ( g l o b a l r e s o u r c ed i r e c t 0 0 。另外,目前比较流行的网络负载平衡产品l s l o a ds h a r i n g f a c i l i t y ) 是由加拿大p l a t f o r m 公司在u t o p i a 基础上开发的。 目前,随着计算机网络技术的发展和对网格技术研究的深入,基于网格技术 的作业管理系统的研制工作也开始起步,但尚处于开始阶段。现有的网格系统对 作业管理的功能还不够强一般只支持批处理作业,没有独立的作业调度模块, 对作业的调度往往由资源调度模块来完成。因此,对于基于网格的作业管理技术 的讨论,还有待更加深入的研究。 2 2 作业管理系统的发展方向 应用始终是发展的源动力,作业管理系统同样是一个随着应用需求推动雨不 断发展的系统。随着集群技术和网格计算的发展,作业管理系统在提供更完善的 功能的同时,也在向资源管理系统r m s ( r e s o u r c em a n a g e m e n ts y s t e m ) 进行演 化。当网格计算技术日渐成熟后,作业管理系统可能就进化为网格管理系统 o m s ( g r i dm a n a g e m e n ts y s t e m ) ,c o d i n e i “壕统的出现就已经说明了这一点。今 后,对作业管理系统研究主要集中在如下几个方向: 1 支持开放接口 考虑到作业管理系统作为一种系统中间件,不可能将用户所有的作业管理行 为都定制好。需要由作业管理系统提供应用程序接口a p i 来支持第三方应用程序 的开发,并提供接口让用户来制定作业管理策略。 2 全局资源控制 一般的作业管理系统只能做到与单个作业相关的资源控制,而对整个系统的 资源的管理情况没有考虑。所以,今后的作业管理系统将会做到类似于大型机操 作系统对整个资源的全局控制。 3 支持并行环境 曲北上业人学硕十学位论文 第二二章作业管理系统概述 目前对并行环境的一种处理方法是将并行环境的启动或停止脚本交给作业管 理系统来运行并行程序,这是一种松耦合方式。另一种方法是作业管理系统支持 并行环境接口,将并行程亭运行在作业管理系统的上下文环境中,这是一种紧耦 合方式。以后的作业管理系统将继续支持更多的并行环境,并透明地将并行环境 嵌入到作业管理系统中,从而得到一种更好的集成方式。 4 支持数据库 功能比较全面的作业管理系统提供与数据库系统集成的接口,这样就充分发 挥网络负载平衡和数据库信息处理的威力,为企业级的信息处理提供良好保证。 5 支持i n t e r n e t i n t e r a c t 的迅猛发展,需要作业管理系统能够将不同地区的资源整合起来给用 户一个透明的访问方式。而目前的作业管理系统局限于局域网计算环境。要支持 广域网,就会产生安全性、远程文件系统、记账信息和网络带宽问题。u n i c o r e 科研项目就着重解决这些问题,从而为支持广域网探索道路。 6 操作系统集成 现代操作系统提供越来越多的作业管理功能,支持负载平衡和集群管理。作 业管理系统的主要功能正在向操作系统集成。以后,可能是这样两种趋势,方 面常用的功能成为操作系统的一部分。另一方面,作业管理系统仍然独立发展, 但会提供给用户更加有效和人性化的作业和资源管理。 2 3 作业管理系统的应用领域 作业管理系统的应用领域主要有两个方面,是科学计算,二是商业应用。 2 3 1 科学计算 高性能计算领域是作业管理系统的昂初的也是最主要的应用领域。例如n q s 系统最初就是为了满足n a s a 的需求而开发的。当时n a s a 的数字空气动力学模 拟处理系统网络( n u m e r i c a la e l o d y n a m i c s i m u l a t o r p r o c e s s i n gs y s t e m n e t w o r k - - n p s n ) 出d e c v a x 、s g i a m d a h l5 8 4 0 大型机、c r a y - 2 等不同厂家的 u n i x 主机构成,主要进行空气动力学方面的数值计算。为了向网络用户提供界面 致的接口,简化用户提交作业、访问不同物理设备的方法及提高嘲络整体计算 效率,n a s a 需要一个能够完成批处理作业管理及设备管理的系统。当时u n i x 下已经有个批处理队列系统,叫m d q s ( m u l t i p l ed e v i c eq u e u i n g s y s t e m ) 是由 曲北业大学硕十学忙论文 第一章作业管理系统概述 美国军方b a l l i s t i cr e s e a r c hl a b o r a t o r y 开发的,但它不能满足n a s a 的需求,于 是n a s a 与其它软件公司合作,开发出了n q s 系统。 2 3 2 商业应用 随着计算机的普及和发展,商业应用在整个计算机应用领域中所占的比例逐 年上升,具有广阔的发展前景。商业应用领域对计算机的计算能力和网络并行程 度要求没有高性能计算领域那么严格,但该领域需要计算机的速度更快,容量更 大,并能对多种场合下的大数据量进行各种复杂的处理。当许多高性能计算机系 统应用到商业领域如银行业、金融业、石油化工企业、信息服务业及娱乐业时, 这些系统的管理员同样需要一个很好的后台系统完成企业范围内的作业管理。从 而实现企业网络资源的优化利用,简化系统维护工作,游调企业内各类应用系统 的运行。 2 4n j m s 作业管理系统简介 2 4 1n j m s 系统功能概述 n j m s 一网络作业管理系统具有典型的客户服务器结构,服务器端的底层采 用扩展的n q s ( 网络队列系统) 实现集群计算机系统的负载平衡,使用户可以最大 限度地利用集群计算机系统环境中的各种计算资源,提高作业执行效率,降低计 算成本,同时,集群技术的应用也使得系统具有很高的可靠性。客户端采用多语 言开发技术,具有中、日、英三种版本,提供友好的g u i 用户界面,帮助用户完 成作业管理及系统管理功能:客户端和服务器端的接口采用w i n d o w ss o c k e t 机制 实现客户端与服务器的通讯;n j m s 系统具有以下主要特点: 1 多语言的图形界面 n j m s 系统的g u l 界面目前提供中、同、英三种语言支持,可供不同地区的 用户选择使用。g u i 界面操作直观、易用,涵盖了客户端所有功能。用户可以方 便地使用图形界面来定义、修改、投交作业:监视和查询作业网络的执行情况; 对执行过程中的作业进行控制;可以创建、修改、删除r 历:设定作业的执行时 刻表;对整个服务器集群进行管理等。 2 支持日历方式投交作业 n j m s 系统提供的图形界面,用户可+ 以方便地创建和修改用于定时投交作业 8 西北l 业大学硕士学位论文 第一章作业管理系统概述 的只历,日历包括工作日历、节假日历。在工作r 历上还可以定义作业执行的规 则,扩展作业的定时投交和定时执行功能,即允许作业以每分,每时,每天每 周每月,每年或者某个给定时刻的形式进行提交。 3 支持集中管理功能 在分布式集群环境下n j m s 作业管理系统管理和监视所有的网络服务器和 作业的执行情况,提供与大型机类似的集中模式来管理整个集群网络。可以检查 过去、当前和将束时间段的所有作业调度,可以对集群中的作业进行控制操作, 如“中断”、“跳过”、“重做”等。 4 支持复杂作业定义 n j m s 系统支持复杂作业的定义,复杂作业可以视为作业依赖关系的一个扩 展,其中可以包括顺序、并行、分支、等待、循环、父子作业嵌套等多种依赖关 系。用户对复杂作业的管理和控制,同操纵一个简单作业一样方便。 5 提供查看和跟踪工具 n j m s 系统为系统的每个事件都保留r 志( 1 0 9 ) 数据,以备错误恢复时使用; 同时也对所有作业的详细信息进行记录,以供审计使用。系统还提供了相关的工 具,来帮助用户分析、统计相应数据,为计划系统容量、计划系统升级和消除系 统瓶颈提供一定的依据。 6 具有动态负载平衡的功能 n j m s 系统能够充分利用集群系统资源,防止系统中节点问的负载出现严重 不平衡。可以在一个集群范围内通过合理的作业调度和分配策略,保持各结点负 载基本平衡。 7 支持异构系统集成 n j m s 系统为异构的u n i x 和n t 系统提供了单一的系统映象,u n i x 和n t 系统可以包含在一个虚拟大型机中,用户可以使用任何一个机器作为虚拟控制台, 束监视、控制和执行整个网络上的作业请求和数据处理。 2 4 2n j n s 系统层次模型 n j m s 系统是一种建立在操作系统之上的系统软件,目的是为了强化操作系 统的作业管理功能,是介于操作系统和应用软件之间的中间件。其本身具有良好 的层次结构,如图2 - 1 所示。 上要山如下几个层次模块组成: 1 g u i 浏览器( 客户端) c l w i n ) 西北_ l 业人学硕十学位论文第二章作业管理系统概述 n j m s 系统的最上层,支持w i n d o w s g u i 和浏览器两种方式和用户交互,用 户可以根据需要选择使用。两种客户端都有着友好的界面,用户可以方便地进行 作业网络的定义、投交、监视及控制等操作。作业的具体执行细节由服务器端完 成,简化了客户端功能,实现了瘦客户端,使得普通用户就可以方便地通过客户 端实现对作业的各种操作。 客 户 端 服 务 器 端 鎏嘲麟麟 通讯代理中间件 命令转接模块 作业调度模块 作业拆分模块 作业执行模块 底居集群支持 操作蓉统 图2 - 1 n j m s 系统层次模型 2 ,通信代理中间件( c o m a g e n t ) 通讯中间件模块是客户端和服务器瑞的接口,并完成网络用户的登录验证。 该模块采用面向对象的设计思想,提供了h o s t 、a u t h o r i t y 、n o s 三个对象,通过 调用各对象的不同方法来完成不同任务。该中问件支持w i n d o w s 、u n i x 和l i n u x 等多种平台。 3 命令转接模块( j n w m a n ) 用户在客户端提供的g u i 界面上所进行的操作。最终要转换为一条命令,命 令转接模块负责解析这条命令,在进行判断后,调用s e r v e r 中的相应模块来对这 条命令进行处理,从而完成用户在g u i 界面上所做的操作。当然,这一系列的工 作对用户是透明的,用户只需要通过g u i 来进行某种操作。再通过g u i 来查看 操作的结果就可以了。 4 日历调度模块( s c l a n c h ) 通过该模块,用户可以设定开历调度规则实现作业的定时、重复调度。它根 据客户设定的日历调度规则来调度作业网络,使其在客户指定的时间执行。它首 先解析客户设定的r 历调度规则将规则分析为指定时刻。然后定时按照所解析 出的时刻投交作业网络。 5 作业拆分模块( j n w e n g i n e ) 该模块也称为作业引擎模块,是n j m s 系统中最重要的模块,负责对作业网 曲北r 业大学硕士学位论文 第二章作业管理系统概述 络进行分析,并将作业网络拆分成单元作业,然后投交到作业执行模块中。同时 该模块还要对作业执行模块进行监控确保作业的正确执行。 6 作业执行模块( 扩展的n q s ) 该模块是n j m s 系统的基础和核心。采用n q s 模块实现,n q s 模块实际上 本身就是一个功能基本完善的网络作业管理系统。n j m s 系统对n q s 子系统进行 了改造,扩展了n q s 子系统的功能,使其更强大,更加适用于复杂的商业应用环 境。 7 底层集群支持 n j m s 系统是基于集群技术的作业管理系统,底层集群结构( 第三章会详细 介绍) 为系统实现集群内节点间的负载平衡提供了可靠的软、硬件支持。 2 4 3n j m s 系统应用模型 下面的图2 - 2 给出了n j m s 系统的实际应用模型i ”。 蚓2 2n j m s 系统应用模型 从n j m s 系统应用模型可以看出,用户通过客户端c l w i n 或c l j w i n ( w e b ) 柬实现和服务器端s e r v e r 的连接,前者是基于w i n d o w s 系统的g u i 方式,即c s 方式;后者是基于i n t e r n e t 的浏览器方式,即b s 方式。用户可以通过这两种方 式之实现作业的定义、投交及监视。s e r v e r 端是作业的运行模块,实际r 是一 个出异构平台( w i n d o w s 、s o l a r i s 、u n i x 、l i n u x 等) 所组成的集群,山n j m s 系 统进行统管理。从物理r 讲,n j m s 的s e r v e r 端是m 分散的、异构的机器绢成, 撕北。业大学硕士学位论文 第一二章作业管理系统概述 从逻辑上讲,则是一个虚拟的并行计算机,任何一个用户投交的作业都可以在这 些节点上运行。为了更好的满足用户的需求,该系统还支持第三方软件,如s a p 、 o r a c l e 等。 n j m s 作业管理系统作为提高生产效率、优化资源利用、提高企业竞争力的 一个强有力的产品,现在已经成功进入r 本的商业领域,同时在欧美市场也得到 越来越广泛的使用,从去年开始也已经成功进入国内的市场。该系统具有一个强 大的后台系统来完成企业范围内的作业管理,实现企业人力物力等资源的优化利 用,简化系统维护工作,协调企业内各类应用系统的运行。 2 5 小结 本章主要介绍了作业管理系统的发展历程、发展方向及应用领域,并着重对 n j m s 系统的功能、层次结构及应用模型进行了说明。 堕! ! ! ! :些查兰堡兰堡丝兰 量三耋竺! 竺! 至竺丝塞兰堡竺型竺丝垒 第三章n j m s 系统负载平衡机制的研究 n j m s 系统是一种基于集群技术的作业管理系统,对于用户投交的作业,可 以根据集群内各个节点的负载情况进行作业分散,从而达到负载平衡。本章首先 介绍了n j m s 系统的工作组集群结构,工作组集群内节点间的负载平衡实现机制, 分析了工作组集群的局限性;最后提出了网络集群资源分配模型以及基于该模型 的负载平衡的实现。 3 1n j m s 系统的集群结构 3 1 1 集群技术的特点 在计算机应用领域,为了实现系统的高吞吐量和商性能,一个行之有效的方 法就是提高单处理器的处理速度,从而满足应用程序对计算能力的需求。但这种 方法的进一步发展却受到了物理因素的制约【1 3 】。为了满足应用对高性能和高吞吐 量计算系统需求的不断增长,集群技术就应运而生了。所谓集群就是将多个廉价 的计算机有机地结合在一起,使它们协调工作,以此达到高的计算能力。这种系 统就好像一个虚拟的大型计算机【”i ,作业在这个虚拟的大型计算机上有机地执 行。 集群系统之所以成为构建高吞吐量和高性能计算环境的有效途径,主要原因 是它具有以下几个明显的特点。 1 成本较低 传统巨型机或专用大型机的价格都比较昂贵,往往要几百万甚至上千万美元, 而构成集群的工作站或p c 机的价格一般比较便宜。一个由几十台工作站组成的 集群系统就可以满足相当多的应用要求,成本相对很低。 2 用户投资风险小 用,、在购置传统巨型机或专用系统时会担心使用效率不高,系统性能不能充 分发挥,从而浪费大量资金。集群系统不仅是一个并行处理系统,它的雠个节点 同时也是一台独赢的工作站,即使整个系统对某些应用问题并行度小高,但它的 节点仍然可以作为单个工作站使用。 西北i :业人学硕十学位论文第二章n m s 系统负载平衡机制的研究 3 易于构建 m 于集群系统大多采用个人工作站和通用网络,使得节点及系统管理相对容 易,且可靠性高。既不用重新研制计算节点,又不用重新设计操作系统和编译系 统,节省了大量的研制时间。 4 可扩展性好 从规模上说,集群系统大多使用通用网络,系统扩展容易;从性能上说,对 大多数的并行应用都有较高的效率。 3 1 2 工作组集群的构成 下面,我们先给出n j m s 系统中有关集群的几个术语。 i 工作节点:至少运行一个批处理系统的机器。这个机器可以是个人工作 站、p c 机以及并行机。下文的描述中也把工作节点简称为节点。 2 工作组集群:由一个或一个以上的工作节点形成的一个计算机网络,该 网络中的成员节点可以是同构的( 相同的机器硬件体系结构,相同的操作 系统) ,也可以是异构的,我们把这样的集群叫工作组集群。 在n m s 系统中,我们将计算节点组成工作组集群,如图3 1 所示。 幽3 - ir 作组集群示意图 在工作组集群内的所有工作节点位于同一个局域网内,它们通过高速网络连 接。工作组集群内有一个特权节点,叫做工作组集群管理器( u m s ) ,也称调度机 器。工作组集群系统中的所有节点共享集群中的全部资源。由u m s 统一管理和 调度,使得用户的作业能够被快速响应,实现工作组集群作业执行的高性能。 埔此1 + 业人学硕十学位论文 第二章n j m s 系统负载平衡机制的研究 32 工作组集群负载平衡机制 3 2 1 负载的定义和估计 准确的估计系统中各节点的作j 世负载是很必要的,它反映了各个节点是否存 在忙闲不均现象,同时为实现负载平衡提供了参考依据。负载估计可以完全由应 用程序执行,也可以由应用程序和负载分散系统结合起来共同完成。常用的负载 指标f 也称负载分量) 包括c p u 利用率、c p u 就绪队列长度【“l 、进程的响应时间、 虎存使用情况和磁盘访问频度f 1 5 l 以及i o 利用率等,还需要考虑到节点的处理能 力上的差别通过对这些指标的综合评价,就可以得到某个节点的负载大小。但 是,对于不同的节点,这种指标的选择是有差别的,一般是根据系统的应用环境 和场合来决定。对于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 缩鼻翼手术术后护理指南
- 物流质量工作总结
- 公司燃气安全培训内容记录课件
- 公司消防安全培训致辞课件
- 护理学核心认知体系
- 污染溯源课程标准解读
- 郎酒厂工作汇报
- 公司汽车处理流程课件
- 2025雇佣家庭保姆照顾小孩合同
- 运维专员转正工作总结
- 护患冲突与沟通管理要点
- 2025年公文写作试题及答案解析
- 2025广东云浮市检察机关招聘劳动合同制司法辅助人员17人考试参考题库及答案解析
- 2025江西南昌市西湖城市建设投资发展集团有限公司及下属子公司招聘40人备考考试题库附答案解析
- 2025年工程物探试卷及答案
- 2025年军休服务管理机构招聘面试中常见陷阱问题解析与应对方法
- 《丹青意蕴》第三课《国色新尚》课件 2025-2026学年+人教版(2024)初中美术八年级上册
- 2025年烟草专卖局公开遴选面试高分策略及模拟题答案
- 乳制品行业智能化奶源管理与追溯方案
- 医务人员职业道德准则(2025年版)全文培训课件
- 恒瑞医药2023ESG社会责任报告:关注员工成长共建美好家园
评论
0/150
提交评论