




已阅读5页,还剩115页未读, 继续免费阅读
(计算机软件与理论专业论文)集群作业管理系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要 高性能的微处理器和高速计算机网络的出现, 使得把由大量c p u组成的计 算系统 通过高速网 络连接 在一起不仅成为 可能,而且变得十分容易。网 络作业 管理系统就是一种建立于 操作系统之上,对连接在一个群集中的工作站或 p c 进行管理的中间软件。 作者于 2 0 0 3年9月进入西北工业大学软件工程中心, 参 与了 一个国际间的合作项目 作业管理系统服务器端系统软件的设计与开 发,在一年多的实 践基础上,作者对作 业管理系统的 框架体系结 构和实现方法 有了一个比较深入的理解和认识。 主要的研究工作及成果有: . 对作业管理系统的体系结构进行了全面分析,对结构的各个框架构成部分 进行了详细的功能描述。并且从作业流的观点,提出了作业管理系统服务 器 的三层体系模型。 . 介绍了作业管理系统的设计 及实现的关键技术,并重点对性能评测环境的 实现和作业管理系统的性能改进做了深入研究。作者提出了一种利用运行 应用系统实际代码对其进行性能评测的方法,并介绍了以其为指导的作业 管理系统性能评测环境的设计与实现。通过对系统实际性能的评测,软件 开发人员可以尽早发现系统中存在的性能问题,从而降低由于性能不佳 导 致的 软件开发风险。 . 改进了作业管理系统的同步机制。作业管理系统中引入很多的通讯方法 ( s o c k e t , 管道,邮槽,信号 等), 但是这些通讯方法都地采用了 各种不同 的同步机制,而且还存在一定的问题。作者通过使用合理的同步机制保证 了 作业管理系统运行的正确性。 .开发和部署了支持 i p f的作业管理系统,扩大了作业管理系统的应用平台。 i p f是 i n t e l 和 h p积极合作开发了全新的 6 4 位开放性 i a - 6 4体系结构的处 理器系列。 关键词作业管理系统性能评测通 讯代理内存泄漏i p f w i t a b s t r a c t w i 血h i g h p o w e r e dm i c r o p r o c e s s o ra n dh i g h - s p e e dc o m p u t e rn e t w o r kc o m i n g , i ti sr a t h e rs i m p l et h a np o s s i b l et oc o n n e c tc o m p u t e rs y s t e mc o n s i s t i n go fal a r g e n u m b e ro fc p ub yh i g h s p e e dn e t 、v o r k n e t w o r kj o bm a n a g e m e n ts y s t e mi ss u c h k i n do f m i d d l es o f t w a r et h a tf o u n d su p o nt h eo p e r a t i n gs y s t e m ,a n dm a n a g e st h e w e r k s t a t i o n so rp c so ft h ec l u s t e r t h ea u t h o rh a si o i n e di n t h es o f t w a r e e n g i n e e r i n gc e n t e ro f n p uf r o ms e p t e m b e r2 0 0 3 ,p a r t i c i p a t i n gi nt h es e r v e rd e s i g n a n dd e v e l o p m e n to f ai n t e r n a t i o n a lc o o p e r a t i n gp r o j e c t _ 一j o bm a n a g e m e n ts y s t e m 0 1 - 1t h eb a s i so fo n e m o r e y e a r s - p r a c t i c e t h ea u t h o rh a sh a dad e e pu n d e r s t a n d i n go n t h ea r c h i t e c t u r ea n dr e a l i z a t i o nm e t h o d so f t h ej o bm a n a g e m e n ts y s t e m t h en l a i n l yr e s e a r c hr e s u l t si n e l u d e : i tf u l l y a n a l y z e s t h ea r c h i t e c t u r eo fj o bm a n a g e m e n ts y s t e m a n d e v e r y c o m p o s i n gp o r t i o ni nf r a m es t r l l e t u r ei sd e s c r i b e di nd e t a i l a n df r o mt h ev i e w o fj o b f l e w , t h r e e l a y e ra r c h i t e c t u r em o d e lo fj o bm a n a g e m e n ts y s t e ms e r v e r w a sp r o v i d e d n l i sa r t i c l ei n t r o d u c e st h ei m p l e m e n t a t i o na n dr e a l i z a t i o nk e yt e c h n o l o g yo f j o b m a n a g e m e n ts y s t e m ,a n di nt h i sp a p e r , a u t h o rb r i n gf o r w a r dam e t h o df o r m e a s u r i n gt h ep e r f o r m a n c eo ft h ea p p l i c a t i o n sb ye x e c u t i n gt h e i r a c t u a l p r o c e s s i n gc o d e s a n di n t r o d u c et h ed e s i g na n di m p l e m e n t a t i o no fj o b m a n a g e m e n ts y s t e mp e r f o r m a n c em e a s u r i n ge n v i r o n m e n tb u i l t a c c o r d i n gt o t h e m e t h o d b ym e a s u r i n gt h ea c t u a lp e r f o r m a n c eo ft h ej o bm a n a g e m e n t s y s t e m ,d e v e l o p e r sc f l nf i n do u tt h ep e r f o r m a n c ep r o b l e m si nt h es y s t e m e a r l i e r ,a n dr e d u c et h er i s k sw h i c hr e s u l ti np o o rp e r f o f i n a n c e m a u t h o rm o d i f i e dt h es y n c h r o n i z a t i o no f c o m m u n i c a t i o ni nj o bm a n a g e m e n t s y s t e m t h e r e 同时 扩展了 底层支持 模块n q s ( n e t w o r k q u e u e s y s t e m ) 系统, 使 其支持网络负载平衡功能、文 件分段传 输及队列负载平衡。该集群作业管理系 统的研究开发不仅符合 作业管理系统发展潮流,而且在国际上得到了充分的支 持与肯定。 1 . 2集群作业管理系统发展的现状 网 络队列系统( n q s ) 可以 看作最旱 的 作业管 理系统, 网 络队 列系统 最旱 用于 巨型机和超级计算机,但是今天的批处理作业管理系统不仅可以在u n i x 系统上 运行,还可以在l i n u x 以及w i n d o w s n t 上运行。现在的作业管理系统提供给系统 管理员管理广域网 范围内高性能 工作 站服务器的能力。 现代的作业管理系统提 供网络负载平衡、可配置的作业调度、作业资源控制、错误的自动恢复、网络 资 源监测以 及w e b g u i 等功能。下面 笔者将对集群作业管理系统软件的当前 状况 展开讨 论。 严格地 说,基于集群技术的作业管理系统是一种对网络作业管理系统的扩 充和改良。但是与早期网络作业管理系统不同, 它既包含了 一 些新的 思想,如 支持异构环境、系统信息的监测与采集、负载初始分配、动态资源调度与任务 迁移功能,可扩展性、高可用性等等,而又保持了网络作业管 理系统的许多优 点,如对批处理作业的支持、队列的调度、系统资源的管理等等。 目 前这个方面的研究特别多,各种类似的原型系统和商用系统相继出现, 如加拿 大 1 a t f o r m 公司的l s f , n it 的 s v s t e m s c o p e / j o h c e n t e r , c a l i f o r n i a 大学 的 ( ; t o h u s , v i r g i n i a 大学的 l e g i o n 等等。近两幸 ,各人i 1 算v l 公司也j f 始采 川 t于集群 技术的作业管理系 统来取代传统的网络作、i 日 i, 理系 统,如 1 1 1 , i b m 西北 i _ 业大学硕十学位论文 由 于存在以上问题, 客观上 就需要建立一种高性能的作业管理系统。 近几 年来,已出 现了众多的原型和商 用集群 管理系统。 这些系统主要包括两 类:可 扩展集群计 算系统和基于集群技术的作业管理系统。前者利用工作站组 成的集 群来模拟高 性能计算机进行并行计算,构造 “ 廉价的大型机”, 但是它在商业 上 使用者却较少,并不是因为这种方式落后, 而是因为其 研究方向与一些用户 的要 求不一致。 后者则是集群技术和作业管理技术的有机 结合,不但保留了 作 业管 理系统的特点, 还加入了 集群技术所带来的新 功能。从 近几年的发展趋势 看, 基于集群技术的 作业管理系统己 在逐步 取代网 络作业 管理系统,成为新一 代作 业管理系统的主要 选型, 并逐渐与 传统的作业管理 系统分 庭抗礼。 西北工业大学软件工程中心所开发的集群作业管理系统具有一般作业管理 系统的 特点 ( 即 分布操作、客 户/ 服务器与浏览器/ 服务器模型、资源共享、均 衡负 载),并在此基 础上扩展了作业 依赖关系,提出了作业网络 ( 也称作业流 图)的概念;同时 扩展了 底层支持 模块n q s ( n e t w o r k q u e u e s y s t e m ) 系统, 使 其支持网络负载平衡功能、文 件分段传 输及队列负载平衡。该集群作业管理系 统的研究开发不仅符合 作业管理系统发展潮流,而且在国际上得到了充分的支 持与肯定。 1 . 2集群作业管理系统发展的现状 网 络队列系统( n q s ) 可以 看作最旱 的 作业管 理系统, 网 络队 列系统 最旱 用于 巨型机和超级计算机,但是今天的批处理作业管理系统不仅可以在u n i x 系统上 运行,还可以在l i n u x 以及w i n d o w s n t 上运行。现在的作业管理系统提供给系统 管理员管理广域网 范围内高性能 工作 站服务器的能力。 现代的作业管理系统提 供网络负载平衡、可配置的作业调度、作业资源控制、错误的自动恢复、网络 资 源监测以 及w e b g u i 等功能。下面 笔者将对集群作业管理系统软件的当前 状况 展开讨 论。 严格地 说,基于集群技术的作业管理系统是一种对网络作业管理系统的扩 充和改良。但是与早期网络作业管理系统不同, 它既包含了 一 些新的 思想,如 支持异构环境、系统信息的监测与采集、负载初始分配、动态资源调度与任务 迁移功能,可扩展性、高可用性等等,而又保持了网络作业管 理系统的许多优 点,如对批处理作业的支持、队列的调度、系统资源的管理等等。 目 前这个方面的研究特别多,各种类似的原型系统和商用系统相继出现, 如加拿 大 1 a t f o r m 公司的l s f , n it 的 s v s t e m s c o p e / j o h c e n t e r , c a l i f o r n i a 大学 的 ( ; t o h u s , v i r g i n i a 大学的 l e g i o n 等等。近两幸 ,各人i 1 算v l 公司也j f 始采 川 t于集群 技术的作业管理系 统来取代传统的网络作、i 日 i, 理系 统,如 1 1 1 , i b m 西化1 一 业大学硕十学位论文 :21资源分配和调度 许多基 于集群的资源管理系统,由 于其研制的侧重点和应用范围不同, 它 们在目 标、 结构、 功能和实现上各有差异,各自 具有不同的性能和功能特点, 同 时它们也 从不同侧面反映了 集群资 源管理系 统所应具备的特性。目前,在集 群作业管理系统软件研究领域, 对作业管理系统中资 源管理及作业调度的 研究 是一个热点。高级资源利用策略及其 自 动增强为作业管理系统和它们的应用拓 展了 一个新的功能层面, 特别是在资 源共享中 心的应用。 资源共享中 心为不同 的组织单元 ( 如访问中心硬件和软件的多个工程项目)提供服务,这些工程项 目 就共享了中心的 资源。 围绕着分 布式资源管理和调度, 虽然有许多非常经典 的资源调度系统,但是它们的管理方式是为了满足特定需求而设计的;如分布 式操作系统要求节点 不自 治;网 络操作系统提供的资源共享功能非 常弱小,仅 仅是一种静态的资源访问。各个网 络作业管理系统的资源分配和调度具 有自 身 的 特点。例如n q e , p b s , l s f , l o a d l e v e r 这些作业管理系统, 它们或者通过寻 找那些用作业控制 语言描 述的资源来满足用户作业的 执行, 或者 将作业提交到 一个指定的拥有 一 定资源的队列中执行。 系统用户必须首先辨识一定的队列后, 再将作业投入到这些队列,当然不允许动态、高效的资源挖掘过程。更有甚者, 系统管理者必须预先知道将有哪些服务。 g l o b u s 定义了一个具有自治功能的资源管理系统。用户可以使用资源定义 语言 ( r s l ) 来描述它们将要使 用的资源。 映射这 些资源 请求到实际资源是资 源 协同分配器的工作,资源协同分配器当然要负责多个节点的资源分配和资源管 理的协调。 r s l 可以 让用户非常精确地描述资源, 但是对于一些比 较模糊的资 源 分配情况就显得不太适应。 l e g i o n 使用面向对象方法去管理资 源,处理资源的分配问 题就象处理一个 对象放置问题一样。 一个候选资 源通过对象映射进行标示, l e g i o n 系 统定义一 个请求就象定义 一 个类一样。虽然资源的定义使用了面向对象类型,但是比较 复杂和难于表达。 c o n d o r 使用了 一种搜索机制。它从资源出 发,资 源管理者不 停地、漫无日 地的搜索现存空闲资源,搜索到后,用于分配给作业。c o n d o r存在以下问题: ( 1 )作业粒度非常大,必须使用它提供的资源a p ,否则不能运行: ( 2 )它从资源出发进行资源搜索往补效率不高: ( 3 ) c o n d o r 的局郊资源管理能力 不足, 即耳个作业占 据 一 个竹 点,当 任务 较小 时,造成y源的浪费: 西化1 一 业大学硕十学位论文 :21资源分配和调度 许多基 于集群的资源管理系统,由 于其研制的侧重点和应用范围不同, 它 们在目 标、 结构、 功能和实现上各有差异,各自 具有不同的性能和功能特点, 同 时它们也 从不同侧面反映了 集群资 源管理系 统所应具备的特性。目前,在集 群作业管理系统软件研究领域, 对作业管理系统中资 源管理及作业调度的 研究 是一个热点。高级资源利用策略及其 自 动增强为作业管理系统和它们的应用拓 展了 一个新的功能层面, 特别是在资 源共享中 心的应用。 资源共享中 心为不同 的组织单元 ( 如访问中心硬件和软件的多个工程项目)提供服务,这些工程项 目 就共享了中心的 资源。 围绕着分 布式资源管理和调度, 虽然有许多非常经典 的资源调度系统,但是它们的管理方式是为了满足特定需求而设计的;如分布 式操作系统要求节点 不自 治;网 络操作系统提供的资源共享功能非 常弱小,仅 仅是一种静态的资源访问。各个网 络作业管理系统的资源分配和调度具 有自 身 的 特点。例如n q e , p b s , l s f , l o a d l e v e r 这些作业管理系统, 它们或者通过寻 找那些用作业控制 语言描 述的资源来满足用户作业的 执行, 或者 将作业提交到 一个指定的拥有 一 定资源的队列中执行。 系统用户必须首先辨识一定的队列后, 再将作业投入到这些队列,当然不允许动态、高效的资源挖掘过程。更有甚者, 系统管理者必须预先知道将有哪些服务。 g l o b u s 定义了一个具有自治功能的资源管理系统。用户可以使用资源定义 语言 ( r s l ) 来描述它们将要使 用的资源。 映射这 些资源 请求到实际资源是资 源 协同分配器的工作,资源协同分配器当然要负责多个节点的资源分配和资源管 理的协调。 r s l 可以 让用户非常精确地描述资源, 但是对于一些比 较模糊的资 源 分配情况就显得不太适应。 l e g i o n 使用面向对象方法去管理资 源,处理资源的分配问 题就象处理一个 对象放置问题一样。 一个候选资 源通过对象映射进行标示, l e g i o n 系 统定义一 个请求就象定义 一 个类一样。虽然资源的定义使用了面向对象类型,但是比较 复杂和难于表达。 c o n d o r 使用了 一种搜索机制。它从资源出 发,资 源管理者不 停地、漫无日 地的搜索现存空闲资源,搜索到后,用于分配给作业。c o n d o r存在以下问题: ( 1 )作业粒度非常大,必须使用它提供的资源a p ,否则不能运行: ( 2 )它从资源出发进行资源搜索往补效率不高: ( 3 ) c o n d o r 的局郊资源管理能力 不足, 即耳个作业占 据 一 个竹 点,当 任务 较小 时,造成y源的浪费: 西北 ! : 业人学硕士学位论文 ( 4 )它形成的系统在节点较多时往往会造成网络通信的瓶颈,执行效率低下; ( 5 ) 它是面向 整个节点的, 而不是面向需求资 源的。 作业只能 提交 给一 个专用 节点,而且也不能根据作业的需求分配 一个节点中的 部分资源。 l s f 使用集中和分散两种资源调度方法。当有请求转送到 远程 执行时,该 节点 立即要求得到其 对等的 所有节点的资 源使用状况, 然后再确定最佳的转送 节点,实施作业的发 送, 这种方式 对于作业的延时比 较大, 有一定的滞后性。 在国内,曙 光公司开发了 基于集群的资源管理系统r m s . r m s 是在d q s 基础 上开发的,他成功的运行在曙光天潮系列超级服务器上。 1 .2 .2集群作业管理系统的性能评价体系 目前的集群资源管理系统的性能评价体系,主要 是在以下 几个方面:异构 性、支持的 硬件平台、是否需要附 加软硬件、支持的 操作系统、 影响工作站所 有者、并行支持、 任务时 序控制和优先级处理、 负载平衡、 进程迁移、 动态资 源池、容错技术等。 ( 1 )支撑环境。即系统的应用范围, 包括是商用或是研究产品。这将决定使用 该系 统的花费和期 望得到的服务等级, 商用产品能 提供较强的系统稳定 性、 强 壮性和全面的服务支持, 而研究产品一般开放源码, 用户可 根据需要加以改 进; 是否支持异构集群, 如 p c , m p p或工作站;支持的操作系 统平台:为了 运行 该系统, 是否需要安装其它的硬件或软件; 能支持哪些文件系统, 如n f s , a f s , dfs。 ( 2 ) 支持的作业类型。 是否支持批处理作业; 是否支持交互式作业; 是否支持 串行作业;支持哪些并行作业, 是否支持m p i , p v m, h p f 等。 ( 3 )资源调度和节点分配策略。提供了哪些资源调度和节点分配策略; 资源调 度和节点分配策略是否是可配置的,用户能否自山 选择各种策略而不影响系统 的正常运行;用户能否选择或更改各种调度参数,如采用负载平衡算法时,是 否可山 用户自 由选取负载参数; 当 系统山许多工作站组成时 , 对工作 站主 人的影 响如何;调度算法的开销 有多大:是否提供了检查点 操作的 功能,支持 哪几种 资源类型的检查点 操作,是在操作系统级还是用户级:是否 提供了 进程 迁移的 功能;系统是否对资源的 状态进行监控,当 作业异常时能否重新调 度作 业;能 否挂起或继续运行作业;能否支持资源依赖:能否支持节点的公平共享策略、 分区策略和独占策略,并由用户指定;足否实现优光级策略,j i 一 允许用户修改 资源的优先级:是否具有分离的调度器和公开的a p i 接 ! ,方使用户自己开发 调度器。 ( 4 )作业监控能力。系统能否打效监拧f l 业的所有进程, 特别是分布在不i i l i 7 西北 ! : 业人学硕士学位论文 ( 4 )它形成的系统在节点较多时往往会造成网络通信的瓶颈,执行效率低下; ( 5 ) 它是面向 整个节点的, 而不是面向需求资 源的。 作业只能 提交 给一 个专用 节点,而且也不能根据作业的需求分配 一个节点中的 部分资源。 l s f 使用集中和分散两种资源调度方法。当有请求转送到 远程 执行时,该 节点 立即要求得到其 对等的 所有节点的资 源使用状况, 然后再确定最佳的转送 节点,实施作业的发 送, 这种方式 对于作业的延时比 较大, 有一定的滞后性。 在国内,曙 光公司开发了 基于集群的资源管理系统r m s . r m s 是在d q s 基础 上开发的,他成功的运行在曙光天潮系列超级服务器上。 1 .2 .2集群作业管理系统的性能评价体系 目前的集群资源管理系统的性能评价体系,主要 是在以下 几个方面:异构 性、支持的 硬件平台、是否需要附 加软硬件、支持的 操作系统、 影响工作站所 有者、并行支持、 任务时 序控制和优先级处理、 负载平衡、 进程迁移、 动态资 源池、容错技术等。 ( 1 )支撑环境。即系统的应用范围, 包括是商用或是研究产品。这将决定使用 该系 统的花费和期 望得到的服务等级, 商用产品能 提供较强的系统稳定 性、 强 壮性和全面的服务支持, 而研究产品一般开放源码, 用户可 根据需要加以改 进; 是否支持异构集群, 如 p c , m p p或工作站;支持的操作系 统平台:为了 运行 该系统, 是否需要安装其它的硬件或软件; 能支持哪些文件系统, 如n f s , a f s , dfs。 ( 2 ) 支持的作业类型。 是否支持批处理作业; 是否支持交互式作业; 是否支持 串行作业;支持哪些并行作业, 是否支持m p i , p v m, h p f 等。 ( 3 )资源调度和节点分配策略。提供了哪些资源调度和节点分配策略; 资源调 度和节点分配策略是否是可配置的,用户能否自山 选择各种策略而不影响系统 的正常运行;用户能否选择或更改各种调度参数,如采用负载平衡算法时,是 否可山 用户自 由选取负载参数; 当 系统山许多工作站组成时 , 对工作 站主 人的影 响如何;调度算法的开销 有多大:是否提供了检查点 操作的 功能,支持 哪几种 资源类型的检查点 操作,是在操作系统级还是用户级:是否 提供了 进程 迁移的 功能;系统是否对资源的 状态进行监控,当 作业异常时能否重新调 度作 业;能 否挂起或继续运行作业;能否支持资源依赖:能否支持节点的公平共享策略、 分区策略和独占策略,并由用户指定;足否实现优光级策略,j i 一 允许用户修改 资源的优先级:是否具有分离的调度器和公开的a p i 接 ! ,方使用户自己开发 调度器。 ( 4 )作业监控能力。系统能否打效监拧f l 业的所有进程, 特别是分布在不i i l i 7 西北 业大学硕七 学位论文 点上的并行作业的各个进程;当用户杀除作业时,系统能否彻底地杀除该作业 所有子进程,不留下僵尸进程;系统管理员能 否改 变队列或作业的 状态;用户 能否查看系统和作业的运行状态;用户能否挂起、释放或删除作业。 ( 5 )以及我们上面提到的资源分配和调度功能。 1 .2 .3集群作业管理系统的性能比 较和评价 以 上介绍了目 前 流行的、 具有代表 性的几种集群资源管理系 统和我们所建 立的 集群资 源管理系 统的 性能评 价体系。根据这一性能评价体系,我们可以 对 目前 这几种流行的资源管理系统进行简单 . 的比 较和评价 ( i )支撑环境。 几种资 源管理系统都支持p c , m p p 或工 作站异构集群, 支持多种流行 u ni x操作系统,l s f 还支持 wi n n t和 wi n 2 0 0 0 。另外,它们都 支持 n f s , r ms需要n f s的支持。 ( 2 )支持作业类型。它们都支持批处理作业、串行作业和 mp i , p v m 并 行作业。l s f和 p b s支持交互式作业,p b s还支持 h p f以及 mp l并行作业。 ( 3 ) 资源调 度和节点分配策略。 它们都提供了f i f o等 多种作 业调度策略: l s f 和 l o a d l e v e l e : 还提供了 较为 有效的r e s e r v a t i o n和b a c k f i l l 策略, r m s提供了 基于优先级的f i r s t f i t 作业选取策略。都提供了 完整的a p i , 方便 实现新的调度策略;p b s 还提供了t c l , b a l l , c三种过程语言 和调度类, 用户只需改造调度类便可实现 自己的调度策略。作业调度和节点分配策略都是 可配置的,对于节点分配策略,都提供了公平共享和独占两种策略, r ms提 供了基于 p o o l的节点分区策略,分区内的节点可设定节点可运行的作业数。 另外, l o a d l e v e l e : 中,系统管理员 还司 一 以定义作业类,系统根据作业的类别、 用户和组 来定义优先级。 除p b s , r ms 外, 都有 一 限度地提供检查点 操作和进程 迁移, 其中尤以 c o n d o r的 检查点操作实现得较为全 面。系 统都实 现了负载 平衡策略,都提供了内 存使用率、负 载均值 等作为负载参数;其中l s f 的负载 平衡算法采用了多种负载参数:节点状态、 运行队列长度、 c p u利用率、 分贞 速率、登录用户数、空闲时间、可用交换空间、可 用存储器、 / t m p目 录下的可 用空间。另外,各个系统都较好地实现了对作业状态的监控。 ( 4 ) 作业监控能力。各 个系 统都能有效 地监控作业的所子 j 进程, 特别是分 布在不同节点 卜 的并行作业的各个进程。当用户杀除作业时齐个系统都能彻 底地杀除该作业的所有子进程,不留 f 语尸进程。在各个系统 ,系统管理员 f fl e 改变队列或f ) 业的状态,用户能1 f 吞系统和作收的运 行状态,用户能社起 排队作业、释放或删除作业 西北 业大学硕七 学位论文 点上的并行作业的各个进程;当用户杀除作业时,系统能否彻底地杀除该作业 所有子进程,不留下僵尸进程;系统管理员能 否改 变队列或作业的 状态;用户 能否查看系统和作业的运行状态;用户能否挂起、释放或删除作业。 ( 5 )以及我们上面提到的资源分配和调度功能。 1 .2 .3集群作业管理系统的性能比 较和评价 以 上介绍了目 前 流行的、 具有代表 性的几种集群资源管理系 统和我们所建 立的 集群资 源管理系 统的 性能评 价体系。根据这一性能评价体系,我们可以 对 目前 这几种流行的资源管理系统进行简单 . 的比 较和评价 ( i )支撑环境。 几种资 源管理系统都支持p c , m p p 或工 作站异构集群, 支持多种流行 u ni x操作系统,l s f 还支持 wi n n t和 wi n 2 0 0 0 。另外,它们都 支持 n f s , r ms需要n f s的支持。 ( 2 )支持作业类型。它们都支持批处理作业、串行作业和 mp i , p v m 并 行作业。l s f和 p b s支持交互式作业,p b s还支持 h p f以及 mp l并行作业。 ( 3 ) 资源调 度和节点分配策略。 它们都提供了f i f o等 多种作 业调度策略: l s f 和 l o a d l e v e l e : 还提供了 较为 有效的r e s e r v a t i o n和b a c k f i l l 策略, r m s提供了 基于优先级的f i r s t f i t 作业选取策略。都提供了 完整的a p i , 方便 实现新的调度策略;p b s 还提供了t c l , b a l l , c三种过程语言 和调度类, 用户只需改造调度类便可实现 自己的调度策略。作业调度和节点分配策略都是 可配置的,对于节点分配策略,都提供了公平共享和独占两种策略, r ms提 供了基于 p o o l的节点分区策略,分区内的节点可设定节点可运行的作业数。 另外, l o a d l e v e l e : 中,系统管理员 还司 一 以定义作业类,系统根据作业的类别、 用户和组 来定义优先级。 除p b s , r ms 外, 都有 一 限度地提供检查点 操作和进程 迁移, 其中尤以 c o n d o r的 检查点操作实现得较为全 面。系 统都实 现了负载 平衡策略,都提供了内 存使用率、负 载均值 等作为负载参数;其中l s f 的负载 平衡算法采用了多种负载参数:节点状态、 运行队列长度、 c p u利用率、 分贞 速率、登录用户数、空闲时间、可用交换空间、可 用存储器、 / t m p目 录下的可 用空间。另外,各个系统都较好地实现了对作业状态的监控。 ( 4 ) 作业监控能力。各 个系 统都能有效 地监控作业的所子 j 进程, 特别是分 布在不同节点 卜 的并行作业的各个进程。当用户杀除作业时齐个系统都能彻 底地杀除该作业的所有子进程,不留 f 语尸进程。在各个系统 ,系统管理员 f fl e 改变队列或f ) 业的状态,用户能1 f 吞系统和作收的运 行状态,用户能社起 排队作业、释放或删除作业 西北 1 _ 业大学硕 卜 学位论文 ( $ )资 源管理功能。 在各个系统中,系统管理员都能控制资 源的可 用性, 能更改资源配置, 添加、 删除和修改资 源,能 控制用户对资源的存取 权限。 用户 提交作业时能确定资 源要求, 作业提交后能更改作业的资 源要求。其中,p b s 提供了s t a g e in 和s t a g e o u t 功能。 在l o a d l e v e l e r 和c o n d o r系 统中, 支持各 个计算节点的动态加入和 退出,而且计算节点工作站的主 人,对该节点有完 全 的控制权,能指定节点资源的可用性和可用时间,统也能根据键盘或鼠标空闲 时间或网络状态决定该计算节点 是否加入。 通过以 上对各个集群作 业管理系统的简单介绍和比 较, 我们发现各个系统 在实现和功能上大同小异。l s f作为一个在市场上 最具成功的集群资源管理系 统, 在功能 及可用性方面做了 较大的努力, 具有较高的实用性和优势。 而p b s 作 为一 种应用范围较广的开 放源代码的自 由软件, 也提供了很好的功能, 获得了 业界的好评和广泛的使用。 c o n d o r作为一个研究产品, 为了最大挖掘网络中 空闲 工作站的计算 潜力,在检查点操作和进程迁移方面做了很大的努力,是想 充分 利用局域网内 工作站计 算资 源的系 统管理员的最好选择。 从 c o n d o r发 展而来的 l o a d l e v e l e r ,在商业化方面 i b m 也做了很大努力,也具有很好的可 用性。 国内 曙光公司开发的集群管理系统r m s , 虽然在功能 和可 用性方 面逊色 一些,但它基本上实现了 一个集群资 源管理系统所应具备的功能。 而且与 曙光 超级服务器系统结合紧密, 充分利用了曙光超级服务器的 优势,能 很好地完成 资源管理的工作,但是,. l在调度算法的多徉性、高可用性和安全性方面还存 在一些不足,需要完善和改进。 1 .3本文的研究内容 作者从加0 3 年开 始参加了作业管理系统r 1 2 .2 , r 1 2 . 3 . r 1 2 . 4 三个 版本的 开发以及r 1 1 . 2 , r 1 2 . 1 , 8 1 2 .2 , 8 1 2 . 3 , 8 1 2 . 4 五 个版本的 维护工 作。 作者所承 担的主要工作有: . 作业管理系统性能的分析和改进。作者通过设计一个基于作业管理系统的 性能评测环境,详细分析了作业管理系统 目前的性能状况,并且改进 了作 业管理系统中存在的通 讯效率低下内存泄漏,高负载情况下系统不稳定 等问题。 . 开发和部署了支持 i p f的作业管理系统,扩大了作业管理系统的应用平台。 i p f是 i n t o ! 和 h p积极合作开发了全新的 6 4位开放性 i a - 6 , 提供了 动态负 载网络资源的功能,; 提供作业提 交、调度、执行等控制的接日,同时针 一 对网 西北 业人学硕士学位论文 j o 日 5 图 2 - 1 作业网络 2 .3 .2队列管理 队列临时包含系统接收的请求,并按一定顺序执行这些请求。队列管理只 能由管理员实施,普通用户除查询队列状态外,不能执行其它操作。在队列上 进行的操作有创建/ 删除、使队列有效l 无效、设置/ 修改队列属性、查询队列状 态等。 设置队列的主 要目 的是对用户的请求进行 分类,分类的依据是用户作业 的某些特点。 例如, 依据用户作业占 用 c p u时间的长短,可 将作业分为 】 a r g e 和s m a ll 两 类, 并 规 定 运 行时 间 大 于6 0 0 秒 的 作 业 属 于la r g e 类, 其 余的 属于s m a l l 类, 那在系统中就相应设置l a r g e 和s m a l l 两个队列, 用户作业分 别提交到不同 的队列中参加排队。除了分类作用外,队列还具有辅助作业调度、负载平衡等 功能,因此, 队列在作业管理系统中是一个重要的概念和实 现方 法。 p o s i x规 定的队列有两种类型: b a t c h 队列用于执行作业, r o u t i n g 队列用于在不同队列或 不同机器间传送作业。 但在不同的 作业管理系统中,队列的实现方 法是 不同的, n q s系统包含以 下四种队列 ( 批处理队列,设备队列,管道队列和网络队列)。 一 些较新的作 业管理系统只采用 p o s i x规定的两类队列。 作业管理系统一般要设置多个不同 类型的队列, 这些队列的区 别是 它们的属性值不同, 在系统中的作用也 不相同。 例如,将不同的运行时资源限制属性施加到不同 b a t c h队列上,导致参加不同 b a t c h 队列的作业具有不同的运行时资源限制:给r o u t i n g 队列指定多个目 标, 可以部分实现负载平衡。 2 .3 . 3基于集群的高可用性 综合作业管 理系统的底层支 持系 统 一 网络队列系 统 ( n q s , 提供了 动态负 载网络资源的功能,; 提供作业提 交、调度、执行等控制的接日,同时针 一 对网 西北 i _ 业大学硕十学位论文 络资源状态进行作业迁移等功 能完成一些集群系统的功能,但也没有考虑 到集 群中的 容错性,对局域网中资 源的实时监控做不到。当 集群中的一个点失败后 并 不能 及时的完成用户的请求 ( 假设 用户正在进行作业提交操作), 怎样有效 地监视网 络资源、平衡网 络负 载、提高系统整体容错性能,关键是怎样有效的 在作业管理系统中运用集群技术。 在作业管理系统中引 入集群技术,具有以下几个优点: .发生故障时自 动恢复; . 系统构成方便、容易 操作; .方便的用户接口 2 . 4作业管理系统的体系结构 作业管理系统是一种复杂的系统软件,最初的目的 是为了强化操作系统的 作业管理功能,提供包括作业的 批处理排队、 作业调度、作业执行及资源管理 等功能。随 着工作流技术的 发展 和对复杂作业的 更多需求,本文提出了一 种新 型的基于作业流的作业管理系统,它能够在作业管理的基础之上提供对作业流 的 管理功能, 包括作业流的定义与描述、 作业流的调度与执行,以 及作业流的 跟踪与 控制等功能, 涉及到了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 兖州煤业安全培训中心课件
- 创新安全培训模式总结课件
- 创意安全生产培训心得课件
- 先秦散文原创力
- 创客教室配套课件设计
- 《金色的草地》 说课稿
- 委书记的榜样-焦裕禄公开课一等奖创新教案(表格式)统编版高中语文选择性必修上册
- 内河船员安全基本培训课件
- 教师培训交流汇报
- 科学活动比较粗细研究
- 零售药店医保培训试题及答案,零售药店医保培
- 江苏历年语文高考真题答案
- DB51T 2975-2022气凝胶复合保温隔热材料及系统通用技术条件
- 外科学-第十一章-外科感染(含案例分析)课件
- 《ch棘皮动物》课件
- 急诊科岗位职责
- 中国服用过兴奋剂运动员名单 兴奋剂真的是毒品吗
- 小学英语语法时态讲解与归纳
- 《生存与修炼》熊厚音讲《道德经》教学文案
- 淘宝新店运营计划书文献
- 产教融合校企合作[可修改版ppt]课件
评论
0/150
提交评论