(通信与信息系统专业论文)高性能计算集群管理系统与作业调度技术研究与实现.pdf_第1页
(通信与信息系统专业论文)高性能计算集群管理系统与作业调度技术研究与实现.pdf_第2页
(通信与信息系统专业论文)高性能计算集群管理系统与作业调度技术研究与实现.pdf_第3页
(通信与信息系统专业论文)高性能计算集群管理系统与作业调度技术研究与实现.pdf_第4页
(通信与信息系统专业论文)高性能计算集群管理系统与作业调度技术研究与实现.pdf_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a要 一-一一, 一- - - -. 卜. . ,一-、 一一一一- 摘要 当 前,基于网 络的计 算机技术, 促进了 集群系 统的发展和广泛应用。 用高 速网络将高性能工作站或 p c按某种结构连接成集群,实现并行计算,只用很 小的花费,就可以得到大型机和并行机的性能:对这些工作站或 p c进行管理 的 软件系统就是本文要研究的集 群管理系统, 而作业调度技术是集 群管理系 统 中的 关键技术之一。 新一 代的 集群管理系统的研究与实 现技术是近年来高性能 计算 领域的主流研究方向,己 推出了 许多 公用的或商业化的软件和 产品。 本文的研究项目 其目 标是 研制一个综合型的商业化集群管理系统 o r i g i n c m s ,以 下简称 o c m s ) ,要 求该系 统除具有一 般集群管理和作业调 度系 统的 单一系统映像、 分布式操作、 资 源共享、负 载均衡的特点外, 还应提供良好 的 操作性、高可靠性、可扩充性并能较好的适应气象数值预报计算的特殊要求。 本文反映了作者的主要研究成果,包括以下内容: 一、 针对一般集群管理系统的体系结构, 提出了 一种新的三层b / s 结构的 综合型的 集群管理和作业调度系统框架, 具 有平台无关, 远程管理等显著优点 二、以 集群管理系统o c ms 的 实现为 背景, 对复杂作业、 作业调度、负 载 均衡、网络通讯、 可操作性等进行了 较为全 面和深入的研究。 三、作业调度是体现公平对待用户作业,提高系统响应时间,进而提高系 统性能的 关键因素。 鉴于作业调度 在集群管理系统的重 要地位, 我们进行了 针 .对 集群系统的作业调度研究, 提出并 设计了 一 种实 用、 稳定、 可靠的作业调 度 策略,实际应用表明是集群作业调度这一核心问 题的 较好的解决方案。 四、 解决了气象数值预报计算任务对于作业调度的负载均衡和时效性要求 本文在深入研究集群及其管理系统的原理和体系结构的基础上,设计和实 现了o c ms 集群管理系统及其核心组成部分作业调度子系统。 关键词:集群,集群管理系统,浏览器/ 服务器模式,作业调度,负载均衡, 单一系统映像。 ab s t r a c t ab s t r a c t c u r r e n t l y , n e t w o r k - b a s e d c o m p u t e r t e c h n o l o g y m a k e s a g r e a t p u s h t o w a r d s t h e d e v e l o p m e n t a n d w i d e a p p l i c a t i o n o f c l u s t e r s y s t e m. h i g h - p e r f o r m e n c e w o r k s t a t i o n s o r p c c o n n e c t e d in a c e rt a i n s t r u c t u r e b y h i g h - s p e e d n e t w o r k i n t o c lu s t e r , t h e n s c h e d u l e d , s o a s t o g e t t h e s i m i l a r f u n c t i o n s o f l a r g e m a c h i n e a n d p a r a l l e l m a c h in e w i t h a v e r y s ma l l a mo u n t o f c o s t . t h e s o ft w a r e s y s t e m u s e d t o m a n a g e t h e s e w o r k s t a t i o n s a n d p c a r e t h e t a r g e t e d c l u s t e r m a n a g e m e n t s y s t e m i n t h i s t h e s i s , a n d j o b s c h e d u l i n g t e c h n o l o g y i s o n e o f t h e k e y t e c h n o l o g i e s o f c l u s t e r m a n a g e m e n t s y s t e m . n e w - g e n e r a t i o n c l u s t e r ma n a g e me n t s y s t e m s s t u d y a n d a p p l i c a t i o n t e c h n o l o g y i s r e g a r d e d a s t h e m a i n s t r e a m s t u d y a p p r o a c h i n t h e f i e l d o f h i g h - p e r f o r m e n c e c o m p u t e r o v e r t h e p a s t f e w y e a r s . ma n y c i v i l l y o r c o m m e r c i a l l y u s e d s o ft w a r e a n d r e l a t e d p r o d u c t s h a v e b e e n p r o m o t e d o u r p r o j e c t i s a i mi n g t o d e v e l o p a c o m p r e h e n s i v e c l u s t e r ma n a g e me n t s y s t e m n a me d o r i g i n c ms ( o c ms f o r s h o rt ) , e x p e c t i n g t h a t t h e s y s t e m o w n s s u c h c h a r a c t e r i s t i c s a s d i s t r i b u t i n g o p e r a t i o n , r e s o u r c e s s h a r e , l o a d b a l a n c i n g , a s w e l l a s f i n e o p e r a t i o n , h i g h r e l i a b i l i t y , g o o d e x t e n s i b i l i t y a n d p r e f e r a b l y a d a p t i n g t h e s p e c i a l r e q u i r e m e n t s o f c l i m a t e n u m e r i c a l n a l u e f o r e c a s t . t h e a u t h o r s m a j o r r e s e a r c h a c h i e v e me n t s a r e a s f o l l o w e d . f i r s t l y , i n t e r ms o f c l u s t e r ma n a g e me n t s y s t e m s s y s t e m s t r u c t u r e , t h e a u t h o r p u t s f o r w a r d a n e w k i n d o f s y s t e m f r a m e w o r k f o r c l u s t e r m a n a g e me n t a n d j o b s c h e d u l i n g w i t h t h r e e - l e v e l b / s s t r u c t u r e , f e a t u r i n g n o n - p l a t f o r m a n d r e mo t e ma n a g e me n t . s e c o n d l yo n t h e b a s i s o f o c mss a p p l i c a t i o n , c o n d u c t d e e p a n d c o mp r e h e n s i v e r e s e a r c h i n c o m p l e x j o b , j o b s c h e d u l i n g , l o a d b a l a n c i n g , n e t w o r k c o m m u n i c a t i o n , e a s y - o p e r a t i n g e t c . t h i r d l y , j o b s c h e d u l e i s a k e y e l e m e n t i n r e a l i z i n g f a i r l y d e a l i n g w i t h c l i e n t o p e r a t i o n , s h o rt e n i n g s y s t e m f e e d b a c k p e r i o d , s o a s t o i mp r o v e s y s t e m s p e r f o r m e n c e . c o n s i d e r i n g t h e i mp o rt a n t f u n c t i o n i n c l u s t e r ma n a g e m e n t s y s t e m , ab s t r a c t t h e a u i h o r i s c o n d u c t i n g c l u s t e r s y s t e ms j o b s c h e d u l i n g r e s e a r c h , r a i s i n g a n a p p l i c a b l e , s t a b l e a n d r e l i a b l e j o b s c h e d u l i n g m e t h o d , w h i c h p r o v e s a v e r y e ff e c t i v e me t h o d t o t h e c o r e i s s u e i n ocm s . f o u r t h l y , r e s o l v e t h e p r o b l e m t h a t t h e j o b s c h e d u l i n g a n d r e a l t i m e f e a t u r e a d a p t f o r t h e r e q u i r e m e n t s o f c l i m a t e n u m e r i c a l n a l u e f o r e c a s t j o b . o n t h e b a s i s o f d e e p l y r e s e a r c h t h e p r i n c i p l e a n d a r c h i t e c t u r e o f c l u s t e r a n d c l u s t e r ma n a g e m e n t s y s t e m , a u t h o r d e s i g n a n d i m p l e m e n t t h e o c ms a n d j o b s c h e d u l i n g s u b s y s t e m w h i c h i s t h e c o r e p a r t o f o c ms . k e y w o r d s : c l u s t e r , c l u s t e r ma n a g e m e n t s y s t e m , b r o w s e r / s e r v e r mo d u l e , j o b s c h e d u l i n g , s s i ( s i n g l e s y s t e m i m a g e ) , l o a d b a l a n c i n g m 宁 4 1要 摘要 当 前,基于网络的计 算机技术 ,促进了集群系统的发展和广泛应用。用高 速网 络将高性能工作站或p c按某种结构连接成集群,实现并行计算,只用很 小的花费, 就可以 得到大 型机和并行机的性能:对这些工作站或p c进行管理 的软 件系统就是本文要 研究的 集群管理系统, 而 作业调度技术是集群管理系统 中的关键技术之一。 新一代的 集群 管理系统的 研究与实现技术 是近年来高性能 计算领域的主流研究方向,己推出了许多公用的或商业化的软件和产品。 本 文的 研究 项目 其目 标 是 研 制 一 个 综合 型 的 商 业化 集 群 管 理 系 统 o r ig in c ms ,以 下简称 o c ms ) ,要求该系统除具有一般集群管理和作业调 度系 统的 单一系 统映 像、 分布式操作、 资 源共享、负 载均衡的 特点外, 还应提供良 好的 操作性、高可靠性、可扩充性并能较好的适应气象数值预报计算的特殊要求。 本文反映了作者的主要研究成果,包括以下内容: 一、针对一般集群管理系统的体系结构,提出了一种新的三层b / s结构的 综合型的 集群管理和作业调度系统框架, 具有平台无关, 远程管理等显著优点。 二、以集群管理系统o c ms 的实现为背景,对复杂作业、作业调度、负载 均衡、网络通讯、 可操作性等进行了 较为全面和深入的 研究。 三、作业调度是体现公平对待用户作业,提高系统响应时间,进而提高系 统性能的关键因素。鉴于作业调度在集群管理系统的重要地位, 我们进行了针 对集群系统的作业调度研究,提出并设计了一种实用、稳定、可靠的作业调度 策略,实际应用表明是集群作业调度这一核心问题的较好的解决方案。 四、 解决了气象数值预报计算任务对于作业调度的负载均衡和时效性要求。 本文在深入研究集群及其管理系统的原理和体系结构的基础上,设计和实 现了o c ms集群管理系统及其核心组成部分作业调度子系统。 关键词:集群,集群管理系统,浏览器/ 服务器模式,作业调度,负载均衡, 单一系统映像。 宁 4 1要 摘要 当 前,基于网络的计 算机技术 ,促进了集群系统的发展和广泛应用。用高 速网 络将高性能工作站或p c按某种结构连接成集群,实现并行计算,只用很 小的花费, 就可以 得到大 型机和并行机的性能:对这些工作站或p c进行管理 的软 件系统就是本文要 研究的 集群管理系统, 而 作业调度技术是集群管理系统 中的关键技术之一。 新一代的 集群 管理系统的 研究与实现技术 是近年来高性能 计算领域的主流研究方向,己推出了许多公用的或商业化的软件和产品。 本 文的 研究 项目 其目 标 是 研 制 一 个 综合 型 的 商 业化 集 群 管 理 系 统 o r ig in c ms ,以 下简称 o c ms ) ,要求该系统除具有一般集群管理和作业调 度系 统的 单一系 统映 像、 分布式操作、 资 源共享、负 载均衡的 特点外, 还应提供良 好的 操作性、高可靠性、可扩充性并能较好的适应气象数值预报计算的特殊要求。 本文反映了作者的主要研究成果,包括以下内容: 一、针对一般集群管理系统的体系结构,提出了一种新的三层b / s结构的 综合型的 集群管理和作业调度系统框架, 具有平台无关, 远程管理等显著优点。 二、以集群管理系统o c ms 的实现为背景,对复杂作业、作业调度、负载 均衡、网络通讯、 可操作性等进行了 较为全面和深入的 研究。 三、作业调度是体现公平对待用户作业,提高系统响应时间,进而提高系 统性能的关键因素。鉴于作业调度在集群管理系统的重要地位, 我们进行了针 对集群系统的作业调度研究,提出并设计了一种实用、稳定、可靠的作业调度 策略,实际应用表明是集群作业调度这一核心问题的较好的解决方案。 四、 解决了气象数值预报计算任务对于作业调度的负载均衡和时效性要求。 本文在深入研究集群及其管理系统的原理和体系结构的基础上,设计和实 现了o c ms集群管理系统及其核心组成部分作业调度子系统。 关键词:集群,集群管理系统,浏览器/ 服务器模式,作业调度,负载均衡, 单一系统映像。 前言 法的扩充,强化用户管理:对消息通信机制的改善:基于 b / s 模式进行设计, 加强了通用性; 特别是使用j a v a 技术提高了整个系统的平台无关性、 可移植性、 和可用性。由于整个系统功能改动较大, 在体系结构方面也较前一系统有很大 的变化, 特别是集群管理和作业调度程序几乎是重新进行总体设计。该项目的 第一版己于 2 0 0 5 年 1 月完成并验收。 在实现 o c m s系统的过程中, 作者参与 了部 分总体设计, 并负责 系统的 一些编程,木文的内容将体现作者在该课题中的主要研究和实现工作。 本文的主要工作 1 . 集群及其管理系统的原理和体系结构。 作为实际的 研制工作的 理论 基础, 本文 首先研究了 集群及其管理系统的相 关概念, 并且通过系 统的研究, 总结出 集群管理系统的体系结构,并 讨论了 负 载均衡和单一系统映像技术在集群管理系统中的应用, 为后来的研制工作做好 了王 里 论准备。 2 . o c ms 集群管理系统的设 计与实现 在理论基础的指导下,结合奥利金公司的实际要求,我们研制出了满足高 性能计算的通用性要求, 以 及气象应用特定需求的集群管理系统o c m s ( o r i g i n c l u s t e r ma n a g e m e n t s y s t e m ) 。 基于目 前流行的浏览器/ 服务器模式 ( b / s 模式) 网络应用模式, 我们设计并实现了相应的系统。对基于该模式的集群管理系统 的优缺点,文中也进行了详细的论述。 3 一 作业调度子系统的设计与 实现 作业调度子系统是集群管理系统的核心组成部分, 我们根据集群系统在气 象数值预报计算应用中的实际需要,提出并设计了一种实用、 稳定、可靠的作 业调度策略,并做了具体的编码实现。 本文的主要贡献 本文对b / s 模式的集群管理系统优缺点进行了 分析, 结 合实际应 用的 需要, 提出 了一 种 新 型 的b / s 模 式的 集 群 管 理 系 统 体 系 结 构b r o w s e r s / s e rv e r/ s e rv e r s 结构。 这种结构能够实现集群管理的大部分功能, 并月 由于体系结构的先 进性, 解决了两层或三层 c / s结构的集群管理系统中所存在的不足。 从实现的角度来 讲,这 种结构大大的提高了开 发的效率, 降低了开 发的复杂 性。 定义了 一种用于模块间 通信的 消息机 制。由于 采用了标准的消息 机制,使 我 们开发的o c m s系统在从c / s 模式向b / s 模式转化的过 程中对a g e n t 程序 不用做任何的修改,实现了软件的重用。 提出并设计了一种实用、稳定、可靠的作业调度策略。应用了关系数据库 系统来管理和控制作业调度,具有清晰、规范、全面的优点,可以保证和集群 前言 法的扩充,强化用户管理:对消息通信机制的改善:基于 b / s 模式进行设计, 加强了通用性; 特别是使用j a v a 技术提高了整个系统的平台无关性、 可移植性、 和可用性。由于整个系统功能改动较大, 在体系结构方面也较前一系统有很大 的变化, 特别是集群管理和作业调度程序几乎是重新进行总体设计。该项目的 第一版己于 2 0 0 5 年 1 月完成并验收。 在实现 o c m s系统的过程中, 作者参与 了部 分总体设计, 并负责 系统的 一些编程,木文的内容将体现作者在该课题中的主要研究和实现工作。 本文的主要工作 1 . 集群及其管理系统的原理和体系结构。 作为实际的 研制工作的 理论 基础, 本文 首先研究了 集群及其管理系统的相 关概念, 并且通过系 统的研究, 总结出 集群管理系统的体系结构,并 讨论了 负 载均衡和单一系统映像技术在集群管理系统中的应用, 为后来的研制工作做好 了王 里 论准备。 2 . o c ms 集群管理系统的设 计与实现 在理论基础的指导下,结合奥利金公司的实际要求,我们研制出了满足高 性能计算的通用性要求, 以 及气象应用特定需求的集群管理系统o c m s ( o r i g i n c l u s t e r ma n a g e m e n t s y s t e m ) 。 基于目 前流行的浏览器/ 服务器模式 ( b / s 模式) 网络应用模式, 我们设计并实现了相应的系统。对基于该模式的集群管理系统 的优缺点,文中也进行了详细的论述。 3 一 作业调度子系统的设计与 实现 作业调度子系统是集群管理系统的核心组成部分, 我们根据集群系统在气 象数值预报计算应用中的实际需要,提出并设计了一种实用、 稳定、可靠的作 业调度策略,并做了具体的编码实现。 本文的主要贡献 本文对b / s 模式的集群管理系统优缺点进行了 分析, 结 合实际应 用的 需要, 提出 了一 种 新 型 的b / s 模 式的 集 群 管 理 系 统 体 系 结 构b r o w s e r s / s e rv e r/ s e rv e r s 结构。 这种结构能够实现集群管理的大部分功能, 并月 由于体系结构的先 进性, 解决了两层或三层 c / s结构的集群管理系统中所存在的不足。 从实现的角度来 讲,这 种结构大大的提高了开 发的效率, 降低了开 发的复杂 性。 定义了 一种用于模块间 通信的 消息机 制。由于 采用了标准的消息 机制,使 我 们开发的o c m s系统在从c / s 模式向b / s 模式转化的过 程中对a g e n t 程序 不用做任何的修改,实现了软件的重用。 提出并设计了一种实用、稳定、可靠的作业调度策略。应用了关系数据库 系统来管理和控制作业调度,具有清晰、规范、全面的优点,可以保证和集群 前言 法的扩充,强化用户管理:对消息通信机制的改善:基于 b / s 模式进行设计, 加强了通用性; 特别是使用j a v a 技术提高了整个系统的平台无关性、 可移植性、 和可用性。由于整个系统功能改动较大, 在体系结构方面也较前一系统有很大 的变化, 特别是集群管理和作业调度程序几乎是重新进行总体设计。该项目的 第一版己于 2 0 0 5 年 1 月完成并验收。 在实现 o c m s系统的过程中, 作者参与 了部 分总体设计, 并负责 系统的 一些编程,木文的内容将体现作者在该课题中的主要研究和实现工作。 本文的主要工作 1 . 集群及其管理系统的原理和体系结构。 作为实际的 研制工作的 理论 基础, 本文 首先研究了 集群及其管理系统的相 关概念, 并且通过系 统的研究, 总结出 集群管理系统的体系结构,并 讨论了 负 载均衡和单一系统映像技术在集群管理系统中的应用, 为后来的研制工作做好 了王 里 论准备。 2 . o c ms 集群管理系统的设 计与实现 在理论基础的指导下,结合奥利金公司的实际要求,我们研制出了满足高 性能计算的通用性要求, 以 及气象应用特定需求的集群管理系统o c m s ( o r i g i n c l u s t e r ma n a g e m e n t s y s t e m ) 。 基于目 前流行的浏览器/ 服务器模式 ( b / s 模式) 网络应用模式, 我们设计并实现了相应的系统。对基于该模式的集群管理系统 的优缺点,文中也进行了详细的论述。 3 一 作业调度子系统的设计与 实现 作业调度子系统是集群管理系统的核心组成部分, 我们根据集群系统在气 象数值预报计算应用中的实际需要,提出并设计了一种实用、 稳定、可靠的作 业调度策略,并做了具体的编码实现。 本文的主要贡献 本文对b / s 模式的集群管理系统优缺点进行了 分析, 结 合实际应 用的 需要, 提出 了一 种 新 型 的b / s 模 式的 集 群 管 理 系 统 体 系 结 构b r o w s e r s / s e rv e r/ s e rv e r s 结构。 这种结构能够实现集群管理的大部分功能, 并月 由于体系结构的先 进性, 解决了两层或三层 c / s结构的集群管理系统中所存在的不足。 从实现的角度来 讲,这 种结构大大的提高了开 发的效率, 降低了开 发的复杂 性。 定义了 一种用于模块间 通信的 消息机 制。由于 采用了标准的消息 机制,使 我 们开发的o c m s系统在从c / s 模式向b / s 模式转化的过 程中对a g e n t 程序 不用做任何的修改,实现了软件的重用。 提出并设计了一种实用、稳定、可靠的作业调度策略。应用了关系数据库 系统来管理和控制作业调度,具有清晰、规范、全面的优点,可以保证和集群 管理系统的平滑接口同时, 解决了气象数值预报计算任务对于作业调度的负 载均衡和时效性要求。 本文的组织和安排 全文组织为:前言和五章主体部分 前台 综述本文的项目背景和整体组织 第一章 集群管理系统和作业调度技术研究现状 本章介绍了集群管理系统和作业调度技术的基本原理和研究进 展,并对一些集群管理产品进行了介绍和比较。 第二章 集群管理系统体系结构研究 本章对集群管理系统的体系结构进行剖析,主要说明了集群管理 系统的系统框架,以集群 管理和作业调度为重汽 ,对相关的系 统 结构、 技术特征作分析,并讨论了 负载均衡和单一系 统映像 技术 在 集群管理系统中 的应用。 第三章 集群管理系统的设计与实现 本章描述了 o c ms集群管理系统的总体设计和系统结构,详细讨 论了节点控制子系统和w e b 服务子系 统的设计与实现,并对其中 一些关键技术进行了 讨论,如守护进程、代 理机制、w e b层 服务 器端软件设计 等, 对一 些改 进思路也 加以说 明。 第四章 作业调度子系统的设计与实现 本章是本文最重要部分,也是作者参与实现的主要工作。首先介 绍了作业调度子系统的设计思路和系统数据结构,接着详细说明 了 各个模块的实现过程, 提出了针对气象数值预报训算的作业调 度策略。为形象起见,作者使用了大量的图表描绘该子系统实现。 第五章 总结与展望 本章总结了本文的主要成果,并指出了需进一步完善的工作。 管理系统的平滑接口同时, 解决了气象数值预报计算任务对于作业调度的负 载均衡和时效性要求。 本文的组织和安排 全文组织为:前言和五章主体部分 前台 综述本文的项目背景和整体组织 第一章 集群管理系统和作业调度技术研究现状 本章介绍了集群管理系统和作业调度技术的基本原理和研究进 展,并对一些集群管理产品进行了介绍和比较。 第二章 集群管理系统体系结构研究 本章对集群管理系统的体系结构进行剖析,主要说明了集群管理 系统的系统框架,以集群 管理和作业调度为重汽 ,对相关的系 统 结构、 技术特征作分析,并讨论了 负载均衡和单一系 统映像 技术 在 集群管理系统中 的应用。 第三章 集群管理系统的设计与实现 本章描述了 o c ms集群管理系统的总体设计和系统结构,详细讨 论了节点控制子系统和w e b 服务子系 统的设计与实现,并对其中 一些关键技术进行了 讨论,如守护进程、代 理机制、w e b层 服务 器端软件设计 等, 对一 些改 进思路也 加以说 明。 第四章 作业调度子系统的设计与实现 本章是本文最重要部分,也是作者参与实现的主要工作。首先介 绍了作业调度子系统的设计思路和系统数据结构,接着详细说明 了 各个模块的实现过程, 提出了针对气象数值预报训算的作业调 度策略。为形象起见,作者使用了大量的图表描绘该子系统实现。 第五章 总结与展望 本章总结了本文的主要成果,并指出了需进一步完善的工作。 第一. . 煲群管理系统和作业调度技术9 1 究工 ti a 犬 第一章集群管理系统和作业调度 技术研究现状 同网络管理比较, 集群管理进一步增强了集群的软硬件资源的合理而有效 的利用, 更具有可扩展、 高可用、 分布式的特点, 在网络中充分实现资源管理、 作业调度和负载均衡。本章介绍了集群管理系 统和作业调度技术的基木概念、 特点、研究现状及相关产品。 本章的综述主要为后几章的讨论作理论准备, 并在描绘 一 些知名集群管理 产品的基础上对自行开发的集群管理系统做功能、特点上的参照。全章共分六 节:1 . 1研究背景;1 . 2集群管理系统综述;1. 3集群管理系统的关键技术:1 . 4 作业调度技术综述:1 . 5目前成熟的集群管理系统产品介绍;1 . 6小结奋 1 . 1 . 研究背景 计算机应用从以主机为核心转变到以网络为核心, 导致了集群系统的产生 、 与广泛应用。集群计算机是利用高速通信网络将一组高性能 l 作站或高档 p c 按某种结构连接起来, 在并行程序设计及可视化人机交互集成开发环境支持 f , 统一调 度, 协调处理, 实现高效并 行处理的系 统, 达到大型工作站和并行机的效 果1n 。 但仅仅将工作站 连成网络,并不能 形成 集群,还需要对这些工作站进行 管理的软件系统,这种软件系统就是本文要研究的集群管理系统。 近年来,国外对集群管理系统的研发工作一直很活跃,世界上许多大学和 研究所都开展了对集群计算机系统的研究工作, 并进行了许多应用测试, 结果 表 明 大 量的 并 行 应 用 程 序都 能 在 集群 系 统上 获 得 很 好的 效率 12 1据统 计 美 国 l i v e r m o r e国家实验室9 0 % 的应用问题都能在集群计算机上解决,并且产生了 许多公用的 或商业化的作业管理系统。公用的免费系统如 p b s , c o n d o r , d q s 等是山美国的一些大机构或大学开发的,可以从 工 n t e r n e t七 直接获得它 们的 源代码:商业化的系统由一些软件公司或硬件生产公司为自己的机器 发,如 加拿 大 p i a t t o r 。 公司的l s f . i b m 公司 的l o a d l e v e l e r 等1 4 1 目前国内对集群管理和作业调度系统的研究很少, 相关的产品也 很少。由 于 集群管理系统与 并行计算、 分布式密切相关,国内一 些大 学和研究 机构对作 业调度、网络负载均衡等课题作过一些研究, 但还没有将集群管理系统作为一 个整体的系统研究与实现。本文作者在参与相关集群管理系统的研发过程中, 得以有机会对集群管理系统的结构 与 实现方法进行全面的分析, 从整体上了解 集群管理系统和作业调度的实现方法,并参与了具体集群管理系统的实现。 第一章集群管理系统和作业调度技术明究现状 1 . 2 . 集群管理系统 ( c l u s t e r m a n a g e m e n t s y s t e m)综述 .2 . 1 . 集群系统简介 集群,即将多台同构或异构的计算节点用网络联接起来,使其表现为一个 单一的计算解决方案。 聋拿 一川 聋拿 性能 超级i i 算机系统性价比uv i 线 性能 集群系统性价比曲线 图 1 . 1超级计算机系统和集群系统的性能价格比曲线图 一 个集群系统应该具有以下的几个特点: 1 )高性价比 对于能够提供相同 计算能力的 集群与传统的超级计算机来 说,前者的价格远远低于后者。对于传统的超级计算机来说,性能的 提升意味着价格的急剧上升,而集群系统仅仅需要增加相应的计算节 点,就可以 轻松的获得性能的 提升而不需要大笔的投资。单 机系 统和 集群系统的性价比曲 线如图z . 1 所示。 z ) 资源共享集群系统能有效地支持不同位置的用户对信息和资源 硬 件和软件)的共享。 3 ) 灵活性和可扩展性。集群系统可以增量扩展,并能方便地修改或扩展 系统以适应变化的环境而无需中断其运行。 4 ) 实用性和容错性。依靠存储单元和处理单元的多重性,集群系统具有 在系统出现故障的情况下继续运行的潜力。 5 ) 可伸缩性。集群系统能容易地扩充以包括更多的资源 ( 硬件和软件) 。 集群构成: 一个集群可以由 共同 执行某一 特定作业的任意数月 的组成部分 构成。为了更好地理解本文中的示例集群,下面对一个典型的集群系统作一个 简要概述。 第一章集群管理系统和作业调度技术明究现状 1 . 2 . 集群管理系统 ( c l u s t e r m a n a g e m e n t s y s t e m)综述 .2 . 1 . 集群系统简介 集群,即将多台同构或异构的计算节点用网络联接起来,使其表现为一个 单一的计算解决方案。 聋拿 一川 聋拿 性能 超级i i 算机系统性价比uv i 线 性能 集群系统性价比曲线 图 1 . 1超级计算机系统和集群系统的性能价格比曲线图 一 个集群系统应该具有以下的几个特点: 1 )高性价比 对于能够提供相同 计算能力的 集群与传统的超级计算机来 说,前者的价格远远低于后者。对于传统的超级计算机来说,性能的 提升意味着价格的急剧上升,而集群系统仅仅需要增加相应的计算节 点,就可以 轻松的获得性能的 提升而不需要大笔的投资。单 机系 统和 集群系统的性价比曲 线如图z . 1 所示。 z ) 资源共享集群系统能有效地支持不同位置的用户对信息和资源 硬 件和软件)的共享。 3 ) 灵活性和可扩展性。集群系统可以增量扩展,并能方便地修改或扩展 系统以适应变化的环境而无需中断其运行。 4 ) 实用性和容错性。依靠存储单元和处理单元的多重性,集群系统具有 在系统出现故障的情况下继续运行的潜力。 5 ) 可伸缩性。集群系统能容易地扩充以包括更多的资源 ( 硬件和软件) 。 集群构成: 一个集群可以由 共同 执行某一 特定作业的任意数月 的组成部分 构成。为了更好地理解本文中的示例集群,下面对一个典型的集群系统作一个 简要概述。 第章集r r 管4系统和作业调度技术id t 究现状 管理网络 计算节点 i 一 x w t, - 一 .1,11 i ii 711i _.w., 二 灭 理 二 一二二 cu,a - 一 - - 一 -一 一计 算 网络 图l . 2 个典型集群系 统的结构示意图 集群管理软件在管理节点上运行,为节点管理提供单点控制。管理节点与 计算节点通过 “ 管 理” 网络进行通信, 这是一 个私有网 络, 运行于 e t h l匕 如 图 1 . 2所示。 在管 理节点上有对每个计算节点的定义。 集群管理软 件可 以灵活地定义需要安装到每个计算节点上的应用程序列表。 这同 样也可以 应用 于所需要的高性能计 算系统软件。 安装完计算节 点后, 管 理节点监控计 算节点, 并使用集群管理系统提供的功能来完成对计算节点上软件的更新。 1 . 2 . 2 . 集群管理系统的基本概念 集群管理系统是对整个集群系统进fi i 管理和调度的系统软件, 其主要功能 是统一管理集群系统资源、 管理用户提交的作业,合理给各个作业分配资源从 而确保充分利用集群系统计 算能力并 尽可能 快的得到运算结果 t 1 4 t 简单的说, 集群管理系统实现如下几个部分: 资源管理:为了确保分配给作业合适的资源,集群资源管理需要维护一个 数据 库。 这个数 据库记 录了集群系统中各种资源的属性和 状态、 所有用户提交 的请 求和正 在运行的 作业。 策略管理器根据这些数据和指定的调度策略生成优 先级列表。 资源管理器根 据这个优先级列表调度作业。 资源管理器还应该 具有 资源预留能力。 这样不仅可以保留强大的资源给需要的作业,而且可以预留一 定的 冗余资源以 应付集群中的结点失 效和突发的计算。 作业调度策略管理: 策略管 理器根 据资 源管理器得到各个结点 卜 的资 源状 况和系统的作业信息生成一个优先级列表。 这个列表告诉资源管理器何时在哪 些结点上运行哪个作业。 策略管理器不仅要提供一个复杂的参数集合去定义计 算 环境和作业, 而且要为 这个定义 提供简捷灵 活的表达方式以允 许系 统管理员 实现策略驱动的资源调度。 1 . 2 . 3 . 集群管理系统的 特点 集群管理系统主要有如下特征: 第章集r r 管4系统和作业调度技术id t 究现状 管理网络 计算节点 i 一 x w t, - 一 .1,11 i ii 711i _.w., 二 灭 理 二 一二二 cu,a - 一 - - 一 -一 一计 算 网络 图l . 2 个典型集群系 统的结构示意图 集群管理软件在管理节点上运行,为节点管理提供单点控制。管理节点与 计算节点通过 “ 管 理” 网络进行通信, 这是一 个私有网 络, 运行于 e t h l匕 如 图 1 . 2所示。 在管 理节点上有对每个计算节点的定义。 集群管理软 件可 以灵活地定义需要安装到每个计算节点上的应用程序列表。 这同 样也可以 应用 于所需要的高性能计 算系统软件。 安装完计算节 点后, 管 理节点监控计 算节点, 并使用集群管理系统提供的功能来完成对计算节点上软件的更新。 1 . 2 . 2 . 集群管理系统的基本概念 集群管理系统是对整个集群系统进fi i 管理和调度的系统软件, 其主要功能 是统一管理集群系统资源、 管理用户提交的作业,合理给各个作业分配资源从 而确保充分利用集群系统计 算能力并 尽可能 快的得到运算结果 t 1 4 t 简单的说, 集群管理系统实现如下几个部分: 资源管理:为了确保分配给作业合适的资源,集群资源管理需要维护一个 数据 库。 这个数 据库记 录了集群系统中各种资源的属性和 状态、 所有用户提交 的请 求和正 在运行的 作业。 策略管理器根据这些数据和指定的调度策略生成优 先级列表。 资源管理器根 据这个优先级列表调度作业。 资源管理器还应该 具有 资源预留能力。 这样不仅可以保留强大的资源给需要的作业,而且可以预留一 定的 冗余资源以 应付集群中的结点失 效和突发的计算。 作业调度策略管理: 策略管 理器根 据资 源管理器得到各个结点 卜 的资 源状 况和系统的作业信息生成一个优先级列表。 这个列表告诉资源管理器何时在哪 些结点上运行哪个作业。 策略管理器不仅要提供一个复杂的参数集合去定义计 算 环境和作业, 而且要为 这个定义 提供简捷灵 活的表达方式以允 许系 统管理员 实现策略驱动的资源调度。 1 . 2 . 3 . 集群管理系统的 特点 集群管理系统主要有如下特征: 第章集r r 管4系统和作业调度技术id t 究现状 管理网络 计算节点 i 一 x w t, - 一 .1,11 i ii 711i _.w., 二 灭 理 二 一二二 cu,a - 一 - - 一 -一 一计 算 网络 图l . 2 个典型集群系 统的结构示意图 集群管理软件在管理节点上运行,为节点管理提供单点控制。管理节点与 计算节点通过 “ 管 理” 网络进行通信, 这是一 个私有网 络, 运行于 e t h l匕 如 图 1 . 2所示。 在管 理节点上有对每个计算节点的定义。 集群管理软 件可 以灵活地定义需要安装到每个计算节点上的应用程序列表。 这同 样也可以 应用 于所需要的高性能计 算系统软件。 安装完计算节 点后, 管 理节点监控计 算节点, 并使用集群管理系统提供的功能来完成对计算节点上软件的更新。 1 . 2 . 2 . 集群管理系统的基本概念 集群管理系统是对整个集群系统进fi i 管理和调度的系统软件, 其主要功能 是统一管理集群系统资源、 管理用户提交的作业,合理给各个作业分配资源从 而确保充分利用集群系统计 算能力并 尽可能 快的得到运算结果 t 1 4 t 简单的说, 集群管理系统实现如下几个部分: 资源管理:为了确保分配给作业合适的资源,集群资源管理需要维护一个 数据 库。 这个数 据库记 录了集群系统中各种资源的属性和 状态、 所有用户提交 的请 求和正 在运行的 作业。 策略管理器根据这些数据和指定的调度策略生成优 先级列表。 资源管理器根 据这个优先级列表调度作业。 资源管理器还应该 具有 资源预留能力。 这样不仅可以保留强大的资源给需要的作业,而且可以预留一 定的 冗余资源以 应付集群中的结点失 效和突发的计算。 作业调度策略管理: 策略管 理器根 据资 源管理器得到各个结点 卜 的资 源状 况和系统的作业信息生成一个优先级列表。 这个列表告诉资源管理器何时在哪 些结点上运行哪个作业。 策略管理器不仅要提供一个复杂的参数集合去定义计 算 环境和作业, 而且要为 这个定义 提供简捷灵 活的表达方式以允 许系 统管理员 实现策略驱动的资源调度。 1 . 2 . 3 . 集群管理系统的 特点 集群管理系统主要有如下特征: x一学集群管埋系统和作业a 41 度技术研究规状 .易用性:为所有的资源提供统一的接口,易于配置以满足不同系统的 需求,灵活的作业调度器允许不同系统采用自己的调度策略。 . 移植性:符合 p o s 工 r 1 0 0 3 . 2 标准,可以用于 s h e l l 和批处理等各种环 境。 . 适

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论