(计算机科学与技术专业论文)专用计算集群组环境中作业管理调度系统的设计与实现.pdf_第1页
(计算机科学与技术专业论文)专用计算集群组环境中作业管理调度系统的设计与实现.pdf_第2页
(计算机科学与技术专业论文)专用计算集群组环境中作业管理调度系统的设计与实现.pdf_第3页
(计算机科学与技术专业论文)专用计算集群组环境中作业管理调度系统的设计与实现.pdf_第4页
(计算机科学与技术专业论文)专用计算集群组环境中作业管理调度系统的设计与实现.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机科学与技术专业论文)专用计算集群组环境中作业管理调度系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

豳防科学技术大学研究生院学俄论文 攘要 高性能计算集群系统( h p cc l u 8 t e r ) 具有强大的并行计算能力和规模处理能力,熊 够缓好羹羹灌是各类应鲻嚣求。大糕摸并嚣计篓怒鬃群系统豹雯簧疲震模式,毽是,大羹懿 作业提交与处理也是种较广泛的旋用模式。大凝批作业应用模式下需要暴取一些有针对 性的资源分配和调度策略来优化集群系统资源利用率,这是本文的研究重点。 本文钵对我单位的专用予计算流体力学( c f d ) 批量作业的计算集群组环境下作业调度 露运行效率霞纯离纛努矮研究,圭黉疆究态容惫糕专矮诗舞袋释缮孛终选调发援东、佟救 迁移技术、系统快速备份和恢复技术以及作业掇交管理技术四个方面。我单位计算机系统 由多个专用于c f d 的计算集群系统构成,因而称之为”专用计算集群组”。 为了勰决资源傈辫计划彝作数内存使用效率勰题,终者设计劳实瑗了一套专震懿终渡 调度系统,制订了宥针对性的作煦调度算法,提出了对实际使用内存持续瓷纯的运行终渡 的内存估计值算法。 针对禁群系统之间负载平衡阉题,作者及谍鼷缀研制了繁群系统闯的佟渡迁移管理系 统,实瑷了集嚣缝之瓣缒资源绦薄诗翔霸终整逶:l 霪迁移零l 焉鬃群蕴空瓣资源熬税翻,翻订 了迁移目标比较算法。 该系统采用了p v f s 并行文件系统来提高大靓模集群的i 0 性能。针对影响p v f s 可用 性匏关键阕题,作者掇诞著实现了一静系统快遽器徐和恢复按零。 本文还讨论了基于w e b 豹集群作业提交管毽系统的设计方案。 上述研究成果已得到实际应用,取得良好效果。繁忙期间的系统利用翠从集群系统初 建时的8 0 左右提高到9 5 以上,只要集群系统中有c p u 空闲就不会出现作业排队等德 夔瑗象。 关键司:祭群,调度,w e b ,文俘系统 国耱毒每学技术大学蕃嚣究生院学整论文 a 。b s t r a c t t h eh l ce l u s t e rs y 8 t e mh a sp o 哺e r f u lp a r a l l e lc o m p u t i n ga n d1 8 r g e s e a 王eb a t c h e o 麓p 娃t i n ga b i l i t y 零h u s ,i te a 珏摊e e t ¥a r i o u s8 p p l i e 8 t i o nr e u i r e 毽e n t s l a r 誊e s o a i e p a r a l l e lc o m p u t a t i o ni sm a i nm o d e lo fc l u s t e r b a s e da p p l i c a t i o n s a tt h es a m et i m e , l a r g e s c a l eb a t c hc o m p u t a t i o na l s o i sa ni m p o r t a n tm o d e lo fc l u s t e r b a s e d a p p l i c a t i o n s w h e nal o to fj o b sa r es u b m i t t e dt oc l u s t e r 8 , s p e c i a lr e s o u r c e a l l o c 8 t i o na n ds c h e d u l i n gp o l i c i e sn e e dt ob ei 那p l e m e n t e df o rs y s t e mo p t i m i z a t i o n 。 l 囊ep 2 哆e rf o e 鞋s e so nt h i ss u b 三e c t 。 t h i sp a p e rr e s e a r c h e st h eo p t i m i z a t i o no fj o bs c h e d u l i n ga n dr u n n i n g e f f i c i o n c yi nt h es p e c i a lm u l t i c l u s t e re n v i r o n m e n tf o rc f d , a n dd i s c u s s e st h e t e c h n i q u e so fj o bs c h e d u l i n g ,j o bm i g r a t i o n , f i l es y s t e mb a c k u pa n dr e s t o r a t i o n a sw e l la s w e b b a s e dj o bs u b m i t t i n g t h ec o m p u t e rs y s y t e mi nm yu n i tc o n s i s t s o f8g r o u po fe o 器u t i 鞋ge l u s t e r s ,馘di 乞i se a l l e 矗t l es p e c 氮基le l u s t e rg r o 鞋p f o rt h ep r o b l e 孺so fr e s o u r c er e s e r v i h gp l a na n d 瑶e 豫o r yu s ee f f i e i e n c y ,t h e a u t h o rd e s i g n sa n di m p l e m e n t saj o bs c h e d u l i n gs y s t e mw i t hd o d i c a t e dj o bs c h e d u l i n g a l g o r i t h m ,a n dp u t sf o r w a r das p e c i a la l g o r i t h mt oe s t i m a t et h em e o r yu s a g ev a l u e o ft h ej o b sw h o s em e m o r yu s a g ea r ec h a n g i n gc o n t i n u e s l y f o rt h ep r o b l e m so f1 0 8 db a l a n e eb e t 鬻e e nc l u s t e r s ,t h ea u t b o ra n dh 主sr e $ e 眨e h t e a 臻b u i l daj o b 噩i g r a t i o nn l a n a g e 瑾e f l ts y s t mw h i e h 主s8 b 王et ow o r 圭【w i t hd e d i c a 专e d j o bs c h e d u l i n gs y s t e mo fe v e r yc l u s t e r ,s e tu pt h em u l t i c l u 8 t e rr e s o u r c er e s e r v i n g p l a na n dt h em e c h a n i s mt oe n a b l ej o b st ou t i l i z et h ei d l er e s o u r c e si nw h 0 1 ec l u s t e r g r o u pb ym i g r a t i n g ,a n df o r m u l a t e saa 1 9 0 r i t h mt oc o m p a r em i g r a t i n gd e s t i n a t i o n s t h es y s t e ms e l e c t st h ep 、节s p a r a l l e l f i l e s y s t e i l 】 t oi n e r e a s et h e王o p e r r 融8 n o eo f1 8 r g e s c 8 量ee l 珏s t e r s t os o l v et 囊e 受e yp r o b i e 掇st h 8 tb r i n g 圭。轷t 歉e a v a i 王a b i l i t yo fp v f s ,t h ea u t h o rp r o p o s e sa no r i g i n a lt e c h n i q u et or a p i d l yb a c k u p a n dr e s t o r et h ef il es y s t e m t h i 8p a p e ra l s oi n t r o d u c e st h ed e s i g no ft h ew e b b a s o dj o bs u b m i t t i n ga n d m a n a g e m e n ts y s t e m 羊h e8 b o v er e s e 8 r c hr e s 毽l t s8 r e 驻s e d 量琏孺yu n i t ,8 n dg e tag o o de f f 毫e t 。袁t 专h e b u s yt 叠融e , t h eu t i l i z a t i o no ft h es y s t e mr e s o u r c e si n c r e a s e sf r o mn e a r l y8 ( 糯t o 9 5 o ru p ,a n dt h e r ei sn oj o bq u e u i n gp r o b l e mw h e no n eo rm o r ec p u sa r ei d l e k e yw o r d s :c l u s t e r ,s c h e d u l e ,m i g r a t i o n , f i1 es y s t e m i i 国防科学技术大学研究生院学位论文 图目录 图卜lc f d 集群组基本组成结构示意图2 图卜2c p u 进程数量与计算性能的关系4 图2 一lp v f s 基本逻辑结构图1 5 图3 一l 专用调度系统与其它系统的关系示意图1 8 图3 2 基于实际内存量的作业节点分配算法效果示例2 2 图3 3 基于资源计划的抢占策略效果示例2 3 图3 4 根据内存大小调整作业运行节点效果示例2 4 图3 5 各类计算程序的实际使用内存量动态取样2 8 图3 6 同类程序群发方式下内存分配算法测试的作业等待数量分布比较3 7 图4 一l 作业迁移简要处理流程4 5 图4 2 作业结果回传简要处理流程4 5 图4 3 迁移模块之间协作运行关系示意图4 6 图5 2p v f s 系统恢复流程5 6 图5 3 几种备份方法的速率测试5 7 图5 4p v f s 文件系统效能测试5 8 图6 一1w e b 作业提交管理系统分层逻辑结构示意图6 1 图6 2 数据请求模型示意图6 2 图6 3 执行用户目录文件操作的基本实现方法6 4 图6 4 通过浏览器上传生成的目录结构示意图6 4 图6 5 作业提交生成的目录结构示意图6 6 i v 国防科学投术大学研究生院学位论文 表目录 表1 一l 作业内存分配方法简例l 7 表l 一2 髂业内存分瓣方法蕊锲2 。7 表3 一l 随机方式豹内存分配算法测试结采 k 较3 5 表3 2 同类程序群发方式下内存分配算法测试的作业等待数量平均值比较3 7 表3 3 不同内存估计方法产生的内存交换时间段比例。3 9 v 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目:童周j 簋塞叠塑巫撞生堡些筻望翅鏖盘红煎遮让生塞丑 学位论文作者签名:主邀日期:2 一口弦2 月,g 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:童用盐簋篡叠塑竖境生丝些董里通廑丞统曲遮盐生塞墨 学位论文作者签名 作者指导教师签名 日期:彬纠月多日 b 期:2 眙 年z 冠f 6 强 翻防科学技术大学研究生院学位论文 第一章绪论 l 。l 课题研究背景 1 _ 1 - 1 超级计算机体系结构的发展过裰和趋势 经过多年的发展,怒缀计算裁懿体系结构经历了荜抚、多壤、大趣模弊褥狃直至霹传 缩荠行巍鹣变纯。8 0 年代扔期,随蕊札s i 技术帮微处理器静技术的发震,翔量租一统天 下的格局逐渐被打破。濑过多个廉价的微处理器构建的并行化超级计算机首先从成本上具 有了无可比拟的优势。“性能价格比”成为衡量商性能计算机系统的重要攒标。1 9 9 0 年 找褪蘩,大援模著孬楚瑗( 麓弹) 系绫琵经舞始残为离毪毙诗雾凝发震静主流。鞋糟主要塞 多个微处理器通过高速蕊联网络构成,每个处理器之间通过消息传递的方式进行通讯和协 调。较m p p 早几年问世的对称多处理机s m p 系统,是由数目相对较少的微处联器共享物理 内存和i o 憨线形成躲计算机系统,w 以被认为是攀枫系统的丹级与增强。耱辨p 相比, 草籁静s 醚p 扩展能力有隈,并不其露缀强静计算黥力。毽由予s 淞与单辊系统兼容性好, 可编程性强,被广泛应用于商业计算领域。1 9 9 0 年代中后期的一种趋势是将s m p 的可编稷 性优点和m p p 的扩展能力结合起来,这一趋势发展成后来的c c n i j 姒结构,即分布式共享 疼存。诲多入试秀这耱终秘是当蘩越缀诗冀秘磅毒l 发浸夔主要方舞。每令楚溪器蔑点都 以访问到所有其它节点的内存,但访问远程内存需器的延迟相对较大。 近年来,分布式的计算集群系统( c l u s t e r ,又译作群集、机群) 也迅逋发展起来。 类似m p p 络梭,集群系绫是由多个微处理器构成的计算枫节点避过赢速嬲络蠢连面成。节 点一般是可叛擎独运嚣豹裔品纯诗算梳。整个集瓣对务帮来说稠警于一台辩 潲并行楚遴 机系统。寨群系统有着s m p 结构无法比拟的高度可扩充性,其肖比m p p 更高的性能价格 比优势,可继承现有软硬件资源,开发和投入使用的周期短。因此,其发展势头非常迅猛。 簸发疑憝势看毒懿鼗型霆受开发费震越来越懿释痤罴要求袋懿原嚣基经逐滤成为浆 些领域的专用机,面性价比高、应用需求适应面广的结构辊型粥能够保持很好的发展势头, 在超级计算机t o p 5 0 0 列液中占的比例越来越大。据最新统计,t o p 5 0 0 中c 1 u s t e r 占6 0 以上n 儿”。 第1 页 国防科学技术大学研究生院学位论文 1 1 。2 课题研究的基本环境和应用特点9 1 基本软硬件环境 我单德计算中心谯设备建设过裰申,主力计冀设各经历了从大型主杌、专用工作站、 s 蹬结梅鹣多处理器鼹务器、徽懿群鄹现在的分蠢筑集群结秘诗算系统酶转交。近年来, 随着应用需求的发展和投入的增加,融经配置了多套较大规模的h p c 集群,膨成了在一个 局域网范围内的专用计搏集群组。今后还将进一步地增加集群系统的数量和处理能力。 如匿l l 所示,在本课题研究故黎群组应用环境中,每套祭群有数+ 至数吞个i n t e l 双处理器弼驻务器,裔独立豹内部羝联弼络窥文 串存储系统。集群之阕逶邋夕 都静蜀域 网络连接。使用集群的具体应用是计算流体力学( c f d ) 的研究和型号计算任务。在此将 本文研究、测试和开发的具体集群应用环境简称为c f d 集群或c f d 集群组。 燕群系筑l 黎臻系统n 图1 1c f d 集群组基本组成结构示意图 在e 瓣嶷群审大多露三类虽务器繁点:计算蕊熹、管毽节感秘存德节点。 计算节点是集群系统的核心,主骚执行计算镊务。计算节点通过主板上熊成豹暇务楚 理器接受管理节点的集中管理。同时,通过作业调度系统接受分稿已的任务。黛群中的计算 节点都是溅成员,它们不与外界交互。 警鬈繁熹是集饕鹣羧潮台嚣霹努熬霹关。它的一夺基本功憝楚可囱它节杰目薅发窭上 第2 页 国| 游科学技术大学研究生院学位论文 下电、状态查询等各种控制命令。用户电通过管理节点编译源程序并向集群掇交任务,而 该节点上憨终韭管理嚣旋漯谖度软传受责处理终数在诗算节点中靛分配。勇外,管理节点 还承担计簿节赢的系统朔软件安装任务,提供集释工具软件资源基享,提供d 骶p 、d n s 、 n f s 等服务。 存储节点通过s c s i 或专用光纾接口连接大容爨的磁盘阵列并通过n f s 网络文件系统 把磁盘箨翔瓣存褚空窝黎率给管理带惑释瘿毒计算第熹篌霜。蠢鹃集群辛管瑷萤点羧务器 兼作存储节点而直接连狲磁盘阵列上嘲。 一各类带点的操作系统为r e d a tl i n u x8 o 一9 o 。各个集群系统在建焱时都安装了 e n p b s 爨源管理器,冀中一骞5 分安装了池u i 调魔器。 2 c f d 计算应用环境对集群系统的使用方式和特点 在本攀往集嚣豹实鼯痰震繇襞孛,骞诲多大麓簇憨墼号诗箕任务。这些鼹务包含了一 大批不同静计算状态。往往一个相两的计算程序要处理很多由参数文件规定豹计算状态。 因此用户把备种计算参数文件和执行稷序文件组合复制到不同目添下,然后猩各个c p u 上 分另4 运行。这些计算进程也间在运行时没有通信联系,它 f 】之阕的关系可能程结果数据中 钵瑗窭来。在一些莠霞诗簿技术戆文献上将这秘方舞:稳为大粒发静任务并行、数据并行或 者大规模作她群( m a s s i v ej o b s ) 。从分布式计算资源的使用方式上它属于串行的单进程 计算。虽然今后会进一步发展 i p i 和p v m 的并行计算应用,但由于符合本单位日前实际需 葵,霹蔫移今器一段对阗大篾摸戆串程谤葬餐会是囊滚。一般来说,在集群这耪鏊予p i p 协议的分布式计算环境中,使用静i 、p 瑚等消息传递枫制编程静并行计算应用最为普遍。 这是解决一魑复杂科学计算问题的必疆方法。采用消息传递的并行计算的效率取决于消息 通信网络的憔能和完成备个并行子任务的处理器性熊之闯的负载平衡。s s i v e 如b s 方式 熬簿楚是蘩体使震效率麓,盔予没有邋痿开镑,霹e 黯豹穰霭率霹戳一壹保掩在接近瀵受 荷的水平。可以预料,这种串行程序的舰模处理方斌在本单位和许多符合应用实际的需要 的领域里还会长期存在发展。 除鼗之终本单位豹计算应是还考一些其它特意。褒菜些运行少数专震诗冀程彦鳇集群 计算应露方式不丽,e 鞠窳群中的使用集群的用户相对较多,有髑于型号计算任务和计算 方法研究的备类不同程序。各类计算穰序的内存需求最差别较大。由于精度和网格划分的 不同,有的稷序只需要十几兆内存,有的则接近2 g b ,将来在设铸条件允许盼滤嚣下对嚏 寤豹要求还会更毫。各耱诗算程旁运冀簿凌差鬻氆较大。畜戆程黪是需要l 屹拳l l 孛,畜豹 程序则可能落行数天甚至一个月以上。许多计算程序属于c p u 密集型,计算采用叠代方式 得到最终结果,中间结果定期存盘,备兴程序写盘的数据量从几十兆到数百兆不等。由于 集群的节点艘模较大,总熬写盘数据爨窍较大援模。瞧专一部分类型懿程序嚣瓣连续酶络 果输出,i 。数据量魄一般e p u 密集黧瀚程序相对鬣丈一些。宙予e f d 计算任务对计算机 第3 页 豳防科学技术大学研究生院学位论文 设备资源鹣需求一鸯簌不繇瑶长,鬻鼗集群系缓诗算资源薅予寝瘸来说慧蹩菲零紧张懿。 许多计算任务数量大,时间长,而且要求时间紧迫,必须保诫在规定时间内完成。对使用 集群的资源的数量通常需要由管理部门掌握控制。 1 1 3 影响作监运行帮鬃群使籍效率静裙关两戆分析 1 串行你业对s m p 服务器节点c p u 使用方式的选择 在集群系统应用环境中,如何让大批量的率行计算程序能够更高效地熬举使用相对紧 张的处理器资源是值得考虑的问题。资源管理和调度系统本囊的一个主要功能是保持一个 计算集群上各个节点和处理器上的负载平赞;嚣北支持一个她理器上同时逡季亍多个计冀遴 程。实瑷方法是定义萦照受载指标。如:一葭辩瓣志静运行驮弼长度、e w 程趸率、空潮 时间、礞面交换率、可用交换空间替,然后根据算法将排队的作业分配到负载最轻的节点 上运行。但是由于节点的操作系统娶对运行的多道进程进行处理器的分时调度和页面燮 挟,霉要考虑楚理器逡缮夔送程数爨对各令进纛瓣工终效率禳诗雾妊务基谤完残野翘熬影 响。 图1 2 是在不同的服务器设备和处理器环境下用相同的c f d 典型计算程序进行测试 得到的进程数量和作她平均完成速发的关系( 程廖内存使用总和不超过物联内存) 。其中, s e r ¥e r l 楚s u p e r 滋c r o 濂务器,酝蓬嚣个x e o n2 8 g l ze 瓣。s e r v e r 2 为i 糯x 3 3 5 联务 器,配鬣两个x e o n2 4 g h zc p u 。s e r v e r 3 为i b m3 4 2 服务器,配置两个p h i1 4 g h zc p u 。 s e r v e r 4 为i b m3 3 0 服务器,配置两个p m1 1 3 g h zc p u 。 图1 2c p u 进程数量与计算性能的关系 蘩4 趸 圈防科学技术大学研究生院学位论文 麸鬻l 一2 孛哥 三l 餐密,在每c p u 运行2 3 个避程薅,总傣究成瞧l 逐蒸本上没有下辩。 但运行越过4 5 个进程时则性能鼹著下降。 让个处理器运行多道计算进程是使用大型主机的传统模式,其目的怒让每个用户都 商健霜计算资源豹公乎极会。毽在掬蠢丈魏摸诗箨节点魏集耧环境中,每个终监在一定瓣 时阊之内一般都能够获得运行的处理器资源。戮此在本文的蘩群作业管理环境中应设法使 每个集群计算节点的c p u 同时只运行个串行作业。这种方式一方面是为了让每个作业获 缛最高的作业处理性熊,另一方面也是为了更使予管理调度的需要。 2 串行作业提交方式的选择 p b s 的用户接口撼供两种作业提交方式:交换式作业提交释脚本式作她提交。在交艇 式孛# 遵方式下霞户努簇先串请猹占诗算节熹,鬟袋鬟分配豹节点后可鞋鸯溉缝透过p 赘禽 令提交作业。在用户肖特殊需求时用交互式方式比较适合。但是,根据使用经验在一般情 况下交甄式方式有以下弱点:在提交大规模串行程序计算任务时用户使用不太方便; 在震要怼佟监孛豹菜臻诗雾进程进行重蓑谡整调发霹不灵活;逶过羁终嚣最静窖户蠛炭 机不能关闭或与集群系统断线;无法使用最蒸本的排队帆制,难 奠避兔和处理某冀鹰 户占用大邋系统节点资源而不使用从而降低整个系统使用效率的常见现象。 用户_ 歼始使用p b s 提交串行佟败时常常按计算节点数量交亘式地申请计算资源,然藤 按爨虿疆豹分弱登录戮各个苇熹上遮行撬孬程謦。蠢魏一个传蔓羹惫含7 农不同节患j 耱 c p u 上运行的多道串行程序。但由于p b s 和m a u i 是按作业为调度单位的,因此作业中的 任何一个进程未结束时作业所占资源无法释放给其它作业使用。即使是每个作业只申请一 个计算节悫,在苓点援骞嚣令班上c p 轻对,也必须等待节点上戆e 弼垒部系耀才能器放熬 个节点浇源。因为各个迸程很难同步结束,这种使用资源的方式造成的浪费常常是穰可蕊 的。 在脚本作业方式下用户通过一个专用的p b s 脚本申请所需数量的资源并指定执行的 程旁。懿莱哭运行一个槎痔,霹熬必申请一个e p l j 。毽由予黎簧掌握雯多静p 8 s 系统舞浚 和一些脚本语法规则,而且串行作北批量大时用户自己要反簸编写和修改脚本,这也是比 较烦琐的正作。 在粲瓣强凌下运行串行程序应必每个串雩亍程序孛请一个c p u 睾是资源管理器豹一个 作韭。这样在调度上鸯最大的灵活住,也能获褥簸高的集群资源使用效率。为弓l 导餍户使 用这种更加合理的资源申请和调度方式,集群系绕中应该建立自动组成单c p u 作业的用户 接口管理和相应的管瑷调度策略。 第5 燹 国防科学技术大学研究生院学位论文 3 紧迫性计算任务的资源保障和使用效率问题 c f d 集群中运行的许多程序进行的是与空气动力有关的产品型号任务的计算。和一般 进行理论研究的计算任务不同,这些型号任务紧迫性要求高,在规定的时间内必须保证完 成,而且需要使用集群处理器资源的数量大。事实上很多情况下集群上的大多数用户都是 在从事型号任务计算,常常感到处理器资源不够用。计划管理部门通常要在各个任务之间 进行资源的统一协调分配,以便较为准确地掌握各任务的完成时间。参与重要型号的用户 先要提出计算任务所需要的处理器数目和使用时间。管理部门对任务的规模进行统一的权 衡比较,一般在规定的时间对用户的申请进行审核和批复。因此在c f d 集群组环境中集群 资源分配要求有较强的计划性。集群管理系统应该以管理部门对资源的批准数目表为基准 对计算任务和作业进行统一调度,保证特定项目的用户能够在一定的时间段内随时得到批 准数目的处理器资源。 但是,根据集群实际使用的观测,由于各种原因,用户对计划分配的资源的使用常常 有不充分的情况。如果简单按用户限制处理器数量,有约1 0 一2 0 的处理器资源在不同 时间段内处于空闲而其它用户无法利用。原因有几个方面:在申请的时间段内任务已经完 成;用户对其计算任务的完成时间的预估有偏差;作业出错退出;等待分析中间结果;计 算作业尚未准备好:等等。由于处理器本身属于长期紧张的资源,因此而造成的浪费就十 分可惜,需要尽量避免。应该在用户对计划给自己的处理器暂时没有使用时鼓励其它用户 使用这一宝贵资源,提高整个集群的使用效率。 4 计算节点的内存分配和使用对系统效率的影响问题 本文所述的集群系统的计算节点是配置两个c p u 的服务器。如果服务器上运行的两个 计算作业进程使用的内存加上其它系统进程的虚拟内存总量超过物理内存则会引起到磁 盘交换区进行页面交换。在这种情况下计算作业的执行效率将会大大下降。据观测,只要 交换数据超过一定大小,计算程序的c p u 利用率可能从百分之九十多下降到百分之十几甚 至百分之几。这种情况应该尽量避免。在c f d 计算这种大内存的作业占有较高比例的集群 应用环境下,这样的问题对整体效率的影响不可忽略。 如果作业按节点申请资源,则一个用户会在可能的情况下自己挑选合适内存大小的两 个程序在节点上进行搭配,否则就只能在节点上运行一个程序,让一个c p u 空闲。这也是 按节点申请资源的缺点之一。而在用户的串行程序使用单c p u 申请作业时,则可能不同用 户的作业在同一个节点上运行。如果忽略内存因素随机地为各个作业分配节点,则产生内 存超量的概率随着大内存作业的增多会明显上升。 p b s 提供用户在提交作业时根据估计先申请一定大小的内存的选项,只给用户作业分 配满足内存需要的节点c p u 资源。当一个作业要分配到一个已经有另外一个作业在运行的 第6 页 星麓释学技术大学硬宠生茨学垃谂文 节点时,检查两个作业的申淆内存之和如果大予物理内存则不分黼,以避免内存超璧现象 的发擞。 但是,可能有各种因索使用户对自己的程序需要使用的内存估计并不准确。一个濑要 的因豢是,一个程序对晦襻的使露在运行期阉是动态变化的。根据鼹测在c f d 集群中许多 幸# 堑骥矮蠹存熬交琵疆爱穰鹭夫( 营囊溅蘩一麓箨盈占廷秘理内移在吾分之卡屁至甏分之 七十凡之闽变纯) 。用户的内存估计窥实际德w 能差距很大。 另外,由于各个用户糕序使用内存量的麓别较大,因此可能会阑为各串行作业占用节 点内存的组合搭配方式而引起大内存作业无法获得内存资源而排队簿待。 例:假设有两个节点物理内存均为l g b ,肖4 个串行作业内稃分别为3 0 0 、4 0 0 、5 窝6 e o 瀚,瑟虽按壶小到大豹走螽蹶痔提交翻这嚣个节点上。如袋蔽表i l 方式分戴终照 运行鞠节杰,薅最后6 0 酬b 内存的作韭因为节患2 空余内存不能满足霈要两只能排酞等待。 表1 1 作业内存分配方法简例1 作业l 内存作业2 内存 节点l 3 0 0 4 0 0 节点25 0 0 德如果按照表卜2 的方式分配作业,刚4 个作业都可戳运行。 表1 - 2 作业内存分配方法简例2 l 作业l 内存作业2 内存 i节点l 3 0 06 e o 节熹2 4 0 0 5 0 0 阂此集群中作业的分配存在因内存大小的优化组合的问题。现有的作业调度器针对这 种情况的调度策略还不是很优化,在大内存作舭较多的情况下,出现作业因此而排队等待 的现象也会随之增多。 5 。多爨辩丽缓下资滚熬窖效秘滔淹题 在c f d 集群组环境中的锫个集群系统配备单独的内部网络和存储系统,运行各自的管 理调度器并拥有各自的用户群组成相互独立的计簿环境。各集群的计算任务的性质也不尽 相同。霄鲍主要从事型号计算,有的更多用予邀论研究。有的基本上是串行作业,有的还 骞一定数爨懿势行诗算。献凝褰一层戆系绞蛰联器,各集群之瓣露在饪务嘉求窝繁姣疆 度不均麓现象,这秘负载驰不均衡是动态的。慧在下班辩阕和夜瀚,经常出现一边有诲多 空闲节点和c p u ,另一边则队列中有长长的一火批等待运行的作娥。因此需要考虑如何充 分发挥熬群组环境的整体效能的问题。 第7 煲 嗣防科学技术大学研巍生豌学位论文 6 集群存储系统的i o 对运行效率的影响问题 集释系统的计算秣麓一方面取决予e 雕、连存和两络性髓,另一方面也和磁盘i o 、 文件系统的性能相关。对于本文的威用环境而言,由于初始采用了n f s 作为备个计算节点 对集中磁擞阵列进行数据共享的瞬络文件系统,火黯的串行作妲需要对磁盘阵列进行读冀 攥终,这耱壤凝透露院虢势行诗算旁童懿;| :凌下瓣磁盘熬i 内数据量受丈,笼其是写盎掇 作还是相濑密集的。如果i 0 性能不理想,各个计算节点上的作业由于不能及时将数据鹭 到磁盘上,将处于等待状态而不能继续使用c p u ,并且可能影响到作业调度性能和效果, 造戏整个集嚣健用效率黥极大降低。黻梵,嚣要磷究优化集群系统i 内性趁豹方法。 1 2 课题研究的目的和意义 l 。2 。l 对搅蠢裕壁完残效率戆分辑 用户将一个作业提交到计算系统上,最关心的就是作业在多少时问内能够完成。在 集群系统孛,设作业完成的总时闯必t ,作业的实琢e p u 时闯为t e ,在资源队列中等待的 薅瘸为秘,等待i 内静辩闰菇t i o ,系统疆度鲶攥开镶为零s ,作盈颈签理等待露阕为殛 ( 包括未投入集群系统黼的时间) 。廒有如下表达式: t = t c + t w + t i o + t s + t p 显然,诗算终监黪t e 要求对于相同处理嚣楚一定的,邋道改善集群软硬传强境可熊 猿少螽嚣4 项薅闽静餐。 在本文的应用环境中,一个型号计算项目需要处理大批量的计算作业,遗些作业属于 某个单一系统用户。项目的完成时间可以计算为从提交项目中第一个作业开始至最后的作 整完成黪瓣隔对阕。完成一令诗算任务豹过程是纛瘸户来掌握戆,毽集嚣静诞度系统罴要 保证特定髑户在一个酚段肉豹处理器骚源,还应该尽量利用集躲藏集群缀范潮静一切可利 用资源办法处理更多的计算程序( 作她) ,同时使每个作业的完成时间尽量缩短。 为达到遮一日的,在队列中有作娥排队时应该使集群组范围内的空闲c p u 的数目最小 证。或毒说,在集婺缀藏爨肉毒空鬻e 鞠眩应使务令集群斡撄驮终整数曩簸,l 、证。墓之, 可以妇结为提高集群维肉总的的e p u 资源利用率。考虑到各节点c p u 性能困索,资源利用 率可以表示为: # x 酗,( 黝舶 h 其中t m l 是选取的一段墙上时间,p i 是各c p u 的性能系数,t c ,是在选取的墙上时间 范围内各个c p u 的实际计算时间,n 怒集群节点数。 第8 页 强防科学技术大学研究生院学位论文 1 2 3 课题基本目标和完成的主要任务 j | 冀上奄应用特点脊篾的一系列实际闯题综合起来对整个集群组计算环境瓷源的有效 使用产生了较大的影响。因此,本课题从作业调艘和迁移策略、文件系统、作业提交管理 等几个方蕊对优化集群系统资源使用效率的方法进行研究。课题的基本目标怒通过研究工 终为用户建立更热嚣效秘便楚戆集嚣诗冀嚣境,城少姿添渡费,缩短鬣量嚣舞任务熬宠袋 时间,最大限度地发挥大规模h p c 集群系统对c f d 计算的推动作用。 通过对相关技术的研究我们认为,仅通过集群系统上初装的集群管理软件还不能有效 地解决以上闻题,一些通用软件的用途还不太适会c f d 集群作般管理和调度方式的实际需 要,骞熬公舞鼓拳资耱会绍懿方法在本擎氆应恁醛麓孛经趸还瓣要改进。 因 i l :,本课题完成了以下几个方丽的工作: 1 制订了适合实际威用需求的集群作业调度管理策略并设计开发了专用集群作业调度 系统。 2 。磺究了多令集嚣之阍懿律盈迁移豹策略并编制了专用季# 煦迁移管理系绞。 3 研究了使用并行文件系统提高繁群i 0 性能的关键技术,并提出了p v f s 并行文件系 统的快速备份的实用方法,保证了系统的安全可用性。 4 。编制了适合处理批象作业懿臀e b 赛露终韭提交管理系统。 1 3 论文组织 第一豢缝论。奔缀深题磅究鸳豢、课题完成麓工终数及鋈戆意义。 第二率相关技术研究。介绍裳群相关技术戮及一些通用集群软件系统的特点。 第三章专用集群作业调度研究。介绍了针对应用特点开发的专用集群作业调度的功 能特点和实现方法,提出了基于资源分配计划和作般内存大小的作业调度策略算法帮运行 律翌内存魏计篷算法,铮鼯葵墅实翻送行了算法静貘羧溺试。 第四章专用集群组内作业迁移技术研究。介绍了多集群之间作业迁移管理系统的功 能特点,确定了集群组资源分配计划方式,提出了作业迁移策略和迁移目标选择算法,介 缨7 迂移管壤系统中足今荧链模块黪懑信豁终滚程。 第五章集群文件系统和数据备份实露技术研究。分析了影响p v f s 并彳亍义件系统可粥 性的关键问题,提出了一种实现p v f s 企系统快速锯份的独到方法,介绍了程系统运行期 间进行各份和快速恢复的策略,对备份方法的效果鄹文件系统性能进行了测试。 第六豢专矮集嚣铬照疆交方法磷究。奔绥了镑对懿量终激提交方式特熹汗发匏专溺 集群作业提交管理系统的主要功能和关键技术特点。 第七章结束语。j 寸课题完成的工作进行了简短总结,提出了对集群应用环境进一步 磺究和改遂骢方自。 第9 页 国防科学技术大学研究生院学彼论文 第二牵耱关技术研究 2 1 高性隧计算集群技术发展概况 b e o 醐1 f 是最早发展起来的一种能够将多台计算机用于并行计算的体系结构。通常 b e o w u l f 系统由通过以太网或其他网络连接的多个计算节点和锗理节点构成。它使用的是 常见的硬传设备,象蓄邋p c 、跌太网卡葶珏集线器,缀少使建特别定制兹硬件翻特殊的设备, 却获得了徽好熬性藐m w 。 在b e o w u l f 集群成功应用和发展的基础上,网内外厂商开发了大量的专用集群系统, 它们的特点是采用b e 0 1 w u l f 类似结构和流行的操作系统( l i n “x 、w i n d o w s 簿) 以及集群 警理调度较终,毽圭极强嚣套设备翡疆建专门设诗鞫生产。热:1 8 鹾、垂强、静、s g i 譬 美国大公弼推出了各自的系列产品。瀚内的曙光、联想、浪潮等公司加入了集群系统的研 发角逐,都已有一系列产品问世。 离性能计算集群跫缀经历了多攀的发展历程,软硬件的穗必技术褥到了很大的发展。 蠢蘸集群技零方面蘸磷究热点包括:集群产品硬 串结构窝设备黪理、高速专蠲网络、集群 作业管理和调度、集群存储和文件系统、并行计算方法、网格计算,等等。 2 。2 集群管璎软箨 集群繇统的组织和锗理核心是作业管理调度祭统软件。它可以根据用户的需求,统一 管理和调度嶷群的软硬件资源,保证用户作业公乎念理地共享集群资源,提离系统利用搴 蟊吞蛙率。集群俸整警壤系统是裔校麓计算藏领域辑究豹一个主要燕点。蠢经懑瑷了诲多 种软件,它们在目标、络构、功能和窝现上各有千秋,从不同倒面反映了集群作业管理系 统所应具备的特性。到目前为止还缺少一个完整的评价体系来评价这些系统。 下垂分裂分缨且静其蠢代表瞧嵇影璃力鳃集群铭监管理系绕熬基本动g 黪点。 2 2 1 集群篱理商业软件 负载共事软件l s f 是由加拿大平台计算公司研制与开发的,由t o r o n t o 大学开发的 u t o p i 8 系统发展丽来。l s f 不仅用于秘学计算,也用于企业的攀务处理。功能上,除了 教翡雩# 塑管惩特往韩,窀还在受载警麓、系统容锈、检查点撩僚、进程迁移等方嚣 睾了缓 第1 0 页 国防科学技术大学研究生院学位论文 好的努力。 l s f 的主要特点是:支持多种操作系统,包括w i n d o w s 。支持检查点操作( 核心级、 用户级及应用程序级) 和进程迁移;具有高可用性,消除单一故障点。提供了抢占式调度 和关键资源保障,保证紧急作业的调度。提供对依赖性作业的支持:提供了多种调度策略, 包括r e s e r v a t i o n 和b a c k f i l l 。动态的负载平衡与负载监测,负载指标包括节点状态、运 行队列长度、c p u 利用率、分页速率、登录用户数、空闲时间、可用交换空间、可用存贮 器、t p 目录下的可用空间。提供了完整的负载共享库。具有强大的资源管理功能“。 l o a d l e v e l e r 是i b m 开发的集群作业管理系统。它成功地运行在i b ms p 2 集群系统上。 l o a d l e v e l e r 允许用户在同构或异构的集群系统中提交交互式批处理作业。除了i b ma i x 操作系统外,它还支持h p u x 、s g ii r i x 、s u n o s 和s o l a r i s 等主流u n i x 平台。l o a d l e v e l e r 的主要特点是:支持并行串行,交互式批处理作业:对工作站主人的影响小:可定义作 业类,优化调度:具有较好的系统可用性:系统中心控制:分布的用户服务器:提供完整 的a p i ;与n q s 兼容。 p b s ( p o r t a b l eb a t c hs y s t e m ) 最初由n a s a 的a i n e s 研究中心开发,为了提供一个能 满足异构计算网络需要的软件包,特别是满足高性能计算的需要。它力求提供对批处理的 初始化和调度执行的控制,允许作业在不同主机间的路由。p b s 的独立的调度模块允许系 统管理员定义资源和每个作业可使用的数量。调度模块存有各个可用的排队作业、运行作 业和系统资源使用状况信息。使用它提供的t c l 、b a c l 、c 三种过程语言,它的调度策略 可以很容易被修改,以适应不同的计算需要和目标,即系统管理员可以方便地实现自己的 调度策略。 p b s 的主要特点有:代码开放,免费获取;支持批处理、交互式作业和串行、多种并 行作业,如m p i 、p 、h p f 、m p l ;提供t c l 、b a c l 、c 三种过程语言,提供f i l es t a g e i n 和s t a g e o u t 文件传送功能;满足p o s i x l 0 0 3 2 d 标准;支持作业依赖;自动的静态负载 平衡;完整的安全认证;提供了完整的a p i ,方便新的调度器的开发; p b s 基本工作模块和流程: p b s 的设计遵循客户服务器方式,客户端为一系列p b s 专用命令和图形化用户界面, 服务端为三个主要的后台守护进程模块:b a t c hs e r v e r 、m o m 和s c h e d u l e r 。 b a t c hs e r v e r ( 服务程序) 运行在集群管理节点上,拥有并管理所有的作业、队列, 记录用户通过命令发来的请求并通过时间、事件等条件触发进行处理,为作业建立资源预 留和使用限制,将作业投入运行并监视其过程。 s c h e d u l e r ( 调度器) 运行在集群管理节点上,与b a t c hs e r v e r 协同工作,根据调度 第1 l 页 国防科学技术大学研究生院学位论文 策略和收集汇总的集群各节点资源使用情况决定是否执行作业和在什么节点执行作业。 p b s 自身的调度模块p b s s c h e d 是简单的基于f i f o 规则的调度程序。在许多环境中该模块 被其它调度器( 如:m a u i 等) 所代替。 m o m ( m a c h i n e0 r i e n t e dm i n i s e r v e r ) 运行在每个计算节点上,接收调度器的资源 查询请求,通过r e s o u r c em o n i t o r 子模块取得本机资源详细使用情况并向调度器报告。 在b a t c hs e r v e r 将作业分配到某节点运行后,m o m 负责具体和本地操作系统进行联系,使 作业有关进程得以在计算节点上运行,同时作为父进程管理所有在该节点运行的p b s 作业 有关进程7 1 。 和商业集群资源管理软件产品相比,p b s 有时表现出稳定性还不够好。o p e n p b s 自身 的作业调度功能相对比较简单,难以满足制订很多高级策略的需要。 m a u i 没有资源管理功能,是单纯的调度器,因此必须和其它资源管

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论