




已阅读5页,还剩56页未读, 继续免费阅读
(计算机科学与技术专业论文)pc集群负载均衡调度策略研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着网格技术的高速发展,采用高速局域网连接的p c 组成的集群以较高的性价比 成为进行科研生产生活的热点。p c 集群系统的核心问题是如何通过有效地调度和管理, 提高系统资源的系统率。集群作业调度软件对集群的调度管理提供了很好的支持,并且 都设置了多种调度算法以满足客户的不同需求。 地震资料处理集群需要较高的系统利用率和较短的平均响应时问,o p e n p b s 作为著 名调度软件p b s 的开源产品已经被广泛地用于生产研究中。但是,o p e n p b s 默认的调 度算法是f i f o 算法,不能保证作业的公平性而且增大了平均响应时间。另外,o p e n p b s 中的负载均衡属于静态负载均衡,无法适应集群调度中资源的动态变化。通过模拟自然 生态机制求解复杂优化问题的新型计算智能方法,尤其是蚁群算法成为了集群调度研究 的一个重要方向。蚁群算法因为良好的自适应能力和动态反馈性,与集群资源动态性相 似,已经被证明为是解决集群作业调度的有效方法。但是,传统的蚁群算法和f i f o 算 法都没有考虑到任务需求量和资源能力的匹配程度,会使用户出现“大炮打蚊子 式的 节点资源性能与作业需求性能不匹配的资源浪费现象。 为了解决这种资源不匹配的情况,本文提出了“以退为进”的蚁群改进算法。并将 改进的蚁群算法与o p e n p b s 结合,引入到处理能力不尽相同的异构集群中。实验证明, “以退为进”的蚁群改进算法比传统蚁群算法和f i f o 算法缩短了作业平均响应时间, 使得负载更加均衡,有效地解决了“大炮打蚊子 式的问题。 关键词:集群,蚁群算法,0 p e n p b s 系统,作业调度,匹配因子 r e s e a r c ho nl o a db a l a n c ea l g o r i t h m sb a s e do np cc l u s t e r s h u oj u n ( c o m p u t e rs c i e n c e & t e c h n o l o g y ) d i r e c t e db ya s s o c i a t ep r o f l i us u q i n a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fg r i da n dh i g hq u a l i t y v a l u er a t i o ,p cc l u s t e r sw h i c ha r e c o n n e c t e db yh i g h - s p e e dl a n sb e c o m et h em a i n s t r e a mi ns c i e n t i f i cr e s e a r c ha n dp r o d u c t i o n t h ek e yp r o b l e mo fc l u s t e r si sh o wt om a n a g ee f f i c i e n t l ya n di m p r o v es y s t e mr e s o u r c e s u t i l i z a t i o n j o bm a n a g e m e n ts y s t e m s ( j m s ) h a sag o o ds u p p o r tf o rc l u s t e r ss c h e d u l i n ga n d m a n a g e m e n t j m sp r o v i d e sm a n ys c h e d u l i n ga l g o r i t h m sf o rd i f f e r e n tc u s t o m e r s n e e d s o p e n p b si sao p e n - s o u r c ep r o d u c tf o rf a m o u sj m sp b s ,w h i c hi su s e df o rp r o d u c t i o n a n dl i v i n gw i d e l y b u tt h eo p e n p b s sd e f a u l ts c h e d u l i n ga l g o r i t h mi sf i f o ,w h i c hi sn o t e f f e c t i v e l ya n dc a n tp r o v et h ef a i r n e s so fa l g o r i t h m i na d d i t i o n ,t h ea l g o r i t h mo fo p e n p b s b e l o n g st ot h es t a t i c l o a db a l a n c e ,w h i c hd o n ta d a p tt od y n a m i cc h a n g e so fr e s o u r c e si n c l u s t e r ss c h e d u l i n g t h em e t h o d sw h i c ha r es i m u l a t i n gn a t u r a le c o l o g i c a lm e c h a n i s mf o r s o l v i n gc o m p l e xo p t i m i z a t i o np r o b l e mb e c o m eh o tc o m p u t a t i o n a li n t e l l i g e n c et o p i c s , e s p e c i a l l ya n tc o l o n yo p t i m i z a t i o na l g o r i t h m ( a c o ) ,w h i c hh a sb e c o m ea ni m p o r t a n tw a y o fc l u s t e r ss c h e d u l i n g a c oh a sg o o dd y n a m i cc u r r e n t n e s sa n di n f o r m a t i o nf e e d b a c ka b i l i t y , w h i c hi ss i m i l a rt ot h ed y n a m i cp e r f o r m a n c eo ft h ec l u s t e rr e s o u r c e sa n di sp r o v e dt ob ea n e f f e c t i v ea l g o r i t h mt os o l v es c h e d u l i n gp r o b l e m s b u tt h ee x i s t i n ga n tc o l o n ya l g o r i t h mc a n n o ts o l v et h es c h e d u l i n gp r o b l e m sl i k i n gm i s u s i n gg o o dp e r f o r m a n c er e s o u r c e sf o rm i n o r p u r p o s e s t h i sp a p e rp r e s e n t sa m a k i n gc o n c e s s i o n si no r d e rt og a i na d v a n t a g e s a l g o r i t h m - - a n i m p r o v e da l g o r i t h mb a s e do na c oa l g o r i t h mf o rj o bs c h e d u l i n gp r o b l e m w i t ham a t c h i n g f a c t o r , t h ei m p r o v e da c oi sa p p l i e dt oh e t e r o g e n e o u sc l u s t e r s e x p e r i m e n t a lr e s u l t ss h o wt h a t i m p r o v e da c oa p p r o a c hc a ns o l v et h ep r o b l e m ,i m p r o v et h ea v e r a g ej o br e s p o n s et i m ea n d c p uu t i l i z a t i o n k e yw o r d s :c l u s t e r s ,a c o ,o p e n p b s ,j o bs c h e d u l i n g , m a t c h i n gf a c t o r 关于学位论文的独创性声明 本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得的 成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致谢外, 本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得中国石油 大学( 华东) 或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志 对研究所做的任何贡献均已在论文中作出了明确的说明。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:,巫婆 同期:冲年 学位论文使用授权书 罗月习只 本人完全同意中国石油大学( 华东) 有权使用本学位论文( 包括但不限于其印刷版 和电子版) ,使用方式包括但不限于:保留学位论文,按规定向国家有关部门( 机构) 送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被查阅、借阅和 复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、缩印或其他 复制手段保存学位论文。 保密学位论文在解密后的使用授权同上。 学位论文作者签名: 指导教师签名: 灰另 日期) c 年j 月矽日 日期:) 哥年乡月z 7 日 中国石油人学( 华东) 倾e 学位论义 第一章绪论 1 1 课题的提出与研究背景 在闩常科研生产中,诸如分子建模、天气预报、石油勘探等领域都需要高密度的计 算,仅仅依靠单个处理器的性能难以满足要求。随着网格技术的发展和网络互连技术的 提高,使用高速互联网络把工作站或者p c 机连接起来的集群系统快速发展了起来。根 拥2 0 0 9 年1 1 月国际高性能计算机t o p5 0 0 发布的数据,集群仍然是高性能计算的主流, 这其中也包括了中国这次上榜并排名第五的“天河一号 。以高速互联网络连接起来的 p c 集群拥有着低廉的价格,较高的运算能力,较强的可管理能力、可靠性和可扩展能 力,这些优势得到了大量用户的认可,成为了科研生产生活的热点。 集群的关键是如何调度和管理系统以合理地利用和共享资源负载均衡,负载均衡调 度策略将复杂的计算任务平衡分布在多台节点上,提高了数据处理的能力。只有负载 平衡才能达到最大的资源利用率。然而,即使一个集群中只有两个节点,如何合理地调 度作业仍然是不可预计的复杂问题【2 】。集群作业管理系统通过作业调度管理提高系统计 算能力,其调度策略是集群管理系统的核心【5 1 。选用合适的作业调度策略可以帮助用户 缩短作业的平均响应时间并能公平合理地利用资源【6 , 7 1 。现有的集群调度软件诸如p b s 、 l s f 等都使用了多种调度策略提高集群计算性能,但是在集群作业管理系统中,最常用 的还是先来先服务算法( f c f s ) | 8 1 。其中o p e n p b s 是p b s 的开源产品,被广泛的运用 于科研中。o p e n p b s 的负载均衡策略是静态负载均衡策略,默认的调度算法是f i f o , 静态策略所预测和制定的负载值和需求值是固定的,这就导致了当预测值不准确或者资 源发生变化时,系统无法起到提高资源利用率的作用。而且,一般的调度策略没有考虑 到异构集群中任务需求量和资源实际计算能力的匹配度,所以集群容易出现“大炮打蚊 子”的现象【9 j 。所谓“大炮打蚊子 式的现象就是使性能较高的资源长期处理不需要资 源较大的任务,而需要资源较大的任务只能在性能相对较差的资源上运行或者得不到运 行,从而降低了资源的利用率。现代出现了许多智能算法,通过模拟自然生态机制求解 复杂优化问题的新型智能算法因为具有很好的适应性被广泛应用。在这其中,蚁群系统 具有动态更新性能,能够充分利用当前的信息反馈,与网格系统的动态变化的情况非常 相似i 1 0 1 。 为了解决这种资源不匹配的情况,提高资源的利用率,本文提出了种“以退为进 的改进的蚁群算法,增加了匹配度平衡因子,将蚁群算法引入到异构集群的环境中的资 第一章绪论 源分配与任务调度。实验证明,添加匹配因子的改进的蚁群算法比传统蚁群算法缩短了 作业平均响应时问,提高了c p u 利用率,更有效地解决了“大炮打蚊子式的问题【1 1 1 。 1 2 课题主要研究内容 由异构集群组成的地震资料处理系统需要较高的资源利用率和较短的平均响应时 问,本文的主要目的是如何为集群合理有效的分配任务,达到负载均衡,进一步提高资 源利用率和缩短平均响应时间。特别针对现有作业负载均衡调度策略中,没有将任务需 求量和资源实际能力相结合的现状予以考虑,解决性能不匹配的矛盾。鉴于此,本课题 的研究内容主要包括以下几点: 1 剖析o p e n p b s 集群调度系统: 1 ) 传统的o p e n p b s 调度算法采用的是f i f o 默认调度策略,但是f i f o 调度策略不 能保证小作业的公平性并且没有考虑到作业和资源性能匹配的问题,导致增大了系统平 均响应时间时间。所以,针对地震资料处理系统的应用需求,即要求更少的平均响应时 问和更大的资源利用率,找出合适的调度策略是本文需要研究的内容。 2 ) o p e n p b s 采用的负载均衡调度算法采用的是静态调度算法,默认的调度算法是 f i f o 。静态调度算法是指所有的机器任务映射策略在执行资源调度前就已经全部确定。 动念调度算法是指一些机器任务映射策略在执行资源调度期间根据实际情况进行确 定。静态负载平衡调度策略在各个节点上分配负载时只使用系统的静态信息,这种策略 的好处是在数学上容易分析且易于实现,但这种策略不考虑系统节点的当前负载情况而 进行负载平衡,其对集群系统利用率较低而性能较差。动态负载平衡调度策略根据集群 的负载状态动态地做出负载分配的决定,相对来说能更大地提高系统的性能。因此,对 集群动态负载平衡系统的性能评价在设计和实现集群动态负载平衡系统时显得尤为重 要。如何改进这种过于理想化的调度策略,找出解决办法将是值得研究的问题。 2 p c 集群的搭建及研究 集群可分为同构集群和异构集群两大类,相对于有着相同的处理能力的同构集群的 负载平衡调度策略来说,异构集群的负载平衡调度策略显得稍微复杂一些。但是异构集 群在实用性,可扩展能力上都有着优势,在调度算法的研究上也更有值得研究的地方。 所以本文的负载均衡调度策略尤其是提出的改进的调度策略都是针对异构集群而言的。 3 蚁群算法和o p e n p b s 系统的结合 首先,在技术方面,目前将蚁群算法应用于集群环境下的资源分配与调度的各项研 究刚刚起步,相应的原型也并不多见,服务资源动态分布在多个异质的自治系统中的集 2 中固山油人学( 华东) 顺士学位论文 群计算对于现有单一、静态的分布计算环境是一种挑战,其对动态、异质性、可扩展性 等的需求将引发若干需要解决的新问题。 其次,研究的相应成果具有最终转化为巨大商业价值的潜力,可以极大地提高资源 利用率,解决许多以现有技术无法解决的问题或无法支持的应用。例如地震勘探资料处 理非常急需集群的高性能计算,而在作业分配的过程中,就需要有合理的调度算法支持 任务调度,达到更好的利用率,在更短的时间内完成相同的任务。 4 蚁群算法的引入和改进 虽然蚁群优化算法的研究刚刚起步,但在众多领域中已展现出它的特点和魅力。这 些初步研究已显示了蚁群优化算法在求解复杂优化问题方面的优越性,证明它是一种很 有发展前景的方法。对于蚁群算法还有以下几点值得我们注意: 1 ) 蚁群优化算法是一种概率算法,从数学上对它们的正确性与可靠性的证明还比 较困难; 2 ) 传统的调度算法包括蚁群算法都以任务预测值和系统计算资源作为考量,但是 任务预测值常常有偏差,系统资源也可能改变,蚁群算法的动态更新性和反馈性恰好符 合了集群资源的动态更新性; 3 ) 进一步提高算法的收敛速度,虽然蚁群算法经过优化后收敛速度得到了一定的提 高,但对于高组合优化问题并不很理想; 4 ) 传统的蚁群算法没有把任务需求量和计算资源能力的匹配程度相匹配,这就可能 出现使性能较高的资源长期处理不需要较大资源的任务,而需要资源较大的任务只能在 性能相对较差的资源上运行或者得不到运行的情况。本文将着力改进这种“大炮打蚊子 式的现象。 5 调度实验 集群的调度算法、策略在实施于大规模环境之前,需要进行实验与验证。通过实验, 将改进的调度算法测试运行,并与之前的调度策略进行比较,验证负载均衡任务调度算 法的可行性和优缺点也非常重要。 1 3 论文的组织结构 第一章是引言部分,主要介绍了课题提出的目的与研究背景,课题研究的主要内容 以及论文的组织结构。 本文第二章集群和集群作业调度系统的介绍。首先阐明了集群的架构、分类、调度 等基本概念,然后对几种著名的集群作业调度软件进行了介绍,最后分析和介绍了 3 第一章绪论 o p e n p b s 调度软件,指出了其需要改进的地方。 第三章首先对作业调度过程进行介绍,然后总结了几种负载均衡调度策略,最后介 绍了蚁群算法在负载均衡调度策略上的研究。 第四章主要介绍了“以退为进”的改进的蚁群算法的设计与实现。 第五章给出实验以及测试结果,分析评价了算法的局限性和需要改进的地方。 最后是全文的结论与展望。 4 中围石油大学( 华东) 硕上学位论文 第二章集群和负载均衡策略概述 在信息化高速发展的社会,仅仅依靠提高单个计算机的处理能力来满足诸如在气象 预报、石油勘探、航天科技等领域的高密度计算需求已经不可行了。随着互联网技术和 网格技术高速发展,人们对进行科研生产的机器提出了更低廉的价格、较少的能耗、更 优秀的应用服务能力等一系列要求。经由高速互联的局域网连接起来的p c 集群凭借其 优秀的性价比、良好的可扩展性和安全性迎得了大家的关注。近几年国际高性能计算评 选出的t o p5 0 0 机器中,应用集群的比例越来越多,2 0 0 9 年1 1 月t o p5 0 0 中,集群的 比例就高达8 3 4 。集群的应用得到了大家的认可,如何能更好的管理集群,使得集群 硬件资源充分利用也成为人们关注的焦点。集群技术的关键是如何有效共享和使用资 源,提高资源的利用率,只有平衡的负载才能达到最大的资源利用率。所以,针对不同 的系统应用合适的调度策略,将任务平均分配到集群中的各个节点上,达到资源应用能 力的最大化就是研究的目标。 2 1 集群技术概述 2 1 1 集群的概念 集群是随着网格技术发展而逐渐被认知的,网格技术与集群技术非常相关,总的说 来,集群就是一个小的网格,集群和网格之间的主要差别是网格是连接一组相关并不信 任的计算机,而集群连接的是一组互相协作需要互相信任的机器。现实生活中,用户们 都希望机器的处理能力可以越来越快,尽管单个计算机的性能在提高,但是用户们的需 求仍然超出计算性能所能提供的范围。随着技术的发展,计算机的价格越来越廉价而计 算速度越来越快,更多的公司表现出了对利用集群技术以取得更丰富的计算性能的兴 趣。事实证明,集群的技术优势也的确更大的满足了用户们的需求。目前,在生命科学 研究、石油和天然气勘探以及天体模拟等方面,集群都发挥了巨大的作用。 集群没有一个统一的概念,它是由一组p c 机或工作站通过高速网络连接在一起, 协同工作,像单独的计算机一样的整体。美国著名的阿伯丁公司对计算机集群系统做出 了如下定义: 计算机集群是一种多节点的计算机,它具有以下特征: ( 1 ) 从用户、程序员、操作员及管理员角度看,它相当于一个单一的系统: ( 2 ) 可以提供高可靠性; ( 3 ) 具有在集群范围内统一的操作与管理特征: 5 第二帝集群和负载均衡策略慨述 ( 4 ) 打印队列、批作业队列、文件系统以及外部设备等在集群范围内共享; ( 5 ) 完美的增量式扩充能力:采用集群,用户可以根据需要向集群中添加节点; ( 6 ) 通过互联与技术选择可以进行灵活的配置,集群的开放源码软件组件和l i n u x 操作系统降低了软件的成本。 而且,由于集群使用的一般都是常见的硬件或者直接以p c 机组建,其成本相对廉 价。另外,集群占用的空间较小,耗费的电力较少,对于制冷条件的需求也较低,所以 集群还有维护成本较低的特点【1 2 】。 典型的集群系统包含下列组件【1 3 l : 多个高性能计算机,一般称为计算结点; 具有当前技术水平的操作系统; 高性能互连网络; 网络接口卡; 快速通信协议与服务; 集群系统中间件; 并行编程环境与工具( 如m p ,p v m ,调试工具等) 。 集群系统的结构图如图2 1 所示: 芒委虱e 三垂司 图2 - 1 集群系统结构图1 1 4 i f i 9 2 1t h es t r u c t u r eo fc l u s t e rs y s t e m i 1 4 l 2 1 2p c 集群的分类 ( 1 ) 按计算节点的组成类型分类,可分为同构集群和异构集群: 同构集群的意思是每个计算节点的硬件配置和软件配置都相同。这样的集群系 6 中困杠油大学( 华东) 倾一 :学位论文 统管理方便,但是不足之处是,现在硬件发展同新月异,机器处理能力不断提 高的同时性价比也在提高,为满足不段增长的需求和良好的性能,机器需要扩 充,所以异构集群的出现就成了必然。 异构集群是相对于同构集群来说的,只要计算节点的硬件配置或者软件配置有 所不同,那么这样的集群就是异构集群。随着机器性能的进步,用更好的机器 更好地完成任务成了我们的目标。与此同时,异构集群的作业调度管理比同构 集群的作业调度管理问题复杂,这方面的技术有待改进,所以这些问题也是我 们所关心的重点。 ( 2 ) 按节点功能分类,一个集群系统可由若干个p c 机组成,这些p c 机在集群中 的地位和作用是不一样的,根据功能可以划分为5 类: 头结点( h e a dn o d e ) :也可以叫做控制节点或者管理节点,是集群系统各种管理 集群、控制集群的节点,监控集群中各个节点的资源状况和网络的运行状况, 执行作业管理和任务调度,管理集群资源。比如,如果正在执行任务的计算节 点中的某个节点失效,那么管理节点就会监控到,把这个机器上的任务迁移到 另一个节点上。一般,集群的管理软件就运行在头节点上。 容错转移头结点( f a i l o v e r n o d e ) 也叫失效转移头结点,是一种备份操作模式,当 头结点因为某种原因无法工作时,将头结点的信息转移到这个节点上。 存储节点( s t o r a g en o d e ) :集群系统的数据存储器和数据服务器,如果集群系统 的应用运行需要大量的数据,就需要存储节点。 计算节点( c o m p u t i n gn o d e ) :执行计算任务的节点,用户可根据需要和预算来 决定采用什么样的配置。按照计算节点的不同,集群又可分为同构集群和异构 集群。 用户节点( u s e rn o d e ) :客户端节点,外部用户通过该节点访问集群系统,是外 部世界访问集群系统的网关。用户通常登录到这个节点上编译并运行作业。用 户节点是外部访问集群系统强大计算或存储能力的唯一入口,是整个系统的关 键点。 p c 集群系统配置图如图2 2 所示: 按照集群的应用目的,集群还可分为高性能集群和高可用性集群:按节点硬件分类, 集群可分为p c 集群,工作站集群和s m p 集群;按照节点操作系统的不同,集群可分为 l i n u x 集群,s o l a r i s 集群,n t 集群,h p u n i x 集群等。按照不同的划分目标,集群还可 7 第二章集群和负载均衡策略概述 分为不同种类,在此不再一一赘述。 节点:作业执行 程序m p i 图2 - 2p c 集群系统配置图 f i g z 一2 c l u s t e rs y s t e mc o n f i g u r a t i o nd i a g r a m 2 1 3 创建一个简单的集群 ( 1 ) 要想创建一个真正的集群,至少需要两台机器,两台虚拟机也可以实现这种 功能。在节点上安装l i n u x 操作系统后,为了保证集群中的各个节点能够相互p i n g 通, 我们还需要做一些准备工作。首先,需要修改节点的主机名,在命令行中输入:v i f e t c s y s c o n f i g n e t w o r k ,文件中的h o s t n a m e 就是主机名:其次, 在 e t c s y s c o n f i g n e t w o r k - s c r i p t s i f c f g - e t h o 文件修改i p 。 ( 2 ) 为所有节点配置s s h 信任链接,允许不询问密码就可以执行命令。这样做的 目的是能够不需询问密码就可以执行s s h nh o s tw h o a m i 这样的命令。s s h 用作不同机 器之问的通信方法i l5 。更改方法如下: 8 中国缸油人学( 华东) 顾上学位论文 l 、更改e r e h o s t s 文件,在命令行中输入v i e t c h o s t s ,更改如下: n o d e 0 1 的i pn o d e 0 1 n o d e 0 2 的i p n o d e 0 2 2 、在n o d e 0 1 的主目录生成s s h 秘钥对, $ s s h k e y g e n tr s a 产生s s h 文件 s i s a 查看是否有s s h 文件夹 3 、进入s s h 目录,生成公钥文件: $ c d 。s s h $ c pi d _ r s a p u ba u t h o r i z e d _ k e y s 4 、在n o d e 0 1 的主目录建立信任链接$ s s s hn o d e 0 1 输入y e s 5 、在n o d e 0 2 的主目录下设置 $ s s h - k e y g e n - tr s a 生成s s h 文件夹 s s c pn o d e 0 1 的i p :h o m e n o d e 0 1 的用户名s s l v *h o m e n o d e 0 2 的用户名 s s h 拷贝n o d e 0 1 上的s s h 文件夹覆盖本地的 $ s c pn o d e 0 1 的i p :e t c h o s t s e t c h o s t s 拷贝n o d e 0 1 上的h o s t s 文件覆盖本地 的 $ s s hn o d e 0 1 提示处输入y e s 回车 6 、确认2 台机器的信任连接已建立,对每个节点执行: $ s s hn o d e 0 1 $ s s hn o d e 0 2 注意:可能还需要修改防火墙的配置,使其允许节点彼此之间相互进行通信。 ( 3 ) 安装m p i c h 。从m p i c h 的官方网站上下载m p i c h 的软件包,然后执行以下 步骤: 1 假设所下载的m p i c h t a r g z 已经保存到了t r a p 中,解压软件包,命令如下: $ c d t m p t a r x v f m p i c h t a r g z ( t g 行这个命令后会得到目录t m p m p i c h 2 - 1 0 8 ) c d t m p m p i c h 2 1 0 8 2 、创建安装目录 $ m k d i r u s 朋p i c h i n s t s l l 3 、设置安装目录 9 第一二章集群和负载均衡策略概述 $ e o n f i g u r e - p r e f i x = u s r m p i c h - i n s t s l l 4 、编译,安装: $ m a k e $ m a k ei n s t a l l 5 、通过编辑b a s h r c 文件修改环境变量 $ c d 。回到主目录 $ v i b a s h r c 修改后的b a s h r c 文件如下: | u s e rs p e c i f i ca l i a s e sa n df u n c t i o n s p a t h = ,$ p a t h :凰删p i c h i n s t a l l b i n 此处为新增加的环境变量值 $ s o u r c e b a s h r c 6 、测试环境变量设置 $ w h i e hm p a $ w h i c hm p i c c $ w h i c hm p i e x e c $ w h i c hm p i r u n 如果设置正确的话,此处的测试命令均应显示为:u s r m p i c h - i n s t a l l b i n 7 、如果是r o o t 用户,修改c 咖d c o n f 文件,内容为s e c r e t w o r d = 设定的密码,然 后设置文件读取权限和修改时间 # t o u c h e t c m p d c o n f # c h m o d6 0 0 e t c m p d c o n f 此处设置为只读模式 如果是普通用户,则在用户主目录下修改m p d c o n f 文件,内容为s e c r e t w o r d = 设定 的密码,然后设置文件读取权限和修改时间 $ t o u c h m p a c o n f ( 此处假设在主目录下) $ c h m o d6 0 0 m p a c o n f 8 、要让m p i 知道所有的节点,将所有节点的主机名添加到文件中,这样安装的 m p i c h 就可以知道所有的节点了。 如果是r o o t 用户,创建椭。蜘p d h o s t s ,如果是普通用户,在主目录下创建,m p d h o s t s , 添加节点信息如下: n o d e o l n o d e 0 2 1 0 9 将日录t m p m p i c h 2 10 8 拷贝到所有的青点上 ( 4 ) 测试: 运行m p i c h 的例子程序 s m d d b o o t 仆4f m p dh o s t s 启动4 台机器 $ m p i e x e c n n u m b e r u s r m p i c h - i n s t a l l e x a m p l e s c p i n u m b e r 为使用的进程数 测试通过后,一个m p i c h 并行计算环境就搭建好了图2 - 3 为集群测试图: ! * f c 4 1 - ( f i 例( 【b q 5 3 i n o d o l 一例一p 2 一ni l 删o j t 5 【b 口5 5 e 口o d e l $ 叩d t r a c o n o d e n o d e o2 m q g ,日n o d e 0 1 j $ z 一,h i g 砰i c h 2 一10 日,p l e 0 ,c p l o r o e e s ,0 2s d e d l oe 5 ,io ,o d e o l p 4 1 a t e l y3 i4 l 2 6 ,”13 1b - e r oo0 口0 0 00 00 8 3 3 3 3 e u jl lc 1 0 00 03 l0 , q 5 e n o d e 0 i 。ls p l e * n3 e ,0 5 ,h 2 一i0 日,p l e ,e p t p 一口o j o d e 0 1 p r o c e 5 l 3j 0 d e 0 1 oe 2o n o d e 0 2 5a p p r t e l ,3l l ”2 6 ,12 3 - 日r r o ri j00 0 0 口0 0 口口0 8 3 3 3 3 2 刚1o 口c z0 0 e g 0 l b q 5 。e n o d e o im p l ,b q 5 日,1 c h 2 10 日,e x _ p l ,c ” p r o c e 2i nn o d e 0 2 p r o o e o 5o nn o d e 0 1 p r o c e 3f6 nn o d e 0 1 p r o c e 5 lo s o d e 0 i ,r o c e 4 nn o d e 0 2 p e o 自o d 0 l ;a p p r 帆e l yj 14 1 5 9 2 6 ,2 l ? - 口q 口口口0 口口口o 日3 j ) 0 1 w a l lc 1 0 0 k 0z 23 0 7 b q n o d e l s 图2 _ 3 集群测试图 f i 9 2 3t e s tc h a r to fc l u s t e r 22 集群作业调度系统 221 集群管理系统概述 集群系统以其卓越的性能价格比、良好的可扩展性、高可用性和好用性,逐渐成为 1 今高性能计算机体系结构和并行处理研究的热点和主题。然而,现有超级计算机性能 提升的主要趋势是配置性能更加强大的节点、更加高速的通信网络以及更多的计算节 点因此,集群软件如何应对集群不断增大所带来的可管理性和扩展性问题就变得十分 重要i 。 集群管理调度系统作为集群系统中的重要组成部分,监控系统中分散的资源,将资 源进行整合,使用户像使用一台节点一样使用计算环境。在集群作业管理系统中,作业 是系统管理的基本单位,作业与普通s h e l l 语言程序的不同之处在于增加了作业属性定 第一二章集群和负载均衡策略概述 义i l 。集群管理系统帮助用户充分利用集群的硬软件资源,有效地管理集群,合理地调 度作业,使集群系统具有更高的吞吐率和利用率。但是,传统集群管理系统同样面临着 可管理性和扩展性的挑战,一个传统的集群管理系统至少需要以下5 个功能【1 8 1 : ( 1 ) 监控集群中所有可用的计算资源; ( 2 ) 要求用户对作业所需要的资源进行描述,接受用户提交的作业; ( 3 ) 有相应的调度策略,用户可以按照一定的的调度策略,根据作业对资源的需求对 作业进行调度; ( 4 ) 为每个作业分配运行资源并启动作业: ( 5 ) 监控所有的的作业,收集作业执行等信息。 为了实现以上功能,通常集群管理系统主要由服务器( s e e r ) 、调度器( s c h e d l j l e r ) 、 执行器( e x e c u t o r ) 和客户端( c u s t o m e r ) 四部分组成【9 】: ( 1 ) s e r v e r :接受用户的请求、管理作业、监控资源、故障恢复、记账等功能: ( 2 ) s c h e d u l e r :根据作业的资源需求和已经指定的作业调度策略进行作业选取和资源 分配; c 3 ) e x e c u t o + :监控本节点的资源使用状况,加载和监控服务器发送的作业以及接收 来自服务器对节点、作业状态的查询。 图2 4 传统耶t 4 s 结构 f j 9 2 - 4 t r a d i t i o n a lj m s ( j o bm a n a g e m e n ts y s a m ) s r u c u r e 传统的集群管理系统作业调度流程:( i ) s e l v e r 接受来自用户的作业请求并归入相应 的作业队列中,同时,周期性地轮询各个e x e c u 幻r 的资源状况;( 2 ) 当调度周期或调度事 1 2 中国油大学( 华东) 硕i :学位论义 件到来时,s e r v e r 通知s c h e d u l e r ;s c h e d u l e r 从s e r v e r 中取得作业信息和组成( 结构如 2 4 所示) 。其中,s e r v e r 、s c h e d u l e r 和e x e c u t o r 为守护进程,协同工作,共同实现作业 管理j 作业调度和负载平衡等功能。各个守护进程的功能如下l 均l :s c h e d u l e r 对资源信息 进行调度,将调度结果返回给s e r v e r ,s e r v e r 驱动e x e c u t o r 去执行作业。 2 2 2 著名的集群管理系统 目前已有的集群作业管理系统在目标、结构、功能和实现上各有差异,从不同侧面 反映了集群作业管理系统所应具备的特性【2 0 l 。在几十种集群作业管理系统中,p b s 、 l s f 、i s f 、c o n d o r 是当今颇具代表性和影响力的几种集群作业管理系统。其中 c o n d o r 和p b s 的一个版本o p e n p b s 被广泛运用于研究领域,l s f 和i s f 是商业软 件。本节对这几种作业管理系统进行简单介绍: 1 i s f ( i n f r a s t r u c t u r es h a r i n gf a c i l i t y ) i s f 是p l a t f o r m 公司2 0 0 9 年5 月推出的集成云计算和虚拟化技术的一款软件。虚拟 化将是集群技术发展的必由之路,因为虚拟化带来了服务的高可用性和资源的最大化利 用。比如v m w a r e 可以保持服务的不中断,当v m 所在的机器出现断电的问题,v m 可 以自动迁移到另一台物理机上,从而保证服务不中断和用户使用的透明性。但是由于 l s f 不能管理虚拟机,所以p l a t f o r m 公司推出了i s f 来管理虚拟机资源。现在i s f 已和 l s f 共同推广,2 0 0 9 年北京超算中心就已经进行使用。i s f 主要的优势有以下3 点: 融合了多种虚拟化技术,诸如c i t r i xx e n ,k v m ,v m w a r e 等,这些虚拟技术可 以保证物理机计算资源的最大化利用,方便用户管理不同种类的虚拟机,提供 高可用性,操作简单灵活。 i s f 提供了灵活的调度策略:从用户的角度来看,用户可以进行资源预约和按 需分配,比如用户需要一台2 gm e m o r y 的v m w a r e 的v m ,用户就可对资源进 行预约;从i s f 系统资源提供者的角度,系统将会按照现有资源使用情况,按 照一定的调度策略进行分配,调度策略包括:最大化分配策略( p a c k i n g ) 和平均 化分配策略( s t r i p p i n g ) 。i s f 结构框架图如图2 5 所示。 最大化分配策略的意思是:尽可能多的将v m 放置于一台物理机上,同时 启动v m 进行工作。这样做的好处是,节省资源,充分利用计算机硬件资源。 缺点是,如果机器失效,任务进度将受到很大的影响。这样的策略适用于任务 不多的实验环节。但是在现实科研生产生活中,对于大规模的作业,一个作业 很可能需要在一台机器上运行几个小时甚至数天,如果应用这种策略,以资源 。 1 3 * 辛集群和啦载均衡策略概述 利用率饱和为目的,忽视了机器失效的影响,带柬的损失可能会是得不偿失。 平均化分配策略的意思是:集群的目的是尽可能合理分配资源以达到最大 的资源利用率和能效。所以,如何把更多的机器台理运用已达到资源利用率的 最大化的关键就是合理的分配资源。v m 启动需要限定的c p u 和m e m o r y ,所 以在现实生产生活中,v m 放置镶略有两种,种是按照c p u 的利用情况分配, 另一种是按照m e m o r y 的利用情况分配。放置的基本原则是使v m 尽可能在使 用资源最少的机器上放置,尽可能使得v m 需求与已有资源能力得到均衡匹配, 减少机器失效的可能。 图2 * 5i s f 结构框架图 f 啦 i s fs t r u c t u r e i s f 提出了一个共享服务器池的概念这个概念的好处是v m 都被放在像一块 硬盘的共享服务池里面不必知道v m 到底在什么地方启动。v m 可按照调度策 略分配到某台机器上,或者当某台机器在运行中失效,v m 会自发地转移到其 它的机器。共享服务器池的提出增加了用户使用的透明性,简洁灵活同时, 因为用户无法知道v m 在哪一台机器上启动,也增加了系统的安全性。图2 - 6 为共享服务池示意图。 ! 笪鱼些土芏! :至! 塑i 兰些笙皇 曝嚷嚷 图2 - 6 共享服务池示意图 f 1 9 2 6 s h a r i n gs e r v i c ep o o l 2l s f ( l o a ds h a r i n gf a c i l i t y ) 负载其享软件l s f 是山加拿大p l a t f o r m 计算公司研制与开发的商业集群管理系统软 件,原型是多伦多大学开发的一个软件系统,多年来经过创新改进,被称为最成熟的商 用集群管理系统。l s f 凭借其强大的功能和使用范围大,已经成为诸如斯坦福大学、美 因。j :航局、摩托罗拉等公司的固定合作伙伴,在众多集群调度软件中己然成为领军人物。 而且,l s f 不断改变刨新,注意到最新高性能计算的趋势虚拟化的发展和云计算的出现 咀求最大限度的帮助用户提高机器使用率和满足用户的不同需求。作为一款可用于科研 和商业事务处理的高性能计算辅助软件,l s f 主要有三类用户:li t 类芯
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高一解剖学基础考试题及答案
- 湖南地理中考试题及答案
- 考点攻克人教版八年级上册物理声现象《声音的特性》专项测评练习题(含答案详解)
- 2025监理员考试真题及答案
- 考点攻克苏科版八年级物理上册《物态变化》重点解析试卷(含答案详解)
- 计算机职称高级考试题库及答案
- 顺德初一生物考试题及答案
- 万科中学分班考试题目及答案
- 电大专科学前教育学前儿童科学教育考试试题及答案
- 机械传动与连接知识测试卷解析 含平键螺纹等测试卷有答案
- 2025年IPA国际注册对外汉语教师资格认证考试真题卷及答案
- 乌兰县公安局2025年面向社会公开招聘警务辅助人员考试参考题库及答案解析
- 财政和金融知识课件
- 2025年成人高考政治试题及答案
- 2025成人高考政治试题及答案专升本
- ISO 22003-1:2022《食品安全-第 1 部分:食品安全管理体系 审核与认证机构要求》中文版(机翻)
- 铁路客车空气制动装置电子防滑器检修标准
- DB33-T1238-2021《智慧灯杆技术标准》
- DB11T 1411-2017 节能监测服务平台建设规范
- GB∕T 12237-2021 石油、石化及相关工业用的钢制球阀
- GB∕T 1727-2021 漆膜一般制备法
评论
0/150
提交评论