




已阅读5页,还剩61页未读, 继续免费阅读
(计算机软件与理论专业论文)openpbs和globus+toolkit+v40连接的研究和实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 摘要 网格计算( g r i dc o m p u t i n g ) 就是指将分布的计算机组织起来协同解决复杂的科 学与工程计算问题,适用于大型科学计算和研究项目。上海高校网格一e 网格计算应 用平台项目实现了将分布在不同地点的、不同单位的、不同计算结点的各种计算和 信息服务资源,整合为一个单一的( 虚拟的) 系统。 g l o b u st o o l k i tv 2 4 ( g t 2 4 ) 是较早期的g l o b u s 版本,在目前很多的计算网 格中使用,而g l o b u st o o l k i tv 4 0 ( g t 4 0 ) 是目前最新的可用版本。o p e n p b s 是 同g t 2 4 兼容的开源软件,在网格作业管理方面具有强大的功能。 为了使得o p e n p b s 能够在g t 4 0 上发挥集群作业管理的功能,本文讨论了一 种经由g t 2 4 将o p e n p b s 接入g t 4 0 平台的方案。本文的主要贡献在于: 首先,实现了p b s 的开源版本o p e n p b s 与g t 4 0 工具包之间的兼容问题, 我们以g t 2 4 作为中介,实现了两者之间的融合。 其次,在实现以上两者互相融合的基础上,我们考虑了今后的可扩展性问题, 为o p e n p b s 在以后更高版本的g l o b u s 系列网格控制平台上的应用打好了基础。 再次,为了适应高性能计算中对于容错功能的要求,我们在g t 4 0 平台中封装 了容错功能模块,该模块能实现出错任务的再次递交,使得用户提交的作业能够被 有效执行完毕。 本方案作为o p e n p b s 接入g t 4 0 的方案之一,是上海高校网格一e 网格应用计 算平台的研究工作的一部分。该方案的研究和实现不仅为研究人员提供了一个实验 平台,而且为网格技术的深入研究作出了贡献。 关键词:网格,o p e n p b s ,g l o b u st o o l k i tv 4 0 ,g l o b u st o o l k i tv 2 4 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y a b s t r a c t g r i d c o m p u t i n g ,w h i c hr e f e r s t ot h es y s t e mc o o r d i n a t e st h ed i s t r i b u t e d c o m p u t e r si n t oac o m p l i c a t e ds c i e n c eo re n g i n e e r i n gc a l c u l a t i o np r o b l e m s ,i s u s u a l l y a p p l i e d i n g i g a n t i c s c a l e ds c i e n c ec a l c u l a t i o n o rr e s e a r c h p r o j e c t s “p l a t f o r mo fe - g r i dc o m p u t i n ga p p l i c a t i o ni n s h a n g h a ih i g he d u c a t i o ng r i d ( a b b r e v i a t e dt op g c ai ns h e g ) ”i sag r i dc o m p u t i n gp r o j e c tt h a tl i n kb o t ht h e d i s t r i b u t e dc a l c u l a t i o nr e s o u r c ea n di n f o r m a t i o nr e s o u r c e ,e g ,c o m p u t ea b i l i t y , s t o r a g ec a p a c i t y , i n f o r m a t i o ns e r v i c ea b i l i t y , i n t oau n i q u ev i r t u a ls y s t e m g l o b u st o o l k i tv 2 4i sar e l a t i v e l ym o r em a t u r e dg l o b u sv e r s i o nt h a tu t i l i z e d b ym u l t i p l eg i r do r g a n i z a t i o n si n t h eg r i dc o m p u t i n gf i e l d ,m e a n w h i l e ,g l o b u s t o o l k i tv 4 0i st h en e w e s tu s a b l ev e r s i o ni ng i o b u ss e r i e s c i p e n p b si sak i n do f o p e n - s o u r c es o f t w a r et h a tc o n f o r mt ot h es t a n d a r do fg i o b u st o o l k i tv 2 4 w h i c h h a sas t r o n ga b i l i t yi ng i r dj o bm a n a g e m e n t i no r d e rt ou s eo p e n p b so ng t 4 0p l a t f o r m ,t h i sa r t i c l ed i s c u s s e dam e t h o d t h a tl i n k o p e n p b sw i t h g t 4 0 t h r o u g ht h em e d i ao f g t 2 4 t h e g e n e r a l c o n t r i b u t i o ni nt h et h e s i si sa sf o i l o w s f i r s t l y , s e t t l et h ec o m p a t i b i l i t yp r o b l e mb e t w e e no p e n p b sa n dg l o b u st o o l k i t v 4 0 ,b ya d d i n gam e d i ao fg t 2 4 s e c o n d l y , o nt h eb a s eo fa b o v e m e n t i o n e dl i n k a g e ,w ed i s c u s s e dt h ep r o b l e m o fe x p a n d i n g w h i c hw i l lf a c i l i t a t et h eu s i n go fo p e n p b so nf u t u r eg tv e r s i o n s t h i r d l y , i n o r d e rt om e e tt h e r e q u i r e m e n t o fe r r o rt o l e r a n c ei n h i g h p e r f o r m a n c ec a l c u l a t i o n ,w ee n c a p s u l a t e dt h em o d u l eo fe r r o rt o l e r a n c ei n o u rd e s i g n t h em o d u l ec o u l de n s u r et h a tt h ej o bs u b m i t t e db yc u s t o m e rc o u l db e e x e c u t e dc o r r e c t l y , b yr e s e n d i n gt h ei n t e r r u p t e dj o b t h em e t h o d ,w h i c hd i s c u s s e do n eo ft h el i n k i n gm e t h o d so fo p e n p b sa n d g t 4 0 ,w a sap a r to fr e s e a r c hw o r kf o rp g c a t h ew o r kc a r r i e do u ti nt h i st h e s i s n o to n l yp r o v i d e da p l a t f o r mf o rr e s e a r c h e r s ,b u ta l s od e e p e nt h er e s e a r c hw o r ko f i i 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y g r i dc o m p u t et e c h n o l o g y k e y w o r d s :g r i d ,o p e n p b s ,g l o b u st o o l k i tv 4 0 ,g l o b u st o o l k i tv 2 4 i i i 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了 文中特别加以标注和致谢的地方外,论文中不包含其他人已发表或撰写 过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 签名:逢垂兰日 本论文使用授权说明 期! 竺生:墨! ; 本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有 权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布 论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:! 至玉兰导师签名:塑经缝日期:丝堕! ! 翌 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 1 1 课题研究背景及意义 第一章绪论 网格( g r i d ) 【i 是借鉴电力网提出的一个新概念,网格的最终目的是希望用户 使用网格提供的计算能力时,就像使用电力一样简单、方便。网格被称为是继 i n t e r n e t 之后的计算机的第三个信息技术浪潮。网格计算( g r i dc o m p u t i n g ) ( 2 就是指 将分布的计算机组织起来协同解决复杂的科学与工程计算问题,适用于大型科学计 算和研究项目。随着对处理能力的需求越来越高,网格计算开始成为当今计算的主 流方式之一。根据求解问题的特点不同,人们又提出了多种名称的网格,比如以数 据密集型问题的处理为核心的数据网格【3 】,以解决科学问题为核心的科学网格4 1 、 以全球地球系统模型问题求解为主要目的的地球系统网格【5 】等等。 由上海大学计算机学院、首席研究员李三立院士主持的上海高校网格技术e 研 究院正在建设新一代的信息基础设施“上海高校网格平台”。其中一l 海高校网格一e 网格计算应用平台是上海高校网格平台的一个重要组成部分。它是上海市教委首批 启动的六个e 一研究院项目之一。上海高校网格- e - 网格应用计算平台坚持以应用为 首要目的,并且在此基础上建成为兼顾专用性和通用性的信息资源平台。 上海高校网格技术e 研究院的上海高校网格e 网格计算应用平台实现了将分 布在不同地点的、不同单位的、不同计算结点的各种计算和信息服务资源,整合为 一个单一的( 虚拟的) 系统,为研究人员进行跨学科、跨地区的科学研究创造了一 个很好的科研环境,有利于促进重大科技项目的攻关,也解决了前沿科学领域的计 算难的问题,从而推动了基础理论研究的进展和创新。 本文中,通过结合网格的先进技术和上海高校网格e 网格计算应用平台的实际 要求,通过增加一个中介g l o b u st o o l k i tv 2 4 ( g t 2 4 ) t 8 】实现了将0 p e n p b s ( o p e n p o r t a b l eb a t c hs y s t e m ) 7 接入g l o b u st o o l k i tv 4 0 ( g t 4 0 ) 【8 】平台的方案,充分利 用了开源软件o p e n p b s ,从网格资源管理角度来说,由于o p e n p b s 在作业管理 方面的强大功能,因此通过将它连入系统后,提高了整个系统在网格作业l 的管理 能力,为更好的充分利用网格资源提供了可能;从网格用户角度来说,这一系统提 供了一个更简单、方便、快捷的网格资源使用方法。 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 1 2 网格技术及上海高校网格e 网格计算应用平台简介 1 2 1 网格技术概况 “网格”是一个新出现的概念,代表了一种先进的技术和基础设施。从广义角 度来说,网格就是一个集成的计算与资源环境,或者说是一个计算资源池( 9 】。网格 能够充分吸纳各种计算资源,并将它们转化为一一种随处可得的、可靠的、标准的和 经济的计算能力。这里的计算资源是指各种类型的计算机、网络通信能力、数据资 料、仪器设备甚至人等各种相关资源。从狭义的角度来看,网格一般被称为计算网 格( c o m p u t a t i o n a lg r i d ) 【1 0 】,即主要用于解决科学与工程计算问题的网格。网格 的核心思想就是在“动态”的多个机构构成的虚拟组织1 】中进行资源共享和协作式 问题求解,其中虚拟组织是指由遵循资源共享规则的一组个体、机构组成【1 “。 根据网格的应用领域不同,我们大致将网格分为三种: ( 1 ) 计算网格:这类网格利用分散在广域网上的动态共享计算资源进行科学工程 计算以解决各种研究问题,这是网格最初的应用模式。本文所研究的网格就是这类 网格。 ( 2 ) 数据网格( d a t ag d d ) :这类网格动态共享分散在广域网e 的数据资源,解 决海量存储问题,如数字图书馆、数据仓库。 ( 3 ) 信息服务网格( i n f o r m a t i o ns e r v i c eg r i d ) :这类网格提供了任何单个服务 结点都不能提供的服务。服务网格包括点播服务、协作服务等。 在计算网格系统中,首先应能够让用户提交作业和执行作业,因此需要一个作 业管理系统和资源管理系统。其次应能够为用户提供一个安全的网格环境,用户可 以不用担心自己的计算结果会被别人看到或篡改,因此系统需要一个安全可靠的安 全管理系统。最后,当在作业的执行过程中发生故障时,系统能够为用户保护好计 算的结果,能够为用户提供容错功能。其中容错功能和安全管理功能是保障一个系 统可靠性的重要手段。由此可以看出,计算网格系统的管理功能至少应该具有以下 三个功能模块:作业和资源管理模块、安全管理模块、容错管理模块。 1 _ 2 2 国内外研究概述 2 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a t l g h a iu n i v e r s i t y 网格概念起源于上世纪9 0 年初美国的高性能计算计划,网格正在从一个只有 少数研究人员关心的新技术逐步转变为受大众关注的话题。2 0 0 4 年,网格的研究和 应用开发已经由以美国为中心转向了北美洲、欧洲和亚洲并重的局面,同时网格研 究的重心由科研转向了工业界。 c y b e r i n f r a s t r u c t u r e 是美国国家科学基金会( n f s ) 计划资助的建立国家级的 电子基础设施计划,它将是一个超级计算资源的集成系统,并为广大科学家和工程 师所共享,美国将每年投资6 亿。1 0 亿美元,网格和超级计算机将是其核心部分。 应用领域主要包括:大气科学、林学、海洋科学、环境科学和工程、太空气象、生 物信息学、医学、物理学、天文学和社会行为学。 与此同时,欧洲科学家和政府也对网格开始了研究。其中英国的e s c i e n c e 计 划是关于科学关键领域的全球协作以及下一代基础设施。目前正在实施的是 e s c i e n c e 的第二阶段( 2 0 0 3 2 0 0 6 ) 工作。项目的应用领域包括:后基因工程和 蛋白质工程、电子化科研、能源和环境工程等。 我国在这方面也作了大量基础性和前瞻性的研究。中国科学研究院计算所较早 建立了专门的网格研究队伍,丌始研究与网格相关的技术,并丌发成功了多个版本 的信息一体化平台。 中国国家网格( c h i n an a t i o n a lg r i d ,c n g r i d ) 是国家8 6 3 计划“高性能计算 机及其核心软件”重大专项的重要组成部分。其建设目标就是建立聚合高性能计算 和事务处理能力的新一代信息基础设施的实验床。c n g r i d 目前支持包括资源环境 网格、航空制造网格、气象网格、科学数据网格等在内的1 1 个应用网格的开发与 建设。 国家自然基金委2 0 0 3 年底发布了“以网络为基础的科学活动环境研究”重大 专项指南,正式揭开了我国基于网络的科学活动环境的建设,称为中国的“e s c i e n c e 计划”。 教育部“十五”2 1 1 工程公共服务体系建设的重大专项:中国教育科研网格 ( c h i n a g r i d ) 计划。c h i n a g r i d 计划同时作为国家高技术发展计划( 8 6 3 计划) 高 性能计算重大专项的典型应用,也得到了国家科技部的大力支持。 除了上述谈到的一些国家级的网格计算计划以外,还有一些行业的应用网格, 如地震网格 1 3 、军事网格14 1 、n a s a ( n a t i o n a la e r o n a u t i c sa n ds p a c e 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y a d m i n i s t r a t i o n ) l 拘i p g 1 5 1 等。 1 2 3 上海高校网格e 网格计算应用平台简介 2 0 0 2 年底,上海市宣布投入二千万人民币建设上海高校网格技术e 研究院 ( e i n s t i t u t i o n s ) 。上海高校网格一e 一网格计算应用平台是上海高校网格e 研究院的 一个重要部分,主要是将上海超级中心、上海大学和华东理工大学等多所高校的高 性能计算机系统用网格整合在一起,为用户提供资源共享和协助科研和教学工作。 该项目的总体目标是通过建立一个以网格技术为基础的平台来推进上海市高校的网 上合作与协同工作。 上海高校网格e 一网格计算应用平台是基于o g s a ( o p e ng r i d s e r v i c e s a r c h i t e c t u r e ) 平lw s r f ( w e b s e r v i c e sr e s o u r c ef r a m w o r k ) 的规范和网格核心中间 件的网格计算环境,主要为从事大规模并行计算的研究人员通过网格实现计算资源 和结果共享的平台。通过研制这个网格平台和相关中间件,有效的解决了一种网格 中计算密集型应用中的关键问题,包括基于网格环境的并行计算问题、网格数据管 理问题、基于网格技术的可视化技术、大型数据传输等问题,从而研发一种集高性 能计算服务、资源共享于一体的网格应用典范。 1 3 课题主要研究内容 由于o p e n p b s 与高版本的g l o b u st o o l k i t 工具包之间存在着不兼容问题,本 文的目标是将o p e n p b s 完整接入高版本的g l o b u st o o l k i t 中,将c p e n p b s 充分 融合到g t 4 0 中。根据这一要求,本文研究了一种方案,通过增加一个中间桥梁实 现了o p e n p b s 与g t 4 0 的充分融合。本文的研究内容主要包括以下几点:网格作 业的接收管理、网格作业的中间传输管理、网格作业的执行和监控。 其中网格作业接收、网格作业执行和监控管理是整个系统中比较重要的组件。 对于网格用户来说,通过网格作业接收组件可以方便的提交网格作业,以达到有效 使用网格资源的目的。对于网格管理员来说,通过这个组件可以实时的查看网格资 源的使用情况和用户作业的执行状况。网格作业执行和监控管理模块整正实现了作 业的递交和执行,也就是整个系统的具体执行部分。 ( 1 ) 作业接收管理:在本系统中,我们为用户提供了一个网格专用门户,这个门 4 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 户可以说是用户与网格系统之间的桥梁,用户可以通过这个界面向网格提交作业, 当用户提交好作业后,可以查询作业的运行状况和执行结果,也可通过命令来控制 作业的运行。 ( 2 ) 作业的中问传输管理:该组件主要的功能包括作业描述规范文档的解析、传 输用户的源代码和解析好的资源信息,并进行中间结果和状态信息等传送。由于整 个系统的真正执行部件是g t 2 4 ,该软件包所能认识的资源信息格式与g t 4 0 的格 式有所不同,所以通过该组件解决了资源信息的问题。 ( 3 ) 网格作业的执行和监控管理:作业执行和监控为用户提供了获取作业信息和 监控作业的功能的有效手段,它实现了将作业提交到网格中的资源上,并且将作业 的结果和状态信息返回给用户,并通过该模块,实现了对作业的控制功能。 1 4 论文组织结构 本文的组织结构如下所示: 第二章是上海高校网格一e 一网格计算应用平台的总体设计,首先介绍了该平台的 总体功能需求,根据具体情况设计了总体结构框架,并介绍了其实现的具体方法和 使用的相关技术。 第三章是网格作业接收管理模块,首先简单介绍了网格作业传输的整体过程, 然后主要描述了作业接收模块的主要构成和其作用方式。 第四章是网格作业的中间传送管理模块,首先解决了g t 2 4 与g t 4 0 问r s e 的问题,然后详细说明了作业传送功能及实现,同时还为传送过程中的安全问题提 出了的具体的解决方法。 第五章是网格作业的执行和监控管理,描述了作业的递交执行和作业监控的功 能,以及具体实现。还纠对高性能计算作业的特点设计并实现了对结点故障的容错 功能。 第六章对全文的研究工作进行了总结,并提出了进一步的研究展望。 5 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 第二章上海高校网格e 网格计算应用平台的总体设计 上海高校网格一e 一网格计算应用平台的总体设计是网格资源管理模块、作业管理 模块设计和实现的基础。本章对上海高校网格- e - 网格计算应用平台的功能需求、整 体构架、各个主要模块等方面提供了部分介绍。本章组织结构如下:第2 1 节介绍 了上海高校网格- e - 网格计算应用平台的实际构建情况,第2 2 节分析了上海高校网 格e 网格计算应用平台系统的功能需求,第2 3 节针对功能分析结果设计了上海高 校网格e 网格计算应用平台的系统结构,并介绍了其中的主要功能组件,进而说明 了网格作业的基本执行过程。第2 4 节简单介绍了实现方法和用到的相关技术。第 2 5 节是本章小结。 2 1 上海高校网格e 网格计算应用平台的构建 上海高校网格一e 一网格计算应用平台是建立在o g s a 的基础上,采用g l o b u s t o o l k i tv 3 2 ( g t 3 2 ) 网格软件工具包,在上海高校网格研究中搭建的一个平台,它 是上海高校网格的一个重要组成部分。本系统构建在o g s a 与w s r f 的基础上, 并采用了g t 4 0 和g t 2 4 两个不同版本的网格工具包。目前没有被上海高校网格e 一 网格计算应用平台采用,其原因将在第2 3 1 节中详细说明。 上海高校网格一e 一网格计算网格平台的整体结构如图2 1 所示,由图2 1 可知, 该平台主要有四个网格计算资源结点构成,它们分别是: 6 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 图2 1 上海高校网格e 网格计算应用平台整体布局图 ( 1 ) 上海大学自强3 0 0 0 ,它是上海高校计算网格主结点。该结点由仃4 台计算 结点组成,采用r e d h a tl i n u x 操作系统,o p e n p b s 作业调度软件和c m u ( c l u s t e r m a n a g e m e n tu t i l i t y ) 集群管理软件,提供m p i c h 1 6 1 并行计算环境。其峰值速度可 达2 15 4 g f l o p s 。 ( 2 ) 上海超级计算中心曙光4 0 0 0 a ,由5 1 2 个计算结点组成。采用t u r b ol i n u x 8 0 操作系统,提供m p i c h 、p v m ( p a r a l l e lv i r t u a lm a c h i n e ) 1 7 1 并行计算环境,使用 p l a t f o r m 公司提供的l s f ( l o a ds h a r i n gf a c i l i t y ) 1 8 软件来实现本地作业调度、 作业管理和用户管理。其峰值速度可达1 0 0 0 0 g f l o p s 。 ( 3 ) 华东理工s i m f a r m 集群,包括计算结点2 2 台。提供m p i c h 、p v m 并行计 算环境和采用o p e n p b s 作业调度软件。 ( 4 ) 上海大学自强2 0 0 0 ,采用1 0 9 台计算结点。安装有r e d h a tl i n u x 操作系统, 提供m p i c h 、p v m 并行计算环境和o p e n p b s 作业调度软件。 在各个计算资源结点中,都配置各自的g r a m 服务器,主要由g t 4 0 和g t 2 4 两个网格平台组成。在上海超级计算中心曙光4 0 0 0 a 中,采用l s f 作为集群作用 管理软件。其它三个计算资源结点上则配置了o p e n p b s 。上海高校计算网格平台 整体结构图如2 2 所示。 7 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 图2 2 上海高校计算网格平台整体结构图 由图2 2 可知,我们可以看到上海高校网格一e 一网格计算应用平台由四层结构组 成,分别是网格专用门户1 9 】【2 0 】( 也就是用户接口层) 、网格中问服务层、网格资源 管理层、网格资源层。 ( 1 ) 网格用户接口层:用户接口层主要包括网格用户管理和用户作业提交服务两 部分,它是网格资源和服务与网格用户之问的中介。用户管理包括用户注册、登陆、 身份验证等功能:用户作业提交主要实现了根据用户通过网格专用门户提供的作业 信息生成作业描述的x m l 文档,并且为用户提供了作业源代码的上传服务和结果下 载功能,用户提交管理模块还为用户提供了作业运行控制,包括停止作业运行、暂 停作业执行、查询运行中间状态等功能。 ( 2 ) 网格中间服务层:通过网格中间服务层实现了用户接口层与网格资源管理层 之间的作业信息的转换和交互,是系统的重要部分。该层主要由g t 4 0 网格工具包 实现。在这一层主要实现了对系统中各种作业信息的管理,包括作业的接收管理、 作业信息的转换管理、作业的传送管理,信息传输过程中的安全管理等等。 ( 3 ) 网格资源管理层:是作业能否正常运行的关键一层,主要负责将作业分配给 底层的网格计算资源,并实现了作业监控服务程序、系统容错等功能。这一层主要 由g t 2 4 与集群作业管理软件o p e n p b s 组成。 ( 4 ) 网格资源层:这一层是作业真正运行的环境,是网格中具体的资源结点层。 在该系统中主要是上海大学的自强3 0 0 0 、上海超级计算中心的曙光4 0 0 0 a 、华东 8 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 理工大学的s i m f a 肿和上海大学的自强2 0 0 0 这四个结点。 2 2 系统的功能需求分析 上海高校网格e 一网格计算应用平台是针对高性能计算研究设计的一个平台,由 于高性能计算是一种超大规模的计算密集型问题,它特有的研究背景和功能需求决 定了它与我们通常所说的一般计算问题之间存在一定的差别。 高性能计算作业的一个特点就是能够从断点续作的能力。由于高性能计算作业 的执行需要较长的时间周期,如果作业在执行过程中出错,但是未能被系统及时发 现,那对于用户来说在时间上是个十分无法挽回的损失。为了避免这个问题,要求 在用户的作业程序中设置中间检测点,当发现错误后可以从这个检测点开始继续执 行,而不需要重头开始再作。通过这种方法尽量将损失降到最小。 同时,考虑到高性能计算的以上特征,我们系统中设计带有“中间状态”的工 作,资源管理层可以在应用程序的运行过程中,随时读取工作的相关数据,并可根 据用户的指令加以保存,用以保证在结点计算的非正常中断情况下,仍可在这些中 间数据的基础上继续计算,实现容错,以维护网格计算的连续性。 通过对高性能计算作业特点的分析,我们可以得出上海高校网格e 网格计算应 用平台应具有的一些基本功能需求,具体如图2 - 3 所示。大致可以分为三个模块: 作业管理模块、作业中间传输模块、作业执行模块。 图2 3 上海高校网格e 网格计算应用平台功能结构图 ( 1 ) 作业控制管理模块:主要功能包括用户作业接收、作业执行控制和运行情况 查看以及资源情况监察。 ( 2 ) 中间传输模块:主要实现了对作业描述文档的转换功能、作业传送功能、安 全管理。传送对象包括作业源代码、转换好的资源信息、计算结果等信息资料。安 9 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 全管理主要实现了用户身份认证和信息在i n t e m e t 网上传输的安全问题。 ( 3 ) 作业执行模块:负责接收来自中间传输模块的作业代码和作业的需求资源描 述,并且启动作业递交程序,同时还能够监控作业的执行状况。主要的功能包括作 业控制管理、资源查询管理、容错管理等。 2 3 上海高校网格一e 网格计算应用平台的整体结构 上海高校网格一e 一网格计算应用平台的设计主要包括网格门户、调度管理、资 源管理等方面,本文主要对资源管理方面的几个方案进行了比较。 2 3 1 资源管理设计方案的比较 根据上面一节的需求分析和功能,以及上海高校网格e 网格计算应用平台中四 个主结点中有三个是采用o p e n p b s 来实现集群作业管理的,在这三个主结点上如 果都需要购买p b s p m 的话,那这个代价是十分庞大的。因此我们将o p e n p b s 作 为整个系统的集群作业管理软件来考虑,并在此基础上探讨如何引入最新的网格软 件包g t 4 0 ,实现两者的融合。 g t 4 0 是目前g l o b u s 系列网格管理工具中最新的可用版本,和g t 3 2 的主要 区别是o g s i ( o p e ng r i ds e r v i c e si n f r a s t r u c t u r e ) 2 q 向w s r f 的移植,还将几个第 三方贡献的组件正式加入到g l o b u st o o l k i t 中,如o g s a d a i 、c s f 、p y t h o n c o r e 等较新技术。 而o p e n p b s 在开发时是基于g t 2 4 平台的。因此如何保证o p e n p b s 在g t 4 0 上的正常使用,就成为项目中的一个难点。在上海高校网格e 网格平台上要应用 o p e n p b s 开源软件,需要解决以下一些问题: ( 1 ) 作业如何由位于前台的其他g l o b u s 平台接收,而转交给g t 2 4 执行。我们 需要保证在转交的过程中,作业能够被及时,准确地从一个平台传递至另一个平台。 ( 2 ) 作业的监控问题,由于在计算的过程中,用户以及调度程序需要了解当前某 个结点的计算状态,例如该结点的目前计算中间值,该结点计算是否正常等信息, 因此我们也需要及时通过我们所实现的作业监控模块,提供以上各种功能。 ( 3 ) 容错问题,由于作业在底层的结点上的计算过程中,可能出现意外中断的情 况,如何将这些意外中断的情况及时反馈给高层的控制平台,保证高性能计算的连 1 0 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 续性也是我们要考虑的重要方面。 由于上海高校网格e 网格计算应用平台是上海高校网格技术e 研究院中一个 重要的组成部分,因此为了确保项目的如期实现,在项目的执行过程中,我们依次 设计了五个方案,并分别对它们的优缺点进行了详细讨论,最后依据本系统的需求, 采用了第一套和第五套方案,第一套方案的具体实现参见文献【22 1 。本文主要介绍了 第五套方案的具体实现。下面主要分析一下五个设计方案的设计思想和优缺点。 ( 1 ) 方案一:将o p e n p b s 与g t 3 2 都装在l i n u x 7 3 的操作系统中,通过网格 软件包g t 3 2 提供的a p i 函数来实现与o p e n p b s 之间的各个接1 :3 ,最终实现 o p e n p b s 与g t 3 2 之间的融合,为网格用户提供一个简单易用的计算应用平台, 实现网格资源的充分共享。 该方案的优点: 系统的执行效率相对来说比较高。因为是直接将o p e n p b s 接入g t 3 2 的,节省了整个系统中各部件的通讯时问。 灵活性较高。由于是直接通过接口程序实现两者间的融合,可以按照需 要增加接口来实现更多的系统功能。 该方案的缺点: 本方案的可扩展性较差。由于是直接通过接口程序来完成的,所以一旦 网格工具包g l o b u st o o l k i t 的版本变化后,本系统就不能应用了。 由于该方案中采用的操作系统是l i n u x 7 3 ,对于g l o b u st o o l k i t 工具包来 说,该版本的操作系统比较陈旧,无法安装一些比较新的g i o b u st o o l k i t 工具包。这对于整个系统来说是个很大的遗憾,无法为用户提供最新的 网格服务。 ( 2 ) 方案二:将g t 3 2 与o p e n p b s 一起装于l i n u xs y s t e m 3 上。 为了解决在方案一中由于操作系统版本过低引起无法安装g i o b u st o o l k i t 高版 本的工具包的问题,我们设计了本方案。但是本方案通过实践检验后,发现在该平 台环境下,g t 3 2 与o p e n p b s 无法在本系统中正常连接。因此我们最后没有采用 该方案。 本方案的优点: 可以在这个平台上安装较高版本的g l o b u st o o l k i t 工具包,能够将 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y g l o b u s 的新功能及时提供给网格用户。 本方案的缺点: 由于g t 3 2 与o p e n p b s 无法在本系统中正常连接,因此如果要使用该 方案就必须要解决o p e n p b s 与操作系统之间的问题,由于o p e n p b s 本身的复杂性,要解决这个问题就变得困难较大。 本方案的可扩展性较差,由于本方案是通过在g t 3 2 上为o p e n p b s 创 建的接口,因此一旦g l o b u st o o l k i t 的版本中相关的a p i 函数有变动, 这个系统就得重新搭建。 ( 3 ) 方案三:将g t 4 0 与o p e n p b s 分别装在两个操作系统中,将o p e n p b s 独 立装于l i n u x 7 3 上,将g t 3 2 装于另一版本的l i n u x 操作系统上。 本方案的优点: 解决了o p e n p b s 与l i n u x 操作系统的高版本之间的不兼容问题。 解决了g l o b u st o o i k i t 高版本与l i n u x 低版本之间的问题。 该方案的缺点: 由于本方案是将g l o b u st o o l k i t 工具包与o l p e n p b s 分别装于两个l i n u x 操作系统中的,因此g l o b u st o o l k i t 工具包提供给o p e n p b s 的接1 3 在 本方案中无法使用,要重新实现这部分接口的工作量太大。 与方案一和方案二一样,该方案的可扩展性也不好。 ( 4 ) 方案四:由于直接在g l o b u st o o l k i t 的高版本与o p e n p b s 之间建立连接的 方案在可扩展性方面都不是很好,因此我们考虑在g l o b u st o o l k i t 高版本与 o p e n p b s 之间增加一个中介来解决可扩展性差这一问题。本方案是采用g t 2 4 作为中介,并且将g t 4 0 与g t 2 4 的c l i e n t 安装在同一个l i n u x 操作系统中, 而将g t 2 4 的s e r v e r 端与o p e n p b s 装于l i n u x 7 3 上。虽说本方案通过中介 g t 2 4 解决了整个系统的可扩展性差的问题,但是在一个操作系统中安装两个 不同版本的g l o b u st o o l k i t 工具包后会让l i n u x 操作系统无法正确区分两者。 该方案的优点: 解决了系统的可扩展性问题。 该方案的缺点: 由于一个l i n u x 操作系统中无法安装两个g l o b u st o o l k i t 工具包,这个 1 2 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 问题涉及操作系统、g l o b u s 工具包之间的问题,解决这个将是个大工程。 ( 5 ) 方案五:在方案四的基础上,我们将g t 4 0 独立安装于一个操作系统中, g t 2 4 的c l i e n t 、g t 2 4 的s e r v e r 与o p e n p b s 一起装在l i n u x 7 3 的操作系统中, 该方案的总体结构如图2 - 4 所示。该方案的实现也是为以后直接将o p e n p b s 直接 接入g t 4 0 提供了可能。由于本方案解决了g l o b u st o o l k i t 与l i n u x 操作系统之间 的问题,而且还解决了o p e n p b s 与l i n u x 操作系统之间的版本问题,最后还解决 了方案四的问题。因此,最终本文采用了这个方案,在后面的章节将具体介绍本方 案的具体实现部分。 图2 - 4 资源管理方案五设计图 该方案的优点: 系统的扩展性好。由于本系统中作业的调度执行是在g t 2 4 上实现的, g t 2 4 的只是负责和g t 2 4 系统之间的传输工作。以后只要在中间传输 模块中稍作改动,就可以运行本系统。而不用改系统的关键部分:g t 2 4 上所有实现。 g t 2 4 对高性能并行计算的支持比g t 3 2 更好,可以更好的实现集群的 并行计算。因为g t 2 4 可以实现进程级的并行计算,例如在高性能计算 中,这种类型的计算子任务之间的联系比较频繁,更适宜在g t 2 4 平台 上运行。 该方案的缺点: 效率方面稍显不足。由于采用了g t 2 4 作为g t 4 0 之间的中介,所以 本方案在通信时问上所花的时间略微比方案一多点,但是由于整个系统 是面向高性能计算的,高性能计算的计算时间一般都比较长,相对于这 1 3 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国直流稳压电源市场发展前景预测及投资战略咨询报告
- 一级公路可行性研究报告
- 2025年 云南省高级维修电工职业技能考试练习题附答案
- 2025年 四川广安前锋区就业保障中心招聘考试笔试试题附答案
- 2025年中国低压电动机保护器行业市场深度分析及投资策略咨询报告
- 2025年 惠东县安墩镇招聘村“两委”班子和村民小组长储备人选考试试题附答案
- 2025年工业固废项目立项申请报告模板
- 2025年 甘肃工业和信息化厅厅属事业单位地质测绘类专业招聘考试笔试试题附答案
- 2025年 北京中水科工程集团有限公司招聘考试笔试试题附答案
- 2025年中国电抗器行业市场供需现状及投资前景展望报告
- 2025届中考化学预热模拟卷 【吉林专用】
- 小学生篮球课课件下载
- 2025年中国AI智能鼠标行业市场全景分析及前景机遇研判报告
- 2025年湖北省新华书店(集团)有限公司市(县)分公司招聘笔试参考题库含答案解析
- 2025至2030中国军用推进剂和炸药行业产业运行态势及投资规划深度研究报告
- 中职教师数字素养提升策略研究与实践效果分析
- EPC总承包管理实施方案
- 广东省广州市越秀区2023-2024学年五年级下学期数学期末考试试卷(含答案)
- 2025年数智供应链案例集-商务部
- 三副实习记录簿附页
- 云南省大数据有限公司招聘专业技术人员招聘笔试真题2024
评论
0/150
提交评论