(计算机应用技术专业论文)上海高校e网格计算平台中的资源管理.pdf_第1页
(计算机应用技术专业论文)上海高校e网格计算平台中的资源管理.pdf_第2页
(计算机应用技术专业论文)上海高校e网格计算平台中的资源管理.pdf_第3页
(计算机应用技术专业论文)上海高校e网格计算平台中的资源管理.pdf_第4页
(计算机应用技术专业论文)上海高校e网格计算平台中的资源管理.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 摘要 网格是一个集成的计算与资源环境,它能够充分吸纳各种计算资源,并将它 们转化成一种方便的、可靠的、标准的和经济的计算能力。网格计算就是指将分 布的计算机组织起来协同解决复杂的科学与工程计算问题。网格概念的核心就是 突破了以往对于计算资源的种种限制,使人们可以以一种全新的、更为自由和方 便的方式使用计算资源、解决更为复杂的问题。 上海高校网格e 一网格计算应用平台就是为了满足客户对于高性能计算的要 求,使用网格计算技术开发的系统。该系统目前使用的网格计算资源有上海超级 计算中心的曙光4 0 0 0 a 、上海大学的自强3 0 0 0 、自强2 0 0 0 、华东理工大学的 s i m f a r m 四个计算集群。e 网格计算应用平台把这些计算资源根据o g s a 标准, 使用g l o b u st o o l k i t3 2 开发包连接成一个统一、可靠的系统。目前系统己通过鉴 定并成功实施运行,已有多个学校及科研单位的任务在系统上成功运行。该系统 对于促进解决重大科技项目的攻关,解决前沿学科领域的难题,推动基础理论研 究进展与创新等各方面都起到了良好的促进作用。 本文针对上海高校网格e 一网格计算应用平台中的资源管理部分作了研究和 实现。资源管理的任务主要在于管理底层计算集群资源和为上层作业管理系统提 供支持。本文的主要贡献在于: 对于构建基于多个超级计算机的网格计算系统的结构设计和技术作了 研究和实现。 丌发了s h u g r i d s e r v i c e 网格服务作为资源管理层和作业管理层的通讯接 口。该服务遵循o g s a 规范,使用g l o b u st o o l k i t3 2 开发包,提供了接 口提供、消息反馈、文件传输、日志和服务生命期管理等多个功能模块。 开发了资源管理中间件。该中间件提供了任务查询和停止、任务消息反 馈、任务信息管理、系统容错、日志管理等功能。该中间件对于如何与 s h u g f i d s e r v i c e 交互及如何支持异构管理系统( o p e n p b s 、l s f 等) 提出了 较为实用的实现方法。 对于资源管理的安全性方面做了一定的研究和实现。主要有基于g t 3 2 的服务安全认证开发方法、多个c a 中心之间的证书相互认证、l i n u x 系 统下的防火墙配置等方面。 目前上海高校网格e 一网格计算应用平台己成功实施运行,并于2 0 0 5 年1 2 月通过专家测试和鉴定,认定该系统达到国际先进水平。本论文研究开发的软件 网格资源管理软件( g r m 一1 1 ) 已经申请软件著作权,申请受理号为2 0 0 5 1 1 5 4 1 l 。 关键词:网格计算,资源管理,网格服务,中间件,安全认证 v 上海火学硕士学位论文 a b s t r a c t g r i dp l a t f o r mi n t e g r a t e sc o m p u t i n ga n dr e s o u r c em a n a g e m e n t t h e yi n c l u d e s e v e r a lk i n d so fc o m p u t i n gr e s o u r c ea n do f f e rc o n v e n i e n t ,r e l i a b l e ,s y s t e m a t i ca n d c h e a p e rc o m p u t i n gp o w e r g r i dc o m p u t i n g i se s t a b l i s h e do nd i s t r i b u t e dc o m p u t e r s y s t e m st os o l v ec o m p l i c a t ea n dl a r g es c a l ep r o b l e m si ns c i e n c ea n de n g i n e e r i n g g r i d h a sb r o k e nt h el i m i t a t i o no f c o m p u t i n gr e s o u r c ee v e ra n dp r o v i d e dam o r ef l e ea n d c o n v e n i e n tw a yt op r o c e s st h ep r o b l e m s s h a n g h a ih i g he d u c a t i o ne g r i dc o m p u t i n ga p p l i c a t i o ns y s t e mw a sd e v e l o p e d f o rt h eh i g hp e r f o r m a n c e c o m p u t i n gr e q u i r e m e n to f s c i e n c er e s e a r c ha n de n g i n e e r i n g a p p l i c a t i o n t h es y s t e mi n c l u d e sf o u rs u p e rp a r a l l e lc o m p u t e r s ,w h i c ha r e s h u g u a n 9 4 0 0 0 a i nt h es h a n g h a is u p e rc o m p u t i n gc e n t e r , z i q i a n 9 3 0 0 0a n d z i q i a n 9 2 0 0 0i ns h a n g h a iu n i v e r s i t ya n ds i m f a r mi ne a s tc h i n au n i v e r s i t yo f s c i e n c ea n dt e c h n o l o g y a c c o r d i n gt oo p e ng r i ds e r v i c e sa r c h i t e c t u r e ( o g s a ) , e g r i dc o m p u t i n ga p p l i c a t i o ns y s t e mc o n f o r m st og l o b u st o o l k i t3 2 t h es y s t e m h a sb e e na u t h e n t i c a t e da n dp u ti n t op r a c t i c es u c c e s s f u l l yn o wa n dt h e r eh a v eb e e na l o to f t a s k sf r o mu n i v e r s i t i e sa n dr e s e a r c hc o n s t i t u t e sr u n n i n gi nt h es y s t e m i ti sa n e x c e l l e n tt o o lt ot h ei m p o r t a n ts c i e n c ep r o j e c tr e s e a r c h ,r e s o l v i n gt h ed i f f i c u l t i e si n t h ea d v a n c e df i e l d ,a n dc r e a t i v i t yo f t h eb a s i ct h e o r y t h i sp a p e rs p e c i a l l yf o c u s e so nt h er e s o u r c em a n a g e m e n to f t h ee g r i d c o m p u t i n ga p p l i c a t i o ns y s t e m ,w h o s em a i nt a s k sa r et om a n a g et h ec o m p u t e r r e s o u r c ei nt h el o wl e v e la n ds u p p o r tt h er e q u i r e m e n to f j o bm a n a g e m e n t t h em a i n c o n t r i b u t i o n si n c l u d e : r e s e a r c ha n di m p l e m e n tt h ew a y o f c o n s t m c t i n gag r i dc o m p u t i n gs y s t e m c o m p o s e do ns e v e r a ls u p e rp a r a l l e lc l u s t e r s d e v e l o pag r i ds e r v i c en a m i n gs h u g r i d s e r v c i et h a tp r o v i d e st h e c o m m u n i c a t i o nb e t w e e nr e s o u r c em a n a g e m e n ta n dj o bm a n a g e m e n t ,w h i c h o b e y st h eo g s a r u l ea n du s i n gg l o b u st o o l k i t3 2 t h em a i nf u n c t i o no f s h u g r i d s e r v i c ei n c l u d e sp r o v i d i n gt h ef u n c t i o ni n t e r f a c e s ,n o t i f i c a t i o n ,f i l e t r a n s f e r s ,l o ga n dl i f ec y c l em a n a g e m e n t d e v e l o par e s o u r c em a n a g e m e n tm i d d l e w a r et h a tp r o v i d et h ef u n c t i o n ss u c h a ss e a r c h i n gt a s ki n f o r m a t i o n ,p a u s i n gw a n t e dt a s k ,r e f l e c t i n gt h e n o t i f i c a t i o no f t a s k ,m a n a g i n ga n ds t o r i n gt h ed a t eo f t a s k ,f a u l tt o l e r a n c e , a n dt h el o gm a n a g e m e n t i ts p e c i a l l yf o c u s e so nt h eh o wt oc o m m u n i c a t et o t h es h u g r i d s e r v i c ea n ds u p p o r tt h ed i f f e r e n tp a r a l l e lm a n a g es y s t e ms u c ha s v i 圭塑查兰堡兰垡笙壅 一 o p e n p b sa n dl s f , a n das u i t a b l ei m p l e m e n tw a y i sg i v e n d oal o to fw o r k si nd e v e l o p i n gt h es e c u r i t yw a yo f g r i ds e r v i c e ,s u c ha s d i f f e r e n tc ac e n t e r sc e r t i f i c a t i o nt r u s t i n ge a c ho t h e ra n df i r e w a l l c o n f i g u r a t i o ni nl i n u x e - g r i dc o m p u t i n ga p p l i c a t i o ns y s t e mh a sb e e nt o t a l i n gs u c c e s s f u l l yf o rs e v e r a l m o n t h sa n dp a s s e dt h et e s ta n da u t h e n t i c a t i o nb yt h ee x p e r t sw h oe v a l u a t i n gi tr e a c h t h ea d v a n c el e v e li nt h ew o r l d t h es o f t w a r ed e v e l o p e dh a sb e e na p p l i e df o rs o f t w a r e a u t h e n t i c a t i o n ;t h e n u m b e r o f a p p l i c a t i o n i s2 0 0 5 1 1 5 4 1 1 k e y w o r d :g r i dc o m p u t e ,r e s o u r c em a n a g e m e n t ,g r i ds e r v i c e ,m i d d l e w a r e , s e c u r i t yc e r t i f i c a t i o n v l 海人学硕= 匕学位论文 论文图表目录 图表1e 网格计算应用平台整体结构图 图表2e 网格计算平台的层次结构图 图表3e 网格计算应用平台用户界面示例 图表4 任务递交过程序列图 图表5 任务查询过程序列图 图表6 任务返回过程序列图, 图表7g r i ds e r v i c e 组织结构图 图表8w e bs e r v i c e 结构图 图表9w e bs e r v i c e 调用过程图 图表1 0 g t 3 结构图 图表1 1a n t 文件结构图 图表1 2 数据服务示例 图表1 3g t 3 的消息通知示意图 图表1 4s h u g r i d s e r v i c e 文件组织图 图表1 5s h u g r i d s e r v i c e 的功能结构图 图表1 6 消息通知结构表 图表1 7s h u g r i d s e r v i c e 和资源管理中间件的交互结构图 图表1 8r m i 体系结构图 图表1 9r m i 轮询机制 图表2 0 门面模式示意图 图表2 1 中间件静态类图 图表2 2 解析q s t a t f 的程序流程图 图表2 3 解析p b s n o d e s a 流程图 图表2 4 任务停止流程图 图表2 5 查询任务信息流程图 图表2 6 容错功能流程图。 图表2 7g s i 的安全鉴别过程图 图表2 8 多证书交叉认证模型图 图表2 9e 网格计算应用平台系统图, 图表3 0 作业递交用户界面 图表3 1 任务结果下载用户界面 。2 9 3 2 。3 3 3 4 3 5 。3 7 4 l 4 2 4 3 4 4 4 5 4 7 4 9 5 4 5 5 5 7 舟m u他他”h”=宝扎控巧拍 上海大学硕士学位论文 1 1 课题研究背景 第一章绪论 网格计算( g r i d c o m p u t m g ) 是近年来国际上兴起的一种重要的信息技术,是 专门针对复杂科学计算的一种新型计算模式。它使用标准、开放、通用的协议和 界面,通过高速网络连接,将地理上分散的、异构的各种高性能计算系统、软件 系统、大型数据存储系统、数字化仪器设备和控制系统等各种资源按需动态地集 成为一体,构成一个单一映像的“虚拟组织”口】,充分发挥和利用系统中各种资 源的计算和服务能力,实现资源共享和协同解决复杂的科学与工程计算问题。根 据求解问题的特点,网格还分为以数据密集型问题处理为核心的数据网格,以 解决科学问题为核心的科学网格h ,以全球地球模型问题为目标的地球系统网格 【5 l ,以地震预测为目标的地震网格1 6 ,以军事目的为核心的军事网格【_ 1 及n a s a ( n a t i o n a la e r o n a u t i c sa n ds p a c ea d m i n i s t r a t i o n ) 的i p g t 8 l 网格等多种行业应用。 网格系统中,资源和服务之间的信息交互采用了规范的网格信息描述方法, 用户在使用这些网格系统提供的资源和服务时,需要编写规范的网格作业描述文 档。如果没有网格的作业管理,就需要用户去熟悉这些规范语言和描述方法,这 对于其他领域的科研人员和普通用户来说,显然是比较困难的。此外,网格资源 的异构、多样、动态、自治等特性,传统方式的作业调度和资源管理方法同样也 不能很好的适应网格系统了。 “上海高校网格e 一研究院”是一个以信息网络为平台的虚拟研究机构。它 不需要一般研究院那样的庞大人事组织机构,仅需通过约定和网络就可以与全 市、全国乃至全世界的研究人员对重大课题、重大攻关项目进行研究上的合作。 e 研究院目前主要从事基础理论攻关,将与各方面科学家共同承担一些今后将对 高科技发展产生重大影响的基础理论研究项目。上海高校网格e 网格计算应用 平台是“上海高校网格e 研究院”的子项目,是为e 研究院中高性能计算的研 究提供的一个专用网格计算平台。 1 2 网格技术简介 1 2 1 网格技术特点 网格具有如下特点: ( 1 ) 分布性。组成网格的资源在地理位置上是分布的,这些资源可能是计算 上海人学硕上学位论文 资源,存储资源,数据资源,仪器资源等等,分布在地理位置不同的许多地方, 而不是集中在一起。在这种分布环境下,需要解决网格资源针对任务的分配和调 度问题、传输和通信问题,人与系统以及人与人之间的交互和协同问题,网格应 用在分布环境中自动执行和协作问题; ( 2 1 异构性。组成网格的资源是异构的,对于计算资源,有不同的类型的计 算机,不同的计算方式,不同的计算接口,不同的系统架构;同样对于存储资源 和其它资源也面临这样的问题。因此网格要具有利用资源的异构特点进行处理的 能力,同时也要具有提供一致资源管理的能力; ( 3 1 自治性。网格上的资源首先是属于某一本地的个人或者组织,网格资源 的拥有者对资源具有最高级别的管理权限,网格应该允许资源拥有者对其资源有 自主的管理能力,因此具有自治性。同时这些资源根据一定的约束和规则接受网 格的统一管理,实现资源的共享和互操作,这使得网格管理比一般的分布式系统 更为复杂,具有管理的多重性; ( 4 1 动态性。由于网格中的资源具有自治性,因此网格资源可能动态的加入 或者退出网格,也可能出现故障导致不可用,另外资源的性能情况也可能发生较 大的变化,使得供网格使用的资源也会发生相应的变化。由于网格没有集中控制 能力,因此对于这种动态性需要有一种机制来保障网格应用的运行不会遭受比较 大的影响; ( 5 ) 自相似性。网格的局部和整体之间存在着一定的相似性,局部在许多地 方具有全局的某些特征,而全局的特征在局部也有一定的体现,网格的构建通过 小的局部网格可以形成更大的网格,其构成方式具有相似性。 网格技术与其它分布计算技术的区别: f 1 ) 从计算模式方面来看。网格系统具有分布式系统和并行系统的特征,但 是又与二者有着非常重要的区别。与分布式系统类似,网格系统也是由位于多个 管理域下的超级计算机通过不可靠的网络进行连接,并且需要对广域分布的动态 资源进行集成,但是网格系统的编程模型及接口与分布式系统有极大的差别。同 时,网格系统作为并行系统还需要进行超级计算机之间的通信调度以满足应用对 高性能的要求。所以,与网格系统的异构性以及动态性的特点相比,现有的并行 计算技术的应用具有很大的限制。 ( 2 ) 从资源共享方面看。传统因特网实现了计算机硬件的连通,w e b 实现了 网页的连通,而网格则试图实现互联网上所有资源的全面连通,其中包括计算资 源、存储资源、通信资源、软件资源、信息资源、知识资源等。网格的这些特点 也决定了网格与传统网络互连、资源共享技术的区别。比如:网格用户接口简单, 设备接入阈值低。网格技术为用户提供了与设备、平台无关的标准接口。任何设 备,只要具有接入网格的标准接口,就可以成为网格的一部分:全范围的资源共 上海大学硕士学位论文 享。网格上的任何资源都可以让世界范围内的任用户通过网格使用,不论用户 在什么地方、使用什么设备接入网格;网格为用户提供的服务与用户拥有设备的 功能无关。网格系统会根据接入网格的设备的情况为用户提供合适的服务。 1 2 2 国外网格研究现状 美国对网格的研究起步较早,处于领先地位。起先,研究者主要来自一些研 究机构,后来一些大公司都参与进来。这些研究机构和大公司主要来自一些欧美 发达国家。 2 0 0 1 年9 月,美国国家自然科学基金( n s f ) 宣布了一个重大科研项目,研 制称为“分布式万亿级设施( d i s t r i b u t e d t e r a s c a l e f a c i l i t y ) ”的网格系统,简称 t e r a g r i d 。它支持计算密集型、数据密集型和通讯密集型的应用,其主要应用领 域为气候、环境资源、地震、发动机模拟、生物、材料等科学计算和工程模拟应 用。同时,美国军方正规划实施一个宏大的网格计划,叫做“全球信息网格( g l o b a l i n f o r m a t i o ng r i d , g i g l ”,预计2 0 2 0 年完成。 与此同时,欧洲科学家和政府也开始对网格进行研究。欧洲研究者在网格项 目中提出了一种三层结构,即计算网格数据网格、信息网格、知识网格。其中 英国的e s c i e n c e 计划较为著名,为大规模科学研究提供基于i n t e m e t 的分布式 全球合作计算环境,其应用领域包括粒子物理、生物信息学、气候环境变化、工 程系统设计等多学科领域。其他国家,例如日本、印度、韩国和新加坡等,也制 定了本国的研究计划。 1 2 3 国内网格研究现状 我国对网格计算的研究工作起步较晚,相关工作开始于1 9 9 6 年。目前,我 国的在计算网格方面的研究主要集中于高性能计算方面有较强实力的研究单位。 这些单位在高性能计算研究方面有很好的技术积累和很强的科研能力。其中,中 科院计算所在高性能计算领域的主要成果是曙光3 0 0 0 超级服务器,是其中的杰 出代表。 “国家高性能计算环境”( 亦称国家计算网格) 是国家级高性能计算和信息 服务的战略性基础设施,它的目标是建立一个计算资源广域分布、支持异构体性 的计算网格示范系统,在全国范围内为各行业提供各种一体化的高性能的计算环 境和信息服务。 教育部“c h i n a g r i d ”计划在国家“8 6 3 ”计划及“2 1 1 ”工程支持下,基于c e m e t , 建立聚合能力超过每秒1 5 亿次量级的教育科研网格,总存储容量超过2 6 0 t b , 形成最先进、最实用的中国教育科研网格,其节点覆盖2 1 1 建设的1 0 0 所部署高 等院校。 此外,还有中科院计算所的“织女星网格”( v e g a g r i d ) ,国家自然科学基金 委“e s c i e n c e ”重大专项计划( 通过网格计算支持重大科学问题研究) 以及各科 上海大学硕上学位论文 研单位所开展的不同领域内网格课题研究。 2 0 0 2 年底,上海市宣布投入二千万人民币建设e i n s t i t u t e ,其中网格是重点。 通过将上海大学、上海超级计算中心、华东理工大学等多所高校的高性能计算机 系统用网格整合起来,提供资源共享和协同教学科研。项目的总体目标是在上海 市教委领导下,为e - 研究院( e i n s t i t u t i o n s ) 项目建立一个以网格技术为基础的平 台,推进上海市高校的先进计算科学与工程,推进上海市高校的网上合作与协同 计算,为今后上海市高校的科学研究水平大步发展打下一种基础:在信息网格的 研究过程中,以上海大学、上海超级计算中心、华东理工大学为主要节点,建立 开放的信息网格环境,方便其它节点的接入。重点突出互连参考模型、节点功能 和接入软件环境建设、平台开发环境建设等技术。 1 3 课题主要研究内容 本文就基于上海高校网格e 网格计算应用平台项目中的资源管理部分进行 了详细的实现描述。资源管理是上海高校网格e 网格计算应用平台项目的重要 组成部分,资源管理负责管理底层的运算资源,它是直接与运行在自强3 0 0 0 , 曙光4 0 0 0 上的并行计算管理系统o p e n p b s t ”、l s f 【1 1 交互的,并使用g l o b u s t o o l k i t3 2 【1 ”开发网格服务为上层应用提供各种必要的支持。由于并行计算管理 系统的不同,在实现资源管理功能时,还要考虑对异构系统的支持和以后的扩展。 在安全性方面,由于对外接口是基于g t 3 2 开发的,管理系统主要使用g t 3 2 提供的安全机制。 本文所做的主要工作如下: 针对上海高校网格e 一网格计算应用平台项目的项目需求和具体的运算集群 环境,设计资源管理部分的体系结构并详细实现;e 一网格计算应用平台划分为五 个层次,资源管理部分主要管理最下面三层,分别是网格服务层、资源管理中间 件,网格运算资源层。其中本文主要工作集中在网格服务层和资源管理中间件的 实现。 开发基于o g s a 【| ”的网格服务s h u g r i d s e r v i c e ;s h u g r i d s e r v i c e 是网格服务 层的核心服务,其遵循o g s a 规范,使用g l o b u st o o l k i t3 2 开发包开发。它为上 层系统和下层系统提供了可靠的、安全的、符合0 g s a 标准的、运行于i n t e m e t 上的服务。 开发基于异构资源( o p e n p b s ,l s f ) 的资源管理中间件;资源管理中间件 是整个资源管理部分的核心组件,它具体实现了作业管理层对底层资源的各种需 求,并对上层屏蔽异构资源的不同实现,并提供了日志管理、容错功能、任务信 息管理等在中间件提供的功能。 对资源管理的各个组件的安全管理;由于网格服务层是面向i n t e m e t 的,所 l 海人学硕士学位论文 以其安全特性是非常重要的,也是系统可靠长久运行的关键。g t 3 2 提供了一套 比较完善的安全管理结构,本文主要使用该系统来实现资源管理的安全保证。由 于现实情况的要求,本文对双向数字认证t ”作了一定的研究并把它使用到资源管 理中。另外,由于网格服务层是实现在l i n u x 系统上的,本文还就如何实现l i n u x 操作系统层次的防火墙安全1 做了一定的探讨和实现。 1 4 本文的组织结构 本文其它章节的内容如下: 第二章介绍了上海高校网格e 一网格计算应用平台项目的结构和层次划分。 第三章介绍了网格服务层的需求、结构和具体实现。 第四章介绍了资源管理中间件的系统分析,结构划分和具体实现。 第五章介绍了资源管理中的安全部分实现。 第六章是e 一网格计算应用平台项目的运行实例。 第七章总结全文并提出对此项目进一步研究的展望。 第二章e 网格计算应用平台的系统设计 2 1e 网格计算应用平台简介 高性能计算网格把分布在不同地点的、不同单位的、不同计算节点的各种计 算和信息服务资源,例如处理能力、存储能力和信息服务能力,整合为一个单一 的( 虚拟的) 系统,创造跨学科、跨地区科研交流的合作环境,促进解决重大科 技项目的攻关,解决前沿学科领域的难题,推动基础理论研究进展与创新。 上海高校网格e 一网格计算应用平台由一个平台和四个结点组成,每一个结 点是一个高性能的集群式分布计算资源,是在网格o g s i 规范和g l o b u s 网格核 心中间件基础上实现的。四个高性能的集群式分布计算资源是: 上海大学自强3 0 0 0 上海超级计算中心曙光4 0 0 0 a 上海大学自强2 0 0 0 华东理工s i m f a r m 其中两个主力计算集群为自强3 0 0 0 和曙光4 0 0 0 a 。下面介绍下各个计算集 群的性能参数: ( 1 ) 自强3 0 0 0 的性能参数为: 峰值速度2 1 5 4 ( g f l o p s ) 、l i n p a c k 值1 5 1 l ( g f l o p s ) 、效率、o 7 上海大学预上学位论立 计算结点1 7 4 台( 每台2 个3 0 6 g h z i n t e l x e o n c p u ,2 g b 内存,1 块3 6 g b 硬盘,集成r a i d 控制器) 1 台d l 3 8 0 服务器作为管理节点,( 2 个3 0 6 g h zb a t e lx e o nc p u , 2 g b 内存) 1 台d l 3 8 0 服务器作为存储访问节点,( 2 个3 0 6 g h zi n t e lx e o n c p u ,4 g b 内存) i n f i n i b a n d 交换机作为互联网络 存储容量1 t 磁盘阵列 采用1 0 1 0 0 网络交换机作为内部管理网络,和c o n s o l e 网络 每台服务器集成了一个远程管理卡i n t e g r a t e dl i g h t s o u tf i l o ) ,用于 远程管理功能 操作系统r e d h a tl i n u x 操作系统 提供m p i c h 并行计算环境 o p e n p b s 作业调度软件 c m u 集群管理软件 用户登录和权限管理软件( n t i s 和m o d u l e sp a c k a g e ) i n t e lc c + + ,f o r t r a n ,g n uc c + + ,f o r t r a n h p m l i b 数学库或者i n t e lm k l 数学库 ( 2 ) 曙光4 0 0 0 a 的性能参数: 峰值速度1 1 万亿次秒 采用c l u s t e r 体系结构,m :y r i n e t 互联 5 1 2 个计算节点,4 个接入节点,1 6 个存储节点 2 1 2 8 个6 4 位a m do p t e r o nc p u ,5 t b 内存,9 5 t bs c s ir a i d 存 储 t u r b ol i n u x8 0f o ra m d6 4 编程语言:c 、c + + 、f o r t r a n 、o p e n m l 和j a v a 并行计算环境:m p i 、p v m ( 3 ) 自强2 0 0 0 的性能参数: 峰值速度:4 5 0 ( g f l o p s ) 计算结点1 0 9 台( 每台2 个i n t e lp i i ic p u ) 1 台数据库服务器 1 台w e b 服务器 l 台w e b 管理服务器 系统总存储容量2 5 3 0 g 系统总内存容量2 2 2 5 g 上海大学硕上学位论文 所有计算结点采用1 0 1 0 0 以太网,其中1 6 台主结点用m y r i n e t 互 联 操作系统r e d h a tl i n u x 操作系统 提供m p i c h 、p v m 并行计算环境 o p e n p b s 作业调度软件 h p f 并行编译器 通用的编程语言c c + + ,f o r t r a n 7 7 9 0 和j a v a 等 ( 4 ) 华东理工大学s i m f a r m 的性能参数 峰值速度:1 4 6 8 ( g f l o p s ) 计算结点2 2 台( 每台2 个a m da t h l o n ) 1 台管理服务器 1 台登录服务器 系统总存储容量9 6 0 g 系统总内存容量1 2 g 计算结点采用1 0 1 0 0 以太网 操作系统m a n d r a k e9 1 操作系统 提供m p i c h 、p v m 并行计算环境 o p e n p b s 作业调度软件 通用的编程语言c c + + ,f o r t r a n 7 7 9 0 和j a v a 等 在每个计算资源节点中,配置一台g r a m 服务器,该服务器主要配置如下: 操作系统为r e d h a tl i n u xe n t e r p r i s ew s3 0 + g l o b u st o o l k i t s3 2 + p b s ( 或者 l s f ) 。上海市高校计算网格平台其平台整体结构图如图表1 所示 l 海大学硕士学位论文 图表1e - 网格计算应用平台整体结构图 对于用户来说,他只需要有一台能上i n t e r n e t 网的客户端机器就可以通过 浏览器访问网格计算平台。平台系统为用户提供了递交作业、查询作业、取得作 业结果等功能。平台会根据用户及计算集群的优先级来分配和调度任务,并监视 和保存每个任务的运行信息以备控制和查询,最后当任务运算完毕后,平台会发 电子邮件到用户的邮箱提醒用户可以到网页上去下载结果。对于用户来说,他不 需要知道具体递交到哪个计算集群、也不需要关心异构并行管理系统的差异性, 只需要递交能正常运行的代码就可以非常方便的使用本平台提供的超级运算资 源。如果用户提供了作业运行时的中间结果保存功能,那么还可以使用到平台提 供的容错功能。总之,e 一网格计算应用平台的特点有: 提供高性能计算资源,其中上海超级计算中心的曙光4 0 0 0 a 和上海大学 的自强3 0 0 0 都居全国领先水平。 使用网格技术连接和调度各个资源,提供抢先功能。配合平台中各个功 能模块使得用户使用方便,任务运行可靠。 使用c a 认证技术和防火墙技术,保证系统的安全可靠。 2 2e 网格计算应用平台的结构层次 上海高校高性能网格由用户接口层、作业管理层、网格服务层、资源管理中 间件层和网格资源层五层结构组成。 e 海大学硕上学位论文 ( 1 ) 网格用户接口层: 用户接口层是网格资源和服务与网格用户之间的桥梁,它主要包括网格用户 管理和用户作业提交服务。网格用户管理实现用户的注册、登陆、身份验证以及 服务授权等,用户作业提交服务则根据用户作业信息自动转换成规范的作业描述 文档,用于实现各服务模块之间的信息交互,提供用户作业程序和数据文件的传 输服务等。此外,网格用户还可以通过用户层提供的接口界面实现作业的信息反 馈请求和监控需求等。 ( 2 ) 网格作业管理层: 网格作业管理层主要提供作业一级的管理,其主要功能包括包括网格数据管 理、信息服务、网格作业调度、作业监控服务主程序以及资源管理等。作业调度 负责调度用户作业,为其决策需求资源,并将其提交到资源节点上运行。 ( 3 ) 网格服务层: 网格中间件层主要由g l o b u s t o o l k i t3 2 的资源分配管理者g r a m ( g l o b u s r e s o u r c e a l l o c a t i o nm a n a g e r ) 【1 和网格服务m 1 s h u g r i d s e r v i c e 等组成。g r a m 负 责与本地资源管理系统之间的交互,s h u g r i d s e r v i c e 则负责所有运行在本地资源 节点的作业信息收集与反馈。这一层主要为作业管理和资源管理两层提供透明的 连接功能。 ( 4 ) 资源管理中间件层: 资源管理中间件层是管理底层作业系统的核心部件。它的功能包括提取底层 系统的作业和结点运行信息,监控集群运行情况,存储作业运行记录和工作日志 等。 ( 5 ) 网格运算资源层: 运算资源层是网格系统中作业执行的真正环境,它主要由本地资源管理系统 和具体的资源节点组成。目前系统中所使用的底层作业管理系统主要有o p e n p b s 和l s f 两种。 该系统的系统结构图如图表2 所示: 匕海大学硕j - 学位论文 用户接口层 作业管理层 d a t a m a n a g e m e n t 网格服务层 鱼! 旦业! 鱼坠堑 s h u g r i d s e r v i c e 资源管理中间件 r e s o u r c em a n a g e m e n t 自强3 0 0 0 曙光4 0 0 0 al 自强2 0 0 0 s i m f a r m 叵固i 旦1 区固l 叵回 图表2e 网格计算平台的层次结构图 2 3e 网格计算应用平台运行过程 高性能计算网格系统在实际运行时充分发挥了网格的优势,使用户在使用系 统时无需考虑底层系统的复杂性,而只要在w e b 页面上输入参数就可以方便的 递交任务,查询任务和获得任务结果。 用户界面如图表3 所示 o 上海人学硕士学位论文 图表3e - 网格计算应用平台用户界面示例 2 3 1 任务递交过程 当用户递交任务后,该任务会依次通过上一节所述的各层,最终由系统选择 一个合适的运算集群进行实际运算。首先,用户登录并到递交任务页面,上传自 己的打包文件,然后填写可执行文件名( 系统将在底层集群上执行此文件) 和需 要的结点数,然后递交任务。 然后,网络作业管理层接管任务。该层对于每个集群有一个优先级的列表, 对于递交上的任务会先判断优先级高的集群是否有足够的空闲结点数,如果有则 递交到该集群,如果没有则继续查询到下一优先级的集群。 网络作业管理层在判断向哪个集群去递交任务后,就根据该用户的需求生成 r s l 脚本,然后向该集群的网格服务层发送请求。g l o b u s 的p b s 服务会解析该 r s l 脚本生成o p e n p b s 或l s f 可执行的脚本文件,并使之运行。 当该任务在结点上开始运算时,资源管理中间件会自动侦;顷t j n 该信息,并把 该任务的相关信息记录到后台数据文件中。同时通过网格服务层,向作业管理层 发送该任务开始运行及空闲结点数的变化信息。 任务递交过程的u m l 序列图【l7 描述如图表4 所示: 上海大学硕士学位论文 甲孚国叵窜擘擘 图表4 任务递交过程序列图 2 3 2 任务信息查询过程 用户在递交任务后,会想要查询该任务的运行状态。首先用户在递交完任务 后会获得该任务的一个唯一编号,以后可以根据该编号来查询对应任务的运行状 态。在w e b 页面上递交查询请求后,网格用户接口层会向网格作业管理层传递 该请求。后者根据记录文件查询到该任务被分配到哪个集群上,然后通过该集群 的网格服务s h u g r i d s e r v i c e 向资源管理中间件提交查询请求。资源管理中间件查 询后台数据文件中的任务信息,并再依此通过各层返回到用户界面上。可提供的 任务信息包括运算任务的集群名,任务d 号,开始时间,结束时间等( 依据p b s 或l s f ,提供的信息会有所不同) 。 任务信息查询过程的u m l 序列图描述如图表5 所示: 闹一雾 产矿f 图表5 任务查询过程序列图 上海大学硕。j :学位论文 2 3 3 任务结果返回过程 用户的任务在运行完毕后,应当由一套机制主动通知用户来取得任务。首先, 运行该任务的集群系统上的资源管理中间件检测到任务结束消息,并通知网格服 务层。网格服务层在收到该消息时,使用g l o b u s 的消息通女i ( n o t i f i c a t i o n ) t 1 8 1 方法 通知作业管理层。然后作业管理层根据用户在注册时提供的e m a i l 地址向发送通 知邮件。用户在收到邮件后,登录网站后就可以看到己完成的任务列表并下载相 应的任务结果。 任务结果返回的u m l 序列图描述如图表6 所示: 回匡叵国匡匡蕈雪匡囤 | | 任务结束消息1 l 亡= ) 保存结果文1 l 任务结束处理l 获取结u 果文件l j 2 4 本章小结 图表6 任务返回过程序列图 本章介绍了上海高校e 网格计算应用平台的背景和功能,并对整个系统平 台的结构设计和系统层次划分作了研究和描述,最后对系统的主要几个功能的实 现做了简要的描述。 第三章资源管理模块中的网格服务层 资源管理模块主要负责上述系统中网格服务层,资源管理中间件和网格资源 运算层的实现。资源管理模块的对外接口就是网格服务层,它为作业管理层提供 了通用的接口和消息通知机制,使得作业管理层可以不管底层系统的差异而运 作。资源管理中间件是具体功能的提供者,是资源管理模块的核心部件。 3 1 网格服务的基本概念 网格服务( g r i ds e r v i c e ) 是由0gsa 由所定义的,0s0i 所规范的 卜海大学硕士学位论文 基于web service 技术的服务。其组成结构如图表7 所示 图表7g r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论