




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着现代科学技术水平的不断发展,传统的科研手段已经不能适应当前的科 研需求。而e s c i e n c e 概念的出现,使得跨学科、跨地域和跨文化的科学家群体 可以共同协作完成大型科学研究工作。网格技术被认为是未来信息社会的基础设 施之一,它提供了不同地理位置之间、大规模资源跨组织协调共享的能力,目前 逐渐成为e s c i e n c e 应用中的基础底层架构。在网格环境下,各种软件、硬件等 资源都以网格服务的形式存在,然而大规模的科学应用往往表现为复杂的科学流 程,单个网格服务由于其功能单一而无法完成一个计算量巨大且计算步骤繁杂的 科学任务。 网格工作流能够方便地构建、执行、管理和监控网格应用,使得网格应用能 够自动、高效地实施,然而网格资源的多样性、动态性、异构性、分布性使得对 大规模科学流程的处理受到一定的限制,而传统工作流的方法和技术不能有效地 处理网格环境中的有关问题。因此,需要针对网格和网格科学应用自身的特点重 新研究面向复杂网格科学计算应用的网格工作流处理技术,为科学家在e s c i e n c e 环境中开展复杂科学计算、实验分析、协同工作以及成果共享等研究活动提供一 种便利的研究方式。 为解决上述问题,我们提出了抽象网格服务和用户作业需求描述两个核心概 念,设计和实现了面向e s c i e n c e 应用网格工作流管理系统。通过把相同功能类 型的网格服务抽象成抽象服务,从而屏蔽了网格平台服务的异构性进而实现对网 格服务的动态调用。该系统首先提供了一个工作流可视化编辑界面,方便科学家 通过对抽象服务使用拖拽方式来编排网格工作流,同时也提供了用户作业需求描 述文档来定制工作流中单独的科学任务单元对网格平台的执行环境、网格服务以 及任务本身的特殊化需求;并提供了面向应用工作流管理系统对抽象工作流进行 分解,并生成单独的作业,同时组合作业需求描述以及相应的数据信息,形成具 体的任务作业,最后分发到作业池中。在此系统中作业池主要负责作业的接收、 分发和缓冲,并根据网格资源的负载情况把作业分发到网格作业管理系统。因此, 通过此系统能够创建更加灵活的面向科学协作的大规模协同工作环境,更好地 使用网格资源,从而提高工作效率。 关键词:e s c i e n c e 、抽象服务、用户作业需求描述文档、网格工作流管理系统、 工作流可视化编辑器 h a b s t r a c t w i t ht h ea d v e n to fs c i e n c et e c h n o l o g y , t h et r a d i t i o n a lm e a n so fs c i e n t i f i cr e s e a r c hc a n n o tm e e tt h ec u r r e n tn e e d so ft h es c i e n t i f i cr e s e a r c h a f t e rt h ee m e r g e n c eo ft h e e - s c i e n c e ,s c i e n t i s t si nd i f f e r e n tf i e l d sc a nw o r kt o g e t h e rt oc o m p l e t el a r g e s c a l e s c i e n t i f i cr e s e a r c h g r i dt e c h n o l o g yi sc o n s i d e r e da st h ef u t u r ei n f r a s t r u c t u r eo ft h e i n f o r m a t i o ns o c i e t y , w h i c hp r o v i d e ss h a r i n gr e s o u r c eb e t w e e nd i f f e r e n tg e o g r a p h i c a l l o c a t i o n s g r i dg r a d u a l l yb e c o m e st h ea r c h i t e c t u r eo fe - s c i e n c e a l lk i n d so fr e s o u r c e s i ng r i de n v i r o n m e n t ,s u c ha ss o f t w a r e ,h a r d w a r e ,a n do t h e r s ,a r ee x p r e s s e da sg r i d s e r v i c e ,b u tas i n g l eg r i ds e r v i c ec o u l dn o tc o m p l e t eh u g ea n dc o m p l i c a t e ds c i e n t i f i c c o m p u t i n gt a s k s a n dg r i de n v i r o n m e n ti sd y n a m i cw h e ne a c hs c i e n t i s ti n v o l v e si n d i f f e r e n tr e q u i r e m e n t st os u b m i tt h e i rc o m p u t a t i o n a lj o b st oh e t e r o g e n e o u se x e c u t i n g e n v i r o n m e n t ,w h i c hb r i n ga b o u tn e wp r o b l e m si nw o r k f l o wm a n a g e m e n t t h e r e f o r e ,i no r d e rt os o l v et h ei s s u e so fc o m p l e x i t y , h e t e r o g e n e i t ya n dd y n a m i s m ,i n t h i sp a p e rw ed e v e l o p e dg r i dw o r k f l o wm a n a g e m e n ts y s t e mt o w a r d se - s c i e n c e a p p l i c a t i o n - o b j e c t e db a s e do na b s t r a c ts e r v i c e t h ea b s t r a c ts e r v i c ei sa na b s t r a c t c o m b i n a t i o ns e r v i c ef o rag r o u pw e bs e r v i c ew i t hs i m i l a rf u n c t i o n a n dw ep r e s e n t e d s e r v i c ec e n t e r , w h i c hc o n t a i n sal a r g en u m b e ro fa b s t r a c ts e r v i c e st of o r mav i r t u a l u n i f o r mv i e wt os h i e l dt h ed i v e r s i t ya m o n gv a r i o u sw e bs e r v i c e s w ea l s od e v e l o p e da v i s u a lw o r k f l o wd e s i g n e r , w h i c ha l l o w ss c i e n t i s t st oo r c h e s t r a t ea na b s t r a c tw o r k f l o w b yj u s td r a g g i n go rd r o p p i n gt h eg r a p h i c a lr e p r e s e n t a t i o n so fa b s t r a c ts e r v i c e st o ( o r f r o m ) t h ec a n v a s e s p e c i a l l y , t h er e q u i r e m e n td e s c r i p t i o nd o c u m e n t ( r d d ) w a s p r o p o s e dt od e s c r i b et h es p e c i a ld e m a n d so fi n d i v i d u a lc o m p u t a t i o n a lj o b si nx m l g r a m m a r k e yw o r d s :g r i dc o m p u t i n g , a b s t r a c ts e r v i c e ,w o r k f l o wd e s i g n e r , r e q u i r e m e n t d e s c r i p t i o nd o c u m e n t ,w f a m s i i i 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立 进行研究所取得的成果。学位论文中凡引用他人已经发表或未发表的 成果、数据、观点等,均己明确注明出处。除文中已经注明引用的内 容外,不包含任何其他个人或集体己经发表或撰写过的科研成果。对 本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式 标明。 本声明的法律责任由本人承担。 论文作者签名- _ 签蜀 日 期:通釜盟塑一一 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归 属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定, 同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版, 允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部 或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和 汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相 关的学术论文或成果时,第一署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 论文作者签名: 细导师签名i :j1 日期:碰互蛩扣9 f i l 兰州大学硕士学位论文 面向c s c i e n c e 应用的网格工作流管理系统 第一章引言 随着现代高科技的发展,以网格为基础的科学活动环境成为当前网格计算技 术研究的热点和前沿领域。网格是将广域范围的各类计算资源( 包括c p u 、存 储器、数据库等) 通过高速互联网组成充分共享的资源集成,提供一种高性能计 算、管理及服务的资源能力【1 】。网格技术的出现使得大量的科学研究人员与计 算机资源的协作成为可能,它促进了科学研究的一种新方式e s c i e n c e 的发展。 e s c i e n c e 应用的实质是利用具有分布计算和资源共享能力的基础平台实现科学 研究的信息化,为科学研究提供一个高度共享和协作的学术研究环境。由于网格 所提供的不同地理位置之间、大规模资源跨组织协调共享的能力,目前它逐渐成 为e s c i e n c e 应用中的基础底层架构。 在网格环境中,无论是计算资源还是存储资源基本上都被包装成网格服务的 形式。然而单一的网格服务由于其功能的单一性无法完成e s c i e n c e 应用所要处 理的计算量巨大且逻辑过程复杂的科学任务,因此需要将多个网格服务有效组合 起来,形成功能更为强大的网格服务,实现科学任务的流程化和自动化。所以在 e s c i e n c e 应用中引入了网格工作流概念。 本论文的研究目的在于构建面向e s c i e n c e 环境应用的网格工作流管理系统, 利用网格工作流技术建设以网格为基础的科学活动环境,实现i n t e r a c t 上计算资 源、数据资源和服务资源的有效聚合和广泛共享。 本章首先介绍网格和网格计算的概念、e s c i e n c e 基本概念、网格的应用领域, 在此基础上讨论基于e s c i e n c e 应用下网格工作流的动机和需求,指出网格工作 流研究的必要性和关键技术,为本文后续的网格工作流关键问题研究、管理系统 的设计与实现及应用操作做铺垫。 1 1 网格计算 1 1 1 网格计算基础概念 2 0 世纪9 0 年代初,随着高性能计算技术和互联网技术的进一步融合,起源 1 兰州大学硕士学位论文面向e , - s e i e n c e 应用的网格工作流管理系统 于美国政府资助的分布式超级计算( d i s t r i b u t e ds u p e r c o m p u t i n g ) 项目i - w a y 2 】 的网格计算技术,成为了继i n t e m e t 、w e b 之后的第三大技术浪潮。综合网格之 父g l o b u s 6 7 8 项目开发组的领导者i a nf o s t e r 对网格的定义以及科研和产业 界所提的各种网格概念,网格可描述成:网格集成动态、跨机构的虚拟组织的各 种资源( 包括计算机、网络、数据、知识、仪器设备等) ,形成一台超级虚拟计 算机,提供一种强大、易用、可靠、经济、标准的计算和服务能力,实现广域范 围、多机构间的资源共享和协同问题解决。网格【3 】【4 】【5 】的概念产生于9 0 年代中 期,其构想来源于电力网。当用户用电时,只需将插头插入电源插座,并不关心 所用的电是来自哪个发电厂的哪台发电机、是怎么分配、调度和传输的。同样, 人们期望对计算机资源的使用能达到类似的状态,只要通过简单的接入,就可以 获取自己所需要的资源,而不必关心资源的来源、实现细节和调度过程。 网格计算是分布式计算( d i s t r i b u t e dc o m p u t i n g ) i f j - - 种方式。分布式计算是一 门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成 许多小的部分,然后把这些部分分配给多个计算机进行处理,最后把这些计算结 果综合起来得到最终的结果,其实质就是集中利用网上分散的闲置处理能力和资 源。网格计算利用互联网把分散在不同地理位置的电脑组织成一个“虚拟的超级 计算机”来使用,通过这种方法提高各台计算机的使用效率,使其整体的处理能 力大大提高。在网格计算模式下,系统可以自动向每台计算机分配任务。如果其 中一台计算机出现故障,其他的计算机可以自动替代它继续进行处理,网格技术 能更好的管理网上的资源,将之虚拟成为一个空前强大的一体化信息系统,在动 态变化的网络环境中,共享资源和协同解决问题,从而让用户享受可灵活控制的、 智能的、协作式的信息服务。 1 1 2 网格计算特点 最初科学家们设想把网格构造成电力网一样,只要“插上插头 就能源源不 断的获得计算能力。然而,几年的实践证明,这些设想在现阶段尚不现实,计算 网格远比电力网格要复杂的多。目前,网格计算的开发已经迈上了一个新台阶, 进入到应用层面,面临的新挑战是如何将异构的系统和应用程序集成到一个范围 更加广泛的逻辑网格上,从而为科学应用带来更高的性能。作为一种新的计算基 2 兰州大学硕士学位论文面向e s c i e n c e 应用的网格工作流管理系统 础设施,网格具有以下一些重要的特点,这些特点对网格应用有重要的影响 【1 1 1 5 1 1 9 1 : 分布性。网格资源可能由计算资源、存储资源、数据资源、仪器资源等 组成,这些资源在地理上是分散的,而非集中的。在这种分布环境下, 需要解决网格资源针对任务的分配和调度问题、传输和分配问题,人与 系统以及人与人之间的相互协同问题,网格应用在分布环境中自动执行 问题和协作问题。 、 异构性。网格由分布在广域网上的各种计算资源组成,这些资源从本质 上说是异构的,对于计算资源,有不同类型的计算机、不同的计算方式、 不同的计算接口、不同的系统架构;对于存储资源和其他资源也面临这 样的问题。 自制性。网格资源实现属于某个本地的个人或组织,网格资源的拥有者 对资源有最高权限的管理资格,网格允许资源拥有者对其所属资源拥有 自主的管理能力,因此拥有自治性。同时这些资源根据一定的约束和规 则接受网格的统一管理,实现资源的共享和互操作。 动态性。由于网格中的资源有自治性,因此网格资源可以动态的加入也 可以动态的退出,还有可能由于故障而导致资源的不可用,另外资源的 性能情况也可能发生较大的变化。 1 1 3 网格计算的应用领域 随着现代高科技的发展,以网格为基础的科学活动环境成为当前网格计算技 术研究的热点和前沿领域,网格早已远远超出了计算的范畴,而且在不断扩展和 , 丰富。现在除了计算网格外,数据网格、服务网格、信息网格、知识网格等将网 格应用扩展到方方面面。网格应用领域主要有 1 1 1 9 1 1 1 0 1 - 1 、分布式超级计算 分布式超级计算( d i s t r i b u t e ds u p e r c o m p u t i n g ) 是指将分布在不同地点的超 级计算机用高速网络连接起来,通过网格中间件“粘合”起来,形成比单台超级 计算机更强大的计算平台。目前,许多的科学与工程计算问题由于计算量巨大无 法在一台超级计算机上解决,因此需要更多的超级计算机一起来完成。网格可以 3 兰州大学硕士学位论文面向e s c i e n c e 应用的网格工作流管理系统 把分布式的超级计算机集中起来,协同解决复杂的大规模问题。网格的最初设计 目标就是满足更大规模的计算需求,g l o b u s 8 9 正是从这类应用起家,军事仿 真项目s fe x p r e s s ( s y n t h e t i cf o r c e se x p r e s s ) 1 0 就是这类应用的典型代表,它利 用g l o b u st o o l k i t 的动态管理功能将大型军事仿真任务分解到分布式环境中运 行。 2 、分布式仪器系统 分布式仪器系统( d i s t r i b u t e di n s t r u m e n t a t i o ns y s t e m ) 是指用网格管理分布 在各地的贵重仪器系统,提供远程访问仪器设备的手段来提高仪器的利用率,方 便用户的使用。网格将分布式仪器系统变成一个易于管理的系统,其典型代表是 美国能源部支持的x p o r t 1 1 项目。它基于g l o b u s ,提供远程仪器使用规划、仪 器操作、数据获取、筛选和分析等功能,科研工作者只要把晶体块传递给仪器所 在地,就可以在自己的实验室中获取晶体内部结构的图像。 3 、数据密集型计算 数据密集型计算( d a t ai n t e n s i v ec o m p u t i n g ) 对应的数据网格【4 3 】更侧重予 数据的存贮、传输和处理。欧洲原子能研究机构c e r n 所开展的数据网格 d a t a g r i d 4 4 】项目在这个领域独占鳌头。它的目标是处理2 0 0 5 年建成的大型对撞 机源源不断产生的p b s 量级实验数据。 4 、高吞吐率计算 对于高吞吐率计算,它关心的是以月、年为时间度量单位完成的计算量。这 样的问题可以利用c p u 的空闲周期,将大量空闲计算机的计算资源集中起来, 来处理那些对时间不太敏感的问题。随着大型机的性能的提高和p c 的更加普及, 其资源的闲置的问题也越来越突出,网格技术能够有效地组织这些闲置的资源, 使得有大量计算需求的用户能够获得这些资源,而资源供应者的应用也不会受到 太大的干扰。需要计算能力的人不必购买大型计算机,只需要根据自己任务的需 求,向网格购买计算能力就可以满足计算需求。 5 、信息集成 所谓信息网格,就是要通过统一的信息交换架构和中间件向用户提供“信息 随手可得 式的服务。网格信息集成将更多的用在商业上。网格将分布在世界各 地的应用程序和信息进行无缝融合和沟通,从而形成崭新的商业机会。 4 兰州大学硕士学位论文面向e - s c i e n c e 应用的网格工作流管理系统 1 。2 研究背景 1 2 1e - s c i e n c e 基本概念 e s c i e n c e 2 4 是近年来备受关注的研究热点,它得名于2 0 0 0 年1 1 月英国国 家研究总局主任j o l l nt a y l o r 所宣布的耗资1 2 亿英镑的3 年研究计划。j o h n t a y l o r 在谈到e s c i e n c e 的分布访问存储的意义时指出:e s c i e n c e 意味着通过全 球分布协作,使用海量数据集合、万亿次级的计算资源,有效地提高科学研究效 率。它为大规模数据集的操作和处理、昂贵的科研设备和大型软件的共享提供了 一种高效的方式,真正意义上促进了科学研究的信息化发展。专家认为,c s c i e n c e 是建立在网格技术基础之上的一种科学研究的新环境。它利用高速网络 实现各种资源物理上的连通,通过网格中间件实现各种资源逻辑上的集成。科研 人员可以自由地使用各种资源,不必考虑资源的存储地和提供者,这种使用突破 了时间、物理空间、逻辑空间上的障碍。e s c i e n c e 的实质就是科学研究的信息化, 为科学研究提供了一个高度共享和协作的学术研究环境。为实现e s c i e n c e 所提 出的目标,其中的一个关键问题就是需要寻求一种基础架构来提供资源共享和协 同工作的能力,网格技术所具有的分布式计算和资源共享能力能够满足e s c i e n c e 基础平台建设的需要,因此逐渐成为e s c i e n c e 应用中的基础底层架构。 1 2 2 工作流基本概念 到目前为止,对工作流仍然没有完全统一的定义,在这里我们列举几个从不 同角度给出的工作流定义。 国际工作流管理联盟w f m c 的定义【1 1 】: 工作流是为了实现某些标准或业务目标而进行的自动过程。在这些过程中文 件、信息或任务根据标准或目标的要求在参加者之间传输。大多数工作流都有计 算机化的信息系统来支持过程的自动执行。 g i g ag r o u p 的定义 1 2 - 工作流是经营过程中可运转的部分,包括任务的顺序以及由谁来执行、支持 任务的信息流、评价与控制任务的追踪、报告机制。 5 学硬士学位论文面向蛆n 应用的阿格i 佧流管4 系统 i b m a l m a d e n r e s e a r c h c e n t e r 的定义【1 3 】: 工作流是经营计算化的表示模型,定义了完成整个过程所需用的各种参数。 些参数包括对过程中每个单独步骤的定义、步骤间的执行顺序、条件以及数据 的建立、每一步骤由谁来负责以及每个活动所需要的应用程序。 以上这些定义虽然各有不同,但基本上都达成了这样的一个共识:工作流是 营过程的一个计算机实现,而工作流管理系统则是这一实现的软件环境【1 4 】。 1 - 1 是工作流管理联盟给出的工作流管理系统参考模型【1 5 】: 图1 1 工作流参考模型 这个模型主要描述了一个工作流管理系统的主要组成部分,各个部分的主要 能介绍如下: 流程定义工具 负责定义给出工作流程,并以一定的标记语言格式提供给工作流引擎解释。 工作流执行服务 它是工作流管理系统的核心,提供了过程实例执行的运行环境。工作流执行 务借助于一个或多个工作流引擎,激活并解释工作流流程定义,并同外部的应 程序进行交互,完成工作流过程实例的创建执行与管理职能。 工作流引擎 过程定义的解释器,它是工作流执行服务的核心。它根据工作流模型的定义 6 兰州大学硕士学位论文面向c - s c i e n c e 应用的网格工作流管理系统 在分布的环境下实现真正的业务处理过程。 4 、管理和监视工具 负责监控工作流的执行,对工作流管理系统中过程实例的状态进行监控与管 理,如用户管理、角色管理、审计管理、资源控制等。 5 、工作流客户端应用 执行者访问工作流的界面,活动参与者通过这样的应用程序参加工作流活 动,获取自己的任务。 6 、被调用应用程序 工作流执行服务在过程实例的运行过程中,调用的、用以对应用数据进行处 理的程序。在过程定义中包含这种应用程序的详细信息如类型、地址信息等。 7 、其他工作流执行服务 在大型的工作流管理系统中,工作流可能需要多个工作流引擎共同完成,这 就涉及到工作流管理系统之间的互联。 综上所述,工作流管理系统就是在计算机环境下定义、管理、执行工作流。 它主要关注如下几个方面的问题,即经营过程是什么( 由哪些活动、任务组成, 也就是结构上的定义) 、怎么做( 活动间的执行条件、规则以及所交互的信息) 、 由谁来c 人或者计算机应用程序,也就是组织角色的定义) 、做得怎么样( 通过工 作流管理系统进行监控) o 1 2 3 网格工作流基本概念 在本章的第一部分我们详细介绍了网格以及网格应用的相关内容。网格研究 和应用来源于元计算( m e t a c o m p u t i n g ) 【1 6 】,最初的应用处理模式相对比较简单, 任务之间没有复杂的过程,控制比较容易。随着应用的深入和推广,出现了越来 越多的需要大量资源的科学计算和协同应用。这些网格应用往往不但需要有大量 的计算、存储等资源,而且网格任务的逻辑过程也越来越复杂,涉及到多个步骤、 资源和过程,具有各种时间、空间、资源和因果方面的约束条件,如果利用一般 的处理方法,不但效率低下,而且可能导致某些应用无法完成。这就需要有相应 的服务和技术来管理这些网格应用。工作流是关注一个自动化的执行过程,这个 执行过程由参与者通过文件数据的传输方式并且遵循一套既定的规则来完成,最 7 兰州大学硕士学位论文面向c s c i e n c e 应用的网格工作流管理系统 终实现一个总体的目标【1 7 】。工作流技术这种流程化、自动化的特征正好满足目 前网格应用的需要。在网格的基础上利用工作流技术来对网格应用方便地建模、 调度、管理和监控,使得网格应用能够自动完成而且效率更高,这就是网格工作 流技术。 图1 2 表示了网格工作流管理系统的架构和各部分功能组件,该管理模型参 考了工作流管理联盟于1 9 9 5 年提出来的工作流参考模型。网格工作流管理系统 【1 7 总体上分为设计建模和执行管理两个阶段。设计建模阶段关注网格工作流的 定义和建模;而执行管理阶段关注于管理、执行工作流以及在工作流应用过程中 与网格资源的交互。用户通过工作流建模工具来设计定义工作流,之后提交到定 制服务模块管理、执行。定制服务模块主要包括工作流调度,容错管理以及数据 传输等三个主要功能模块。 图1 2 网格工作流管理系统 1 2 4e s c i e n c e 应用对网格工作流的需求 e s c i e n c e 应用中所要处理的科学任务通常都涉及大规模的复杂计算和数据 分析,这些计算和分析可能会包含成百上千个步骤,每一个步骤又需要利用由不 8 兰州大学硕士学位论文面向c s c i e n c e 应用的网格工作流管理系统 同组织开发的、分散在各个异构的执行环境中的大量分布式的软件资源、数据资 源以及科学仪器设备。在网格环境下,各种软件、硬件、数据等资源都以网格服 务的形式存在,仅仅具有单一功能的网格服务不能完成计算量巨大、步骤繁杂的 科学任务,因此需要将分散的各个网格服务组合起来,形成功能更为强大的网格 服务,实现科学任务的流程化和自动化,利用网格工作流技术来对多个网格服务 进行逻辑化、流程化的管理,才能够满足大规模科学应用的协同工作。所以在 e s c i e n c e 应用中引入了网格工作流的概念,使用它来编排多个功能单一的网格服 务,组成一个功能强大的网格服务。目前众多科技文献中也都出现了将工作流技 术作为管理复杂分布式科学计算的范例b 8 ,1 9 ,2 0 ,2 1 ,2 2 ,2 3 1 。 1 3 研究现状 1 、t a v e r n a t a v e m a 2 5 是英国e s c i e n c e 支持的网格项目m y g r i d 的组件之一,是一个开 源的支持生物信息学虚拟实验研究的工作流工具。它结合w s f l 产生一种新的 基于x m l 的工作流描述语言s c u f f ( s i m p l ec o n c e p t u a lu n i f i e df l o wl a n g u a g e ) 和 一个引用工作流的工作台应用程序。工作台可以编辑由s c u f f 定义的工作流,并 翻译成虚拟的知识表示,使得工作流可以浏览并在f r e e f l u o 执行系统中执行。在 t a v e m a 中,生物学家以结构化的、可重复的、可验证的方式来描述和执行实验 过程。 2 、g r i d a n t g l o b u s 项目开发的g r i d a n t 2 6 2 7 i 网格工作流管理系统是个简单但功能强 大的网格工作流系统。它提供的客户端工具不仅能映射复杂工作流,而且能测试 不同网格服务的性能。g d d a n t 利用网格工作流协议和描述语言为网格工作流管 理系统构建p e e r - t o - p e e r 基础设施的s d s cm a t r i x 项卧3 4 等。 3 、t r i a n a t r i a n a 2 8 5 0 是美国红十字会( p i k e sp e a kr e dc r o s s ,p p a e c ) 资助的一个 为期两年的网格项目g r i d o n e d 项目中的一部分,它提供了一个开源的图形化问 题求解环境,能够支持信号、文本和图像处理等科学问题的处理。t r i a n a 环境被 设计为一系列即插即用形式的组件,这些组件能够很容易地集成到其它系统中,1 9 兰州大学硕士学位论文面向c s c i e n c e 应用的网格工作流管理系统 同时它也包含一个很大的库,由预先写好的分析工具和自定义工具组成。 科学家从工具箱里拖拽程序组件,然后将其放置到一个工作区中来组成一个 应用程序。这些组件之间的连接通过连接线来实现。t r i a n a 使用x m l 标记语言 来表示组件定义和工作流程。t d a n a 工作流语言支持b p e l 的一个子集,并将它 的工作流导出到b p e l 中,而它与b p e l 4 w s 最大的不同在于它不明确地支持控 制结构。 4 、a s k a l o n a s k a l o n 2 9 是由奥地利自然基金( a u s t r i a ns c i e n c ef u n d ,f w f ) 资助的a u r o r a 项目中的一部分,是集群计算和网格计算的一个编程环境。a s k a l o n 最主要的目 标是简化网格工作流应用的开发和优化网格计算的能力。a s k a l o n 由a g w l ( a b s t r a c tg r i dw o r l f f l o wl a n g u a g e ) 【3 0 和t e u t a 5 1 组合而成。a g w l 是一种基 于x m l 的语言,它定义了活动图用于表示计算任务或科学家之间的交互。和 b p e l 类似,a g w l 定义了一个丰富的结构集合,包括顺序活动,子活动,控制 流机制( 顺序并行,异或选择,顺序循环) ,数据流机制( 输入输出端口) ,数 据仓库等。a g w l 与已有工作流语言的主要区别在于它提供了一些高级的工作 流结构,比如带有前驱和后继条件的活动的并行执行,并行循环,基于事件的同 步机制和基于属性的活动选择等。t e u t a 支持基于u m l 活动图的网格应用图形 化规范,是a g w l 的图形化接口。在a s k a l o n 中,通过t e u t a 构建图形化界面, 再转换成a g w l 语言完成与底层的交互。a s k a l o n 使得科学家只关注科学网格应 用,从而不用关心底层的网格架构。 通过对比分析以上介绍的网格工作流管理系统相关项目,现在网格工作流主 要关注两个方面的问题:一方面是网格工作流规范以及如何更方便用户编写工作 流规范方面的研究,另一方面是利用工作流来组建、管理、控制网格服务进而解 决实际科学应用方面的问题。在本论文中我们主要目标是设计实现面向e s c i e n c e 应用的网格工作流管理系统,来构建一个符合e s c i e n c e 应用设想的跨学科、跨 地域的科学协同工作环境。 1 4 论文工作 本文所作的研究工作受到国家自然科学基金重大研究计划“以网络为基础的 1 0 兰州大学硕士学位论文 面向c - s c i e n c e 应用的网格工作流管理系统 科研活动环境研究”的重点项目“计算化学e s c i e n c e 研究与示范应用( 项目编 号:9 0 6 1 2 0 1 6 ) ,国家自然科学基金面上项目“网格计算的作业调度方法研究( 项 目编号:6 0 4 7 3 0 9 5 ) 的联合支持。 本文的主要工作是针对e s c i e n c e 应用中网格资源动态性、异构性等特点, 提出抽象网格服务、用户作业需求描述等关键概念,设计并实现了面向e s c i e n c e 应用的网格工作流管理系统。 本论文的主要工作包括以下几个方面: 提出了抽象服务,屏蔽了网格平台服务的异构性,通过对抽象服务的汇 聚,从而形成了服务中心。 设计了一个用户可视化流程编排界面,方便用户在界面上进行拖拽,从 而设计科学任务流程。 提出了用户作业需求描述文档,它是一种符合x m l 规范文档,方便用 户定制作业的特殊需求。 实现了作业池,解决了工作流任务之间的相互逻辑关系以及网格平台服 务资源的负载平衡。 1 5 论文组织结构 本论文组织结构如下: 第一章引言,主要介绍了本论文的研究背景和来源,以及本文的主要工作 等问题。 第二章网格工作流关键问题的相关研究,针对e s c i e n c e 应用中网格工作 流研究现状,探讨建模、调度、容错和规范等几个网格工作流研究的重要问题。 第三章工作流管理系统架构及功能模块,主要描述了整个工作流管理系统 的体系架构,以及每个功能模块的详细设计和实现;其中对于抽象网格服务、用 户作业需求文档等核心概念做了重点描述。 第四章执行流程,从用户使用的角度对工作流执行流程作了详细的说明。 第五章结论与展望,分析了面向e s c i e n c e 应用网格工作流管理系统的特 点和存在的问题,并对未来工作进行了展望。 1 1 兰州大学硕士学位论文面向e s c i c n c c 应用的网格工作流管理系统 第二章网格工作流关键问题研究 网格工作流的研究主要包括两个方面的内容:一方面是一些实际的网格项目 和系统采用网格工作流来构建和管理复杂网格应用,这里面就涉及到工作流建 模、调度、容错;另一方面是有关研究组织和联盟提出的网格工作流的建议和规 范。本章节就网格工作流建模、调度、容错和规范四个方面进行了探讨。 2 1 网格工作流建模研究 文献【1 4 】表述工作流模型是对工作流的抽象表示,也就是对经营过程的抽象 表示。由于工作流需要在计算机环境下运行,因此建立相应的工作流模型就是必 不可少的。工作流模型应该完整的提出支持工作流定义的概念,为建模用户提供 用户所需要的组建或元素。理想的工作流模型能够清楚地定义任意情况下工作 流,能够适应用户在建模过程中所提出的各种要求。然而到目前为止,人们虽然 提出了不少有意义、有见解的工作流模型,但从模型的能力上来看,距这一理想 情况尚有一定距离。 在e s c i e n c e 应用中,网格工作流通常用于描述一个复杂的科学实验过程, 为了让网格工作流能够更好的支持复杂网格科学计算应用,网格工作流模型必须 适应网格环境的动态变化情况,满足网格应用的各种需求,对网格应用进行建模、 抽象,正确地描述复杂的处理流程。 下面将介绍目前国内外研究者根据自己的应用需求提出的一些比较有参考 价值的建模方法: 基于活动网络的建模方法 基于活动网络的建模方法【3 1 】是以活动和活动之间的关系为基础建立的工 作流模型,这种方法的好处是直观、易于理解。但由于这种方法强调直观性和易 理解性,而直观性和易理解性通常与系统的具体实现关系密切,所以理论上的研 究相对不多。 1 2 兰州大学硕士学位论文面向e s c i e n c e 应用的网格工作流管理系统 基于p e t r i 网的建模方法 p e t r i 网也被用来建立工作流模型,e l l i s 和n u t t 在p e t r i 网的基础上提出了i c n ( i n f o r m a t i o nc o n t r o ln e t s ) 模型【3 2 】,它实际上是高级p e t r i 网的一个引申,在 这里库所表示活动,而变迁则表示活动间的转移。 基于有向图模型的建模方法 此模型在一般情况下,图中的节点表示过程中的活动或状态,而有向弧则表 示节点间的时序依赖关系,弧上的权值表示各种代价等属性和参数。不少工作流 产品采用了此种类型的模型,但其缺点是比较简单,不能处理复杂的逻辑过程。 基于语言行为理论的建模方法 s i n o g r a d 与f l o r e r 在语言行为理论的基础上提出了一种基于对话的工作流模 型 3 3 1 ,这种工作流模型是从客户方与服务方这两个角色之间的语言行为交互上 对工作流过程进行了定义。他们认为,人的语言不仅能够用来描述事物、交流信 息,而且还能够进行行为的计划,协调自己与他人的合作。基于语言行为理论的 工作流模型是由一系列闭合的工作流环相互连接而成的,每个工作流环都被分为 需求、协商、执行和满意4 个阶段。但是这种建模方法支持层次化建模的能力较 弱,另外建模人员很难完整明确的列出双方所有可能的语言行为,不利于准确描 述业务流程。 为了便于交互和在不同模型之间实现相互转换,有的模型还提出了规范的描 述语言,我们称之为“工作流定义语言 1 4 1 。比较典型的有w f m c 推出的w p d l ( w o r k f l o wp r o c e s sd e f i n i t i o nl a n g u a g e ) 3 5 ,i b mf l o wm a r k 的f d l ( f l o wm a r k d e f i n i t i o nl a n g u a g e ) 等,这些工作流定义语言都有着自己特定的语法规范,包 括标示符、关键字、文法规则等,这些将在2 4 部分进行详细阐述。 2 2 网格工作流调度研究 网格任务调度问题的最一般目标函数是m a k e s p a n ,即调度系统有效的分配 网络资源,实现在整个系统内网格应用任务的完成时间最小。通常是发现适合任 务的资源集合,在这些资源集合中选择合适的资源子集,这些资源满足预先定义 好的调度约束( 例如运行时间最短) ,找到这样的一个m a k e s p a n 是n p 完全问题 【3 6 1 1 3 7 。网格计算环境的动态性导致各资源状态在调度前后可能会发生变化, 1 3 兰州大学硕士学位论文面向c - s c i c n c c 应用的网格工作流管理系统 同时由于调度任务之间存在一些时序和因果关系,因此在网格工作流中的调度的 时候需要考虑的约束条件比一般的网格任务调度还要复杂得多。整个调度过程大 概分为三个步骤: 第一是资源匹配,即寻找最合适任务运行的资源。首先是网格应用中的需求 定义,用户定义运行任务的最小资源需求,包括资源的静态信息和动态信息,比 如c p u 个数、m e m o r y 大小、c p u 的使用率等,然后是过滤掉不满足最小需求 的资源。 第二是调度,即决定一个资源上多个任务运行的顺序。为了有一个好的调度 效率,在对所有满足最小需求的资源集合里选择最合适的资源,需要对资源的实 时信息进行收集,然后选择资源进行任务匹配,这是一个n p 完全问题,通常是 采取启发式方法来尽量获取最优解。 第三是执行任务,提交任务到资源,进行相应的初始化,执行、管理任务直 到任务结束。应用网格工作流调度根据工作流模型生成相应的工作流任务实例, 根据预定义的调度策略进行调度。 参考工作流管理联盟提出的网格工作流管理系统,在本文章里,我们将调度 问题交由网格平台去做,我们所关注的第一个问题是在调度过程中如何给用户提 供一个功能使得用户能够定义工作流中所涉及的网格任务的特殊需求,缩小调度 范围。由于网格计算环境的动态性导致各个服务资源状态在调度前后可能会存在 不一致,我们所关注的第二个问题是怎样分离工作流定义过程和工作流执行过 程。 2 3 网格工作流容错管理研究 网格工作流流程运行的时间跨度一般较大,在流程运行期间有可能会受到多 种错误情况的影响,例如通信问题、计算机故障、服务执行出错等。工作流中的 错误按层次可分为三层1 3 8 :基础框架( i n f r a s t r u c t u r e ) 错误、工作流级( w o r k f l o w l e v e l ) 错误和应用级( a p p l i c a t i o nl e v e l ) 错误。 基础框架错误来源于支持工作流管理系统运行的底层结构或系统平台,一般 为硬件错误,例如主机系统故障、网络分区故障、网络通信故障或服务请求代理 失败等。 : 1 4 兰州大学硕士学位论文面向c s c i e n c e 应用的网格工作流管理系统 工作流级错误来自工作流管理系统内部,如任务执行期间遇到的工作流调度 器异常、任务管理器错误、恢复引擎故障等等。通常,工作流级错误可分为最基 本的两类:任务故障和用户定义异常。任务故障是指那些与工作流系统提供的服 务相关的错误,如因操作系统出错、系统维护时的停机、机器重启等造成的主机 故障、服务执行代码的软件漏洞等。用户定义异常是指在任务执行时由工作流设 计者设计流程导致的异常。 应用级错误与具体的某个任务或一组任务密切相关。由于该种类错误依赖于 应用层,这些错误也可以称为逻辑错误。例如,工作流需要在一个特定的数据库 管理系统中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子级特种聚酰亚胺单体生产线项目实施方案
- 山东安全员考试考试试题及答案
- 2025年医学检验科临床检验技术操作规范性考核卷答案及解析
- 2025年泌尿外科手术器械使用知识测试答案及解析
- 2025年儿科常见病症诊断与治疗综合模拟试卷答案及解析
- 2025年健康管理师考试法律法规试题及答案
- 2025年医保报销流程与政策要点试题及答案
- 中国华电集团反违章管理办法相关知识试卷及答案
- 滑雪场建设项目招商引资报告
- 2025年神经科神经系统疾病鉴别诊治能力考察卷答案及解析
- 立德树人教育宣讲课件
- 高中生物选择性必修1参考答案
- 脓毒血症护理诊断及措施
- 2025-2030中国水上自动驾驶系统行业运营态势与投资动态预测报告
- 幼儿教育中的传统文化融入
- 人教版(2024)八年级英语上册Unit 2 Home Sweet Home专课专练
- 春考医学技术课件
- 华为公司文件管理制度
- 国企招投标考试题及答案
- 2023-2025北京高一(上)期末数学汇编:常用逻辑用语(人教B版)
- 家庭护理教学课件
评论
0/150
提交评论