(计算机系统结构专业论文)网格环境下的混杂副本管理拓扑结构.pdf_第1页
(计算机系统结构专业论文)网格环境下的混杂副本管理拓扑结构.pdf_第2页
(计算机系统结构专业论文)网格环境下的混杂副本管理拓扑结构.pdf_第3页
(计算机系统结构专业论文)网格环境下的混杂副本管理拓扑结构.pdf_第4页
(计算机系统结构专业论文)网格环境下的混杂副本管理拓扑结构.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 二十世纪八十年代以来人们开始借助大规模计算机来求解各类复杂闯 题。在科学、工程和商业计算领域,还有很多问题难以用现有的超级计算机 解决,如需要处理的海量数据资源分布在不同的地理区域,所需的特殊计算 设施和输入输出设备等不是本地等。基于这种情况,网格计算( g r i dc o m p u t i n g ) 技术被提了出来。 网格就是个集成的计算与资源环境或者说是个计算资源池。网格能 够充分吸纳各种计算资源,并将它们转化成种随处可得的、可靠的、标准 的,同时还是经济的计算能力。除了各种类型的计算机,这里的计算资源还 包括网络通信能力、数据资料、仪器设备、甚至是人等各种相关的资源。而 基于网格的问题求解就是网格计算。 旦前大多数网接系统中的副本管理机制部是静态的或是基于应用和用户 驱动的,很难适应网格系统本身具有的动态性的特点。因此在全面分析了 g l o b u s 中的副本管理机制后,本文提出了一种网格环境下的混杂副本管理拓 扑结构( h g r m t ) 。该拓扑结构根据网格节点所在的不同层次的组织域,将网格 节点在原有的树状组织下又相互结合成环状。充分利用了c ,s 模式和p 2 p 模 式的特点。 本文的最后部分,通过模拟实验对提出的拓扑结构进行了性能分析。实验 结果证明,h g r i t 具有良好的可扩展性,可靠性,自适应性。 关键词;网格:副本管理i 混杂拓扑结构 山东大学硕士学位论文 a b s t r a c t l a r g e s c a l ec o m p u t e r sh a v eb e e nu t i l i z e dt os o l v ev a r i o u sc o m p l i c a t e dp r o b l e m s s i n c et h e1 9 8 0 s h o w e v e r , i nt h es p h e r e so fs c i e n c e ,e n g i n e e r i n g ,a n dc o m m e r c i a l c o m p u t a t i o n ,t h e r e a r es t i l ll o t so fp r o b l e m s b e y o n d t h er e a c ho fc u r r e n t s u p e r c o m p u t e r s f o re x a m p l e ,r e s o u r c e so fl i q u o rc a p a c i t yd a t aw a i t i n gf o r t r e a t m e n ta r ed i s t r i b u t e d i nd i f e r e n tp l a c e s ,r e q u i r e ds p e c i f i cc o u n t i n ga n di n p u t , o u t p u te q u i p m e n t s ,e t c a r en o tl o c a l ,a n ds oo n c o n s i d e r i rga b o v ec a s e s ,t h eg r i d c o m p u t i n gt e c h n o l o g yi sp r o p o s e d t h eg r i di sa ne n v i r o n m e n ti n t e g r a t i n gc o m p u t a t i o na n dr e s o u r c e s ,n a m e l y , a c o m p u t i n g r e s o u r c ep 0 0 1 t h eg r i di sc a p a b l eo ff u l l ya b s o r b i n gv a r i o u s c o m p u t i n gr e s o u r c e s ,a n dt h e nt r a n s f o r m i n gt h e mi n t oa k i n do fc o m p u t i n ga b i l i t y t h a ti sa v a i l a b l ee v e r y w h e r e ,r e l i a b l e ,s t a n d a r d ,a n dm e a n w h i l ee c o n o m i c a l b e s i d e sc o m p u t e r so fd i f f e r e n tv a r i e t y , t h ec o m p u t i n gr e s o u r c e sh e r ea l s oc o n t a i n i n t e r n e tc o m m u n i c a t i n gc a p a c i t y , d a t a ,i n s t r u m e n t s ,e q u i p m e n t s ,a n de v e nh u m a n r e s o u r c e s ,e t c t h ep r o b l e mb a s e do nt h eg r i di st h eg r i dc o m p u t i n g c u r r e n t l y , t h er e p l c i am a n a g e m e n t o f e x i s t i n gg r i dp r o j e c t u s es t a t i c ,o r a p p l i c a t i o n d r i v e na n du s e r - d r i v e nr e p l i c a t i o n4 :r v i c e s ,a n d c a nn o ta d a p tt o d y n a m i cc h a r a c t e ro fg r i d t h i sp a p e rp r e s c n t s an e wr e p l i c am a n a g e m e n t m e c h a n i s m ( h y b r i dg r i dr e p l i c am a n a g e m e n tt o p o l o g yh g r m t ) i nh g r m t ,i t c o m b i n e s b o t ht h er i n ga n dt r e et o p o l o g i e s a tt h ee n do ft h ep a p e r , i ti n t r o d u c e ss o m es i m u l a t i o ne x p e r i m e n t sa b o u th g r m t t h er e s u l t ss h o wt h a th g r m th a v eg o o ds c a l a b i l i t y , l o wl a t e n c y , r e l i a b i l i t y , a d a p t a b i l i t ya n de a s eo fi m p l e m e n t a t i o n k e yw o r d s :g r i d ;r e p l i c am a n a g e m e n t :h y b r i dt o p o l o g y n 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指 导下,独立进行研究所取得的成果。除文中已经注明引用的 内容外,本论文不包含任何其他个人或集体已经发表或撰写 过的科研成果。对本文的研究做出重要贡献的个人和集体, 均已在文中以明确方式标明。本声明的法律责任由本人承 担。 论文作者签名:盔彗盎日期:丝幽塑日 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留 或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 敝作者弥蛐燧名:梅 山东大学硕士学位论文 1 1 网格的产生与发展 第一章绪论 网格是借鉴电力网( e l e c t r i c p o w e r g r i d ) 的概念提出来的1 1 1 ,其最终目的是 希望用户在使用网格计算能力时,就如同现在使用电力一样方便我们在使 用电力时,不需要知道它是从哪个地点的发电站输送过来的,也不需要知道 该电力是通过什么拌的发电机产生的,不管是通过水力发电,还是通过核反 应发电,我们使用的是一种统一形式的“电能”。网格也希望给最终用户提供 的是与地理位置无关的、与具体计算设施无关的通用的计算能力 对于“网格”现在还没有一个精确定义。全球网格研究的领军人物、美 国a r g o n n e 国家实验室的资深科学家、美国g l o b u s l 2 1 项目的领导人l a nf o s t e r 曾在1 9 9 8 年出版的网格:2 1 世纪信息技术基础设施的蓝图【1 1 一书中这样描 述网格:“网格是构筑在互联网上的一组新兴技术,它将高速互联网、高性能 计算机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通老 百姓提供更多的资源、功能和交互性互联网主要为人们提供电子邮件、网 页浏览等通信功。能而网格功能则更多更强,让人们透明地使用计算、存储 等其他资源。”2 0 0 0 年,i a nf o s t e r 在网格的剖析1 3 1 这篇论文中把网格进一 步描述为“在动态变化的多个虚拟机构间共享资源和协同解决问题”至此, 人们仍然就什么是网格而玺论不休 2 0 0 2 年7 月,i a nf o s t e r 在什么是网格? 判断是否网格的三个标准【4 】 一文中,限定网格必须同时满足三个条件:( 1 ) 在非集中控制的环境中协同使 用资源;( 2 ) 使用标准的、开放的和通用的协议和接口;( 3 ) 提供非平凡的服务。 这三个条件非常严格,象p 2 p , s u ng r i de n g i n e 。c o n d o r , e n t r o p i a , m u l t i c l u s t e r 等都被排除在网格之外。 但并不是所有人都同意他的观点,例如,有许多人赞同广义的网格概念, 它称作巨大全球网格“g g g ( g r e a tg l o b a lg r i d ) ”,它不仅包括计算网格、数据 网格、信息网格、知识网格、商业网格,还包括一些已有的网络计算模式, 例如对等计算p 2 p ( p e e r t op e e r ) 、寄生计算等。可以这样认为,i a nf o s t e r 赞成 狭义的“网格观”,而g g g 是一种广义的“网格观”。 不管是狭义还是广义的网格,其目的不外乎是要利用互联网把分散在不同 地理位置的计算机组织成一台“虚拟的超级计算机”,实现计算资源、存储资 山东大学硕士学位论文 源、数掘资源、信息资源、知识资源、人力资源等各种资源的全面共享其 中每一台参与的计算机就是一个结点,就像摆放在围棋棋盘上的棋子一样 而棋盘上纵横交错的线条对应于现实世界的网络,所以整个系统就叫做“网 格”了在网格上做计算,就像下围棋一样,不是单个棋子完成的,而是所 有棋子互相配合完成的。传统互联网实现了计算机硬件的连通,w e b 实现了 网页的连通,而网格试图实现互联网上所有资源的全面连通。 1 2 网格计算与其他计算模式的比较 网格计算与传统的分布式计算,以及其他网络计算形式有很多不同。它 是分布式计算和高性能计算的一个发展,同时也是网络计算的一个具有重要 创新思想和巨大发展潜力的分支忙i 。 传统的分布式计算强调的是分布式系统的集成能力,以两层或多层 c l i e n t s e r v e r 为主要计算模式,关心的是简化用户端的工作,强化多层服务器 的功能,注重分布系统之间的协同工作和快速的应用开发和实现,强调应用 服务之间的可交互、可操作性,代码的可移植性,通常关注一个组织内的资 源共享传统的分布式计算技术没有提供多组织之间的资源共享通用框架。 其他网络计算形式如企业计算也是强调一个组织内的资源共享;而对等 计算强调网络中个体的作用,也没有提出多组织之间的资源共享方案。 网格计算主要专注于解决分布式计算的系统管理问题,例如安全、验证 及跨异构平台和跨不同机构的策略管理。网格计算在i n t e r a c t 基础上强调对计 算、数据、设备等网络基本资源进行整合,力图将i n t e r a c t 作为一个社会化的 计算基础设施。它在计算模型、技术路径和研究目标上,与目前分布式计算 领域面向应用级别的交互、互操作和开发有很大的不同。它强调多组织之间 大规模的资源共享和协作使用,并提供了资源共享的基本方法。 另外,网格计算技术是高性能计算技术的发展方向之一,但它并不能替 代高性能计算机。高性能计算机是网格计算环境的结点和重要组成部分网 格计算技术的目的是结合高性能计算技术和网络计算技术将高性能计算机的 能力释放出去,构造一个公共的高性能处理和海量信息存储的计算基础设施, 使各类用户和应用能够共享资源。 1 3 本文在网格领域中研究的具体内容 网格环境为广域网范围的用户提供了数据共享和计算能力集成,而广域 1 山东大学硕士学位论文 网络的高延迟限制了用户对分散大数据的快速访问,为此,系统需根掘用户 的动态访问特征及时向用户端扩展数掘副本,数掘复制减少了数据在节点间 的移动,从而降低了用户对远端数据的访问延迟和带宽消耗同一数据创建 多个副本也能有效的改善负载平衡和数掘可靠性因此网格数据副本模型的 研究,就成为网格研究中的重点问题。 对网格副本模型的研究中副本的创建策略和副本的一致性是两个关键性 问题。前者是根据代价规则评估副本创建时机和地点所带来的数据访问性能 提升,后者侧重于如何在广域范围内保证数据副本更新一致性。 1 4 本文研究工作的目标 面对如此复杂的网格层次结构,和如此大量的g r i p 和g r r p t 2 1 中的实体 信息的传输,如何提高信息服务系统的效率,如何处理大量实体信息的存储, 执行和分布,是一个应该引起研究的问题。 在如此大数掘量,复杂的层次结构和频繁的往复过程的网格信息服务系 统中,我们需要使用动态复本策略来处理实体信息,当g r i p 和g r r p 对某个 信息服务组件产生请求,再把组件信息传送到集合目录,如此大数据量,复 杂的层次结构和频繁的往复过程中需要消耗大量的带宽。使用复本的主要目 的是减少存取和带宽的消耗。副本的另一优点是它有助于负载平衡而且可用 多次副本方式提高可靠性。 静态复本1 6 j 能继承以上所述的优点,但缺点是它不能适应网格信息服务组 件行为的变化。在现在的网格环境中,信息服务组件越来越分布式,而且个 体来源常常失效,信息提供者的总数要求很大,而且种类越来越多样性。静 态复本并不可行,而且也并不必要。首先,缺少让信息提供者明确地存储有 关信息、实体的信息这样一个要求:例如,只有当被要求时,信息提供者才 能产生动态信息。由此可以判断,实体的数量没有必要可枚举:提供者可表 现无限的参数名字空间,产生这个空间的要素,松散地响应直接查询。同样, l d a p l 命名习惯( 即,有等级的,全局唯一的别名) 仅需在专门的提供者或目 录范围内可发现。虽然普通的命名习惯可以简化一些管理任务,但是全局唯 一的名字却要由提供者范围的信息名字和提供者的名字( 0 0 ,包括所述信息的 主机名、端口数和别名的一个l d a p u r l ) 相结合而得以确定。 同时,对于基于用户和应用驱动的副本管理,用户要实现编写复杂的资 源描述信息,才能够获得所需的资源。这样就需要对网格资源描述文件的格 山东大学硕士学位论文 式有比较深入的了解。使使用者仅限于专业人员,大大的限制了网格的使用 范围 因而,这样的系统需要动态副本策略0 8 j 1 9 1 i l o l l ,动态副本的产生,删除, 管理都是自动完成。动态副本能适应信息服务组件行为的变化。有三个基本 的问题是任何副本策略都必须回答的:什么时候复制? 那一个文件应该被复制? 复制到什么地方? 不同的回答将会产生不同的副本管理策略本文就是在网格信息服务 o i i s 与g p , i s 的基础之上,提出了一种动态的副本管理策略。 2 1 网格体系结构 第二章网格分析 网格体系结构就是如何建造网格的技术,它给出了网格的基本组成与功 能,描述了网格各组成部分的关系以及他们集成的方法网格体系结构还必 须对各个部分的功能,目的,特点等进行清晰的描述,使人们能够了解各个 组成部分的作用。网格体系结构是网格的骨架和灵魂,是网格核心的技术, 只有建立合理的网格体系结构,才能够设计和建造好网格,才能够使网格有 效地发挥作用。网格体系机构的研究对网格的研究与构建有重要的意义。 山东大学硕。士学位论文 2 1 1 五层沙漏结构 应用层( a p p l i c a t i o n ) 。 l 汇聚层( c o l l e c t i v e ) 资源层( r e s o u r c e ) 链接层( c o n n e c t i v r y ) 应用层 传输层 网络层 图2 - 1 五层沙漏结构与t c p f l p 协议层的比较 五层沙漏【3 】结构是一种影响十分广泛的网格体系结构,它的主要特点就是 简单,主要侧重于定性的描述而不是具体的协议定义,因此很容易从整体上 进行理解。五层沙漏结构的一个最重要的思想就是以“协议”为中心,另外, 它也十分强调服务与a p i 和s d k 的重要性五层沙漏结构并不提供严格的规 范,它不是对全部所需协议的完整罗列,而是对该结构中各部分组件的通用 要求进行定义,而且将这些组件形成一定的层次关系,每一层的组件具有相 同的特征,上层组件可以在任何一个底层组件的基础上建造。五层沙漏结构 根据该结构中各组成部分与共享资源的距离,将对共享资源进行操作、管理 和使用的功能分散在五个不同的层次,越向下层就越接近与物理的共享资源, 与特定资源相关的成分就越多;越向上层就越感觉不到共享资源的细节特征, 对资源的描述就越抽象。 2 1 2 开放网格服务结构 开放网格服务结构o g s a 1 2 】1 1 3 j 【“j ( o p e ng r i ds e r v i c e s a r c h i t e c t u r e ) ,是 g l o b a lg r i df o n l m 4 【1 5 】的重要标淮协议,是继五层沙漏结构之后最新的一种网 格体系结构,被称为是下一代的网格结构。 山东大学硕士学位论文 2 1 2 1 基本思想 1 以服务为中心的模型 如果说五层沙漏结构是以协议为中心的“协议结构”,则o g s a 就是以服 务为中心的“服务结构” 这里的服务是指具有特定功能的网络化实体。在五层沙漏结构中,强调的 是被共享的物理资源( 或者是这些资源所支持的服务) ,在o g s a 中,服务所指 的概念更广,包括各种计算资源、存储资源、网络、程序、数据库等等,简 而言之,一切都是服务。五层模型试图实现的是对资源的共享,而在o g s a 中,实现的将是对服务的共享。从资源到服务,这种抽象,将资源、信息、 数据等统一起来,十分有利于灵活的、一致的、动态的共享机制的实现,使 得分布式系统管理有标准的接口和行为。 为了使服务的思想更加明确和具体,o g s a 定义了。网格服务”( g r i d s e r v i c e ) 的概念。网格服务是一种w e bs e r v i c e l l 6 】,该服务提供了一组接口,这 些接口的定义明确并且遵守特定的惯例,解决服务发现、动态服务创建、生 命周期管理、通知等问题。在o g s a 中,将一切都看作是网格服务,因此网 格就是可扩展的网格服务的集合,即网格= 网格服务。网格服务可以以不同的 方式聚集起来满足虚拟组织的需要,虚拟组织自身也可以部分地根据它们操 作和共享的服务来定义。 简单地说,网格服务= 接口+ 行为+ 服务数据。与五层模型一样,在o g s a 中也非常重视互操作性,但是从服务的观点,o g s a 将互操作性问题转化为 两个子问题,即定义服务的接口和识别,激活特定接口的协议五层模型是 按照支持虚拟组织组件互操作的协议要求来构造的,更多的体现出一种解剖 学的特点,而o g s a 强调的是与协议消息相对应的服务,侧重于实体表现出 来的行为特征,即特定对象的生理机能。 以网格服务为中心的模型具有如下好处:1 由于网格环境中所有的组件都 是虚拟的( 这里的具体含义是指对相同接口不同实现的封装1 ,因此,通过提 供一组相对统一的核心接口,所有的网格服务都基于这些接口实现,就可以 很容易地构造出具有层次结构的、更高级别的服务,这些服务可以跨越不同 的抽象层次,以一种统一的方式来看待。2 虚拟化也使得将多个逻辑资源实例 映射到相同的物理资源上成为可能,在对服务进行组合时不必考虑具体的实 现,可以以底层资源组成为基础,在虚拟组织中进行资源管理通过网格服 务的虚拟化,可以将通用的服务语义和行为,无缝地映射到本地平台的基础 山东大学硕士学位论文 设施之上。 2 统一的w e bs e r v i c e 框架 w e bs e r v i c e 的定义是这样的| i6 | :一个w e bs e r v i c e 就是一个可以被u r i 识别的软件应用,它的接口和绑定可以被x m l i l i ( e x t e n s i b l e m a r k u p l a n g u a g e ) 描述与发现,并且可以通过基于i n t e m e t 的协议直接支持与其它基于x m l 消 息的软件应用的交互w e bs e r v i c e 在w 3 c 中由三个工作组和一个协调组组 成,这三个工作组分别是w e bs e r v i c e 结构工作组,x m l 协议工作组,w e b s e r v i c e 描述工作组。 w e bs e r v i c e 标准正在w 3 c 内部以及其它的标准体内部被定义,他们形成 了新的主要工业提议的基础,比如m i c r o s o f t 的n e t i 捕j ,i b m 的d y n a m i c e b u s i n e s s l 坶l ,s u n 的s u n o n e l 2 0 1 ,三个与网格服务有关的标准分别是:s o a p ( s i m p l eo b j e c ta c c e s sp r o t o c 0 1 ) 1 2 ”w s d l ( w e bs e r v i c ed e s c r i p t i o nl a n g u a g e ) f 2 2 1 和u d d i ( u n i v e r s a ld e s c r i p t i o nd i s c o v e r ya n di n t e g r a t i o n ) l ! ” w e bs e r v i c e 描述了一种新出现的、重要的分佰式计算范式,和 d c e ,c o r b a ,j a v a ,r m i 等方法不同,它更强调基于单个i n t e r n e t 标准 ( x m l ) 来解决异构分布计算的问题。w e bs e r v i c e 定义了一种技术,用于描述 被访问的软件组件、访问组件的方法以及找到相关服务提供者的发现方法, w e bs e r v i c e 并不倾向于特定的编程语言、编程模型以及系统软件。 o g s a 是符合标准的w e bs e r v i c e 框架的。w e bs e r v i c e 解决了发现和激发 永久服务的问题,但是在网格中,大量的是临时服务,因此o g s a 对w e b s e r v i c e 进行了扩展,提出了网格服务( c - r i ds e r v i c e ) 的概念,使得它可以支持 临时服务实例,并且能够动态创建和删除。网格服务是由他们提供的能力来 刻画的。一个网格服务实现一个到多个接口,每一个接口定义了一些操作, 这些操作通过交换定义好的一系列消息来激活。 网格服务接口和w s d l 的p o r t t y p e s 相对应,网格服务提供p o r t t y p e s 的 集合,包括一些与版本有关的附加倍息,在网格服务中用s e r v i c e t y p e 来描述, s e r v i c e t y p e 是o g s a 定义的w s d l 的扩展元素。 由于o o s a 采用统一的w e bs e r v i c e 框架,因此很自然就具备了原来w e b s e r v i c e 的所有有利因素,比如服务描述和发现;可以从服务描述中自动产生 客户与服务端的代码;将服务描述和互操作的网络协议绑定在一起;和新出 现的高级开放标准,服务和工具兼容;有广泛的工商业支持等等。 w e bs e r v i c e 框架有如下好处f 1 4 i :l 网格环境需要支持服务的动态发现和 山东大学硕士学位论文 组织,在异构动态环境里,这就需要一些必须的机制,用于注册和发现接口 的定义和端点实现的描述,以及基于特定的接口绑定动态产生代理。w s d l 提供的标准机制支持这种要求,可以将接口定义和特定绑定的实现分开。2 广 泛接受的w e bs e r v i c e 机制意味着基于w e bs e r v i c e 的框架可以开发大量的工 具和服务,比如可以对不同的语言产生语言绑定的w s d l 处理器等。使用w e b s e r v i c e 并不意味着在所有通信中必须使用s o a p ,如果需要,可以便用替代 的传输方法,以赢得更高的性能或者在特定的网络协议上运行。 2 1 2 2o g s a 的两大支撑技术 建造o g s a 的两大支撑技术是网格技术( 即g l o b u s 软件包) 和w e bs e r v i c e g l o b u s 是已经被科学与工程计算广泛接受的网格技术求解方案,w e bs e r v i c e 是一种标准的存取网络应用的框架。 1g 1 0 b u s g l o b u s 是一种基于社团的、开放结构、丌发源码的服务的集合,也是支持 网格与网格应用的软件库,该工具包解决了安全,信息发现,资源管理,数 据管理,通信,错误检测以及可移植等问题。g l o b u s 工具包在世界上的许多 网格项目包括几百个地点被使用 和o g s a 关系密切的g l o b u s 组件是g r a m 网格资源分配与管理协议和门 卫服务,他们提供了安全可靠的服务创建和管理功能,元目录服务通过软状 态注册、数据模型以及局部注册来提供信息发现功能,g s l 支持单一登录点、 代理和信任映射。这些功能提供了面向服务结构的必要元素,但是比o g s a 中的通用性要小 2 w e bs e r v i c e 关于x m l 协议方面的工作是w e bs e r v i c e 的基础。由于x m l 在分布式应 用之间被广泛用于作为信息交换的方式,在2 0 0 0 年9 月w e bs e r v i c e 的x m l 工作组成立。 w e bs e r v i c e 中几个比较重要的协议标准是s o a p ( s i m p l eo b j e c ta c c e s s p m t o c d ) ,w s d l ( w e bs e r v i c e sd e s c r i p t i o nl a n g u a g e ) ,w s - i n s p e c t i o n , u d d i ( u n i v e r s a ld e s c r i p t i o n ,d i s c o v e r ya n di n t e g r a t i o n ) s o a p 是基于x m l 的i 心c 限e m o t ep r o c e s sc a l l ) 协议,用于描述通用的 w s d l 目标。通过将s o a p 进行扩展,比如数字签名,加密等支持w e bs e r v i c e 框架的安全性。 山东大学硕士学位论文 w s d l 用于描述服务,包括接口和访问的方法复杂的服务可以由几个服 务组成。它是w e bs e r v i c e 的接口定义语言。 w s i n s p e c t i o n 给出了一种定义服务描述的惯例,包括一种简单的x m l 语 言和相关的管理,用于定位服务提供者公布的服务。u d d i 定义了w e bs e r v i c e 的目录结构。 3 网格计算与w c bs e r v i c e 的关系 网格项目a v a k i l 2 4 1 认为网格计算和w e bs e r v i c e 之间存在着密切的联系, 并且进行了如下归纳:w e bs e r v i c e 的核心是在大的异构网络上将各种应用连 接起来,借助于w e b 标准u d d i ,w s d l 和x m l s o a p 等将i n t e r n e t 从一个通 信网络进一步发展到一个应用平台。 当越来越多的w e b s e r v i c 。实现后,应用的各种特征将会随着改变。一些 应用就可以根据需要或者是根据可以得到的功能,从可得的服务中来动态构 造,比如,可以动态地将一个新的服务加入到基因组分析或者金融市场模拟 的分析功能或者服务库中。 一旦w e bs e r v i c e 在更大的范围内得以实现,应用连接标准的制定就会成 为一个突出问题。由于w e bs e r v i c e 一开始就设计为在整个异构网络上工作, 当前标准还没有考虑其它方面的复杂性,比如网格己经解决的不同操作系统 之间的通信问题,访问基于不同文件系统的文件等,因此w e bs e r v i c e 自然地 需要下层网格软件提供的服务。 现在需要的是高级的协议:( 1 ) 在x m l s o a p 之上可以运行其它的协议比 如j x t a 2 5 1 ;( 2 ) 可以突破d n s 限制的命名和绑定方式;( 3 ) 实现可扩展的命 名、相互的安全认证、位置透明、以及透明迁移四个关键的能力,它可以便 w e bs e r v i c e 可扩展、更安全、更可靠而且具有高性能,网格软件的设计要满 足这些要求,这样网格软件也将成为w e bs e r v i c e 的很好补充。 2 2 虚拟组织v 0 网格是按照v o l 2 6 即虚拟组织的部署来管理的,本文中新提出的网格副本 管理拓扑结构也是基于网格节点所在的不同层次的组织域,即虚拟组织的不 同层次来组织的,所以先介绍一下与之相关的v o 的特性。v o 具有动态性, 异构性,自治性和层次性的特点。 山东大学硕士学位论文 c 、必 ( p ) ( 铲) 、一, u l ? u 2 u 3 。 7, , 一败 、渖 f p ) 网络故障 虚拟组织a 虚拟组织b 、嗄 ( p ,) 可用同格资源民不可用网格资潭 u i 单个用户 一, 圈2 - 2 分布式虚拟组织 ( 1 ) 自治性。v o 的自治性是指一个v o 自身构成一个完整的、独立的系统, 不仅v o 的成员具有共同的目标,相互协作,充分共享各自拥有的资源,而 且所有成员都遵循一个统一的管理机制和一个统一的对外接口我们可以认 为,一个v o 就是一个局部网格。按照v o 的自治性。可以给出v o 的定义如 下:v o := ( v o 元素,统一管理机制,统一对外接口 。在网格中对v o 具体解 释为:v o 的元素包括一般网格实体e 、信息提供者p 、信息请求者r 和网格目 录d ;统一管理机制包括统一的存储网格对象的数据模型m 、统一的信息搜 集、信息对象化、信息登记、网格目录的复制与引用等统一的功能模块:统一 对外接口为支持g i r p ( g - r i di n f o r m a t i o nr e g i s t r a t i o np r o t o c 0 1 ) 和g i q p ( g r i d i n f o r m a t i o nq u e r yp r o t o c 0 1 ) 协议的a p i 。 。 ( 2 ) 层次性。v o 具有普遍的层次性。一个v o 可能对应现实中的一个机 构,如一个实验室、一个大学等,而现实中这些机构是按照层次关系组织的 所以网格中的 q o 也具有层次性。所谓v o 的层次性是指v o 之间的上下级关 系,上级v o 管辖下级v o ,同一级的v o 同属于它们的上级v o 2 3 网格中的副本管理 2 3 1 副本管理简介 网格系统中数据管理有一个基本服务是副本管理( r 印l i c am a n a g e m e n t ) 山东大学硕士学位论文 1 2 7 1 。副本管理通过把部分相关数掘智能地放置在离科学应用程序最近的位置, 使得科学应用程序可快速地对数掘进行访问简而言之,副本管理主要管理 数据集合拷贝的完整副本或部分副本,副本管理服务的功能主要包括:创建全 部或部分文件集合的新拷贝、注册新的拷贝到副本目录( r e p l i c ac a t a l o g ) q b 以 及允许用户和应用程序查询副本目录来找到所有存在的部分获全部文件集合 的拷贝 副本管理服务在网格体系结构中的c o l l e c t i v e 层,副本管理独立于具体存 储系统台匀存储技术和数据移动协议。副本管理服务主要包括的组件有副本管 理( r 印1 i c a m a n a g e m e n t ) 、元数据管理( m e t a d a t a m a n a g e m e n t ) 、副本选择( r e p l i c a s e l e c t i o n ) 2 引和副本与分布目录管理( m a n a g e m e n to fr e p l i c a t e da n dd i s t r i b u t e d c a t a l o g ) 。而与副本耳录服务相关的组件有元数据目录( m e t a d a t ac a t a l o g ) 和副本 目录( r e p l i c ac a t a l o g ) ,它们位于网格体系结构中的构造层。元数据目录组件主 要保存与文件相关的描述性信息,而副本目录组件保存由副本管理组件注册 的副本信息。 副本管理体系结构中的数掘模型是基于文件的,即数据是按照文件来组织 的。为方便起见,用户可把一组文件作为一个集合( c o l l e c t i o n s ) 。一个r e p l i c a 或l o c a t i o n 指的是一个集合的子集,被存储在一个特定的物理存储系统中。由 于伴在多个存储系统,所以集合中的子集可能有重叠。 逻辑文件名是在数据网格的名字空间中的一个全局唯一的标识符。在副本 管理体系结构中使用逻辑文件名,而表示物理文件名。而副本管理服务的一 个主要任务就是把一个逻辑文件名映射到特定存储系统中的某个物理文件名 上。 2 3 2 副本管理的特点 1 副本信息与元数据( m e t a d a t a ) 信息分离 在副本目录中只保存在映射逻辑文件到物理文件过程中需要的信息。其它 元数据信息( 如文件的内容描述,文件的创建时间等) 则由元数据管理服务进行 保存。 在典型情况下,一个用户可首先查询元数据管理服务,根据文件的属性选 择逻辑文件。一旦用户确定了逻辑文件,则用户可接着查询副本管理服务, 以找到一个或多个存储逻辑文件的物理位置。 2 副本语义 山东大学硕士学位论文 一般而言,“r e p l i c a ”的语义是指“一个文件的拷贝要与文件本身保持一 致”,这就要求支持上述语义的副本管理体系结构,要实现一个全面的支持广 域网的分布式数据库,且在对拷贝进行修改或原子操作时要对文件加锁 由于实现这样的分布式数据库过于复杂,所以在g l o b u s 项目中没有采用 这样的方案。g l o b u s 中的副本管理服务实际上没有按照“r e p l i c a ”的一般语义 进行实现,而是对“r e p l i c a ”的语义放宽了限制换句话说,对于文件的多个 拷贝,g l o b u s 中的副本管理服务并不保证它们的一致性当用户注册文件为 一个逻辑集合的副本时,这些文件之间的一致性由用户来保证g l o b u s 的副 本管理服务不会主动执行任何操作来检查、并确保文件的一致性。 3 副本管理服务的一致性 虽然g l o b u s 的副本管理服务保证注册文件拷贝的一致性,但要保证存储 在副本管理服务中信息的一致性因为主分布式计算环境中计算和网络失 败是不可避免的,副本管理服务必须能够从计算或网络错误中恢复,并达到 一个一致的状态。 4 回滚操作( r o b a c k ) 在副本管理中的某些操作是原子操作,如果这些操作正常结束,则副本管 理服务的状态才会更新如果这些操作失败,则副本管理服务的状态保持不 变这些原子操作的例子有:对副本管理服务增加新的项,删除项或者对存在 的项进行修改等 而副本管理中的其它一些操作由多个步骤组成,且这些操作中任何一个步 骤的失败都会导致整个操作的失败g l o b u s 体系结构不保证这些复杂的操作 必须是原子性的,这样可能导致副本管理服务中的注册信息可能崩溃。使用 g l o b u s 的副本管理服务保证;如果副本的操作失败,副本管理服务的状态会回 滚到没有执行这个操作的前一个一致的状态。这要求副本管理服务要保存更 多的信息 5 无分布式锁机制 由于g l o b u s 的副本管理服务没有实现分布式锁机制,所以当用户改变或 删除文件且没有调整副本管理服务时,会导致副本管理服务中的数据与实际 情况不一致,使得副本管理服务中的数据可能会崩溃g l o b u s 不会阻止但不 鼓励用户执行这些操作 通过分布式锁机制可以避免上述情况,但实现太复杂,所以g l o b u s 副本 管理体系结构没有实现分布式锁,且不保证副本信息与实际情况的一致性。 山东大学硕士学位论文 2 3 3 副本管理的功能 副本管理服务中包含多种操作功能,主要有注册,修改、查询、存储等。 现简要描述如下 1 副本管理服务中注册一个新项。 这个新项主要包括:一个包含逻辑文件列表的新逻辑集合;一个包含存在映 射信息的新位置( 这个映射信息反映了一个存在的逻辑集合中的文件子集) ;在 一个已有的逻辑集合中的新逻辑文件项( 主要保存与文件相关的一些信息,如 文件大小等) 。 2 副本管理服务中修改一个已有的项。 主要的操作包括:从一个已有的逻辑集合和位置项中增加或删除一个文 件、从己有的逻辑文件项中删除与文件相关的描述属性。 3 查询副本管理服务。 主要的操作包括:根掘特定的逻辑文件、逻辑集合或位置查找对应的项、 寻找一个特定逻辑文件的物理拷贝的所有位置、返回与某项联系的需要的属 性( 对于一个逻辑集合项而言,返回集合中的文件名;对于位置项而言,服务映 射逻辑文件名到物理文件名的属性。对于逻辑文件项而言,返回描述逻辑文 件的属性) 。 4 结合存储和注册操作 主要的操作包括:把一个文件拷贝到目的存储系统,并把文件注册到对应 的位置项中。把文件拷贝到目的存储系统,并把文件注册到对应的位置项和 逻辑集项中,从副本管理服务中删除项。 第三章新提出的混杂网格副本管理拓扑结构( h g r m t ) 3 1 产生背景 g l o b u s 中的副本管理经过证明在一定的条件下有着较好的性能。但是在该 机制中,对副本的管理都是基于用户或是基于应用来驱动的。每个应用都要 在提交时填写详细的资源描述。因此我们提出了一种混杂的网格副本管理拓 扑结构( h g r m t ) ,在该结构下实现对副本的动态管理。 山东大学硕士学位论文 3 2h g r m t 的基本结构 为了满足网格环境自身的高可扩展性和动态性的需求,我们使用混杂网 格副本管理拓扑结构来组织网格中的各节点,如图3 1 所示。网格中的各节点 由所在的不同层次的组织域形成树状的逻辑结构,同时对于有同一父节点的 各兄弟节点又由其所在下一层次的组织域结合成环状该种拓扑结构利用了 “s 模式与p 2 p 模式的特点,充分开发了副本的本地性与网络带宽的有效性来 减少数据的访问时间在传统的c s 模式下,所有副本的索引及定位信息归中 央副本服务器集中进行管理,所有数据的更新都由其发出,因而c s 模式大大 的简化了副本的一致性问题然而这种模式可靠性较低,因为中央服务器的 崩溃会使网格中的各节点无法及时得到副本的更新信息,同时某节点的副本 更新信息也无法传送到其它节点。在本文中我们使用分布式的多个副本服务 器来管理副本,它们分布于拓扑结构的不同层次中 oc o oc ) () o o o o 图3 1 混杂网格副本管理拓扑结构 上述的混杂式拓扑结构是动态自适应的。当有新的节点加入或离开系统 的时候,节点之间的连接会动态的作出调整以适应相应的改变。节点在该拓 扑结构之中的位置是由该节点所在的组织域所决定的。在初始状态下,其它 副本节点先作为子节点与主存储节点连接,然后与其它兄弟节点结合成环状 根据网格环境中组织域的数量和层次,来扩充该拓扑结构形成多级和环状并 存的混杂模式。我们将以环状结构相连的各兄弟节点称之为同一组。父节点 中记录了其所有子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论