(计算机应用技术专业论文)数据网格中副本淘汰策略的研究.pdf_第1页
(计算机应用技术专业论文)数据网格中副本淘汰策略的研究.pdf_第2页
(计算机应用技术专业论文)数据网格中副本淘汰策略的研究.pdf_第3页
(计算机应用技术专业论文)数据网格中副本淘汰策略的研究.pdf_第4页
(计算机应用技术专业论文)数据网格中副本淘汰策略的研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据m 格中副本淘汰策略的研究 摘要 网格技术是现在国际l ; 沿性的研究课题,随着网格技术的发展,网格开始应 用于各种领域,其中最重要的种就是面向数据密集型应用而产生的数据网格。 数据网格可以对异构的、分布的、海量数据进行访问、存储、移动和管理,它的 应用前景非常广阔。作为数据网格的一个重要组成部分,副本机制可以为系统带 来性能上的提高。但是,随着网格结点的增加和运行,数目庞大的副本却使系统 显得臃肿;此时过多的副本所带来的一致性维护的开销和大量存储空间的占用远 远超过了副本带来的性能的提升;所以对副本管理技术的研究也变得越来越重要。 副本的管理主要包括副本创建、副本选择、副本一致性和副本淘汰四种技术; 介于上述副本过多的问题,主要的解决办法就是淘汰副本。一个好的淘汰算法可 以提高系统的网络性能,否则会增加网络带宽的消耗和数据文件的访问延迟,所 以副本淘汰是进一步提高数据网格服务质量的迫切要求。 现有的副本淘汰算法,存在的问题主要就是对影响副本淘汰的因素考虑不充 分,只考虑了副本本身的访问情况,没有考虑到网格环境的情况( 网络带宽、访 问时延等) 。针对副本大小差距较大的网格环境来讲,现有的淘汰算法在一定程度 上显得不足。本文首先全面了解了数据网格的背景知识,在分析副本管理相关技 术的基础上,对副本淘汰算法进行了深入的研究。 本文主要针对影响副本淘汰的因素:副本的访问时间、访问频率和副本的传 输代价在副本价值评估模型中的平衡问题进行了研究。提出了一种改进的副本淘 汰算法。该算法不仅考虑了影响淘汰的因素,而且还引入了动态调整因子;根据 副本的大小情况,动态的调整各因素在副本价值评估模型中的比例,这样的算法 可以适应副本大小不同的网格环境;可以使副本价值的评估更加精确,从而减少 副本淘汰的误差,提高网络的有效利用率。选择合适本文算法的仿真软件,并通 过实验仿真验证改进算法的有效性和确定改进算法所适应的网格环境以及相关的 参数。 关键词:数据网格;副本淘汰;动态调整因子;副本传输代价;网络利用率 硕j j 学位论文 a bs t r a c t n o w , t h eg r i d i st h ei n t e r n a t i o n a lf r o n t i e ro fr e s e a r c ht o p i c s w i t h t h e d e v e l o p m e n to fg r i dt e c h n o l o g y , t h eg r i db e g i n st ob eu s e di nv a r i o u sf i e l d s t h e m o s ti m p o r t a n to n ei sd a t ag r i d ;i ti sw i d e l yu s e di nd a t a i n t e n s i v ei n d u s t r i e s d a t a g r i dc a na c c e s s ,s t o r a g e ,m o v e o rm a n a g et h ed a t aw h i c hi sh e t e r o g e n e o u s ,d i s t r i b u t e d a n dm a s s i ti sav e r yb r o a da p p l i c a t i o np r o s p e c t s t h er e p l i c ai sa ni m p o r t a n tp a r to f t h ed a t ag r i d ,i tc a ni m p r o v et h ep e r f o r m a n c eo ft h es y s t e m h o w e v e r , w i t ht h e i n c r e a s eo ft h eg i r dn o d ea n dr u n n i n g ,t h en u m b e ro fc o p i e si sm u c hl a r g e ra n dt h e s y s t e ms e e m sb l o a t e d a tt h i st i m e ,t o om a n yc o p i e sb r i n gt h eo v e r h e a dw h i c h c a u s e d b yt h es y s t e mt h a tm a i n t a i nc o n s i s t e n c yo fr e p l i c a t h eo v e r h e a da n dt h el a r g es t o r a g e s p a c ea r em o r et h a nt h eb e n e f i t so fr e p l i c a t h e r e f o r e ,t h er e s e a r c ho nt h er e p l i c a m a n a g e m e n tt e c h n o l o g yi sb e c o m i n gm o r ea n dm o r ei m p o r t a n t t h er e p l i c am a n a g e m e n ti sm a d eu po fr e p l i c ac r e a t i o n ,r e p l i c as e l e c t i o n , r e p l i c ac o n s i s t e n c ya n dr e p l i c ao u t t h es o l u t i o no fm a s sr e p l i c ai sr e m o v i n g ag o o d a l g o r i t h mc a ni m p r o v et h ep e r f o r m a n c eo fn e t w o r k o t h e r w i s e ,t h ec o n s u m p t i o no f n e t w o r kb a n d w i d t ha n dt h ea c c e s sl a t e n c yo fd a t af i l ew i l li n c r e a s e s o ,t h ed e l e t i n g c o p yo ft h ed a t ag r i dc a ne n h a n c et h eq u a l i t yo ft h eg r i dd a t as e r v i c e t h ep r o b l e mo ft h ee x i s t i n gd e l e t i o na l g o r i t h mi st h a tt h ef a c t o r so fa f f e c t i n g c o p yo u ta r ei n a d e q u a t e t h e yo n l yc o n s i d e rt h er e p l i c av i s i t e d ,d on o tc o n c e r nt h e g r i de n v i r o n m e n tc o n d i t i o n s ,f o re x a m p l e ,n e t w o r kb a n d w i d t ha n da c c e s sd e l a y ,e t c t h ee x i s t i n gd e l e t i o na l g o r i t h m sa p p e a rt os o m ee x t e n ti n a d e q u a t ei n t h eg r i d e n v i r o n m e n tt h a tt h eg a po fc o p y ss i z ei ni t i nt h ep a p e r , t h e r ei sac o m p r e h e n s i v e u n d e r s t a n d i n go ft h eb a c k g r o u n dk n o w l e d g eo f t h ed a t ag r i d b a s eo nt h ea n a l y s i so f r e p l i c am a n a g e m e n tc o r r e l a t i o nt e c h n i q u e ,t h e r ed e e p l ys t u d yt h ed e l e t i o na l g o r i t h m o fr e p l i c a t h i sa r t i c l ee x p l a i n st h ef a c t o r sa f f e c t i n gt h ed e l e t i o no fr e p l i c a t h e ya r e r e p l i c a s a c c e s st i m e ,r e p l i c a s a c c e s sf r e q u e n c ya n dr e p l i c a s t r a n s m i s s i o nc o s t t h e a r t i c l es t u d i e st h eb a l a n c ep r o b l e mo ff a c t o r sw i t he a c ho t h e r t h e na ni m p r o v e d r e p l i c a sd e l e t i o na l g o r i t h mi sp r o p o s e d t h ea l g o r i t h mn o to n l yc o n s i d e r st h ei m p a c t o fe l i m i n a t i o no ft h ef a c t o r s ,b u ta l s oi n t r o d u c e st h ed y n a m i ca d j u s t m e n tf a c t o r a c c o r d i n gt ot h es i z eo fr e p l i c a ,i tc a na d j u s td y n a m i c a l l yt h ep r o p o r t i o n o ft h e v a r i o u sf a c t o r si nt h ev a l u a t i o nm o d e lo fr e p l i c a t h i sa l g o r i t h mc a na d a p tt og r i d 数据网格中副本淘汰策略的研究 e n v i r o n m e n tw h i c ht h er e p l i c a ss i z ei sd i f f e r e n tw i t he a c h o t h e ri ni t i tc a nr e d u c et h e e r r o ro fc o p y o u ta n di n c r e a s et h ee f f e c t i v eu t i l i z a t i o no fn e t w o r k w es e l e c tt h e a p p r o p r i a t es i m u l a t i o n s o f t w a r ea n dv e r i f yt h ee f f e c t i v e n e s so ft h e i m p r o v e d a l g o r i t h m t h eg r i de n v i r o n m e n ta d a p t e db yt h ei m p r o v e da l g o r i t h ma n dt h er e l a t i o n p a r a m e t e r sa r ed e t e r m i n e d k e y w o r d s :d a t ag r i d ;r e p l i c ar e p l a c e m e n t ;d y n a m i ca d j u s t m e n tf a c t o r ;t h e t r a n s m i s s i o n sc o s to fr e p l i c a s ;e f f e c t i v en e t w o r ku s a g e i v 硕l :学位论文 图2 1 图2 2 图3 1 图4 1 图4 2 图4 3 图4 4 图4 5 图4 6 图4 7 图4 8 图4 9 图4 1 0 图4 1 l 图4 1 2 图4 13 图4 1 4 图4 1 5 图4 1 6 图4 17 图4 18 图4 19 图4 2 0 插图索引 副本管理服务的组成1 l 副本目录层次图12 文件信息2 1 o p t o r s i m 体系结构2 6 o p t i m i s e r f a c t o r y 类代码实现3 1 i m p r o v e o p t i m i s e r 类代码实现3 l i m p r o v e 类代码实现31 获得最大可用带宽3 2 获得网格中所有副本的大小均值3 2 作业为5 0 0 时算法的本地文件访问次数3 4 作业为5 0 0 时算法的远程文件访问次数比较3 5 作业为5 0 0 时算法的网络有效利用率的比较3 5 e d g 网格3 6 作业配置3 7 e d g 下作业平均执行时间比较3 7 e d g 下网络有效利用率比较3 7 c m s 网格拓扑结构3 8 c m s 下作业平均执行时问比较4 0 c m s 下网络有效利用率比较一一4 0 g r i d p p2 0 0 4 网格拓扑结构4l g r i d p p2 0 0 4 下网络有效利用率比较一4 l 不同调度算法下作业平均执行时间比较4 3 不同调度算法下网络有效利用率比较4 3 v l l 数据嘲格巾副本淘汰策略的研究 附表索引 表3 1结点中副本的情况2 0 表4 1测试参数3 3 表4 2e d g 结点状态3 6 表4 3c m s 网格结点状态3 9 表4 4g r i d p p2 0 0 4 网格结点状态4 2 表4 5 不同文件访问方式下的作业平均执行时间比较4 3 表4 6 不同文件访问方式下网络有效利用率比较一4 4 v l i i 硕l j 学位论文 1 1 课题背景 第1 章绪论 二十世纪六十年代术,人类采用信息包传输和开放式整体结构技术,组建了 a r p a n e t 从而诞生了i n t e r n e t ;到了九十年代初,万维网应运而生;随着因特网和 万维网的广泛应用,人们r 常工作的很多应用领域( 计算密集型和数据密集型) 遇到的商业计算越来越复杂,人们越来越需要数据处理能力更强大的计算机。传 统的与数据相关的计算技术已经无法适应现在这种高性能、大容量的处理和存储 的需求,网格技术正是在此背景之下出现i lj 。到现在为止,网格已发展细化为计 算网格【2 ,3 1 、数据网格1 4 1 、服务网格【5 j 以及设备网格等多种形态。 现代的一些学科领域,大到天气预报系统、天文台系统、高性能物理研究等 在进行科学计算的时候,需要应用t b 级甚至p b 级的数据1 6 ,7 j ;小到企业、政府 等各种部门在开展业务时,各种数据都在指数级的增长。但是,这些应用所涉及 到的资源( 人员、设备、数据等) 在地理位置上一般都分布在各地,在这种情况 下,数据在各地区站点之间的传输是非常困难的;所以当站点访问数据的时候会 耗费大量的传输时间,为了解决这一问题数据网格就应运而生了。数据网格把数 据从远地站点复制到本地或较近的站点,即创建副本【8 , 9 1 ,也叫做复制技术;这样 大大避免了部门割据、孤立和数据分散的现象。副本的出现,在一定程度上节省 了传输时问和带宽,优化了数据网格的性能。 副本机制的引入,虽然可以很好的解决网络热点的问题,减少节点的数据访 问时间、降低网络带宽的消耗、提高环境的容错性。但是与此同时,还引入了副 本管理的问题,包括副本的建立和维护等。随着副本数量的增加,不仅仅是占用 大量的存储空间,更重要的是会加大网格节点对副本维护和管理的丌销。这样就 会产生副本淘汰的问题,合理的淘汰副本不仅可以提高资源的利用率,还可以提 高网络的性能。上述网格副本的一系列问题是影响数据网格性能的直接因素,实 现复制技术的关键就是对副本进行有效地管理,所以研究副本管理技术具有很重 要的意义。 复制技术在不同的应用环境中其实现机制和关键技术也不尽相同,比如说在 分布数据库应用中,复制技术的重点在于提高系统的容错能力、访问能力和均衡 负载等l l 。而在数据网格中副本管理技术却有不同的特点,首先必须适用于广域 网,其次是由于环境的动态性,所要求副本的创建和淘汰也是动念的;所以数据 网格中的副本管理技术现在已得到国内外的广泛关注j2 l 。 数据嘲格中副本淘汰策略的研究 1 2 课题研究现状 从课题背景中我们可以知道,数据副本的管理是数据网格中的一个重要组成 部分。合理的、良好的副本管理策略可以提高数据网格的安全,提高数据的访问 速度,降低网格访问延迟和带宽的消耗,均衡负载,从整体上提高数据网格的服 务质量。 目前网格领域的研究主要集中在网格计算领域的基础研究和专用网格环境的 建设上;其中网格计算领域的基础研究包括了网格副本管理策略的研究。网格副 本管理是对网格中数据的存储、移动、复制、淘汰、更新等操作进行有效的管理; 它包括副本目录、副本创建、副本选择和副本淘汰四个方面的内容1 8 】。一些具有 代表性的副本管理系统有著名的网格项目g l o b u s 和欧洲数据网格项目。 目前网格副本管理的优化研究主要集中在副本目录、副本创建和副本选择方 面。副本目录在g l o b u st o o l 中有专门的研究;g l o b u s t o o l k i t 提供了简单的副本管 理服务和副本定位服务,但这些都是静态的、用户驱动的服务。它没有体现动态 的副本创建、副本淘汰等服务。现有的副本创建策略有b e s t c l i e n t 策略、瀑布复 制策略、简单的缓存策略、缓存+ 瀑布策略、快速扩散策略和基于经济模型( 利 润驱动) 的副本创建策略2 叫”。基于经济模型的副本创建策略是人们研究的热点, 它比传统的复制策略在性能上有很大的提高。副本选择方面目前国内外的策略主 要有基于静态网络参数策略( 主机硬件参数、网络带宽、结点距离) 、基于动态网 络参数策略、基于性能统计策略和基于蚁群算法的副本选择策略。前三种在动态、 复杂的现实网格环境中很难实施,所以在误差率和效率方面表现都不好。最后一 种策略适合现有网格环境的动态性、复杂性和可扩展性。至于副本淘汰方面,现 在的研究比较欠缺。主要的算法有传统的淘汰策略、基于预言的副本淘汰策略、 基于z i p 分布的副本淘汰策略、基于经济模型的副本淘汰算法和基于权值函数的 淘汰算法。所有的这些算法考虑的因素都不全面。传统的淘汰算法都是以历史的 访问状况作为一个依据,各自都有缺陷和不足,而且没有考虑副本的大小和副本 的传输代价两个因素,从而在淘汰副本的时候会产生大的误差。由于上述这些原 因,本文算法利用权重函数兼顾访问时间和访问频率,在考虑副本传输代价的因 素上引入动态调整因子,根据实际情况动态的调整副本传输代价所占的比例。 在不增加副本存储空间的条件下,能够很好的进行副本的淘汰。本文最后利用现 代已经成熟的网格模拟软件o p t o r s i m 进行仿真实验,将改进的算法移植到模拟软 件中并同其他算法进行了性能分析和比较。 1 3 研究内容和思路 本文在简单介绍了副本管理的基础上,重点对副本的淘汰技术进行了研究。 2 硕l j 学位论文 以往的淘汰算法难以适应现在动态、复杂的网格环境,从而导致效率低下,误差 较大。基于这些原因,本文提出了一种改进算法,并用网格模拟器进行实验验证, 对实验结果做出性能评估和分析;具体的研究内容如下t 1 首先了解对副本淘汰算法研究所需要的系统背景和数据网格副本管理的 知识背景,然后对传统的副本淘汰算法进行分析,结合数据网格环境的特征和实 际情况,设计新的副本淘汰策略。 2 对改进后的副本淘汰算法进行模型设计,并将其进行程序实现。 3 对仿真软件系统学习,选择合适的仿真器,并对它的结构体系进行深入的 研究和剖析,将改进后的算法移植到仿真软件中,使得改进的算法成为仿真软件 的一部分。 4 利用修改后的仿真平台,对改进算法进行仿真实验。在多种网格环境中进 行仿真,将改进算法的仿真结果同其他算法的仿真结果进行性能比较和分析,最 后根据分析结果确定本文改进算法所适应的网格类型和相关的参数配置。 针对上述的研究内容,本文主要采取了下面的思路: 1 通过系统的理论学习和对以往工作的研究,对影响数据网格副本性能的各 种因素进行分析和整理,提取了影响副本淘汰需要考虑的主要因素。 2 利用上述主要影响因素,比如历史时问段内访问的副本权重,副本大小, 网络带宽,副本传输代价和网格中副本的类型等作为基本参数,设计适用于副本 大小差距较大的数据网格的副本淘汰策略。 3 选择合适本文算法的网格仿真软件o p t o r s i m ,该仿真软件属于组件式的架 构模式,这种架构模式便于分析和扩展。并且该仿真器的选择方式很灵活,可以 支持文件和参数的配置。这样就可以方便的使多种副本淘汰算法集成在一起,尤 其是本文的改进算法;为算法性能的比较分析构建支撑环境。 4 o p t o r s i m 仿真器提供实验数据的图形显示接口,可以实现副本淘汰策略仿 真实验结果的图形显示,对比实验结果将改进算法的性能与其他算法的性能进行 比较和分析。根据结果对算法、网格类型以及相关参数进行进一步的分析和调整。 1 4 论文组织结构 本文主要讨论了数据网格副本管理服务中副本淘汰的问题,根据研究内容文 章主要分为以下几个部分: 第1 章绪论:介绍了论文研究的目的和意义,数据网格、副本管理和副本淘 汰的研究现状及本文所做的工作。 第2 章数据网格的概念与研究:从网格的发展历史、体系结构、网格类型引 出数据网格,并详细介绍数据网格的现状,以及数据副本的出现,对副本管理进 行了较为详细的阐述。介绍了副本创建、副本定位、副本选择、副本一致性、副 3 数据网格中副本淘汰策略的研究 本淘汰等副本管理的主要技术和相关理论知识。 第3 章一种改进的副本淘汰技术:对传统算法进行分析和改进,结合数据网 格的实际属性和参数,设计和实现了用于副本大小差距较大的数据网格的副本淘 汰算法。提出了每个存有副本的网格结点计算本结点副本价值的数学模型。 第4 章实验仿真及结果分析:首先解释了采用仿真器而不是实际网格环境来 进行试验的原因;接着针对目前网格仿真器从整体上进行了介绍,从仿真器的主 要功能出发,选择本文合适的仿真软件o p t o r s i m 。首先对o p t o r s i m 的整体框架 进行了研究,然后按功能实现分模块进行了分析和提取,扩展和改进了仿真软件, 在仿真环境中加入代码实现后的改进副本淘汰策略,实现算法和仿真平台的融合。 最后基于修改的网格模拟器进行了仿真实验,对所提出的副本淘汰策略在性 能上进行了仿真和评估;通过实验仿真,确定本文改进算法所适应的网络环境, 以及进行副本淘汰时其他参数的最优配置,并对计算公式中各因素问的关系对价 值的影响进行了评估。 最后对全文做了总结,并对下一步的工作进行了展望。 4 硕i :学位论文 第2 章数据网格的概念与研究 2 1 引言 网格可以说是一种先进的技术,也可以说是一种基础设施。它代表了科技的 进步,它提供了与以往不同的计算方式,这种计算方式是一种全新的、自由的、 方便的方式;解决了计算能力、地域限制等问题。数据网格是网格的一种,它具 有移动性、复制性和可缓存的特点,它可以给用户提供高效的、可扩展的、具有 可靠性的存储资源。副本是数据网格中的一种技术,可以帮助用户减少访问延迟、 网络带宽的消耗等。本章的目的就是从整体上认识网格,认识数据网格以及有关 它的功能、服务和技术等。了解网格、数据网格、副本三者之间的关系和发展现 状,为研究副本管理服务中的副本淘汰技术做铺挚。 2 2 网格的概述 网格来源于电力网格。网格技术的最终目标是结合数以亿计的分布在因特网 上的计算机、存储器、网络资源、机器设备等,将信息世界有机的组成一个整体, 使其形成一个超级计算机;使不断增长的计算、存储、数据等的需求得以满足。 让用户在使用网络资源时,能够像使用电力一样方便。 网格是一种新兴的技术,处于不断发展和变化当中。目前围绕网格的研究有 很多,其研究内容和名称也不尽相同,所以网格的概念也没有精确地定义。比如 媒体常称“下一代互联网”、“i n t e r n e t 2 ”、“下一代w e b ;企业常称“分布式计算”、 “电子服务”、“w e b 服务”等。网格实际上是继传统互联网、w e b 之后的第三代 互联应用。 目前网格分为“狭义的网格”和“广义的网格;狭义的网格以美国阿冈纳 ( a r g o n n e ) 国家实验室的资深科学家、g l o b u s 项目的领导人l a nf o s t e r 为代表。2 0 0 2 年7 月,l a nf o s t e r 在w h a ti st h eg r i d ? at h r e ep o i n t c h e c k l i s t 中给出狭义网格 的定义,应满足以下三个条件: 1 网格环境中的控制是非集中的,而且资源在各站点间是协同使用的; 2 网格有自己严格的开放标准、通用的协议和接口; 3 网格提供的服务是非平凡的; 广义的网格观不仅包括计算网格、数据网格、信息网格、知识网格、商业网 格,还包括一些像对等计算、进化计算等已用的网格计算模式。不管是狭义的网 格还是广义的网格,都是利用互联网把广泛分布在各地区的计算、数据、存储、 数据网格中副本淘汰策略的研究 带宽、信息、软件等资源组合在一起,形成一台超级计算机;这台超级计算机可 以使信息一体化、提供像计算、存储这样的应用服务,目标就是实现这个超级计 算机环境下资源的充分共享、工作的协同和资源“孤岛的彻底消除。网格可以 迅速的提高人们解决问题的能力,可以协同其他节点完成以前无法完成的工作。 它突破了地理上的限制,可以在不考虑实际地理位置的前提下,随时随地的使用 网络资源。传统的互联网实现了计算机硬件的连通,w e b 实现了网页的连通,而 网格的目的旨在将互联网上的所有资源连通。 网格计算是网格发展的第一阶段,传统的以超级计算机为中心的计算模式存 在明显的不足,随着人们日常工作中遇到的商业计算越来越复杂,越来越需要数 据处理能力更强大的计算机,但是超级计算机的价格阻止了它进入普通人的工作 领域i l 引。在这种需求背景下,网格计算( g r i dc o m p u t i n g ) 技术就诞生了;它以共享 计算资源为目的,为用户提供聚合的超级计算能力。 网格技术能够最大限度的将其内部的计算机资源构建成可以协作工作的虚拟 计算机环境,可以提高系统的可用性、工作效率和灵活性。所以说这罩网格计算 研究的先导i a nf o s t e r 给网格下的定义是:网格计算式动态多机构虚拟组织中的 一个协调的共享资源和解决问题的过程i l 6 1 。 2 2 1 网格技术的特征及其体系结构 1 网格技术的特征 网格跟传统的分布式系统是不相同的;传统方法、分布自律系统( a u t o n o m o u s d e c e n t r a l i z e ds y s t e m s ,a d s ) 方法,网格( g r i d ) 方法,是构建分布式系统的三种方 法。a d s 通常用于工业控制系统中。网格方法同传统的方法主要体现在开放性、 通用性、集中性、使用模式、标准化和平台几个方面。网格主要具有以下四点优 掣j f 1 7 】 一,j ( 1 ) 为了解决资源孤岛的问题,网格环境实现了应用层面上的资源共享和应用 程序的互连互通。与计算机网络比较最明显的不同就在于一个是物理硬件上的连 通,一个是应用层面上的连通。 ( 2 ) 协同工作是网格的另外一个特点,就是说为了处理一个项目或作业,网格 中的多个站点可以联合起来合作完成。 ( 3 ) 网格跟其他的软件产品不一样,它是基于国际开放技术标准的,并且有一 套严格的检验标准,它要求网格的丌放标准必须是通用的,控制必须是非集中的, 而且服务质量必须是不平凡的。 ( 4 ) 为了能够适应现在动态的环境和高度的可扩展性,网格提供了动态的和非 限制性的服务,在适应变化的同时也实现了系统的可扩展性。 6 硕f ? 学位论文 一 2 网格技术的体系结构 网格的体系结构就是对如何建造网格的技术的描述。它表达了网格的基本组 成与功能,描述了网格各组成部分的关系以及它们集成的方式或方法,刻画了支 持网格有效运转的机制。网格的体系结构给它带来了上述所说的种种优势特征, 网格体系结构的主要功能是划分系统基本组件,指定组件的目的与功能,刻画组 件之间的相互作用,整合各部分组件【1 7 1 。科研工作者已经提出并实现了若干种合 理的网格体系结构。下面介绍目前影响比较广泛的一种网格体系结构o g s a ( o p e n g r i ds e r v i c e sa r c h i t e c t u r e ) :开放式网格服务体系结构,它是由美国的a r g o n n e 国 家实验室、南加州大学、芝加哥大学和i b m 公司共同提出的。 在原来“五层沙漏结构”的基础上提出来的o g s a 的中心思想就是“服务”, 它结合了w e bs e r v i c e 技术,所以被称为基于w e bs e r v i c e 技术的“服务结构”。 在o g s a 框架中,将一切都抽象为服务,包括计算机、代码、数据、仪器设备等。 因为这样有利于网格通过统一的标准接口来管理和使用。w e bs e r v i c e 的框架结构 是基于服务的,而且w e bs e r v i c e 所面对的服务一般都是永久性的,但是在网格 应用环境中所面临的大量服务却是临时的和短暂的,比如说计算任务的执行等。 根据上个小节中所提到的网格环境的特点,o g s a 扩展了w e bs e r v i c e 的服务概 念,在此基础上提出了“网格服务( g r i ds e r v i c e ) 的新观念,网格服务主要是 用来解决与临时服务有关的问题;比如说服务的发现和创建,以及它的生命周期 管理等。 基于o g s a 中“网格服务”的概念,正是由网格服务的集合组成了网格,根 据网格的动态性和高度可扩展性的特征,这个网格服务集合是可以加入和退出的, 而且网格服务的不同功能是通过不同定义的接口来实现的,网格服务中的数据表 示网格服务中实例的信息;所以网格服务可以简单地看成是由行为、接口和服务 数据组成的。 o g s a 的意义主要就是它把网格从以科学与工程计算为中心的学术研究领 域,带到了更广泛的以分白式系统服务集成为主要特征的社会经济活动领域。目 前,网格服务提供的接口还比较有限,o g s a 还在不断的完善过程之中,下一步 将考虑扩充管理、安全等方面的内容。相信在大量的基于o g s a 的应用与开发展 开后,o g s a 会不断得到完善和提高,这会直接推动网格计算的发展。 随着网格计算的深入研究,网格体系结构的重要性也越来越明显。而网格体 系结构的重点则是有关怎样构建网格的技术,这部分的研究内容是对网格组成部 分的研究和对网格运行机制的研究,前者包括各组成部分功能的定义和描述、以 及各部分之f h j 的相互关系与集成方法的规定。所以说网格体系结构是网格技术中 最核心,最重要的,只有合理的网格体系结构的建立,网格才能设计、建造好, 近而有效地发挥它的作用。 7 数据网格中副本淘汰策略的研究 2 2 2 网格的分类 根据网格的体系结构和用途,网格可大致分为计算网格、数据网格、访问网 格、信息网格、服务网格和制造网格等【1 8 l 。 计算网格主要着重于网格计算力的获取和管理。具有代表性的计算网格有 c o n d e r g 清华大学的c a m p u sg r i d ! 坩j 等。 数据网格主要强调数据的存储、管理、传输和处理:它共享并且管理存储资 源和分布式数据资源,是一个大规模、可扩展的框架结构。在数据密集型应用领 域给用户提供了透明访问远程异构数据资源的机制。主要的应用领域有高性能物 理计算、生物医学、航空航天、战场模拟、天文、大型数据仓库等领域。著名的 数据网格有:欧洲数据网格、美国数据网格实验室实验室i v d g l ( i n t e r n a t i o n a l v i r t u a ld a t ag r i dl a b o r a t o r y ) 和p p d g ( p a r t i c l ep h y s i c sd a t ag r i d ) 项目1 2 0 】。有关数 据网格的系统工具有g l o b u s 、a v a k i 和s d s c ( s a nd i e g os u p e r c o m p u t e rc e n t e r ) 的 s r b ( s t o r a g er e s o u r c eb r o k e r ) 系统【引j 。 访问网格简单来讲,是一个项目;目的是为网格用户提供简单有效的视频、 音频会议功能,为e - s c i e n c e 提供基础的工具,提供单一访问通道获取网格资源的 网剧16 1 。 信息网格主要强调信息的存储、管理、传输和处理。它为人们提供了一个信 息的智能化平台,这个平台建立在现有的网络基础设施、协议规范、w e b 、数据 库技术的基础之上,是因特网的新一代信息平台。在信息网格中,信息可以被以 分布的、协作的和智能的方式来处理,而且通过特定的入口用户可以快捷、方便 的访问到所有信息。它追求的最终目标就是能够做到点播( s e r v i c eo nd e m a n d ) 和一步到位的服务( o n ec l i c ki se n o u g h ) 。 服务网格主要强调应用服务的集成,比如说视频服务、歌曲点播服务等。 制造网格是在现在网络化的经济环境下集成制造和敏捷制造的一种物化形 式,主要是为了实现设计、制造、检测、响应和重组的快速进行;消除不同企业 问在空间上协同带来的障碍。实现信息、技术资源的共享,形成具有数字化、柔 性化、敏捷化的优势互补的协同企业。目标是在短时间内以最低的成本生产出高 质量的产品。 2 3 数据网格 现在的很多应用领域需要访问大量的数据资源。比如从大的方面讲有高性能 的物理计算、全球观测应用、生物计算应用、军事应用;从小的方面还涉及到企 业间或是企业内部、跨地域的数据密集型应用等。对于这些应用的海量数据需求, 现有的管理体系已经不能够满足要求;需要建立一种有效的数据管理体系结构, 8 硕l :学位论文 于是数据网格就应运而生了。数据网格的概念来自网格,它是网格技术在数据管 理方面的应用和实现。数据网格可以将t b 级或p b 级的数据进行分布式存储和共 享,可以透明的访问异构数据资源,解决数据密集型的计算应用。 2 3 1 数据网格的研究现状 随着社会的发展,人们越来越感觉到数据网格的重要性,从而显得数据网格 的研究也越来越重要。现在的数据网格项目有:欧洲数据网格、美国数据网格实 验室i v d g l 和p p d g 项目1 2 0 l ,这里主要介绍欧洲数据网格。有关数据网格的系 统工具有g l o b u s 、a v a k i 和s d s c 的s r b 系统1 2 。 欧洲数据网格是在l h c ( l a r g eh a d r o nc o l l i d e r ) 大型强子对撞机的出现之后 应运而生的。因为l h c 需要有空前的计算能力、空前的人类智慧和空前的存储能 力来完成,需要把海量的数据分散到全球的计算机上去处理,并由全球的物理学 专家共同分析。欧洲数据网格的出现给其提供了基础平台。欧洲数据网格成立于 2 0 0 0 年1 2 月2 9 日,项目主要完成者除了c e r n 外,还有法国国家科学研究中心 c n r s ( f r e n c hn a t i o n a lc e n t r eo f s c i e n t i f i cr e s e a r c h ) 、欧洲空间研究中心意大利 分部e s a e s r i n ( c e n t r eo ft h ee u r o p e a ns p a t i a la g e n c yi ni t a l y ) 、意大利国家原 子物理研究所i n f n ( i t a l i a nn a t i o n a li n s t i t u t eo f n u c l e a rp h y s i c s ) 、荷兰国家原子 物理和高能研究所n i k h e f ( d u t c hn a t i o n a li n s t i t u t eo fn u c l e a rp h y s i c sa n dh i g h e n e r g i e s ) 和英国粒子物理和天文研究委员会p p a r c ( b r i t i s hc o u n c i lo f r e s e a r c h i np a r t i c l ep h y s i c sa n da s t r o n o m y ) 。 g l o b u s 系统主要由美国a r g o n n e 国家实验室和南加州大学联合研制。它是一 个可以升级、更换的中间件系统。g l o b u s 主要研究的关键技术有资源管理、安全、 信息服务和数据管理等,通过它提供的软件开发工具包s d k ( s o f t w a r e d e v e l o p m e n tk i t ) 和应用程序编程接1 2 1a p i ( a p p l i c a t i o np r o g r a m m i n gi n t e r f a c e ) 功 能,一些高层次的应用开发可以利用其中的工具模块来进行。为了满足数据网格 应用的迫切需求,g l o b u s 系统扩展了原有的功能,成为了数据网格应用的开发平 台;它新增了数据的高速传输、复制、元数据的管理和数据复制选择等数据网格 的功能,并对这些新增功能进行了研究和实现。 用途比较广的另外一个数据网格软件是s d s c 的s r b 存储资源代理系统。 s r b 向用户提供了象访问文件系统、档案系统、数据库系统这样的多种异构存储 系统的统一接口;这个接口为了用户的使用方便,特意屏蔽了存储系统的异构特 性。而且它还支持广域网环境下的多种数据源的访问,提供了复制、复制数据的 访问、文件的汇集、分布文件的逻辑集合等功能。为了满足网格技术和用户的需 求,目前和g l o b u s 系统结合是一个势在必行的趋势。 9 数据嗍格中副本淘汰策略的研究 2 3 2 数据网格的功能 数据网格的功能主要有负载调度和管理、数据管理、网格监控、构造层的管 理和海量存储管理【2 2 1 。 负载调度管理是数据网格可以根据网格结点的计算能力和数据可用性来分解 和分发任务,从而使各结点共同合作完成整个工作。负载管理还要可以预测和综 合考虑任务在不同结点上的执行时延、副本生成和数据迁移的开销,以便来比较 任务分解的各种方法的开销,现在的负载调度管理还需要具备协同分配、预留资 源的能力和组件失效时的恢复策略。 数据管理规范了数据网格中海量数据的访问,它统一了数据的名字空间和格 式,保证了数据在不同区域间复制和高速移动,以及远地站点数据副本的一致性 等等。但是数据网格还应该具备一些其他的优化措施,比如说要可以支持广域网 数据自动的高速缓存,用户还应该能够根据使用模式选择合适的数据分发方式等。 网格监控即可以纵览全局,又能深入某个局部分析细节状况,开发的底层 a p i ,提供了对计算构件、网络和海量存贮的性能和状态信息。可以协助制定工 作负载和数据管理的调度策略,以及调整应用程序的运行性能。 构造层的管理是网格存在的物理实体,它保证了资源可用性和分配、保证了 安全认证、保证了数据的计算和存储。但是像配置的动态性、容错的自动性、资 源变化的自适应性和性能的自动调整性这样的能力在现有网格的研究成果 g l o b u s 中就已经具有,这些能力对于d a t a g r i d 所要面临的问题来说,就没有显得 那么强大了,因为数据网格不仅包括成千上万个基础构件,而且它的时间约束条 件是非常严格的,所以用来实现发现错误

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论