(计算机应用技术专业论文)数据网格环境下基于存储的副本管理策略的研究.pdf_第1页
(计算机应用技术专业论文)数据网格环境下基于存储的副本管理策略的研究.pdf_第2页
(计算机应用技术专业论文)数据网格环境下基于存储的副本管理策略的研究.pdf_第3页
(计算机应用技术专业论文)数据网格环境下基于存储的副本管理策略的研究.pdf_第4页
(计算机应用技术专业论文)数据网格环境下基于存储的副本管理策略的研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机应用技术专业论文)数据网格环境下基于存储的副本管理策略的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 现代科学研究和应用领域的需要正朝着高性能、大数据量的方向发展,由于 m c e m c t 中存在着数据共享和协同的问题,使很多信息系统信息分散、数据难于 查找,并且相互孤立,难于连通。数据网格为用户建立分布、异构、海量数据的 一体化访问、存储、传输、管理服务,是解决共享和协同问题的有效方法。 数据网格中副本管理策略是一个研究的重点,本文分析了数据网格中副本管 理系统的结构和特点,并重点研究了副本管理策略,其中包括多种动态复制策略。 在此基础上,总结各种动态复制策略的优缺点,改进了数据网格的系统存储模型, 提出了基于区域存储的系统模型;并对其中的集中式动态复制策略进行改进,提 出了基于访问趋势的副本产生算法。 本文使用数据网格模拟器o p t o r s i m 对提出的改进思想和算法进行了模拟实 验,其中包括各种配置文件的实现、作业提交和文件访问模式以及模拟参数的输 入。最后,得到实验数据,并对其进行了分析比较。 通过系统模型和副本创建算法的改进,提高了数据网格的总体性能。例如, 缩短了数据响应时间和降低了网络带宽消耗等。此外,通过对o p t o r s i m 的扩充, 使模拟环境更加接近真实的数据网格环境,也使得到的实验数据更加具有说服 力。 关键字:数据网格、副本管理、动态复制、热点副本、o p t o r s i m a b s t r a c t m o r ed a t a - i n t e n s i v ea n dh i g h - p e r f o r m a n c ea p p l i c a t i o n sa mr e q u i r e di nt h e m o d e r ns c i e n t i f i cr e s e a r c ha n da p p l i c a t i o na r e a s b e c a u s el a c k i n go fd a t as h a r i n ga n d c o o p e r a t i o n , m a n yi n f o r m a t i o ns y s t e m sa r es e p a r a t e da n di s o l a t e d ,a n dd i f f i c u l tt o c o m m u n i c a t ew i t he a c ho t h e r d a t ag r i dp r o v i d e st h es e r v i c e sw h i c hc o n t a i na c c e s s 、 s t o r a g e 、t r a n s f o r m a t i o na n dm a n a g e m e n to fd a t af i l e s i ts u p p o r t st h ed i s t r i b u t e x ia n d i n t e n s i v e - d a t as y s t e m s ,a n ds o l v e st h ep r o b l e m sm e n t i o n e da b o v e t h er e p l i c am a n a g e m e n ts t r a t e g i e sa r eo n eo ft h ep o p u l a rr e s e a r c h e so fd a t a g r i d t h i sp a p e ra n a l y z e st h es l l u c t u r ea n dc h a r a c t e r i s t i c so f t h er e p l i c am a n a g e m e n t s y s t e m ,a n dr e s e a r c h e so nt h er e p l i c am a n a g e m e n ts t r a t e g i e sw h i c hc o n t a i ns e v e r a l d y n a m i cr e p l i c a t i o ns t r a t e g i e s b a s e do nt h em e r i t sa n dd e m e r i t so f d i f f e r e n td y n a m i c r e p l i c a t i o ns t r a t e g i e s ,t h i sp a p e ri m p r o v e so nt h es y s t e mm o d e la n dp u t sf o r w a r da s y s t e mm o d e lb a s e d o nr e g i o n a ls t o r a g ea n dar e p l i c ac r e a t i o na r i t h m e t i cb a s e do nt h e a c c e s st r e n d t h r o u 【g ht h ed a t a g r i ds i m u l a t o ro p t o r s i m ,t h ei m p r o v e da r i t h m e t i ci ss i m u l a t e d t h es i m u l a t i o np r o c e s sc o n t a i n st h er e a l i z a t i o no ft h ec o n f i g u r a t i o nf i l e s 、j o b s u b m i t t i n g 、f i l ea c c e s sm o d ea n dt h ei n p u to fs i m u l a t i o np a r a m e t e r s a tl a s t , t h e s i m u l a t i o nd a t ai sa n a l y z e da n dc o m p a r e dw i me a c ho t h e r a f t e r i m p r o v i n gs y s t e m m o d e la n dt h e r e p l i c ac r e a t i o na r i t h m e t i c ,t h e p e r f o r m a n c eo fd a t ag r i di si m p r o v e d f o re x a m p l e , t h ed a t ar e s p o n s et i m ea n d n e t w o r kb a n d w i d t ha r er e d u c e d ,e t c b e s i d e s ,t h r o u g hm o d i f y i n go p t o r s i m , t h e s i m u l a t i o ne n v i r o n m e n ti sm o r el i k ear e a ld a t ac - r i d ,a n ds i m u l a t i o nr e s u l t sa r ea l s o m o r ep e r s u a s i v e k e y w o r d s :d a t ag r i d 、r e p l i c am a n a g e m e n t 、d y n a m i cr e p l i c a t i o n 、p o p u l a rr e p l i c a 、 o p t o r s i m 学位论文独创性声明: 本人所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。如不实,本人负全部责任。 论文作者( 签名) :缢j 经2 0 0 7 年月日 学位论文使用授权说明 河海大学、中国科学技术信息研究所、国家图书馆、中国学术期 刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件或电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文 档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允 许论文被查阅和借阅。论文全部或部分内容的公布( 包括刊登) 授权河 海大学研究生院办理。 j 1k 论文作者( 签名) :坳! 经2 0 0 7 年 月 日 第1 章绪论 1 1 概述 第1 章绪论 在现代的科学研究和应用领域中,大量的数据是重要的资源,如高能物理和 粒子物理、生物医学研究、航空航天、数字地球、大型武器模拟、大型数据库和 数据仓库等的应用,其数据量将达到t b 至p b 的级别。数据信息以超乎人们想 象的速度在增长,从而对信息存储系统的容量和速度提出了空前的要求,由此引 发的问题也随之而来。同时,地理上广泛分布的科研工作者和用户都希望能访问 和分析这些庞大的数据,而现有的数据管理体系结构、方法和技术已经不能满足 人们对高性能、大容量分布存储和分布处理的要求。因此,数据网格应运而生, 以解决上述应用面临的问题。 数据网格计算【l 】为各种应用提供了一个高性能、大容量、高速传输的并行分 布广域计算平台。它是对广域范围内大规模的数据集进行分布式管理和分析及使 用的一个综合的体系结构,实现安全、可靠和有效的网格环境中的数据传输以及 访问、复制等操作,并提供到不同存储系统的统一的接口,较好地解决了上述问 题,从而使得数据密集型的高性能计算和大量的共享数据密集型的事务处理及科 学研究成为可能。 数据网格的最终目标是建立异构分布环境下海量数据的一体化存储、管理、 访问、传输与服务的架构和环境,以便更好地解决海量数据难于组织、难以处理 的问题。 数据网格中,副本的存储及复制机制可以减少数据访问延迟和带宽消耗。通 过在广域网中创建同一个数据的多个副本可以增加用户的数据访问点,有助于改 善数据网格系统的负载均衡和增强系统的可靠性,尤其是动态副本创建策略,可 自动的选择存储点进行副本创建、删除和管理,给用户提供了更高的灵活性。副 本的存储管理和创建是数据网格管理中的重要组成部分,前者实现数据及数据副 本的存储位置,如何分配存储资源,后者侧重于解决用户数据访问延迟和数据负 载均衡的问题。 河海大学硕士学位论文 1 2 研究现状 在数据网格研究领域,美国和欧洲处于领先地位1 2 l ,美国方面主要研究的机 构来自阿岗国家实验室和由i a nf o s t e r 领导的芝加哥大学的分布式系统实验室; 欧洲方面的主要研究机构包括c e r n ( 欧洲原子能研究中心) ,i t a l y 和苏格兰 g l a s g o w 大学。他们的研究范围和规模都比较大,并且已经推出了一些实验系统, 其中最著名的是欧洲数据网格项目( e u r o p e a nd a t a g r i d ) 【3 4 1 、美国的国际虚拟 数据网格实验室的i v d g l ( i n t e r n a t i o n a lv l r t u a ld a t ag r i dl a b o m t o r y ) 项目和 p p d g ( p a r t i c l e p h y s i c s d a t a g i r d ) 项目。此外,还有日本的d a t a f a r m 数据网格 项目,澳大利亚的b a d g ( b e l l e a n a l y s i s d a t a g r i d ) 项目等。 从国内的发展状况来看。仍处于初步发展阶段,主要项目系统有科学数据网 格( s c i e n t i f i cd a t ag r i d ) 1 5 ,网格数据引擎g r i d d a e n ( g r i dd a t ae n g i n e ) 等。 副本的管理策略研究是数据网格研究中的热门研究内容,目前国外的一些研 究策略都是针对特定的数据网格项目而产生的,主要有最佳客户端策略、瀑布创 建策略、平缓存策略、缓存策略和瀑布策略相结合的策略,以及快速复制策略和 基于经济模型的策略等【7 1 。其中,大多数的副本产生算法都是在欧洲数据网格项 目中进行的,主要是运用层次式的复制过程对副本进行创建i 由于是在欧洲数据 网格项目中产生的,这些算法在符合了欧洲数据网格项目要求的同时,也使自身 受到了其局限。 此外,在国内也出现了一些副本创建策略的研究,但总体上来看研究规模比 较小,而且应用的领域不广泛,根据本文的调查主要有:华中科技大学的域内副 本衍生和域间副本扩展策略1 6 1 ,其主要是假定在层次拓扑结构的网格环境中数据 更新较少的条件下来探讨副本的创建策略;国防科技大学的基于存储联盟的双层 动态副本创建策略【刀,主要的特点是提出了平民数据网格的概念,这种策略与基 于经济模型的策略相比,在面向企业的数据网格应用中具有更好的性能。但是, 基于存储联盟的双层动态副本创建策略在模拟实验中的作业数规模很小,而对于 平民数据网格来说,用户提交作业的频率应该是非常高的。 因此,对于副本管理策略,国内外的研究状况都是处于起步和发展的阶段, 而目前数据网格面临的问题主要有:数据在网格中如何分布? 如何组织? 如何在 网格中高效的寻址和访问数据? 如何对网格存储空间实施有效的管理? 这些问 第1 章绪论 题都影响着数据网格整体的性能,并阻碍了数据网格系统为用户提供统一的服 务。同时,优化副本管理策略对解决数据网格面临的问题起着重要的作用。因此, 研究副本管理策略可以提高数据网格的整体性能,并且可以为用户提供更好的数 据访问服务,也成为了数据网格研究领域中重要的研究热点之一。 1 3 副本管理策略的内涵及研究意义 在数据网格中大范围的共享海量数据资源,提高系统的运行效率和数据访问 的可靠性,优化数据访问的性能,必然会涉及大量数据文件副本的创建、副本的 选择和副本的删除等。数据网格的特点决定了它不可能完全通过网络来远程存取 数据文件,而必须采用复制的策略将一些数据文件复制到网格中的不同站点上。 通过使用数据复制,可以减少数据访问时间,并且通过维护数据的多个副本来提 供容错性【剐。 数据文件的复制是指创建数据文件的一个或多个副本来提高资源的可用性, 并且可以提高整个数据网格的有效性和数据资源的使用效率。与传统领域的副本 管理机制相比,数据网格环境下的副本管理机制具有以下不同的特点: ( 1 ) 广域网环境:数据网格系统的副本分布于广域网中,因此数据网格中的副 本一致性管理机制必须适用于广域网环境。 ( 2 ) 海量的数据:数据网格系统的数据量一般比较大,不仅表现为源数据的规 模比较大,而且副本的数量也比较多。因此要求副本管理机制对数据量具 有较好的可扩展性。 ( 3 ) 数据网格系统的动态性:由于网格系统允许网格站点动态的加入和退出系 统,因此数据网格中的副本管理机制必须能够支持站点的动态加入和退出: 同时,要求副本管理机制对于网格系统的规模也具有可扩展性。 ( 4 ) 副本的动态创建和删除:网格系统的动态性等特点要求数据网格系统中的 副本能够在运行时动态的创建和删除。 本文认为,在数据网格中,通过使用副本管理策略可以达到以下目的,对整 个数据网格起到优化的作用: ( 1 ) 负载均衡:在用户广泛分布,数据资源数量庞大且广泛分布,用户对数据 资源访问频繁的数据网格环境下,如果数据文件只有一个副本,则会造成 河海大学硕士学位论文 系统性能瓶颈,出现某个站点负载过重的情况,而副本的创建可以解决这 样的问题。 ( 2 ) 节省网络带宽:数据文件被复制到本地或邻近的站点后,用户不需要每次 都远程的访问和传输数据文件,从而可以在很大程度上节省网络带宽。 ( 3 ) 降低访问延迟:数据文件被复制到多个存储站点后,用户便可以选取最近 的副本的进行访问,从而降低访问延迟。 ( 4 ) 提高可靠性:如果数据文件只有一个副本,很容易出现单点失败的现象, 使数据服务的可靠性降低,而对数据文件进行副本创建以后,可以避免以 上的情况,从而提高数据服务的可靠性。 由于副本管理策略在数据网格中有着举足轻重的作用,因此成为了各国数据 网格研究的热点,其中欧洲数据网格中副本管理策略的研究处于领先地位。但由 于当前的这些副本管理策略是针对欧洲数据网格的层次式拓扑结构所建立的,因 此也存在着一些不足之处。比如欧洲数据网格中实现的副本管理策略没有特别考 虑网络的带宽开销【9 1 ,而有限的网络带宽是数据网格系统中的副本管理技术需要 考虑的因素的之一;数据传输的历史记录可以帮助预测具有副本的最佳站点;由 于数据网格中的某些站点只能提供有限的存储能力,因此如果应用针对欧洲数据 网格所设计的副本管理策略会容易导致数据文件的频繁复制和删除,系统的性能 将大大降低。 1 4 本文的工作 数据网格的复制策略主要解决副本生成以及复制选择两类问题。副本生成即 确定何时以及在何地生成新的数据副本,复制选择就是在一定的性能要求下选择 最佳的数据副本。 本文针对数据网格的特点,分析了现有的副本管理系统的结构和特点,并介 绍了在数据网格中具有代表性的欧洲数据网格项目,以及归纳了多种动态复制策 略。在此基础上,针对欧洲数据网格的不足之处,对其系统模型进行了改进,提 出了一种基于区域存储的系统模型,并对集中式的副本产生算法进行改进,提出 了基于访问趋势的副本产生算法。 本文的模拟实现主要以欧洲数据网格模拟工具o p t o r s i m 为基础,通过分析 第1 章绪论 o p t o r s i m 的源代码,研究o p t o r s i m 工具中各项副本管理工具的模拟和实现途径。 在此基础上将本文的思想与优化算法运用到o p t o r s i m 中进行模拟实验,并分析 比较了实验结果。 1 5 论文结构 全文共分五章,内容如下: 第一章,通过现实中的应用问题引入数据网格的概念,并分析比较了数据网 格的国内外研究现状,及其存在的问题。同时,描述了数据网格中副本管理策略 的内涵和研究意义。最后提出了本文的主要工作。 第二章,主要描述了数据网格的相关理论,包括数据网格中的基本概念,副 本管理系统的结构和特点( 深入研究了副本管理系统中的各个组成部分,包括副 本目录与定位,副本的创建和一致性问题,以及副本的选择问题) ,最后分析了 典型的数据网格项目( 欧洲数据网格项目) ,讨论了欧洲数据网格的内部结构和 数据管理服务。 第三章,重点研究副本管理策略,首先总结了几种重要的动态复制策略,并 提出了其优缺点。在此基础上,提出了本文的重点内容即副本管理策略的改进方 法,包括基于区域存储的系统模型,基于访问趋势的副本产生算法以及面向响应 时间的副本放置方法。 第四章,主要进行算法的实现与性能分析,包括介绍本文使用的数据网格模 拟器o p t o r s i m 的体系结构,并将它与其他网格模拟器进行比较,总结其优缺点。 其次,对o p t o r s i m 进行修改,包括配置文件的设置。作业的提交模式,文件访 问的模式以及模拟参数和模拟界面的设置等。最后,对副本优化算法进行模拟分 析,得到实验数据,并分析比较结果。 第五章,总结和展望,对本文的工作进行总结,并结合目前的研究情况,提 出下一步的研究趋势。 本文的重点是第三章和第四章。 河海大学硕士学位论文 第2 章数据网格及相关理论 在第一章中,对于本文的研究内容作了大致的介绍,描述了副本管理策略的 内涵和研究意义,并列出了本文的主要工作和论文结构。在本章中,首先提出了 数据网格的相关概念:其次,详细介绍了数据网格中副本管理系统的结构和特点; 最后,分析了欧洲数据网格项目的结构和数据管理服务。因为欧洲数据网格是目 前数据网格研究中比较典型的一个例子,对其进行介绍和分析,有利于本文副本 管理策略改进方法的提出。此外,欧洲数据网格也是使用模拟器o p t o r s i m 进行 模拟实验的,也有利于本文模拟实验的进行。 2 1 基本概念 数据网格提供一种平台,通过这个平台,用户可以访问总的计算、存储和网 络资源来对远程数据执行他们的数据密集型应用1 0 】。数据网格的主要目标1 1 】是 提供简单的使用,对全局分布式数据的透明访问,以及从用户和应用程序中分离 复杂性。本质上来说,它使数据访问和定位像在单个计算机上一样简单。 o 用户 月p 图2 1 数据网格 上图2 1 说明了一个由高速网络相连的存储资源组成的数据网格,实线是连 接主要数据中心的宽带网络,虚线是连接存储资源和二级存储中心的能力较低的 网络。数据由仪器,实验或网络传感器产生,并存储在主要的存储站点,由于应 用的需要也可传输到其他的存储站点。复制机制产生和管理各个不同位置的副 本,复制机制的重要组成部分是复制策略,考虑当前和将来对数据集的需求,需 第2 章数据网格及相关理论 求的位置,以及产生数据副本的存储能力。 本文认为,数据网格在为网格系统中的用户提供服务时,主要有两项基础服 务:一是安全可靠,有效的数据传输;二是注册,定位,管理多个数据集副本的 能力。有了这两项服务,就可以构造大规模的高层数据管理服务,包括在一个新 的地点可靠的创建大量的数据副本;通过信息服务估算的性能,为数据传输选择 一个最佳的副本;由于应用的需要也可自动创建新的副本。两个基本的数据管理 服务共同的必要条件是:有效的数据传输,大量文件的存取以及创建和管理多个 文件副本的机制。 数据网格的元素包括:数据网格的组织结构,数据文件的传输,数据文件的 复制,以及对用户提交的作业的调度。 ( 1 ) 数据网格的组织结构即数据网格的模型,它取决于数据的来源,是否是单 一的或是分布的,数据的大小以及分享的方式等。主要有四种:层次型, 联邦型,传感型,混合型。 ( 2 ) 数据传输的功能主要有:文件i o 机制,重叠网络,传输协议( 广泛使用 的是f t p 和g r i d f t p ) 。数据传输中还要考虑安全性( 认证,加密,存取 机制) ,容错性( 重启传输,中断传输,缓冲传输) ,传输方式( 块传输, 流传输,压缩传输,批量传输) 。 ( 3 ) 数据复制和存储1 2 1 :数据网格是一个地理上分布的协作系统,它的所有成 员都要在相互协作中访问数据集。复制受到数据网格中不同站点存储容 量,站点之间的带宽的限制,因此副本管理系统是用来在管理存储系统的 同时确保能够访问所需数据的系统。一个副本管理系统包括由多个高性能 数据传输协议连接的存储结点,副本管理器根据用户的需要和存储容量, 副本目录保持副本和它们位置的一致性,进行副本的创建和管理。复制机 制的重要因素是副本系统的体系结构和复制的策略。 ( 4 ) 数据网格的调度主要体现在对作业的调度上【1 3 l 。作业调度包含两个组成部 分,一个是等待队列中的某个作业找到合适的计算资源的调度,称为匹配 调度;另一个是从等待队列中选择一个合适的作业首先进行处理的调度, 称为次序调度。匹配调度是处理一个作业与多个资源的关系,次序调度是 处理多个作业之间的关系。 河海大学硕士学位论文 2 2 副本管理系统的结构和特点 副本管理系统一般由副本目录、副本管理器、副本选择器等几个主要部分组 成【1 4 1 。 副本管理系统处于数据网格体系结构中的集合层,其目的是在一个特殊的存 储设备上将唯一的逻辑文件名映射为可能的不同的物理文件名。通常,一个用户 先查询元数据管理服务,根据元数据属性来选择逻辑文件,例如所需实验结果类 型或数据收集的时间的属性,一旦确认可能的逻辑的文件,用户再查询副本管理 服务,找到所需逻辑文件的副本存储的一个或多个物理位置。 应用程序 j 残1 i 遵 元数据服务 副本管理服务 副本选择服务 候选副本的源和ll 性能测试和估算 目的存储位置( 6 ) li ( 7 ) 信息服务 图2 2 副本管理系统服务过程 上图2 2 说明了一个应用访问副本管理系统中的各个服务的过程,以得到所 要的数据传输的最佳位置。例如一个气象建模仿真实验,科学家在模拟的时候不 知道所需数据确切的文件名字和位置。因此服务的过程如下:( 1 ) 应用程序描述 所需数据的特征,并且把这些属性描述提交给元数据目录;( 2 ) 元数据目录查询 基于属性的索引,产生一系列具有所描述属性的数据文件的逻辑文件名,并把这 一系列的逻辑文件名返回给应用程序;( 3 ) 应用程序将这些逻辑文件名提交给副 本管理服务;( 4 ) 副本管理服务返回一系列所需逻辑文件注册的副本的物理位置; ( 5 ) 应用程序将这些副本位置提交给副本选择服务,它将确定所有侯选的数据 传输操作的源和目的的存储系统;( 6 ) 副本选择服务将侯选副本的一个或多个源 第2 章数据网格及相关理论 和目的的位置提交给信息服务;( 7 ) 信息服务将基于网格的标准或预测来估算侯 选副本的传输性能;( 8 ) 基于这些估算,副本选择服务选择最优的副本返回给应 用程序。根据这个选择过程,应用程序执行数据传输操作。 副本管理系统中副本的体系结构可以从不同的角度进行分类,本文归纳了以 下几种不同的分法【1 0 】: ( 1 ) 按模型分类:有集中的和分散的,集中的系统是指有一个主副本,它是更 新的,并把更新传播到其他的结点;分散的系统或对等机制是指有多个副 本,他们的任意两个都需要彼此同步。 ( 2 ) 按拓扑图分类:有环型、树型和混合型的副本体系结构。 ( 3 ) 按存储方式分:有紧祸合( 如g f a r m ) 、中耦合( 如s r b 存储资源代理) 和松耦合。在存储方式中,副本的关系是非常重要的,它决定了复制机制 的规模、鲁棒性、适应性和适用性。 ( 4 ) 按传输协议分:有开放的协议和封闭的协议。例如,g r i d f t p 是一种开放 的协议,它允许用户端独立地传输数据,在副本管理系统之外也可以访问 复制的数据。r l s 和g d m p 都使用g r i d f t p 来作为主要的传输机制。 ( 5 ) 按元数据分:有基于系统的属性和用户定义的属性,或主动的更新和被动 的更新。元数据有两种属性:依赖于系统的属性( 如创建的时间,磁盘上 的大小,物理位置等) 和用户定义的属性,包括依赖于实验或与用户相关 的虚拟组织的属性。此外元数据可以被副本管理系统主动的更新或被动的 更新( 当用户创建新的副本、修改现存的副本,或增加一个新的文件到目 录中时,由用户更新) 。 ( 6 ) 按副本更新传播来分:有同步的和异步的,在异步的更新中分全体的和按 照需求的更新。 ( 7 ) 按目录组织分:有树型的( 如l d a p ) 、基于哈希的( 如p 2 p 网) 和d b m s ( 数据库管理系统) 。 2 2 1 副本目录与定位 副本目录是副本管理系统的关键组成部分,它的目的是将文件或集合的逻辑 文件名映射到物理存储系统中一个或多个这些实体的副本。目录注册三个入口: 河海大学硕士学位论文 逻辑集合,位置和逻辑文件。逻辑集合是用户定义的文件组。用户通常会发现注 册和操作以集合为形式的文件组会比较方便,而不是以单个文件的形式进行注册 和操作。聚集文件会减少目录的入口和管理副本的目录操作次数。目录中的位置 入口包括将一个逻辑集合映射到一个特定物理位置的信息,位置入口可以注册关 于物理存储系统的信息,例如主机名,端口,协议等。此外它还包括构建可以用 来访问相应存储系统中集合的特定文件的u r l 所需的所有信息。每个逻辑集合 可以有任意个相关的位置入口,每个位置入口包括( 0 - 7 能会重复) 集合中文件的 子集。使用多个位置入口,用户可以简单的注册逻辑集合,也许会跨越多个物理 存储系统。 不同的存储系统对数据的命名及访问方法都不尽相同,为实现数据的统一访 问和管理,将数据网格中各种类型的数据都抽象为数据元( d a t ad e m e n t ) ,每个 数据元有一个全局唯一的逻辑数据名( l d n :l o g i c a ld a t an a m e ) 。为提高系统的 性能、可靠性及可用性,数据网格系统通常会利用复制技术在多个网格结点上建 立同一数据的多个副本。为访问不同的副本,同一数据元的各个副本的逻辑数据 名l d n 是相同的,但都有着不同的物理副本名( p r n :p h y s i c sr e p l i c a n a m e ) , p r n 通常包括副本所在物理存储位置( 如i p 地址) 和访问方法等信息:如 c r r i d f t pu r l 就可以是一种物理副本名。给定数据元的逻辑数据名l d n ,如何 有效地得到所需的一个或多个物理副本名p r n ,这就是数据网格中的副本定位 问题1 ”j 。 著名的g l o b u si 具包中提供了副本目录服务来实现副本定位。g l o b u s 的副 本目录服务已在欧洲数据网格项目等多个项目中得到了应用,但它的实现使用了 集中式的目录,限制了系统的可扩展性和可靠性。r i p e a n u 和f o s t e r 后来提出了 一种分布式的副本定位方法【1 6 】,利用b l o o mf i l t e r 技术在各个本地定位结点上都 压缩存储了系统中全部的副本定位信息,有着良好的查询性能,但带来了较大的 存储开销和更新开销。此后,g l o b u s 项目组和欧洲d a t a c j r i d 项目组联合提出了 g i g g l e t l 7 1 来提供副本定位服务。在g i g g l e 中,系统可以灵活地根据需要,通过 选择合适的参数和配置来构建所需的副本定位服务,g i g # 是目前比较好的副本 定位服务的框架。但其也存在着不足之处:它没有考虑如何在数据网格系统中存 储副本目录,同时也没有考虑如何维护副本目录的可靠性等问题。 第2 章数据网格及相关理论 2 2 2 副本的创建与一致性 副本管理层主要负责管理完整和部分的数据集的复制1 1 耵,副本管理服务主要 包括以下几种: ( 1 ) 创建新的完整或部分的数据文件副本; ( 2 ) 在副本目录中注册这些新的副本信息; ( 3 ) 允许用户和应用程序查询目录找到一个特定的数据文件或数据文件集存 在的所有副本。 副本的创建有三个相关的操作:发布,复制,删除。发布操作从存储系统复 制一个当前尚未在副本目录中注册的文件到注册的存储系统中去,并更新副本目 录来记录新文件的存在。复制操作与发布操作类似,不同点是它用来创建一个已 经注册的文件的副本。删除操作从注册的副本目录位置入口删除一个文件名,在 与副本目录位置相关的存储系统中删除文件。 副本的创建即如何触发一个副本生成的策略,根据被网格用户请求使用的情 况进行的。创建副本的目的是为分散在不同地方的用户提供保证质量的数据访问 服务,避免因为网格中资源的负载不同而给用户带来不同的服务质量。创建数据 副本还能够缓解由于数据总是从一个地方传输到各地的请求者那里而造成的通 信资源阻塞。 根据实际需要和副本管理的方便,可以用两种结构仓u 建副本【1 9 j ,如图2 3 所示。从网格中的原始数据创建所有的副本可以构成星型副本创建结构;从网格 中的原始数据创建部分一级副本,然后根据一级副本再创建二级副本,依次类推 可以形成树型结构。 河海大学硕士学位论文 星型结构树型结构 图2 3 副本创建结构 副本的创建带来的另一个操作即副本的删除,当副本存储空间不足时,创建 副本必然要对存储空间的旧副本进行删除,以保证新副本的顺利产生。 由于同一个数据文件在网格上存在多个副本,随之而来的问题就是在该文件 的有效生命周期中如何保证各种访问的正确性,其中问题之一就是维护文件的一 致性,它是复制技术的关键问题之一,直接影响着网格系统的性能和正确性【2 0 1 。 目前在分布数据库以及分布对象等传统领域中,针对副本一致性管理的问题已有 很多深入的研究工作。在数据网格领域,随着复制技术的广泛使用,副本一致性 的研究也将逐渐得到关注。 当请求者访问一个文件时,可以对文件进行多个操作。根据其操作是否修改 文件的内容,可以分为两种情况。 ( 1 ) 如果请求者以只读方式访问文件,则副本管理系统只要保证让用户使用的 文件是最新的文件,对于该文件的最新修改要包含在用户访问的文件中, 这种修改可能就是该用户进行的,也可能是其他用户进行的。选择一个可 以反映最新修改结果的文件副本,给用户创建一个本地的缓存文件,以后 的访问就在该缓存中进行。之后的其他用户可以继续对该文件进行操作。 ( 2 ) 请求者如果以修改的方式访问一个文件,应先查看该文件是否正在被其他 用户以修改的方式使用,若没有,则把该文件“加锁”,让该用户开始访问, 直到用户访问完后关闭文件,把修改结果写回,才给文件“解锁”。若文件 已经被加锁,说明其他用户正在对文件进行修改,这时应根据文件的性质 第2 章数据网格及相关理论 分别处理。 目前的数据网格领域中,由于很多数据网格应用都假设数据是只读的,因此 没有深入考虑副本一致性的管理问题。 2 2 3 副本的选择 创建数据副本之后,同一个数据集在网格上存在一个或多个副本。请求者访 问数据集时,需要网格从源数据和副本中选择一个合适的数据集让请求者访问。 副本对请求者是透明的,选择合适的副本要借助副本管理模块,获得数据集副本 的所有信息,从而根据一定的策略选择一个合适的副本分配给请求者访问。 合适的副本选择受到多种因素的影响,请求者和提供者之间的数据通路情 况,提供者目前的访问负载,请求者与提供者之间的距离等都是要考虑的因素。 实现副本选择的关键是对逻辑文件每个副本的响应时间进行预测。预测有两种方 法2 1 1 :一种是基于性能模型预测副本的响应时间,另一种是基于访问历史信息预 测副本的响应时间。文献 2 2 中提出了基于网络和磁盘访问i o 性能的预测模型, 以对副本响应时间进行预测。基于性能模型预测方法的缺点是需要访问大量的底 层物理设备的详细信息。基于访问历史信息预测的方法包括f a e r m a n 等提出的基 于网络传输历史信息的a d r m 模型,v a z h k u d a i 等提出的基于网络负载变化和 g r i d f t p 传输历史信息实现的r e g r e s s i o n 模型以及y u h u 提出的基于i b l 的副本 选择算法等。虽然上述方法能够在一定程度上预测副本的响应时间,但它们都没 有考虑数据网格系统中副本的动态创建,同时副本选择算法的设计需要考虑数据 网格应用的具体特征。 2 3 典型数据网格项目分析 欧洲数据网格e u r o p e a nd a t a g r i d ( e d g ) 唧是一个国际性大型研究和技术 发展项目,于2 0 0 0 年1 2 月由欧盟提供一千万欧元资金启动。由欧洲粒子物理研 究所( c e r n :e u r o p e a no r g a n i z a t i o nf o r n u c l e a rr e s e a r c h ) 领导,另外还包括欧 洲空间局( e s a :e u r o p e 觚s p a c e a g e n c y ) ,法国国家科学研究中心( c n r s :c e n t r e n a t i o n a ld el ar e c h e r c h es e i e n t i f i q u e ) ,意大利国家核物理研究院( r n f n ) 、荷兰 国家实验室物理系( n i e f ) 和英国粒子物理与天文学研究理事会( p p a r c ) 河海大学硕士学位论文 等五个主要合作伙伴和欧洲各国的1 5 个相关研究机构。欧洲数据网格主要针对 c e r n 的高能物理应用,解决海量数据的分解存贮和处理问题,提供一种突破地 理局限,允许分布在世界各地的工作者交互、共享数据和设备,共同开展科学研 究的合作环境。 2 3 1 内部结构 欧洲数据网格包括两个实验床:生产和开发实验床。生产实验床是运行最新 e d g 中间件稳定版的基础设施,并且用于应用开发者的实验和证明;开发实验 床用于满足e d g 开发者快速构建原型和测试组件的需要。项目中的各个研究组 定义了一系列的虚拟组织( v 0 ) ,每个v o 有一个中心目录,包括用户伙伴信息 ( 使用l d a p 技术) 。中间件的开发领域包括:工作负载管理( w o r k l o a d m a n a g e m e n t ) ,数据管理( d a t am a n a g e m e n t ) ,网格监控信息系统( g r i dm o n i t o r i n g a n di n f o r m a t i o ns y s t e m ) ,构造层管理( f a b r i cm a n a g e m e n t ) ,海量数据存储( m a s s d a t as t o r a g e ) 。 欧洲数据网格中的大部分数据都是只读数据,这些数据通常由实验设备和测 量仪器产生的。这些数据源通过每秒1 0 0 m b 到每秒1 g b 的高速传输速度存储在 数据网格的存储介质上,在大多数情况下,存储后的数据是不需要修改的。 当用户提交一个任务时,欧洲数据网格首先分析完成任务所需要的计算资 源。然后,找到这些资源并分配给任务。同样地,运行任务所需要的数据也被检 索出来并传送给计算资源。在这个过程中,欧洲数据网格需要具备:分析任务的 能力,随时掌握网格中资源的能力,执行任务程序的能力,任意传输数据的能力, 判定和保障服务质量的能力,从错误中恢复的能力,记录出错情况的能力等。 本文将欧洲数据网格的1 2 个工作组进行了分组,如表2 1 所示。其中有5 个主要的部分,包括中间件、网络构造层实验床、科学应用、传播和管理。 第2 章数据网格及相关理论 表2 1 欧洲数据网格中的各个工作组 欧洲数据网格是一个典型的数据网格,但其也有自己的特点,同时这些特点 也成为了它的局限性。欧洲数据网格具有的特点归纳如下1 7 1 : ( 1 ) 拓扑结构:欧洲数据网格为3 至4 层的层次结构,最项层只有一个网格 站点,为数据网格系统的中央站点,其他各层存在多个网格站点,用户站 点分布在数据网格系统的最底层,只有用户站点才可能发出访问数据的请 求,其他网格站点并不需要访问数据; ( 2 ) 源数据分布:在欧洲数据网格系统中,所有源数据存储于最顶层的中央站 点上,源数据是建立副本前数据网格中所有数据的集合,它们是数据网格 系统中所有副本的最终来源; ( 3 ) 网络环境:欧洲数据网格系统基于高速并且固定带宽的网络,网络带宽均 为6 2 2 m b p s ; ( 4 ) 站点存储能力:欧洲数据网格中,单个网格站点的存储能力非常强,中央 站点的存储能力达到上千t b 。 河海大学硕士学位论文 2 3 2 数据管理服务 欧洲数据网格的1 2 个工作组中,w p 2 ( w o r k p a c k a g e 2 ) 是数据管理,主要 负责数据访问,移动和复制,实现在网格分布式环境下,管理和共享大量数据。 欧洲数据网格的副本管理系统包括如下服务洲: ( 1 ) 副本管理器( r e p l i c am a n a g e r ) ,运行在客户端,进行创建、复制、删除 网格上的数据,文件从外部资源中导入,通过网格存储单元复制( w p 5 ) , 并通过副本管理器接口从网格上删除。 ( 2 ) 副本定位服务( r l s :r e p l i c a l o c a t i o ns e r v i c e ) ,副本定位服务是提供文 件副本物理位置信息的系统。它定义了两个组件:一是当地副本目录 ( l r c :l o c a lr e p l i c ac a t a l o g ) ,二是副本定位索引( r l i :r e p l i c al o c a t i o n i n d e x ) 。 ( 3 ) 副本元数据目录服务( r m c :r e p l i c am e t a d a t ac a t a l o gs e r v i c e ) ,它允许 用户定义逻辑文件名并将其存储到全局统一标识符中( g u i d s :g l o b a l l y u n i q u ei d e n t i f i e r s ) 。 ( 4 ) 副本优化服务( r o s :r e p l i c ao p t i m i z a t i o ns e r v i c e ) ,为一个特定的作业 选择最好的数据副本,包括计算、存储、网络资源的优化。r o s 可以获 得不同网格资源之间的网络延迟,资源代理也可以使用r o s 来计算用户 作业所需的数据文件获取的最短时间。 f 一1 i 用户接1 2 1 ( 1 ) 复制文件( 逻辑文件名 存储位置) ( 3 ) 获得所有副本的位置 ( 6 ) 注册新副本的信息 副本元 数据目录 副本 管理器f 4 ) 选择最优的副本文件 ( 5 ) 复制文件( s e l ,s e 2 j 存储单元1i 存储单元2 ,、 图2 4 欧洲数据网格服务过程 副本优 化服务 第2 章数据网格及相关理论 上图2 4 为欧洲数据网格数据管理服务的典型使用过程:( 1 ) 首先用户将文 件的逻辑文件名和存储位置提供给副本管理器;( 2 ) 副本管理器与副本元数据目 录连接,获得文件的g u i d ;( 3 ) 然后用户查询副本定位服务,得到当前存在的 所有副本的位置;( 4 ) 副本优化服务计算基于网络检测信息的复制文件最好的站 点;( 5 ) 接着副本管理器复制文件;( 6 ) 副本管理器并将新副本的信息注册到副 本定位服务中。 其中,副本管理器是整个数据网格服务过程中的关键部分,可以对副本目录 进行条目的添加、删除、更新操作,并监控和触发副本创建实际过程。 2 4 小结 本章在第一章提出问题的基础上,对于研究的内容作了整体上的分析,主要 从两个方面着手:第一是副本管理系统的结构和特点,主要分析了副本目录与定 位、副本的创建与一致性,以及副本的选择问题,这些都是副本管理的主要工作; 第二是分析了典型的数据网格项目,即欧洲数据网格项目的内部结构和数据管理 服务。其中对欧洲数据网格的工作组进行了归纳比较,并分析了欧洲数据网格的 特点,以及它的适用领域。同时也由这两个方面引出了本文的研究重点,副本管 理策略的内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论