(计算机科学与技术专业论文)griden数据网格系统优化方案设计与实现.pdf_第1页
(计算机科学与技术专业论文)griden数据网格系统优化方案设计与实现.pdf_第2页
(计算机科学与技术专业论文)griden数据网格系统优化方案设计与实现.pdf_第3页
(计算机科学与技术专业论文)griden数据网格系统优化方案设计与实现.pdf_第4页
(计算机科学与技术专业论文)griden数据网格系统优化方案设计与实现.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(计算机科学与技术专业论文)griden数据网格系统优化方案设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院硕士学位论文 摘要 随着计算机科学的发展和应用的普及,人们在日常的生活和工作过程中对于计算机 的依赖程度逐渐提高。除生物医学、人体成像、气象预测、地震预测、高能物理等领域 能够产生海量的数据外,生活和娱乐所产生的数据量也在以t b 级甚至是p b 级为单位 快速增长。因此,实现海量数据的有效管理和数据的快速访问已经成为当前迫不及待需 要解决且极具挑战性的问题。数据网格以广域环境下海量、异构的数据资源为处理对象, 结合高性能计算设施和大规模存储设备,实现了数据存储、数据传输、数据访问、副本 管理、高性能数据处理等功能,为用户提供了一个数据管理与处理的基础设施。 作为一种跨广域网络的分布式数据共享、管理与处理机制,数据网格所面临的一个 严峻挑战就是如何有效减少复杂网络环境对系统性能所造成的负面影响。文章以g r i d e n 数据网格系统为研究背景,以提高系统的性能和服务质量为研究的出发点和落脚点,针 对系统中的元信息服务、控制消息传递机制和数据本身传输机制所存在的不足,分别提 出了优化方法: i 基于g r i d e n 系统的元信息服务,本文提出了一种单级预取一多级缓存的元数据预 取策略和一种基于虚拟目录和历史访问记录的元数据预取算法,简称d h m p 。g r i d s m 模拟器模拟实验结果显示,优化后的元信息服务较之前在性能方面有了较大的提高。 i i 基于系统控制消息传递机制,本文引入了一种“分而治之 的策略,即在域内 与域间采用不同消息传递策略。域内更加注重传递效率,而域间则更加注重于资源的异 构性。本文通过简单的理论分析,说明了该策略的可行性。 i i i 基于数据本身传输机制,本文引入了一种基于“拉的数据传输策略,即通知 数据接收方主动到数据发送方并行地获取待传输的数据。此外,本文还针对系统数据传 输过程进行了简化,减少了参与传输节点的数量,使得节点之间数据传输更加直接,提 高了数据传输的效率和网络带宽利用率。 主题词:数据网格,数据传输,副本,元数据,虚拟社区 第i 页 国防科学技术大学研究生院硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n ta n da p p l i c a t i o no fc o m p u t e rs c i e n c ep o p u l a r i z a t i o n ,p e o p l ea r e b e c o m i n gm o r ea n dm o r ed e p e n d e n c yo nc o m p u t e r s i nt h e i rd a i l yw o r ka n dl i f e i na d d i t i o nt o b i o m e d i c i n e ,h u m a nb o d yi m a g i n g ,w e a t h e rf o r e c a s t i n g , e a r t h q u a k ep r e d i c t i o n ,h i 曲一e n e r g y p h y s i c sa n do t h e rf i e l d sc a ng e n e r a t em a s s i v ea m o u n t so fd a t a , t h ea m o u n to fd a t ag e n e r a t e d i ng e n e r a ll i f ea r ea l s oi nr a p i dg r o w t hb a s e do nt bo re v e np bg r a d e l e v e lu n i t s t h e r e f o r e ,t o a c h i e v ee f f e c t i v em a n a g e m e n to fh u g ea m o u n to fd a t aa n dq u i c ka c c e s st ot h o s ed a t ae v o l v e d i nh a v eb e c o m ec h a l l e n g i n gi s s u e s d a t ag r i di n t e g r a t e sw i t hh i g h - p e r f o r m a n c ec o m p u t i n g f a c i l i t i e sa n dm a s s i v es t o r a g ee q u i p m e n t s i tr e a l i z e sm a n yd a t am a n a g e m e n tf u n c t i o n a l i t i e s , s u c ha sd a t as t o r a g e ,d a t aa c c e s s ,d a t at r a n s p o r t ,a n dr e p l i c am a n a g e m e n t i ti sr e g a r d e da sa n o v e li n f r a s t r u c t u r ew i t hj u s t i c e ,s e l f - a d a p t a b i l i t ya n di n t e r - a c l i v i t yf o rm a s s i v ed a t a m a n a g e m e n ta n ds h a r i n g a sad i s t r i b u t e dd a t as h a r i n g ,m a n a g e m e n ta n dp r o c e s s i n gs y s t e m ,as e r i o u sc h a l l e n g e w h a td a t ag r i df a c e di sh o wt oe f f e c t i v e l yr e d u c et h en e g a t i v ei m p a c to ns y s t e mp e r f o r m a n c e c a u s e db yt h ec o m p l e x i t yo fn e t w o r ke n v i r o n m e n t t h er e s e a r c h e si nt h i sa r t i c l ea r eb a s e do n g r i d e nd a t a 鲥ds y s t e m t oi m p r o v et h ep e r f o r m a n c ea n dq o so fg r i d e n ,i tp r o p o s e ss e v e r a l o p t i m i z a t i o nm e t h o d sa c c o r d i n gt om e t a d a t as e r v i c e ,c o n t r o lm e s s a g ep a s s i n g m e c h a n i s ma n d d a t at r a n s f e r r i n gm e c h a n i s m ,a sf o l l o w s : i i tp r o p o s e sas i n g l e - s t a g ep r e f e t c h i n ga n dm u l t i - l e v e lc a c h i n gm e t a - d a t ap r e f e t c h i n g s t r a t e g i e sb a s e do n t h em e t a - i n f o r m a t i o ns e r v i c ei ng r i d e ns y s t e m ,a n dap r e f e t c h i n g a l g o r i t h mb a s e do nt h eh i s t o r ya c c e s sr e c o r d e sa n dv i r t u a ld i r e c t o r y ,c a l l e dd h m p t h ed a t a r e t r i e v e df r o mt h es i m u l a t i o nu s i n gg r i d s ms h o wt h a tt h ep e r f o r m a n c eo fm e t a i n f o r m a t i o n s e r v i c eh a v e b e e ng r e a t l yi m p r o v e d i i i ti n t r o d u c e sak i n do fd i v i d i n gf i r s tt h a nr u l i n gs e v e r a l t i l ys t r a t e g y ,w i t c hu s e s d i f f e r e n tm e s s a g et r a n s f e rm e c h a n i s m sw i t h i na n db e t w e e nd o m a i n s w ep a ym o r ea t t e n t i o n t oe f f i c i e n c yw i t h i nd o m a i n ,w h i l et h ei n t e r - d o m a i ni sm o r ef o c u s e do nt h eh e t e r o g e n e i t yo f r e s o u r c e s as i m p l et h e o r e t i c a la n a l y s i ss h o w st h a tt h es t r a t e g yi sf e a s i b l e i i i i ti n t r o d u c e sad a t at r a n s f e rs t r a t e g yb a s e do n “p u l l ”i nt h iss t r a t e g y ,t h ec o n t r o l l e r i n f o r m st h ed a t ar e c e i v e rt oo b t a i nd a t af r o mt h ed a t as e n d e rp a r a l l e l l y i na d d i t i o n ,t h i sa r t i c l e a l s os i m p l i f i e st h ed a t at r a n s f e rp r o c e s so fg f i d e n ,w h t i c hc a nr e d u c et h en u m b e ro fn o d e s i n v o l v e di nt r a n s m is s i o n ,a n da l l o wd a t at r a n s f e rb e t w e e nn o d e sm o r ed i r e c t ,a c c o r d i n g l y 第i i 页 国防科学技术大学研究生院硕士学位论文 i m p r o v e st h ee f f i c i e n c yo fd a t at r a n s m i s s i o na n dt h eu t i l i z a t i o no fn e t w o r kb a n d w i d t h k e yw o r d s :d a t ag r i d ,d a t at r a n s f e r , r e p l i c a t i o n ,m e t a d a t a ,v i r t u a lc o m m u n i t y 第i i i 页 国防科学技术大学研究生院硕十学位论文 表目录 表1 1 世界各地的数据网格项目7 表5 1实验主机角色扮演情况6 0 表5 2g r i d e n2 0 系统软件配置6 0 表5 3 系统测试阶段性工作说明6 0 表5 4 网格资源信息服务资源测试6 l 表5 5 网格文件访问系统测试6 2 表5 6 网格环境下数据复制及缓存技术测试6 3 表5 7 网格环境下安全功能测试6 2 第1 v 页 国防科学技术大学研究生院硕士学位论文 图1 1 图1 2 图1 3 图1 4 图2 1 图2 2 图2 3 图2 4 图2 5 图3 1 图3 2 图3 3 图3 4 图3 5 图3 6 图3 7 图4 1 图4 2 图4 3 图4 4 图4 5 图4 6 图4 7 图4 8 图4 9 图4 1 0 图4 1 1 图4 1 2 图4 1 3 图4 1 4 图目录 数据网格高级视图2 g l i t e 体系结构简图5 g l i t e 数据管理体系结构5 本文各章节之间的关系与层次示意图1 1 g r i d e n 系统总体功能服务逻辑图1 3 g r i d e n 系统体系结构1 4 用户获取数据工作流程1 5 名字空间服务1 6 d r b 联邦数据服务1 8 n e x u s 关系图构建算法2 7 a m p 算法实现过程2 7 客户端预取方式2 9 服务器端预取方式2 9 元数据预取与缓存基本原理3l 预取策略基本流程图3 2 d h m p 算法描述3 4 w e b 服务工作原理3 7 s m b 协议网络应用层次示意图3 9 系统消息对象传递模型示意图4 5 域内数据上传4 7 优化后的域内数据上传4 7 原始跨域数据上传4 8 优化后的跨域数据上传4 8 简单情况下的数据下载4 8 优化后的跨域数据下载4 9 原始跨域数据下载4 9 原始域内数据转移5 0 优化后的域内数据转移5 0 原始域间数据转移5 l 优化后的域间数据转移:5 l 第v 页 国防科学技术大学研究乍院硕士学位论文 图5 1g r i d s m 组成结构5 3 图5 2n e x u s 、a m p 和d h m p 算法比较5 5 图5 3 单用户仿真工作序列实验5 6 图5 4 单用户下平均响应时间与预取组的关系5 6 图5 5 单用户下缓存命中率与预取组的关系5 7 图5 6 多用户下的实验结果分析5 7 图5 7 g r i d e n2 0 系统网络环境配置5 9 第v i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:鱼! i 堕皇旦数量圈整丕统佳焦左塞遮! 土生塞理 学位论文作者签名:主墓誊址 日期:j 年r 1 月蹈 学位论文版权使用授权书 本入完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:鱼三i 鱼曼望数握圆整丕统优化友塞遮i 土皇塞理 学位论文作者签名: 作者指导教师签名: 帆。1 伊胪 魄哆嘲搦 国防科学技术大学研究生院硕士学位论文 第一章绪论 自上世纪9 0 年代以来,数字化革命和i n t e r a c t 大发展带来了信息生产和信息传播的 全球化,导致信息的载体数据的容量呈爆炸式增长趋势。在涉及大型科学研究的众 多应用领域中,数据容量迅速膨胀,各种应用产生的原始数据和派生数据的规模已经达 到t b ( = 1 0 0 0 g b ) 级甚至p b ( = 1 0 0 0 t b ) 级【l ,2 】。由于缺乏在这种规模特别巨大的条件 下对系统可扩展性、可伸缩性、可靠性、健壮性和性能等方面的考虑,传统的数据管理 方法无法满足海量数据规模的应用需求。一方面,数据管理与共享技术发展缓慢;而另 一面,大型分布式应用对数据管理技术的要求却越来越高。在这种严峻的现实下,人们 迫切需要新的技术以适应科学应用的跨越式发展和数据容量的爆炸式增长。 大规模科学计算中的许多应用为了完成复杂的科学计算任务,需要综合高性能的数 据分析处理能力、海量的数据存储能力和高速连接的网络资源。传统分布式计算技术无 法同时满足这些应用的多样化需求。为此,人们提出网格计算技术,在不同的虚拟组织 之间提供共享和协调使用不同资源的机制,以共同完成大规模计算任务。开放的网格协 议将技术、应用、数据以及其它资源整合在一起,这些资源被虚拟化,可为用户提 供按需的计算服务1 3 j 。在网格计算技术的基础上,人们又提出数据网格技术,有效管理 广域环境下异构、海量的数据资源并提供高性能数据处理能力。 1 1 数据网格概述 数据网格 4 , 5 1 是网格计算的一个重要分支领域,是网格技术在数据管理方面的应用和 实践。它将高端计算技术与高性能网络技术、分布式存储技术和数据管理技术结合起来, 为大规模应用提供广域环境下海量数据的管理功能。 数据网格系统一般由分布在不同地理位置的计算资源和存储资源通过互联网络组 成【6 1 ,如图1 1 所示: 第1 页 里竺些茎彗奎查茎垩彗圭墼矍圭茎些篁圣 固1 1 数据网格高级视图” 在j :m 中展示了一个覆盖全球的数据网格应用。组成数据网格系统的仪器、资源和 用户分布在世界各地。科学仪器( i n s t r u m e n t s ) 产生海量原始数据,这些数据被保存在 存储资源站点( s t o r a g er e s o u r c e s ) 中,形成分布的数据中心。数据可通过高速数据传 输复制到其他存储站点,由副本管理机制负责管理。用户查询副本目录( r e p l i c a c a t a l o g ) 以定位并访问所需的数据集或者副本。数据网格的不同站点之间通过高速网络互联其 中糨线代表连接主要数据中心的高带宽网络链路,细线代表连接次要数据中心的低带宽 网络链路而虚线则代表各数据中心与分布的副本目录之间的连接。数据网格通过网络 将所需的数据从数据中心与分布的副本目录之间的连接。数据网格通过网络将所需的数 据从数据中心发送到需要处理的计算节点( u s e r ) 上,为科学计算任务提供数据支持。 计算任务完成后,为了与其他u s e r 协调和共享计算结果,输出的结果数据还需要存入 数据中心。 数据网格技术主要解决的是数据密集型处理的问题。无论是计算网格还是语义网格 ”l ,往往都需要处理广域环境下海量的、异构的、分布的各个领域的数据。计算网格和 语义网格先天的分布性导致了这种数据处理的复杂性,其苛刻的性能需求是现有的数 据管理基础设施满足不了的,数据网格技术正是在这种背景下产生的一种满足这种需求 的有效的技术途径,它主要解决的是在广域环境下分布的,异构的,海量存储资源的统 访问与管理的闻题。 数据网格面向广域的异构环境,它以命名的透明性、定位的透明性、协议的透明性 和时间的透明性为设计目标,以数据管理为中心,旨在建立一个具有较高的可扩展性的, 第2 页 国防科学技术大学研究生院硕士学位论文 面向上层应用提供通用、可靠服务的,面向底层则将网络中各种存储资源紧密结合起来 的,单一虚拟的数据访问、管理和处理环境,为用户屏蔽底层异构的存储资源,最终建 立分布的、异构的海量数据的一体化数据访问、存储、传输、管理与服务架构。 数据网格将成为数据统一访问与管理的基础设施,它可为地理上分布的研究团体对 海量数据进行复杂分析、联合处理提供基本环境,也使得单个研究人员可以充分调动网 格上的计算资源、信息资源,方便地访问和分析庞大的数据。数据网格同时也为计算网 格和语义网格提供了基本的数据储备,能够推动计算网格和语义网格的发展,所以研究 数据网格技术具有重大的战略价值。 1 1 1 数据网格主要特征 数据网格主要具有以下六大特征: ( 1 ) 海量的存储资源 在过去,欧洲原子能研究机构c e r n f 8 1 的大型强子对撞机l h c 每秒产生的原始数据 量为1 0 0 m b ,每年的数据量为1 p b ,而从2 0 0 7 年开始的以后1 0 年中,这个对撞机每秒 会产生1 5 g b 的数据,每年约为1 5 p b 的数据。这样的例子还存在于核试验、基因测序 或者卫星、望远镜等科学仪器所获取数据中。这些数据正在逐年增多,每年需要存储的 数据量可达g b 级乃至t b 级,累积数据量甚至高达p b 级。除此之外,地震预报【9 l 、全 球环境变化和天气预报【1 0 , 1 1 】甚至是大规模在线游戏1 2 】等都会产生很大的数据量,数据网 格必须具备存储和管理这些海量数据的能力。 ( 2 ) 分布的资源和异构的存储环境 尽管存储设备的制造技术一直持续发展,但集中存储方式始终难以满足资源的海量 存储需求。数据网格充分利用了网格资源的分布特性:数据分布地存储到不同地理位置 的多个节点,而这些节点中的存储设备又联合起来,在逻辑上为用户或上层应用提供了 一个容量无限大的存储设备。同时,资源所在的存储系统还非常可能是异构的。数据网 格必须将分布在各地的数据资源有效组织起来,屏蔽其存储系统的异构性,实现它们的 统一访问和管理,提高资源的利用率,协调不同的用户使用这些共享资源。 ( 3 ) 局部的自治性与管理的多重性 网格的基本特征是协同来自不同控制域的资源和用户,数据网格也不例外。数据网 格允许数据资源的拥有者对其资源有自主的管理能力,这体现了网格的自治性。同时, 数据资源也必须服从网格的统一管理和调度,因此数据资源同时受到其拥有者和数据网 格的管理,这体现了网格管理的多重性。数据网格在尊重其资源拥有者的管理决策的基 础上,建立起不同资源之间的相互联系,从而实现共享和互服务,协调一致地为更多的 第3 页 国防科学技术大学研究生院硕士学位论文 用户提供便捷服务。 ( 4 ) 均衡资源的访问负载 数据网格中各数据资源的访问频率往往是不同的,某一段时间内对数据的访问很可 能仅仅集中在少数的存储资源上。这样,数据网格必须考虑根据这种局部访问特性进行 优化,去除访问瓶颈,提高访问性能,均衡各资源的访问负载。通常采用副本机制来达 到平衡负载的目的。 ( 5 ) 满足高安全需求 数据网格中的数据资源是分布的,相对于集中存储的数据资源,其安全控制更加复 杂。而数据拥有者往往不希望敏感数据被未授权的人查看,因此,数据网格既然以数据 为中心,就无法回避数据安全访问控制的问题。数据网格中的用户、资源数量都很大且 动态变化,各种资源所属的安全域又有不同的认证和授权机制。这些因素要求数据网格 具有更高的安全性,具体包括支持用户单徽( s i n g l es i g no n ,简称s s o ) 1 3 l 、委托和 代理、主体通信安全、防止主体假冒、跨虚拟组织的访问安全以及防止数据泄密等等。 ( 6 ) 服务质量( q o s ) 保障 为了满足用户的不同需求,数据网格提供了多种服务。从用户的角度考虑,这些服 务必须是可靠的、可用的、可维护的、安全的等等,这些需求都可以通过服务质量q o s 来表达。数据网格必须提供q o s 保障,这样才能满足用户的多方面要求。例如,提供具 有q o s 保障的数据传输服务。 1 1 2 数据网格国内外发展现状 网格计算作为门新兴的、跨广域网数据共享与处理的技术,一经提出就取得了前 所未有的发展,众多的研究机构以及企业都展开了对网格的研究和网格中间件的开发。 其中最具影响力的是o g s a 1 4 1 和g l o b u st o o l k i t 1 5 1 ,已经成为g g f l l 6 】的主要参考标准。 目前,国内外已有多个网格软件系统已经在运行,影响较大的有e g e e i l 7 1 ,g l o b u st o o l k i t , s d s cs r b 1 列和c n g r i dg o s t l 9 j 等。 1 1 2 1 国外数据网格发展情况 ( 1 ) e g e e e g e e ( e n a b l i n gg r i d sf o re - s c i e n c e ) 的前身是欧洲数据网格e d g ( e u r o p e a nd a t a g r i d ) ,它将来自全世界4 5 个国家的超过2 4 0 所研究机构的科学家和工程师联合起来, 为他们提供全天候无缝的e - s c i e n c e 2 0 】网格基础设施服务。经过了若干年的努力,e g e e 已经从最初的高能物理及生命科学领域拓展到了地理、计算化学等其他新的应用领域。 e g e e 网格由4 1 0 0 0 个c p u 组成,有5 p b 硬盘存储,外加磁带存储,维护着1 0 0 0 0 0 个 第4 页 目科学技术太学研究生院碗学位论z 并发作业。 g l i t e 是e g e e 网格的重要组成部分,其目标足开发一套轻量级的通用中叫件,用 于e g e e 的数据网格应用。它围绕虚拟组织( v i r t u 血o r g a n i z a t i o n 、简称v o ) 2 1 1 进行设 计,资源站点信任其所属的虚拟组织。首先将资源的使用权限分配给v o ;再由v o 将 获得的资源权限分配给其内部的用户:资源站点通过v o 认证用户的身份、核实其资源 使用权限后,用户就可以使用相应的资源。它将基础服务和v o 服务区分开来: 基础服务:由资源管理员信任并操作,实现,站点策略,提供安全、监控及账 户管理也可称为网格服务和标准服务; v o 服务:实现了内部v o 策略,可由一个v o 管理并操作,目前绝大多数是 高层的服务。 一“a u d 。d n gi 圆圈jf 圈圈_ 四面翻i a u t h a r , 岫t l o n i n f o r m a t i o n i 鼢u n l ys e 岛j l 竺坐竺韭型竺叫 i 圈圜日盔j o b 。潲i j 团圃雨嘉莉饿。w w k 。l o 。a di 堕堕坐! 塑竺生寸匕 w o r l cr o a dm g m t 秘n n c 静l 闰1 2g l i t e 体系结构简吲【”】 例l3 g l i t c 数据管理体系结构【7 】 第5 页 国防科学技术大学研究生院硕十学位论文 如图1 2 所示,g l i t e 的服务主要有五类:数据管理、工作流管理、安全、信息及监 控和访问服务。每类服务中又细分为多个子服务。图1 3 显示了g l i t e 中数据管理的体 系结构。 ( 2 ) g l o b u st o o l k i t g l o b u s 14 1 5 】项目是由美国阿岗国家实验室、南加州大学信息科学院和芝加哥大学、 爱丁堡大学、瑞典并行计算中心、国家超级计算应用中心等大学、研究机构和公司联合 研究和开发的一个大型网格项目。该始于9 0 年代中期,最初目的是为了解决日益增长 的高性能计算需求,把全美主要高性能计算中心通过高性能网络连接起来,提高其使用 效率。后来随着研究的深入,目标逐渐扩展,希望不仅在科学领域,而且对各种商业应 用提供广泛的基础性网格环境支持。g l o b u s 项目已经发展成为g l o b u s 联盟,更多的研 究机构和公司加入到该联盟中,研究和开发经费接近5 0 0 0 万美金,取得了巨大的成功。 g l o b u s 对资源管理、信息服务、数据管理、信息安全以及应用开发环境等网格计算 的关键理论和技术进行了广泛的研究,网格计算工具软件包g l o b u st o o l k ( g t ) 是其最 重要的研究成果。g t 是一组基于群体的、开放体系结构的、开放源代码的、可以在多 个平台下运行的用来构建网格环境和支持网格应用的软件库,可以用来帮助规划和组建 大型的网格试验和应用平台,开发基于大型网格系统运行的网格应用程序。 g t 目前最新的版本是基于开放网格服务体系结构( o g s a ) 的,兼容于w s r f ( w e b s e r v i c e sr e s o u r c ef r a m e w o r k ) 规范的g t 4 0 。 ( 3 ) s r b 1 8 1 s r b 是圣地亚哥超级计算中心为美国的先进计算基础设施国家合作项目开发的分 布资源管理中间件,为各大学的科研和工程领域提供了先进的计算基础设施,提供了海 量数据的高性能i o 和存储、查找、获取数据库中科学数据的能力。s r b 于1 9 9 5 年发 布第一个版本( 称为d i s t r i b u t e do b j e c tc o m p u t a t i o nt e s t b e d ,d o c t ) ,先后经历了1 1 8 、 2 1 2 几个主要版本,现在已发行到4 2 0 版本。 ( 4 ) 其它数据网格项目 在国外,除前文所提到的三种数据网格外,还有很多类似的网格系统。表1 1 列出 了近几年来,国际上所开发的一些重点网格项目。 第6 页 国防科学技术大学研究生院硕十学位论文 表1 1 世界各地的数据网格项目 项目名称年份所属领域国家区域说明 l c d m2 0 0 5 高能物理世界为l h c 用户创建和维护一个数据移 动与分析的基础架构 b t n l 2 2 l2 0 0 5 超感信息美国通过共享数据来促进生物医学的发 展 b i o g r i d l 2 川2 0 0 5 蛋白质仿真,大脑活动分析日本用于医药和生物研究的计算和数据 基础结构 n e e s g r i d i # 4 i 2 0 0 4 地震工程美国允许科学家通过统一的接口在分布 的位置运行实验并且分析数据 g r i d 3 t 2 m2 0 0 4 物理学,生物学美国为科学应用提供一个统一的、可伸缩 的和可管理的网格基础架构 b e l l e a n a l y s i s 2 0 0 3 高能物理澳大利亚在澳大利亚为在b e l l e 和a t l a s 实验 d a t ag r i d 2 6 1 。 室工作的科学家们创建计算和存储 基础架构 g r i d p p i 盯12 0 0 2 高能物理英国在英国为粒子物理研究创建必要的 计算和存储基础架构 e a r t h s y s t e m 2 0 0 1 大气模型美国整合计算、数据和分析资源来为下一 g r i d l 2 8 】 代的大气研究创造环境 1 1 2 2 国内数据网格发展情况 ( 1 ) 中国教育科研网格( c h i n a g r i d ) “中国教育科研网格c h i n a g l i d 是教育部在“2 1 l 工程公共服务体系建设中设立 的重大专项,力图解决中国教育科研网( c e i 心i e t ) 中网络计算面临的无序性、自治性 和异构性等问题,将c e r n e t 上分散、异构、局部自治的巨大资源整合起来,通过有 序管理和协同计算,消除信息孤岛,发挥综合效能,满足高校科学研究的迫切需要。目 前,项目组已成功开发和部署了生物信息学、图像处理、计算流体力学、海量信息处理 和大学课程在线等5 类应用网格。生物信息学网格提供了1 2 0 余种生物信息学软件工具、 3 5 种相关数据库服务和全基因组序列图谱组装等6 种典型网格应用;图像处理网格提供 1 4 类3 5 种图像处理服务、约l o 万张医学图像、l 万份诊断资料,支持数字化虚拟人等 3 种典型网格应用;计算流体力学网格集成了3 0 多种流体力学软件,提供4 0 多种网格 服务,支持飞行器优化设计等4 种典型网格应用;海量信息处理网格整合了1 8 个大学 数字博物馆的资源,提供4 大类l o 万余条数字标本,支持西藏羊八井宇宙线a s y 实验 等3 种典型网格应用;大学课程在线网格提供近3 0 0 多门大学课程和3 5 0 0 小时的课程 录像,通过1 7 个城市的2 2 台服务器联合提供网格环境下的教育视频点播服务。 该项目已经于2 0 0 6 年7 月中旬在北京经过鉴定,专家给予该项目以高度评价,认 为该网格建立起了资源共享、配置灵活、跨学科、跨地域的高效网格环境,系统总体设 计和关键技术达到国际先进水平。 参与该项目研究的1 2 所高校是:华中科技大学、清华大学、北京大学、北京航空 航天大学、华南理工大学、上海交通大学、东南大学、国防科技大学、西安交通大学、 东北大学、山东大学和中山大学。 第7 页 国防科学技术大学研究生院硕士学位论文 ( 2 ) 中国国家网格( c n g r i d ) 1 1 9 1 中国国家网格以分布在全国的l o 个网格结点为主体构成,集成了分布在全国8 个 省市l o 个网格结点上的计算、存储、软件和应用服务等多种资源,包括重大专项研制 的曙光4 0 0 0 a 和联想深腾6 8 0 0 高性能计算机及其他高性能计算系统。依托国家网格环 境开发和集成了1 0 0 多个工具软件和应用软件,向全国的科学研究用户和行业用户提供 了开放共享的高性能计算和数据处理等多种服务,为我们国的科学研究和信息化建设提 供了新型的环境和平台。 中国国家网格的l o 个网格结点是:中科院计算机网络信息中心结点、上海超算中 心结点、清华大学结点、华中科技大学结点、中国科技大学结点、北京应用物理与计算 技术研究所结点、中科院深圳先进技术研究院结点、山东大学结点、西安交通大学结点、 香港大学结点,还包括一个m mc e l l 结点。 中国国家网格遵循以网格技术支持多领域应用的思想,以行业信息化应用为突破口, 在资源环境、科学研究、服务业和制造业等4 个领域,一期成功研制了国家地址调查应 用网格、航空制造应用网格、中国气象应用网格、科学数据应用网格、新药发现应用网 格、生物信息应用网格、数字林业应用网格、仿真网格、油气地震勘探应用网格及交通 信息服务应用网格等l o 个重要的行业应用网格。二期的应用网格是:中国气象应用网 格、水利应用网格、天体大规模并行数值计算软件平台、中医药数据网格、高性能计算 化学应用系统、药物研发网格、基于网格的铁路货运信息综合应用系统及科学数据网格。 c n g i - i dg o s 是中国国家网格系统软件,它在技术路线上有别于国外流行的中间件 方法、应用解决方案等方法,而是采用了计算机系统与面向服务体系结构相结合的研究 方法,在网格软件体系结构、服务虚拟化等方面取得一系列技术创新成果,主要包括以 下几个方面:1 ) 网格资源地址空间和服务虚拟化;2 ) 基于计算机系统概念的网格软件 体系结构;3 ) 网程( g r i p ) ;4 ) 网格社区( a g o r a ) 。 ( 3 ) g r i d e n 数据网格系统【2 9 l g r i d e n 是由国防科大计算机学院g r i d l a b 负责设计和实现的g r i d o p p e n 网格系统中 的一部分。该系统支持n f s 、c i n f 、h t t p 等存储系统下的数据操作和访问,在局域环 境中进行了测试,系统在数据一致性维护、储存类型和系统稳定性等方面有待近一步的 完善。关于g r i d e n 的具体情况,文章的第二部分会重点叙述,在此不在赘述。 1 1 3 数据网格将面临新的挑战 网格计算技术自2 0 世纪九十年代发展到现在已经历了近2 0 年,网格技术在这些年 里有了长足的发展,其应用也遍布全球。数据网格作为网格计算的一个分支领域,它也 第8 页 囝防科学技术大学研究生院硕士学位论文 必然随着网格技术研究的深入,和应用需求的增长,而面临新的挑战。 ( 1 ) 可靠性更强的安全服务体系 作为一个分布式系统,数据网格首先需要考虑的就是安全问题。数据网格中间件必 须包含一个统一的安全体系以提供基本的保护验证机制,以验证合法的用户和资源,并 允许用户选择不同的安全策略、安全级别和加密方法。 目前,建立在公钥加密技术、x 5 0 9 证书以及s s l 之上的网格安全架构( g r i ds e c u r i t y i n f r a s t r u c t u r e ,简称g s i ) 3 0 ,3 1 】成功解决了网格中的认证问题,提供了认证用户和资源 身份的认证机制。此外,g s i 还提供单点登陆,支持本地自主的访问控制,将全局用户 身份映射为本地用户身份。但是,g s i 的产生背景是计算网格,因此,并不能解决数据 网格所面临的全部安全问题。数据网格安全体系必须在g s i 的基础上进行扩展,以解决 由于数据资源本身的特性而导致的下列特定问题:1 ) 数据副本带来的安全问题,即如 何保证同一数据不同副本的安全级别与该数据保持一致;2 ) 数据资源的细粒度地访问 控制问题,计算资源的访问控制的粒度一般比较粗,即某个计算资源要么可以访问,要 么就不可以访问,而对于数据资源而言,可能会出现只允许访问数据资源中某一部分数 据的情况。 ( 2 ) 更加合理的运行管理体制 数据网格核心服务主要包括存储系统、元数据管理、数据访问、数据传输和数据处 理等部分。只有各个部分高效运行,且通过有效的措施紧密结合,才能够实现数据网格 性能的最大。当前不管是在元数据服务器体系结构、资源调度,还是在数据传输模式等 领域,都存在难以克服的问题,成为整个系统的性能和可扩展性发展的“瓶颈。此外, 各个组成服务之间也缺少一种有效的相互协作的机制,使得数据网格在系统稳定性、性 能和可扩展性等方面都不尽人意。因此,一系列更加有效、更加合理的运行管理体制有 待进一步的研究和探讨。 ( 3 ) 更加高效可靠的数据传输服务 数据在传输的过程中,受到电磁干扰、网络拥塞和硬件故障等因素的影响,很容易 丢失或失真,尤其在网格环境下进行大规模数据传输的过程时,这种问题会更加严重。 但是,我们知道网格环境的不稳定性和长时间的网络延时,是由硬件和地理位置决定的。 要想改变这种现状,我们必须付出昂贵的代价,而且需要经历漫长的历史过程。然而, 作为数据网格服务的核心,一种高效、可靠的传输服务是迫切需要的。在已有的网络环 境下,我们只有通过利用更加有效的数据传输协议和更合理的运行管理体制,提高网络 带宽利用率,优化数据重传与校验机制,来提高数据传输的效率和可靠性。 第9 页 同防科学技术大学研究生院硕十学位论文 1 2 主要研究内容及其创新点 本文的研究工作受到国家自然科学基金重点项目大规模网络存储环境下的分 布式数据共享研究的支持。 本文以解决如何提高g r i d e n 数据网格系统性能和服务质量的问题为研究重点,研究 内容和创新点主要包括以下几个方面: ( 1 ) 分析g r i d e n 数据网格系统获取元数据的过程,结合预取技术与缓存技术对元 数据获取过程进行优化,再通过模拟实验来验证优化方案的性能和可行性。 ( 2 ) 研究g r i d e n 数据网格系统模拟器g r i d s m 。g r i d s m 需要能够模拟实现g r i d e n 数据网格系统的元数据获取过程,采用模块化设计,支持多用户模拟实验,可自动生成 元数据( 写入数据库中) 和用户访问轨迹( 写入文本文件中) ,能计算元数据缓存命中 率和获取元数据的平均访问延时。 ( 3 ) 分析g r i d e n 数据网格系统控制消息传递机制的特点,指出当前所存在的问题, 提出优化方案,提高控制消息传递的效率。 ( 4 ) 分析研究多种文件共享或传输协议( 例如w s ,n s 等) 各自的应用范围和 特点。结合g r i d e n 数据网格系统的应用环境,对系统的数据传输机制进行优化,提高数 据传输的效率、可靠性和带宽利用率。 ( 5 ) 选择一种效率高、占用系统资源少的w e b 服务框架,重构g r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论