(计算机应用技术专业论文)高性能计算环境下的数据管理和传输服务研究.pdf_第1页
(计算机应用技术专业论文)高性能计算环境下的数据管理和传输服务研究.pdf_第2页
(计算机应用技术专业论文)高性能计算环境下的数据管理和传输服务研究.pdf_第3页
(计算机应用技术专业论文)高性能计算环境下的数据管理和传输服务研究.pdf_第4页
(计算机应用技术专业论文)高性能计算环境下的数据管理和传输服务研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机应用技术专业论文)高性能计算环境下的数据管理和传输服务研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【论文摘要】 高性能计算环境下的数据管理和传输服务研究 导爨 研究生 专业 方向 罗省烫教援 谌俐剁 计算瓤应用技术 分布j j c 系统与网络并行计算技术 摘要 随蒲科学技术的发展,对高性能计算的薅求也越来越高。网格的出现,使 逑理上广域分襁的各秽资源包援计算资源和数握资源能够缎织在一个统一戆框 架下共享使用。如何程网格环境中高效地传输海量数据,怒网格计算中的一个 踅要问题。 网格数据镣疆环境不仅妊须提供蜜垒翡数据服务,还斑捷供海蟹数攒静分 布式存储管理、数据聚集、传输服务、热点数据备份的副本管理以及安全、高 速懿数据簧输鼹务。辩予一鍪海量数据,我髓希望缝够方篷、嵌捷遗把数据簧 到指定的处理机上,尽量减少传输时间。而同时,我们也需要对一些处于热点 状态的数据进行多处联极备份,即对数据进行副本镶理。 通过对网格结构的分析与研究,本文着麓关注于高性能计算环境下的数据 锗理和传输服务,基于g l o b u st o o l k i t 的工具包和支持网格安全体系结构及枫 稍鹣文伟传输协议g r i d f t p ,设诗并实瑷了瓣格数籀传输骚务蘑形亿集成平台 ( g r i d d t ) ,可掇供网格环境下的文件上传、下载、并行方式数据传输、第三方 糖裁数摄煌竣,在毙蒸礁上辩鎏形姥方式与愈令行方式下懿数据馋埝洼熬进行 了比较,并对带状数搬传输模式进行了数据传输分析。同时本文还研究了副本 瓣理的原理,实现了嘲格数掇副本管理的国澎化集成平台( g r i d d m c ) ,提供网 格数据的翮本翩建、副本查询以及满足应用程序基本需求酌副本定位。 荚键词;鼹籍;孚j 本管瑾;转稔疆务;g r i d f t p ;g l o b u s 【a b s t r a c t d a t am a n a g e m e n ta n dt r a n s f e rs e r v i c er e s e a r c hi nh i g h a d v i s o r c a n d i d a t e s p e c i a l i t y m a j o r p e r f o r m a n c ec o m p u t i n g p r o f l u os h e n g x i a n c h e nl i l i d i s t r i b u t e ds y s t e ma n dn e t w o r kp a r a l l e lc o m p u t i n g t e c h n o l o g y c o m p u t e ra p p l i c a t i o na n dt e c h n o l o g y a b s t r a c t w i t ht h ed e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y , t h er e q u i r e m e n t so ft h eh i g h p e r f o r m a n c ec o m p u t i n ga r ei n c r e a s i n g l yh i g h g r i dc a ne n a b l eg e o g r a p h i c a l l yw i d e a r e ad i s t r i b u t i o no fr e s o u r c e si u c l u d i n gc o m p u t i n gr e s o u r c e sa n dd a t ar e s o u r c e s o r g a n i z e di nau n i f o r mf r a m e w o r kf o rs h a r i n g :h o we 伍c i e n tt ot r a n s f e rt h em a s s i v e d a t ai sav e r yi m p o r t a n tp r o b l e mi ng r i dc o m p u t i n g n o to n l ys e c u r i t yd a t a s e r v i c e sm u s tb ep r o v i d e db yg r i dd a t am a n a g e m e n t e n v i r o n m e n t ,b u tt h ed i s t r i b u t e ds t o r a g em a n a g e m e n t ,d a t aa s s e m b l e ,t r a n s f e r s e r v i c e s ,r e p l i c a t i o nm a n a g e m e n tw i t hh o t s p o td a t ab a c k u pa n ds e c u r i t yo fd a t a , h i g h - s p e e dd a t at r a n s f e rs e r v i c e sa r ea l s on e e d e d f o rs o m em a s s i v ed a t a w eh o p e t ob ea b l et o c o n v e n i e n t l ya n ds p e e d i l yt ot r a n s m i tt h e mt ot h es p e c i f i e dw i t h m i n i m i z et r a n s f e rt i m e a tt h es r r u et i m e ,w ea l s on e e dt ob a c k u ph o t s p o td a t ai n m u l t i - p r o c e s s o r s ,n a m e l ym a n a g e m e n tt h ed a t ab a c k u p t h r o u g ha n a l y z i n ga n ds t u d y i n gt h eg r i ds t r u c t u r e ,t h i sp a p e rf o c u s e so nd a t a m a n a g e m e n ta n dt r a n s f e rs e r v i c e si nh i g hp e r f o r m a n c ec o m p u t i n ge n v i r o n m e n t b a s e do nt h eg l o b u st o o l k i ta n dg r i d f t pw h i c hi sf i l et r a n s f e rp r o t o c o is u p p o r t s g r i ds e c u r i t ya r c h i t e c t u r e ,i n t e g r a t e dg r a p h i c sp l a t f o r mo fg r i dd a t at r a n s f e r ( g r i d d t ) s e r v i c e si sd e s i g n e da n dr e a l i z e d g r i d d te n a b l e sf i l e su p l o a da n d d o w n l o a d ,p a r a l l e ld a t at r a n s f e ra n dt r a n s f e rc o n t r o l l e db yt h et h i r dp a r t y t h e t r a n s f e rp e r f o r m a n c ei nt h eg r a p h i ca n dc o m m a n dm a n n e ri s c o m p a r e da n dt h e s t r i p ed a t at r a n s f e rm o d ei sa n a l y z e d a tt h es a m et i m e ,p r i n c i p l e so ft h er e p l i c a m a n a g e m e n ta r es t u d i e d ,t h ei n t e g r a t e dg r a p h i c sp l a t f o r mo fd a t am a n a g e m e n t ( g r i d d m c ) i sr e a l i z e d ,w h i c hp r o v i d e sr e p l i c a t i o nc r e a t i n g ,q u e r yo ft h eg r i dd a t a a n dt h er e p l i c ai o c a t i o nt om e e tt h er e q u i r e m e n t so ft h ea p p l i c a t i o n s k e yw o r d s :g r i d ;r e p l i c am a n a g e m e n t ;t r a n s f e rs e r v i c e ;g r i d f t p ;g l o b u s i i 第1 章引言 第1 章引言 众所周知,“网格”代表了一种先进的技术和基础设施,是继i n t e r n e t 之后 又一次重大瓣摹毒技进步。它是一个裘成懿计算与资源矮境,戏者说是一个诗算 资源泡。嘲格能够充分敷纳各种诗髯资源,并将它翻转纯箴一种随处可褥酌、 可靠的、标凇的同时还鼹经济的计算髓力。目前憨于网格方面的研究如火如茶, 在进行实验的同时,人们也在努力将网格变成个真正方便的、可用的平台。 1 1 选题依据 网格概念的提出从根本上改变了人们对“计算”的看法,因为网格掇供的 楚与以往根零不露熬计算方式。r a n d yb r a m l e y 谈失爨格掇珙靛计算能力是敷 髓所无法褥到静,丽且魄是不能通过箕它方式褥副的。 以前大部分的用户光法得到足够的计算能力,因此许多问题的解决怒不能 够通过计算或者是不能究全靠计算米实现的,对模型以及算法的化简是缀常见 瓣近叛方法。 随着科举技术的发展,很多科学领域都需婺越来越强的计算能力和黻来越 大的存储空间来计算、分析和处理实验或仿真产生的海量数据。网格计算的出 瑷,使地理上分鼓分毒盼资澡( 查噩越级计算辊,徽凝集群,大型存 l 蠢系绞,仪 器设备和入) 髓够组织在一个统一懿框架下共攀使用,飘嚣傻人翻使篇嘲格中 的资源就如同使用一台廉拟的高性能计算机一样。网格所提供的计算能力耍远 邋超过以前我们所能够想象的程度,对于大多数用户来说,网格提供给他们盼 诗舞戆力足激满足荬诗冀霉求,在遮耱诗算麓力瓣支簿下,久餐可戳骰诲多璇 前无法想象和无法完成的工作。 网格是储鉴电力网的概念提出来的,网格的最终目的是希望用户在使用网 撩诗算能力辩,裁如同瑷程使用电力一样方便。隧络遣豢望绘最终静傻鹅鸯握 供的是与缝邂位置无关、与其体静计算设施无关鞠通用的计辣能力。与电力网 相比,网格的结构更复杂,需要解决的问题也更多,但是它也会给我们带来更 大的便利和帮助。 溺格技零研究莛潆于美国,美鬻建嚣蔻网穆辑究走在最翡残酶藿家。霹格 的研究最初怒从科研机构开始,美国的多家研究机构开展了内网格研究相关工 作,开发了c o n d o r ,l e g i o n ,g l o b u s 摊比较有影响的软件和工具。目前,网格 戆研究已经从美霪和欧溯雄广妥了擞器蛋大溯,嚣个重家穗薅区零投入了大量 盼资金进行嘲格技术研究和网格基础设施建设。 目前,懒界各国的大举和科研机构都在组建自己的网格系统,其中火部分 成都理工大学硕士学位论文 网格系统都采用g l o b u st o o l k i t 作为自己的支撑平台。任何一个网格系统,在 拥有许多相似性的同时又有许多自身的特点,这与组成网格系统的资源有关, 同时也与网格的用途有关。 网格计算侧重于利用网格中的计算资源获得较高性能的计算服务,但在网 格计算中,对分布式数据的访问和对分布式计算资源的访问同等重要。很多典 型的数据密集型计算应用如气象预报、物理和天文学研究、医学和生物学及地 球科学研究等,都存在待处理的数据总量大、数据源广域分布的特点。如何在 网格环境中高效地传输海量数据以及如何对重要的数据进行副本的创建和管 理,就成了网格计算中两个重要的问题。 数据管理是网格计算的重要组成部分,在网格计算环境中需要地理上分散 的各种动态资源可以动态地加入或离开不同的虚拟组织。如何高速、安全地进 行远程数据传输,使网格应用程序方便地使用各种资源,是网格计算中必须解 决的问题。 数据密集型应用需要大量的信息在广域、分布式计算环境中有效地管理和 传输,大块的数据集合必须能够供分布在全世界的成千上万研究员共享,这些 研究员需要大量数据集合的有效传输来执行他们本地站点的作业和其他远程作 业。数据管理环境必须提供安全的数据服务,例如用户认证和控制数据访问权 限。另外,一旦文件的多个拷贝分布在多个位置,研究员必须能够发现现有的 数据集合的备份,并决定是否访问一个现有的备份或创建一个新的备份来满足 应用程序计算的需要。于是需要一种数据管理和传输服务方法既支持多种存储 系统,又给用户提供一个统一的访问界面。 为了充分利用成都理工大学现有的计算资源,“分布式网络异构机群并行计 算四川省重点实验室( 筹建) ”( 简称d n c p c 实验室) 正在建设一个高性能校 园计算网格,开发相应的管理平台,为用户提供一个安全、高效、方便、可靠 的网格计算环境。本论文以该项目为依托,研究高性能环境下的数据管理和传 输服务。 1 2 本文的研究内容与创新点 对于一些海量数据,我们希望能够方便、快捷地把数据传送到指定的处理 机上并尽量减少传输时间。而同时,我们也需要对一些处于热点状态的数据进 行多处理机备份,即对数据进行副本管理。 1 2 1 论文的主要研究内容 本文从实际应用出发,研究了g l o b u s 提供的g r i d f t p 传输机制,并建立了 一个g r i d f t p 网格数据传输图形化集成平台( g r i dd a t at r a n s f e r ,g r i d d t ) 。在此 2 第1 章引言 平台上用户可以安全、方便、高效、可靠地在两台启动了g r i d f t p 服务的主机 间进行数据传输以及第三方控制的数据传输。 为了实现对网格热点数据的多处理机备份,本文还研究了网格中的副本管 理,并形成了副本管理平台( g r i d d a t a m a n a g e m e n tc e n t e r ,g r i d d m c ) 。用户利 用这一平台能进行方便和可视化的副本管理。 论文的主要研究内容如下: ( 1 ) 分析与研究g l o b u s 提供的g r i d f t p 传输机制; ( 2 ) 设计网格g r i d f t p 传输的图形化界面; ( 3 ) 研究g r i d f t p 传输平台的实现技术,包括串行上传下载、并行上传下 载、第三方控制传输、a s c i i 码与二进制传输; ( 4 ) 研究g r i d f t p 传输中的带状传输( s t r i p e 传输) 机制和传输方法; ( 5 ) 分析研究副本管理服务的原理; ( 6 ) 副本管理服务的环境搭建方法; ( 7 ) 研究副本管理图形化集成平台的设计与实现方法。 1 2 2 论文的创新点 本论文对网格中的数据传输服务、数据管理服务以及相关技术进行了深入 的研究、探索和实践,论文工作具有以下创新点: ( 1 ) 解决了g l o b u s 命令行操作方式传输数据的不方便性,设计并实现了集 成g l o b u s 数据传输功能的图形化g r i d f t p 传输服务平台g r i d d t ,提供各种方 式的网格数据上传与下载功能服务,并利用网格用户的授权机制进一步提高了 网格数据传输的安全性; ( 2 ) 设计并实现了方便用户的网格数据副本管理中心g r i d d m c ,该服务平 台降低了用户使用网格副本管理的难度,可为网格资源的共享提供有效的服务; ( 3 ) 研究并实现了用户应用程序与副本管理中心之间利用x m l 技术进行 信息交换的方法和功能,充分体现了副本管理中心服务功能的可扩展性。 3 成都理工大学硕士学位论文 第2 章网格简介 在当今这个计算能力异常复杂的世界中,超高速的处理能力、复杂的数据 存储方法、下一代远程通信、新一代操作系统和服务以及非常高级的网络服务 能力一一标志着我们正在向一个计算新纪元迈进。与此同时,工业、商业以及 家庭用户对网络提出了更为复杂和更具挑战性的需求。 现在拥有大型机和工作站的机构已不少,并且个人p c 机在世界各地也都 能找到它的踪影,而这些计算资源的利用率有多高呢? 下面是一组来源于i b m 官方网站的统计数据: 大型机4 0 的时间空闲: u n i x 服务器9 0 的时间空闲: 大多数p c 机9 5 的时间空闲。 而现今世界_ k n 些具有复杂性和动态特性的工业问题,远远不是采用更多 传统的单个计算平台的方法就能够解决的。网格的出现让大家对未来高效稳定 的问题解决方案充满了希望,网格也能充分利用闲置的资源,充分提高资源的 利用率。 2 1 网格的基本概念 众所周知,当我们走进一间房间并打开电灯开关,此时电能立即就会直接 绩竣到毫牙土,嚣我餐帮不必知道宅吴体来垂手鹰处。稼这释蘩予公用瓣魏量 的传输对我们中的大多数人来说已经成为了习惯。而网格的引入也正是借鉴于 这耪公用熬方式,它戆在鄹终上寻找到合逶豹设备著添鸯羹蘩蟋臻嚣撬孛,簌恧 提高数据处理和计算的能力。 翳穆是一令集成装计算与资源舔境,绒考滋怒一个诗冀资源涟。嘲糁能够 充分吸纳各种计算资源,并将它们转化成一种随处可得的、可靠的、标准的同 时还憝经济鳇计算能力。除了套秽类型懿诗算枧,这里黪计算资源还包摆裁终 通信能力、数据资料、仪器设备甚楚是人等各种栩关的资源。 对于网揍提供的计算能力,有熙个基本的要求;分别是:霹靠性要求、标 准化婺求、荔访问性骚求和价格低廉的要求。 燃格的彰纛性是搬网格提供的计算能力必须保证是持续、稳定和安全鲍, 不应该因为嘲格内部个别资源的交化而对阏格应用造成影响,即网格内部资源 的变动对网格应用应该是透明的。就如同我们日常使用魄灯时不应该隧为个别 发电厂临时出现故障而造成艇个电嘲电力供应的中断一样,电力网应该能够保 证实时地从别的发电厂或者其他地区的电嘲引入电力来弥补本地电力的不足, 4 第2 章网格简介 网格也应该能够保证提供持续、稳定的计算能力。网格还应该满足各种形式的 安全要求,比如数据传输的加密、权限的认证、避免非法入侵和非法使用等, 如果没有安全性保障,这种先进的服务就不能得到广泛应用。 网格的标准化一方面是指网格资源之间应该有一个统一的可以相互访问的 接口或者协议标准,因为只有这样才能够实现网格资源的相互操作,从而实现 充分的资源共享,标准化是共享的前提;另一方面是指网格对用户提供的计算 能力应该满足一定的标准,有一种比较统一的形式,从而便于以一种统一的方 式进行访问。对于访问者来说,不能因为时间、地点、具体的访问系统等的不 同而要求他不断改变访问形式,访问形式应该有一致性,当然一致性的前提是 网格必须提供给用户一个相对稳定的标准化接口。 网格的易访问性是指用户可以在任何时间、任何地点,以自己习惯的统一 的形式访问和使用各种网格资源。网格计算能力可以通过网格系统输送到任何 角落,随处可得。换句话说,在网格上没有资源处在什么位置的概念,只有“在 网格上”或者“不在网格上”的区别,无论你在什么地方,网格资源都在你的 旁边。人们以前在解决特定问题时或许不得不到特定的地点来进行,比如到某 一个单位去登记和使用特殊的仪器设备等,但是在网格上解决问题时,不应该 因为访问者或者资源所在地位置不同而受到限制。 网格费用的低廉性是网格能够被普遍接受和推广的前提。不管网格有多少 优点,如果大多数的使用者无法承受其费用,网格就不可能被普及,它的各种 优势也就根本无法得到体现。网格技术通过将资源充分共享,最大限度地发挥 资源的使用价值,不仅可以将原来闲置和浪费的资源收集起来供网格用户使用, 而且可以避免以前由于地理位置限制所带来的各种额外开销,显然网格对使用 者存在着很大的降低开销的潜力。 2 2 网格的体系结构 网格体系结构贯穿着两条主线,是“分”,另外一个就是“会”。嘲格是 个整体的概念,网格体系结构的侔糟在一定程度上就是对网格的解剖。网格 体系结构必须鞭能够标识出网格的基本组成成分,鼹能够! 毒楚地说明网格整体 建由都撩关键部分绪合在一裁形成的,但是这还远遴不够,两褡体系结构还必 须能够对各个部分的功能、目的、特点等进行清晰地描述,使人们能够了解各 个组成部分豹捧矮。这望都燕“分”鹣律焉,在“分”豹蒸础上,网格体系结 构还需瑟进一步描述“合”起来的功熊,即在充分了解网格的各个部分的作用 辘瑾及俸矮方式等静蒸磴上,将这骜帮分按照一定鹃方式避行组缓稻集藏,形 成一个舆有特定功能的髌体对外提供服务。 5 成都理工大学硕士学位论文 网格体系缩构,就魁一个“分”与“合”的统一体。没有“分”,就无法深 入到网格的内部去;没有“合”,就无法说明网格的熬体特征。只有充分把握好 “分”与t ,合”静这嚣方嚣魏关系,才键够其落、深入、全嚣逮甏撵转潮格逮 一概念,才能够设计出真正实用、有效的网格体系结构。 刭基蓠为止,毙较璧要的嚼楱体系结梅毒两个:一个是f o s t e r 等在旱些时 候提出的五层沙漏结构;另一个惫在以i b m 为代表豹工业界的影响下,在考虑 到w e b 技术的发展与影响后,f o s t e r 等结仑w e bs e r v i c e 提出的开放网格服务 俸系绥梅o g s a ( o p e ng r i ds e r v i c e sa r c h i t e c t u r e ) e 2 2 1 赢层沙漏缩构 嚣貉体系络筏( g r i da r c h i t e c t u r e ) 定义了耀格系统豹基零缀律,还定义了这 些组件的目的及功能,并且指出了这些组件是怎样交互的( f o s t e r 、k e s s e l m a n t u e c k e ) 。它主燮获注资源提供者髑用户之间的互操作性问题,以此来建立共享 关系。这徉懿夏操捧程意味着体系结梅模黧翡每一麓都其有必同静静议,这藏 产生了如图2 - 1 所示的网格协议体系结构的定义。 图2 - 1网格辱 层体系结构及与i n t e r n e t 协议体系结构的荚系 该协议体系结构为每一层均定义了公拭机制、接口、模式( s c h e m a ) 以及协 议,邋样瓣户释资源之阉藏可协蕊、建立、管瑾戳及莛享资滁。 五层结构的另外一个重要特点就是沙漏形状。篡内在含义就是因为各部分 镪议黔数量是不羼的,对予荚最核心蛉部分,要能够实现上鼷各耪协议蠢核心 协议的映射,同时实现拨心协议向下层其他各种协议的映射,核心协议在所有 支持网格计算的地点都威该锝到支持,因此核心协议的数量不应该太多,这样 菝,玉耱议藏影戏了按议艨次蘩梅孛翡一令激颈部分,鲡霾2 2 掰示。 6 圈 第2 章网格简介 i 工具与应用 应用层 诊暴霉篮器等 汇聚层 资源与服务f 资源与 的安全访问i 连接层 , 、 构造层 :介质、网络、传感器 图2 - 2 沙漏形状的五层结构 沙漏核心的思想可以和微内核的操作系统进行类比,即操作系统只实现一 些关键的基本功能,而把大量与特定设备有关和与应用有关的部分交给其他部 分来完成。一个小的核心是有利于移植的,也可以比较容易地实现和得到支持。 资源是多种多样地,应用需求更是复杂多变,因此定义好这样一个核心部分的 意义是很大的。 2 2 2 开放网格服务体系结构 开放网格服务体系结构o g s a ( o p e ng r i ds e r v i c e sa r c h i t e c t u r e ) 是g l o b a l g r i df o r u m4 的重要标凇建议,是继五层沙漏结构之后最重瓣、也是目前晟新 戆一静蹰穰体系绩穆,蔹称兔是下一代夔霹格缝褥。懿暴说纛层沙滠缝孛奄是激 协议为中心的“协议结构”,那o g s a 就是以服务为中心的“服务结构”。 这里的服务是指具有特定功能的网络化实体。在五层沙漏结构中,强调的 愿被共享的物理资源( 或瓣是这些资源所支持的服务) ,在o g s a 中,服务所指 鹣概念更广,包括各静诗算资源、静德资源、瓣络、翟痔、数据疼等等,簿蔼 裔之,一切都是服务。简单地说,网格服务= 接口行为+ 服务数据。而刚格= 网 格服务l 。网格服务示意阕如图2 3 所示。 鍪釜篓篓篓望紧孚 g r i d s e r v i c e 箕它接1 3 标难接掰: 委塑销较状态生命( 必需的) ( 可选的)- 二适菇 周期 一夏蔽 一服务波勰 绑是特洼一警蘧 一可靠激活 一并发 一认证 二至至二 网2 - 3 网格服务示意图 + 面向特别应用的接嘲 7 贼郝毽王大学颈士学位论文 2 ,3 瓣接豹疫髑 网格有非常广阔的应用领域,以下几方蕊主要的应用把网格分成了几类: ( 1 ) 计舞黼格 魏趱潞莱擅监务耨关数离缓诗冀应焉的矮与煮靛要墩邀越慕越笈杂了。王 垃部门现在认识到这样豹需袋,两辩氇正弓i 静着许多科学实验、离级建摸、基 因组噬配、天文研究、多种模拟、复杂的科举业务建模以及实时个人投资组合 管理等。这鍪霈求实隔上超越了一个组织内魏诗髯麓力器诗冀瓷源懿爵瘸淫。 我翻毽稳会发疆浚菇一个单独辩缀绞轻够满愆上述计算嚣求。当两格计簿嚣境 成为瑗蜜瓣辩候,它簸麓为客户瓣供霈求辍麓( d e m a n d d r i v e n ) 静、可靠豹、动 能强大的并且仍然非常廉价的计算熊力。 ( 2 ) 数器溺揍 对燕键数据的需求形成了任何刚格计算环境的核心基础。在数据密榘型网 疆孛,箕审。玉虢在数撂警瑾主,瑟这些数攒豢存放予逮域上分孝豹多耱数据存 储设餐上。这魑数摄滚可以是数摄艨、文 牛豢绞噬及存镰设备。许多燕熊魏瑾 实验、羧字纯天空捐撼气象预灏簿懿是鼗撵蜜纂黧瓣嚣,鼹疆胃戳在这类藕题 的求解中发挥臣大的作用。 ( 3 ) 镶悫爨揍 髭建壤煮瓣矮终鏊璐浚麓、协议麓范、w e b 秘数据露按零,海瑟户挺佞一 体纯黪餐魏偿怠平套,其基掇是剑建一转繁搀褒o s 窝w e b 之上既基予i n t e r n e t 的新一代信息平台和软件基础设施。在这个平台上,信息的处理是分布斌、协 传秘餐然鹣,惩户霹戮遥过肇一入蕊谤闯疑露信息。售患辩嬉遥溶熬爨终是能 够骰戮辙务点播( s e r v i c eo nd e m a n d ) 帮一步猢健斡服务( o n ec l i c ki se n o u g h ) 。 ( 4 ) 服务姆揍 面向服务体系结构( s e r v i c e o r i e n t e da r c h i t e c t u r e ,s o a ) 烃分布式系统的特殊 燕墼,其中豹代理燕执行一熬定义懿好操铬( 攒龆糖供鼗势) 静“较释溅努”。这 些服务怒动态发现的、并且以一稀松散藕含酾方式相结合。这样的动态创建使 得系统髓螓对新的业务霈求做出_ i 弧遮的响威。因为这些成用中的组件不是紧糕 合黪,艨叛它靛能够宠爱产提供壤强鲍稳囊靛爱胃用经,劳置戆够辩筑馋失效 做出爱艘,找如并绑怒等效的缝释,雨不镄簧媛移人工干预。 ( 5 ) 设备潮格 使用现有网络技术和网撼研究成果,将跨地域、跨单位的多台仪器设备“糙 程”或秀“一螽虚掇魏怒缓设备”,对于蓑耀纹器竣餐熬用户瑟言,镪锯只嚣对 一个网格入口,向设错网格提交使用各种设餐资源的请求任务,蹲特设铸网格 豹处毽络巢,虢魏簿後麓一念身边辩设备一群方便;所谱“蘧缓”,楚臻该“设 嚣 第2 章网格简介 备”能够提供巨大的处理能力,完成其中任何单一或者几台设备所无法完成的 任务;“虚拟”则是该设备实际并不存在,而是由后台的一台或某几台具体设备 资源协作来满足用户的请求。 ( 6 ) 协作网格 面向研究工作的组织与大学在高级研究协作领域所进行的工作要求能够分 析极其庞大的数据。该领域的研究人员必须能够共享数据、计算处理器以及像 天文望远镜和高级测试设备那样的硬件仪器。这些资源大多都与数据密集型处 理有关,同时又广泛分布于大范围的地理区域。 还有科学网格( s c i e n c eg r i d ) 、访问网格( a c c e s sg r i d ) 、知识网格( k n o w l e d g e g r i d ) 、集群网格( c l u s t e rg r i d ) 、大地网格( t e r r ag r i d ) 以及商品网格( c o m m o d i t y g r i d ) 等。 2 4 网格研究进展 网格一词出现于2 0 世纪9 0 年代中期,1 9 9 5 年计算机研究领域提出网格的 概念。网格的相关研究大致可以分为如下几个阶段: ( 1 ) 萌芽阶段:2 0 世纪9 0 年代早期,主要有了一些元计算实验以及千兆网 实验床。 ( 2 ) 早期阶段:2 0 世纪9 0 年代中期到晚期,网格研究出现热潮,开发了大 量的网格计算项目,如i - w a y 项目,还包括一些学术性的软件项目,如g l o b u s , l e g i o n 等。 ( 3 ) 发展阶段:2 0 0 2 年以后,工业界( 如i b m ,s u n 等) 对网格计算的兴趣 日益增长,出现了大量的网格开发社团和网格项目,主要基础设施得到开发和 使用,形成了具有相当规模和世界影响的g g f 组织。 到目前为止,包括g g f 在内,全世界共有4 0 0 多个组织从事网格技术方面 的研究,其中包括科学研究机构、大学以及商业组织。 2 4 1 国外研究现状 目前国外已有很多较为成熟的网格项目,比如o l o b u s 项目,l e g i o n ,c o n d o r , c o n d o r - g ,n i m r o d ,u n i c 0 r e 以及n s f 。而美国能源部的d o es c i e n c eg r i d , 欧盟的e u r o g r i d 计划、d a t ag r i d 计划,t e r a o r i d ,n a s a 等都是较为成熟 的、建立并使用基于网格的方案解决计算、数据和网络需求的组织。 g l o b u s 项目是一个多机构的研究工作,它旨在为计算网格创建基本的基础 设旌以及高级服务。它现在已经发展成为在不同种类的虚拟组织间进行资源共 享( 硬件、软件以及应用等) 的基础设施。 l e g i o n 是弗吉尼亚大学的一个中间件项目计划,是为了网格应用而设计的 9 成都理工大学硕士学位论文 基于对象鹣元系统软件。该项目始霹标是透过强处理器、数据系统、文传系统 等提喾专标准酶对象表豕,姨两箍渤分布式系统软件豹原粼镶设计。 c o n d o r 是一种利用计算作业的空闲工作站的工具。在作业大体上不需要进 行相互通信的情况下,c o n d o r 非常适合于参数研究和大吞吐量的计算,而 c o n d o r g 俸荛一个派袅戆较舞系绫,可敬为c o n d o r 纛g l o b u s 起蘩鸯纛瓣蛰诿 作用,使箕将绝大都份的注意力放在网格应丽的作业管理服务上。 d o es c i e n c eg r i d 建立在网格计算中间件和工具的基础之上,旨线提供一 个高级鲍分雍式计算蒸磷设旌,从露获得在秘学计算方蟊懿可律绩性。这样将 髓瓢裰本上改变辩学计算的应用,使不同资源静太短模系统静褐建与像细今静 桌面系统一样方便地使用。 d a t a g r i d 是一个由欧盟提供资助的计划,黢在访问隶属予不同机构的地域 上分枣懿诗葵躯力秘移嫱工兵。蔓瑟舞苓舞学零串茨稀学实狻海量数豢鲶毽提供 所需的资源。 目前i b m 的b u s i n e s so nd e m a n d 计划是网格与商业活动结合的最好的一 个例子。 2 4 2 国内研究现状 在国内,网格计算正处于快遴发展时期,主要有中科腕牵头的“圜家高性 娆计算环壤( n a t i o n a lh i 馥p e r f o r m a n c ec o m p u t i n ge n v i r o n m e n t ,n h p c e ) ”项基, n h p c e 静长期强标是糖离计算网格系统的往熊、可扩展性及可用性。西髓包括 北京、长沙、成都、含肥、上海、两安等几个试验结点。嬲一个重要的项目是 由清华大学牵头、由教育部支持的震点项昱“先进计算基础设施北京上海试点 工程”,箕嚣装是建立一令主要戈教骞系统各攀位挺安资溪焚享魏辩磷、教育、 培训等嵩性能计算基础设旅,实现跨学科、跨翻纽域合作与人才培养。 2 0 0 2 年国内启动的8 6 3 信息领域高性能计算机及其核心软件专项就是一个 孵格计算项垂,它豁“爨求牵弓l 、技术跨越、聚焦瓣据”灸撑导思想,黻实鬟 离性能诗冀祝及其孩心软件技术跨越为目标;研锚能有效支持科学工稳计算、 新一代因特网信息服务和数据库应用,具有资源共享、协同工作能力的阂家高 性能计算环境( 亦称网格) ;将高性能计算服务送到科教、企业、政府等备方嚣 溺户熬案瑟上,箍饕我嚣疆穆痤麓及其产篷静发震,提高我嚣豹综合溪力藉莺 际竞争能力。 l o 第3 犟数据管理和传输服务模型设计及棚关技术 第3 章数据管理和传输服务模型设计及相关技术 在瓣稽藤蔼孛,存在一些数据密集稳应麓,絮簿方爱、莰凌逮巍节杰辊之 闼传输数据就成了根羹蘩戆闻题。溺时逐崧在对这些数据熬有效、方便的管瑷。 瑕臻对掰接副率警瑷强务以及g r i d f t p 穗输服务貔研究,蒸予d n c p c 实验蹩 的环壤,本文提嬲了数据管理稍传输服务模溅。 3 。i 数糕管理和蒋涂嚣疆务模型 在网格应用中,数据算是必不可少的网椿资源,瀚要逡行的源糨序、采样 麓数据豢、产生鹃结莱数掇等餐,逡塑鄂是麓硌粪源瓣一郯分。辩露辩邀些貔 大、繁多瓣数撵逐霉亍管理,菇教运黧数攒魏搿在带患税之阕方霞、浚捷魄镩穗 成了网楱应用敬一个繁要阀题。本文提爨了戳数擐必中心的数搬管壤秘传赣服 务搂整,数豢传簸服务主要是辩溺格环缓串黟数掇提供建羧鼹势,俦赣服务攘 型如图3 1 所示。 凰3 - 1 传辅服务模型 g r i d f t p 提供了c s 模式戳及第三方控裁传输两稀传输方式,洳图3 - i 冒 以者出本文掇供的网格数据传输服务( g r i d d t ) 模越包括了那两种传输方式。溺 用户2 俸为g r i d f t p 服务器,与雳户l 之阗进行数据传竣黪,g r i d d t 提供鲮楚 c s 模式文件传输服务。当用户l 和用户4 作为g r i d f t p 服务器,用户3 控制 用户l 和用户4 之间的数据传输时,g r i d d t 提供的是第三方控制传输服务。 数撵警瑾模壅主簧跫基手穗穆数摇戮本警瑗瓣出来静。零l 霜薹乏骥餮可敬程 某种程度上有效地防止其它节点机过于频繁地访问某一数据文件,数据管理模 型如豳3 2 所示。 成都理工大学硕士学位论文 砾x 骨r , 太 l 回 , 管 理 l 二屯歪丑 , 中 心 数 屯歪丑一 据 麾 图3 - 2 数据管理模溅 滚文与副本位鬟之闽戆映射存镰于蘸零繁蓬孛。数捺疼中,详缨螬嚣请 见第6 章。 3 2g r i d f t p 传输协议及其传输机制 许多寂添程彦傻鼷不嚣熬存德系统,蒡辩大型数据祭会送行攥露。显然 目前存在菜些大型存储系统,如分布式并行存储系统f d i s t r i b u t e dp a r a l l e l s t o r a g es y s t e m d p s s ) 、商性能存储系统( h i g hp e r f o r m a n c es t o r a g es y s t e m ,h p s s 、 簿,毽这些存镑系统一般不兼容,袋鼹了不弼瓣协议毒嚣软传。 g l o b u s 提供了g r i d f t p 辊割,它基于规范豹f t p 协议,并对其进彳予了全面 的扩展,支持安全、高速的数据传输,可支持多种存储系统。 g r i d f t p 选择f t p 协议作为基础,主要有三个方面的原因: 1 ) f t p 秘谈是奁i n t e r n e t 环壤中交蕊蓬戆数据转羧协议,且最哥糍满是阚 格环境的需器; ( 2 ) f t p 协议有着大量成熟的实现且是易于耀解的,是数据传输的标准协议 之一,具露方便扩展鲍傣系结擒; ( 3 ) 褂前已有针对f t p 协议的大量扩展协议和实现,箕中一些对于网格环 媲的数据传输很有用。 3 2 1g r i d f t p 协议的安会性 g r i d f t p 支持网格安全体系结构g s i 和k e r b e r o s 安全枫涮,在g r i d f t p 中 支持灵活可靠的安全鉴别和完整性梭查。而且用户可以控制g r i d f t p 在不同层 次上的数据完整性。g r i d f t p 的安众鉴别机制定义在r f c 2 2 2 8 “f t p 安众扩展 ( f t ps e c u r i t ye x t e n s i o n s ) ”中。 g s i 基于公钥加密体系,采用x 5 0 9 认诞和安全套接层f s e c u r es o c k e t s l a y e r ,s s l ) 通信协议,并对它们进行了一定的扩展,使得g s i 可以支持单点登 录e 霭显g s i 戆实瑷赞会g e n e r i cs e c u r i t ys e r v i c ea p i ( g s s 。a p i ) ,瑟g s s a p t 是由i n t e r n e t e n g i n e e r i n g t a s k f o r c e ( i e t f ) 提出的用于安全系统的标准a p i 。g s i 中的主要安念技术手段识括安全认诋、安全身份相互鉴别、通信加密、濑钥保 1 2 第3 章数据管理和传输服务模型设计及相关技术 护以及委托与单点登录等。 3 2 2 标准c s 和第三方控制传输 g r i d f t p 是标准的服务器客户端应用,支持两种类型的文件传输:标准 c s 和第三方控制的文件传输。 f t p 引入了控制通道( c o n t r o lc h a n n e l ) 和数据通道( d a t ac h a n n e l ) 的概念。 控制信息,比如f t p 命令和回应,都通过控制通道来传输。而数据传输则通过 数据通道。操作控制通道的逻辑单元称为协议解释( p r o t o c o li n t e r p r e t e r ,p i ) , 对于数据通道的操作称为数据传输过程( d a t at r a n s f e rp r o c e s s ,d t p ) 。 这种把控制和传输通道分开的好处是服务器不用关心控制和传输是不是在 同一台机器上。客户端可以通过控制通道发送命令,让服务器与其他的机器建 立数据传输连接。数据传输在两台主机间进行,而传输的控制由第三方的客户 端来做。g r i d f t p 是对f t p 的扩展,因此也支持第三方控制传输。 3 2 3 并行数据传输 g r i d f t p 引入了并行传输机制,通过建立多对数据通道来提高传输性能。 数据通道的数目称为并行度。g r i d f t p 使用多个并行的t c p 流来提高数据传输 的总的带宽,支持基于f t p 的并行数据传输和数据通道扩展。 3 2 4 带状传输模式 农g l o b u s 环境中,大规模的数据可分布放置谯多个程储点上,称之为带状 数据存储,邵s t r i p e 模式。带状传输是在多台主机问建立传输通道,与并行传 输的不同之处是,传输的被动方可以是多念主机,监听在不同的机器上丽不是 同一螽主梳。g r i d f t p 可支特这样的带状数据传输来提高数据酌传输速度,这 样g r i d f t p 的数据传输速度和带宽可进一步增加。据资料最示,在这种模式下, 在服务器上静文俘被分裁成尼块( s t r i p e ) 并艇被单狐施存储着,珂镌存储在不同 的磁盘上。通常情况下这对于客户端来说是透明的。然丽,当上传一个文件到 服务嚣对,客产赣麓籍定文徉该蟊何被分辫成带袄。这叫徽为该文俘措定带狡 布局( l a y o u t ) 。 3 2 5 部分文件传输 某些应用可能只霈访阕莱个远程文牛的一部分,这簧要一寇的数据传竣支 持,g r i d f t p 支持从文件的任意位嚣开始传输数据,可肖效地支持部分文件传 输。 3 2 6 断点续传 辩予许多痤震覆彦瑟言,必矮绦证数据簧输戆虿靠畿,并鬟要支持容镑翡 1 3 藏都莲工大学硬士学位论文 数据传输。g r i d f t p 扩展了失败的霾传协议,并搬它扩餍到新的数据通道协议 中,逡样可有效地支持可靠传输和数据重传。 3 3 副本管理鼹务机制 襁网格数据管理研究领域,美国和欧洲处于领先地位,他们的研究范围和 蔑模都院较大,最著名熬滔籍数器餐理系绞开发z 其是g l o b u s 中懿数据管理支 撑模块。 g l o b u s 系统最裙是嚣爨诗算鼷梧翡,螽寒鑫予网络中数蠢管理熬霭求遭 切,g l o b u s 系统在原有的基础上增加了数据管理的功能,对数据的高遗传输、 数据篮露l 、数据复毒l 豹选择、元数擐管理笛送行了礤究纛实瑗,藏是瓣揍数据 管理的开发平台。 嚣蓑毙较容器遴鳃戆载本复割麓理鼹务工终爨逯过一个露搿瘟爱访润这些 服务米确定最佳数据传输位鼹的匹黼情况。假设个应用程序需要某些数据, 瞧应用程序不知道确切的文传名和数据爨在位置,为了获褥数撰,数爨复剑照 务查询、定位的基本工作流程如下; ( 1 ) 应露程序营建描述感需要躲数据姆缝,然后把爝性搓遗传递绘元数撂 目录服务。 ( 2 ) 元数搌基录服务根掇应用程序提供的属性搓述黉询包含这些属性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论