




已阅读5页,还剩50页未读, 继续免费阅读
(计算机系统结构专业论文)存储网格环境下一种基于蚂蚁算法的副本创建策略.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要:存储网格中数据量的高速增长对存储系统的可靠性和扩展性提出了挑 战,大量数据和计算能力的分布,迫切需要在存储虚拟化中提供数据副本机制。 数据副本机制可以减少数据访问延迟和带宽消耗。通过在广域网中创建同一数据 的多个副本以增加用户的数据访问点,有助于改善负载平衡和增强系统可靠性。 而数据副本机制中首要解决的问题就是如何确定副本创建的条件,以何种策 略进行复制。目前,有关副本创建策略的研究成果已经有很多,其中应用较为广 泛的有两种,一种是动态副本创建策略,另一种是基于市场机制的副本创建策略。 虽然这两种策略都有着突出的实用性,但同时也存在着许多缺陷,比如不能根据 客户的价格需求或性价比需求提供不同的服务质量( o o s ) ,也没有考虑到网格环 境本身的物理因素,如磁盘的读写速度,网络的拥塞情况,网络带宽所造成的访 问延时等。如何才能既考虑用户的利益需求又考虑到网格环境中的物理因素,在 最大程度上提高副本创建的服务质量就成为了目前急需解决的一个问题。 本文在蚂蚁算法的基础上,提出一种改良后的副本创建策略:d r s a c o 。利 用策略d r s a c o ,副本创建可以依据三种不同的服务质量标准进行。这三种服务 质量标准分别为时间代价最优、花费代价最优和性价比指数最优。并依据这三种 服务质量标准下的最优的副本创建路径,生成一个相应的脚本文件。该脚本文件 利用g r i d f t p 提供的第三方传输控制功能,以批处理的形式在各节点间创建副本, 从而实现无人值守的自动副本创建过程。 关键词:存储网格:蚂蚁算法;服务质量;g r i d f t p 分类号: a b s t r a c t a b s t r a c t :w i t ht h er a p i di n c r e a s eo fd a t aa m o u n t ,t h en e e df o r r e l i a b i l i t va n d e x p a n s l b l l i t yo fs t o r a g es y s t e mh a sm a d eac h a l l e n g et o t h es t o r a g e 鲥d ,a n dt h e g e o 黟a p l l i c a l l y d i s t r i b u t e d d a t a c o m p u t i n gt a s k sa r e c r y i n g f o rt h e r e p l i c a t i o n m e c n 锄s mi nt h ed u m m y s t o r a g e t h er e p l i c a t i o nm e c h a n i s mc a nr e d u c et h ed e l a yo f d a t aa c c e s sa n dt h ec o n s u m p t i o no fb a n d w i d t h w ec a l l i n c r e a s et h en u m b e ro ft h e d a t 孙a c c e s s m gn o d e sb ye s t a b l i s h i n gm a n yr e p l i c ao faf i l ei nt h ew a n ,柚d 廿1 i sw i u h e l pt ou 1 1 p m v et h el o a db a l a n c ea n de n a b l et h e r e l i a b i l i t yo fs t o r a g es y s t e m si naw i d e a r e a r h el s s u et h a ts h o u l db es o l v e df i r s t l yi nt h e r e p l i c a t i o nm e c h a n i s mi sh o wt o 血 o nt h ec o n d l t l o n sa n dt h es t r a t e g i e so ft h er e p l i c a t i o np r o c e s s a t p r e s e n t ,m e r eh a v e b e e i lm a l l yr e s e a r c h e so nt h e r e p l i c a t i o ns t r a t e g i e s ,a n dt w oo ft h e ma r ev e r yp o p u l a r u i l e1 s d y n 锄1 cr e p l i c a t i o n s t r a t e g i e s , a n dt h eo t h e ri sm a r k e tb a s e d r e p l i c a t i o n s t r a t e g i e s a l t h o u g hb o t ho ft h e mh a v em a n y a d v a n t a g e s ,t h e r ea r es t i l lm a n y s h o r t a g e s 1 卜o re x 锄p l e ,t h e yc a n tp r o v i d ed i f f e r e n tq u a l i t i e so fs e r v i c e ( q o s ) a c c o r d i n g t ot h e u s e r sr e q m r e m e n t s ;a n da l s o d o n tt a k et h ep h y s i c sf a c t o r so ft h e 鲥ds y s t e n lm o c o u n t ,1 1 k et 1 1 er e a d 。w r i t es p e e do ft h ed i s k ,c o n g e s t i o no f t h en e ta n dt h ea c c e s s 诹 d e l a ym a d eb yt h eb a n d w i d t h s oi th a sb e e na l lu r g e n ti s s u et h a th o w t ot a l 【et l l eu s e r s , r e q u l l 砌e n t sa n dt h ep h y s i c sf a c t o r so ft h e 鲥ds y s t e mi n t oa c c o u n ti no r d e r t oi m p r o v e t h eq u a l i t yo f t h e r e p l i c a t i o n t i f f sp a p e rp u t sf o r w a r da ni m p r o v e dr e p l i c a t i o ns t r a t e g yw h i c h i sb a s e do na n t c o l o n y 叩t i m i z a t i o n ( a c o ) ,a n dw ec a l li t d r s a c o b yu s i n gd r s a c o r e p l l c a t l o nw i l lp r o c e e du n d e rt h r e ed i f f e r e n tq o ss t a n d a r d s t h et h r e ed i 脑酬o o s s t 肌d a r d sa r et i m eo p t i m i z a t i o n ,p r i c eo p t i m i z a t i o na n d c o s tp 确彻a 1 1 c eo p t i m i z a t i o n a r e r f i n d i n gt h eb e s tr e p l i c a t i o np a t h ,t h es t r a t e g yw i l lc r e a t ea s c r i p tf i le ,a n d 锄sf i l e w i l lc r e a t er e p l i c a sa l o n gt h ep a t hb yu s i n gt h et r a n s m i t t i n g 缸l c t i o no f t h eg r i d f t p 。lh e na n o b o d y - g u a r d e dr e p l i c a t i o nc a nb er e a l i z e db yt h em e a n so fo u r s 仃a t e 肌 髓y w o r d s :s t o r a g eg r i d ;a n tc o l o n yo p t i m i z a t i o n ( a c o ) ;q u a l i t i e so fs e r v i c e ( q o s ) ;g r i d f t p c l a s s n o : 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:互囊 签字日期:川年6 月g 日 导师签名: 丽弧 签字日期:砂对t 年月61 7 1 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他入已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:圣骇 签字日期:砂一g 年6 月衫i t 5 1 致谢 本论文是在我的导师罗四维教授的指导下完成的,在完成过程中还得到了其 他许多人的帮助和支持,借此论文完成之际,我由衷地感激所有给予我指导、关 心、帮助和支持的老师、同学、亲人和朋友们。 首先,要感谢我的导师罗四维教授。从论文的选题阶段、文献查阅阶段以及 修改阶段直到最后的定稿阶段,罗老师都给予了我悉心的指导和无微不至的关怀。 罗老师严谨的治学态度、敏锐的洞察力、认真负责的工作态度和诲人不倦的师长 风范给我留下了深刻的印象,他教导我如何成为一个合格的研究人员,帮助我在 学习中不断提高分析问题和解决问题的能力,这些都将使我受益终生。 其次,感谢所有热情帮助过我的同学们,没有他们的和热心帮助和鼓励,我 不可能顺利地完成本次毕业论文设计。 再次,感谢我的家人在此期间对我的关心和支持,是他们在工作和生活中对 我持之以恒的关爱,使我能够安心投入论文的设计工作。 最后,我还要感谢在百忙之中为我的论文审稿的各位老师,谢谢您为此篇论 文提出的宝贵意见和建议。 i 绪论 i i存储网格概要 i i i存储网格产生背景 当今社会,随着电子信息技术的迅猛发展,许多重要的科学应用需求给计算 科学带来了巨大的挑战,因为信息正以超乎人们想象的速度增长,对信息存储系 统的容量和速度提出了空前的要求,由此引发的各种问题也随之而来。人们对信 息数据日益广泛的需求导致存储系统的规模变得越来越庞大,管理越来越复杂, 信息资源的爆炸性增长和管理能力的相对不足之间的矛盾日益尖锐。在广域网范 围内,一方面大量存储资源长期闲置或被低效率使用,而另一方面又有大量用户 的存储需求无法得到满足。加之现在许多服务器每天要接受上千万次的用户访问, 这种极高频率的数据访问要求存储系统具有非常快速的响应。如果涉及一些多媒 体技术,那么对服务器中存储系统的性能要求就会更高。目前针对这些问题,立 足于网格技术,研发网格存储系统就理所当然的作为一种新兴的概念逐渐成为网 格应用研究的焦点。 网格技术是构筑在互联网上的一组新兴技术,它将高速互联网、高性能计算 机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通老百姓提供 更多的资源、功能和交互性,让人们透明地使用计算、存储等其他资源。除了各 种类型的计算机,这里的计算资源还包括网络通信能力、数据资料、仪器设备、 甚至人等各种相关的资源。用网格技术组织起来的“虚拟超级计算机 有两个优 势,一个是数据处理能力优势;另一个是能充分利用网上的闲置资源。网格的根 本特征就是消除资源孤岛。网格研究已经迅速成为计算机行业的主流趋势,参照 适用领域,一般将网格研究分为计算网格、数据网格、信息网格、知识网格等。 除去能够进行分布式大规模运算的网格计算机外,存储网格的重要地位也正日益 凸显。众所周知,网格计算中的每一项运算都必须有强大的存储功能提供支持, 而该功能背后的关键就是要使分布式数据库、存储设备、文件系统等多个层面的 技术应用进行有机整合,从而构成一个理想的网格存储环境。所以网格存储已经 成为网格技术研究领域一个重要的研究热点。 而存储网格是指运用网格的思路和技术,包括虚拟化和开放标准,实现分布、 异构的存储和数据一体化,为各种网格应用服务瞳1 。存储网格除了具有大容量、网 络化、容错性、高效性等基本要求外,还有非集中控制( 自主控制) 、透明访问、 异构性、协同化、全生命周期数据管理创建、访问、迁移、复制、删除的需 要。存储网格就是要将物理分布的各类存储系统,设备和数据资源虚拟成单一的 存储系统,提供统一的、透明的、安全的访问和管理机制。这样,网络上物理分 布各类资源可以自主地接入到网格中,通过中间层的虚拟化技术,为网格应用层 形成统一的访问接口。 在存储网格环境下,用户无需关心物理层的存储设备、驱动器和访问接口, 只需通过网格应用系统就可以使用封装好的虚拟化的存储服务。即便物理存储发 生变化,这种存储服务也不会改变,这样就保证了网格应用的j 下常运行。系统管 理员的工作也有很大程度的简化,他们不必再关心物理存储,而只需专注管理存 储空间即可,这也进一步降低了存储管理和运行成本。另一方面,用户可以以自 主控制的方式将自己剩余的存储空间共享出来为网格服务,可以以一种灵活的、 透明的方式分配和共享资源。因此,存储网格为用户带来的好处就是在使用网格 时,用户不用关心数据资源的位置,格式和存储容量,以及安全问题;在任何地 里位置都可以访问和管理数据资源;可以方便地将这些资源共享给其他用户。 总之存储网格的最终目的应该是:通过网络,以一种灵活的、透明的方式分配 资源;依照良好的存储策略和程序,高效地管理资源,以保护用户数据资源的安 伞。 1 1 2存储技术的发展状况 纵观存储技术的发展历程,大致可以分为以下几个阶段:内嵌式存储系统 e s ( e m b e d d e ds t o r a g e ) ;直接连接存储系统d a s ( d i r e c ta t t a c h e ds t o r a g e ) ; 联网存储系统n a s ( n e t w o r ka t t a c h e ds t o r a g e ) 和存储区域网络s a n ( s t o r a g e a r e an e t w o r k ) 。 目前后两种存储技术仍在普遍使用当中。然而,这两种存储系统都存在一定 的缺陷。建立一个n a s 存储系统需要购买专门的n a s 设备,磁盘阵列必须配置专 用文件服务器,后期扩容成本高;且一般文件服务器没有高可用配置,容易产生 单点故障;另外,n a s 所采用的通过网络协议的访问方式,对存储系统的数据安全 构成威胁等。s a n 是i b m 公司开发的网络体系结构,它对多个服务器进行配置并 通过高速光纤、特殊的路由器、交换机和集线器连接到外部存储设备。通常,在 实施了s a n 的企业中应该存在两个网,一个是由基于t c p i p 的以太网交换机、路 由器、五类网线、以太网卡、服务器、p c 机组成的局域网l a n 另外一个是有服务 器、存储系统、s a n 交换机、光纤通道组成的s a n 。因此,要想使用基于s a n 的存 储系统,必须额外的构建企业内部的光纤通道网络,购买昂贵的s a n 交换机,将 2 原来的存储产品升级到昂贵的支持s a n 和f c ( f i b r ec h a n n e l ,光纤通道) 规则的 存储产品,具有较高的成本。另外,不同s a n 系统之间的互操作性很差。由于s a n 本身缺乏标准,尤其是在管理上更是如此。虽然f c 技术标准的确存在,但各家厂 商却有不同的解释,于是,不同产品之间的互操作性问题成为s a n 系统的一个不 容忽视的缺陷。而且现存的基于n a s 或s a n 的存储系统没有考虑到用户的不同q o s ( q u a l i t yo fs e r v i c e ,服务质量) 请求,无法为每个用户定制个性化的存储方 案。 1 1 3存储网格的优势 存储网格技术与传统存储技术相比较,不仅解决了设备费用和后期扩容费用 昂贵的问题,数据资源的安全性问题,而且在不同产品的互操作性上具有更好的 兼容性和扩展性。与此同时,存储网格还有着传统存储技术不具备的种种优势: 例如存储服务的共享性,自主控制性,容错性,以及网格服务的质量问题,数据 的全生命周期的管理:创建,访问、迁移、复制、删除,更新等管理策略和办法。 正是由于这些优势,存储网格技术正在从最初的军事科研机构走向民用市场。下 面详细论述一下网格存储的几个关键技术: 1 共享和自主控制,这是存储网格优点中最突出的两点。网络存储的主要目 标是为大量用户提供大数据量的存储服务。也就是同时需要强调存储在用户间的 共享,以及用户的自主控制,这跟全局规划的集中模式并不相悖,因为接入网格 的存储设备需要遵守共同的标准和虚拟化方法,使得一体化访问变成可能。存储 网格的自主性和共享体主要现在下列几个方面: ( 1 ) 提供网格存储的系统和设备由不同的用户控制和管理,没有集中统一的 控制,通过热插拔的方式动态与网格连接和拆除。 ( 2 ) 用户可以采用不同厂家的产品提供网格存储共享,具有自主的管理策略、 不同的网络协议、提供不同的服务质量。 ( 3 ) 设备之间工作互不影响,即如果一个设备不能正常工作,不会影响到其 他设备的工作。 ( 4 ) 支持全生命周期的存储服务,一般的用户可以进行数据创建、访问、备 份、恢复、迁移、归档、删除等操作,而不需要管理员的参与。 2 互操作性,互操作是进行无缝存储整合和共享的前提条件,它涉及两个方 面:接口和数据结构。接入网格的存储设备必须在接口和数据结构上保持一致或 者标准化。不论是数据库、存储设备还是文件系统,都可以用统一的标准接口访 问,并能实现数据的无缝交换。 3 安全性,海量的数据存储,非集中的控制管理、透明的访问机制、简单易 用的管理策略、以及用户的不确定性等网格计算特性,都对存储数据的安全性问 题提出了苛刻的要求。针对这一问题,网格技术给出了多种解决方案:比如根据 认证信息来决定网格使用性能。在这种情况中,管理者根据给定的安全性令牌来 决定用户可以使用的节点数目、c p u 周期或存储空间。此处,还可以提供一个简 单的登录密码组合,用户使用这一组合来提交任务并接收响应信息。这样就需要 确保那些用户可以获得这些信息的实时管理细节,比如说信息的周期性更新。 4 扩展性,扩展性要解决的问题不仅仅体现在存储设备数量和容量的扩展,重 要的是网格存储空间在通过虚拟化后,在松散偶合的网络环境中可以无限制扩展 和动态改变。这种扩展和改变不会影响上层应用对存储空间有效和一致的访问。 这就解决了异构环境下的资源共享问题, 同时虚拟化也成为构建网格的先决条件, 大化的虚拟存储池。 因此统一标准的建立将成为网格的基础, 从这个意义上讲,存储网格就是一个最 5 容错性,网格环境无可避免地会在各个层次出现异常和错误,比如数据丢 失、迁移、权限的改变导致结果不正确,数据不一致、重复、冗余导致结果混乱 等。为减少网格开发和使用的难度,需要网格存储自行解决和处理这些错误以提 供给上层正确、健康的数据服务。 6 低成本,网格相对其他技术的明显优势是低成本。成本包括价格成本和时 间成本。由于网格的可扩展性和互操作性,我们可以充分利用现有的硬件设备来 来扩充网格的存储空间从而降低了硬件设备的成本价格,而时间成本包括管理、 培训、使用和维护全过程成本。简单、易用、支持全生命周期的存储服务是降低 时间成本的关键。 虽然网格存储已经表现出了诸多的优势,但是随着网络及信息化技术的飞速 发展,网格技术的不断进步,网格存储这一新兴的技术也将会面临越来越多的问 题和挑战。比如未来的网格存储将采用什么样的操作系统,:未来网络设施需要多 少的带宽才能满足分布式的网格存储要求;以及如何开发网格存储管理工具:如 何解决网格存储资源分配和回收,如何在分布环境下保证数据实时性及文件目录 一致性问题等等。所以网格存储将会作为一个较新的研究领域不断的推进现代化 的存储技术的发展和成熟。 1 1 4存储网格的研究现状 近年来,随着一些大公司客户数据的大规模膨胀,存储方面的需求也在相应 的成长。如金融机构、银行、经纪业、零售商等行业。这一类的服务行业,都需 4 e立童 适 厶堂 亟:f :堂位睑塞绪淦 要非常大存储容量来支持海量的客户数据。而他们都期望将这些资源分布能看到 的任何一处地方以达到更快的读写速度。针对这一市场需求,很多科研机构和i t 企业都把目光投向了网格存储技术并且在这一领域都先后推出了自己的产品。 惠普的存储网格强调的是一种有机智能单元的组合。这种所谓的“智能单元 ( s m a r tc e l1 ) ”是由一些基础的硬件组成,如图1 - 1 所示。一个智能单元就是一 个经济高效的硬件组件,包含处理和存储功能,带有基本的操作系统,并且这些 硬件的架构都是基于工业标准实现的。这样多个智能单元的协同: 作将使系统整 体的存储带宽增加。并且从长远来看这种架构将降低用户的购置成本和合并成本。 这种智能单元除了包容传统的特性,如文件处理、数据块的存储功能外,还将提供 新的功能,比如数据安全、防病毒、数据的索引和搜索等。这些特性可以根据用户 的需求加载到每一个单元。迄今,惠普已经定义了4 0 多种特性加载到智能单元,而 这些特性就是特定的应用。这个方法的好处是可以采用更便宜的部件以达到更大 的存储容量。 实际上,这些智能单元是存储处理刀片。这些刀片可以联合起来产生冗余的、 标准的、类似网格的计算能力和存储容量。刀片可以按需增加,且对原有系统性 能不会生产影响,使系统可以随时扩展。添加的刀片会被自动识别和系统化,之 后被加入到总体存储池中。 图卜1 惠酱存储网格架构图 f i g u r el 一1s t o r a g eg r i d ss t r u c t u r eo fl i p 惠普基于网格存储技术的参考信息存储服务( r i s s ) 就是利用智能单元的灵 活加载来解决关于e - r e a l l 数据归档和信息规范的问题。每一个智能单元都是由一 个存储容量为2 4 0 g b 的2 4 g t zp e n t i u m 4 处理器构成,这样每个单元都是自己的 存储控制器。r i s $ 可以充分识别和利用它们的每一个智能功能来帮助企业高效快 速的管理混乱的电子邮件和p d f 文档。借助并行的网格计算体系和智能单元技术, 惠普的r i s s 的存储速度可以达到每秒钟存储4 0 0 页到6 0 0 万页文件;用户在超过 1 0 亿个文件里,可以同时对5 0 0 多个内容进行检索而响应时间低于3 秒;它还可 以同时处理数千个并发的接入使用,以及并发的文件提取。在可扩展性方面,无 论容量多大,内容的查询和提取性能( 响应时间) 基本保持不变。并且当需要扩 展容量时,它可以支持众多t b 级的容量的迭加。无论是搜索1 0 0 0 封还是1 0 亿封 电子邮件,r i s s 的响应时间都是相同的。 n e t w o r ka p p l i a n c e 是i t 存储的知名企业,它以创新的理念和领先的技术不 断的引领存储行业的发展。而其基于网格技术的存储产品正受到业界越来越多的 关注。 n e t a p p 的存储网格既可应用于s a n ( 存储区域网) 环境,又可应用于n a s ( 网 络附加存储) 环境,是对其他业界领先厂商所推崇的计算网格的理想补充。它提 供快速简单的对于容量、性能、服务质量和连接协议的可升级性,可对用户所有 数据进行统一查看和管理,超出了当前有限的虚拟化实现途径,还可优化分布式 企业远程数据访问的性能。这种架构可实现数据库和企业之间更紧密的应用整合, 提供更高的数据保护,并可基于策略更简单地管理数据资源。而且这些优势极大 降低了用户在购买、扩容和管理时的费用1 。 n e t a p p 的存储网格基于四层的存储解决方案,如图1 - 2 所示。存储网格的第 一层是“分层磁盘”,它使客户有能力处理每个应用。第二层即n e t a p p 以3 亿美 元收购的s p i n n a k e rn e t w o r k s 的存储集群技术。存储网格理念的核心是让用户可 以管理独立的节点设备,如果一个节点发生故障,其余的节点可以接管该节点的 工作,继续向应用端提供相同的镜像。存储网格还可以让用户在集群各节点之间 转移数据,以满足不断变化的需求。值得一提的是,收购s p i n n a k e rn e t w o r k s 后 n e t a p p 已经研发出新的s p i n n p 协议,通过s p i n n p 协议可将单独的不同类型的存 储设备相互连接起来,可同时实现管理功能( 如数据迁移等) 和客户访问,如图 1 - 3 所示。s p i n n a k e r 技术是存储网格的关键组成部分。这就是所谓的第三层 “分离”层,它被称为全局命名空间( g l o b a ln a m es p a c e ) ,是位于分层磁盘存 储和集群层之后的第三层,可以让应用与物理设备“对话 ,而不会影响到该设 备。也就是说全局命名空间的功能就是无论用户的数据是什么类型,存储在什么 位置,n e t a p p 的存储网格系统在进行整合的时候都不会影响用户,用户只需知道 最初的数据文件的名称,即可找到这个数据。这对于企业的管理者来说也十分有 效。比如,管理者有时会需要将数据文件从一个高性能光纤存储器转移到另一个 性能较低的存储器中,这时,通过s p i n n p 协议,管理者能够在文件访问的同时进 行文件的迁移,实现了不中断的数据迁移。第四层是网格上多种存储类型,它们 为应用提供一切所需。而n e t a p p 以前所提倡的统一化存储是基于数据模块的,未 6 e峦窒适厶堂亟翌位逾塞绪途 柬将作为这一层的基础构件心1 。 图卜2n e t a p p 四层存储解决方案 f i g u r e l 一2s t o r a g es t r u c t u r eo fn e t a p p s p i “l l :i k t ,;+ 技术怂存铭陶格 的关键组成部分 1 经何数擀访l 部篮求“灾蔹” 鲻殛2 j 的融驻历瑞 2 艇辫结鳓的r 兆私太阕竣 任侗迓j 琵孵网络 3 翘 :分绍式撬群戆力尽菇 篮改变客,代弼 c 两缎黎褥逑过s p 沁帮淹 泼穆l ;i = l 独的籍,羁 d 助能捌 连接麓窳,r 缮嘲噬实琨份 理功能( 如数姑迁移譬) 祁客j 、游瓣 ;产访6 爨踅隧墓j 冀i i 张碧终麟删- j 燃删黪鹈_ 誊 自麟鼙。燃黼i 鬻黎霉黼;攀 j 绷6 黪譬鞠童一o i 羧翩缝z i 灞戮濑黼罐酶? | i i i j j 缨嬲翻黪骥叠菇 蔫 定强n 霹) 。访 缓隧熊戮i 潮麟缓貉i ,i i 鬻鬻霞蒙繁 璐嬲镰灞黢自i 鳓馥。 鬻黔辐繇黼蠲 i 豳鹾? 。鬟! i 粼黪滚鬻j 囊i 、靼i 积p l 麓躲 终议 图卜3s p i n n p 协议的t 作机制 f i g u r e l 一3w o r km e c h a n i s mo fs p i n n p i b m 在网格计算领域也非常活跃。其提出的“存储池( s t o r a g et a n k ) ”技术 就是基于网格的思想。“s t o r a g et a n k ”通过一个i p 网络将多个地点的服务器连 接在一起,然后使这一分布式存储网络的外观和行为就像是一个本地文件系统, 7 而无须考虑数据存放在的地理位置或操作系统d 1 。i b m 研究中心设计的软件将跟踪 文件内部的被称之为“元数据 的描述性信息,如物理地点、文件大小或访问许 可,以便更透明的管理这些数据文件。其另一个技术创新点就是存储引擎块 ( s t o r a g ee n g i n eb r i c k s ) ,它把嵌入式的c p u 与磁盘结合以产生更多的智能存 储单元并且方便系统的动态拓展。 1 2论文研究内容与创新点 1 2 1论文主要研究内容 存储网格除了具有大容量、非集中控制( 自主控制) 、透明访问、异构性、高 效性等基本要求外,还要对存储在其中的资源进行全生命周期的数据管理,即数 据资源的创建、访问、迁移、复制、删除的操作和控制。其中数据的复制技术和 机制可以减少数据访问延迟和带宽消耗以及改善负载平衡和增强系统可靠性。本 文将要探讨的就是如何在网格存储的环境下更高效经济的创建数据副本以保证用 户访问的速度和数据资源的安全。下面是本文的主要内容: 第一章 简要论述了存储网格的产生背景及研究现状,以及与传统的存储 模式相比较的优势所在。 第二章简要介绍了网格存储下的数据管理技术,分析比较副本创建策略 的研究现状。 第三章结合实验室进行的存储网格项目,提出基于蚂蚁算法的网格副本 创建策略d r s a c o ,给出其数学模型,算法描述和实施办法。 第四章依据d r s a c o 进行仿真实验,给出实验结果及可行性分析。 第五章 总结工作中尚存在的问题,提出一些改进设想。 1 2 2论文主要创新性点 本文的创新点是在基于蚂蚁算法的基础上,提出了一种具有可行性的副本创 建策略d r s a c o 。利用这一策略我们可以根据不同的服务质量标准进行副本的 创建。这三种服务质量标准分别为时间代价最优,花费代价最优和性价比指数最 优。d r s a c o 以副本创建过程中的时间因素和价格因素作为服务质量依据,不 仅考虑到了副本的传输时间更考虑到了市场价格机制,从时间和经济的多重标准 下找到一种更为合理的副本创建机制。 8 2 存储网格数据管理 2 1存储网格环境下的数据管理 数据是网格上的一种重要资源,具有可复制、可移动、可压缩、可加密等特 性。由于数据有别于其他资源,为了更好的使用这些资源,网格中必须有专门的 数据管理模块。数据管理要为用户提供透明的共享使用网格上存储资源和数据资 源的手段,使用户可以透明的访问、存储、传输和管理数据。 2 1 1存储网格环境下的数据存储 存储网格使用光纤构建了一个完全虚拟化管理的存储环境,在这个存储环境 中用户无需考虑任何存储节点间的异构性,无需考虑自己的数据资源放置在什么 位置,格式是什么等诸如之类的问题,就可以通过统一的数据管理系统快速高效 的存储和管理自己的数据资源。数据的具体存放位置由网格中心管理节点指定, 它可以是系统中注册了网格服务的任意一个存储节点。每个存储节点向自己的管 理节点实时发布资源监控服务,管理节点根据各节点的监控服务做出判断以决定 下一时刻数据的存放位置。多个存储节点的动态添加和删除很好的实现了网格存 储的分布式技术,而管理节点也并非是唯一的,这也避免了由于集中访问给单一 服务器造成的巨大的带宽压力。 由此无论从网络拓扑结构还是功能来看,分布式存储都为存储网格系统给出 了一个很好的负载均衡的解决方案。 分布式存储是指将大规模的数据集进行分散存储、边缘分发,从而避免内容 集中放置所引起的服务器负载过大、带宽消耗巨大的一种存储方式。在网格环境 下,利用分布式存储系统不同的用户可以将自己的数据分布到不同的存储节点上, 而无需考虑确切的存储位置。只要整个系统中有足够的存储空间就可以保证用户 安全高效的管理自己的数据资源。与传统的集中式存储相比较,分布式存储的多 地址访问,并行的消息传递机制和平行的系统构架具有更好的扩展性和伸缩性, 如图2 - 1 和2 - 2 所示哺】。 9 e 立蛮堂厶堂亟:堂位途塞叠缝幽搔麴堡笪堡 图2 - 1 分布式存储逻辑结构图图2 - 2 集中式存储逻辑结构图 f i g u r e 2 1l o g i cs t r u c t u r eo fd i s t r i b u t e ds t o r a g ef i g u r e 2 2 l o g i cs t r u c t u r eo fc e n t r a l i z e ds t o r a g e 对于网格存储而言,将地理位置上分散的存储资源集中利用,为用户呈现一 个统一的虚拟存储空间,也就是通过存储虚拟化技术为所有异构的存储设备提供 了一致的逻辑映像使用户可以透明地使用系统中的存储设备,如图2 3 所示。 所谓存储虚拟化技术是指将用户看到的存储资源同具体的物理存储设备分隔 丌来,为存储用户提供统一的虚拟存储池。它是具体存储设备或存储系统的抽象, 展示给用户一个逻辑视图,同时将应用程序和用户所需要的数据存储操作和具体 的存储控制分离。 在虚拟存储环境下,无论后端物理存储是什么设备,其应用系统看到的都是存 储设备的逻辑镜像。即便物理存储发生变化,这种逻辑镜像也不会改变,用户不必 再关心后端存储,只需专注管理存储空间。虚拟存储在提高存储效率的同时,也降 低了存储投资的费用,用户无须再购买具有存储管理功能的存储硬件,只需要将现 有的设备利用起来即可。比如可以通过总线结构将许多小的磁盘存储系统和大容 量的缓存连接在一起,然后使用基于外部设备的硬件虚拟管理技术将它们结合成 一个整体,从而变成一个大的和具有更高性能的磁盘存储系统。 1 0 因黍 “缓骥溷鬻圈鬻困黉 0 一鬻鬻_鹈懿甏獭鬻魏戮 嬲辫一溱一 b 塞变适厶堂亟堂位诠塞盔缝圈整錾握笪理 图2 3 存储虚拟化技术 f i g u r e 2 3s h a r e dv i r t u a lm e m o r ys p a c e 对用户而言,一个完整的数据集也可以是地理上分布式存储的,即一个数据 集的多个部分存放在不同的地方,但用户看到的还是_ 个完整的数据集。当请求 使用时仍当作一个资源来请求,网格管理机构将分散的数据部分合理地组织起来 交给用户使用。 网格中的数据资源各种各样,表示、存储的形式也各不同。一些数据可能以 文件形式存储;一些数据存储在数据库或数据仓库中;另一些存储在如同h p s s 的 a r c h i v e 档案系统中;还有一些数据是由多个分布存储系统中的数据组成的。如何 方便有效地访问各种异构数据组成的数据集合是存储网格的另一个主要功能和关 键技术。 因为无法为每- s t 数据存储方式提供一种访问方法,数据网格必须抽象各种 数据存储系统,形成一个抽象模型,为不同的数据存储系统提供统一的数据访问 接口。数据访问服务的作用就是将存储、检索数据集等高层用户的请求映射为异 构分布式存储环境中的底层存储访问操作,实现广域范围内对数据有效的统一访 问和管理。 2 1 2存储网格下的副本管理 存储网格种数据量的高速增长也对存储系统的可靠性和扩展性提出了挑战, 大量数据和计算能力的分布,迫切需要在存储虚拟化中提供数据副本机制。副本 技术和机制可以减少数据访问延迟和带宽消耗。通过在广域网中创建同一数据的 多个副本以增加用户的数据访问点,有助于改善负载平衡和增强系统可靠性。尤 其是动态副本机制,可自动的选择存储点进行副本创建、删除和管理,并根据用 户的特征而自动变化副本管理策略,给用户提供了更高的灵活性。 数据的复制本质上是对数据的缓存。虽然网络速度提高很快,但要达到高性 能地频繁访问和处理大量远程数据仍然很困难。复制技术为用户应用提供一个能 够快速访问和处理远程数据的局部缓冲数据拷贝,避免大量数据远程传输到应用 端。复制管理应具有以下一些功能1 : 1 创建一个完整的或部分的数据集拷贝; 2 提供选择数据复制策略、复制方式和复制地点的能力; 3 在复制目录中注册新的数据拷贝; 4 允许用户和应用查询复制目录,以便找到某个文件或数据集已存在的数据 拷贝; 5 根据用户和应用的执行要求,以及存储、网络的性能预测,有方法和能力 选择“最好 的数据副本进行访问和处理; 6 数据复制之间的数据一致性和更新一直是分布式数据管理的难点,它与应 用数据访问、产生、操作特性紧密相关。 副本管理系统一般由副本管理器、副本目录、副本传输器等几个主要部分组 成,如图2 4 所示。其中副本管理器是副本管理系统的核心部件,它主要负责副 本的创建、副本一致性维护、副本选择、副本删除以及数据移动似】。 图2 4 数据网格中的复制服务架构 f i g u r e 2 - 4r e p l i c as t r u c t u r eo fd a t ag r i d 副本的创建:副本的创建机制就是要确定副本创建最佳的时问和位置,采用 什么样的副本创建策略,要根据当前一段时间内数据被请求的实际情况来决定, 如一段时间内访问数据的请求者位置、每次访问的服务质量等。结合这些数据访 问的动态因素,并考虑到网络通信速度和访问代价,以及当前的存储价格机制, 1 2 动态的调整出一个最佳的副本创建策略以最大程度上满足不同用户的服务质量。 副本一致性维护:如果同一数据文件在网格上存在多个副本,当其中的一个 副本被修改后,用户再对这个文件的副本进行访问时,得到的应该是最新的修改 结果。为了保证在其有效生命周期内各种访问的正确性,就需要使所有副本的内 容都完全相同。在更新操作较少的情况下,副本的更新可以采用强一致性协议和 m a s t e r s l a v e 机制,即只有源文件域用户才能对文件进行更新操作。用户首先获 取文件及其副本的写锁,拒绝后续的数据访问申请,待此用户操作完毕后释放写 锁。副本管理器重新启动文件和其副本数据访问申请受理服务。通过这种“加锁”、 “解锁”的方式保证同时只有一个访问者可以修改文件的内容。 副本选择:用户所需的相当一部分数据是分布在各自分散的网格节点上。要 在如此广域分布的数据中进行有效快速的访问,需要对数据副本进行优化选择。 副本优化选择就是指基于副本性能和访问特性从一组副本中选择一个最佳副本的 过程。在理想情况下,被选择的副本提供最佳性能。副本选择的关键是对远程数 据访问时间的预测,这依赖于很多因素,如传输特性、用户和服务器间的网络状 态、副本所在节点的负载情况及磁盘i o 读取速度等。 副本删除:副本管理器为了优化存储空间,删除访问记录器通知的闲置文件 副本,以提高存储资源的利用率。另外,当用户删除过时或不可用的源文件时, 源文件首先被设置为不可用标志,停止对用户提供源文件和其文件副本服务。源 文件所在的副本管理器通知所有对应副本执行删除操作,且待所副本删除操作成 功返回后源文件方能执行删除操作并及时更新副本目录。 数据移动:随着时间的推移,数据的用户群可能会发生变化,密集的请求在 不同时间段来自不同的地理区域,副本管理系统需要根据情况对数据进行移动, 迁移到最佳位置,以便为用户提供最好的服务。数据移动不能影响正在使用的数 据应用,它需要两个步骤来完成,首先将数据在新位置做一个副本,然后把新来 的请求引导到新的数据上,并在旧数据上的请求都完成后删除旧数据。 副本目录:副本目录提供文件和集合的逻辑名字到物理设备上的拷贝之间的 映射。副本目录登记三种类型的条目:逻辑集,位置和逻辑文件。逻辑集是用户定 义的一组文件,这样用户就不必要对每个文件进行单独的注册和操纵,而将多文 件作为一个集合进行登记和操作,而减少了副本目录中的条目和需要管理的副本 的目录操作次数。位置条目包含了映射一个逻辑集到这个逻辑集的对应的一个特 殊的物理实例的全部信息。位置条目登记了物理存储系统的信息,如主机名,端 口号和协议。每个位置条目只对应一个物理存储系统。物理条目显式地列出了存 储在特定物理存储设备上的来自逻辑文件集的所有文件。每个逻辑集可能包含任 意数目的相关位置条目,每个条目包含逻辑文件集的部分文件。使用多个位置 1 3 = e 塞窒道厶:兰亟堂位诠塞在篮圈整数握笸堡 条目,用户能够注册存储在多个物理存储系统上的逻辑文件集。逻辑文件具有全 局唯一文件名,而且有一个或多个物理实例。 副本传输器:副本传输器负责域内或域间存储系统之间实际数据传输过程。 在域内,副本传输器启动或停止两个存储系统之间直接或通过传输器间接的数据 传输。其后传输器将副本传输执行情况返回副本管理器。副本管理器将成功执行 结果及时更新到域副本目录中。在域问,副本传输器和远程传输器交互完成数据 传输进程。如果是远域文件副本到本地,域传输器从远域传输器接受副本数据并 存储到本域资源管理器所提供的当前最优的存储系统上。如果是本域文件副本到 远程域,传输器从本域资源管理器所提供的本域内最优文件或其最佳副本存储地 点取出数据发送到远程副本传输器。数据传输完成后通知副本管理器及时更新源 文件所在域副本目录的文件副本域信息条目。具体的传输模型如图2 5 所示。 囫 城剡簖缴戮销f 毒翰 一 瑗内翁纷锻舷弼接终输 域 如备扮缀戮隧接抟翰 图2 5 副本传输器模型 f i g u r e 2 5t r a n s m i s s i o nm o d eo fr e p l i c a 2 1 3存储网格下的数据传输 1 4 在网格中,海量的数据分布于地理上分布的节点,并为地理上分散的研究团 体所共享。因此经常需要移动和传输大量数据,以方便客户对网格数据进行分析 处理,提升整个系统效率。网格数据传输的研究内容包括:研究能提高网格数据 传输性能的技术途径,制定高速、安全、 方数据传输、并行数据传输、安全机制、 输服务;为网格用户提供集成服务框架。 性和高效性,它应支持以下几种功能: 高性能的网格数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江专科考试试题及答案
- 中核技工考试试题及答案
- 船舶技工面试题及答案
- 初中美术试题及答案
- 助理物流考试试题及答案
- 军训理论试题及答案
- 安规试题试题及答案
- 软件水平考试备考清单及策略试题及答案
- 实践指导法学概论试题及答案
- 法学概论的现实问题与试题及答案结合探讨
- 麻醉科医师晋升副主任医师病例分析专题报告三篇
- HG∕T 3714-2014 耐油输送带 国标
- 2024年湖南省高中学业水平合格性考试英语试卷真题(含答案详解)
- 《内科胸腔镜术》课件
- 2024年《体育基础理论》考试题库(含答案)
- CJJ 33-2005城镇燃气输配工程施工与验收规范
- 《市场营销:网络时代的超越竞争》第4版 课件 第9章 通过构建渠道网络传递顾客价值
- 农民工工资代付款方协议模板
- 药物合成反应-9合成设计原理
- 跨学科阅读纲要智慧树知到期末考试答案章节答案2024年山东师范大学
- 2025届湖南省数学高一下期末学业水平测试试题含解析
评论
0/150
提交评论