(计算机科学与技术专业论文)并行文件系统负载均衡技术的研究与实现.pdf_第1页
(计算机科学与技术专业论文)并行文件系统负载均衡技术的研究与实现.pdf_第2页
(计算机科学与技术专业论文)并行文件系统负载均衡技术的研究与实现.pdf_第3页
(计算机科学与技术专业论文)并行文件系统负载均衡技术的研究与实现.pdf_第4页
(计算机科学与技术专业论文)并行文件系统负载均衡技术的研究与实现.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(计算机科学与技术专业论文)并行文件系统负载均衡技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

围防科学技术人学研究生院i :学硕十学位论文 摘要 随着集群技术的不断发展,并行文件系统作为集群的i o 子系统也越来越得到 重视。然而,在很多应用中并行文件系统的性能受到削弱,其重要原因就是负载 不均衡,使得某些部件成为瓶颈,制约了整个系统的吞吐量。因此,负载均衡对 提高系统的性能具有重要作用。本文以并行虚拟文件系统p v f s ( p a r a l l e lv i r t u a l f i l es y s t e m ) 为基础,深入研究了并行文件系统中数据访问的负载均衡问题,并且 在研究分析的基础上提出了平衡负载的方法。 p v f s 是一个开放源码的并行文件系统,是迄今为止l i n u x 集群系统中最成功 的并行文件系统之一。p v f s 具有良好的并行性,较高的可用性、可扩展性和性能, 但是其数据服务器缺少负载均衡能力,降低了p v f s 的性能,严重制约了系统的吞 吐量。本文在p v f s 文件系统的基础上,深入研究了分别基于副本和数据迁移的负 载均衡技术,分析两者的优缺点,并最终提出和实现了一种数据迁移与副本相结 合的b r m ( b a s e do nr e p l i c a t i o na n dm i g r a t i o n ) 负载均衡技术,可以有效的解决 p v f s 文件系统由于负载不均衡导致的性能瓶颈问题。主要研究工作包括以下几个 方面: ( 1 ) 提出了b r m 负载均衡技术的体系结构。在分析了负载均衡技术的关注 点及其要求的基础上,结合p v f s 文件系统本身的特点提出了b r m 负载均衡技术 的体系结构,采用模块化的思想,将系统分成了热点监测、数据迁移与复制、负 载均衡调度三个模块。 ( 2 ) 根据b r m 负载均衡技术总体框架,首先深入分析了热点监测、数据迁 移与复制、负载均衡策略三个关键技术,然后详细描述了b r m 负载均衡技术的核 心策略,通过选择源文件时权衡文件的热度与大小以降低数据迁移与复制的开销, 并根据数据访问方式选择进行迁移或副本,将热点数据以较小代价和适当的方法 转移到较空闲的服务器上,有效地提高了整个系统的数据吞吐量。 ( 3 ) 实现了b r m 负载均衡技术。依据b r m 负载均衡技术的总体框架和模 块化设计,并结合相关研究,详细描述了实现热点监测、数据迁移与复制、负载 均衡策略的关键技术,给出了相应的代码。最后借助系统的应用平台对b r m 负载 均衡技术进行了相应的试验和测试,通过对试验结果的分析讨论验证了本文工作 的可行性和有效性。 关键词:负载均衡,热点监测,迁移,副本,策略 第i 页 国防科学技术火学研究生院i :学硕十学位论文 a b s t r a c t a l o n gw i t ht h ed e v e l o p m e n to fc l u s t e rt e c h n o l o g y ,p f s ( p a r a l l e lf i l es y s t e m ) w h i c hi st h ei 0s u b s y s t e mo fc l u s t e ri sm o r ea n dm o r ei m p o r t a n t h o w e v e r ,t h e p e r f o r m a n c eo fp f si sr e d u c e di nag r e a tm a n ya p p l i c a t i o nb e c a u s eo fl o a di m b a l a n c e m o s t l y i tm a k e ss o m ec o m p o n e n t st ob et h eb o t t l e n e c ka n dl i m i tt h et h r o u g h p u to f s y s t e m t h e r e f o r et h e l o a db a l a n c eh a sg r e a te f f e c to ni m p r o v i n gt h es y s t e m p e r f o r m a n c e f o rt h es a k eo fr e s e a r c h i n gt h ed a t aa c c e s sl o a db a l a n c ei np f s ,t h i sp a p e r t a k e sp v f s ( p a r a l i e lv i r t u a lf i l es y s t e m ) a st h ee x a m p l e p v f si sa no p e ns o u r c e p a r a l l e lf i l es y s t e m ,w h i c hi st h em o s ts u c c e s s f u lo n eo ft h el i n u xc l u s t e rs y s t e ms of a r a l t h o u g hp v f si sg o o dp a r a l l e l i s m ,h i g hp e r f o r m a n c e ,u s a b i l i t ya n ds c a l a b i l i t y ,i t sd a t a s e r v e rl a c k sl o a db a l a n c i n g ,a l lt h i sw o u l dr e d u c et h es y s t e mo v e r a l lp e r f o r m a n c ea n d t h r o u g h p u t t h e r e f o r e ,t h i sp a p e rc o n d u c t e di n - d e p t hr e s e a r c ht ot h ei s s u eo fp v f sl o a d b a l a n c e ,r e s e a r c h e dt h eb a s e do nm i g r a t i o no rr e p l i c a t i o nl o a db a l a n c et e c h n o l o g ya n d a n a l y s i sb o t ht h e i ra d v a n t a g ea n dd i s a d v a n t a g es e p a r a t e l y ,f i n a l l yp r o p o s ea n da c h i e v e d l o a db a l a n c i n gt e c h n o l o g yw i t hac o m p r e h e n s i v ed a t am i g r a t i o na n dr e p l i c a t i o no f b r m ( b a s e do nr e p l i c a t i o na n dm i g r a t i o n ) l o a db a l a n c et e c h n o l o g y i tc a ne f f e c t i v e l y s o l v et h es y s t e mp e r f o r m a n c eb o u l e n e c kd u et ol o a di m b a l a n c ei np v f s m a j o r r e s e a r c hw o r ki n c l u d e st h ef o l l o w i n ga s p e c t s : 1 d e s i g no ft h es y s t e ms t r u c t u r eo ft h eb r ml o a d - b a l a n c i n gt e c h n o l o g y b a s e do n t h ea n a l y s i so fl o a d - b a l a n c i n gt e c h n o l o g yc o n c e m sa n di t sr e q u i r e m e n t s ,a n dw i t ht h e c h a r a c t e r i s t i c so fp v f sf i l es y s t e m t h es y s t e ms t r u c t u r eo fb r ml o a d b a l a n c i n g t e c h n o l o g yi sp r o p o s e d m o d u l a rw i s hi sa d o p t e d ,t od i v i d et h es y s t e mi n t ot h r e e m o d u l e st h a ta r eh o ts p o tm o n i t o r i n g ,d a t am i g r a t i o na n db a c k u p ,l o a db a l a n c i n g c o n t r 0 1 2 a c c o r d i n gt ot h eo v e r a l lf r a m e w o r ko ft h eb r ml o a db a l a n c i n g ,f i r s t l y , i n d e p t ha n a l y s i so ft h et h r e ek e yt e c h n o l o g yo fh o ts p o tm o n i t o r i n g ,d a t am i g r a t i o na n d b a c k u p ,a n dl o a db a l a n c i n gp o l i c y ,t h e np a r t i c u l a rd e s c r i p t i o no ft h eb r ml o a d b a l a n c i n gt e c h n o l o g yk e r n e lp o l i c y ,s o u r c ef i l e sw i l lb es e l e c t e db yt h ea s s e s s m e n t so f f i l eh e a ta n ds i z et or e d u c et h ec o n s u m p t i o no fd a t am i g r a t i o na n db a c k u p ,a n dm a k e d e c i s i o no fm i g r a t i o no rr e p l i c a t i o na c c o r d i n gt ot h ea c c e s sp a u e m , a n dt h eh o ts p o t d a t aw i l lb et r a n s f e r r e dw i t hl i t t l ee f f o r tt om o r ei d l es e r v e r s ,t h a ta r ee f f e c t i v et o i m p r o v ed a t at h r o u g h p u to ft h ew h o l es y s t e m 3 b r ml o a d - b a l a n c i n gt e c h n o l o g yi sa c h i e v e d b a s e do nt h eo v e r a l lf r a m e w o r ko f t h eb r ml o a db a l a n c i n ga n dt h em o d u l a rd e s i g n ,p a r t i c u l a r l yd e s c r i b et h er e a l i z a t i o n m e t h o d so fh o ts p o tm o n i t o r i n g ,d a t am i g r a t i o na n db a c k u p ,a n dl o a db a l a n c i n gp o l i c y w i t ht h er e l a t e dr e s e a r c h ,t h e np r e s e n tt h ec o d e f i n a l l y ,t h ec o r r e s p o n d i n ge x p e r i m e n t s 第i i 页 国防科学技术人学研究生院l :学硕十学位论文 a n dt e s t s ,w i t ht h es y s t e m sa p p l i c a t i o np l a t f o r m ,a r ec o n d u c t e dt ob r m l o a d b a l a n c i n g t e c h n o l o g y t h r o u g ht h ea n a l y s i sa n dd i s c u s s i o na b o u tt h et e s tr e s u l t s ,t h ea u t h o r v e r i f i e dt h ef e a s i b i l i t ya n de f t i :c t i v e n e s so f t h ew o r ki nt h i sp a p e r k e yw o r d s :l o a db a l a n c e ,h o t - s p o tm o n i t o r i n g ,m i g r a t i o n ,r e p l i c a t i o n ,p o l i c y 第i i i 页 国防科学技术人学研究生院f :学硕+ 学位论文 表2 1 表2 2 表3 1 表3 2 表4 1 表4 2 表4 3 表4 4 表4 5 表4 6 表4 7 表4 8 表4 9 表4 1 0 表4 1 l 表4 1 2 表4 1 3 表4 1 4 表4 1 5 表5 1 表5 2 表5 3 表5 4 表5 5 表5 6 表5 7 表5 8 表5 9 表5 1 0 表5 1 l 表5 1 2 表5 1 3 表 目录 p v f s t a b 示例16 元数据示例:p v f s f o o 18 b r m 负载均衡的关注点2 3 表格的表项结构2 5 系统调用获得的节点状态信息2 7 性能监视器中的节点状念信息。2 8 节点负载信息2 9 节点负载信息表结构3 0 负载信息处理过程描述3l 源与目标节点对选择算法3 2 数据文件状态信息3 3 相关参数定义3 3 迁移与复制对象选择算法3 4 数据迁移与复制机制设计目标3 5 数据迁移与复制机制设计的关注点3 5 并发数据访问约束机制3 7 并发数据访问约束机制的评估3 8 数据复制控制过程描述3 9 客户端数据迁移控制过程描述4 0 函数l o a ds t a r t ( ) 和l o a ds t o p ( ) 的实现4 3 改进后性能监视器的关键字数组4 3 i o dh e a t 数据结构定义4 4 热点检测算法4 4 数据备份调用函数原型4 5 r e p l i c a t i o n 青习之4 7 数据结构f m e t a 和p v f s 4 7 数据结构p v f sr e p filestat 4 8 负载均衡调度器工作流程5 0 源与目标节点对选择算法5 l 读取文件状态信息请求与响应结构5 2 访问文件状态信息的系统调用定义5 2 返回客户端的文件状态信息5 3 第1 v 页 国防科学技术人学研究生院:学硕十学何论文 表5 1 4 选择算法5 3 表5 15 实验环境5 4 表5 1 6 写性能基准测试程序伪代码5 6 第v 页 国防科学技术人学研究生院i :学硕十学何论文 图1 1 图2 1 图2 2 图2 3 图2 4 图2 5 图2 6 图2 7 图2 8 图2 9 图2 1 0 图3 1 图3 2 图3 3 图4 1 图4 2 图4 3 图4 4 图4 5 图4 6 图4 7 图5 1 图5 2 图5 3 图5 4 图5 5 图5 6 图5 7 图5 8 图目录 并行文件系统结构2 p v f s 系统结构1 0 p v f s 软件结构2 0 1 1 1 逻辑文件的数据分布1 4 p v f s 文件系统中的集合1 5 存储部分集合的目录示例16 p v f s 的两种实现机制17 文件p v f s f o o 的数据存储方式18 i o 数据流示例。l9 分割参数2 0 u n i xi o 系统调用2l b r m 负载均衡系统架构2 3 热点监测模块体系结构2 4 负载均衡调度模块系统框架2 6 负载信息处理流程3l 复制前状态3 6 按数据文件粒度迁移与复制后状态3 6 按段粒度迁移与复制后状态。3 7 复制( 迁移) 完成前各实体状态3 8 复制完成后各实体状态3 9 迁移完成后各实体状态4 0 复制过程中各个组件交互的顺序图4 5 客户端数据备份过程状态机4 6 源服务器数据备份过程状态机4 8 元数据服务器数据备份过程状态机4 9 增加客户端,访问粒度不变条件下系统读性能5 5 增大访问粒度,客户端不变条件下系统读性能5 5 增加客户端,访问粒度不变条件下系统写性能一5 6 增大访问粒度,客户端不变条件下系统写性能5 7 第v l 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料与我一阿工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意 黼张一 毗气月2 踮 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阋;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 日期: 日期: 讥狮 月 月 l i t 1 年 年 文听 国防科学技术人学研究生院i :学硕十学位论文 第一章绪论 1 1 研究背景 随着计算机技术和网络技术的飞速发展,数据量和服务量都呈几何级数爆炸 式增长,人们对高性能计算的要求越来越高,各大企业及科研机构所配备的服务 器在应x 寸居i j 增的工作负荷时显得越来越力不从心。大多数企业和机构都无法承受 采用传统m p p ( m a s s i v e l yp a r a l l e lp r o c e s s i n g ) 和s m p ( s y m m e t r i cm u l t i p l e p r o c e s s o r ) 超级计算机处理业务所需的巨额费用,而工作站和p c 机的处理能力 不断增强,并且工作站和p c 机以及高速网络已经商品化,特别是一些公用的免 费软件的出现,如l i n u x 操作系统、g n u 的编译器、m p i 和p v m 消息传递库, 提供了独立于硬件的软件,使得廉价的p c 机或工作站组成的集群系统应运而生。 集群技术的适时出现为用户提供了一种处理迅速、i o 吞吐量高、容错性能好、 可靠性高和可扩展性好的新型解决方案。集群服务器相对于其所能提供的计算能 力可以说是非常廉价的。随着集群在提高可扩展性、提供完全的单一系统映像等 方面做的越来越好,集群有可能在许多应有场合取代m p p 、s m p 等机剁。近 年来,集群计算j 下成为许多领域内的研究热点,广泛的应用于气象、基因数据处 理、多媒体、i o 密集型数据库和语音图像识别等研究领域。 从根本上说,集群是一个通过网络技术连接起来的工作站或p c 机的组合。 集群是一种并行或分布式处理系统,由很多连接在一起的独立的计算机组成,像 一个单独集成的计算资源一样协同工作1 2 j 。一个集群一般是指连接在一起的两个 或多个计算机( 节点) ,节点可以是在一起的,也可以是物理上分散而通过网络 连结在一起的。在集群中,每个节点都具有自己的i o 子系统,为了利用多个节 点同时进行i o ,缓解磁盘和网络及处理机的带宽,利用快速网络,一种有效的 方式是运用并行文件系统,这种文件系统在各种商业的并行机上广泛使用。并行 文件系统具有高吞吐量、高i o 带宽和可扩展的特点,它可以将多个节点上的 磁盘组织成为全局的存储系统,提供更大的存储容量和聚合的i o 带宽,并可以 随系统规模扩大而扩展。并行文件系统可以实现对分布在集群内各节点上的所有 文件、设备和网络存储资源进行全局访问,并且为用户呈现出单一系统映像。无 论数据存储在集群中哪个节点上,任何用户( 远程或本地) 都可以通过并行文件 系统实现访问,甚至在应用程序从一个节点迁移到另一个节点后,应用程序仍然 可以透明地访问相应的数据。 p v f s 是一种开放源码的并行文件系统,广泛地应用于集群系统。p v f s 文 件的数据放置方法是以组为单位的,随机选择一个节点作为起始节点( b a s e 第1 页 国防科学技术人学研究牛院i :学硕十学位论文 n o d e ) ,然后选耿儿个连续节点作为一组,在这些节点上以段为单位用r o u n d r o b i n 的方式存放数据,而每个段在物理上是连续的。数据在系统中是分组存放的,当 对各个节点的数据访问比较均衡时,效果比较好,但是访问的数据局限于某个或 少数几个节点时,系统并行处理的能力就削弱。这时,有的节点处于繁忙的状态, 有的节点则比较空闲,浪费了有限的网络带宽和c p u 等资源,对数据的放置进 行重新安排能有效地克服这些缺点,使系统能发挥最大的优势。为此需要对负载 均衡问题进行研究,提高系统并行处理的能力,优化系统的性能。 1 2 研究现状 1 2 1 并行文件系统研究现状 文件系统的功能是为应用程序存取数据提供一种简单有效的方法,为应用程 序担当存储介质的低级管理功能,并保证多个应用程序之间不会相互干扰,其主 要任务有以下三点: ( 1 ) 维护一个从文件名到其所代表的文件的映射; ( 2 ) 记录每个文件与磁盘块的对应关系以及磁盘上还有哪些块可用; ( 3 ) 处理应用程序的请求,在磁盘和应用程序地址空间之问传递数据。 尽管串行文件系统和并行文件系统执行的基本任务是相同的,但由于文件组 织形式的不同,导致这些任务的执行方式上有很大差别。并行文件系统建立在本 地文件系统之上,具有两个主要功能:第一允许一个文件中的数据在物理上被分 布存储在多个i o 节点中;第二为并行应用中的每个任务提供访问特定数据集的 机制。这两个功能相辅相成,合理的数据存储方式是高效的数据访问机制的前提, 而高效的数据访问机制可以使存储的优越性得到最好的发挥。图1 1 中描述了一 般并行文件系统的结构,其中文件系统在一组独立的i o 节点上实现,计算节点 通过网络可以访问这些i 0 节点。在每一个i o 节点上有一个i 0 守护进程,用 来实现通常的数据访问、缓存和预取等,而在每个计算节点上是与应用程序连接 的库函数,这些库函数实现了文件系统接口并管理与i o 节点的通信。 囵翻 咕j 乡 网鸟 乡 ,ii o 守妒进程 、 i 匡扫 面一 图1 1 并行文件系统结构 第2 页 国防科学技术人学研究乍院l :学硕十学位论文 文件系统作为系统的i o 子系统在很多情j 兑卜会成为系统的一个明显瓶颈。 这是基于这样一个事实:一方面微处理器性能每年提高5 0 到1 0 0 ,而另一方 面磁盘技术的发展主要是增加它的容量,而很难提高它的性能1 3 l 。对于并行文件 系统来说,网络带宽也是影响系统性能的一个关键因素。当网络通信过多,或网 络传输速率与磁盘存取速率相当,系统性能瓶颈便体现在网络带宽上。因此,设 计一个高性能的并行文件系统应该从两个方面考虑:一方面尽可能的减少对磁盘 的访问,另一方面尽可能简化网络访问协议,减少网络访问。 目前,国外设计的分布式、并行文件系统的主要代表有c o d a l 4 1 、d p f s ( d i s t r i b u t e dp a r a l l e lf i l es y s t e m ) 1 5 】、i n t e r - m e z z o 6 1 、n f s ( n e t w o r kf i l es y s t e m ) 1 7 , 8 1 、g f s ( g l o b a lf i l es y s t e m ) 【9 1 、x f s ( s e r v e r l e s sf i l es y s t e m ) o0 1 乘lo p i o m ( o f f - p r o c e s s o ri ow i t hm y r i n e t ) 【l l l 、c o s m o s 1 2 i 、g a l l e y i 引、g p f s ( g e n e r a l p a r a l l e lf i l es y s t e m ) 1 1 4 l 、c l u s t e r f i l e i ”1 、d a f s ( d i r e c ta c c e s sf i l es y s t e m ) 1 1 6 1 、 l u s t r e 【1 7 l 和p v f s l l 8 1 等。p v f s 是c l e m s o nu n i v e r s i t y 的并行结构研究室的一个项 目。p v f s 的设计目的是为l i n u x 机群系统提供一个产品级的高性能的并行文件 系统。p v f s 采用c l i e n t s e r v e r 的模式,在系统中有多个服务器,它们被称为i o 守护进程。p v f s 使用了i o 节点( i o 守护进程就在其上运行) 以及计算结点, 这些计算结点通过客户端程序库来访问i o 节点。 在国内,曙光、浪潮等公司也在分布式并行文件系统方面作出了有益的探索。 在浪潮存储丌发的并行网络存储系统中,以p v f s 作为丌发原型,针对p v f s 存 在的缺陷,浪潮存储集中研发力量,在p v f s 的基础上进行了大量改进工作,使 得改进后的并行文件系统在性能、可用性、可扩展性、数据安全性方面有了大幅 提高。在该并行文件系统中,元数据信息采用分布存储和管理的方式,消除了 p v f s 中元数据集中存储和管理而导致的访问瓶颈,提高了元数据信息的可用性, 同时保证文件系统向用户提供统一的命名空间和目录体系。在改进后的并行文件 系统中,采用客户端缓存技术,大大提高系统的文件访问效率,降低网络流量, 减少由于磁盘访问和网络传输带来的时延。此外,还提供可订制的高可用机制, 用户可以根据其可用性需求和读写模式选择相应的可用性级别和可用性策略。在 改进后的并行文件系统中,加入了访问控制机制,可以避免一些非授权用户对特 定数据进行非法访问,以确保数据的安全性。在并行文件系统的设计方面,提供 友好的系统管理界面;考虑到u n i x 在高端的广泛应用,并行文件系统的接口设 计和语义设计完全符合p o s i x 标准,同时与现在被广泛使用的软硬件标准相兼 容。曙光也开发了属于自己的并行文件系统d p f s ( d a w n i n gp a r a l l e lf i l es y s t e m ) , d p f s 是一个用户级的实现快速i o 并行文件系统,为并行应用提供快速f o 的 手段。 第3 页 国防科学技术人学研究生院l :学硕十学位论文 上述并行文件系统的设计和研究主要集【 l 在以下几个方面: ( 1 ) 单一系统映像 并行文件系统建立在本地文件系统上,在集群中处于单一系统映像层【2 】。 在用户看来,实现了单一系统映像的文件系统应当和单机文件系统没什么区别, 其文件的组织是单一的树型结构,文件全局存取,不需要用户去直接关心数据的 物理存储和访问方面的问题。 ( 2 ) 数据放置策略 并行文件系统为了给用户提供并行服务,以达到聚合i o 带宽的目的,通常 将文件数据分片存储在集群的众多存储节点上。数据的分片放置策略有连续存放 ( r o u n d r o b i n ) 、基于h a s h 存放和r a i d 等。 ( 3 ) 缓存与预取 由于网络带宽、磁盘与内存速度之| h j 的巨大的差距,根据文件数据访问的局 部性原理,利用缓存机制来提高系统的i o 性能。然而,缓存并不能提高第一次 被访问的数据块的访问速度,这就需要使用预取策略从磁盘中预取。 ( 4 ) 数据访问负载均衡 集群服务器数据分布在很多存储节点上,用户在访问数据时有可能造成存储 节点的负载不平衡,有些存储节点访问过于频繁,而有些存储节点却很少被访问。 数据访问负载均衡还体现在对某一个文件,或某一文件中的具体数据块的访问 上。解决数据访问负载不平衡的方法有数据的动念迁移、数据副本等。 ( 5 ) 元数据管理策略 元数据是描述文件属性的特征信息,是并行文件系统中最重要的数据信息, 访问非常频繁。元数据以何种方式在文件系统中存放,采用集中式元数据管理还 是分布式元数据管理都对并行文件系统性能有着至关重要的影响。 ( 6 ) 高可用和容错策略 文件系统需要通过自检操作来恢复因异常关机断电造成的文件数据丢失,保 证文件系统的前后一致性。文件系统的高可用和容错策略主要体现在对元数据和 数据的高可用和容错方面。最常用的高可用策略包括数据备份存储、同志管理以 及设立检查点等。 1 2 2 负载均衡的研究现状 随着业务量的增加、访问量和数据流量的快速增长,网络各个核心部分的处 理和计算强度也相应增大,使得单一设备根本无法承担。在此情况下,如果扔掉 现有设备去做大量的硬件升级,势必造成现有资源的浪费,而且如果再面临下一 次业务量的提升,这又将导致再一次硬件升级的高额成本投入,甚至性能再卓越 第4 页 国防科学技术人学研究生院+ l :学硕十学何论文 的设备也不l h 、艺7 、两t t - 足当d ,j 业务量的需求。针对此情况而 ;i j 生出米的一种廉价、有效、 透明的方法就是负载均衡,负载均衡建立在现有网络结构之上,它提供了一种廉 价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处 理能力、提高网络的灵活性和可用性。它主要完成以下任务:解决网络拥塞问题, 服务就近提供,实现地理位置无关性;为用户提供更好的访问质量;提高服务器 响应速度;提高服务器及其他资源的利用效率;避免网络关键部位出现单点失效。 负载均衡有两方面的含义:首先,大量的并发访问或数据流量分担到多个节 点上分别处理,减少用户等待响应的时i h j ;其次,单个重负载的计算分担到多个 节点上做并行处理,每个节点处理结束后,将结果汇总返回给用户,使系统处理 能力得到火幅度提高。负载均衡的研究领域很广,有任务的负载均衡和数掘访问 的负载均衡,任务迁移的很多思想对数据迁移有借鉴意义,比如迁移的触发机制、 负载信息的统计、迁移对象的选取和阈值的确定等。 随着并行文件系统的应用越末越广泛,对数据访问负载均衡的研究也越来越 多,许多专家提出了一些针对p v f s 文件系统的负载平衡机制,不同程度地提高 了系统的性能。虽然这些方法在一定程度上解决了负载平衡的问题,但都存在一 定的局限性。现有的并行文件系统负载均衡技术的实现方式主要有两种:一种基 于数据迁移,一种基于数据副本。数据迁移的方式是将热点数据从负载较重的服 务器迁移到负载较轻的服务器上,从而达到平衡负载的目的;而数据副本的方式 是将热点数据复制到负载较轻的服务器中,然后将负载转移到该服务器上,从而 达到平衡负载的目的。数据迁移相对于数据副本的主要优点是不需要考虑数据一 致性的问题,也就不存在维护一致性所需的丌销,但是迁移数据产生的丌销较大, 而且随着存储器容量的不断增大,利用数据副本的方式可以更好地提高系统的性 能。 2 0 0 3 年,美国内布拉斯加大学和华中科技大学以p v f s 为原型设计了c e f t - - p v f s ( c o s t e f f e c t i v e f a u l t t o l e r a n tp a r a l l e lv i r t u a lf i l es y s t e m ) 1 9 j ,该系统通 过镜像的方法较好的解决了数据访问负载均衡的问题。当c e f t p v f s 中的服务 器作为计算节点时,由于c p u 、主存、磁盘和网络等资源被科学计算大量占用, 导致系统整体的i o 性能下降,为了平衡负载,提高热点服务器的读性能,作者 在c e f t p v f s 的基础上,提出了跳过热点服务器,直接从该服务器的镜像节点 读取所需数据的方法。这种方法虽然在一定程度上解决负载不平衡的问题,但是 当数据访问比较频繁时,仍然会形成热点,导致系统整体的i o 性能下降。 2 0 0 7 年,j u l i a nm a r t i nk u n k e l 在“t o w a r d sa u t o m a t i cl o a db a l a n c i n go fa p a r a l l e lf i l es y s t e mw i t hs u b t i l eb a s e dm i g r a t i o n ” 2 0 1 一文中,系统地论述了基于 子文件迁移的并行文件系统负载均衡机制。在文中作者提出了一种基于数据迁移 第5 页 国防科学技术人学研究,院i :学硕十学位论文 的负载平衡策略。这个平衡策略f i 仪仪要处理数据访问的不, 广衡,而且考虑了在 p v f s 文件系统中服务器作为计算资源而导致的负载不平衡,因此不能简单地把 数据访问量作为服务器负载的度量。作者详细分析了得到的统计数据( 包括c p u 占用率、读写数据总量等) ,经过计算得到所有组件的平均负载,选择负载较重 的作为源节点,负载较轻的作为目标节点,然后根据文件大小、访问模式和分布 情况来选择迁移的数据,将数据从源节点迁移到目标节点,达到平衡负载的目的。 但是在数据迁移之后,文件原有的放置方式发生了改变,文件的元数据必须作出 相应的修改,并且涉及到数据回迁等问题,这大大增加了系统丌销,限制了系统 整体性能的提高。 2 0 0 6 年,罗秋明在“一种算法无关的p v f s 负载均衡机制”1 3 0 j 一文中,提 出了一种通过数据副本的形式实现负载均衡的方法。相对于数据迁移形式柬实现 负载均衡,采用数据副本可以避免改变整个文件的条块化分配,以及数据回迁等 问题,降低了系统额外的丌销。在文中作者从热点监测与报告、数据备份与任务 迁移准则及其机制三个方面详细阐述了负载均衡机制的设计与实现。在该机制框 架下可以采用各种不同的均衡算法( 策略) ,均衡时机的选择、备份源与目的的 选取、备份文件的选择都可以按需要进行算法修改,不仅实现了在热点出现时能 有效分担负载的任务迁移负载均衡,更是类似于l v s 思想的与具体均衡算法无 关的一种独立和灵活的机制。该负载均衡机制所强调的是一个负载均衡的基本框 架,并未对负载均衡策略进行深入的研究,对均衡时机的选择、源与目标节点的 选择以及备份源文件的选择等影响负载均衡性能的重要因素没有做深入的研究 与分析。 本文提出的负载均衡技术借鉴了文献 2 0 】、【3 0 】中的方法,针对其存在的缺 陷进行重要的改进,并从热点监测、数据迁移与复制和负载均衡算法三个方面系 统阐述了基于副本的负载均衡技术的设计与实现,针对服务器负载信息的筛选与 获取、均衡时机的选择、源与目标节点的选择、源文件的选择以及数据迁移与复 制过程的控制等影响系统性能的重要方面进行了深入的研究与分析,并将负载均 衡模块集成到并行文件系统中,最后通过实验验证了通过负载均衡可以有效的提 高系统性能。 1 3 本文的主要工作 结合课题背景,本文针对并行文件系统存在的负载均衡问题,以并行虚拟文 件系统p v f s ( p a r a l l e lv i r t u a lf i l es y s t e m ) 为基础,深入研究和分析了p v f s 文 件系统负载均衡的问题及其特点,针对网络速度远大于磁盘的现状,设计并实现 了一种数据迁移与副本相结合的b r m ( b a s e do nr e p l i c a t i o na n dm i g r a t i o n ) 负载 第6 页 国防科学技术人学研究生院。i :学硕十学位论文 均衡技术,最后将其集成到p v f s 文件系统中进行了性能测试。由于p v f s 中没 有负载均衡的机制,因此对系统做负载均衡对于完善p v f s 的功能是有意义的。 p v f s 并行文件系统的负载均衡技术是本文的主要研究对象,具体末讲,主要包 括以下内容: ( 1 ) 提出了一种数据迁移与副本相结合的b r m 负载均衡技术,并为其没 计了体系结构 综合相关的负载均衡技术研究,提出了一种数据迁移与副本相结合的b r m 负载均衡技术,并通过分析负载均衡技术的关注点及其特性,结合软件工程模块 化思想,设计提出了相应的负载均衡体系结构。 ( 2 ) 对b r m 负载均衡的关键技术进行了深入的分析 对b r m 负载均衡的关键技术主要包括三个方面:热点监测、负载均衡算法 和数据迁移与复制。对于热点监测,我们利用p v f s 文件系统本身的性能监视器, 为获取数据访问的统计信息将其进行适当的改进,然后根据这些统计信息来判断 哪些服务器访问过热,哪些节点访问较少。负载均衡算法包括了源与目标节点对 的选择、迁移与复制对象的选择以及负载均衡方式的选择,源与目标节点对的选 择主要论述了基于热点监测中对热点服务器和闲服务器的判断,然后按照本文提 出的算法来选择数据迁移与复制的时机和源一目的服务器;迁移与复制对象的选 择描述的是在选择迁移与复制对象的算法中,我们引入了数据迁移与备份的效益 与代价,通过权衡两者的大小来选择源文件,相对于其他的算法可以获得更大的 平衡负载效率,提高整体性能的效果更好。而数据迁移与复制机制的设计,通过 借鉴文献【2 0 】所提出的数据迁移机制,对其进行相应的改进,设计了与本文提出 的负载均衡技术相适应的数据迁移与复制机制。 ( 3 ) 实现了b r m 负载均衡技术,并与p v f s 文件系统集成进行了实验验 证 根

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论