(计算机科学与技术专业论文)pb级文件系统元数据管理关键技术的研究与实现.pdf_第1页
(计算机科学与技术专业论文)pb级文件系统元数据管理关键技术的研究与实现.pdf_第2页
(计算机科学与技术专业论文)pb级文件系统元数据管理关键技术的研究与实现.pdf_第3页
(计算机科学与技术专业论文)pb级文件系统元数据管理关键技术的研究与实现.pdf_第4页
(计算机科学与技术专业论文)pb级文件系统元数据管理关键技术的研究与实现.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机科学与技术专业论文)pb级文件系统元数据管理关键技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术人学研究生院工学硕士学位论文 摘要 随着高性能计算技术和因特网技术的不断发展,数据资源迅猛增长,很多应 用的存储需求达到p b 级。为了消除存储瓶颈,有效地支持高性能计算,继d a s 、 n a s 和s a n 三种网络存储技术之后,基于对象的存储技术成为存储领域的新兴技 术,并形成了一种新型的存储结构。构建在基于对象存储结构上的p b 级文件系统 可以有效地管理数据资源,为用户提供一个虚拟化大容量存储器的统一访问接口、 高v o 带宽、以及可扩展的存储服务。对文件数据的访问需要借助于元数据,元数 据管理对数据管理至关重要。p b 级文件系统具有t b 级的元数据,为了消除元数 据访问瓶颈,必须由元数据服务器集群来管理元数据,使得其元数据管理更具有 挑战性。 本课题主要研究p b 级文件系统的元数据管理。首先,通过对l u s t r e 和p v f s 的i o 性能测试,比较分析了基于对象的文件系统相比于传统并行文件系统的性能 优势,并分析p b 级文件系统结构和各组成部分的软件模块结构及其功能。其次, 提出自适应的动态目录元数据划分方法来有效地平衡元数据服务器集群的负载, 同时,最少化平衡负载过程中的元数据迁移量,并通过开发目录级局部性,提高 元数据服务器c a c h e 的性能。再次,采用基于层次的计数型布隆过滤器数组能够提 供快速的元数据查询服务,并能够节省内存开销。最后,根据元数据的特点,在 结合文件访问语义和访问历史记录定义文件相关度的基础上,设计新的元数据预 取策略来提高缓存命中率,降低平均响应时间。 关键字:基于对象的存储,p b 级文件系统,元数据管理,动态目录划分, 元数据查询,元数据预取 第i 页 国防科学技术大学研究生院工学硕士学位论文 a b s t r a c t w i t ht h ec o n t i n u i n gi m p r o v e m e n to fh i g h p e r f o r m a n c ec o m p u t i n ga n dh i g h - s p e e d n e t w o r k ,d a t ar e s o u r c ei n c r e a s er a p i d l y ,s t o r a g ed e m a n df o rm a n ya p p l i c a t i o n sr e a c h e s p e t a b y t e s c a l e i no r d e rt oe l i m i n a t et h es t o r a g eb o t t l e n e c ka n ds u p p o r th i g h p e r f o r m a n c ec o m p u t i n ge f f i c i e n t l y ,o b j e c t b a s e ds t o r a g et e c h n i q u eh a sb e c o m ean e w t e c h n i q u ei ns t o r a g ef i e l da n dg i v e sak i n do fn e ws t o r a g ea r c h i t e c t u r ea f t e ro t h e rt h r e e m a i nn e t w o r ks t o r a g et e c h n i q u e s :d a s ,n a sa n ds a n b u i l d e do no b j e c t b a s e d s t o r a g ea r c h i t e c t u r e ,p e t a b y t e - s c a l ef i l es y s t e mc a nm a n a g ed a t ar e s o u r c ee f f i c i e n t l y , a n dp r o v i d eau n i f i e di n t e r f a c eo fa c c e s s i n gg r e a tc a p a b i l i t ys t o r a g e ,h i g hi ob a n d w i d t h a n ds c a l a b l es t o r a g es e r v i c e sf o rt h eu s e r s a sf i l ed a t aa c c e s sn e e d st h eh e l po f m e t a d a t a ,m e t a d a t am a n a n g e m e n ti sc r i t i c a li m p o r t a n tf o rd a t am a n a g e m e n t t h i n ko f m e t a d a t ao fp e t a b y t e s c a l ef i l es y s t e ma m o u n t st ot e r a b y t e s ,a n dt oa v o i dm e t a d a t a a c c e s sb o t t l e n e c k ,m e t a d a t as e r v e rc l u s t e ri sn e e d e dt os a t i s f yt h ed e m a n do fm e t a d a t a m a n a g e m e n t ,m a k i n gt h em e t a d a t am a n a g e m e n to fi tm u c hm o r ec h a l l e n g i n g o u r p r o j e c tf o c u s e so nm e t a d a t am a n a g e m e n to fp e t a b y t e s c a l ef i l es y s t e m f i r s t l y , w ec o m p a r et h ep e r f o r m a n c ea d v a n t a g eo fo b je c t b a s e df i l e s y s t e mw i t ht r a d i t i o n a l p a r a l l e lf i l es y s t e mb yt e s t i n gt h ei op e r f o r m a n c eo fl u s t r ea n dp v f s ,a n da n a l y z et h e a r c h i t e c t u r eo fp e t a b y t e s c a l ef i l es y s t e ma n ds o f t w a r em o d u l e so fi t sc o m p o n e n t sw i t h t h e i rf u n c t i o n s s e c o n d l y ,w ep r e s e n ta na d a p t i v ed y n a m i cm e t a d a t ap a r t i t i o n i n gs c h e m e t ob a l a n c et h el o a do nm e t a d a t as e r v e rc l u s t e re f f i c i e n t l y ,s i m u l t a n e o u s l y ,m i n i m i z et h e a m o u n to fm e t a d a t an e e dt ob em i g r a t e dw h e nk e e p i n gt h el o a db a l a n c i n g ,a n di m p r o v e t h ee f f e c t i v e n e s so fm d s c a c h i n gb ye x p l o i t i n gd i r e c t o r yl o c a l i t y t h i r d l y ,h i e r a r c h i c a l c o u n t i n gb l o o mf i l t e ra r r a y sa r ee m p l o y e dt oi m p r o v et h ee f f i c i e n c yo fm e t a d a t aq u e r y , a n de c o n o m i z em a i nm e m o r y a tl a s t ,a c c o r d i n gt ot h ec h a r a c t e r i s t i co fm e t a d a t a ,w e d e s i g nan o v e lm e t a d a t ap r e f e t c h i n gs c h e m et oi m p r o v et h eh i tr a t ea n dr e d u c et h e a v e r a g er e s p o n s et i m eo fm e t a d a t aa c c e s so nt h eb a s i so fi n t e g r a t i n gas e m a n t i c - b a s e d m e t h o d o l o g yi n t of i l ea c c e s ss e q u e n c et od i s c o v e rf i l ec o r r e l a t i o n s k e yw o r d s - o b j e c t b a s e ds t o r a g e ,p e t a b y t e s c a l ef i l es y s t e m ,m e t a d a t a m a n a g e m e n t ,d y n a m i cd i r e c t o r yp a r t i t i o n i n g ,m e t a d a t aq u e r y ,m e t a d a t ap r e f e t c h i n g 第i i 页 国防科学技术大学研究生院工学硕士学位论文 图目录 图1 1 单i o 节点服务多计算节点模式2 图1 2 计算负载和i o 负载的分布2 图1 3s a n 架构下元数据与数据i o 分离的模式4 图1 4x f s 的系统架构6 图1 5p v f s 的系统架构一6 图1 6c x f s 的系统结构7 图1 7t o t a l s t o r a g e 的系统架构8 图2 1d a s 存储结构1 2 图2 2s a n 存储结构13 图2 3n a s 存储结构1 3 图2 4o b s 存储结构1 4 图2 5 存储功能从主机到存储控制器的迁移1 5 图2 6 传统块存储和基于对象存储的对比1 7 图2 7 数据与元数据分离的访问模式1 8 图2 8l u s t r e 文件系统的系统架构一2 0 图2 9a c t i v e s c a l e 的系统架构。2 l 图2 1 0c e p h 文件系统的系统架构2 2 图2 11 构建的集群存储系统架构2 3 图2 1 2p v f s 文件系统读性能2 4 图2 1 3p v f s 文件系统写性能2 4 图2 1 4l u s t r e 文件系统读性能2 5 图2 1 5l u s t r e 文件系统写性能2 5 图3 1p b 级文件系统的存储架构2 8 图3 2 文件到对象的映射实例2 8 图3 3 基于o s d 的存储系统架构一2 9 图3 4o s d 软件模块层次3 1 图3 5m d s 软件模块层次3 2 图3 6 客户端软件模块层次3 2 图4 1 文件系统逻辑视图4 0 图4 2m d s 集群上的元数据分布4 0 图4 3 构建目录路径下文件访问权限的示例4 1 图4 4c a c h e 利用率4 6 第v 页 国防科学技术大学研究生院t 学硕十学位论文 图4 5 元数据平衡分布状况4 7 图4 6m d s 集群的负载均衡状况4 7 图4 7 元数据迁移量4 8 图5 1 布隆过滤器5 l 图5 2h c b f a 在m d si 上的实现机制5 3 图6 1 元数据请求响应层次结构图6 0 图6 2 基于文件相关度的元数据预取算法流程图6 1 图6 3 预取策略的命中率6 2 图6 4 预取策略的平均响应时间6 2 第v i 页 国防科学技术大学研究生院工学硕十学位论文 表目录 表2 1d a s 、n a s 、s a n 和o b s 四种存储技术的比较1 6 表5 1 元数据查询策略比较5 5 表6 1 文件访问语义到语义向量的转换示例5 9 第1 v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目:塑熟塞佳丞统丞数量篁堡差缝技盔鲍盟究生塞趣 学位论文作者签名: 互主 口 金日期:歹加g 年1 2 月弘日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目: 堕熟塞佳丞统五数量筻壅差缝拉盔鲍贸究生塞理 学位论文作者签名:一童至迢金 作者指导教师签名:红 日期:加孑年,2 月凇日 日期:如分年,工月) - o 日 国防科学技术大学研究生院工学硕士学位论文 第一章绪论 随着高性能计算技术和因特网技术的不断发展以及网络用户数量的快速增 长,各类数据呈几何级数爆炸式地增长。图灵奖获得者j i mg r a y 提出了一个新的 经验定律:“网络环境下每18 个月产生的数据量等于有史以来数据量之和 i j j 。 目前,很多应用领域的存储需求已经达到p b 级( 1 0 ”b y t e ) ,如石油勘探、气象 数据分析、卫星数据处理、医学视频图像处理、金融数据分析、多媒体点播等应 用领域。信息技术正从以计算设备为核心的计算时代进入到以存储设备为核心的 存储时代,网络化存储将成为研究的热点。信息资源的爆炸性增长,对存储系统 在可扩展性、i o 性能以及数据安全性等方面提出了越来越高的要求,这也为文件 系统元数据管理也提出了更高的要求,带来了新的挑战。 本章首先分析高性能计算的存储需求,并对当前比较流行的集群文件系统进 行总结分析。然后阐述本文的研究背景和意义,以及研究内容和目标。最后介绍 本文章节的内容安排。 1 1 高性能计算的存储需求 高性能计算( h i g hp e r f o r m a n c ec o m p u t i n g ,h p c ) 一直以来是金融分析、石 油勘探、科学研究、气象分析和电信服务等计算密集型应用中的首要技术问题。 早期的h p c 系统,主要以i b m 、c r a y 和s g i 等厂商的大型机或并行机为硬件系 统平台。随着l i n u x 集群技术的成熟和普及,目前h p c 技术主流已经转向以l i n u x 集群为系统平台的廉价系统为主。近年来,在t o p5 0 0h p c 体系结构的份额中, l i n u x 集群所占的比重超过7 0 ,见参考文献【1 】,这一技术趋势还在进一步发展。 鉴于l i n u x 集群技术在h p c 应用中的主流地位及快速发展趋势,主要讨论这一架 构中的存储系统问题。 1 1 1 存储系统的i o 瓶颈 l i n u x 集群中的计算资源按其功能角色不同,通常被分为两种:“计算节点”和 “i o 节点”。其中计算节点负责运行计算任务,i o 节点负责数据的存储并响应计 算节点的存储请求。目前l i n u x 集群一般采用单i o 节点服务多计算节点的模式( 图 1 1 ) 。从硬件角度看,i o 节点和计算节点都是同样标准的硬件架构,没有本质区 别。计算所需要的初始数据、计算得出的最终数据以及并行计算平台本身,都存 储于i o 节点上。计算节点与i o 节点间一般采用标准n f s 协议交换数据。 如图1 2 所示,当一个计算任务被加载到集群系统时,各个计算节点首先从i o 第l 页 国防科学技术大学研究生院工学硕十学位论文 网络存储 图1 1 单i 0 节点服务多计算节点模式 节点获取数据,然后进行计算,最后再将计算结果写入i o 节点。在这个过程中, 计算的开始阶段和结束阶段i o 节点的负载非常大,而在计算处理过程中,却几乎 没有任何负载。提高各计算节点c p u 频率和增加计算节点数量,可以提高集群整 体的计算处理能力,进一步缩短处理阶段的时间。在当前的l i n u x 并行集群系统中, 集群系统的处理能力越来越强,每秒运算次数在迅速增长,于是集群系统真正用 于计算处理的时间越来越短。然而,由于i o 能力改进不大,集群系统工作中的f o 效率没有明显进步,甚至会随着计算节点数的增加而明显降低。 旺 j b 巳 开始阶段处理髟 段结泵阶段 图1 2 计算负载和i o 负载的分布 当原始数据量较大时,开始阶段和结束阶段所占用的整体时间比重已经相当 大,在有些系统中甚至可以占到5 0 左右,这样就形成了存储系统的i o 瓶颈。i o 效率的改进,已经成为今天大多数l i n u x 集群系统提高效率的首要任务。 第2 页 国防科学技术大学研究生院工学硕士学位论文 1 1 2 多i ,o 节点架构解决存储瓶颈 可能导致存储系统瓶颈的因素是:存储设备本身性能、i o 节点与存储设备 问的连接、以及计算节点与i o 节点问的网络交换。下面我们分析一下如何解决这 些瓶颈。 目前的存储设备类型丰富,种类繁多。容量扩展能力达到t b 级,甚至p b 级。 每秒处理数万次i 0 ,数据吞吐带宽在数百m b s 的设备就有很多种选择。以勘探 数据处理系统为例,在个拥有3 2 个计算节点的处理系统中,如果需要使每个计 算节点得到1 5 - - 2 0 m b s 的带宽,那么集群对后端存储的总体带宽( 即聚合带宽) 要求大约为5 0 0 - - 6 5 0 m b s 。目前的磁盘阵列产品基本都可以达到这一性能指标。 如果考虑6 4 个或更多计算节点,后端带宽要求需要达到1 1 3 g b s 甚至更大,这 一性能是目前单一磁盘阵列系统难以达到的。然而通过引入多台存储设备,这一 问题也不难解决。 当前的存储设备通道技术主要以s c s i 和f c 为主。目前单条f c 通道可保证 2 0 0 m b s 的传输带宽,以4 条通道并行工作就可以达到8 0 0 m b s 的带宽保证。这 一指数已经完全可以满足3 2 个计算节点并行工作的带宽要求。此外i n f i n i b a n d 技 术作为新兴通道技术,更进一步保证了通道带宽。目前已经产品化的i n f i n i b a n d 交换技术已经可以达到1 0 3 0 g b s 的带宽,是目前f c 技术的5 1 5 倍。在这样的 带宽保证下,既便是2 5 6 或5 1 2 节点的集群也可以与存储设备从容交换数据。 类似前面的计算方法,如果要为前端3 2 个计算节点提供1 5 一2 0 m b s 的带宽, i o 节点需要提供至少5 0 0 - - 一6 5 0 m b s 的网络带宽。这就是说,既便完全不考虑以 太网交换的额外损耗,也需要安装6 7 片千兆以太网卡。而一般的p c 或p c 服 务器最多只有两个p c i 控制器,要想保证这6 7 片千兆以太网卡都以最高效率工 作,完全是不可能的。更何况一般以太网的效率,只有理论带宽的5 0 左右。就 是说实际上要想达到5 0 0 - - 一6 5 0 m b s 的实际带宽,需要1 3 1 5 片千兆以太网卡, 十几个6 4 位p c i 插槽,这大概是目前最高端的p c 服务器所能提供的p c i 插槽数 目的二倍。 通过对上述三种可能引起瓶颈的因素分析,我们可以看出单一i o 节点架构无 疑是整个存储系统性能瓶颈的根源,多i o 节点的架构才是可行的解决方案。由于 引起存储瓶颈的主要因素在于计算节点与i o 节点问的网络交换,我们采用s a n 架构来解决这个问题。 由于基本的s a n 架构不能提供文件级共享,两个i o 节点还是完全独立地工 作。所有计算节点如果同时读取同一个文件的话,还必须经由一个i o 节点完成。 由此可见,在单一任务情况下,多i o 节点的结构形同虚设,根本无法负载均衡地 为计算节点提供服务响应。为了解决这一问题,可以考虑在多i 0 节点问需要引入 第3 页 国防科学技术大学研究生院工学硕士学位论文 文件级共享的工作机制。 在引入文件共享技术的s a n 架构下,各个i o 节点可以同时读取同一文件, 这为i o 节点间的负载均衡提供了可能。然而,s a n 架构下的文件共享并没有解 决所有问题,其实这一技术仅仅是为解决问题提供了底层的支持而已。所有计算 节点被人为划分,每个i o 节点为其中一个部分提供i o 服务响应。也就是说,在 计算节点的层面上,系统是手工负载均衡,而非自动负载均衡。在大多数实际应 用环境中,手工负载均衡意味着繁重的管理工作任务。每当增加新的计算任务或 者调整参与计算的c p u 数量时,几乎所有的共享卷绑定关系必须重新配置。而当 多个作业同时运行,尤其是每个作业要求的c p u 资源还不尽相同时,配置合理的 绑定关系将是系统管理人员的一场噩梦。造成这一问题的根本原因在于,多y o 节 点为系统引入了多个逻辑数据源,而目前主流集群系统都是在单一数据源的结构 下开发的。 目前s a n 架构下文件共享的技术已经较为成熟,如果将全部计算节点都接入 s a n ,而将i o 节点设置为m d c ( m e t ad a t ac o n t r o l l e r ) ,就可以在提高系统i o 能力的同时,形式上保留原有的单一i o 节点,单一数据源的逻辑结构,如图1 3 所示。在这一架构下,各个计算节点形式上还是通过n f s 共享访问i o 节点,但 实际的数据读写路径则通过s a n 交换直接到达磁盘阵列。这种模式的可行性已经 在现实中被证实。例如,i b m 公司的g p f s 技术就是以这种方式解决集群的i 0 瓶 颈问题的。然而,要建立如此庞大的s a n 网络,其成本将相当可观,这也就失去 了l i n u x 集群的最大优势性能价格比。 共享磁盘空问 i o 节点 ( m d c ) 图1 3s a n 架构下元数据与数据i 0 分离的模式 以i s c s i 替代f c 技术构建s a n 网络的确可以降低一定的成本。性能虽然受 到一定影响,但仍会比目前的状况好很多。然而,i s c s i 技术的引入只能降低硬件 产品,而对软件成本则没有任何影响。s a n 架构文件共享软件的成本占了s a n 成 第4 页 国防科学技术大学研究生院- t 学硕士学位论文 本的人部分,存储系统的总体成本仍然明显高于计算节点的总和。 多i o 节点间以支持共享的集群文件系统替代传统的n f s 共享之后,多i o 节点被虚拟为一个单一数据源。各个计算节点可以面对这个单一的数据源进行读 写操作,省去了复杂的管理。而文件系统的元数据管理服务器,将前端的所有i o 请求均衡负载到各个i o 节点,从而实现了系统i o 的自动负载均衡。由于单个元 数据管理服务器容易引起访问瓶颈,且存在严重的单点故障问题,一旦元数据管 理服务器宕机,则整个系统都无法正常工作。针对这个隐患,很多集群文件系统 采用元数据服务器集群来消除访问瓶颈,并采用f a i l o v e r 机制使得一台服务器出现 故障后,可以通过将服务和资源转移到另一台服务器来提供持续可靠的管理服务。 综上所述,多i o 节点构架下的集群文件系统能够提供共享的数据访问能力, 支持高度并发的元数据访问和数据访问,提供高性能的i o 支持;同时,实现系统 i o 的自动负载均衡;从而,集群文件系统能够有效地消除存储瓶颈。 1 2 典型集群文件系统 文件系统是操作系统的重要组成部分,用于存储程序和数据。如何在各节点 问高效、一致和简捷的实现数据共享是集群系统对文件系统提出的挑战。显然, 仅能管理本地存储的文件系统( 如e x t 和f a t ) 无法满足集群系统对文件共享的 要求。在集群环境下,采用集群文件系统实现数据共享是最直接的想法。 集群文件系统( c l u s t e rf i l es y s t e m ,c f s ) 1 3 2 】是指架构在一个可扩展服务器集 群上的文件系统。用户不需要考虑文件是存储在集群中什么位置,仅仅需要使用 统一的界面就可以访问文件资源。当负载增加时,只需在服务器集群中增加新的 服务器就可以提高文件系统的性能。c f s 通常保留了传统文件系统的语义,增加 了集群文件系统必须的机制,可以向用户提供高可靠性、高性能、可扩展的文件 服务。 集群文件系统有几个共同的特点:1 、与传统分布式文件系统相比,系统设计 支持更大的应用规模;2 、加强了文件服务器之间的协作;3 、增加了提高文件可 靠性的手段。 1 2 1 f s n f s 方式的集群数据共享方式依赖于集中的n f s 服务器,存在性能差和单点 失效的问题。于是人们提出无( 集中式) 服务器( s e r v e r l e s s ) 的文件系统解决方 法。这种方式下,集群中的所有节点在提供文件服务方面地位是均等的,任何一 个节点都能够存取、缓存及控制任意的数据块。该方法利用位置独立性并结合快 速局域网,较之传统的n f s 方式,能提供更好的性能和可扩展性。另外,由于任 第5 页 国防科学技术大学研究生院下学硕士学位论文 一节点可以承担出现故障的部件的责任,这种尤集中式服务器设计方案通过采用 冗余数据存储可提供高可用性。 为了验证这种方法,加州大学伯克利分校实现了一种没有集中式服务器的文 件系统原型x f s t 圳,如图1 4 所示。它主要完成了下列功能:并行协调式的元数据 管理;协作式缓存;并行i o 支持,即类似于软件r a i d 的实现;目志式存储管理, 解决了在实现r a i d 的校验功能时产生的大量小块写问题。实验结果表明它的可 扩展性和性能均优于n f s 。 1 2 2p v f s s e r v 蠢s e n 矗s e r v 邑 图1 4x f s 的系统架构6 】 c l e m s o nu n i v e r s i t y 设计开发的p v f s ( p a r a l l e lv i r t u a lf i l es y s t e m ) 1 7 是基于 l i n u x 集群的高性能文件系统,它的设计目标是提供文件并发访问的高带宽、提供 多种a p i 接口、基于u n i xi oa p i 的应用程序可以不加修改直接访问、高可靠性 和可扩展性。p v f s 基于c l i e n t s e r v e r 模型,系统中有多个i o 服务器( 如图1 5 ) 。 在集群中运行i o 服务器的节点,称为i on o d e 。每个i on o d e 都拥有自己的磁盘 驱动器。p v f s 中每个文件被条带化分布在不同i on o d e 的磁盘驱动器上,从而提 高文件访问速度。应用程序通过p v f s 提供的a p i 库来访问p v f s 。在p v f s 中有 m a n a g e m e n tn o d e 负责文件系统中元数据操作,例如文件所有者信息、权限检查和 c o m p u 协 n o d e s 图1 5p v f s 的系统架构【7 1 m s n e g e m o n t n o d e 第6 页 昌囤 国昌 国防科学技术人学研究生院t 学硕士学位论文 文件数据定位。当对普通文件进行读操作或写操作时,不需通过兀数据服务器进 行,i o 服务器和客户端一起就可以完成对文件的读写操作。通常,i o 服务器 和元数据服务器可以运行在不同的节点上以获得更好的性能。p v f s2 0 及以后的 版本支持分布的元数据管理。p v f s 提供了集群内部一致性的名字空间,容许数据 条带化到不同的i o 节点,但不支持p o s i x 标准的文件访问接口。 1 2 3c x f s s g i 公司的c x f s t 8 1 ( 如图1 6 ) 是在x f s 的基础上开发的,是一种日志型集 群文件系统,具高可扩展性。单一文件大小可以达到九百万t b ,文件系统可以达 到1 8 0 0 万t b 。动态分配算法使得一个文件系统可以存储数百万个文件而不浪费 磁盘空间,单一目录管理百万个文件而不影响性能。c x f s 实现了元数据服务器内 置的失效接替和恢复功能;采用快速元数据算法,包括优秀的缓存机制,精心组 织的存储结构和优化的搜索算法,来提高元数据访问性能。采用令牌( t o k e n ) 来 管理和控制元数据和数据的访问,采用了多人读一个人写的策略保证数据和元数 据的一致性。客户机通过s a n 直接访问文件数据,具有很好的传输效率。 图1 6c x f s 的系统结构【8 】 c x f s 通过使用先进的x v m 卷管理工具,一个磁盘卷可以有几千个磁盘构成, 当现有磁盘卷容量不能满足用户需求时,可以在线增加新的磁盘,确保c x f s 能 满足日见增长的存储需要。网络的速度、服务器的能力和协议本身都是n f s 性能 第7 页 国防科学技术大学研究生院j 一学硕士学位论文 的障碍。n f s 协议是同步操作,每一数据块请求都需要两次网络i o ;c x f s 只通 过网络请求少量的m e m d 址a 信息,大量的数据i o 是直接通过读写磁盘实现的。 另外,c x f s 还可以在单一系统i o 路径使用多块f c 卡增加i o 带宽。因为c x f s 服务器只在数据传输之初将文件信息和文件控制权限赋予c x f s 客户机,而不参 与每一次的数据传输,所以c x f s 服务器并不需要很大即可支持大量的客户机。 c x f s 被设计成能自动识别并恢复单点失败,单点失败包括:主m e m d a 诅服 务器失败、s a n 失败、t c p i p 网络失败等。在c x f s 配置中,一台主机是m e m d a m 服务器,所有其他主机都可以设训成备份m e t a d a t a 服务器,一个备份服务器探测 到主m e h d 甜a 服务器失败后将自动变成主m e t a d a t a 服务器。 12 4t o t a l s t o r a g e i b m 公司在g p f s ( g e n e r a lp a r a l l e lf i l es y s t e m ) 9 1 s t o r a g et a n k i ”啪基础之 上发展进化来的t o t a l s t o r a g es a n f i l es y s t e m 1 ( 如图i7 ) 将集群文件系统的设 计理念和系统架构向前推进了一步。它采用s a n 作为整个文件系统的数据存储和 传输路径,采用带外( o u t - o f - b 锄d ) 结构,将文件系统元数据在高速以太网上传输, 由专门的元数据服务器来处理和存储。文件系统元数据和文件数槲的分离管理和 存储,可以更好地利用各自存储设备和传输网络的特性,提高系统的性能,有效 降低系统的成本。t o t a l s t o r a g e 采用秘极的缓存策略,尽量在客户端缓存文件元数 据和数据。整个文件系统由管理员按照目录结构划分成多个文件集( f i l e s e t ) ,每 s r s 。 一一ii 图17t o t a l s t o r a g e 的系统架构】 第8 页 国防科学技术大学研究生院工学硕士学位论文 一个义件集都是一个相对独立的整体,可以进行独立的已数据处理和进行文件系 统备份等。不同的文件集可以分配到不同的元数据服务器处理,形成元数据服务 器集群来提高系统的扩展性、性能、可用性等。同时,它采用了基于策略的文件 数据位置选择方法,能有效地利用系统的资源、提高性能、降低成本。t o t a l s t o r a g e 的块虚拟层将整个s a n 的存储进行统一的虚拟管理,为文件系统提供统一的存储 空间,这样的分层结构有利于简化文件系统的设计和实现。同时,它们的客户端 支持多种操作系统,是一个支持异构环境的分布式文件系统。 1 3 研究背景和意义 随着信息资源的爆炸性增长,很多领域的存储需求达到了p b 级,对存储系统 提出了更高的要求。近年来,集群技术在高性能计算领域的应用越来越普及,集 群文件系统自然成为大规模数据存储管理的主要方式。为高效地管理数据,文件 系统自动生成元数据来实现文件从用户的逻辑结构到存储设备上的物理结构的映 射。文件系统的元数据主要包括目录属性和文件属性,其中,目录属性包括目录 的名称、访问控制权限、目录下的文件及子目录信息等,文件属性包括文件名、 文件长度、创建时间、修改时间、最近访问时间、文件的用户、访问控制属性、 文件的物理地址信息等。 虽然管理数据的元数据的量相对于整个存储系统的数据容量而言比较小,往 往不到1 0 ,但是有统计表明,在对文件系统的所有访问中,对元数据的访问大 约占全部访问次数的5 0 到8 0 【习;因而,文件系统的性能主要受限于元数据的 i 0 性能,尤其针对数据i 0 密集型的应用。高效的元数据管理对实现集群文件系 统的高性能、高可扩展性和高可用性至关重要。另外,元数据管理比数据管理更 加复杂,不像数据可以很容易地通过增加设备来扩展容量,元数据具有高度的依 赖性使得其扩展很具挑战性。对于p b 级文件系统,拥有t b 级的元数据,单台元 数据服务器难以胜任,很容易成为瓶颈;从而,使用元数据服务器集群来实现p b 级文件系统的高效元数据管理,这也使其管理变得相当复杂。因此,研究p b 级文 件系统的元数据管理具有重要的研究价值和现实意义。 1 4 研究内容及目标 为满足l i n u x 集群计算对存储方面的需求,要求p b 级文件系统具有高效的i o 性能,不仅要有高吞吐率,还要有低延迟;还要求无论是在存储容量还是在存取 性能方面,都要具有良好的可扩展性。因此,研究p b 级文件系统元数据管理的关 键技术对实现面向大规模集群计算的具有高i o 性能、可扩展和自适应特点的海量 第9 页 国防科学技术大学研究生院工学硕士学位论文 集群存储系统具有非常重要的理论和应用价值。这止是奉义的研究内容,主要包 括: 多m d s 存储构架:通过实现数据i o 与元数据i o 分离,并支持分布式元 数据管理,可以提高元数据的i o 性能,提供良好的可扩展元数据服务。 元数据划分策略:基于目录粒度的动态自适应地分配元数据到m d s 集群 上,可以有效地平衡元数据访问负载,消除访问瓶颈,提高m d s 集群的 可扩展性。 元数据查询策略:根据元数据在c a c h e 和磁盘上的双层存储,设计了两层 布隆过滤器数组来快速定位和查询文件元数据,提高了文件系统的i o 性 能和可扩展性。 元数据预取策略:针对元数据的特点,通过文件访问语义和访问的历史记 录建立文件之间的相关度模型,基于文件相关度设计积极泛洪的元数据预 取策略。 p b 级文件系统中的一个潜在的系统性能瓶颈是元数据的访问。在大规模的存 储系统中,尽管元数据的数据量相对于整个存储系统的数据容量而言比较小,但 是对元数据的访问量占文件系统全部访问量的一半以上。所以,研究高效的元数 据管理方法对整个存储系统的i o 性能、可扩展性和自适应性至关重要。本文的研 究目标是研究高效、可扩展、灵活的元数据管理方法,包括: 高效的m d s 集群负载均衡策略:基于目录粒度划分文件元数据,动态地 均衡元数据访问负载,避免元数据访问瓶颈,同时保持一定的元数据局部 性,有利于提高元数据的访问性能。 高效的元数据查询策略:基于布隆过滤器的元数据查询机制可以快速地定 位文件元数据,并节省内存空问,从而有效地提高元数据操作的效率。 高效的元数据i o 性能:通过有效的元数据预取策略来提高的c a c h e 命中 率和利用率,从而提高数据的i o 性能;通过m d s 集群的并行元数据i o 来支持高吞吐率,为降低访问延迟。 良好的可扩展性:元数据服务器集群可以动态添加更多的服务器和存储设 备,服务于更多的客户端文件访问。保证系统的性能和容量随着系统的规 模的增长而不断增长,同时不会带来系统管理复杂度的过度增加。 管理的灵活性:元数据管理算法能够有效支持文件和目录的重命名,文件 或目录权限修改不会引起大量的元数据迁移,当元数据服务器的增删和替 换时,自动迁移元数据。 第1 0 页 国防科学技术大学研究牛院工学硕+ 学位论文 1 5 论文结构 本论文共分七章。 第一章为绪论。介绍高性能计算的存储需求和典型的集群文件系统,阐述了 在现有网络存储结构和p b 级文件系统研究背景下,开展本课题研究工作的意义, 以及本文的研究内容和研究目标。 第二章介绍基于对象的存储技术。首先介绍存储结构的发展历程,并阐述基 于对象的存储原理;然后介绍当前对象存储文件系统的研究现状;最后对目前最 流行的基于对象的文件系统l u s t r e 和传统的并行文件系统p v f s 的性能做测试并 对比分析。 第三章描述元数据分布管理的p b 级文件系统。首先介绍p b 级文件系统多 m d s 的存储架构突破,接着分析p b 级文件系统各组成部分的功能和软件模块实 现,最后介绍p b 级文件系统元数据管理的困难与挑战。 第四章描述动态目录元数据管理方法。首先,分析典型的元数据管理方法; 然后,对动态目录划分方法的元数据划分策略和动态负载均衡策略做阐述;最后, 通过测试分析比较各种元数据管理方法,分析该方法的性能优劣。 第五章介绍元数据查询策略。通过分析各种元数据查询策略,选出适合动态 目录划分策略的基于布隆过滤器的元数据查询策略,并对该策略做算法复杂度分 析,比较该策略与其他元数据查询策略的时间复杂度和空间复杂度。 第六章介绍元数据预取策略。首先,分析几种经典的预取策略,选择适应于 元数据的预取策略;然后,基于文件关联度模型,设计出应用于p b 级文件系统环 境下的元数据预取策略;最后,对该元数据预取策略作性能比较分析。 第七章结束语。对本文的工作进行总结,并展望下一步工作。 第1 1 页 国防科学技术大学研究生院t 学硕士学位论文 第二章基于对象的存储技术 基于集群体系结构的高性能计算对数据存储系统性能的需求愈来愈迫切,使 得人们开始探索研究新的存储体系结构。过去的十几年中,存储体系结构已经发 生了根本的改变,传统的集中式存储体系结构逐渐为分布式存储系统所取代,出 现了d a s 存储结构向n a s 和s a n 这样的网络存储结构的一个演变过程1 4 j 。对象 存储系统是在n a s 和s a n 的基础上发展起来的,结合了二者的设计优点,在i o 性能、可扩展性和可用性方面有结构优势,是未来存储领域一个重要发展方向。 本章首先介绍存储结构的发展历程,并阐述基于对象的存储原理;然后介绍 当前对象存储文件系统的研究现状;最后对目前最流行的基于对象的文件系统 l u s t r e 和并行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论