




已阅读5页,还剩119页未读, 继续免费阅读
(计算机系统结构专业论文)大规模机群文件系统的关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 机群结构已成为高性能计算机的主流结构。随着c p u 处理能力和通信速度的迅速 提高,i o 成为制约机群应用实际性能的瓶颈。机群文件系统作为解决机群i o 瓶颈的 核心技术,其研究具有重要的意义。 机群文件系统的发展趋势为:第一,元数据处理与文件i o 分离:第二,利用大规 模网络存储系统来提供多条数据i o 通路;第三,利用一组元数据服务器束提供多条元 数据i d 通路。 针对这种结构的机群文件系统,我们研究了其中的几个关键问题,包括元数据的分 布问题,元数据的一致性和快速故障恢复问题,以及p b 级机群文件系统的相关问题。 本文的主要贡献在于: ( 1 ) 提出一种高效的大存储空间的管理策略b i t m a p e x t e n t 混合策略。针对p b 级机群文件系统,打破了传统文件系统基于一个块设备的限制,提出将机群文件系统与 物理存储分离的一种逻辑空间策略,从而解决了文件系统容量受限问题和存储扩展问题 等;而且针对p b 级存储空间管理,提出一种基于位图与e x t e n t 链表相结合的大规模存 储空间管理机制,以提高存储空间的管理效率。 ( 2 ) 提出一种基于粒度的动态元数据分布策略。元数据分布问题是决定非集中式 元数据处理性能的关键问题。我们提出的基于粒度的动态元数据分布策略以提高元数据 处理整体性能为目标,综合考虑元数据分布均衡度和文件系统层次结构关系两个因素对 元数据处理整体性能的影响,按照一定粒度来划分名字空间和分布元数据,实验结果表 明在模拟真实环境的负载下它的性能高于动态随机分布策略和动态根子树分布策略。 ( 3 ) 提出一种基于简化的两阶段提交协议的,故障后可快速恢复元数据一致性的 分布式元数据处理协议。元数据一致性问题是影响分布式元数据管理的可靠性和高可用 性的关键问题。为了解决元数据服务器之间的元数据一致性问题,我们将两阶段提交协 议与元数据的处理协议结合起来,提出一种基于简化的两阶段提交协议的分布式元数据 处理协议,在元数据服务器失效或客户节点失效时,能够快速恢复文件系统的元数据一 致性,保证文件系统的可用性。 ( 4 ) 设计和实现了面向多用户多任务环境的、支持大规模机群系统的、面向海量 数据存储的机群文件系统d c f s 2 。在机群文件系统性能评价方面,提出从峰值性能、稳 定性能,系统规模扩展性、元数据服务器扩展性、存储设备扩展性和存储i o 带宽利用 率六个性能评价指标并用这六个指标对d c f s 2 的性能进行全面评价我们的结果表 明,d c f s 2 能够获得比g f s 等文件系统更高的聚合i o 带宽和聚合元数据处理性能。 第六奇堆十简化的i 哟阶段提交的分布,c 数据处理协议( s 2 p c m p ) 操作需要询问对方才知道该如何恢复( 详见6 6 2 ) 。通过记录该分布式操作的协调者和 参与者各自的标识符( c 0 0 i i n a t o ri d 和p a r t i c i p a n ti d ) 可以达到此此目的。 第五,根掘r 志记录要能够从另一方的日志文件中找出与该操作对应的日志记录。 原因同上。通过该分布式操作在协调者上的序列号( o ps e q n o ) 及协调者的标识符 ( c o o r d i n a r o ri d ) 可以解决此问题。 第六,根掘同志记录要能够区分普通操作和分布式操作( i sd i s t r i b u t e d o p 标 志) 。因为还有很多普通操作,普通操作的恢复处理和日志记录清除都不同于分布式操 作。 对于分布式操作,有两类日志记录:记录操作结果的日志记录( 在图6 2 中隐含在 完成子操作后记录该日志) 和记录两阶段提交状态的日志记录( 在图6 2 中都直接表示 出来的) 。实际上,这两类日志记录可以适当结合,这样,s 2 p c - m p 的日志文件中只含 有4 种类型的日志记录:操作结果日志记录、“c o m m i t ”日志记录、“a b o r t ”日志记录 和“e n d ”日志记录。具体说明如下: 操作结果日志记录是一个分布式操作日志记录的开始,该记录要设置 o p s t a r t 标志,而且,该记录要设置上述的o pt y p e 、m d sr o l e 、 c o o r d i n a t o r i d 、p a r t i c i p a n t _ i d 、o p _ s e q n o 、i sd i s t r i b u t e d o p 当然,该记录还包括操作的结果 对于协调者,其“c o m m i t ”日志记录或“a b o r t ”日志记录是一个分布式操作 的结束,该记录要设置o pe n d 标志。而对于参与者,其“c o m m i t ”日志记 录或“a b o r t ”日志记录却不是一个分布式操作的结束。 对于参与者,其“e n d ”日志记录才是一个分布式操作的结束,该记录要设置 o pe n d 标志。 因此,在无m d s 失效发生的情况下,一个分布式操作在协调者方的日志文件中按 照顺序有如下两个记录:( 1 ) s u b - o p l 的操作结果记录,( 2 ) “c o m m i t ”记录或者“a b o r t ” 记录参与者方的日志文件中按照顺序有如下三个记录:( 1 ) s u b - o p 2 的操作结果记录, ( 2 ) “c o m m i t ”记录或者“a b o r t ”记录,( 3 ) “e n d ”记录。 6 5 消息等待机制 m d s 是一个服务进程,它需要服务来自众多客户端的大量元数据请求,还有一部 分来自其它m d s 的分布式元数据请求。在实现上,m d s 不断地从网络上接收请求,然 后进行处理,处理完后又从网络上接收下一个请求,如此循环往复。这就要求每一个请 求的处理都要在有限时间内完成如果在处理一个请求过程中需要与另一个m d s 交互, 并等待它的处理结果,该怎么办呢? 对于这种情况,两阶段提交协议采用超时机制来处理所等待的消息不能到来的情 形,使得处理在有限时间里完成。这种超时机制,使得在该m d s 在发出请求之后,在 大规模机群文件系统的关键技术研究:摘安 关键词:机群文件系统,非集中式元数据处理,元数据分布,元数据一致性,文件系统 扩展性 i i r e s e a r c ho nk e yi s s u e si nl a r g e s c a l ec l u s t e rf i l es y s t e m s x i o n gj i n ( c o m p u t e ra r c h i t e c t u r e ) d i r e c t e db yp r o f e s s o rl ig u o j i e t h ec l u s t e ra r c h i t e c t u r eh a sb e e nm a t u r e da st h em a i n s t r e a ma r c h i t e c u t u r ef o r h i g h - p e r f o r m a n c ec o m p u t e r s t h er e q u i r e m e n t so f h i g h e n dc o m p u t i n ga p p l i c a t i o n sc h a l l e n g e c u r r e n ti os y s t e mo f c l u s t e r s w i t ht h er a p i d i m p r o v e m e n t so f p r o c e s s i n gp o w e ro f c p u sa n d p e r f o r m a n c eo fi n t e r c o n n e c t i o nn e t w o r k s ,t h ei os y s t e mo fc l u s t e r sb e c o m e st h eb o t t l e n e c k t h a tl i m i t st h ea c t u a lp e r f o r m a n c eo fc l u s t e r e da p p l i c a t i o n s a sak e y t e c h n o l o g yf o rs o l v i n g t h ei op r o b l e mo f c l u s t e r s ,c l u s t e rf i l es y s t e mi sa v e r yi m p o r t a n tr e s e a r c hd i r e c t i o n t h ec l u s t e rf i l es y s t e m sf o rl a r g e s c a l ec l u s t e r ss h o u l dh a v em u l t i p l ed a t ap a t h sa n d m u l t i p l em e t a d a t ap a t h si na r c h i t e c t u r e m e t a d a t at r a n s a c t i o n sa r ed e c o u p l e df r o mf i l er e a d a n dw r i t eo p e r a t i o n s l a r g e s c a l en e t w o r k s t o r a g e sa r eu s e dt op r o v i d em u l t i p l ef i l ed a t ap a t h s a g r o u po f m e t a d a t as e r v e r sa r eu s e dt op r o v i d em u l t i p l em e t a d a t ap a t h s w es t u d yaf e wk e yi s s u e sf o rc l u s t e rf i l e s y s t e m so fs u c ha r c h i t e c t u r e ,i n c l u d i n g m e t a d a md i s t r i b u t i o ni s s u e ,m e t a d a t ac o n s i s t e n c ya n df a s t r e c o v e r yi s s u e ,a n di s s u e s i n r e g a r d st op b - s c a l ec l u s t e rf i l es y s t e m t h em a i nc o n t r i b u t i o n so f o u rw o r ki nt h i sd i s s e r t a t i o n i n c l u d e : ( 1 ) p r e s e n t i n ga l le f f i c i e n ts t o r a g es p a c em a n a g e m e n tp o l i c yf o rp b - s c a l es t o r a g es p a c e ab i t m a p e x t e n th y b r i dp o l i c y u n l i k et r a d i t i o n a lf i l es y s t e m sb a s e do n ab l o c kd e v i c e w ep r e s e n ta l o g i c a ls t o r a g es p a c eo r g a n i z a t i o np o l i c yt h a td e c o u p l i n gp h y s i c a ls t o r a g es p a c e m a n a g e m e n tf r o mf i l es y s t e mi m p l e m e n t a t i o n t h i sp o l i c ye n a b l e s 矗l es y s t e mt oe x p a n di t s v o l u m ea n ds t o r a g ed e v i c e s m o r e o v e r , w ep r e s e n ta h y b r i ds t o r a g es p a c em a n a g e m e n tp o l i c y t h a tt a k e sb o t ha d v a n t a g e so fb i t m a pp o l i c ya n de x t e n tl i s tp o l i c y t h i sp o l i c ys u b s t a n t i a l l y i m p r o v e st h ee f f i c i e n c yo f s t o r a g es p a c em a n a g e m e n t ( 2 ) p r e s e n t i n gad y n a m i cm e t a d a t ad i s t r i b u t i o np o l i c yc a l l e dd y n a m i cd i r - g r a i np o l i c y ( d d g ) m e t a d a t ad i s t r i b u t i o nd e t e r m i n e sm e t a d a t ap r o c e s s i n gp e r f o r m a n c eo fd e c e n t r a l i z e d m e t a d a t am a n a g e m e n tw i t ha g r o u po fm e t a d a t as e r v e r s t h ed d gp o l i c yi st a r g e t e da t i m p r o v et h eh o l i s t i cm e t a d a t ap r o c e s s i n gp e r f o r m a n c e ,a n dt a k e sb o t hb a l a n c ed e g r e eo f m e t a d a t aa n df i l es y s t e mh i e r a r c h yi n t oc o n s i d e r a t i o n t h ed d g p o l i c yd i s t r i b u t e sm e t a d a t a a c c o r d i n gt od i s t r i b u t i o ng r a n u l a r i t yw h i c hi sad i r e c t o r yh i e r a r c h yd e f i n e db yat r i p l e o u r p e r f o r m a n c et e s tr e s u l t ss h o wt h a tt h i sp o l i c yi sp o t e n t i a l l ym o r ee f f i c i e n tt h a nt h eo t h e rt w o t y p e so f p o l i c i e su n d e r t h ew o r k l o a dt h a ts i m u l a t e sr e a le n v i r o n m e n t s ( 3 ) p r e s e n t i n gad i s t r i b u t e dm e t a d a t ap r o c e s s i n gp o l i c yt h a tb a s e do n as i m p l i f i e d i i i 太规模机肼丈件系统的关键技术研究:a b s t r a c t t w o - p h a s ec o m m i tp r o t o c o l ,a n dm e t a d a t ac o n s i s t e n c yc a nb eq u i c k l yr e c o v e r e di nt h ee v e n t o fm e t a d a t as e r v e rf a i l u r e s m e t a d a t ac o n s i s t e n e yd e t e r m i n e st h e r e l i a b i l i t y a n d h i g h a v a i l a b i l i t yo fd e c e n t r a l i z e dm e t a d a t am a n a g e m e n t t ok e e pm e t a d a t ac o n s i s t e n c ya m o n g m e t a d a t as e r v e r s ,w ea p p l yt h et w o p h a s ec o m m i tp r o t o c o li nm e m d a mp r o c e s s i n gp r o t o c o l , a n dp r e s e n tad i s t r i b u t e dm e t a d a t ap r o c e s s i n ga n dr e c o v e r yp r o t o c o lt h a tc a nf a s tr e c o v e r m e t a d a t ac o n s i s t e n c y ( 4 ) d e s i g n ,i m p l e m e n t a t i o na n de v a l u a t i o nac l u s t e rf i l es y s t e m d c f s 2 ,w h i c hi s d e s i g n e df o rl a r g e - s c a l ec l u s t e r sa n dp b s c a l ed a t a w ep r e s e n ts i xp e r f o r m a n c em e t r i c st o e v a l u a t et h ep e r f o r m a n c eo fc l u s t e rf i l es y s t e m s t h e ya r et h ep e a kp e r f o r m a n c e ,s t a b l e p e r f o r m a n c e ,s y s t e ms c a l a b i l i t y , s c a l a b i l i t yo f m e t a d a t as e r v e r s ,s c a l a b i l i t yo f s t o r a g ed e v i c e s , a n dt h eu t i l i z a t i o no fs t o r a g ei 0b a n d w i d t h w eu s e dt h e s em e t r i c st oe v a l u a t et h e p e r f o r m a n c eo fd c f s 2 o u rp e r f o r m a n c er e s u l t s s h o wt h a td c f s 2c a np r o v i d eh i g h e r a g g r e g a t ei ob a n d w i d t ha n da g g r e g a t em e t a d a t ap e r f o r m a n c et h a ng f s e r e k e y w o r d s :c l u s t e rf i l es y s t e m ,d e c e n t r a l i z e dm e t a d a t ap r o c e s s i n g ,m e t a d a t ad i s t r i b u t i o n , m e t a d a t ac o n s i s t e n c y , f i l es y s t e ms c a l a b i l i t y i v ; 1 j ,一 声明 我声明本论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不 包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的任何贡献均已在论文中作了明确的说明并表示了谓 意。 作者签名:真;、勐 日期:2 v 。;7 论文版权使用授权书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机 构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书。) 第一章引言 机群已成为当今高性能计算机的主流结构。机群结构的高性能计算机广泛应用于各 种尖端研究和国民经济的命脉行业中,包括石油开采、天气和气象、航空航天、卫星、 基因计算、武器研制、核能研究、医药、海量数据处理和信息服务等。许多应用对机群 的共享存储容量和i 0 性能都提出了极高的需求。随着c p u 处理速度、内存容量和互连 通信网络带宽的迅速提高,i o 系统成为制约机群应用实际性能的瓶颈。机群文件系统 作为化解机群i o 瓶颈的核心技术,受到学术界和产业界的广泛重视。本论文研究大规 模机群文件系统的关键技术。 1 1 研究动机 当今的尖端科学计算应用,信息处理应用和信息服务应用都对机群i 0 系统提出了 很高的需求,包括需要高效支持几千个节点的大规模系统,需要高效支持p b 级的大文 件系统,需要有几十g b s 的聚合i 0 带宽和几十万个操作,秒的元数据处理速度,还需 要高可靠性和高可用性。 目前,已有的文件系统还不能满足这样高的需求。n f s o a l l a 9 9 5 虽然是机群系统广 泛使用的文件系统,但由于它基于单一服务器,其i 0 性能和系统规模都远远达不到上 述需求。在学术界颇有影响的a f s i n o w a r 8 8 a 】 h o w a r 8 8 b 】,其性能也存在很大问题。实 际上,n f s 和a f s 本来是针对分布式环境的文件共享开发的,并不是针对机群应用的 i o 开发的b e r k e l e y 为n o w ( n e t w o r ko fw o r k s t a t i o n ) 开发的全局文件系统 x f s a n d e r s 9 5 虽然采用无服务器结构( 所有节点是对等的,既是客户端又是服务器) , 不需要集中式的文件服务器,但是由于它基于l f s r o s e n b 9 2 1 ,而且采用协作式客户端 缓存,缓存一致性协议非常复杂,只停留在研究阶段。m i n n e s o t a 大学研制的 g f s s o l t i s 9 6 p r e s l a 9 9 是基于共享s a n 存储的文件系统,它采用无服务器结构,任何 节点可直接访问共享存储中的数据和元数据。但是由于元数据修改通常需要互斥,它仍 然需要唯一的锁服务器。而且它在系统规模、i o 性能和元数据处理性能方面都达不到 上述需求。s g i 公司的c x f s s h e p a r 0 4 采用单一元数据服务器结构,对于元数据密集型 应用( 例如创建,删除大量小文件或大量的路径名解析等) ,其性能很低。i b m 公司的 g p f s s e h m u c 0 2 l o e w e 0 2 是基于共享v s d a t t a n a 9 4 或共享s a n 存储的并行文件系 统,有很高的并行i o 性能,可靠性和可用性方面也不错,但是其元数据处理速度满足 。对聚合i o 带宽的说明参见2 2 1 中国科学院博士学位论文夫规模机群文件系统的关键技术研究 不了上述需求c l e m s o n 大学研制的p v f s c a r n s 0 0 是基于多个存储服务器、单个元数 据服务器的并行文件系统,其并行i 0 性能也不错,但是其元数据处理性能却很差 x i o n 9 0 3 1 ,而且在可靠性和可用性方面也不能满足应用需求。正在研制中的 p v f s 2 p v f s 2 ,与p v f s 相比,其改进包括采用多元数据服务器,利用数掘库来存储 元数据,支持数据和元数据容余,以及进一步加强对并行i o 的支持等,但p v f s 2 还在 处于研制阶段。p a n a s a s 公司的p a n f s n a g l e 0 4 是基于共享对象存储的机群文件系统,i 采用刀片集群来处理元数据,其i o 性能和元数掘处理性能都不错,但需要专门硬件。 c l u s t e rf i l es y s t e m s 公司的l u s t r e b r a a m 0 3 l u s t r e 0 2 也是基于共享对象存储的机群文件 系统,目前采用单元数据服务器元数据处理性能不能满足上述需求他们正在研制采 用元数据服务器集群的l u s t r e ,将在未来版本中推出。 现在正在研制中的文件系统并没有解决好几个重要问题。( 1 ) 元数据处理闷题。早 先的机群文件系统都忽略了元数据处理性能问题,正在研制中的文件系统如l u s t r e 、 p v f s 2 、p a n f s 、s t o r a g e t a n k 等已开始认识到当今应用对元数据处理性能的需求同样很 高,纷纷采用非集中式元数据处理,利用多元数据服务器或元数据服务器集群来存储和 处理元数据。但是,采用非集中式元数据处理后,元数据应该如何分布、访问负载如何 分布以及如何维护多个元数据服务器之间的数据一致性等问题,目前还没有得到深入研 究,从而导致元数据服务器的利用率并不高。( 2 ) p b 级文件系统问题。近年来应用对 存储的需求量急剧增长,从而出现对p b 级文件系统的需求。传统文件系统的数据结构 和实现技术都是针对g b 级文件系统的,当用于p b 级文件系统时,其性能将大幅降低。 而相当一部分机群文件系统还在沿用传统文件系统的实现方式,不能高效地支持p b 级 的大文件系统。( 3 ) 可靠性可用性问题。对于大规模的机群文件系统,数据分布存储于 多个存储设备中,从而能够利用对多个存储设备的并行数据访问大大提高文件访问的带 宽,但却使得数据的可靠性和可用性成为一个非常困难的问题而且,当元数据也分布 存储后,元数据的一致性成为一个难题。更令人头痛的是,可靠性与性能常常是有冲突 的,提高可靠性常常就得损失性能。 另一方面,近年来网络存储系统发展迅速。特别是i p s a n s a r k a r 0 3 】已经充分显示 出其在数据共享、资源利用、存储管理、降低成本等方面的优势,而且i p - s a n 还具有 很好的扩展性和灵活性,适合用于大规模的机群系统,为应用提供海量的、高性能的、 可扩展的共享存储资源。j 因此,面向大规模系统的高性能机群文件系统应该基于i p 网络存储,而且所有机 群节点都能够直接访问i p 网络存储中的数据,这样才能保障足够高的i o 带宽。本文以 这样的机群文件系统为研究对象,重点研究它在元数据分布、元数据一致性和p b 级文 件系统支持方面的关键技术。 2 第一帮引占 1 ,2 本文贡献 对于机群文件系统来说,最关键的问题是提高i o 性能和元数掘处理性能,同时保 证文件系统的可靠性和可用性。虽然机群文件系统采用元数据与数掘分开存储、分开管 理的策略。但i o 性能与元数据处理性能仍然是有联系的,因为在文件读写操作中都隐 含着对元数掘的访问,因此,元数据处理性能对i o 性能是有影响的。本研究关注的第 一个问题是采用多元数据服务器后,如何充分发挥多个元数据服务器的处理能力,即元 数据的分布问题。 元数据的一致性决定着机群文件系统的可靠性和可用性。为获得高的元数据处理性 能,我们采用了分布式元数据处理,于是引入了多个元数据服务器之间的元数据一致性 问题。因此,本研究关注的第二个问题是如何保证分布式元数据处理下的元数据一致性。 由于应用对存储的迫切需求,大规模机群需要为用户提供p b 级的共享存储资源。 本研究关注的第三个问题是如何高效地支持p b 级大文件系统。 除了对上述关键问题进行深入研究以外,本研究关注的第四个问题是如何实现和评 价一个面向大规模机群的机群文件系统。 总结起来,本文在上述四个方面的贡献分别为: 第一,提出了一种高效的大规模存储空间管理策各一b i t m a p - e x t e n t 混合策略。逻 辑空间组织策略将整个逻辑空间由所有物理存储设备的空间构成,并由专门的存储空间 管理器来统一管理。机群文件系统不是基于一个块设备之上,而是直接基于所有的物理 设备之上。这种逻辑空间组织策略打破了传统文件系统基于一个块设备的限制,从而解 决了由此带文件系统的容量受限问题、存储资源利用问题及存储扩展问题等。 b i t m a p - e x t e n t 混合策略充分利用机群系统的处理优势,使得传统文件系统中不可兼得的 两种存储空问管理策略能够融合在一起,扬长避短,大大提高存储空间的管理效率 第二,提出了基于粒度的动态元数据分布策略。我们以提高元数据处理整体性能为 目标,分析了影响元数据处理总体性能的两大主要因素,即分布均衡度和分支点数量。 在此基础上,我们提出一种综合考虑这两种因素元数据分布策略,即基于粒度的动态元 数据分布策略,给出了分布粒度的定义方法和分布算法。从元数据分布均衡度、分支点 数量、元数据请求数量、元数据请求分布均衡度和元数据处理总体性能五个方面,对基 于粒度的动态元数据分布策略、动态随机分布策略和动态根子树分布策略三种不同策略 的性能进行了分析和评价。我们的实验结果表明基于粒度的动态元数据分布策略在多数 情况下总体性能优于其它两种分布策略。我们进一步对分布粒度中三个参数对性能的影 响进行了分析。并给出一种推荐使用的分布粒度 第三,提出了一种基于简化的两阶段提交协议的、故障后可快速恢复的分布式元数 据一致性策略。我们分析了文件系统一致性问题,总结了单机文件系统和分布式文件系 统中元数据一致性方面的技术。针对分布式元数据处理,我们提出一种基于基于简化的 两阶段提交协议的分布式元数据处理协议,它将两阶段提交协议与元数据的处理协议结 3 中国科学院博j :学位论文人规模机群文件系统的关键技术研究 合起来,能够保证元数据处理的原子性并且在元数据服务器失效或客户节点失效时 能够快速恢复文件系统的元数据一致性,保证文件系统的可用性性能分析结果表明, 记录日志对读写性能几乎没有影响,对文件的创建和删除性能有较小的影响,性能损失 在1 0 左右。 第四,设计并实现了面向多用户多任务环境的、支持大规模机群系统的、面向海量 数据存储的机群文件系统d c f s 2 。在机群文件系统性能评价方面,提出从峰值性能、稳 定性能、系统规模扩展性、元数据服务器扩展性、存储设备扩展性和存储i o 带宽利用 率六个性能评价指标。并用这六个指标对d c f s 2 的性能进行全面评价。我们在曙光 4 0 0 0 a 上的测试结果表明:第一。d c f s 2 能够提供很高的峰值聚合i o 带宽当使用8 个s u p e r n b d 存储设备时,峰值聚合读带宽可达7 0 0 m b s ,峰值聚合写带宽可达 8 0 0 m b s 。第二,d c f s 2 表现出良好系统规模的扩展性和存储扩展性,s u p e r n b d 存储 设备的i o 带宽利用率在8 5 以上。第三,d c f s 2 能够提供很高的元数据处理性能。当 使用8 个m d s 时,峰值聚合创建率可达1 9 万个秒,稳定聚合创建率可达l 万个秒。 而且,与相关文件系统在相同平台、相同配置下的性能测试结果表明,d c f s 2 除大文件 读带宽低于l u s t r e i 0 4 外,小文件读写带宽、大文件写带宽都高于g f s 6 0 和l u s t r e l 0 4 , 其文件创建和删除吞吐率都高于g f s 6 0 ,并且b l a s t 程序的运行效率也体现出d c f s 2 的性能优势。 1 3 本文组织 本文后续章节组织如下: 第二章详细介绍本文工作的研究背景,包括分析本研究的意义,分析机群应用对i o 系统的需求,分析面向大规模系统和海量数据共享的存储系统的结构,分析面向大规模 系统的高性能机群文件系统的结构,并总结在这种结构下机群文件系统的关键研究问 题。 第三章介绍面向大规模机群的高性能机群文件系统的三个关键问题p b 级机群 文件系统、元数据分布策略和元数据一致性的相关研究。 第四章介绍我们提出的一种物理存储资源组织策略一逻辑空间策略t 它将物理存 、 储资源的管理从文件系统实现中分离出来,而且机群文件系统直接基于多个物理存储设 备最后介绍我们提出的一种p b 级存储空间的管理策略b i t m a p - e x t e n t 混合策略, , 包括该策略下存储空间的组织方式、空间分配和回收策略等。 第五章介绍了我们提出的以元数据处理整体性能为目标一种元数据分布策略,即基 于粒度的动态元数据分布策略为评价元数据分布策略的性能,我们提出了从元数据分 布均衡度、分支点数量、元数据请求数量、元数据请求分布均衡度和元数据处理总体性 能五个方面来评价其性能,并在两种不同测试负载下,对基于粒度的动态元数据分布策 略、动态随机分布策略和动态根子树分布策略三种不同策略进行性能评价。 4 第一帝弓i 鲁 第六章介绍了我们提出的基于简化的两阶段提交的分布式元数据处理协议,详细讨 论了在正常情况下的元数据处理协议、分布式元数据操作的日志记录、消息待机制、故 障恢复协议和日志记录清除等方面的问题。最后,我们分析了记录同志对机群文件系统 的i o 性能和元数据处理性能的影响,以及同志文件长度和日志文件中分布式操作个数 对恢复时间的影响。 第七章介绍了机群文件系统d c f s 2 在实现中的几个关键技术,包括它要解决的主 要问题,总体结构、元数据管理和支持大文件系统的相关技术详细介绍了d c f s 2 同 它的前身d c f s 在实现技术上的差别。最后,详细介绍了性能评价的方法,d c f s 2 的性 能评价结果,以及它与g f s 6 0 和l u s t r e i 0 4 的性能对比结果。 第八章对本文介绍的工作进行总结,并提出对机群文件系统未来研究方向的看法。 , 第二章研究背景 2 1 研究机群文件系统的重要意义 近年来,越来越多的高性能计算机采用机群体系结构。从2 0 0 4 年6 月起,超级计 算机t o p 5 0 0 排名采用机群结构的超过5 0 t o p 5 0 0 1 。而且在最近一次( 2 0 0 5 年1 1 月) 的t o p 5 0 0 排名中,有3 6 0 台采用机群结构,占7 2 0 t o p 5 0 0 。这说明机群体系结构 已成为高性能计算机的主流结构。 机群上的应用,无论串行应用还是并行应用,以及机群的管理和使用,都迫切需要 一个全局共享的文件系统,它提供单一文件系统映像。这样,应用程序无论运行在哪个 节点上,都能够共享同一全局名字空间,并可通过统一的访问接口访问该名字空间中的 文件。我们称机群上的全局共享文件系统为机群文件系统。 机群文件系统的数据通常存储在远端,而非计算节点的本地磁盘。因此,机群文件 系统本质上是一种分布式文件系统。普通的分布式文件系统是面向松散的分布式环境, 而机群文件系统则是面向紧密耦合的机群系统。虽然分布式环境与机群系统都是将一些 独立的计算机通过网络互连起来的,但二者有很大的区别,我们将它们的区别总结于表 2 1 中。 表2 1 分布式环境与机群系统的特征对比 7 中团科学院博1 学位论文人规模机群文件系统的关键技术研究 分布式文件系统主要是为分布式环境下的各个节点共享文件提供支持,通常利用普 通以太网来传输文件i o ,对i o 性能要求不高,也不关注并发访问和共享访问的性能。 般来讲,普通的分布式文件系统不能够充分利用机群系统的特点,也不能够满足机群 应用的需求。 2 1 1 机群应用i ,o 系统的需求 机群结构的高性能计算机广泛用于尖端科学计算。随着机群的处理能力越来越强, 它为应用提供越来越广阔的使用空间许多新型的应用,如金融计算、生物计算、w e b 服务、邮件服务、数据库等,也纷纷使用机群。同时,传统的机群应用又进一步去挑战 更大的问题规模。 当今的尖端科学计算应用,对机群的计算能力和存储容量都有极高的需求。例如, 以研究核爆炸模拟著名的美国l l n l 实验室,需要计算能力为1 0 0 t f 2 0 0 t f 的超级计 算机 b o a s 0 3 。为达到应用所要求的计算能力,超级计算机往往采用大量的处理器。如 表2 2 所示,近年来著名的超级计算机其节点数量已突破1 0 0 0 ,c p u 数量已突破1 0 0 0 0 , 磁盘存储容量已突破1 0 0 t b 。 表2 2 著名超级计算机的规模和存储容量 表2 3 是k r a m e r 等人对几种尖端科学计算应用对存储需求的调查结果,发表在2 0 0 4 年3 月的i b mj o u r n a lo f r e s e a r c ha n dd e v e l o p m e n t ,v 0 1 4 8 ,n o 2 【k r a m e r 0 4 。 o 按2 0 0 5 年1 1 月t o p 5 0 0 的排名 第二帝研究背景 表2 3 尖端科学计算应用对存储的需求( 来源于【k r a m e r 0 4 】) 恶: n e a rt e 册 r v e 归a r s m 。弓黧价。 c l i m a t e c u r r e n t l yt h e r ea r e s i m u l a t i o n sw i l im o r ed e t a i l e da n d s e v e r a ld a t a p r o d u c ea b o u t1t bo f d i v e r s es i m u l a t i o n s r e p o s i t o r i e s ,e a c ho f d a t ap e rs i m u l a t e dt h e r ew i l ib es e v e r a i t h eo r d e ro f 2 0t o4 0 y e a r t h e r ew i l ib e d a t ar e p o s i t o r i e so f t b 5 e v e f a ld a t at h eo r d e ro f1 0p b r e p o s i t o r i e s ,e a c h e a c h f r o m l t o5p b h i g h - e n e r g y b e t w e e n0 5a n d1 2 p h y s i c s p bp e re x p e r i m e n tp e r y e a rw i t hf i v et ot e n e x p e r i m e n t s n e e d n e t w o r kr a t e so fl g b s ip bo r m o r e p e r e x p e r i m e n tp e ry e a r w i t h f i v e t o t e n e x p e r i m e n t s n e e d n e t w o r kr a t e so f1 0 0 0 g b s e x a b y t e s ( 1 ,0 0 0p a ) o f d a t aw i t h w i d e - a r e a n e t w o r k i n gm o r e t h a n1 0 0 0g b s m a g n e t i cf u s i o n 0 5t 01t bp e ry e a r 1 0 0t bo f d a t aw i t hh u n d r e d so f t b w i t hn e t w o r k i n g ( f o r n e t w o r kr a t e sa t2 0 0 r e a l - t i m es t e e r i n ga n dm b sp e re x p e r i m e n t a l a n a l y s i s ) o f 3 3m b s s i t e p e re x p e r i m e n t a ls i t e ( t h r e es i t e sp l a n n e d ) c h e m i s t r y s i m u l a t i o n sp r o d u c e e a c h3 ds i m u l a t i o n l a r g e s c a l e l m - 3 0 t bd a t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 升学指导及咨询方案
- 营养素失衡与环境污染的前沿探索-第1篇-洞察及研究
- 学生餐具消毒安全培训课件
- 虚实夹杂证辨治-洞察及研究
- 嘉积中学 2025- 2026学年度第一学期第一次大测高三物理科参考答案及评分标准
- 低碳运营模式探索-洞察及研究
- 广东省部分学校2025-2026学年高三上学期9月联考历史试卷(含答案)
- 2025年安全员B证考试题及答案
- 情报融合知识图谱构建-洞察及研究
- 办公室岗位说明书0
- 2025年中小学国防教育知识竞赛活动考试题库200题(含答案)
- 校长讲法治课课件
- 村播培训直播课件
- 2025河南新乡长垣市公证处招聘合同制人员5人考试参考题库及答案解析
- 颈椎骨折课件导图
- 2025至2030中国工业云平台行业发展研究与产业战略规划分析评估报告
- 2025餐饮合伙经营合同协议书
- 2025年山东西学中题库及答案
- 14.2物质的比热容同步练习(含答案) 沪科版物理九年级全一册
- 2025年全国中小学校党组织书记网络培训示范班在线考试题库及答案
- 《区域经济学》讲义(1)课件
评论
0/150
提交评论