




已阅读5页,还剩67页未读, 继续免费阅读
(计算机科学与技术专业论文)基于对象的分级存储系统数据迁移技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院硕士学位论文 摘要 以数据为中心的计算模式对存储系统的性能和可靠性提出了新的更高的要 求。目前,p b 量级的存储系统需要由成千上万的多种存储设备构成,高并行性、 高可靠性和高性价比是海量存储系统的三项关键要求。本文在对象存储的基础上, 融合了在线存储和近线存储的思想,提出了由固态盘、高性能磁盘阵列和虚拟磁 带库作为本地、近线和在线存储组成分级海量存储系统,通过数据的自学习迁移, 可保证存储系统在高性价比的条件下,获得更高的并行访问速率和可靠性。本文 采用基于分级存储管理的思想,提出了基于对象存储的分级存储模型,其中具体 提出了o b v 对象价值评定模型、自学习对象预取策略和对象迁移过程控制策略。 首先通过实现了基于o b v 模型的对象迁移策略验证了对对象价值的精确判定;通 过实现基于o b v 并结合对象预取的迁移策略证明了本文提出的基于对象自学习预 取策略可有效提高存储系统的访问性能,验证了基于对象自学习预取策略较强的 自学习能力;通过将迁移过程控制策略与以上两种迁移策略集成在起,验证了 通过结合迁移过程控制策略可以在尽量减小对系统影响的情况下进一步提高访问 高性能设备的命中率,提高系统的访问性能。 本文的研究内容主要包括以下几个方面: ( 1 ) 研究了分级存储策略的现状,详细对比分析了固态盘、磁盘阵列、虚拟磁 带库v t l 等存储设备当前的性能、可靠性等因素。 ( 2 ) 研究了存储结构的演变过程,重点研究了当前的热门存储结构基于对 象存储的结构和特点。 ( 3 ) 以l u s t r e 文件系统为基础提出了利用s s d 、高性能磁盘阵列和虚拟磁带库 作为本地、在线和近线存储的基于对象的多级存储系统结构,它通过将各 种属性和活跃度不同的对象迁移到不同性能级别的存储设备来提高整个 存储系统的访问性能。 ( 4 ) 提出了o b v 对象价值评定模型,实现了对对象价值的精确评定,在此基 础上实现低价值的对象由在线存储的高性能磁盘阵列级向低性能大容量 虚拟磁带库级迁移和虚拟磁带库级中高价值高活跃度的对象向高性能设 备级中的迁移。 ( 5 ) 提出了通过将历史访问信息分时间片并分配一定的权重比例的基于概率 统计的自学习预取策略,改进并实现了根据访问模式、用户、历史信息的 h u m 自学习预取算法,将以上算法与文件内的预取算法综合之后得到我 们最终的综合自学习预取策略,可以精确地将低性能设备级中即将被访问 的对象提前预取到高性能级别设备中。 第i 页 国防科学技术大学研究生院硕士学位论文 管理 ( 6 ) 建立了数据迁移过程控制策略的原型,内容包括迁移时机的选择;迁移过 程中利用信息反馈控制机制实现对数据传输速率的调整设定,以尽量减少 迁移对系统正常的访问性能的影响;迁移过程中根据及时反馈系统访问对 象的变化更新迁移对象的价值信息,实时调整数据价值迁移队列;根据反 馈的访问对象尽快调整预取队列中的对象,以实现将最需要迁移的对象尽 快迁移。 主题词:数据迁移,对象存储,数据价值,对象预取,过程控制,分级存储 第i i 页 国防科学技术大学研究生院硕士学位论文 a b s t r a c t s t o r a g es y s t e mh a st ob em o r ea n dm o r er e l i a b l ea n dm u c hf a s t e rb e c a u s ed a t ah a s b e c o m et h ec e n t e ro ft h ec u r r e n tc o m p u t i n gm o d e l c u r r e n ts t o r a g es y s t e ms t o r e s p e t a b y t e so fd a t aw i t ht h o u s a n d so fs t o r a g ed e v i c eo fs e v e r a lk i n d s ,h i g hp a r a l l e l i s m , h i g hr e l i a b i l i t ya n dh i g hp e r f o r m a n c e t o - p r i c er a t i oa r et h ek e r n e ld e m a n d so fm a s s s t o r a g es y s t e m i nt h i sp a p e r , w ep r o p o s et h r e et i e r e dm a s ss t o r a g es y s t e mw h i c h s y n c r e t i z e so n l i n es t o r a g ea n dn e a r l i n es t o r a g ea n di sm a d eu po fs s d ,f cr a i da n d v t l ,i tc a l ls u p p l ym u c hh i g h e ri op e r f o r m a n c ea n dr e l i a b i l i t yb ya u t o m a t i cd a t a m i g r a t i o n b a s e do nh s m ,w ep u tf o r w a r dt h r e et i e r e ds t o r a g es y s t e mm o d e ln a m e d s s d ,f cr a i da n dv t l ,c o n c r e t e l y ,w ep u tf o r w a r do b vo b j e c t - l e v e lv a l u a t i o n m o d e l ,s e l f - l e a r n i n go b j e c tp r e f e t c h i n gs t r a t e g ya n do b j e c tm i g r a t i o np r o c e s sc o n t r o l s t r a t e g y f i r s t ,w ev a l i d a t e dt h a to b vm o d e lc a nc l a s s i f yo b j e c t si ne v e r ys t o r a g e d e v i c ee x a c t l ya c c o r d i n gt ot h e i rv a l u e ;s e c o n d l y ,b yi m p l e m e n t i n go b j e c tp r e f e t c h i n g s t r a t e g yw et e s t i f i e dt h a ti tc a ns u p p l yr e l a t i v e l yl a r g ei n c r e a s ei ni op e r f o r m a n c e b y i n t e g r a t i n go b vm o d e la n ds e l f - l e a r n i n gs t r a t e g y ,w ep r o v e do b j e c tm i g r a t i o np r o c e s s c o n t r o ls t r a t e g yc a ns u p p l yh i g h e ri 0h i t - r a t ei nh i 【g hp e r f o r m a n c es t o r a g ed e v i c eb a s e d o na f f e c t i n gt h es y s t e m sn o r m a li op e r f o r m a n c ea sl e s sa sp o s s i b l e f 场a tw eh a v ed o n ea r ea sf o l l o w s : ( 1 ) w es t u a yp r e s e n ts i t u a t i o no fr e s e a r c h e si nh i e r a r c h i c a ls t o r a g es t r a t e g y t h e n w ea n a l y s i st h ed i f f e r e n ti oc h a r a c t e r i s t i c so fs s d ,f cr a i da n dv t li n p e r f o r m a n c e ,r e l i a b i l i t ya n dp r i c er e s p e c t i v e l y ( 2 ) w es t u d yt h ed e v e l o p m e n to fs t o r a g ea r c h i t e c t u r e sa n df o c u so no b j e c t b a s e d s t o r a g ea r c h i t e c t u r ea n do b j e c t b a s e ds t o r a g ef i l es y s t e m ( 3 ) b a s e do nl u s t r ef i l es y s t e m ,w ep r o p o s e da no b j e c t - b a s e dh i e r a r c h i c a ls t o r a g e s y s t e mw h i c hu s e ss s d ,f cr a i da n dv t l a sl o c a ls t o r a g e ,o n l i n es t o r a g ea n d n e a r l i n es t o r a g e i tc a ns u p p l yh i g h e rs y s t e mi 0p e r f o r m a n c ea n dr e l i a b i l i t yb y m i g r a t i n go b j e c t st od i f f e r e n ts t o r a g ed e v i c ea c c o r d i n gt o t h e i ra c t i v i t ya n dv a l u e a t o m i c a l l y ( 4 ) w ep r o p o s eo b vm o d e lw h i c hc a nc l a s s i f yo b j e c t si ne v e r ys t o r a g ed e v i c e e x a c t l ya c c o r d i n gt ot h e i rv a l u e b a s e do nt h i s ,w ei m p l e m e n tm i g r a t i n gt h eo b j e c t s 谢t l l l o wv a l u ei nl e v e lo fo n l i n es t o r a g et ot h el e v e lo fn e a r l i n es t o r a g ea n do b j e c t s 、析t 1 1h i g h v a l u ei nt h et h i r dl e v e lt ot h es e c o n dl e v e l ( 5 ) w ep r o p o s es e l f - l e a r n i n go b j e c tp r e f e t c h i n gs t r a t e g yb ym e a s u r i n gt h e h i s t o r i c a li n f o r m a t i o no f fa n da s s i g nt h e mw i t hc e r t a i np r o p o r t i o n ,i m p r o v ea n d i m p l e m e n th u ms e l f - l e a r n i n go b j e c tp r e f e t c h i n gs t r a t e g yb a s e d o ni om o d e l ,u s e ra n d h i s t o r i c a li n f o r m a t i o n w ef i n a l l yg e to u rs y n t h e t i c a lp r e f e t c h i n gs t r a t e g yb y s y n t h e s i z i n gt h ep r e f e t c h i n gs t r a t e g i e sa b o v ea n dt h ep r e f e t c h i n gs t r a t e g yw i t h i na f i l e 第i i i 页 国防科学技术大学研究生院硕士学位论文 i tc a i lm i g r a t et h eo b j e c t st h a tm o s tw i l lb ef e t c h e dt oh i g h e rs t o r a g el e v e ls o o n ( 6 ) w ep u tf o r w a r dt h ep r o t o t y p ef o ro b j e c tm i g r a t i o np r o c e s sc o n t r o ls t r a t e g y i n o r d e rt oa f f e c tt h es y s t e m sn o r m a li op e r f o r m a n c ea sl e s sa sp o s s i b l e ,w et a k e a d v a n t a g eo fi n f o r m a t i o nf e e d b a c kc o n t r o ls y s t e mt oa d j u s tt h em i g r a t i o ns p e e d p e r i o d i c a l l y i tc a l lm o d u l a t et h el i n eo fo b j e c tm i g r a t i o ni nr e a l - t i m et om i g r a t et h e o b j e c tw h i c h n e e dt ob et r a n s f e r r e da ss o o na sp o s s i b l et ot h er i g h tp l a c e k e yw o r d s :d a t am i g r a t i o n ,o b j e c t b a s e ds t o r a g e ,o b j e c tv a l u e ,o b j e c t p r e f e t c h i n g ,p r o c e s sc o n t r o l ,h s m 第i v 页 国防科学技术大学研究生院硕士学位论文 表目录 表2 1f l a s h 型s s d 随机读写性能1 7 表2 2d r a m 型s s d 随机读写性能1 8 表2 3h d d 随机读写性能1 8 表2 4n e m p pv t l 3 0 0 & 7 0 0 & 1 4 0 0 性能1 9 表3 1自定义对象价值属性页2 9 表3 2自定义对象价值全局属性页3 0 表4 1对象预取全局属性3 7 表4 2 对象预取属性页3 8 表6 1测试负载名称及描述5 4 第1 v 页 国防科学技术大学研究生院硕士学位论文 图1 1 图1 2 图i 3 图1 4 图2 1 图2 2 图2 3 图2 4 图2 5 图 图 图 图 6 7 9 1 0 图目录 d a s 系统结构图3 s a n 系统结构图4 n a s 层次结构5 对象存储系统结构图5 o s d 的系统配置1 0 l u s t r e 文件系统结构1 2 l u s t r e 元数据服务器模块结构一1 3 l u s t r e 中c l i e n t 的模块结构图1 4 l u s t r e 中o s s 的模块结构图1 4 l u s t r e 文件系统各部分间的关系1 4 亦s 总体结构图15 基于对象的分级存储系统结构图2 1 i o 访问及数据迁移路径2 2 图3 1分级存储结构图2 3 图3 2 对象属性结构图2 6 图3 3自上而下对象迁移基本流程图3l 图4 1自学习预取策略总体结构图4 2 图5 1 基于o b v 迁移过程控制结构图4 5 图6 1 s p a r s ec h o l e s k yf a c t o r i z a t i o n 对象访问时空分布5 4 图6 2 p a r a l l e lw e bs e r v e r 对象访问时空分布。5 4 图6 3d b 2p a r a l l e le d i t i o n 对象访问时空分布5 5 图6 4s p a r s e 负载下各算法在彳、= 同容量高性能磁盘阵列下的命中率5 6 图6 5p a r a l l e lw e bs e r v e r 负载下各算法在不同容量高性能磁盘阵列下的命中率 ! ;6 图6 6d b 2p a r a l l e le d i t i o n 负载下各算法在不同容量高性能磁盘阵列下的命中率 ! ;6 图6 7s p a r s e 负载下各算法在不同访问次数总量下的命中率5 7 图6 8p a r a l l e lw e bs e r v e r 负载下各算法在不同访问次数总量下的命中率5 7 图6 9d b 2p a r a l l e le d i t i o n 负载下各算法在不同访问次数总量下的命中率5 8 第v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目: 基王尉錾煎金熟盔筐丕统数量适整拉苤盟究一 学位论文作者签名: 曼尘p日期:多哆年,月二莎e l 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文作者签名:墨! ! g : 作者指导教师签名: 日期:力朋夕年,月z 9 日 日期:节年,夕月7 日 国防科学技术大学研究生院硕士学位论文 第一章绪论 1 1 课题背景 过去几十年中,高性能计算( h i g hp e r f o r m a n c ec o m p u t i n g ,h p c ) 在能源、生物、 气象、科研、地质勘探等计算密集型应用中得到长足发展。例如2 0 0 9 年1 1 月, 在美国波特兰举行的超级计算机0 9 ( s c 0 9 ) 会议上正式发布的世界5 0 0 强l lj 排行榜 中,美国能源部位于o a kr i d g e 计算中心的“美洲豹”超级计算机以l i n p a c k 澳l j 试 1 7 5 p f l o p s 性能分数,峰值计算速度高达2 3 p f l o p s 的计算能力荣登榜首。而上次处 于第一的美国l o sa l a m o s 的“建鹃”系统l i n p a c k i 贝l j 试为1 0 4 p f l o p s ,屈居第二。我国 首台运算速度突破每秒l 千万亿次,峰值速度达到每秒钟1 2 0 6 万亿次的超级计算 机天河一号在国防科学技术大学计算机学院研制成功。随着大规模数据采集和处 理技术的飞速发展,以集群系统为代表的h p c 系统需要高性能大容量的存储系统 作支撑,高性能计算机系统存储的数据已达到p b 量级,n a s a 的地球观测系统 e o s d i s ( e a r t ho b s e r v i n gs y s t e md a t a a n di n f o r m a t i 0 1 1s y s t e m ) 已存储了3 p b 数据, 并以每周1 t b 的速度增长【2 】;美国能源部斯坦福线性加速器中心s l a c ( s t a n d a r d l i n e a ra c c e l e r a t o rc e n t e r ) 已达到了几个p b1 3 i ;2 0 0 7 年欧洲c e r n 启动的大型强子 对撞机l h c ( l a r g eh a r d o nc o n l i d e r ) 实验将产生2 0 p b 的数据 4 1 。 面对当前这种高性能计算所需的高性能大容量存储系统,需要设计出能够实 现高并行性、高可靠性和高性价比这三项关键要求的海量存储系统。目前的主要 非易失性存储介质按照性能由高到低的顺序主要有固态盘、各种接口的磁盘组成 的磁盘阵列、磁带库、光盘库等。按照当前高性能计算所需的海量存储系统的三 项关键要求可以将以上各种性能、可靠性和价格各不相同的存储设备中的几种组 成高中低档搭配来实现分级存储,使他们以争取实现整个存储系统的访问性能接 近于最高性能设备的性能,而整个存储系统的单位容量成本接近于容量价格比最 高的设备。 存储系统的分级存储结构是将性能、可靠性和价格不同的各种存储设备组成 倒金字塔型结构,它们的存储访问时间延迟依次增长,容量依次增加。数据分级 存储管理h s m ( h i e r a r c h i c a ls t o r a g em a n a g e m e n t ) ,是指将数据存放在不同级别的 存储设备中,通过分级存储管理和数据迁移策略实现数据客体在存储设备之间的 自动迁移。为了获得更好的总体性能价格比,分级存储将高性能和高成本的较高 层次的存储空间分配给访问最频繁的数据,而将不经常访问的数据从存储层次中 较高层次自动迁移到较低的层次以释放高层次的空间。在当前的分级存储结构中, 光盘库和磁带库等成本较低的存储资源般用于近线存储和离线存储,以存储访 第l 页 国防科学技术大学研究生院硕士学位论文 l 、口j 频率和价值较低的数据,而固态盘,各种接口的磁盘等成本高速度快的设备用 来做本地存储和在线存储,以存储访问频率和价值较高的重要信息。本文中主要 研究的是利用s s d 、f c 高性能磁盘阵列和虚拟磁带库组成本地、在线和近线三级 存储结构。 随着高性能计算对存储系统的性能、容量和可靠性的要求不断提高,存储系 统的系统架构也在不断演变,由最初的直接附属存储d a s 发展到附网存储n a s 和存储区域网络s a n ,再发展到最近的对象存储。对象存储的概念自从提出之后 就一直是研究的热点。对象是介于文件和数据块之间的高级数据结构,它除了包 含所需存储的具体数据外,还包含描述了数据的部分属性。因此对象既具有数据 块的可直接存取的快速高效的优点,又具有文件结构的高级抽象易于共享和管理 等优点。对象存储将文件系统的存储管理部分下载到智能化存储设备对象存 储设备o s d 自主管理,从而实现o s d 对对象的创建、删除,对象空间的动态增 长和收缩。 1 2 存储结构的演变 现今的存储结构主要有四种:直接附属存储( d i r e c ta t t a c h e ds t o r a g e ,d a s ) 、 附网存储( n e t w o r ka t t a c h e ds t o r a g e ,n a s ) 、存储区域n ( s t o r a g ea r e an e t w o r k ,s a n ) 和对象存储( o b j e c t - b a s e ds t o r a g e ,o b s ) 。由于前三种结构均存在不同程度的缺陷, 因此近几年出现了能够实现高安全性、跨平台数据共享、高性能及高可扩展性的 第四种结构对象存储4 1 ,基本弥补了前面提到的三种结构的缺陷。 1 2 1 直接附属存储 直接附属存储d a s 是最简单的一种存储结构。它是以服务器为中心,服务器 通过总线( s c s i 等) 与存储设备相连接,客户机和服务器之间通过i p 网络相连接。 d a s 是与计算机或服务器直接相连的存储设备,在没有特别支持的情况下,其他 机器不能直接存取它。对服务器来说,存储设备是它的本地块设备,服务器和存 储设备之间以块为单位交互。d a s 的结构图如图1 1 所示。 虽然d a s 有一定的优点是简单,易于安装和管理,安全性较高。但是随着存 储系统的发展,它的缺点越来越突出。d a s 的移植性差、扩展困难,最主要的是 服务器容易成为系统的瓶颈,因为不管是读操作还是写操作,数据都需要经过服 务器的存储转发,服务器的负荷较重。研究表明,无论怎么样提高服务器和存储 设备的性能,在同时出现大量客户机请求的情况下,服务器都将成为系统的数据 服务瓶颈。很难满足当今海量数据存储与传输的实时性要求。 第2 页 国防科学技术大学研究生院硕士学位论文 1 2 2 存储区域网络 尊 务器一 文件系统 图1 1d a s 系统结构图 由于d a s 具有吞吐率低,扩展性、可靠性和共享性等比较差的问题,继而提 出了存储区域网s a n 的概念。 s a n 是一种高速的、专门用于存储操作的网络。通常是在网络服务器群的后 端,采用光纤通道等存储专用协议连接成高速专用网络,使网络服务器与多种存 储设备直接连接。s a n 的最大特点就是可以实现网络服务器与存储设备之间的多 对多连接,而且,这种连接是本地的高速连接。通过这种连接使得连接到s a n 上 的任意一台主机可以看到该s a n 上任意一台存储设备,可以像访问本地磁盘一样 访问s a n 上的任意一台存储设备。s a n 的结构图如图1 2 所示。s a n 架构的优势 在于:强大的扩展性、多种存储设备的集中和新架构支撑下的新型数据应用方式。 s a n 提供了一种与现有l a n 连接的简易方法,并且通过同一物理通道支持广泛使 用的s c s i 和i p 协议。s a n 不受现今主流的、基于s c s i 存储结构的布局限制。特 别重要的是,随着存储容量的爆炸性增长,s a n 允许系统独立地增加它们的存储 容量。s a n 的结构允许任何服务器连接到任何存储阵列,这样不管数据置放在那 里,服务器都可直接存取所需的数据。因为采用了光纤接口,s a n 还具有更高的 带宽。s a n 可以更好地控制存储网络环境,适合基于在性能和可用性方面的需求 较高的系统。s a n 利用高可靠和高性能的光纤通道协议来满足这种需要。 第3 页 国防科学技术大学研究生院硕士学何论文 l查熊堡鱼; 图1 2s a n 系统结构图 总起来看,s a n 的优点为将存储通道技术和网络技术引入存储环境中,能够 同时满足系统的吞吐率、可用性、可靠性、高扩展性等方面的要求。 但是它仍然具有一定的缺点,一是服务器的管理工作仍然较重,容易成为系 统的瓶颈。因为服务器既要管理文件系统的名字空间又要管理文件系统的存储空 间。当存储容量达到p b 级时,服务器的管理工作量将十分巨大;二是s a n 的数 据存储安全问题难以解决,因为每个s a n 用户都可以存取任何一个数据块,如果 多个用户同时对某一数据块进行操作势必会造成该数据块的损坏;三是s a n 为用 户提供的是块接口,接口的层次较低,使用和管理不方便;最后是成本较高。 1 2 3 网络附接存储 网络附加存储n a s 的推出主要是为了解决d a s 的性能和文件级的共享问题。 它的主要特征是把存储设备和网络接口,现在主要是以太网技术,集成在一起, 直接通过以太网网络存取数据。也就是说,把存储功能从通用文件服务器中分离 出来,使其更加专门化,从而获得更高的存取效率和更低的存储成本。n a s 的结 构图如图1 3 所示。 n a s 的优点有:是n a s 文件器是从网络服务器中分离出来的专用存储服务 器,使其设计简化,性能和可靠性得到了提高;二是被分离出存储管理工作后网 络服务器性能也得到了提高;三是n a s 可以同时满足各种文件系统的文件服务要 求;n a s 提供的文件级的服务,易于管理且使用简单。 但n a s 的缺点也较为明显,首先与n a s 相连的局域网l a n 容易成为系统瓶 第4 页 国防科学技术大学研究生院硕士学位论文 颈;其次n a s 本身仍然是服务器,数据的读写转发都要经过它,因此当管理的数 据量较大的时候仍然会成为系统的瓶颈。 l , l 文件接口; n a s 控制器 存储系统 1 2 4 基于对象存储 l 文传接口l n a s 控制器 存储系统 图1 3n a s 层次结构 对象存储结构综合了n a s 的高级的数据抽象、跨平台的数据共享和基于策略 的安全控制以及s a n 的直接数据存取、高可伸缩性等优点。它的主要思想是通过 实现存储设备的智能化,让存储设备自己管理存储在其上的数据,负责存储空间 的管理如存储空间的分配、回收、磁盘调度等。这样的智能化存储设备o s d ( o b j e c t b a s e dd e v i c e ) 提供的是对象接口,用户看到的是对象的集合,可以以对象为单位 访问存储设备而不再仅仅存取数据块。对象存储的结构如图1 4 所示。 l a n (二二二二三潞几数据服务器 图1 4 对象存储系统结构图 传统的基于块的文件系统可以划分为用户部分和存储管理部分,其中用户部 第5 页 国防科学技术大学研究生院硕士学位论文 分称为文件管理器,负责管理目录、命名、存取控制、文件到对象的映射等,并 提供了一个文件操作的接口。存储管理部分称为存储管理器,负责存储空间的管 理,包括存储空间的追踪记录、分配、回收、磁盘调度、对象块到存储块的映射 以及实际数据的读写操作等。而对象存储就是将传统的文件系统的存储管理部分 下载到了存储设备上由存储设备自己负责管理,将存储设备的操作接口由块接口 升级成了对象接口,提高了设备的抽象层次。 对象存储的优点有跨平台的数据共享、可伸缩性、细粒度的安全管理、高速 i o 性能,o s d 的智能性还可以是实现主动存储和具有一定的自治能力。 1 3 课题的主要工作 本文的主要内容是在基于对象的分级存储系统结构的基础上,实现了根据数 据对象的价值和活跃度在多级间的自适应迁移,以此来提高系统访问数据对象存 在于高性能设备的命中率,从而提高整个存储系统的性能,使整个系统的访问接 近于高性能设备级,而精确地将价值和活跃度较低的对象迁移到使用虚拟磁带库 的近线存储级。 本文的研究内容主要包括以下几个方面: ( 1 ) 研究了分级存储策略的现状,详细对比分析了各种固态盘、磁盘阵列、虚 拟磁带库v t l 等存储设备当前的性能、可靠性等因素。 ( 2 ) 研究了存储结构的演变过程,重点研究了当前的热门存储结构对象存储的 结构和特点。 ( 3 ) 以l u s t r e 文件系统为基础提出了利用s s d 、高性能磁盘阵列和虚拟磁带库 作为本地、在线和近线存储的基于对象的多级存储系统结构,它通过将各 种属性和活跃度不同的对象迁移到不同性能级别的存储设备来提高整个 存储系统的访问性能。 ( 4 ) 提出了o b v 对象价值评定模型,实现了对对象价值的精确评定,在此基 础上实现低价值的对象由在线存储的高性能磁盘阵列向近线存储的虚拟 磁带库的归档迁移和虚拟磁带库中高价值高活跃度的对象向高性能在线 存储设备级中的迁移。 ( 5 ) 提出了通过将历史访问信息分时间片并分配一定的权重比例的基于概率 统计的自学习预取策略,改进并实现了根据访问模式、用户、历史信息的 h u m 自学习预取算法,将以上算法与文件内的预取算法综合之后得到我 们最终的综合自学习预取策略,可以精确地将低性能设备级中即将被访问 的对象提前预取到高性能级别设备中。 ( 6 ) 建立了数据迁移过程控制策略原型,内容包括迁移时机的选择;迁移过程 第6 页 国防科学技术大学研究生院硕上学何论文 中利用信息反馈控铜j c l n 实现对数据传输速率的调整设定,以尽量减少迁 移对系统正常的访问性能的影响:迁移过程中根据及时反馈系统访问对象 的变化更新迁移对象的价值信息,实时调整数据价值迁移队列;根据反馈 的访问对象尽快调整预取队列中的对象,以实现将最需要迁移的对象尽快 迁移。 1 4 论文的组织结构 本论文是对硕士阶段课题研究的全面总结,全文共分七章,具体组织如下: 第一章介绍课题研究背景、存储结构的演变、本文的主要工作以及本文的组 织结构。 第二章首先较细致的分析了对象存储以及对象存储文件系统的特性,并重点 介绍了l u s t r e 等文件系统。然后分析了当前各种主要存储设备的性能、可靠性等 因素,最后根据对象存储中对象具有的灵活性、o s d 设备的智能性,以对象存储 为基础的文件系统的特点,并综合考量各种设备的性能设计了基于对象的分级存 储系统结构。 第三章为了实现分级存储模型中的对象在多级之间自适应迁移,设计了对象 价值评定模型o b v 来精确分析对象的价值,主要任务是将在线存储的高性能磁盘 阵列中价值较低的对象逐步迁移到下层大容量的近线存储的虚拟磁带库中,来释 放高层的高性能容量较小的空间供活跃度和价值较高的对象使用。 第四章为了实现将分级存储中的下层存储设备中即将被访问的对象预取到高 性能设备层而设计了自学爿的对象迁移策略,根据当前的访问模式,以及使用此 对象的用户和相关的历史记录,使其能够实现精确地选择系统将要访问的对象并 将其由低性能设备尽快迁移到高性能设备中。随着访问的持续进行本策略能够自 适应的学习最新的访问规律以提供更高的预取精度。 第五章设计了对象在迁移过程中的控制策略,利用信息反馈控制机制来实现 在尽量不影响系统的访问性能的基础上实现数据的精确和快速迁移。 第六章给出了性能测试的过程和结果与相关的分析。 第七章总结了已完成的工作,并提出下一步所要进行的工作。 第7 页 国防科学技术大学研究生院硕士学位论文 第二章基于对象的分级存储系统结构 p b 量级的存储系统中所存储的数据是一定时间累积的结果,在特定的一小段 时间内,对于大部分的数据是不活跃的,而只有一小部分的数据是处于活跃的状 态。这就需要将活跃的数据尽量保存在高性能的本地存储设备或者在线存储设备 中以供系统随时访问使用,而将大部分的不活跃数据在高性能设备达到定存储 量阈值的时候尽快精确地迁移到近线存储或者离线存储设备中。这就需要通过分 级存储来实现。本章首先介绍了分级存储的环境也就是对象存储,然后分析了各 级存储所需要的设备的性能,最后在基于对象的环境中利用所分析的设备设计了 三级存储结构,在之后的三章中提出了对象在各级间的迁移方法。 2 1 对象存储 基于对象存储同时具有b i a s 的跨平台数据共享和s a n 的高速访问等优势, 是具有高性能、高可靠性、跨平台与高安全的数据共享存储体系结构,是存储结 构未来的发展方向之一。 对象存储源于卡内基梅隆大学并行数据实验室的n a s d 项目1 5 1 6 1 。n a s d 的基 本思想是将处理器集成到磁盘驱动器,使其具有一定的智能性以独立管理其自身 的存储、安全和网络通信。基于对象的存储设备标准是由i n c i t s ( i n t e m a t i o n a l c o m m i t t e ef o ri n f o r m a t i o nt e c h n o l o g ys t a n d a r d s ) 的t i o 技术委员会负责开发的, 2 0 0 5 年1 月被a n s i 批准,目前的版本是2 0 。经过多年的发展,对象存储已经得 到广泛的应用,o s d 标准也已被业界认可。 2 1 1 对象 对象( o b j e c t ) 是对象存储设备上的基本单位,它是字节的逻辑集合,可以按 照预先定义好的方法存取。除了包含用户的具体数据外,还包含了描述数据特性 相关的属性。在基于对象存储的文件系统中,文件被分开存储在一组对象中,这 些对象可以在一个o s t 上,也可以存储在多个o s t 中。o s t 负责对象到数据块的 映射。 对象的类型有四种,分别是根对象、分区对象、集合对象和用户对象。 ( 1 ) 根对象( r o o to b j e c t ) :每个o s d 的逻辑单元都仅包含一个根对象,它的属 性除了包括一些逻辑单元的全局特征,还包含一个分区对象i d 列表,表示 包含在该逻辑单元的所有分区。根对象上没有用户存储的具体数据和相关 属性,而是用于对象存储设备的自主管理,因此不能进行普通的读写等操 第8 页 国防科学技术大学研究生院硕士学位论文 作。 ( 2 ) 分区对象( p a r t i t i o no b j e c t ) :分区对象包含了一组具有相同的安全要求和 特殊属性的集合对象和用户对象,用于对它们进行管理。因此每个分区对 象都包含了一个集合对象i d 列表和个用户对象i d 列表用来表示该分区 中的所有集合对象和用户对象。一个分区对象只能存在于一个根对象中。 分区对象像根对象一样也是用于对象存储设备的自主管理,因此不能进行 普通的读写等操作。 ( 3 ) 集合对象( c o l l e c t i o no b j e c t ) :集合对象是对用户对象的一种快速索引,类 似于目录。一个集合对象只包含于一个分区对象中。每个分区对象都包含 一个用户对象i d 列表,表示属于该集合对象的所有用户对象。由于集合对 象提供的是类似于目录的功能,因此用户也不能对其进行普通的读写等操 作。 ( 4 ) 用户对象( u s e ro b j e c t ) :用户对象中包含着用户的最终数据,类似于文件。 用户对象是我们需要了解的重点,它的属性包括用户数据的逻辑大小、创 建时间、存取时间和修改时间等我们需要用到的要素。它由 标识,一个用户对象i d 唯一的标识了一个分区对象中 的一个用户对象。 对象是介于文件和数据块之间的一种数据逻辑抽象,它结合了两者的优点。 作为存取访问的高级接口,可以按照本身的方式方便的存取对象的内容,具有自 治性、方便和跨平台等特点;而作为基本的存取单位,对象可以通过直接和用户 端之间建立通道绕过服务器进行直接的存取,具有快速高效的特点。 2 1 2 对象存储设备 保存对象的存储设备称为基于对象的存储设备( o b j e c t b a s e ds t o r a g ed e v i c e , o s d ) 【7 】。对象存储设备o s d 拥有自己的处理器、内存和嘲络接口等,因此它具有 一定的智能性。对象存储设备中的具体存储介质是没有限制的,可以是固态盘、 磁盘、磁带等任意的一种或几种介质。对象存储设备的智能性是为了实现传统的 基于数据块的文件系统的存储管理部分,因此它负责存储空间的管理,包括存储 空间的追踪记录、分配、回收、磁盘调度、对象到数据块的映射以及实际数据的 读写操作等。而文件系统的用户部分负责管理目录、命名、存取控制、文件到对 象的映射等, 文件系统的存储管理部分被下载到o s d 之后,o s d 对外提供的是对象接口, 用户只需要知道对象的i d ,就可以简单的请求o s d 创建和删除对象等,还可以读 写对象中的数据,获取对象的属性,对其中的用户对象的属性还可以自己修改, 第9 页 国防科学技术大学研究生院硕士学位论文 而不用关心数据块的具体位置。 文件系统的用户部分依然运行在主机的操作系统中,用户部分仍然需要管理 和维护自己的目录等数据结构,以便通过文件名来得到对象i d ,然后就可以直接 向o s d 设备发送请求,存取o s d 中的用户对象和对象的属性。 传统的存储系统中存储在存储设备上的元数据完全由文件系统来负责管理和 使用,因此当多台主机共享同一个存储设备时,同一个元数据就会拥有多个管理 者,这样元数据就很容易遭受损坏。而在对象存储中,元数据由智能存储设备o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 鱼泡师傅考试试题及答案
- 颅脑创伤考试题及答案
- 加法减法面试题及答案
- 信访局考试试题及答案
- 2025年广元市消防员招录考试笔试试题(含答案)
- 2025年广安市岳池县农业技术助理岗招聘考试笔试试题(含答案)
- 栓绳安全知识培训内容课件
- 2025年度“全国安全生产月”《安全知识》考试题库(含答案)
- 护理质量试题及答案
- 应急管理知识练习题(附答案)
- 土地出租合同书电子版
- 《化妆品稳定性试验规范》
- 二氧化碳静态爆破施工方案样本
- 八年级年级主任工作计划
- 英汉互译单词练习打印纸
- 四川JS-004竣工验收报告
- 花卉栽植施工方案
- 水工闸门课件
- 全自动血液细胞分析仪产品技术要求深圳迈瑞
- 找对英语学习方法的第一本书
- 《诺丁山》经典台词
评论
0/150
提交评论