




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于对象存储系统中元数据管理方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
c l a s s i f i e di n d e x : u d c : | l f i | j i ij f i | | i | | i | | | y 18 0 8 2 0 6 ad i s s e r t a t i o nf o rt h ed e g r e eo fm s c r e s e a r c ho nm e t a d a t a , - m a n a g e m e n t s c h e m ef o ro b je c t - - b a s e ds t o r a g es y s t e m s c a n d i d a t e :t i a ny a k u n s u p e r v i s o r :p r o f y a on i a n m i n a c a d e m i cd e g r e ea p p l i e df o r m a s t e ro fe n g i n e e r i n g s p e c i a l i t y :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y d a t eo fs u b m i s s i o mm a r c h ,2 010 d a t eo f o r a le x a m i n a t i o n m a r c h ,2 0 1 0 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 0 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下, 由作者本人独立完成的。有关观点、方法、数据和文献的引用已 在文中指出,并与参考文献相对应。除文中己注明引用的内容外, 本论文不包含任何其他个人或集体己经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均己在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :圈位劬莉 f 日期:矽佃年2 月佣 哈尔滨工程大学 、 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可回在授予学位1 2 个月后 口解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :1 刃业硝 日期:加如年弓月侈日 导师( 签字) :匆g 忿氏 ) o l o 年月r 日 合尔演丁程大学硕士学位论文 i iu|i| 摘要 基于对象存储系统中,元数据存储量小,但是访问量大且管理复杂,元数 据服务器在整个对象存储系统中占据重要的地位。 现有的负载平衡策略中,当需要选择服务器存储热点数据副本时,主要是 采用计算服务器权重,选择最大权重的服务器的方法。本文对此方法进行了优 化,主要是把服务器的可用带宽融合进权重值计算中,这样服务器的权重分子 包括服务器的c p u 、内存、硬盘和可用带宽,并且在基于服务器权重的基础上, 以此服务器在所有可用服务器中所占比值对应的概率对服务器进行选择,这样 使服务器各尽其能。此策略也可以应用在用户选择服务器发送请求的情况,减 小拥塞的可能性。通过理论分析得出:相同条件下,采用本文提出的优化策略 使得用户的平均等待时间较短。 元数据信息的快速查询,也元数据管理的重点。本文作者在研究t b f ( t w o 1 e v e lb l o o mf i l t e r s ) 的基础上提出了用于多属性元数据快速查询的双层 体系结构d b f ( d o u b l e 1 e v e lb l o o mf i l t e r s ) 和基于分组的延迟更新策略g d a ( g r o u p - b a s e dd e l a y e d u p d a t ea p p r o a c h ) ,在双层体系结构d b f 中,通过在每 个属性b l o o mf i l t e r 后面增加存储单元用以暂时存储属性更新信息,对属性查 询进行验证以避免属性更新延时产生错误查询。g d a 策略的思想:时间段t 内,属性更新操作并不是立即执行,而是将更新信息暂时存储在存储单元中, 时间段t 过后,统一执行各组更新操作。g d a 配合d b f 中的确认验证机制, 在不会附加错误查询的前提下大幅度的减少了属性更新所需要的操作,从而能 够有效地减小系统更新开销。本文作者还提出了“边数量”更新策略 ( “e d g e n u m b e r s ”a l g o r i t h m ) ,在解决d b f 中因共享边不能同时为环或链 做消减操作而产生的更新冲突的同时,最大限度的减少消减操作次数,提高更 新效率。模拟实验结果表明:延迟更新策略能大大减少属性更新所需的操作。 关键词:基于对象网络存储;元数据;负载平衡;快速查询;b l o o mf i l t e r 哈尔滨1 = 稗大学硕+ 学伊论文 a bs t r a c t i nt h eo b j e c t - b a s e ds t o r a g es y s t e m ,m e t , a d a ms e r v e ro c c u p i e sa ni m p o r t a n t p o s i t i o n ,b e c a u s et h ec a p a c i t yo f m e t a d a t as t o r a g ei ss m a l lb u tt h ea c c e s si sl a r g ea n d t h em a n a g e m e n ti sv e r yc o m p l e x i nt h ee x i s t i n gl o a db a l a n c i n gs t r a t e g y , t h em a i nw a yo fs e l e c t i n gas e r v e rt o s t o r et h ec o p yo fh o td a t ai st oc a l c u l a t et h es e r v e rw e i 掣h ta n dt oc h o o s et h es e r v e r w i t ht h em a x i m u mw e i g h t i nt h i sp a p e r , w eo p t i m i z e dt h i sm e t h o dw i t hi n t e g r a t i n g t h es e r v e r sa v a i l a b l eb a n d w i d t hi n t o t h ec a l c u l a t i o no ft h ew e i g h tv a l u e s ,s ot h e m o l e c u l a rw e i g h to ft h es e r v e ri n c l u d e ss e r v e rc p u ,m e m o r y , h a r dd r i v e s ,a n d a v a i l a b l eb a n d w i d t h f u r t h e r m o r e ,o nt h eb a s i so fs e r v e rw e i g h t , w em a d et h es y s t e m c h o o s et h es e r v e ra c c o r d i n gt ot h ep r o b a b i l i t yo ft h er a t i oo fs u c hs e r v e rt oa l l a v a i l a b l es e r v e r s ,a n di ta l l o w st h es e r v e r st od ot h e i rb e s t t h i ss t r a t e g ya l s ow o r k s i nt h ec a s eo ft h eu s e rs e l e c t i n gt h es e r v e rt os e n d i n gr e q u e s t s ,a n di tc o u l dr e d u c et h e p r o b a b i l i t yo fc o n g e s t i o n i nt h ee n d , w eo b t a i n e dt h ec o n c l u s i o nt h r o u g ht h e o r e t i c a l a n a l y s i st h a t ,i nt h es a m ec o n d i t i o n s ,u s i n go p t i m i z e da p p r o a c hp r o p o s e di nt h i s p a p e rc o u l ds h o r t e nt h eu s e r s a v e r a g ew a i t i n gt i m e q u i c kq u e r yo fm e t a d a t ai n f o r m a t i o ni st h ef o c u so fm e t a d a t am a n a g e m e n t a f t e re x p l i c i tr e s e a r c hi n t ot 1 3 f ( t w o l e v e lb l o o mf i l t e r s ) ,w ep r o p o s e dt h e a r c h i t e c t u r ed b f ( d o u b l e 1 e v e lb l o o mf i l t e r s ) w h i c hc o u l db eu s e di nt h eq u i c k q u e r y o fm u l t i - a t t r i b u t em e t a d a t a , a n dt h e a p p r o a c hg d a ( g r o u p - b a s e d d e l a y e d u p d a t ea p p r o a c h ) i nd b f , w ea d dam e m o r yc e l la f t e r e a c ha t t r i b u t e b l o o mf i l t e rt os t o r ea t t r i b u t eu p d a t i n gi n f o r m a t i o nt e m p o r a r i l y , w h i c hc o u l dv e r i f y t h ea t t r i b u t eq u e r ya n da v o i de r r o rq u e r yc a u s e db yd e l a y i n ga t t r i b u t eu p d a t e t h e m a i ni d e ao fg d a s t r a t e g yi st h a t :i nt i m eq u a n t u m 正t h es y s t e md o e sn o te x e c u t e t h ea t t r i b u t eu p d a t i n go p e r a t i o ni m m e d i a t e l yb u ts t o r et h eu p d a t ei n f o r m a t i o ni nt h e m e m o r yc e l lt e m p o r a r i l y a f t e rt i m eq u a n t u mft h es y s t e mw i l ld ot h eu p d a t i n g 哈尔滨t 稗大学硕士学位论文 o p e r a t i o ni ne a c hg r o u pc o n t e m p o r a r i l y g d a ,i nc o r p o r a t i o nw i t ht h ev e r i f i c a t i o n d e v i c eo fd b f , ,i l lr e d u c et h eo p e r a t i o no fa t t r i b u t i o nu p d a t eg r e a t l y , n o tc a u s i n g e r r o rq u e r y b e s i d e s ,w ea l s op u tf o r w a r da n “e d g e n u m b e r s a l g o r i t h mt os o l v et h e u p d a t ec o n f l i c t sa m o n gl o o p sa n dt a n d e m s w h e nt h en u m b e ro fl o o p sa n d t a n d e m si s l a 略e rt h a nt h en u m b e ro fs h a r e de d g e s ,r e d u c et h es u b t r a c t i v e p o s s i b l ea n di m p r o v et h eu p d a t ee f f i c i e n c y t h e r e s u l to ft h es i m u l a t i o ne x p e r i m e n t s h o w st h a t ,d e l a y e d u p d a t ea p p r o a c hc o u l ds i g n i f i c a n t l yr e d u c et h er e q u i r e d o p e r a t i o no f a t t r i b u t eu p d a t i n g k e yw o r d s :o b j e c t - b a s e dn e t w o r ks t o r a g e ;m e t a d a t a ;l o a db a l a n c e ;q u i c kq u e r y ; b l o o mf i l t e r 哈尔滨下稗大学硕十学位论文 目录 第1 章绪论1 1 1网络存储发展现状1 1 2课题研究背景8 1 3主要研究工作及内容安排9 第2 章基于对象网络存储系统一1 0 2 1o s d 基于对象的存储设备11 2 1 1存储对象1 2 2 1 2存储设备13 2 2m d s 元数据存储设备15 2 3本章小结1 6 第3 章o b s s 中的元数据管理17 3 1元数据分配策略17 3 1 1h a s h 分配法一1 8 3 1 2目录子树分割法21 3 2负载平衡策略一2 2 3 3优化策略2 4 3 4理论支持2 5 3 5本章小结2 6 第4 章元数据快速查询系统2 8 4 1背景知识2 8 4 2多属性元数据查询系统优化策略一3 3 4 2 1模型分析3 3 4 2 2基于组的延迟更新策略3 6 4 2 3“边数量”更新策略3 9 4 3本章小结4 0 第5 章模拟实验4 1 一 哈尔滨工程大学硕士学位论文 5 1背景知识4 l 5 1 1 s i 心y 简介4 1 5 1 5 2s 蛐y 模拟流程4 2 5 1 3进程4 3 5 1 4资源4 4 5 1 5随机事件4 6 5 2实验流程介绍4 7 5 3实验结果及分析4 8 5 4本章小结5 1 结论5 2 参考文献5 3 攻读硕士学位期间发表的论文和取得的科研成果5 8 致谢5 9 哈尔滨丁程大学硕七学何论文 1 1 网络存储发展现状 第1 章绪论 在计算机网络技术、计算机的软颀件技术及计算机应用技术高速发展的过 程中,i t 技术经历的主要发展过程分为三部分:首先是以处理器为核心的发展 阶段,这个发展阶段促进了计算机的普及和应用;然后是传输技术的迅猛发展, 这个发展阶段带动了计算机网络的使用和普及,使得数字化信息的应用席卷全 球,导致了数字化信息的爆炸性增长;第三个阶段是以存储技术为核心的发展 阶段。存储技术的主要研究内容为:存储系统的可靠性、可用性、开放性、可 扩展性和存储数据的共享与安全等。毫不夸张的说,存储技术已经成为国内外 研究的重点和热点。 存储结构的发展也经历了几个阶段,大致包括直接附加存储d a s 、存储区 域网s a n 、网络附加存储n a s 、带文件系统的s a n 和o s d 。理想的存储结构 应该能提供强大的安全性( s t r o n gs e c u r i t y ) 、跨平台的数据共享( d a t as h a r i n g a c r o s sp l a t f o r m s ) 、高性能( h i g hp e r f o r m a n c e ) 和对存储设备与客户数量的高可 伸缩性( s c a l a b i l i t yi nt e r m so f t h em m a b e ro f d e v i c ea n dc l i e n t s ) 。 当前,网络存储按照发展和应用范围分为三类:直接附加存储d a s ( d i r e c t a t t a c h e ds t o r a g e ) ,网络附加存储n a s ( n e t w o r ka t t a c h e ds t o r a g e ) 及存储区域 网s a n ( s t o r a g ea r e an e t w o r k ) 。这三种网络存储方式特点各异,分别应用在不 同的领埘羽。 早期简单的网路促使直接附加存储d a s ( d i r e c ta t t a c h e ds t o r a g e ) 得到发展, 到2 0 世纪8 0 年代,计算模型由大型的集中式系统向灵活的客户端服务器分布 式模型发展,正是尚处于初级阶段的局域网推动了这一转变。 直接附加存储d a s 中,存储设备与服务器的连接通过电缆( 通常是s c s i 接口电缆) 实现,客户机与服务器之间的连接通过p 网络实现,f 0 请求直接 发送到存储设备上。d a s 是最简单的存储结构,依赖于服务器,其本身是硬件 哈尔滨工程大学硕+ 学位论文 的堆叠,不带有任何存储操作系统。 图1 1 所示为d a s 系统结构示意图。 图1 1d a s 系统结构 w h a t l s c o m 对d a s 的定义:d i r e c t a t t a c h e ds t o r a g e ( d a s ) i sc o m p u t e rs t o r a g e t h a ti sd i r e c t l ya t t a c h e dt oo n ec o m p u t e ro rs e r v e ra n di sn o t ,w i t h o u ts p e c i a ls u p p o r t , d i r e c t l ya c c e s s i b l et oo t h e ro n e s 3 1 。即d a s 是与服务器或计算机直接相联的存储 设备,在没有特别支持的情况下,其他机器不能直接存取它。对一般用户来说, 最常见的d a s 是硬盘。对服务器来说,它的本地块设备就是存储设备,存储 设备和服务器之间以块为交互单位。 d a s 的优点:d a s 的发展有4 0 多年的历史,最初给用户带来很大方便。 d a s 这种直连方式,能够解决单台服务器的存储空间扩展、高性能传输需求, 使服务器的存储容量得到大幅度的扩展,单台外置存储设备已经从不到1 t b 的 容量发展到2 t b ,随着大容量硬盘的推出,单台外置存储系统容量还会上升。 另外,d a s 还可以构成基于磁盘阵列的双机高可用系统,满足数据存储对高可 用的要求。设备的初始费用便宜,结构简单,安装、部署和管理简易,安全性 容易得到保证。 d a s 的缺点:d a s 的直连式体系存储依赖服务器主机操作系统进行数据 的存储维护管理和i o 读写操作,在数据备份和维护方面要求占用服务器主机 资源( c p u 、系统i o 等) ,数据流必须回流主机再到服务器连接的磁带库,数 哈尔滨工程大学硕十学位论文 据备份需要占用大约2 0 3 0 的服务器主机资源,因此为了避免影响正常业务 系统的运行,许多日常数据备份常需要在深夜或是系统不繁忙时进行,并且备 份和恢复的时间与存储的数据量成正比,对硬件的依赖和影响也较大。d a s 中 连接通道为s c s i ,其带宽为1 0 m b s 到8 0 m b s 不等,随着c p u 的处理能力与 存储空间的升级,s c s i 通道成为瓶颈;服务器主机s c s ii d 的限制使得能够建 立的s c s i 通道连接数量有限。从一台服务器向多台服务器集群( c l u s t e r ) 的扩展、 存储阵列容量的扩展、服务器主机的扩展都会造成业务系统的停机,从而造成 经济损失,对于传媒、电信、银行等2 4 * 7 不间断服务的业务系统,这是不能 被接受的。所以d a s 不能适应现阶段应用的发展,逐渐被淘汰。 网络附加存储n a s ( n e t w o r k a t t a c h e ds t o r a g e ) ,它试图从性能和共享的角度 解决d a s 的问题。n a s 将存储设备与现有网络相连,为用户提供数据和文件 服务。局域网技术的广泛实施使得在多个文件服务器之间实现互联,因此可以 采用局域网和工作站族二者相结合的方式,为实现文件共享建立一个统一的框 架,从而达到节约成本和互操作的目的。 在架构上,n a s 比个人计算机简单,是功能单一的简单型计算机,在外观 上,n a s 只需连接电源与简单的控制钮,就像家电产品一样。n a s 结构如图 1 2 所示。 图1 2 n a s 系统结构 哈尔滨t 程大学硕十学位论文 在n a s 系统结构中,存储系统设备不再通过i o 总线附属于某个服务器或 客户机,而是直接通过网络接口与网络相连,用户通过网络访问存储设备。而 且,n a s 设备的物理位置不受限制,更加灵活,无论在何时何地,只要可以和 网络连接,就可以为网络用户提供共享磁盘空间。 n a s 产品安装简便快捷,是即插即用的产品。它具有较好的协议独立性, 支持u n i x 、n e t w a r e 、w i n d o w sn t 、o s 2 或i n t r a n e tw e b 的数据访问,客户端 也不需要任何专用的软件,安装简易,可以方便的利用现有的管理工具进行管 理。不同用户可以通过网络协议支持访问同一文档,因而n a s 设备无需改造 即可直接用于混合w i n d o w sn t 他1 1 i ) 【m a c 的局域网内。n a s 的跨操作系统平 台的操作性较好,这一点使得多操作系统协助的机构能够通过单一的n a s 存 储设备实现统一的存储空间管理规范,大大简化了系统管理员的维护工作。 n a s 作为一种成熟的网络存储解决方案,现在已经在教育科研、i s p a s p 、 i d c 、w 曲e - m a i l 服务器集群、金融保险、电信、c a d 、医药系统、印刷、网 络音乐、视频v o d 点播等诸多领域广泛应用。n a s 服务器能够以最少的投资 解决企业对存储的需求,并可以在最短的时间内、任何时候、任何地点方便的 增加所需要的存储空间。 n a s 系统也有一些潜在的限制: l 、传输速率受限。由于普通的局域网客户端数量巨大,并且普通的局域 网并不是针对存储应用设计的专用网络,因此,在有限的网络带宽中,n a s 存 储设备所能分到的带宽更加有限,造成n a s 存储系统传输速率慢且不稳定, 受带宽消耗的限制严重,无法承受大容量的存储应用,这是n a s 系统最大的 缺点。 2 、数据库支持受限。n a s 存储系统采用基于文件的方式存储数据,这一 方式主要针对文件共享和文件备份等应用,不适合事务处理和数据库等基于数 据块存储方式的应用。 3 、缺乏灵活性。n a s 存储系统是一种专用的存储设备,这一特点使其不 能通过公用的、流行的软硬件进行升级或者改变产品的功能。 4 哈尔滨t 程大学硕士学位论文 4 、n a s 存储系统很难与现有的备份系统集成。n a s 在备份方面存在不足, 只能采取一些补救措施,例如开发自己的专用备份软件与n a s 集成或采用映 射驱动器进行备份等。 5 、对于开放性的要求,n a s 难以满足【4 j 。 存储区域网s a n ( s t o r a g e a r e a n e t w o r k s ) ,是一个用在服务器和存储资源 之间的、专用的、高性能的体系结构,为实现大量原始数据的传输进行了优化。 简单来说,可以把s a n 看做s c s i 协议在长距离应用上的扩展。 s a n 的系统结构如图1 3 所示。s a n 体系结构中,服务器上通常配置两个 网络接口适配器:与p 网络连接的普通网卡和与s a n 连接的主机总线适配器 h b a ( h o s tb u sa d a p t o r ) ,前者用于服务器与客户机的交互,后者用于服务器与 存储设备的交互。s a n 的主体是存储网络连接设备,其作用是连接网络和各种 存储设备。光纤通道f c ( f i b e rc h a n n e l ) 集线器、交换机或路由器是几种通常 使用的连接设备。s a n 的存储设备有盘阵( r a d ) 、盘堆( j b o d ) 、光盘库、 磁带库等,一般来说,这些设备都有较大的存储容量,较好的存取性能,以及 较高的可靠性。 存储设备 图1 3s a n 的系统结构 对s a n 上存储设备的使用是比较简单的。在管理员允许的情况下,s a n 上的任何一台主机都可以直接访问存储设备,并且可以直接存取任意数据块和 哈尔滨工稃大学硕士学位论文 在存储设备上建立文件系统。对s a n 上的主机来说,s a n 是一个扩充了的本 地总线,其上的所有设备都是它的块设备,所以对s a n 上存储设备的访问以 块为单位,即s a n 提供的是一种基于块的接口。 s a n 的优点:s a n 将存储设备从服务器中独立出来,实现了服务器层次 上的存储资源共享。s a n 将通道技术和网络技术引入到存储环境中,提供了一 种新型的网络存储解决方案,这种方案能够同时满足以下几方面的要求:吞吐 率、可用性、可靠性、可管理性和扩展性等。s a n 从根本上改变了存储设备和 服务器之间的连接方式。 与n a s 相比,s a n 的不足之处:提供给用户的是层次较低的块级接口, 使用不便。由于只提供块级的访问接口,管理系统不能统一,所以s a n 不能 为用户提供存储设备中的数据共享。在没有任何保护,多个s a n 用户同时对 一个数据块进行存取的情况下,必然会造成这个数据块的损坏。这种情况下, 只能由用户事先划分好存储空间并独占此空间,并且每个用户都为自己的存储 空间定义了管理者,即文件系统,若没有经过许可,一个用户不能直接访问另 一个用户的存储空间( 虽然这在理论上是可以实现的) 。也就是说,在s a n 存 储系统中,存储空间不能在用户之间共享,但是共享在构造一个存储系统时是 不容回避的问题。表1 1 是d a s 、n a s 和s a n 三种存储结构的性能比较。 表1 1d a s 、n a s 和s a n 的比较 比较项目 d a sn a ss a n 安装简单即插即用复杂 管理不易容易集中化 兼容性较好 好差 可扩展性 差较好好 一 维护成本局 低 较高 容错性差 中等 好 连接错误中等 低高 通用性 中等好差 价格 低较高高 6 哈尔滨工程大学硕十学位论文 基于对象网络存储系统o b s s ( o b j e c t b a s e ds t o r a g es y s t e m ) 正在成为存储 领域研究的热点,它结合了n a s 和s a n 的优点【5 】,提供直接的、存储设备的文 件存取,使可升级、高性能、跨平台与数据安全共享的体系结构成为可能,已 经成为构建大型分布式系统的优选方案【6 】。新兴的对象存储结构利用现有的处 理技术、网络技术和存储组件提供空前的可伸缩性和聚合吞吐量,为构建p b 规模的并行存储系统提供了基石出【丌。在现在比较流行的对象存储系统中,分离 了数据和元数据的管理,不像传统的文件存储系统,其数据和元数据都由同一 台机器存储和管理。基于对象网络存储系统o b s s 体系结构如图1 4 所示。 c l i e n t c l i e n t c l i e n t o s d o s d o s d m e t a d a t a m e t a d a t a m e t a d a t a s e r v e r s e r v e r s e r v e r 图1 4 0 b s s 体系结构 典型的基于对象文件系统由客户端c l i e n t s 、对象存储设备o s d ( o b j e c t - b a s e ds t o r a g ed e v i c e ) 和元数据服务器m d s ( m e t a d a t as e r v e r ) 组成, 三个部分通过存储网络( 如t c p i p 网络) 连接进行协同工作。其中,客户端 作为应用服务器运行应用程序,提供与m d s 交互元数据信息和与o s d 交互数据 信息的接口程序;对象存储设备管理底层的存储,例如对象到块的映射和请求 调度,提供对象访问接口,取代了以前的块级访问接口,传统文件系统的数据 管理工作被分布到智能的o s d 上,由其负责管理数据分布和检索。元数据服务 哈尔滨 二稗大学硕士学1 _ f ) = 论文 器是一个单独的机群,连接客户端与o s d ,它管理着系统的名字空间、目录层 次和文件及目录的许可,并且实现文件到对象的映射。 在基于对象网络存储系统中,对象是数据存取过程中的基本逻辑单元,是 拥有类似文件接口的存储容器。对象将文件( 高度提取实现跨平台数据共享和基 于策略的安全性) 与块( 直接存取和设备交换结构的可扩展性) 相结合。对于基于 对象存储设备o s d 来说,存储在对象中的数据是不透明的,用户可存取属性用 来描述对象的特点。元数据是存储设备为管理对象物理存储而记录的信息。 o b s s 的数据交互模式如图1 5 所示。在整个系统的访问量中,元数据访 问超过5 0 ,元数据访问很容易成为访问瓶颈,所以设计好元数据管理存储系 统,提供高性能和高扩展性至关重型8 1 。 客户端元数据服务器 对象存储设备 一 发送请求 一 保持数据一致性 一 返回数据 元数据操作 _ 发送请求 身 份 返回元数据即授权访问信息验 证 1 2 课题研究背景 图1 5o b s s 的数据交互模式 随着网络存储技术的飞速发展,网络存储不单单只停留在军事、工业的应 用范围里,而且被广泛的应用在日常生活中。如何更方便、快捷、廉价的存储 海量数据,已经成为网络存储技术的一个突出问题。互联网技术的迅速发展给 人们的生活方式带来了巨大的变化,同时也给网络存储研究和开发带来了新的 方向。元数据与数据存储的分离,为网络存储提供了一个新的思路,那就是基 于对象存储技术。 哈尔滨t 程大学硕士学伊论文 i i i i ri l l i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i 宣i i i i i i i i i i i 基于对象网络存储技术有着广阔的应用前景,它可应用于多个重要领域, 如数字图书馆、数据仓库、数据挖掘、气象数据处理、卫星数据处理、医药视 频图像数据处理、生命科学研究、多媒体点播和在线数据处理等。基于对象存 储系统如此重要,而元数据服务器又是对象存储系统中操作频繁的部分,所以 设计好元数据服务器意义重大。 1 3 主要研究工作及内容安排 本文的组织结构如下: 第l 章是绪论。主要介绍当前网络存储的发展现状以及课题的研究背景。 第2 章介绍了基于对象网络存储系统o b s s 。该章对当前比较流行的基于 对象网络存储系统的各个组成部分进行了详细介绍。 第3 章是o b s s 中元数据管理。主要介绍了当前应用在元数据服务器上的 各种策略,并对他们优、缺点进行了分析,其中主要包括元数据分配策略、负 载平衡策略,最后介绍了基于权重概率的元数据服务器选择策略并用理论证明 其优势。 第4 章是支持多属性元数据快速查询系统的介绍,在此系统中,本文提出 了基于分组的延迟更新策略和用于提高更新效率的“边数量”更新策略。 第5 章给出了第4 章的优化策略的模拟实验和结果分析,这里主要介绍了 实验所用语言基础知识、实验流程和实验结果比对及分析。验证了本文提出的 优化策略的有效性。 哈尔滨下程大学硕士学位论文 第2 章基于对象网络存储系统 为了解决l i n u x 集群对存储系统数据共享和高性能的需求,国际上开始研 究新型文件系统和全新的存储架构,希望能有效结合s a n 和n a s 二者的优点。 需要支持直接访问磁盘和共享文件与元数据,以提高性能、简化管理,对象存 储系统己成为l i n u x 集群系统高性能存储系统的研究热点。 卡内基梅隆大学( c a r n e g i em e l l o nu n i v e r s i t y ,c m - u ) 并行数据实验室( p a r a l l e l d a t al a b ,p d l ) 1 9 9 5 年到1 9 9 9 年的”n e t w o r ka t t a c h e ds e c u r ed i s k s ”( n a s d ) 项 目产生了最初的对象存储的标准。“使用商业存储设备构建高带宽、低延迟、 安全、可扩展的存储系统”是该项目的目标。1 9 9 7 年,一个包括了惠普、m 、 希捷、s t o r a g e t e k 以及昆腾等厂商的工作组在美国存储工业联盟( n a t i o n a l s t o r a g ei n d u s t r yc o n s o r t i u m ) 由c m u 发起。在c m u 的n a s d 研究基础上, 该工作组于1 9 9 9 年成立了全球网络存储工业协会( s t o r a g en e t w o r k i n gi n d u s t r y a s s o c i a t i o n ,s n i a ) 的对象存储设备o s d ( o b j e c ts t o r a g ed e v i c e ) t 作组,发布了 a n s i 的x 3t 1 0 标准。从此以后,s n i a 的o s d 工作组促进了对象存储设备接 口的变革,众多厂商纷纷在其实验室中对该技术进行研究。尽管o s d 的标准 尚未统一,但是一些厂商己经开始生产对象存储设备,如m m 将把对象存储技 术用在s t o r a g e t a n k 中,b l u e a r c 、d a t a d i r e c t 也开始生产使用对象存储接口的 设备【9 】。 美国国家标准化组织( a n s i ) 在2 0 0 5 年认可了对象存储接i z l 规范( o s d t - i o ) ,这将利于对象存储技术得到更广泛的研究和利用。学术研究的热点之一 是存储的智能化。c m u 的p d l 在继续研究具有s e l f - m a n a g i n g 、s e l f - c o n f i g u r i n g 、 s e l f - o r g a n i z i n g 、s e l f - t u n i n g 、s e l f - h e a l i n g 功能的s e l f - 存储,这种存储的s e l f - 特性 也是存储的智能化的代表,这些特性可以使得操作系统获取更好的存储性能。 威斯康星大学的研究人员采用了另外一种方式,试图分析智能磁盘系统的语 义,学习文件系统的数据结构。 在c m un a s d 项目的基础上,两个基于对象存储设备的分布式文件系统: 1 0 哈尔滨工程大学硕士学佗论文 p a n a s a s 公司的o b j e c tb a s es t o r a g ec l u s t e rs y s t e m 和c l u s t e rf i l es y s t e m s 公司的 l u s t r e 由此诞生。两个项目的创始人p e t e rj b r a a m 和g a r t hg i b s o n 也都曾经是 该项目研究成员。 2 1 o s d 基于对象的存储设备 在s a n 上建立文件系统可以解决关于网络存储的很多问题,譬如高性能、 高扩展、跨平台的数据共享等,但并不是解决了所有的问题。遗留的两个主要 问题是: 1 、服务器的管理工作任务较重,仍然是系统的瓶颈 在扩展性很好的半集中式文件系统中,元数据服务器的任务是管理文件系 统的名字空间和存储空间。当存储容量达到p b 级时,元数据服务器的管理工 作量就会到不能承受的地步。显然,元数据服务器不能承受这么大空间的分配、 释放和查找等。 2 、不能照顾到安全问题 在d a s 和n a s 中,安全问题不难解决:存储设备只与服务器相连,其它 机器必须经过服务器许可才能直接访问存储设备,因此安全问题在服务器的控 制之内。在s a n 中,任何与s a n 直接相连的计算机都可以直接读取存储设备 中所有数据,不能保证数据的安全性。所以,s a n 固有的问题就是安全问题。 o s d 最大的优点在于它结合了n a s 的数据共享和s a n 的可扩展性。对象 存储系统同时解决了数据存储的问题和数据安全性的问题。通常在保护系统的 安全性方面,不管在文件服务器内用的是f cs a n 还是s c s i 阵列,存储都依 赖于客户端和私有网络的认证。对象存储体系结构在各个级别上都提供了安全 性认证:对存储设备的认证;对计算节点的认证;对计算节点命令的认证;用 c r c 对所有命令进行完整性检查;数据和命令经由p 的私有性。用户对这样 的安全水平更有信心,从而他们可以用更实惠高效、可管理、访问容易的网络 ( 如以太网) ,作为存储的传输工具,同时整个存储体系的安全性也有所提高。 哈尔滨工程大学硕十学位论文 2 1 1 存储对象 存储的基础架构就是块,对块的管理非常简单。全球第一个磁盘存储技术 诞生于5 0 年前,但是直到现在,块的技术并没有发生太大突破性的发展。磁 盘生产工业遍及全球。最近几年,存储虚拟化和数据整合的新概念在存储行业 兴起,其中数据还是通过网络以块的形式进行读、写操作。 在满足数据可扩展性和数据安全性方面,块形式的存储日益显现出其局限 性和不足。国际上有通过命令集来区分的两类网络化存储架构:第一类是在高 性能计算中占有一席之地的s a n ( s t o r a g e a r e a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年工业互联网平台入侵检测系统智能化检测与响应优化
- 2025年文化娱乐产业消费者行为分析:市场细分与竞争策略001
- 2026届内蒙古喀喇沁旗锦山蒙古族中学化学高二上期中学业水平测试模拟试题含解析
- 现代诗歌批评性鉴赏课件
- 2025年高中地理教师资格证考试教育评价方法押题真题试卷
- 2026届河北省唐山市重点初中高二化学第一学期期末质量跟踪监视模拟试题含答案
- 2026届四川省广安遂宁资阳等六市化学高二上期末教学质量检测试题含答案
- 2026届陕西省延安市吴起县高级中学化学高三上期末综合测试试题含解析
- 眼睛科普问答题目及答案
- 2026届嘉峪关市重点中学化学高一第一学期期中学业水平测试模拟试题含解析
- 急性st段抬高型心肌梗死
- 幼儿文学课件完整版
- DB6101T3128-2022养老服务规范 助餐服务
- GB/T 21709.8-2008针灸技术操作规范第8部分:皮内针
- 资本论第三卷讲义课件
- 离心式压缩机试车记录
- 穴位敷贴中医护理技术操作规范
- 冷却塔投标文件
- 地下室开槽引流方案
- 青年教师专业成长课题结题报告
- 农村公路安全生命防护工程施工方案
评论
0/150
提交评论