




已阅读5页,还剩62页未读, 继续免费阅读
(管理科学与工程专业论文)基于HDFS的云存储服务系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 随着互联网技术的飞速发展,数据量呈现出爆炸性增长的趋势,企业面临着 海量数据管理困难、数据存储成本高、可靠性低等难题。越来越多的企业开始将 数据存储分离出来,向专业云存储服务供应商寻求帮助以进行数据的分布式管理。 云存储服务具有高可靠性、高通用性、高扩展性及大容量存储等特点,因此进行 云存储服务系统的研究不仅紧跟i t 技术发展的趋势,而且具有较高的应用价值。 本文的研究内容为基于h d f s 的云存储服务系统研究,旨在通过构建基于 h d f s 的云存储服务系统,解决企业的海量数据存储难题,降低实施分布式文件系 统的成本,促进h a d o o p 技术的推广。云存储是在当前广泛讨论的云计算概念上延 伸和发展出来的,可以将网络中大量不同类型的存储设备进行整合,从而对外提 供数据存储和业务访问的功能。h a d o o p 分布式文件系统( h a d o o pd i s t r i b u t e df i l e s y s t e m ,h d f s ) 是开源云计算软件平台h a d o o p 框架的底层实现部分,具有高传输 率、高容错性等特点,可以以流的形式访问文件系统中的数据,从而解决访问速 度和安全性问题,实现海量数据的存储管理。 本文首先阐述了云存储的相关理论,介绍了云存储的定义、云存储系统结构 和云存储服务系统的应用等内容;接着对h d f s 数据管理机制及其实现技术进行 了详细分析,为论文下一步的研究提供了技术保障;最后,通过结合实际需求, 在对某云存储服务系统业务分析的基础上,对服务系统存储体系结构、功能结构、 数据库及运行环境进行了设计,并对该系统加以实现,从而为企业海量数据存储 提供了一个有效的解决方案。 本文主要实现了一个面向企业应用的云存储服务系统,解决了大规模非结构 化数据的在线存储、查询、备份等问题,为企业应用提供了高效能、高可靠性的 服务。尽管云存储服务系统目前已经取得了一定的研究成果,但对于如何保障云 中数据的安全和隐私这一问题,仍是今后研究的重点,也是亟待解决的难题。 关键词:h a d o o p ;h d f s ;云存储;云存储服务系统 英文摘要 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e m e t t e c h n o l o g y , d a t av o l u m es h o w st h e t e n d e n c yo fe x p l o s i v eg r o w t h t h ee n t e r p r i s e sf a c em a n yp r o b l e m sl i k ed i f f i c u l t yo f m a n a g i n gm a s s i v ed a t a , h i g hc o s to fd a t as t o r a g ea n dl o wl i a b i l i t y m o r ea n dm o r e e n t e r p r i s e sb e g i nt om a n a g ed a t as t o r a g es e p a r a t e l y t h e yt u r nt op r o f e s s i o n a ls e r v i c e p r o v i d e r so fc l o u ds t o r a g ef o rh e l pi no r d e rt oc o n d u c td a t ad i s t r i b u t e dm a n a g e m e n t c l o u ds t o r a g es e r v i c eh a st h ec h a r a c t e r i s t i c so fh i 曲l i a b i l i t y , h i g hv e r s a t i l i t y , h i 曲 s c a l a b i l i t ya n dm a s s i v es t o r a g e t h e r e f o r e ,t h er e s e a r c ho nt h es y s t e mo fc l o u ds t o r a g e s e r v i c ec a nn o to n l yf o l l o wt h en e wt r e n do fi tt e c h n o l o g y , b u ta l s oi sm e a n i n g f u la n d f u l lo fa p p l i c a t i o nv a l u e t h et h e s i ss t u d i e sc l o u ds t o r a g es e r v i c es y s t e mb a s e do nh d f s i ta i m st os o l v e e n t e r p r i s e s p r o b l e mo fm a s s i v ed a t as t o r a g ea n dr e d u c ec o s to fa p p l y i n gd i s t r i b u t e df i l e s y s t e ma n dp r o m o t et h eh a d o o pt e c h n o l o g yb yc o n d u c t i n gac l o u ds t o r a g es e r v i c e s y s t e mb a s e do nh d f s c l o u ds t o r a g ed e r i v e sf r o mt h ee x t e n s i v e l yd i s c u s s e dc o n c e p t o fc l o u dc o m p u t i n g i tc a ns y n t h e s i z ea l a r g en u m b e ro fs t o r a g ee q u i p m e n t si nd i f f e r e n t s i z e s ,a n dt h e r e f o r eh a st h ef u n c t i o no fp r o v i d i n gd a t as t o r a g ea n db u s i n e s sa c c e s s o u t s i d e h d f si st h eb a s i cp a r to fh a d o o pf r a m e w o r kw h i c hi sa no p e ns o u r c es o f t w a r e p l a t f o r mo fc l o u dc 0 m p u t i n g i th a st h ec h a r a c t e r i s t i c so fh i g ht r a n s m i s s i o nr a t ea n d 1 1 i g hf a u l t - t o l e r a n c e i tc a l lv i s i tt h ed a t ai nt h ef i l es y s t e mi nt h ef o r mo fd a t af l o w i n t h i sw a yi ts o l v e st h es p e e da n ds e c u r i t yp r o b l e m sa n da c h i e v e ss t o m g em a n a g e m e n to f m a s s i v ed a t a f i r s t l y , t h et h e s i se x p o u n d st h et h e o r yo fc l o u ds t o r a g ei n c l u d i n gt h ed e f i n i t i o no f c l o u ds t o r a g e ,s t r u c t u r ea n da p p l i c a t i o no fc l o u ds t o r a g es y s t e m s e c o n d l y , t h et h e s i s a n a l y z e sh d f sd a t am a n a g e m e n tm e c h a n i s ma n di t si m p l e m e n t a t i o nt e c h n i q u e si n d e t a i lt op r o v i d et e c h n i c a ls u p p o r tf o rt i l ef o l l o w i n gr e s e a r c h e s f i n a l l y , c o m b i n i n gw i t h t h ea c t u a ln e e da n dm a k i n gb u s i n e s sa n a l y s i so ft h ec l o u ds t o r a g es e r v i c es y s t e m ,t h e t h e s i sh a sd e s i g n e dt h es y s t e ma r c h i t e c t u r e ,t h ef u n c t i o n a l s t r u c t u r e ,d a t a b a s ea n d o p e r a t i n ge n v i r o n m e n to ft h ec l o u ds t o r a g es e r v i c es y s t e m a f t e rt h a t , t h es y s t e mi s m a d ei n t or e a l i t y t h u s ,a l le f f e c t i v es o l u t i o ni sp r o v i d e dt oe n t e r p r i s e st os o l v em a s s i v e d a t as t o r a g ep r o b l e m 1 1 1 em 咖p u r p o s eo ft h et h e s i si st oa c h i e v eac l o u ds t o r a g es e r v i c es y s t e mf a c i n g e n t e r p r i s e sa p p l i c a t i o nt os o l v ep r o b l e m sl i k eu n s t r u c t u r e dd a t ao n l i n e s t o r a g e ,q u e r y a n db a c k u p s o m ep r o g r e s sh a sb e e nm a d eo nr e s e a r c ho fc l o u ds t o r a g e s e r v i c es y s t e m , h o w e v e r ,h o wt op r o t e c ts e c u r i t ya n dp r i v a c yo f d a t ai nt h ec l o u di ss t i l lak e yp o i n ta n d a nu r g e n tp r o b l e mo ff u t u r er e s e a r c h k e yw o r d s :h a d o o p ;i - i d f s ;c l o u ds t o r a g e ;c l o u ds t o r a g e s e r v i c es y s t e m 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成博硕士学位论文= = 基王旦q 墨鲍云在链腿釜丕统硒究 : 。除论文 中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均己在文 中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公 开发表或未公开发表的成果。本声明的法律责任由本人承担。 学位论文作者签名:盔亟墨 学位论文版权使用授权书 本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学 位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论 文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫 描等复制手段保存和汇编学位论文。同意将本学位论文收录到中国优秀博硕士 学位论文全文数据库( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论 文全文数据库( 中国科学技术信息研究所) 等数据库中,并以电子出版物形式 出版发行和提供信息服务。保密的论文在解密后遵守此规定。 本学位论文属于:保密口在年解密后适用本授权书。 不保密口( 请在以上方框内打“ ) 论文作者签名:袭嘲磊 导师签名:谰和殉 日期:加l o 年6 月沼日 基于h d f s 的云存储服务系统研究 1 1 研究背景 第1 章绪论 1 1 1 云存储的兴起 随着i n t e m e t 技术的发展,信息量呈爆炸性增长,数据存储逐渐成为制约企业 发展的关键问题。越来越多的企业开始将数据存储分离出来作为独立的项目进行 管理。高可靠性、高通用性、高扩展性、大容量,云存储以传统数据中心无法比 拟的优势特性,正在成为企业实现提高效率、降低成本的重要选择。 云存储是在云计算( c l o u dc o m p u t i n g ) 概念上延伸和发展出来的一个新的概念, 因此要了解云存储首先要了解云计算。云计算【1 j 是一种基于因特网的超级计算模 式,在远程的数据中心里,成千上万台电脑和服务器连接成一片电脑云。因此, 云计算甚至可以让你体验每秒1 0 万亿次的运算能力,拥有这么强大的计算能力可 以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等 方式接入数据中心,按自己的需求进行运算。随着云计算概念的逐步深入,人们 开始为海量信息寻找一个新的安身之处一云存储。 云存储( c l o u ds t o r a g e ) 从一出现就得到广泛的关注和支持。云存储【2 j 的概念 与云计算类似,它是指通过集群应用、网格技术或分布式文件系统等功能,将网 络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提 供数据存储和业务访问功能的一个系统。 云存储的兴起使得整个i t 界处于一个重大的变革期,从以设备应用程序为中 心转向以信息为中心,而这一转变还将引发一系列的变革,并影响到技术和业务 模式两个层面。云存储的最大特点是海量、高性能高访问量以及低成本,而其带 来的最大变革是,提供商逐渐从销售工具转向根据工具的实际使用收费,也就是 从卖产品转向了卖服务。因此,可以说云存储不是存储而是服务。 云存储还具有如下的特点:超强的可扩展性、不受具体地理位置所限、基于 商业组件、按照使用收费( 如每g 收1 5 美分) 、可跨不同应用等。 下面对各大公司的云存储产品作一个简要的介绍,以了解云存储的发展状况。 第l 章绪论 ( 1 ) 亚马逊的策略 亚马逊是最早推出云存储服务的企业。亚马逊最早推出的云计算服务是亚马 逊网络服务p j ( a m a z o n w e bs e r v i c e s ,a w s ) ,该云计算服务由4 个核心组件组成: 简单排列服务1 4 】( s i m p l eq u e u i n gs e r v i c e ) ,简单存储服务【5 1 ( s i m p l es t o r a g e s e r v i c e ) ,弹性计算爿6 ( e l a s t i cc o m p u t ec l o u d ,e c 2 ) 和还处于测试的s i m p l e d b t 7 1 。 2 0 0 8 年8 月,亚马逊为了增强它在云存储战略上的努力,其互联网服务部门 将“持续存储”功能添加到弹性计算云( e c 2 ) 中。该厂商推出了弹性块存储8 1 ( e l a s t i cb l o c ks t o r a g e ,e b s ) 产品,并声称这个产品可以通过互联网服务形式同 时提供存储和计算功能。 ( 2 ) n i r v a n i x 9 1 和c d n e t w o r k s 1 0 】的策略 著名的云存储平台服务商n i r v a n i x 和内容分发网络服务提供商c d n e t w o r k s 双方发布了一项新的合作,并宣布结成战略伙伴关系,以提供业界目前唯一的云 存储和内容传送服务集成平台。利用其位于全球各处的6 3 个内容分发节点, c d n e t w o r k s 的用户能够在互联网上存储无限量的数据,并获得良好的数据保护和 数据安全性保证。双方的合作将带给c d n e t w o r k s 在云存储方面与n i r v a n i x 相同的 能力,不仅能够安全的存储大量的媒体内容,而且依靠c d n e t w o r k s 的数据中心可 以向世界任何地方实时的交付数据,这两家公司表示,基于这种合作伙伴关系之 下的合作,使得c d n e t w o r k s 拥有更好的整体媒体交付能力,也帮助用户节省了 8 0 9 0 的建设自身的存储基础设施的成本。而c d n e t w o r k s 的内容分发网络所 带来的价格和性能上的优势,将帮助用户更快的迁移到n i r v a n i x 云存储平台上去。 c d n e t w o r k sl i b r a r ys t o r a g es o l u t i o n 将提供地理意义上的冗余存储节点,并且 没有文件大小限制,以及从云存储网络的服务器中1 0 0 可靠的内容卸载。 ( 3 ) g o o g l e 的策略 g o o g l e 公司在今年的i o 开发者技术大会上宣布推出名为“g o o g l e s t o r a g e 】”的云计算存储服务,以向亚马逊的s 3 云存储服务发起挑战。从功能设 计上看,g o o g l es t o r a g e 将参考亚马逊s 3 ,以方便现有s 3 用户转用g o o g l es t o r a g e 服务。g o o g l es t o r a g e 服务将包括r e s ta p i 协议,以允许开发者通过谷歌账号提 基于h d f s 的云存储服务系统研究 供验证下载、数据备份服务。此外,谷歌还将向外部开发者提供数据管理工具和 网络用户界面。 ( 4 ) 微软的策略 2 0 0 7 年8 月1 0 日,微软就已经推出了提供网络移动硬盘服务的w i n d o w sl i v e s k y d r i v eb e t a 1 2 1 测试版。2 0 0 8 年2 月2 2 日,微软网络硬盘服务“w i n d o w sl i v e s k y d r i v e 结束b e t a 测试,推出了正式版本,提供5 g b 网络存储空间的同时面向 3 5 个新的国家和地区开放。 ( 5 ) e m c 的策略 e m c 推出的a t m o s l l 3 】的云存储基础架构解决方案是一种基于策略的管理系 统,让服务提供了可以建立不同类别云存储的能力,比如说,其可以为非付费用 户创建文件的两个副本,并存储在全球不同的地点,并为付费用户创建5 1 0 份 备份进行存储,并提供了其在全球各地访问文件的更高的可靠性和更快的访问。 在软件系统中,a t m o s 包括数据服务,如复制、数据压缩、重复数据删除,通过廉 价的标准x 8 6 服务器从而获得数百t b 的硬盘存储空间。e m c 承诺说其拥有自动 配置新的存储空间并自适应硬件故障的能力,也允许用户使用w e b 服务协议进行 管理和读取。目前a t m o s 有三个版本,系统容量分别为1 2 0 t b 、2 4 0 t b 和3 6 0 t b , 它们全部都基于x 8 6 服务器并支持千兆或1 0 g b 以太网连接。 ( 6 ) i b m 的策略 x i v 1 4 1 是i b m 提供的新一代存储产品。它采用网格技术,极大的提高了数据 的可靠性、容量的可扩展性、系统的可管理性。x i v 是在传统的存储设备以上的 升级,它具有海量存储设备+ 大容量文件系统+ 高吞吐量互联网数据访问接口+ 管理 系统的设计特征。x i v 由于其独特的设计,使之天生就具备海量的存储能力与强 大的可扩展性,能够满足各种w e b 2 0 应用的需求,是一个理想的实现云存储的产 品。 ( 7 ) 惠普的策略 e x d s 9 1 0 0 t 1 5 】( h ps t o r a g e w o r k s9 1 0 0e x t r e m ed a t as t o r a g e ) 是针对文件内容的 海量可扩展存储系统,该系统结合了惠普p o l ys e r v e 软件、b l a d es y s t e m 底盘以及 第1 章绪论 刀片服务器以提高性能,还使用了被称为“块”的存储,这些块在同一个容器中包含 了8 2 个1 t b 的s a s 驱动器。e x d s 9 1 0 0 专为简化p b 级数据管理而设计,为w e b 2 0 及数字媒体公司提供全新的商业服务,包括图片共享、流媒体、视频自选节目及 社交网络,其所提供的以文档为基础的数据完全可以满足即时存储与管理的需要, 同时可满足石油及天然气生产、安全监控及基因研究等大型企业的类似需求。 1 1 2 集群存储技术的发展 云存储的兴起正在颠覆现有的网络存储架构。面对当前p b 级的海量存储需 求,传统的s a n l l 6 1 或n a s1 1 7 1 在容量和性能的扩展上会存在瓶颈。如受到其物理组 成( 如:磁盘驱动器的数量、所连接服务器的数量和内存大小和控制器性能) 的 限制,会造成很多功能上的局限( 如:支持文件系统的数量,快照或复制的数量 等) 。一旦遇到存储系统的瓶颈,就会不断地促使用户升级到更大的存储系统和添 加更多的管理工具,由此增加了成本。云存储这种新型的服务模式必然要求存储 架构保持极低的成本,而现有的一些高端存储设备显然还不能满足这种需求。从 谷歌公司的实践来看,它们在现有的云计算环境中并没有采用s a n 架构f 1 8 ,而是 使用了可扩展的分布式文件系统( g o o g l ef i l es y s t e m ,g f s ) 。这是一种高效的集 群存储技术。 g f s l l 9 1 是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数 据进行访问的应用。它运行在普通的p c 机上,但可以提供强大的容错功能,可以 给大量的用户提供总体性能较高的服务。 今天,互联网上【2 0 】处理的非结构化文件数量非常庞大,频繁的数据传送对i o 性能要求非常高,传统的存储架构对此已无能为力。近几年逐渐兴起的集群存储 技术,不仅轻松突破了s a n 的性能瓶颈,而且可以实现性能与容量的线性扩展, 这对于追求高性能、高可用性的企业用户来说是一个新选择。目前常见的集群存 储技术除了g o o g l e 的g f s 以外,还有a d i c 的s t o r n e x t f s l 2 ,c l u s t e rf i l es y s t e m s 的l u s t r e 2 2 1 ,i b m 的t o t a ls t o r a g es a nf i l es y s t e m l 2 3 】以及r e d h a t 的g l o b a lf i l e s y s t e m l 2 4 1 。 基于h d f s 的云存储服务系统研究 1 2 研究意义 h a d o o p 是a p a c h e 开源组织口5 】的一个分布式计算开源框架,它可以运行在大 中型集群的廉价硬件设备上,为应用程序提供了一组稳定可靠的接口。同时,它 是g o o g l e 集群系统的一个开源项目总称,g o o g l e 集群系统【2 6 】是使用低成本的成熟 技术构建的一个稳定、高性能、高可用性、可扩展的系统,它的底层是g o o g l e 文 件系统( g o o g l ef i l es y s t e m ,g f s ) 。h d f s 是g f s 的开源实现,它是h a d o o p 的底 层实现部分,存储h a d o o p 集群中所有存储节点上的文件。 h a d o o p 平台【2 7 1 虽然是一项新兴的技术,但它的发展非常迅速,究其原因首先 在于它将并行计算“平民化 ,它对程序员屏蔽了并行应用开发的细节,程序员只 需将精力放在业务逻辑上。其次h a d o o p 平台可以运行在普通的p c 机群上,极大 地降低开发成本,这也让个人研究、实施分布式系统更加容易。 总的来说,本文有以下几方面的意义: ( 1 ) 现代企业的数据量十分庞大,如何对海量数据进行有效管理成为了企业 的关键问题。如果利用云存储技术解决这个问题,无疑会提高企业的经济效益。 ( 2 ) h d f s 可以实施运行在普通的p c 集群上,极大降低了实施运行分布式 系统的成本。 ( 3 ) 对h d f s 的研究方法可以推广到别的集群存储技术研究上,为下一步研 究打好基础。 ( 4 ) h a d o o p 平台还没有被广泛地应用于各行各业,一旦我们在基于h d f s 的云存储应用研究取得一定的成效,就会对h a d o o p 技术起到推广作用。 1 3 研究内容和论文结构 本文研究内容是基于h d f s 的云存储服务系统研究,满足企业对海量数据量 进行高效存储的需求。解决海量数据存储问题,如果仅仅依靠企业自身不断的硬 件升级,提高机器性能来支持,必然会造成成本的巨额增加,而其基于大型机的 架构不能随着数据量和访问量的增长而现行扩展。为了缓解甚至解决这个问题, 论文提出了构建基于h d f s 的云存储服务系统的解决方案。本文将从以下几个方 面展开研究: 第1 章绪论 ( 1 ) 学习云存储的相关理论,分析云存储的发展现状、研究意义以及概念等 内容,总结出云存储系统的结构模型以及应用情况等。 ( 2 ) 对h d f s 整体框架的数据管理机制进行分析,介绍其中的名称节点、数 据节点以及数据交互、组织和维护等内容;同时,对数据管理实现的技术方法进 行分析设计,为构建一个云存储服务系统奠定基础。 ( 3 ) 结合云存储的特点和h d f s 框架关键数据管理机制的研究,通过系统需 求的分析,设计出云存储的体系结构、系统功能、数据库结构以及运行环境,构 建出一个基于h d f s 的云存储服务系统。 以下是本文的章节安排: 第1 章,绪论。介绍了研究背景、研究意义、研究内容以及文章的论文结构。 第2 章,云存储相关理论。本章简述云存储的相关理论,介绍了云存储与云 计算间的关系,分析了云存储服务系统的结构模型和关键实现技术,以及云存储 系统的应用情况等。 第3 章,h d f s 数据管理机制分析。对于云存储服务来说,h a d o o p 是应用最 为广泛的开源框架,而h d f s 是h a d o o p 的底部实现,本章介绍了该框架的数据管 理机制,概括了名称节点、数据节点等概念,分析出数据组织、数据交互以及数 据维护的机制。 第4 章,h d f s 数据管理实现的技术方法。本章在第三章对h d f s 数据管理机 制分析的基础上,详细介绍了h d f s 数据管理机制的具体实现技术与方法。 第5 章,基于h d f s 的云存储服务系统的设计与实现。本章在对某云存储服 务系统业务分析的基础上,对服务系统存储体系结构、功能结构、数据库及运行 环境进行了设计,并对该系统加以实现,从而构建了一个基于h d f s 的云存储服 务系统。 第6 章,总结和展望。指出了本次研究工作所取得的主要成果并提出今后进 一步研究和发展的方向。 基于h d f s 的云存储服务系统研究 2 1 云存储概述 第2 章云存储相关理论 2 1 1 云存储的概念 云存储的概念与云计算相似,它是指通过集群应用、网格技术或分布式文件 系统【2 9 1 等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协 同工作,共同对外提供数据存储和业务访问功能的一个系统。 云存储3 0 不是存储,而是服务。就如同云状的广域网和互联网一样,云存储 对使用者来讲,不是指某一个具体的设备,而是指一个由许许多多个存储设备和 服务器所构成的集合体。使用者使用云存储,并不是使用某一个存储设备,而是 使用整个云存储系统带来的一种数据访问服务。所以严格来讲,云存储不是存储, 而是一种服务。云存储的核心是应用软件与存储设备相结合,通过应用软件来实 现存储设备向存储服务的转变。 2 1 2 云存储和云计算的关系 云计算是分布式处理【3 l j ( d i s t r i b u t e dc o m p u t i n g ) 、并行处理( 3 2 】( p a r a l l e l c o m p u t i n g ) 和网格计算( g r i dc o m p u t i n g ) 的发展,是透过网络将庞大的计算 处理程序自动分拆成无数个较小的子程序,再交由多台服务器所组成的庞大系统 经计算分析之后将处理结果回传给用户。云计算技术【3 4 】可以让网络服务提供者在 极短时间,例如数秒之内处理数以千万计甚至亿计的信息,达到和“超级计算机1 3 5 】” 同样强大的网络服务。云计算系统的建设目标是将运行在p c 上或单个服务器上的 独立的、个人化的运算迁移到一个数量庞大服务器“云 中,由这个云系统来负 责处理用户的请求,并输出结果,它是个以数据运算和处理为核心的系统。 云存储是在云计算( c l o u dc o m p u t i n g ) 概念上延伸和发展出来的一个新的概念。 当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需 要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存 储是一个以数据存储和管理为核心的云计算系统。 与云计算系统相比,云存储可以认为是配置了大容量存储空间的一个云计算 第2 章云存储相关理论 系统。从架构模型来看,云存储系统比云计算系统多了一个存储层,同时,在基 础管理也多了很多与数据管理和数据安全有关的功能,这两者在访问层和应用接 口层则是完全相同的。 2 2 云存储系统分析 2 2 1 云存储系统的结构模型 与传统的存储设备相比,云存储不仅仅是一个硬件,而是一个网络设备、存 储设备、服务器、应用软件、公用访问接口、接入网、和客户端程序等多个部分 组成的复杂系统。各部分以存储设备为核心,通过应用软件来对外提供数据存储 和业务访问服务。云存储系统的结构模型【3 6 】由4 层组成。 ( 1 ) 存储层 存储层是云存储最基础的部分。存储设备可以是光纤通道存储设备,也可以 是其他的存储设备。云存储中的存储设备往往数量庞大且分布多不同地域,彼此 之间通过广域网、互联网或者光纤通道网络连接在一起。存储设备之上是一个统 一存储设备管理系统,可以实现存储设备的逻辑虚拟化管理【3 7 】、多链路冗余管理 【3 8 】,以及硬件设备的状态监控和故障维护。 ( 2 ) 基础管理层 基础管理层是云存储最核心的部分,也是云存储中最难以实现的部分。基础 管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设 备之间的协同工作,使多个存储设备可以对外提供同一种服务,并提供更大更强 更好的数据访问性能。c d n 内容分发系统【3 9 j 、数据加密技术【4 0 】保证云存储中的数 据不会被未授权的用户所访问,同时,通过各种数据备份【4 l 】和容灾技术【4 2 1 和措施 可以保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。 ( 3 ) 应用接口层 应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实 际业务类型,开发不同的应用服务接口,提供不同的应用服务。比如视频监控应 用平台【4 3 】、网络硬盘引用平台、远程数据备份应用平台等。 ( 4 ) 访问层 基于h d f s 的云存储服务系统研究 任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受 云存储服务。云存储运营服务商不同,云存储提供的访问类型和访问手段也不同。 2 2 2 云存储实现的关键技术 从云存储的结构模型可知,云存储系统是一个多设备、多应用、多服务协同 工作的集合体,它的实现要以多种技术的发展为前提。 ( 1 ) 宽带网络的发展 真正的云存储系统将会是一个多区域分布、遍布全国、甚至于遍布全球的庞 大公用系统。只有宽带网络得到充足的发展,使用者才有可能获得足够大的数据 传输带宽,实现大容量数据的传输,真正享受到云存储服务。 ( 2 ) w e b 2 0 技术 w e b 2 0 技术【删的核心是分享。只有通过w e b 2 0 技术,云存储的使用者才有 可能通过p c 、手机、移动多媒体等多种设备,实现数据、文档、图片、视频和音 频等内容的集中存储和资料共享。w e b 2 0 技术的发展使得使用者的应用方式和可 得服务更加灵活和多样。 ( 3 ) 应用存储的发展 应用存储是一种在存储设备中集成了应用软件功能的存储设备,它不仅具有 数据存储功能,还具有应用软件功能,可以看作是服务器和存储设备的集合体。 应用存储技术的发展可以大量减少云存储中服务器的数量,从而降低系统建设成 本,减少系统中由服务器造成的单点故障和性能瓶颈,减少数据传输环节,提高 系统性能和效率,保证整个系统的高效稳定运行。 ( 4 ) 集群技术、网格技术和分布式文件系统 云存储系统是一个多存储设备、多应用、多服务协同工作的集合体,它需要 通过集群技术、分布式文件系统和网格计算等技术,实现多个存储设备之间的协 同工作,使多个存储设备可以对外提供同一种服务,并提供更大更强更好的数据 访问性能。 ( 5 ) c d n 内容分发、p 2 p 技术0 4 5 1 、数据压缩技术、重复数据删除技术、数据 加密技术。c d n 内容分发系统、数据加密技术保证云存储中的数据不会被未授权 第2 章云存储相关理论 的用户所访问,同时,通过各种数据备份和容灾技术保证云存储中的数据不会丢 失,保证云存储自身的安全和稳定。 ( 6 ) 存储虚拟化技术、存储网络化管理技术 云存储中的存储设备数量庞大且分布在多不同地域,如何实现不同厂商、不 同型号甚至于不同类型( 如f c 存储和i p 存储) 的多台设备之间的逻辑卷管理、 存储虚拟化管理和多链路冗余管理将会是一个巨大的难题,这个问题得不到解决, 存储设备就会是整个云存储系统的性能瓶颈,结构上也无法形成一个整体,而且 还会带来后期容量和性能扩展难等问题。 2 3 云存储服务系统应用 从云存储的结构模型可知,云存储能提供什么样的服务取决于云存储架构的 应用接口层中内嵌了什么类型的应用软件和服务。不同类型的云存储服务提供商 对外提供的服务也不同,根据服务类型和面向的用户不同,云存储的应用【4 6 1 可以 分为个人级应用和企业级应用。 2 3 1 个人级云存储应用 ( 1 ) 网络磁盘 网络磁盘【4 7 1 是一种在线存储服务,使用者可通过w e b 访问方式来上传和下载 文件,实现个人重要数据的网络化存储和备份。高级的网络磁盘可以提供w e b 页 面和客户端软件两种访问方式。网络磁盘的容量空间一般取决于服务商的服务策 略,或取决于使用者向服务商支付的费用多少。 ( 2 ) 在线文档编辑 在线文档编辑不再需要在个人p c 上安装o f f i c e 等软件,只需要打开g o o g l e d o e s 4 8 网页,通过g o o g l ed o e s 就可以进行文档编辑和修改( 使用云计算系统) ,并 将编辑完成的文档保存在g o o g l ed o e s 服务所提供的个人存储空间中( 使用云存储 系统) 。无论我们走n 啄j u l ,都可以再次登录g o o g l ed o e s ,打开保存在云存储系统 中的文档。通过云存储系统的权限管理功能,还能轻松实现文档的共享、传送以 及版权管理。 ( 3 ) 在线的网络游戏 基于h d f s 的云存储服务系统研究 我们可以通过云计算和云存储系统来构建一个庞大的、超能的游戏服务器群, 这个服务器群系统对于游戏玩家来讲,就如同是一台服务器,所有玩家在一起进 行竞争。云计算和云存储的应用,可以代替现有的多服务器架构【4 9 1 ,使所有玩家 都能集中在一个游戏服务器组的管理之下。同时,云计算和云存储系统的使用可 在最大限度上提升游戏服务器的性能,实现更多的功能。 2 3 2 企业级云存储应用 从目前不同行业的存储应用现状来看,下述系统将可能很快进入云存储时代。 ( 1 ) 企业空间租赁服务 信息化的不断发展使得企业的信息数据量呈几何级数增长。通过高性能、大 容量云存储系统,数据业务运营商和i d c 数据中心可以为无法单独购买大容量存 储设备的企事业单位提供方便快捷的空间租赁服务,满足企事业单位不断增加的 业务数据存储需求。 ( 2 ) 企业级远程数据备份和容灾 通过高性能、大容量云存储系统和远程数据备份软件,数据业务运营商和数 据中心可以为所有需要远程数据备份和容灾的企事业单位提供空间租赁和备份业 务租赁服务。普通的企事业单位、中小企业可租用数据中心提供的空间服务和远 程数据备份服务功能,建立自己的远程备份和容灾系统,以保证当本地发生重大 的灾难时,可通过远程备份或远程容灾系统进行快速恢复。 ( 3 ) 视频监控系统 建立一个遍布全国的云存储系统,在这个云存储系统中可以内嵌视频监控平 台管理软件,建设全球眼【5 0 】或宽视界【5 1 1 系统。系统的建设者只需要安装 摄像头和编码器等前端设备,并为每一个编码器、i p 摄像头分配一个带宽足够的 接入网链路,通过接入网与云存储系统连接,实时的视频图像就可以很方便地保 存到云存储中,并通过视频监控平台管理软件实现图像的管理和调用。 第3 章h d f s 数据管理机制分析 第3 章h d f s 数据管理机制分析 h a d o o p 文件系统( h a d o o p d i s t r i b u t e df i l es y s t e m ,h d f s ) 和现有的分布式文 件系统相似,是一个运行在普通的硬件之上的分布式文件系统,然而它与其他分 布式文件系统也存在着一定的差别。h d f s 具有高容错性,可以部署在低成本的硬 件之上,同时h d f s 放松了对p o s i x 的需求,使其可以以流的形式访问文件数据, 从而提供高吞吐量地对应用程序的数据进行访问,适合大数据集的应用程序。 h d f s 最早是为开源的a p a c h e 项目n u t c h 5 2 j 的基础结构而创建,是h a d o o p 项目的 一部分,而h a d o o p 又是l u c e n e 5 3 1 的一部分。图3 1 为h d f s 的体系结构图: 图3 1 i d f s 体系结构图 f i g 3 1a r c h i t e c t u r eo fh d f s 由图3 1 可知,名称结点( 下称n a m e n o d e ) 上保存着控制数据结点( 下称 d a t a n o d e ) 信息的元数据。客户端c l i e n t 可以通过n a m e n o d e 对元数据进行操作, 也可以直接对d a t a n o d e 进行读和写操作。下面将对h d f s 进行全方面的剖析与介 绍,以便深入地理解h d f s 的体系架构刚和工作机制【5 5 】。 3 1 名称节点和数据节点 h d f s 的体系框架是主从结构,一个h d f s 集群通常由单个n a m e n o d e 和多个 d a t a n o d e 组成,n a m e n o d e 主要负责管理文件命名空间和客户端访问的主服务器, 基于h d f s 的云存储服务系统研究 而d a t a n o d e 则负责对存储进行管理。下面来详细介绍n a m e n o d e 和d a t a n o d e 的 功能。 n a m e n o d e 的功能由如下几点组成: ( 1 ) 管理元数据和文件块 管理元数据指管理元数据信息。元数据信息包括名字空间、文件到文件块的 映射、文件块到数据节点的映射三部分。管理文件块包括创建新文件块、文件复 制、移除无效文件块以及回收孤立文件块等内容。 ( 2 ) 管理命名空间 n a m e n o d e 管理文件系统的命名空间。任何对文件系统元数据产生修改的操 作,n a m e n o d e 都会使用事务日志记录( 下称e d i t l o g ) 来表示;同样地,修改文 件的副本系数也将往e d i t l o g 插入一条记录,n a m e n o d e 将e d i t l o g 存储在本地操作 系统的文件系统中。同时,文件系统的命名空间被存储在一个称为f s l m a g e 的文 件中,包括文件的属性、文件块到文件的映射以及文件块到数据节点的映射等内 容,f s i m a g e 文件也是放在n a m e n o d e 所在的本地文件系统中。 ( 3 ) 监听请求和处理请求 监听请求指监听客户端事件和d a t a n o d e 事件。客户端事件包含名字空间的创 建和删除,文件的创建、读写、重命名和删除,文件列表信息获取等信息。d a t a n o d e 事件主要包括文件块信息、心跳响应、出错信息等。处理请求指处理上面的监听 请求事件并返回结果。 (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 天井建筑改造方案设计意图
- 第10课 幸运大转盘(教案)2023-2024学年五年级上册信息技术青岛版
- 传动系统保养策略分析报告
- 橡胶板密封系统故障诊断分析报告
- 发电集控值班员职业考核试卷及答案
- 软膏剂工成本控制考核试卷及答案
- 绝缘成型件制造工标准化作业考核试卷及答案
- 印后制作员基础考核试卷及答案
- 第3单元 第14课 沟通中外文明的“丝绸之路”(新说课稿)2023-2024学年七年级上册历史(部编版)
- 风振影响预测模型分析报告
- 2025年老年教育课程考试题及答案
- 中小学生安全知识题库-交通安全知识题库
- 第十三章 三角形 单元测试(含答案)人教版数学八年级上册
- 2025-2026教科版(2024)科学一年级上册教学设计及每课教学反思(附目录)
- 2025届高中地理人教版一轮复习第29课时导学案:内力作用与地表形态
- 糖尿病肾衰竭疑难病例讨论
- 通信网络应急预案演练计划
- 海边赶海活动方案
- 破拆技术消防课件教学
- 版大学习、大培训、大考试专项行动工作方案
- 2025至2030年中国医用激光光纤行业市场全景分析及产业前景研判报告
评论
0/150
提交评论