(无线电物理专业论文)固定内容海量存储技术的研究.pdf_第1页
(无线电物理专业论文)固定内容海量存储技术的研究.pdf_第2页
(无线电物理专业论文)固定内容海量存储技术的研究.pdf_第3页
(无线电物理专业论文)固定内容海量存储技术的研究.pdf_第4页
(无线电物理专业论文)固定内容海量存储技术的研究.pdf_第5页
已阅读5页,还剩96页未读 继续免费阅读

(无线电物理专业论文)固定内容海量存储技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着网络应用的普及和企业信息化的不断深入,固定内容数据的急剧增长, 迫切需要大容量、高性能、高可用、易管理、易检索的海量网络存储系统。因此, 针对固定内容的海量网络存储系统的研究具有重要的学术价值和实用价值。 本文针对固定内容存储与管理问题进行了深入的研究,详细阐述和分析了国 内外网络存储和内容管理等方面的研究与技术发展情况,深入研究了基于内容的 对象存储技术、元数据技术,探讨了将内容寻址存储和内容管理结合的方法,提 出并建立了对固定内容进行描述( 特征元数据) 、定位和检索的元数据模型,并 设计和实现了一种针对海量固定内容数据存储的原型系统,在此基础上对其性能 进行分析和评估。 本文对海量固定内容存储系统的体系结构、文件系统设计、元数据管理实现 等进行了详细的介绍,测试和分析系统的存储效率,并对系统的特色和具体应用 进行了详细的说明。 本文的创新点如下: 1 在研究对象存储和内容管理实现方法基础上提出内容存储的概念,并比 较系统地总结内容存储的理论; 2 提出并实现了针对海量固定内容存储系统的多协议文件系统,满足不同 用户的访问需求,该文件系统与相应安全算法结合,充分保证了整个存储网络系 统中各个用户所存信息的安全性; 3 提出并实现了海量固定内容存储系统的特征元数据的提取方法、元数据 管理模型以及元数据检索和内容数据定位方法; 4 通过集成创新构建了一个固定内容的归档存储原形系统,设计了多组实 验测试并验证了基于对象存储的固定内容存储系统的性能。 本研究丰富了网络存储理论与实践,为企业面临的固定内容存储和管理问题 提出了一个有效的解决方案。 容 关键词:内容寻址存储;对象存储;内容管理;元数据;固定内 a b s t r a c t w i t ht h ew i d es p r e a do fn e t w o r k sa n dl n f o r m a t i o ns y s t e m sn o w a d a y s t h e f i x e d c o n t e n td a t au s e db ye n t e r p r i s e sa r ei n c r e a s i n gd r a m a t i c a l l y t h e r e f o r e ,ak i n d o fm a s sn e t w o r ks t o r a g es y s t e mw i t hl a r g ec a p a c i t y , h i g hp e r f o r m a n c e ,h i g h a v a i l a b i l i t y , e a s i e rm a n a g e m e n ta n dr e t r i e v e si sd e s i r e du r g e n t l y t h u si ti si m p o r t a n t t os t u d yt h es t o r a g ei n f r a s t r u c t u r ef o rt h ef i x e d - c o n t e n td a t ab o t hi nt h e o r ya n d p r a c t i c e f i r s t ,t h ep r o g r e s so fr e s e a r c h e so ns t o r a g e n e t w o r k i n ga n dc o n t e n t m a n a g e m e n t ,b o t hd o m e s t i ca n da b r o a d ,a r ei n t r o d u c e da n da n a l y z e di nt h i sp a p e r 。 t h e na ni n d e p t hs t u d yo nt h es t o r a g ea n dm a n a g e m e n tt e c h n o l o g yo ff i x e dc o n t e n t s i sr e p o s e di nt e r m so ft h eo b j e c t o r i e n t e ds t o r a g ea n dm e t a d a t at e c h n o l o g yo nt h e b a s i so ft h ec o n t e n tt e c h n o l o g y ,a n daw a yt oc o m b i n et h ec o n t e n t - a d d r e s s a b l e s t o r a g ew i t ht h ec o n t e n tm a n a g e m e n ti sp r o v i d e dw i t ham e t a d a t am o d e lb u i l tt o d e s c r i b e ,l o c a t ea n dr e t r i e v et h ef i x e d - c o n t e n td a t a f u r t h e r m o r e ,ap r o t o t y p es y s t e m f o r t h e s t o r a g e a n dm a n a g e m e n to ft h ef i x e d - c o n t e n td a t ai s d e s i g n e da n d i m p l e m e n t e d f i n a l l y ,t h ep e r f o r m a n c eo ft h ea b o v e m e n t i o n e ds y s t e mi st e s t e dw i t h a n a l y s i sa n de v a l u a t i o ng i v e n t h ea r c h i t e c t u r e ,f i l es y s t e ma n dm e t a d a t am a n a g e m e n to fam a s sf i x e d c o n t e n ts t o r a g es y s t e m ( f o rs h o r tm f c s s ) a r ea l s oi n t r o d u c e d t e s t sa r ed e s i g n e dt o a n a l y z et h es t o r a g ee f f i c i e n c y o ft h es y s t e mw i t hi t sf e a t u r e sa n df u n c t i o n s e x p o u n d e d t h ei n n o v a t i o n so ft h es t u d ya r ea sf o l l o w s : ( 1 ) t h ec o n c e p to fc o n t e n ts t o r a g eb a s e do nt h ei n t e g r a t i o no ft h eo b j e c t o r i e n t e d s t o r a g ea n dc o n t e n tm a n a g e m e n ti sp r e s e n t e d ,a n dt h et h e o r yo fc o n t e n ts t o r a g ei s s u m m a r i z e ds y s t e m a t i c a l l y ( 2 ) am u l t i p r o t o c o lf i l es y s t e m ( f o rs h o r tm p f f ) i sd e s i g n e da n di m p l e m e n t e d n o to n l yi tc a nm a k et h em f c s sa c c e s s i b l ef o rd i f f e r e n tu s e r s ,b u tk e e pt h e i r i n f o r m a t i o ns a f ew i t has e c u r i t ys c h e m ei n t e g r a t e da sw e l l ( 3 ) t h em e t h o d ss u c ha sc r e a t i n gt h ec h a r a c t e r i s t i cm e t a d a t aa n dr e t r i e v i n g m e t a d a t a ,t o g e t h e rw i t ht h a to fl o c a t i n gc o n t e n td a t aa r ed e s i g n e da n di m p l e m e n t a t i o n ; a n dt h em e t a d a t am a n a g e m e n tm o d e lf o rf i x e dc o n t e n td a t ai se s t a b l i s h e d ( 4 ) a ni n n o v a t i v ei n t e g r a t e dp r o t o t y p es y s t e mt os o r to u ta n ds t o r et h ef i x e d c o n t e n td a t ae f f i c i e n t l yi sd e s i g n e da n di m p l e m e n t e d a n dt h ep e r f o r m a n c eo ft h e f i x e d c o n t e n ts t o r a g es y s t e mb a s e do nt h eo b je c t - o r i e n t e ds t o r a g ei st e s t e dw i t h a d e q u a t ee x p e r i m e n t s w i t ht h i sr e s e a r c h t h es t o r a g e - n e t w o r k i n gt h e o r yi se n r i c h e da n dt h ep r a c t i c eo f i n f o r m a t i o ns t o r a g ei su p d a t e dw i t ha ne f f e c t i v es o l u t i o nt ot h ef i x e d c o n t e n td a t a s t o r a g ea n dm a n a g e m e n ti ne n t e r p r i s e s k e y w o r d s :c o n t e n t - a d d r e s s a b l es t o r a g e ;o b j e c t - o r i e n t e ds t o r a g e ;c o n t e n t m a n a g e m e n t ;m e t a d a t a ;f i x e dc o n t e n t 中山大学博士后出站报告 1 1 问题的提出 第1 章概述 固定内容( f i x e dc o n t e n t ) 就是叁创建以后不再更改并具有长时闻保存价 值的数据对象,如办公o f f i c e 文档、e - m a i l 、电视新闻、医疗图片、天文图像、 音频、视频,电信、银行和电业等部门的数据库交易记录等,以及无线传感网络 经过加工处理藤的信息等。固定内容包含了与企业业务相关的内容,可为企业提 供有价值的信息,固也称之为参考数据( r e f e r e n c ed a t a ) 船1 。图灵奖获得者 j i mg r a y 在其获奖演说中指出:由于互联网的发展,未来十八个月新产生的数 据量将是有史以来数据量之和。据i d c 估计,对i n t e r n e t 存储容量的需求每三 个月就要翻一番,并且7 5 的增长来自圈定内容数据。 固定内容是非结构化或半结构化数据,企业的固定内容数量随时间增长变得 十分巨大。在传统的文件系统存储中,用户要从海量固定内容数据中找到需要的 内容非常困难,并且其中大部分内容随时闻的增长变得无法理解嘲转瑚韬1 。因此, 企业面临的挑战是从数据存储变成对数据的有效管理,即如何从存储的海量数据 中方便查询到需要的数据,使数据真正变成企业的财富。 固定内容的数据对象可以分为以下三类: 1 ) 电子文档,主要包括电子图书、合同契约、电子邮件及附件,以及诸如 工程绘图的c a d c a m 等。 2 ) 数字图像,主要包括医学检查图像、图片、地震油气贮藏天文卫星地 球物理图像信息等。 3 ) 多媒体,主要包括音频、视频等。 除此之外,银行、电信、邮电、证券等交易记录等也属固定内容的范畴。 在企业信息纯过程中,固定内容信息数量正急捌增长,同时它们所需保存的 时间也比以前大为延长。如何对如此庞大的固定内容信息进行高效的存储、管理, 如何从这些海量信息中快速检索出所需要的内容,这对现有的存储技术提出了全 新的更高的要求,这些要求主要包括: 1 ) 存取性能:要保证在任何时间、任何地点都麓对所存海量固定内容信息 快速、便捷地访问。 2 ) 完整性和规范性:要确保对信息内容不得有任何修改,系统必须能提供固 定内容信息完整性的检验方式,且所存取的饪何固定内容信息都必须符合一定的 规范或标准。 3 ) 基于内容的访问方式:对任何固定内容信息的访问必须与存储数据的物 中山大学博士后出站报告 理地址逻辑地址无关,而仅与数据内容有关。 4 ) 持久性和可扩展性:整个固定内容存储系统的数据能够持久长期保存, 系统具有较强的可扩展能力,随着内容数据的增加可以非常容易地升级至p b 级 存储容量,并避免因设备更新而产生的数据遗失问题。 5 ) 高可用性和可管理性:必须满足商业应用的连续性和灾难恢复需求,需 要最小化的存储管理,自动化程度尽可能地高。 从上述存储需求可以看出,传统基于文件系统或块的存储系统,包括d a s 、 n a s 和s a n 口儿8 儿鲫n 引,不具有固定内容存储需要的特性:这些系统是追求高性能而 不是高度永久性,以块为单位分布数据而不是使空间效率最大化,为了读写数据 而不是永久地保存数据,并且只提供了一些安全措施,而没有坚实的抗毁性。固 定内容数据必须被长期保存,以便今后检索,这时间可能超过了基于磁盘文件系 统硬件的寿命,而且也可能超过了存储软件系统和他们接口的寿命。固定内容存 储系统中需要具有区别于文件系统或块的特性:极大地降低存储成本,不可改变 的特性( 一次写入、多次读取) ,高可靠性( 校验和检测、消除复制) ;以及区别于 其他存储系统的特性:比磁带系统更小的延时,通用的接口,搜索能力( 尤其是 在p b 级存储系统中) ,保证几十年后或几百年后对资料的读取可以像现在对本地 或分布系统的读取一样方便。 自2 0 0 2 年开始,固定内容存储引起越来越多人的研究兴趣n n n 2 1 引,已有的 研究成果都是采用基于对象存储技术的c a s ( c o n t e n ta d d r e s s a b l es t o r a g e ,内 容寻址存储) 1 4 1 1 5 3 1 6 3 1 7 1 1 8 9 瑚m l m 2 1 2 引。依靠现有的固定内容数据的存储技术构建 海量的固定内容存储系统存在以下不足:( 1 ) 价格昂贵,不能与企业现有的存储系 统兼容,而且扩展性受限;( 2 ) 企业需要根据实际的应用进行应用程序的二次开 发,即需要在存储系统提供的a p i 基础上开发应用程序,或者是对原有的应用进 行移植;( 3 ) 存储系统本身并没有提供信息检索和容量报告的功能,企业需要购 买新的信息检索软件。 针对已有固定内容存储系统存在的不足和目前企业对固定内容存储需求,本 项目开发一种适合于企事业单位固定内容归档的海量网络存储系统一海量固定 内容存储系统( m f c s s ) ,使得企业固定内容得到更好的存储与保护,并提高企业 固定内容的共享和利用效率,充分发挥企业固定内容的价值,同时符合相关法规 的要求。例如,如何将医院不断增长的海量医疗图像信息进行有效地存储和管理, 并通过相应的检索技术快速检索到医生所要的案例,或挖掘诊断某种疾病的规 律;如何从不断增长的海量电信或银行等部门的数据库交易记录中,挖掘客户流 失或增加客户量的规律等。这些是海量固定内容存储研究的热点和必要解决的难 题。 m f c s s 系统采用基于i p 技术构建的高性价比的存储基础设施( 可将企业现 2 中山大学蹲+ 震出懿报告 有的存储系统与新扩展的存储系统很好的融合,大大减少存赭成本) 豫3 ,为不同 用户提供统一的访问接口;并且,采用基于内容的对象存储技术将一些内容管理 功能如元数据技术和高速索引技术集成到存储系统之中,褥将基于对象的内容分 析和内容管理技术与存储系统实现结合,提供集存储服务、内容管理、内容服务 于一体的系统平台;借助数据挖掘技术设计高效的固定内容数据检索算法,增加 企业存储的海量固定内容的价值。m f c s s 系统实现了固定内容存储与管理的有机 结合,极大地提高固定内容搜索和存取的效率,可为企业固定内容存储提供一个 新的设计思路。 m f c s s 提出并实现了将对象存储和内容管理结合的策略,将数据对象的元数 据细分为系统元数据、内容元数据和存储元数据三个层面,提出并实现了这三种 元数据相结合的统一元数据模型。同时,m f c s s 透过全局多协议文件系统支持b s 模式和c s 模式存储模式,从策略上解决了当前国际上流行的基于a p i ( 应用编 程接阴) 的c a s ( c o n t e n ta d d r e s s a b l es t o r a g e ,可寻址的内容存储) 固定内容 存储产品的缺点。用户和管理员可以通过b s 模式采用基子w e b 的方式访问 m f c s s 系统的c m ( 内容管理) 从而实现对c a s 设备中的数据对象进行透明地存取; 用户应用程序则可以通过a p i 采用c s 模式直接访问的c a s 设备,实现数据对象 的高效存取。 m f c s s 是一种新的存储系统,同时具有存储层、对象层、管理层和应用层的 四层结构,既具有基于内容的对象存储功能,又具有基于对象的内容管理功能, 同时还具有针对企业应用进行定制和优化的功能。m f c s s 系统产品填补了国内相 关技术领域的空白( 露前圜内还没有企业生产相关的系统和产晶) ,并且具有高 性价比、高可用等特点,具有与国娥网类产品竞争的实力,市场前景广阔,其产 品化后将创造出良好的经济效益和社会效益。 m f c s s 可广泛应用邮电、银行、电业、交通、电影电视、大企业、机关、天 文和医疗卫生等企事业单位,可作为这些企事业单位固定内容的后备数据仓库存 储系统,可充分保证系统高可用和提高其数据的再利用价值。因此,m f c s s 的成 功开发和产品化后将有广阔的市场前景。 1 。2 存储技术的进展 按照存储设备与网络酶连接方式,两络信息存储系统有以下三种形式:直 连存储( d i r e c ta t t a c h e ds t o r a g e ,简称d a s ) 、附网存储( n e t w o r ka t t a c h e d s t o r a g e ,简称n a s ) 和存储区域网( s t o r a g ea r e an e t w o r k ,简称s a n ) 。传统存 储结构多采用d a s ,现代网络应用的快速发展对传统存储结构提出了极大的挑 战,促进了以n a s 和s a n 为代表的网络存储技术的成熟和快速普及。 中山大学博士后出站报告 1 2 1d a s d a s 是一种以服务器为中心的存储结构,各种存储设备通过i d e 或s c s i 等i o 总线与服务器相连。所有的客户端请求与数据传送都经过服务器,数据的 读写流程:客户发送请求给文件服务器;文件服务器解析该请求并将其传送到存 储设备;存储设备将数据读出,并返回文件服务器,在文件服务器内部依次经过 硬盘控制器、系统内存、网络接口卡等;文件服务器将数据传送给客户。d a s 的一个重要特征是将存储设备与主机捆绑在一起,这种连接上的限制带来诸多弊 端,如d a s 的存储容量受限于主机i o 总线支持的设备数量( 如1 6 位的s c s i 总 线最多支持1 6 个) ;存储资源的利用率低效,大量数据重复存储在多个独立主机 上,空闲的存储容量不能被其它主机共享;要求管理员人工管理在物理上分散的 不同平台的系统,增加了管理难度和存储系统的总拥有成本;存储数据的可用性 差,当主机失效时,与之相连的存储资源都不可访问;访问性能受限于主机的处 理能力,存储资源的访问只能通过该主机进行,不能通过多个主机共享负载实现 并行处理;对于大量d a s 组成的数据网络,维护困难,备份修复必须针对每一 台d a s 设备进行,管理难度大。所以,d a s 存储方式难以满足现代社会对网络 存储系统大容量、高性能、动态可扩展等方面要求,解决这一问题的有效方法是 将访问模式从以服务器为中心转化为以设备和网络为中心。 1 2 2n a s n a s 是一种以设备为中心的存储结构【4 5 】嘲。n a s 存储结构中,存储系统不 再通过i 0 总线附属于某个特定的主机,而是通过网络接口与i p 网络直接相连。 按照存储网络工业协会( s n i a ) 的定义:n a s 是可以直接连接到网络向用户提供 文件级服务的存储设备。作为一种存储设备,n a s 具有简化的实时操作系统, 它可以将硬件和软件有机地集成在一起,用以提供文件服务。目前采用的协议是 n f s 和c i f s 7 j 【8 1 ,其中n f s 应用在u n i x 环境下,最早由s u n 开发,而c i f s 应用在n t w i n d o w s 环境下,是由m i c r o s o f t 开发。n a s 的结构及采用的协议使 得n a s 具有以下优点:( 1 ) 异构平台下的文件共享:不同操作系统平台下的多个 客户端可以很方便地共享n a s 中的同一个文件。( 2 ) 充分利用现有的l a n 网络 结构,保护现有投资。( 3 ) 容易安装,使用和管理都很方便,实现即插即用。( 4 ) 广 泛的适用性:由于基于i p e t h e m e t 以及标准的n f s 和c i f s ,n a s 可以适应复杂 的网络环境。( 5 ) 广泛的适用性。n a s 既可以在d a s 上实现,又可以在s a n 上 实现,后者又称为n a sh e a d ,即n a s 设备( n a sh e a d ) 后端连结高性能的r a i d 或者s a n 网络,使用户以n a s 方式访问r a i d 和s a n 。 实际应用中n a s 也表现出一些缺陷1 9 儿m j :( 1 ) 在文件访问的速度方面:由于 n a s 采用的是f i l ei o 方式,它牺牲了直接i o 访问的高性能为代价。在客户端, f i l ei o 请求要经过整个t c p i p 协议栈封装后经过网络传输。被封装的f i l ei o 请 4 中山大学博士后出站报告 求至哒n a s 后同样要经过整个t c p i p 协议栈解封装再传到n a s 的文件系统, 最后对存储设备进行读写。数据从存储设备取出之后要经过类似处理f i l e1 o 请 求相反的过程,这带来巨大的网络协议开销,这种f i l e 的速度和s a n 的b l o c k i o 相比很低。因此,n a s 不适合在对访问速度要求很高的应用场合,如数据库 应用,在线事务处理。( 2 ) 在数据备份方面:n a s 需要占用l a n 的带宽,浪费 宝贵的网络资源,严重时甚至影响客户应用的顺利进行。( 3 ) 在资源的整合和 n a s 的管理方面:n a s 只能对单个存储( 单个n a s 内部) 设备之中的磁盘进行 资源的整合,目前还无法跨越不同的n a s 设备,难以将多个n a s 设备整合成一 个统一的存储池,因而难以对多个n a s 设备进行统一的集中管理,只能进行单 独管理。n a s 的拓扑结构如图1 - l 所示。 j 孑竭 “ ,亡:d 叠l i , 圳 闰1 1n a s 的拓扑结构 1 0 0 s a n s a n 是一种以网络为中心的存储结构1 9 j i 州。按照s n l a 定义,s a n 是一种 利用f i b r ec h a n n e l 等互联协议连接起来的可以在服务器和存储系统之间直接传 送数据的存储网络系统。s a n 是一种体系结构,它是采用独特的技术( 如f c ) 构建的、与原有l a n 网络不同的一个专用的存储网络,存储设备和s a n 中的应 用服务器之间采用的是b l o c ki o 的方式进行数据交换。s a n 的拓扑结构如图l 一2 所示。 恻唧创 呈坌耋 、 | a 目。r 虱。i 蘑h 。 麴”。【酬“。魏”。 l e 二习们i ” 囝1 2s a n 的拓扑结构 独特的体系结构和构建技术使得s a n 具有如下优点目【9 】 1 0 】:( 1 ) 高性能、高 速存取速度:目前光纤通道可提供l o g b p s 的带宽,新的4 0 g b p s 的标准也正在 中山大学博士后出站报告 制定之中;( 2 ) 高可用性:网络用户可以通过不止一台服务器访问存储设备设备, 当一台服务器出现故障时,其他服务器可以接管故障服务器的任务;( 3 ) 集中存 储和管理:通过整合各种不同的存储设备形成一个统一的存储池,向用户提供服 务,可以很容易地扩充存储容量;( 4 ) 高可扩展性:服务器和存储设备相分离, 两者的扩展可以独立进行;( 5 ) 支持大量的设备:理论上具有1 5 0 0 万个地址:( 6 ) 实现l a n f r e eb a c k u p ,数据备份不占用l a n 带宽;( 7 ) 支持更远的距离数据传输。 另外通过光纤通道网卡、集线器、交换机等互联设备,用户可根据需要可以灵活 地放置服务器和存储设备。在数据库等其他面向事务处理的应用场合,s a n 的 优势更加明显。 具体应用中,s a n 有着自身的一些缺陷【9 】【1 0 j :( 1 ) 设备的互操作性较差:目 前采用最早和最多的s a n 互联技术还是f i b r ec h a n n e l ,对于不同的制造商,光 纤通道协议的具体实现是不同的,这在客观上造成不同厂商的产品之间难以互相 操作;目前虽然有些厂商组成了联盟来保证他们产品的互操作,但因为具体实现 的不同以及联盟范围的有限,这样做的效果也很有限。( 2 ) 构建和维护s a n 需要 有丰富经验的、并接受过专门训练的专业人员,这大大增加了构建和维护费用。 ( 3 ) 在异构环境下的文件共享方面,s a n 中存储资源的共享一般指的是不同平台 下的存储空间的共享,而不是数据文件的共享。其次连接距离也限制在1 0 k m 左 右。更为重要的是,目前的存储区域网采用的光纤通道的网络互连设备都非常昂 贵,这些都阻碍了s a n 技术的普及应用和推广。 1 2 4 对象存储 基于对象的存储架构利用存储设备的处理能力把原先由文件系统完成的存 储管理任务分成两部分,一部分与用户有关的部分,一部分与存储有关部分。与 用户有关的部分放在文件服务器上,而与存储有关的部分则下放到存储设备上, 在文件服务器同存储设备之间插入一个专用的对象接口,而不是块接口 囱m 5 m 6 m 7 瑚嚣1 例。如图卜3 所示,它把系统所存放数据的逻辑视图和物理视图分 开,由存储设备承担数据在存储介质上的物理分布工作,包括数据块的分配以及 数据布局。这样元数据操作9 0 的工作被移交给了存储设备,使得这一部分工作 可以在存储设备级并行完成m m 2 瑚埘肼m 脚m 引。 一个存储对象是存储设备上多个字节的逻辑集合,它包括数据和数据的属 性。数据的属性包括对象的动态信息和静态信息,它们暗示了对象的行为,包括 数据布局、r a i d 级别、期望的读写速率、最可能的访问模式( 串行或随机) 、用 户访问的安全策略等。对象的大小可以变化,它可以存放整个数据结构,如:文 件、数据库表、医学图象、或多媒体数据等。存储对象具有文件和块二者的优点: 象数据块一样在存储设备上被直接访问:通过一个对象接口,能像文件一样,在不 6 中出大学媾士后出撼报告 碌操作系统平台上实现数据共事,例如打开、关闭、读写等。对象的弓| 入使得 对象存储系统不同于传统的块存储系统( 它们必须跟踪在系统中每个块的属性) , 由对象维护着它自身的属性,通过这些属性它和存储系统交流如何管理它包含的 那个数据片段。这样,通过把数据管理分布给数据本身简化了存储系统的任务并 增加了灵活性。 整个对象存储架构由三部分组成:客户端,元数据服务器$ 口o s d ( o b j e c t s t o r a g ed e v i c e ) 。o s d 是一个智能设备,是对象存储架构的基石,它有自己的处 理器、内存、网络接口和磁盘。它管理本地对象的存取,自治地服务和存放来 自网络的数据。所以,o s d 管理低级的数据存储任务,例如数据存取,请求调度 和数据布局等,对系统的其它部分呈现了一个简单的基于对象的数据访问接口。 元数据服务器管理:名字空间和西录层次,文件、醋录的访问控制以及文件至# 对 象的映射等。元数据服务器在存放和获取数据时并不弓 入,允许十分有效地在客 户端和o s d s 间进行数据传送。客户端提供一个符合u n i x 语义的标准文件系统接 口。在u n i x 系统中,该接口被嵌入在u n i x 的虚拟文件系统接口中,在w i n d o w s 中 它作为一个可安装的文件系统存在。 文件系统用户部件 = = = = = = = = = = = = 舞 文纷系统存簇瑟传 文件系统用户部件 对象接口 l塞丛墨蒸童熊塑丛l 二堑耍塑蜀 隧蚕霪鍪图 存储设备 a 传统存储模型( a ) 对象存锗揆鍪 圈l - 3 传统的存储模型与对象存储模型比较 对象存储结构的特性使其在海量数据存储环境中具有较大优势,主要体现在 以下几方面。 ( 王) 性能优势。存储体系结构的最大竞争力在予存储性艉。对象存储由于 其存储设备的智能化以及访问的并行化,可以最大限度地利用网络的带宽,提高 应用的存储能力。 ( 2 存储设备的智能化。o b j e c t 的自我管理功能大大增强了存储设备的智 能化,降低了整个系统的管理负担,使其更高效。 ( 3 ) 数据的共享更容易。在对象存储系统中,任何客户端都可以通过访问 提供的标准文件接蜀,访闯存储设备上的数据,其c a c h e 策略保证了客户端访问 7 中山大学博士后出站报告 数据的一致性,使得文件级的数据共享更容易。 ( 4 ) 管理更方便。o s d 的自我管理减少了系统管理员的工作量,提高了管理质 量。管理员只需要关注存储系统的逻辑视图,不需要知道设备的细节。此外,o s d 的智能化使其可对应用访问模式进行统计,并根据统计结果更有效地组织 o b j e c t ,提高设备的空间利用效率和访问效率。 ( 5 ) 更好的安全性。同块设备不同,o b j e c t 可利用自身的属性对用户访问进 行验证,只有通过验证的请求才能执行i o 操作。 在基于对象的存储系统中,存储空间由存储设备管理和分配,而不再信赖运 行在主机上的文件系统。主机系统中原先由应用程序执行的定位逻辑和由文件系 统执行的存储空间管理功能迁移到存储设备中,应用程序只需要指出待访问的对 象既可( 即对象i d ) 。 在对象存储系统的研究和开发中,有两个分支引起了学术界和工业界的广泛 关注和重视:其中一个分支是智能存储( i n t e l l i g e n ts t o r a g e ) ,如n a s d 啪1 、 l u s t r e h 阳等,n a s d 主要目标是提供一个安全的网络硬盘,l u s t r e 是一种支持从 小型的到特大型集群的可扩展的集群文件系统;另外一个分支则是基于内容的存 储,女h c a s ,c a s 则提供一种适合于固定内容归档存储的方法。 基于内容的存储原型系统最著名的有b e l ll a b o r a t o r i e s 研究和开发的v e n t i 网络存储系统,和u n i v e r s i t yo f c a l i f o r n i a 研究开发的d e e ps t o r e 归档存储系统 h ,以及i n t e l 、c m u 与d e n i s o nu n i v e r s i t y 联合研究开发的c a s p e r 分布式文件系 统4 刳。 工业界基于内容的存储产品最著名的有e m c 的c e n t e r a 【4 3 】【4 4 1 ,a r c h i v i a s 的 a r c , s t o r a g e t e k 的i n t e l l i s t o r e ,p e r m a b i t 的p e r m e o n r e f e r e n c ev a u l t 【4 引,它 们都使用了基于内容的存储技术。 1 2 5 内容寻址存储( c a s ) 从电子出版、互联网站、数字通信、数字广播、遥感遥测到数字图书馆、数 字人、数字地球,数字媒体正在引发的不断膨胀的数字海啸。据加州大学伯克利 分校的研究估计“全球每年产生2 e b ( e x a b y t e ) 非重复的数据,而其中约9 3 是以数字形式存储的”。其中的绝大多数是以数字方式展现的文档、出版物、图 像、视频、音频、软件、表格、收据、票据、设计、合同、以及电子邮件。这些 数据内容都具有数据量巨大,归档或静态或只写一次( w r i t e o n c e ) ,需要找出 有用的信息,多数请求为读请求。 g a s 是面向对象存储一个典型范例,专门针对这些固定内容存储需求而设计。 传统基于文件系统的存储系统,包括d a s ,n a s 和s a n ,不具有固定内容存储需要 的特性:这些系统是追求高性能而不是高度永久性,在块中分布数据而不是使空 8 中由大学蹲士后出站报告 间效率最大化,为了读写数据丽不是永久地保存数据,并且只提供了一些安全措 施,而没有坚实的抗毁性。固定内容数据必须被长期保存,以便今后检索,这时 间可能超过了基于磁盘文件系统硬件的寿命,而且也可能超过了存储软件系统和 他们接口的寿命。固定内容存储系统中需要具有区别子文件系统的特性:极大地 降低存储成本,不可改变的特性( 一次写入、多次读取) ,高可靠性( 校验和检测、 消除复制) :以及区别于其他存储系统的特性:比磁带系统更小的延时,通用的接 口,搜索能力( 尤其是在p b 级存储系统中) ,和几十年后或几百年后对资料的读取 可以像现在对本地或分布系统豹读敢一样方便。 基于内容存储有以下几个优点:( 1 ) 迅速定位:每一个对象都有其唯一的i d , c a s 系统根据这个i d 厶皂够迅速地定位到其对应的对象。而在传统的文件系统中, 在定位文件时,需要搜索文件强录和文件:在访问文件时,又需要将文件的逻辑 地址转换为块设备的物理存储地址,这些都需要较大的系统开销;( 2 完整性验 证:对c a s 系统返回的对象,应用程序可以使用报文摘要函数验证该对象是否被篡 改;( 3 能够提高存储空间利用率:对于应用程序产生的重复的对象,由予这些对 象的内容计算出的王相同,在存储系统中只需要保存一份拷贝,丽传统基于文件 名存储的文件系统则需要重复占用空间。 由于c a s 技术在固定内容存储和法规遵循h 6 1 等领域所具有的独特优势,引发 许多厂家研究和开发c a s 产品的兴趣。2 0 0 2 年4 胃e m c 推出了监界的第一款c a s 产品一c e n t e r a 。随后,p e r m a b i t 公司于2 0 0 3 年l o 月推地了一个软件c a s 产品 一p e r m e o nr e f e r e n c ev a u lt 。目前,h p 、i b m 、n e x s a n 、s t k 、s u n 等公司也 相继推出了自己的c a s 产品。 在s n i a ( s t o r a g en e t w o r ki n d u s t r ya s s o c i a t i o n ,全球网络存储工业协会) 领导下,e m c 和p e r m a b i t 启动了c a s s i( c o n t e n ta d d r e s s a b l es t o r a g e s o l u t i o n si n i t i a t i v e ) 计划,c a s s i 正在提出关于固定内容寻址存储解决方案 的相关技术标准。 1 3 内容存储与内容管理的融合 固定内容的存储需要具有区别于文件系统的特性:极大地降低存储成本,不 可改变的特性( 一次写入,多次读取) ,动态扩展,提高可靠性( 检验和检测, 消除复制秘朝秘羽) ;以及区别于其他存储系统的特性:比磁带系统更小的延时,通 用的接口,搜索能力( 尤其是在p b 级存储系统中) ;几十年后或几百年后对资料 的读取可以像现在对本地或分布系统的读取一样方便:固定内容数据必须被长期 保存秘射,以便今后检索,这时间可能已经超过了基予磁盘文件系统硬件的预计寿 命,而且也可能那时已经超过了存储软件系统帮他们接隧的使用寿命。 9 中山大学博士后出站报告 目前,固定内容存储方案采用对象存储与内容管理相结合的方案,即内容存 储与内容管理相融合的方案咖5 1 5 引。 1 3 1 内容管理 - - 内容管理的对象是以各类非结构化和半结构化数据为主的数字内容,相对于 存储在关系数据库中的结构化数据而言,内容包括范围更加广泛,包括企业的各 种文档、报表、账单、网页、图片、传真、扫描影像,以及大量的多媒体的音频、 视频信息等等。与业务信息系统中大量用于交易记录、流程控制和统计分析的数 据相比,内容具有某种特定和持续的价值,这种价值在共享、检索、分析等使用 过程中得以产生和放大,并最终对企业的业务和战略产生影响。 内容管理目标是实现对各种环境下以各类非结构化和半结构化数据为主的 内容的综合管理,提供内容采集、创建、加工、存储、传递、组织、服务和反馈 等内容全生命周期过程中所需各项功能,以及元数据管理、智能检索和分析、数 字版权和内容安全等专项技术,使内容得到高效利用和增值,给内容所有者和消 费者带来效益。内容管理解决方案能有机集成到结构化数据的商业智能( b i ) 环 境中,如e r p ( e n t e r p r i s er e s o u r s ep l a n n i n g ) ,c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) 等,内容管理解决方案的终极目标是实现内容价值链的最优化。可见,内容管理 软件从功能到架构,已经超越硬件,不是某种单独的创新技术,而是许多先进技 术的综合应用,它涵盖企业内联网( i n t r a n e t ) 、因特网( i n t e r n e t ) 和企业外 联网( e x t r a n e t ) 应用,大大突破了传统信息流管理软件、办公自动化软件以及 文档管理软件的应用范围、使用效果和商业价值。 1 3 2 内容存储与内容管理的结合 固定内容存储和企业内容管理的有完全相同的对象,那就是非结构化数据, 很显然,两者必定能够建立起某种联系。在e m cc e n t e r a 中,应用程序不再使用 传统的文件访问或块访问接口,要求应用程序必须进行修改,以使用新的a p i 来 实现存储。e m c 开放了c e n t e r a 的a p i 接口,以吸引i s v ( 独立软件开发商) 在它 的a p i 基础上开发应用程序,或者是对原有的应用进行移植。目前,不少的不同 厂家的内容管理系统通过与c e n t e r a 系统结合实现了具体的应用,如e m a i l 归档 系统、医疗图像归档与管理系统、文档归档与内容管理系统。 p e r m a b i t 公司的c a s 产品一c o m p l i a n c ev a u l t 提供了更多能够满足法规遵 从的功能和特性。c o m p ll a n c ev a u l t 软件能够被安装在任何符合i n t e l 标准架 构的服务器上,并兼容来自不同厂商( d e l l 、h p 和i b m ) 的存储设备。每一台安 装了c o m p ll a n c ev a u l t 软件的服务器都将成为整个p e r m e o n 存储解决方案中 l o 中由大学博士焘出站报告 的存储节点。c o m p l i a n c ev a u l t 为钤部应用提供了标准的c i f s n f sa p i s ,这就 使它可以与大多数内容管理产品协同合作。但是,c o m p l l a n c ev a u l t 本身并没 有提供搜索和容量报告的功能,因此,这些功能必须由其p e r m e o n 的合作伙伴来 实现。 从上述业界最为著名的两款c a s 产品来看,冒前e 蜗产品都不缝提供一个完 整的固定内容存储解决方案,它必须依靠其它产品并与其它产品进行集成才能应 用。不但如此,c a s 产品本身还十分昂贵,美国财产记录工业协会( p r o p e r t y r e c o r d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论