已阅读5页,还剩75页未读, 继续免费阅读
(计算机软件与理论专业论文)虚拟化海量存储技术的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着围绕数字化、网络化开展的各种多媒体处理业务地不断增加,电 视台的媒体数据正迅速膨胀,存储平台成为关键环节。本文从虚拟化海量 存储的角度探讨了由作者负责研究设计并实现的基于i b ml t 0 3 5 8 4 数据 流磁带库的视音频信息虚拟化海量存储管理系统。如何建立一个高性能、 易管理、高可用的存储管理系统是本文探讨的主要内容。 首先,介绍了虚拟化存储技术的研究现状及其意义,探讨了虚拟海量 存储系统的硬件体系结构和工作模型,并结合电视台视音频信息数字化存 储的特征给出了系统的需求分析。 其次,探讨了用户访问的局部性原理和磁盘阵列的c a c h e 机制,提出 了分别适用于系统不同阶段的两个磁盘阵列c a c h e 替换算法,并对算法进 行了测试和评估。 接着,提出了全新的基于卷和存储池的虚拟化存储管理策略,详细介 绍了其工作原理和管理方法;并结合磁盘阵列c a c h e 替换算法,给出了一 种基于该策略的动态数据迁移算法。 再次,结合i b ml t 0 3 5 8 4 磁带库的操作模型分析研究了磁带库的随机 i o 调度:在总结了现有的i o 调度算法后,提出了基于效益代价的均衡 调度算法,并进行了性能分析。 最后,简单介绍了利用以上研究成果设计实现的存储服务系统。并通 过软件在实际应用中的效果以及与i b mt i v o l is t o r a g em a n a g e 存储管理软 件的实验数据对比给出分析评价。 关键词虚拟化;海量存储;c a c h e 替换算法;卷;存储池;数据迁移:磁 带库 燕山大学工学硕士学位论文 a b s t r a c t a st h es u r r o u n d i n gd i g i t a la n d n e t w o r k i n gm u l t i m e d i at r a n s a c t i o n sr a p i d d e v e l o p m e n t ,t vs t a t i o n sm e d i u md a t ai si n c r e a s i n g l ye x p a n d i n ga n ds t o r a g e p l a t f o r mb e c o m e sk e yt a c h e t h i sp a p e rd i s c u s s e st h ev i d e oa u d i oi n f o r m a t i o n v i r t u a lm a s s i v es t o r a g em a n a g e m e n ts y s t e mb a s e do ni b ml t 0 3 5 8 4d a t a s t r e a mt a p el i b r a r y , w h i c hi sr e s e a r c h e da n dc a r d e do u tb yt h ea u t h o r t h i s p a p e r s m a i nc o n t e n ti sa b o u th o wt ob u i l dah i g h p e r f o r m a n c e ,e a s y m a n a g e m e n ta n dh i g hp r a c t i c a b l es t o r a g em a n a g e m e n ts y s t e m f i r s t l y , t h i sp a p e rp r e s e n t st h ev i r t u a ls t o r a g et e c h n o l o g y sd e v e l o p m e n t a c t u a l i t y , s i g n i f i c a n c e ,p r o b e si n t os y s t e m sa r c h i t e c t u r e ,w o r k i n gm o d ea n d d e m a n d i n ga n a l y s i sc o m b i n i n gt vs t a t i o n sv i d e o a u d i od i g i t a ls t o r a g e s c h a r a c t e r s e c o n d l y ,t h i sp a p e ri n v e s t i g a t e st h eu s e r sa c c e s s i n gl o c a lt r a i t ,a d v a n c e s t w od i s ka r r a yc a c h es u b s t i t u t i o na r i t h m e t i cw h i c ha r ea p p l i c a b l ef o rs y s t e m ,s d i 圩e r e n tp h a s ea n de v a l b a t e st h ea r i t h m e t i c t h i r d l y , t h i sp a p e rb r i n g sf o r w a r dt h eb r a n - n e ws t o r a g em a n a g ep o l i c y b a s e d0 nt h ev o l u m ea n ds t o r a g et a n k ,p a r t i c u l a r l yi n t r o d u c e st h e i rw o r k i n g p r i n c i p l e sa n dm a n a g e m e n tm e t h o d s a n dt h i sp a p e rp u t sf o r w a r das o r to f d y n a m i cd a t am i g r a t i o na r i t h m e t i cb a s e do nd i s ka r r a yc a c h es u b s t i t u t i o n a r i t h m e t i c f o u r t h l y , t h i sp a p e ra n a l y s e sa n ds t u d i e st a p el i b r a r y sr a n d o mi 0 s c h e d u l ec o m b i n i n gi b ml t 0 3 5 8 4t a p el i b r a r yo p e r a t i n gm o d ea n da d v a n c e s e q u i l i b r i as c h e d u l ea r i t h m e t i cb a s e do nb e n e f i t - c o s tr a t i oa f t e rs u m m a r i z i n g e x i s t i n gi os c h e d u l ea r i t h m e t i c f i n a l l y , t h i sp a p e rs i m p l yi n t r o d u c e st h er e a l i z a t i o no ft h es t o r a g es e r v i c e s y s t e mb yu s i n gt h ea b o v ei n v e s t i g a t i o nf r u i ta n dp r e s e n t sa n a l y s i se s t i m a t eb y i i a b s t r a e t e f f e c to fs o f t w a r e sp r a c t i c a la p p l i c a t i o na n dc o n t r a s t i n gw i t hi b mt i v o l i s t o r a g em a n a g e m e n ts o f t w a r e k e y w o r d sv i r t u a l ;m a s s i v es t o r a g e ;c a c h es u b s t i t u t i o na r i t h m e t i c ;v o l u m e s t o r a g et a n k ;d a t am i g r a t i o n ;t a p el i b r a r y i 1 1 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文虚拟化海量存储技术的 研究与实现,是本人在导师指导下,在燕山大学攻读硕士学位期间独立进 行研究工作所取得的成果。据本人所知,论文中除己注明部分外不包含他 人己发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和 集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。 作者签字闭呜喧日期:如“年每月j 日 燕山大学硕士学位论文使用授权书 虚拟化海量存储技术的研究与实现系本人在燕山大学攻读硕士学 位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学 所有,本人如需发表将署名燕山大学为第一完成单位及相关人员。本人完 全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并向有关 部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权燕 山大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论文的 全部或部分内容。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密函。 ( 请在以上相应方框内打“”) 作者签名:网呜望日期:3 。d 6 年与月f j 日 导师签名: 如 曰蝴石g 月怕 第1 章绪论 1 】研究背景 第1 章绪论 中国广播电视事业历经半个世纪的发展和几代人的艰苦努力,已经形 成了大量高水平、高质量、具有历史收藏价值的音像节目和视音频素材资 料。随着时间的延续,这些资料的保存价值和重要性也随着突显出来,这 对视音频信息存储系统的容量和速度等各方面性能都提出了空前的要求, 由此引发的各种问题也随之而来。首先,人们对视音频信息日益广泛的需 求导致存储系统的规模变得越来越庞大,管理越来越复杂,信息资源的爆 炸性增长和管理能力的相对不足之间的矛盾日益尖锐。同时,这种信息资 源的高速增长也对存储系统的可靠性和扩展性提出了挑战,信息资源的共 享也显得越来越重要。 这些对信息存储平台的应用需求归结起来就是:如何以有限的人力、 物力资源,经济有效地管理不断增长的数据,简化管理异构操作环境的复 杂性。虚拟化存储技术以其独特的优势成为了广播电视行业应对上述挑战 的最佳解决方案。 本研究课题是结合北京碧玺广播电视技术有限责任公司承接的山东有 线电视台的媒体资产管理系统项目而展开的。主要是利用i b ml t 0 3 5 8 4 超可伸缩性数字流磁带库研究设计了一个高可用、高性能的虚拟化海量存 储( v i r t u a lm a s s i v es t o r a g e ,v m s ) 系统。该系统的加入是对电视台硬盘自动 播出系统的有力补充,为台内大规模的节目存储和管理带来了极大的方便。 1 2 虚拟化存储技术的研究现状 虚拟化存储是指将用户看到的存储资源同具体的物理存储设备分隔开 来,为存储用户提供统一的虚拟存储池。它是具体存储设备或存储系统的 燕山大学工学硕士学位论文 抽象,展示给用户一个逻辑视图,同时将应用程序和用户所需要的数据存 储操作和具体的存储控制分离。虚拟化存储的任务首先是在多个物理存储 设备或存储系统上创建一个抽象层,屏蔽复杂性,简化管理;其次是对存 储资源进行优化 ”。从用户的角度来看,可以用一句更加简单的话来概括 虚拟存储,即使用的是存储空间而不是使用物理存储硬件( 磁盘、磁带库) , 管理的是存储空间而不是管理物理存储硬件【2 j 。 虚拟存储具有以下几个特点。 ( 1 ) 访问带宽提高视音频网络的存储系统一般由多个存储模块组成, 而虚拟存储系统可以很好地进行负载平衡,把每一次数据访问所需要的带 宽合理地分配到各个存储模块上,这样系统的整体访问带宽就增大了。 ( 2 ) 抽象层虚拟化存储技术在原有存储系统结构上增加了虚拟化抽 象层,将多个存储单元抽象成一个或多个虚拟存储池。存储用户向虚拟存 储池提出存储i 0 请求。 f 3 ) 存储资源的管理更具灵活性 虚拟存储技术将不同类型的存储设 备集中管理使用,且易于升级维护,这有效地保障了用户以往购买存储设 备的投资。 当前,虚拟存储技术已经融合到存储系统结构的各个环节中。从系统 的观点看,有三种主要的虚拟存储实现方式:基于存储网络的虚拟存储、 基于服务器的虚拟存储以及基于存储设备的虚拟存储。这三种实现方式, 有各自不同的实现目标和实际应用环境。如图1 1 所示。 图l - 1 虚拟存储的实现方式 f i g 1 - 1i m p l e m e n tm o d eo f v i r t u a ls t o r a g e 2 第1 章绪论 虚拟化海量存储技术利用快速设备代替慢速设备的策略,有效地解决 了用户突发访问的问题。通过预先处理,使物理设备处于充分忙的状态, 最大限度地发挥设备的海量存储作用。 近年来,随着多媒体和网络技术地不断发展,导致了基于网络化的多 媒体存储服务器的出现,不但要求服务器能存储和播放高质量的压缩视音 频信息流,还要能在多用户环境下提供高效的传输服务,同时管理者还能 有效地管理和监控存储系统。然而,当前的存储服务器已经不能满足这种 要求。首先,磁盘技术只能提供有限的在线容量来支持海量存储,且价格 昂贵,因此性价比较低。其次,所用的管理手段是面向存储设备和物理介 质的,没有提供高效的逻辑存储管理理念。随着数据量的急剧膨胀,必然 会给数据管理带来新的问题。这就意味着需要有新的存储技术和方法来满 足当前的应用需求。 基于此,国内外的很多研究机构提出了大量关于多媒体存储服务器的 模型和算法来解决上述的问题。下面分别介绍如下。 在国外,比较有代表性的有l a n c a s t e r 大学和c a m b r i d g e 大学所提出的 高性能磁盘阵列存储和检索算法。该算法能支持多网络化工作站的视音频 数据流传输。然而该系统在检索到5 个视音频文件后,性能就变得极其有 限,其瓶颈在于r a i d 子系统的可扩展性不高。 惠普实验室为使存储服务节点能独自支持视音频数据的存储和传输, 开发了一种基于光纤接口,并能应用于视音频存储服务的技术。其实验结 果表明对于相同数目的磁盘和文件系统配置,使用光纤作为视音频存储服 务接口的性能比当前最快的f a s ts c s i 传输速度高出5 0 。但一个很明显 的缺点就是光纤接口的成本太高,只能在传输距离有限,且性能要求较高 的环境中使用。 v e r i t a s 作为虚拟化存储技术和市场份额的领先者,也提供了全面的 解决方案v e r i t a ss t o r a g ef o u n d a t i o n 。其核心技术是卷管理( v o l u m e m a n a g e r ) 和文件系统( f i l es y s t e m ) 。卷管理解决了存储异构平台问题,实现 了数据集中统一管理。v e r i t a s 的文件系统则增强了系统对数据和文件的 管理能力。但是,由于该方案是基于备份策略的,所以文件传输速度不高, 燕山大学工学硕士学位论文 并且系统配置较为复杂,不利于高效管理。 其他的还有【3 1 ,如马里兰大学的l b e m a r d o 博士提出了一种海量存储 的模型和实现方法,用来优化磁带的数据访问模式;并且研究出了一种降 低存取时间的优化策略。乔治亚洲大学的l a n n 教授,提出了一种用于支 持v o d 存储系统的存储模型,该模型作为v o d 系统的原型,沿用到现在, 但是由于当时的磁带库技术较为落后,而没有对磁带库作为后援设备进行 更深入地探讨。 国内针对虚拟化海量存储的研究集中在高等学校中,华中科技大学、 清华大学和西北工业大学处于领先地位。 在8 6 3 项目的资助下,华中科技大学研究设计了一套虚拟化存储系统。 他们研究了在广域网环境下的虚拟化海量存储,主要涉及元数据的管理和 容错、数据安全和全局可视化管理,以及文件系统兼容机制的探讨。然而 他们所做的研究还处于系统的模型阶段,也没有涉及到网络及物理设备的 具体实现,其具体应用还需进一步验证。 清华大学开发了一套网络化的虚拟存储系统,即a x u m 系统。该系 统是国内唯一拥有自主知识产权的基于网络的存储虚拟管理软件。主要是 为p b 级的海量存储资源管理而设计开发的系统。由在网络中的智能管理 节点v i c 上实现,主要功能是实现存储资源的分配与管理,从而为存储网 络前端的各种异构平台服务器提供统一的存储资源视图。通过a x u m 系 统,可以实现海量存储设备的统一分配管理,并通过有效的数据分配策略, 提高网络存储系统的读写性能、可靠性和扩展能力。 西北工业大学的研究则集中在当前较为流行的s a n 存储管理系统上, 并在w i n d o w sn t 和u n i x 平台上开发了基于s a n 网络协议的存储管理系 统。该系统是一个功能完备的存储管理配置系统,拥有网络设备故障的自 动检出和隔离功能、数据管理功能、存储资源管理以及安全管理等功能。 但是由于其研究是平台级的,对具体的物理设备控制和管理的探讨较少, 有一定的局限性。 有关资料表明,目前国内有关虚拟化海量存储控制与管理软件的研究 还比较落后,只有部分机构和科研单位在做技术性的探讨,没有什么成功 第l 章绪论 的管理软件能够跟国外成熟的存储管理软件解决方案相抗衡。而国外成功 的存储控制软件都有其特有的管理理念和管理方法,软件模型一般只适合 于某些特定的环境。管理系统也大多面对中高端客户,这也使其在短期内 很难适应国内存储管理市场复杂多变的环境。 纵观各大成功的存储管理软件及其解决方案,不难发现目前绝大多数 的存储管理软件并不是直接针对电视台海量视音频数据的存储而编制的, 它没有考虑视音频信息存储、传输和使用的特点。另外,这些系统基本上 是将数据流磁带库作为后援备份系统而不是作为近线的海量信息存储系统 而设计的,直接使用这些软件并不利于视音频资料的数字化存储。所以建 立一个高性能、易管理、高可用的虚拟化海量存储管理系统对电视台视音 频信息存储和管理有重大的现实意义。其意义如下【4 j 。 n 1 提供集中管理的存储平台虚拟化技术大大提高了存储管理的效 率,是提高存储系统的可扩展性、存储空间利用率以及存储可用性的最佳 方法。 ( 2 ) 使数据服务和存储管理更加容易虚拟化海量存储能够屏蔽诸多 物理存储设备的复杂性,简化逻辑卷的提供和使用。通过引入分布式r a i d 功能,可实现数据的有效备份和容灾,提高信息的安全可靠性。 ( 3 1 可定制不同的存储服务质量虚拟化存储可以让系统管理员配置 系统的应用性能,并按需求获取存储容量,减少故障恢复时间等。同时, 它也能够方便地建立虚拟存储池,并且让使用者以事件驱动的形式来管理 存储资源。 ( 4 ) 易实现集群中卷共享和文件共享虚拟化存储能够使得多个主机 系统能够在可控的前提下同时访问共享卷,提高整个系统的工作效率。 1 3 课题的研究内容与研究方法 本课题的主要研究内容是结合电视台视音频资料数字化存储的要求和 特征,分析研究如何建立一个基于i b ml t 0 3 5 8 4 超可伸缩数字流磁带库虚 拟化海量存储管理服务系统以及其中的几项关键技术。着重研究如何提高 燕山大学工学硕士学位论文 存储系统的性能,可靠性及容错能力等问题,探讨存储管理理念和管理方 法,并通过软件的方法使系统具有无限的存储能力。 课题主要从以下两个方面来进行研究。 一方面从存储系统所采用的体系结构和存储设备的特点来研究系统的 性能和可用性问题,并提出了系统的两种基本存储i o 通路选择。另一方 面,从理论分析和实践应用的角度着重研究设计如何建立一个高性能、高 可用和可管理的虚拟化海量存储系统。 具体方法如下。 首先,研究当前流行的包括磁盘阵n t 5 - 1 5 、网络磁盘阵列1 6 埘】、存储 区域网【2 8 3 5 1 、附网存储1 3 6 q 9 1 等海量存储系统,并对它们的系统集成、软件 和调度算法设计、系统管理和性能测试等多个方向进行详细、深入的讨论 分析。 其次,从理论分析的角度,深入分析研究存储系统的若干关键技术性 问题,其中主要涉及系统组成结构和调度算法;从工程实践的角度,探讨 系统的设计方法、软件流程、调试技术和应用实例。 本研究内容来源于山东电视台媒体资产管理系统建设研究项目,由作 者负责研究设计并实现的虚拟化海量存储管理服务软件已经将以上研究成 果应用于实践,目前该软件已经在山东电视台正式投入运行,提供7 2 4 小时的持续存储服务。 1 4 论文结构 本论文共分6 章,各章内容如下。 第2 章为v m s 系统硬件体系结构的研究分析。本章提出了v m s 系统 的体系结构和工作模型;结合视音频资料数字化存储与再利用的特征给出 存储系统的需求分析。 第3 章为v m s 系统的磁盘阵列c a c h e 技术分析与研究。本章深入研 究了磁盘阵列c a c h e 技术,分析了用户访问的局部性模型,提出了适用于 不同阶段的c a c h e 管理算法,并给出算法的实现方案。 第1 章绪论 第4 章为v m s 系统存储管理策略的研究与数据迁移技术的分析。本 章提出了全新的基于卷和存储池结合的管理模型;同时提出了基于此存储 管理策略的动态数据迁移策略和算法。 第5 章为磁带库的随机i 0 调度分析与研究。本章分析了磁带库的随 机i o 调度操作模型,以及现有的i o 调度算法;并提出了优化的基于效 益代价的i o 调度算法,最后给出性能分析。 第6 章为v m s 系统的实现与性能分析。本章介绍了利用本课题的研 究成果研究设计的存储服务系统,并通过实验给出分析评价。 7 燕山大学工学硕士学位论文 第2 章v m s 的系统结构分析与研究 2 1 硬件体系结构与性能分析 v m s 系统的硬件体系结构直接反映和决定了存储i o 通路的组合选择 形式,而存储i o 通路的组合选择形式以及通路中各构件的性能好坏直接 影响系统的整体性能和数据吞吐能力。本节从i o 通路物理构件的组成来 分析系统性能问题,从而给出较优的存储i o 通道选择。 2 1 1 存储i o 通路的物理构件组成 为了讨论方便,首先给出v m s 的硬件体系结构,即数据存储服务器 的硬件组织结构图,如图2 - l 所示。其中i b m l t 0 3 5 8 4 磁带库中的磁带驱 动器通过s c s i 总线连接到数据存储服务器的s c s ih b a 卡上,同时数据 存储服务器提供一个1 0 0 m b 和1 0 0 0 m b 以太网接口同外部进行网络通信。 图2 - 1 存储i o 通道结构图 f i g 2 - 1s t r u c t u r eo f s t o r a g ei oc h a n n e l s 下面简单介绍一下v s m 系统中六个直接与存储i o 通信相联系的硬件 第2 章v m s 的系统结构分析与研究 组成部分 4 0 - 4 6 。 ( 1 ) 系统总线系统总线是一条致密的高速总线,并将c p u 、高速缓存 和内存连接在一起,通过总线仲裁获得总线使用权,然后在两个硬件模块 之间进行数据交换。 ( 2 ) p i 围设备总线它与系统总线以桥连接,并由桥控制器控制。同时 也是系统内存总线与存储设备之间的重要通道。目前流行,并且系统所使 用的是p c i 总线。 ( 3 ) 总线适配器它是一种将存储设备或其他外围设备接入主机i o 总 线,并对存储设备和外围设备进行控制的硬件,又称为主机i o 控制器。 因主机i o 总线和接口协议的差别,分为i d e 、s s a 、f c 、s c s i 等等。 ( 4 ) 网络接口在总线适配器之后是网络,它为存储系统到其它主机的 连接提供了一种灵活的解决方案,即可以很方便地实现容量扩展、距离延 伸和数据共享。 ( 5 ) 存储设备和子系统沿着i o 路径的下一站但不是最后一站是设备 和子系统,它们位于和总线适配器相同的网络中。磁盘驱动器和磁带驱动 器就是这样的设备。 ( 6 ) 介质从系统的观点看,i o 的最终目标是设备上的介质,如磁盘、 磁盘或者驱动器中的任何其他介质。 从以上对物理i o 通路构件的说明中可以看出,v s m 系统对网络用户 提供磁带库上的数据存取访问服务可以采用以下两种基本的存储i o 通路 方式。 ( 1 ) 直接方式以外部读取数据为例,数据包的通路为:介质至磁带驱 动器至s c s i 外部i o 总线至p c i s c s ih b a 卡至p c i 主机i o 总线至系统 内存总线至内存,然后系统通过内存的缓冲后会继续将其发到网络中去。 写数据包的过程与此相反。 ( 2 ) 间接方式该方式是利用主机系统内置的或外置的磁盘阵列来代 替磁带驱动器完成同外部的数据交换,磁盘阵列负责同磁带驱动器进行必 要的数据交换。这种方式把磁盘阵列当作是磁带库设备的一个缓冲。这样 显然加长t # b 部同磁带库设备进行数据交换的通路,看似延长了数据访问 9 燕山大学工学硕士学位论文 的时间。 但并不能因为间接方式加长了存储i o 通路就说其是不可取的。由于 磁盘和磁带驱动器读写方式和吞吐髓力的差异采用间接的方式可以通过分 层的存储模型来提供虚拟存储,让外部有一种所有数据都在快速磁盘阵列 中的假象,这种方式可以通过系统内部“调度”实现磁盘阵列同磁带库的 数据交换,从而有效提高系统的性能。同时磁盘阵列支持并发访问数据的 能力也使系统能支持更多用户的并发数据读写请求,而直接方式由于每个 请求都需独占一个磁带驱动器,支持多用户的能力弱,也常常会因为网络 的瓶颈问题造成磁带驱动器带宽的巨大浪费。 2 1 2 存储i o 通路的性能分析 由上面对存储i 0 路径物理构件的说明和路径组合形式可以清楚的看 出:1 1 0 通路的总的速率与通路中每个构件的速率有着直接的关系,任何 一个环节的瓶颈都会造成整个i 0 通路吞吐能力的下降。根据存储i 0 通 路中各构件的特征设计合适的存储路径组合方式是提高系统整体性能和数 据吞吐能力的有效手段。 由于每种存储i 0 通路组合中,都会通过内存来重定向数据,这样必 然会产生转发延迟,造成传输速率的损失。现将一个完整的i 0 读写通路 以内存为界分成读通路和写通路两个部分。下面分两种情况讨论存储路径 传输数据速率的计算方法。 ( 1 ) 单个读通路或写通路假设一个读( 或者写) 通路有n 个物理构件组 成,它们的速率分别为k ,k ,吒,则读( 写) 通道的通道速率为: 一= m i n ( v 1 ,k ) ( 2 1 ) ( 2 ) 整个i 0 通路由于内存的读取重定向工作方式带来了存储转发延 迟必然降低了整体的读写速度。假设整个i 0 通路中读通路的传输速率为 一,写通路的速率为k ,则整个通路的圪为: 屹2 糌 ( 2 _ 2 ) 公式( 2 - 2 ) 计算公式得出的前提是i 0 通路经过内存重定向时读写通路 第2 苹v m s 的系统结构分析与研究 中都没有采用系统缓冲区。 下面对v m s 系统存储i o 通路进行分析。 ( 1 ) 网络接口卡n i c 与以太网络带宽系统提供1 0 0 m b 和1 0 0 0 m b 两 种速率的以太网接口提供同外部高速以太网的连接。 ( 2 ) p c i 主机总线带宽系统采用标准的p c i2 1 版本总线,所以3 2 位 的p c i 总线将会提供1 3 3m b s 的带宽。 ( 3 ) p c i s c s ih b a 卡与s c s i 总线带宽 系统采用的a d a p t e c 公司的 2 9 4 0 u 2 w 适配卡可以提高到8 0m b s 的总线带宽。连接在s c s i 总线上的 磁带驱动器将共享这个带宽。 ( 4 ) 驱动器带宽第一代l t o 驱动器非压缩数据传输率为1 5m b s ,采 用2 :1 的压缩方式可以达到3 0m b s ,而第二代l t o 技术的指标为3 5m b s 和7 0m b s 。标志磁盘阵列驱动器性能的传输速率分为阵发性传输速率和 持续性传输速率两种,实际的性镌很大程度上依赖磁盘阵列上的文件系统, 本系统实测的速率平均i o 带宽为4 0m b s 。 ( 5 ) 系统内存总线为了提高其性能,往往具有远高于主机及外部i o 总线的内部总线带宽,比如当前使用的系统就具有5 3 3m h z 的前端系统总 线( f s b ) 和2 1g b s 的内存总线带宽,所以在整个存储通路中,这里将不 会产生带宽瓶颈。 利用上面给出的公式( 2 - 1 ) 和( 2 2 ) ,如果采用外部数据直接传送进入磁 带驱动器的数据通路,如果外部数据从1 0 0m b 传输,则整个i ( 3 通路中网 络将成为瓶颈,假若网络通信的平均带宽能达到8m b s ,则此时的驱动器 带宽利用率不足5 0 ,使用这样的通路进行数据交换将严重的浪费驱动器 资源。而如果采用1 0 0 0m b 网络同理分析可知以上存储方式可以让驱动器 满带宽使用。 假如系统两个网络接口都相应的接入1 0 0 m b 和1 0 0 0 m b 交换网络上, 在不考虑系统内部阵列和磁带驱动器之间的数据交换的情况下,由于各磁 带驱动器相互独立,在并发的磁盘读写阵列和磁带驱动器的工作环境下, 按照以上公式计算系统至少可以提供4 0m b s 以上的总传输速率,按照这 个速率系统每小时可以提供1 4 0g b 的吞吐量。 燕山大学工学硕士学位论文 2 2 高性能工作模型的研究与设计 如何建立一个具有高性能、高可用并能提供大量用户接入的工作模型 是本课题研究的主要问题之一。系统的工作模型不仅直接影响系统的性能 和用户的接入量,而且对可靠性和容错处理有着不同程度的影响。所以, 研究和设计高效的工作模型具有重要的意义。 2 2 1几种工作模型的提出与性能比较 v m s 系统中存在着多种需要并发处理的过程,只有通过高效的工作模 型才能使存储系统满足视音频文件并发存储的需求。本节所研究的工作模 型主要是探讨存储系统如何分工协作。通过多用户并发读写文件的分工协 作提出了以下几种工作模型。 ( 1 ) 控制流数据流混合模型这种模型的特点是存储系统的多路文件 数据通路和存储系统的管理部分同在一个工作空间内。在模型实现上,它 是一种单进程多线程的模型。 这种模型的优点在于,所有工作者采用线程来实现,并宿主于同一个 进程,所以工作者之间的通信是相当方便的。这种模型还简化了线程问的 通信,有利于工作者之间的协作,具有更高的工作效率。但同时控制流数 据流混合模型也有很多的缺点:首先,存储系统的控制部分和数据部分虽 然由不同的线程来执行,但是由于线程很容易破坏进程的地址空间,对数 据造成破坏,给系统性能和恢复带来极大困难。其次,同一进程可以容纳 的线程数量也是有限的,过多的线程不仅不能提高性能,还会对进程的安 全产生威胁。 ( 2 ) 单控制流单数据流模型这种模型的特点是存储系统的任务管理 以及资源管理等控制信息管理部分在一个独立的工作空间内,而所有的文 件数据读写通路在另外一个独立的工作空间内。在模型实现上,它是一种 双进程多线程模型,系统控制管理部分用一个进程,而所有的数据通路建 立在另外一个进程内,每个进程都采用多线程模型。 这种模型的优点在于,它能将数据流和控制流分开,任何一方的失效 第2 章v m s 的系统结构分析与研究 或崩溃并不会影响另外一方,比如正在传送的数据任务不会因为控制部分 的失效而中断。同样,数据传输中断造成的异常也不会影响控制部分,一 方的失效也可以通过另一方的补救来快速的恢复。这种控制流和数据流隔 离的手段增强了系统的可用性和恢复能力。但是这种模型仍然保留了数据 流间失效干扰的缺点,一个数据流的错误很容易蔓延到其他部分。同时这 种工作模型需要复杂的通信来完成协作。另外,数据通路的个数也会受系 统单进程内能够寄宿的线程个数的限制。 ( 3 ) 单控制流多数据流模型这种工作模型的特点是系统的控制管理 部分同单控制流单数据流一样工作在一个独立的工作空间内。不同的是数 据通路也工作在不同的工作空间内,当然这其中也可以细分为每个数据通 路都具有一个独立的工作空间和一组数据通路共享一个工作空间两种。在 实现上,这种模型是一个多进程模型。控制流和数据流都用相应的进程来 完成。如图2 2 所示。 控制 图2 2 单控制流多数据流模型 f i g 2 - 2m o d e lo f s i n g l ec o n t r o lf l o wa n dm u l t i p l ed a t af l o w 这种模型的优点在于,充分考虑控制部分和各数据流之间的失效隔离, 不仅控制流和数据流隔离,而且数据流之间也尽可能的隔离,这样就最大 程度的保护了各个独立的数据传输。一个通路的失效或者异常中断并不会 影响到控制流和其他数据流部分,对于那些对数据传输安全可靠性要求较 高的存储系统这种是比较合适的选择。但是这种模型的缺点是加大了协作 的难度,系统协作时的通信压力过大,也不易于实现。另外,当系统接入 过多的读写用户时,如果每个用户的数据传输都用一个独立的进程建立它 燕山大学工学硕士学位论文 的数据通路,必然给系统过大的压力,性能也会随之下降。 当然还可以组合成更多的工作模型,鉴于以上的三个工作模型已经具 有一定的代表性,在此就不再多枚举。不难发现,不同的工作模型从实现 的角度来讲其实质是在抉择数据通路功能时,是用进程实现还是线程实现 以及采用什么组合的问题。 2 2 2 多通路可伸缩工作模型 视音频虚拟海量存储环境需要存储系统具有良好的i 0 性能,同时还 应该能对每路传输的数据尽最大程度的保护,而且还要有能够适应现在和 将来可能越来越多的用户接入量。综合视音频数据存储的需求以及对比各 种工作模型,研究设计了一种支持多用户接入的高性能多通路可伸缩的工 作模型。如图2 - 3 所示。 控制流控制流l 皇皇 眄茗丽习赢 掣鎏陌磊 读数据服务者进程il | 写数据服务者进程j 数据流l数据流 图2 - 3 多通道可伸缩工作模型 f i g 2 - 3m u l t i p l ec h a n n e ls c a l a b l ew o r k i n gm o d e l 本工作模型不仅采用控制流和数据流分离的模型,而且系统管理和状 态监视以及日志管理也与存储系统主控部分分离这种功能分离并宿主于 1 4 茸圈 第2 章v m s 的系统结构分析与研究 不同进程的做法将极大地隔离系统失效带来的存储系统瘫痪。同时,任何 一方的失效或者是瘫痪都能通过有效的机制被其他部分发现,并及时给予 处理这无疑将加强系统的健壮性和自恢复能力。 该模型的多通路性主要体现在系统设计上。屏蔽了单一数据通路采用 独立进程的做法,每路通信虽采用一个独立的线程,但是让几路数据通信 共享一个进程,这样就避免了每通路一个进程会随着数据通路的增多而性 能急剧下降的弊端。同时系统允许采用多个进程来完成数据传输,避免了 单控制流单数据流接入量受限的不足。这种模型的优点是它折中了线程的 高效率和进程的高安全性。另外,对于内部的迁移管理也采用这种做法, 保证了多个存储池需要并发迁移的需求。 模型的伸缩性则体现在系统可以提供的数据传输进程总量和每进程可 以提供的线程量上。系统在使用的过程中,用户可以方便的配置数据传输 进程的最大量,也可以设置每个进程可以使用的最大线程量。如果系统设 置进程的最大量为l ,而每进程可以使用的线程量为n ,则系统就变成了单 控制流单数据流模型,同时将数据流个数限制为n ;而如果将进程最大量 设置为r 1 1 ,而每进程设置为1 个线程,那么模型就演变成了上节谈到的单 控制流多数据流模型。通常情况是,如果进程设置为最多m 个,每进程最 多n 个线程,则系统可以并发传输的数据通路是m x n 个。这两个值究竟 多少取决于系统的工作环境和用户对性能以及数据传输安全性的要求。 在这个模型中,用户需要设置的另外两个较为有意义的量是进程和线 程的起始启动量。它们的作用是在系统启动的时候需要预先建立的数据传 输进程的数量以及当一个传输进程建立的时候,内部应预先建立的工作线 程量。这种设计方法会使系统的实际工作性能提高很多。当系统有较少的 数据传输请求时,系统能快速地将已经创建好的未分配线程分配给那些需 要数据传输的用户:而当系统用户增多而预先创建的工作进程和线程用尽 时,系统会在配置允许的情况下创建新的进程和线程予以分配;而当系统 对传输通道需求再次降低时,系统会“杀死”一些工作进程和线程来平衡 系统进入起始启动量。实际的情况是,系统在工作期间工作进程和线程会 随着数据传输需求的不同在起始启动量和最大允许建立量之间伸缩。起始 燕山大学工学硕士学位论文 启动量的大小取决于系统能够支撑的并发数据传输量以及日常的数据传输 请求量。 本模型具有极大的柔性,极容易适应差异巨大的各种环境。通过以上 选项的不同组合可以使存储管理软件适应不同的存储需求。 由于系统的接入认证单元能集中地进行通路的分配和回收,所以这种 模型也很容易做到进程间的负载均衡。同时这种模型还允许系统管理员对 最大传输进程量、每个进程的最大线程量以及各启动量进行热配置,这样 用户就可以在系统使用的过程中,根据各进程的实际负载状态动态调整。 管理功能以及性能状态监视功能与主控进程的分离,不仅将工作单元 的失效概率降低,而且采用独立的进程来完成它们的工作也会给终端用户 提供较低的服务响应时间。 2 3v m s 系统的需求分析 下面将根据以上提出的v m s 存储系统的特点,结合电视台视音频数 据的存储使用要求来分析存储系统的需求。 2 3 1容量估算 目前一般的有线电视台几乎都保存了5 0 0 0 多小时的历史音像资料,并 且每天都有新的节目制作出来并需要保存。 为了满足业务发展的需要,录相带需要以不同的码流编码保存,比如 目前如果台内采用的1 2 m b p s 高码流的m p e g 2 编码文件用来提供高质量 的电视播出,同时还提供低码流的h 。2 6 4 编码文件来实现远程节目审编。 同时为了方便查询检索,存储系统还必须保存大量的视音频文件编目信息。 下面以5 0 0 0 小时的节目带来估算系统的容量。 假设所有入库的视音频资料采用1 2m b p s 码流的m p e g 。2 格式存储: 1 小时容量:3 6 0 0s 1 2m b p s 8 = 5 4 0 0m b 。 5 0 0 0 小时容量:5 4 0 0 小时5 0 0 0m b 1 0 2 4 2 6 3 6 8g b 。 编目信息的数据量估算: 1 6 第2 章v m s 的系统结构分析与研究 按平均每盘资料节目带的长度为l 小时计算,包含1 0 条编目单元,信 息量为5k b ( 标题,来源,稿件,分类号,关键词等) ,全文检索数据量与 文字信息大体相当,计算如下。 编目单元数:5 0 0 0 小时l 盘磁带,、时1 0 条盘磁带= 5 0 0 0 0 。 编目信息量:5 0 0 0 0 条5 k b 条= 2 5 0 m b 。 i b ml t 0 3 5 8 4 数据流磁带库能提供2 8 0 0 0g b ( 2 8t b ) 的最大在线存储 容量,完全能够满足电视台海量存储的需求。 2 3 2 吞吐量估算 假设v s m 系统要承载6 个节目频道的数据交换工作,这对存储系统 吞吐能力提出了非常高的要求。如果某个频道不能及时的从v m s 系统中 获取要播放的节目文件,将会对电视台播出造成极大的影响。为了方便, 估算时暂不考虑同一视频服务器内频道间的节目共享,即假设每个频道都 是相互独立的。 假设每个频道每天有2 0 小时的节目量需要从v m s 系统中获取,节目 以1 2m b p s 码流的m p e g 一2 编码格式存储。 每小时的数据量:3 6 0 0s 1 2m b p s 8 = 5 4 0 0m b 。 每频道每天的数据量:5 4 0 0 m b 2 0 1 0 2 41 0 8g b 。 6 个频道每天的数据量:1 0 8g b 6 = 6 4 8g b 。 以上要求海量存储系统每天必须具有6 4 8g b 的吞吐能力,这就要求 系统的数据传输速率满足: i o 速率= 6 4 8g b ( 2 4 3 6 0 0 ) , 7 7m b s 。 以上计算让我们清楚的看出,如果系统要提供2 4 3 6 0 0s 的不间断持 续传输必须要有将近8m b s 的传输速率。并且v m s 系统必须容许一定的 停工期来处理突发的问题,这就要求存储系统要有更高的i o 性能。 2 3 3 最大允许停工期 高可用的近线存储系统为了处理突发的事务可能需要一定时间的停工 期,而电视台业务要求在线的数据存储服务器必须提供7 2 4 小时的播出 燕山大学工学硕士学位论文 服务,哪怕1 秒钟播出错误都将造成严重的损失。根据上面对存储系统吞 吐量的要求,v m s 系统如果需要一定时间的停工期就必须提高其i o 传输 能力,假若系统的i o 速率为vm b s ,系统当天的吞吐量要求为t o t a lm b , 则最大允许停工期为:2 4 6 0 一t o t a l 6 0 v 分钟。 2 4 本章小结 首先对v m s 系统从体系结构和工作模型两个方面进行了深入分析, 提出了一种高性能的工作模型;然后对v m s 系统容量、吞吐量以及最大 允许停工期要求和计算方法进行了探讨。 1 8 第3 章磁盘阵列c a c h e 机制的分析与研究 第3 章磁盘阵列c a c h e 机制的分析与研究 本章在研究用户访问特性的基础上提出了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 牛奶售卖机器合同范本
- 苏州经贸职业技术学院《大学物理》2024-2025学年期末试卷(A卷)
- 真皮沙发购买合同范本
- 福建农活承包合同范本
- 货源授权合同范本模板
- 2025年护理文件书写制度题目及答案
- 桥梁建设中耐久性钢轨焊接材料的探究报告
- 人工智能机器人产业分析报告:智能装备革新驱动的高效未来
- 船舶工业:海事环境的智能清洁技术
- 绿色能源行业动力电池市场现状及前景预测
- 医院合作实施方案
- DB∕T 29-6-2018 天津市建设项目配建停车场(库)标准
- 2025年延安志丹县社区工作者招聘考试笔试试题(含答案)
- 2024年中国矫正器行业调查报告
- 污水处理厂的安全生产管理制度
- 铁道职业生涯规划书课件
- 医美培训课件分享
- 扫黄打非七进活动方案
- 职业教育产教融合政策-洞察及研究
- 2025安全考试题及答案
- 美容纹绣培训课件
评论
0/150
提交评论