(计算机系统结构专业论文)网络计算模式下的多主机系统卷动态重构策略.pdf_第1页
(计算机系统结构专业论文)网络计算模式下的多主机系统卷动态重构策略.pdf_第2页
(计算机系统结构专业论文)网络计算模式下的多主机系统卷动态重构策略.pdf_第3页
(计算机系统结构专业论文)网络计算模式下的多主机系统卷动态重构策略.pdf_第4页
(计算机系统结构专业论文)网络计算模式下的多主机系统卷动态重构策略.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机系统结构专业论文)网络计算模式下的多主机系统卷动态重构策略.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕十学位论文 摘要 传统冯诺依曼体系结构中,计算资源与存储资源( 包括物理存储设备及保存 在其上的系统数据和用户数据等) 静态绑定在一起,这种相对独立的状态一方面严 重影响了计算实体内部资源综合效用地发挥,另一方面分散式地管理与维护相对 独立的计算实体,工作量庞大,并且需要根据计算实体数量支付相应的软件版权 费用。网络计算模式的出现,实现了计算和存储的分离,即存储在存储资源中的 系统数据不再属于某一特定计算主体,而可以被网络中所有计算资源共享。如果 能让多个主机共享存储资源中的一份操作系统和其它应用软件,则整体软件成本 将大大减少,同时方便管理。但多个主机共享同一份数据存在着数据一致性的问 题,目前已有许多研究成果,但都存在着一定得缺陷,如断电后数据丢失,重构 速度慢等。 本文以研究如何由一份共享的系统卷和私有数据重构出被多个主机重用的系 统卷为基础,提出了一些相关地加速启动的方法。具体研究内容如下: ( 1 ) 引入蚁群算法的思想来分析多个主机启动过程中操作共享系统卷的情 况,并得出主机操作共享系统卷的规律。 ( 2 ) 基于上述理论基础,提出了主机系统卷重构的相似性模型:多个主机启 动过程中读或写的数据块一般比较相似。由此设计出了多主机系统卷重构算法。 数据结构采用位图和索引相结合,查找数据快速方便,空间利用率较高。该算法 能够快速地定位改写块及改写后存放的地址,保持了各个主机系统卷的数据一致 性。 ( 3 ) 以多主机系统卷重构模型为基础,设计了基于样本命中率的顺序预取和 马尔科夫二重跳转的预取算法。该预取算法结合了顺序预取和跳转预取的优点, 具有较高的命中率,同时是否进行真正的预取取决于样本命中率,该方法进一步 提高了命中的准确率。 关键词:透明计算;系统卷重构;相似性;二度局部性;样本命中率 i l 网络计算模式下的多主机系统卷动态重构策略 a b s t r a c t i nt r a d i t i o n a lv o nn e u m a n na r c h i t e c t u r e , c o m p u t i n g r e s o u r c e sa n ds t o r a g e r e s o u r c e sa r es t a t i c a l l yb o u n dt o g e t h e ra n df o r mal o c a ls e l f - g o v e m m e n t , i n d e p e n d e n c ed e c i s i o n m a k i n gc a l c u l a t i o ne n t i t y o nt h eo n eh a n d ,t h ee n t i t y e m c i e n c yd e c r e a s e sa tc o o p e r a t i o no fc o m p u t i n gt a s kf 0 rt h e i rr e l a t i v e l yi n d e p e n d e n t s t a t e o nt h eo t h e rh a n d ,d e c e n t r a l i z e dm a n a g e m e n ta n dm a i n t e n a n c eo fs e p a r a t e c o m p u t i n ge n t i t i e sa r eah u g ew o r k l o a d ,a n ds o f = 【w a r ef e e sa r ep a i da c c o r d i n gt ot h e n u m b e ro fe n t i t i e s a st h ec o n c e p to ft r a n s p a r e n c ec o m p u t i n gm o d eo rp e r v a s i v e c o m p u t i n gi sp r o p o s e d ,m ec o m p u t i n gt a s k sa n d r e s o u r c ea r es u b m i t e dt ot h ev a r i o u s d i s t r i b u t e dc o m p u t i n gr e s o u r c e so n r r a n s p a r e n c ec o m p u t i n gm o d e ,a n dd a t aa r e s t o r i e df o c u s e do na no n - d e m a n dd e p l o y m e n ts t o r a g ee q u i p m e n to rs y s t e m ,t h es y s t e m d a t as a v e di nt h es t o r a g er e s o u r c e si sn ol o n g e rb e l o n gt oap a r t i c u l a rc o m p u t i n g e n t i t yw h i c hc a nb es h a r e db ya nn e t w o r kr e s o u r c e s i f as y s t e mv o l u m es h a r e db y s o m ec o m p u t e r t h et o t a lf e ew i l lb el e s s e na n da l s ob ep r o p i t i o u st om a n a g e m e t b u t t h ec o n s i s t e n c yw i l lb eac h a l l e n g e t h e r ea r es o m es t u d ya tp r e s e n t ,b u ta l s oe x i s ts o m d i s n g u r e m e n t s u c ha sd a t ad i s a p p e a rw h e np o w e rd o w na n d h a sal o wp e r f o r m a n c ei n t h ep r o c e s so fs y s t e mr e b u i l t t h i sp a p e ri ss t u d i e dh o wt oc o n ng u r eas y s t e mf r o m t h es h a r e dd a t aa n de a c he n t i t yp r i v a t ep r o p e r t ya n da l s os o m eo p t i m i z ea b o a ti t a s e a c hc a l c u l a t e de n t i t vh a si l so w ni n h e r e n ta t t r i b u t e sw h i c hi sd i s t i n c t i v ef r o mo t h e r e n t i t i e s t h ed i s t r i b u t e ds y s t e md a t aw i t hs e r v i c ea b i l i t ys h o u l dr e c o n n g u r e df r o mt h e s h a r e dd a t aa n de a c he n t i t yp r i v a t ep r o p e n y s oh o wt om a k ei ti st h ek e y t h i sp a p e ri s i n v o l v e di nb e l o ws u b j e c t s : ( 1 ) a na n tc o l o n ya l g o r i t h mw a sp r o p o s e dt oa n a l y s et h er u l eo fm u l t i - h o s ti n t h ep r o c e s so fs t a r tf r o mt h es h a r e ds y s t e mv a l u m s a tl a s t ,w ec o m et os o m eo fi t s l a w so f i t ( 2 ) b a s e do nt h ea b o v ec o n c l u s i o n s ,as y s t e ms i m i l a rm o d e lw a sp r o p o s e da n d d e s i g n e dav o l u m er e c o n s t r u c t i o na l g o r i t h m t h i sa l g o r i t h mc a na p p e f c e i v ef l e e t l y a n dp o s i t i o nr e w r i t t e nb l o c k st om a i n t a i nt h ec o n s i s t e n c yo fd a t av o l u m e s a tt h es a m e t i m e ,t h ed a t as t r u c t u r eu s eb o t ha r r ya n di n d e xt of i n dd a t aq u i c k l ya n de a s i l ya n d a l s oh a v eah i g h e ru t i l i z a t i o no fs p a c e ( 3 ) b a s e do nt h em u l t - h o s tr e c o n s t m c t i o nm o d e l ,w ed e s i g n e dap r e f e t c h i n g a l g o r i t h mi n v o l v eb o t ht h es e q u e n c e a n dd o u b l eju m p i n gp r e f e t c h i n g ,w h i l et h e l i i 硕十学位论文 a l g o r i t h mw h i c hb a s e do nt h es a m p l es h o o ts t r a i g h tt od e c i d ew h e t h e rp r e f e t c hw h i c h f t l i r t h e ri m p r o v et h ea c c u r a c yo ft h es h o o t i n g k e yw o r d s :1 r a n s p a r e n tc o m p u t a t i o n ;s y s t e mv o l u m er e s t m c t u r i n g ;s i m i l a r i t y ;1 w o d e g r e ep a r t i a lc h a r a c t e r i s t i c s ;s a m p l es h o o ts t r a i g h t i v 网络计算模式下的多主机系统卷动态重构策略 插图索引 图1 1直接依附存储系统( d a s ) 4 图1 2存储区域网4 图1 3n a s 存储结构5 图1 4n a s 和s a n 的本质区别6 图1 5i s c s i 体系结构8 图1 6s c s i 协议数据报格式8 图2 1整体架构1 4 图3 1蚂蚁觅食2 0 图3 2 单只蚂蚁的路径图2 4 图3 3多只蚂蚁路径2 5 图3 4基于蚁群算法的理论模型2 6 图4 1卷重构过程扩展块改写标识与重定位3 1 图4 2访问归整化3 3 图4 3m i c r o s o f tw o r d 2 0 0 3 启动时间3 7 图4 4 a d o b ea c r o b a t 6 0 启动时间3 7 图5 1马尔科夫概率转移矩阵4 3 图5 2基于样本命中率的流程4 5 图5 3各种预取技术命中率的比较4 7 图5 4主机个数与吞吐量的关系4 7 图5 5 改进后吞吐量与主机个数的关系一4 8 v i i 硕1 :学位论文 附表索引 表4 1各种技术的时间和空间代价3 6 表4 2主机启动时间3 7 表5 1各种预取技术的预取覆盖率4 7 v i i i 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名: 五 盘 日期:沙7 年j 月尹日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“、”) 作者签名:互菲! 日期: 纱。1 年6 月尹日 刷醴辄汗n 毛醐。彳“舭日 硕十学位论文 1 1 选题背景和意义 第1 章绪论 当今社会,信息科学技术的应用己经无处不在。管理科学也不例外,计算 机软硬件、网络和存储等信息技术为管理提供了新的方式和手段。目前管理科 学与信息技术融合而形成的管理信息系统等已被广泛应用于各个部门、企业和 学校。例如,当前很多企业大力进行信息化建设,使用各种e r p ( e n t e r p r i s e r e s o u r c ep l a n n i n g ) 或c r m ( c o m m i t t e eo nm e d i c a lr e s e a r c ha n dp u b l i ch e a l t h ) 等 信息系统来管理和提升企业工作效率和决策服务,以获取最大经济效益,为企 业在市场中获得竞争优势。 随着信息化建设的高速发展,企业、政府等机构的信息基础设施越来越庞 大和复杂,更多的业务构建在计算机系统上,信息容量急剧膨胀,信息的价值 也日益重要,因而由信息转变而来的数据的价值也越来越高,使得这些机构对 管理信息系统的依赖性也越来越高,这给数据存储带来了很大的压力,同时管 理信息系统的总体成本上升的问题也更加突出。管理信息系统的总体拥有成本 不仅包括信息系统软件的购置或开发成本,还包括系统硬件购置成本、操作系 统和应用软件购置成本以及系统运行后发生的硬件维护升级成本、系统软件和 应用软件维护升级成本、系统管理成本等。在这些费用中,许多是隐性成本。 如为了保证系统的正常运行及安全性等投入的系统管理成本以及系统维护成 本。另一方面企业对数据访问性能、数据传输性能、数据管理能力、数据共享 能力、存储扩展能力等方面提出了更高需求。 传统的计算机系统将计算资源、系统数据和用户数据三者静态的绑定在一 起,系统数据和用户数据均存储在计算资源的本地磁盘中,随着数据量迅猛增 长,存储容量,处理时间和数据备份都成为严重的问题,同时数据共享难的问 题也越来越突出。 综合来说,随着信息技术的发展,现在信息科学中面临的挑战有以下几个 方面: ( 1 ) 存储容量动态扩展,企业在信息活动中不断地产生数字化信息,各种 新型应用层出不穷,造成数据总量呈几何级数增长。因为永远都有新的数据产 生,所以对存储容量的需求是没有止境的。因此,现代存储系统应该具备高度 的可扩展性,并且这种扩展应该不中断正在进行的业务,这对数据存储系统容 量、动态可扩展性提出了前所未有的挑战。 网络计算模式下的多主机动态蕈构策略 ( 2 ) 管理和维护难,传统的存储管理和维护大部分工作由人工完成,随着 存储管理和维护越来越复杂,对维护人员的素质也提出了更高的要求,往往超 过了i t 管理人员的能力范围。所以现代存储系统要求具有易管理性,甚至智能 化的管理和维护功能。 ( 3 ) 资源利用率低,传统的系统结构中,信息都是单独存放在每一台主机 私有的存储空间,为了满足不时之需,通常要预留一部分资源,所以通常只有 约8 0 左右的容量被有效利用,2 0 3 0 的容量被浪费掉了。考虑到用户数 据的动态变化,就会出现某些计算机存储资源不够,而另一些计算机存储资源 空闲的情况,这些空闲的资源将不能得到有效的利用,导致资源利用率低。 总之,随着计算机技术的发展,越来越多的技术亟待解决,需要考虑诸如 计算机系统安装的轻松程度、维护的费用和难度、使用的轻松程度以及软硬件 共享等问题,从而减少系统管理维护成本,保障信息系统可以长期、稳定、可 靠地运行。 随着新技术不断涌现,如网络互连协议,它能够使存储和计算突破地域的 限制;虚拟存储技术能够使多个主机共享一个存储系统,做到按需分配,动态 分配;远程启动技术能够使操作系统放在网络硬盘上,启动时自动从网络磁盘 中下载安装。随着这些技术的发展,人们提出了存储和计算分离的概念,其中 也有很多研究成果,如n h d 系统,蓝鲸部署系统【2 1 ,成功的解决了计算资源, 系统数据和用户数据的分离。 计算和存储分离为数据共享提供了好的途径。另一方面,在计算环境中, 计算节点的系统数据和应用数据往往具有高度的相似性【3 】:运行同一操作系统 平台的服务器其o s ( o p e r a t o rs y s t e m ) 部分的数据基本都是相同的:提供同种服 务的集群节点甚至连应用程序也完全一样:企业同一部门人员所需的工作环境 也大都类似。这一特性与后端集中存储相结合,将带来两方面的优化可能。首 先是存储资源占用量的优化:如果这些相同数据能够被共享,则可以节省大量 的存储资源:其次是计算环境数据构建的优化:之前的构建方式要么重新安装操 作系统和应用程序,要么实际拷贝一份事先准备好的映像,再进行修改,显然 通过共享大部分相同的数据,只准备小部分不同数据的方式能够优化这一过程。 但是对于计算环境部署的存储层次如何做到这样的共享与构建,这方面的研究 还比较薄弱。另一个重要问题是如何获得较短的部署用时。 本课题研究的重点就是在存储设备端对已有的共享数据存放策略的改进, 在数据共享的同时,即减少存储空间,又减少系统的部署用时。 1 2 网络模式下的共享存储技术相关研究 2 硕士学位论文 1 2 1 网络共享存储体系结构的变革 i o 瓶颈导致了整个网络效率低下,所以人们提出了许多解决办法。其中 经过实践检验为最有效的办法是:将数据从通用的应用服务器中分离出来,即 网络存储。根据网络与存储系统结合的不同形式,网络存储技术正沿着几个主 流技术方向发展,即附属网络存储( n e t w o r k a t t a c h e ds t o r a g e ,n a s ) 【4 1 、存储局 域网( s t o r a g ea r e a n e t w o r k ,s a n ) 5 6 】和基于i p 的存储。下面我们将对传统的存 储模式与现在比较主流的存储技术做一些简单介绍。 传统的存储模式即直接依附存储系统( d i r e c t e da c c e s s e ds t o r a g e ,d a s ) 【4 1 , 它被定义为直接连接在各种服务器或客户端扩展接口下的数据存储设备,它依 赖于服务器,其本身是硬件的堆叠,不带有任何存储操作系统。在这种方式中, 各种存储设备通过i d e 、s c s i 等i o 总线,经过一个通用的服务器连接在网络 上,并且通过传统的i o 总线与服务器通信。这种直连方式,能够解决单台服 务器的存储空间扩展以及高性能传输需求,同时随着大容量硬盘的推出,单台 外置存储系统存储能力现在已经大幅上升,从几十g 发展到了2 t b 以上。此外, d a s 还可以构成基于磁盘阵列的存储系统,从而使存储能力进一步扩大。所以 从趋势上看,d a s 仍然会作为一种存储模式,继续得到应用。但d a s 方式存 在以下几个缺点: ( 1 ) 客户端如果需要访问存储器上的数据,必须先给文件服务器发送请求 信息,然后文件服务器解析这个请求并给存储器发送访问信息,接着存储器访 问数据并发送至文件服务器内存,最终由服务器把文件传送给客户机。即数据 的访问必须经过服务器,所以服务器就有可能成为系统的瓶颈。 ( 2 ) 对于多个服务器或多台p c 的环境,使用d a s 方式设备的初始费用可 比较低,但在这种连接方式下,由图1 1 可知,每台p c 或服务器单独拥有存储 磁盘,这样会造成数据处理复杂,容量的再分配也困难;随着应用服务器的不 断增加,网络系统效率也会急剧下降。最终导致整个环境下的存储系统管理工 作繁琐而分散,整体拥有成本高。 针对d a s 的缺陷,研究人员提出了存储网络的概念: 从图1 2 可看出:存储器从应用服务器中分离出来,进行集中管理,这就 是上面所说的存储网络( s t o r a g en e t w o r k s ) 。该存储网络主要有以下优点: 统一性,在逻辑上是完全统一的整体。 实现数据集中管理。 容易扩充,既可以动态的增加或减少存储容量。 具有容错功能,整个网络无单点故障。 针对存储区域网络又采取了以下两种不同的实现手段,即n a s ( n e t w o r k 3 网络计算模式下的多主机动态重构策略 a t t a c h e ds t o r a g e ) 网络接入存储和s a n ( s t o r a g ea r e an e t w o r k s ) 存储区域网 络。 f 二 黧鼋 图1 1 直接依附存储系统( d a s ) 共享存储器 图1 2 存储区域网 在n a s 存储结构中,存储系统不再通过i o 总线附属于某个特定的服务器 或客户机如图1 3 所示,而是直接通过网络接口与网络直接相连,由用户通过 网络来访问。n a s 存储系统通过基于i p 网络的网络文件协议向多种客户端提 供文件级i o 服务,同时客户端也可以在n a s 存储设备提供的目录或设备中进 行文件级操作。当一个用户或应用程序试图访问文件时,经过解释的i o 请求 会被重定向到网络传输路径,最终这些i o 请求会经过i p 网络传输到n a s 服 务器端,由那里的网络文件协议接收,随后解包并处理客户端和块设备之间的 映射关系,最后将正常的i o 操作请求交给服务器上的文件系统处理。 n a s 实际上是一个带有瘦服务器的存储设备如图1 3 所示,它是一种专业 的网络文件存储及文件备份设备,只是没有显示器,键盘,鼠标等设备。它是 基于l a n ( 局域网) ,按照t c p i p 协议进行通信,以文件的i o ( 输入输出) 方式 进行数据传输。一个n a s 里面包括核心处理器,文件服务管理工具,一个或者 多个硬盘驱动器来用于数据的存储。n a s 可以应用在任何的网络环境当中。主 服务器和客户端可以非常方便地在n a s 上存取任意格式的文件,包括s m b 格 4 学位论女 式( w i n d o w s ) n f s 格式( u n l x ,l l n u x ) 和c i f s 格式等等。n a s 系统可以根据服务 器或者客户端计算机发出的指令完成对文件的管理。 c n a t f 厂下矿 引躺统l 团 r 3 l :竺 图l3n a s 存储结构 与d a s 相比,n a s 结构已经在速度、町靠性等方面有了很大的改善,但 仍然存在局限性如:数据备份能力有限,数据库方面运用不广泛等。因此,n a s 仅仅是一种过渡性的解决方案,真正解决问题还需要新型的存储技术。 存储区域网络是一种专注于信息存储、访问和管理的高速网络,s a n 产品 根植于s c s i 存储技术,包括主机i ,o 控制器、存储设备和存储子系统,它是 s c s i 技术与网络技术相结合的产物。s a n 的功能足将存储设备从局域网巾分 离出来,使其变成负责存储的“后端”网络,而“前端”网络则负责正常的t c p i p 传输。在s a n 中,存储设备通过专用交换机连接到计算机卜,在该网络中提供 了多主机连接,允许任何服务器连接到任何存储阵列,让多主机访问存储器和 主机日j 互相访问一样方便,这样不管数据置放在何处,服务器都可直接存取所 需的数据。同时,随着存储容量的爆炸性增长,s a n 也允许企业独立地增加它 们的存储容量。另外,由于采用高速光纤连接服务器和存储系统,所以s a n 能 够获得较高的传输速率。与n a s 提供文件级的服务不一样,s a n 向用户提供 块数据级的服务,它将数据的存储与处理分离开来,彻底改变了主机与存储设 备之问的主从关系。在s a n 中,所有的存储设备和数据均采用集中方式进行 管理,整个系统具有伸缩性,并且可通过存储集群方式提高可用度。s a n 结构 具有很多优点,如灵活的扩展性,非常高的数据传输率等,但是由于互操作性 差、构建费用高昂、且需要专业人员管理,其应用电受到一定的限制。 根据存储网络所采用的传输协议以及传输介质的不同,s a n 有很多种实现 方式,目前比较流行的是f c s a n 【7 】和i p s a n 【“。 f c s a n 是当前最主流的s a n 结构,它采用高速的光纤通道构架存储网络, 并用f c p 协议传输s c s i 命令和数据。由于光纤通道的远距离连接能力以及高 n了、,厶、 照妊 网络计算模式下的多主机动态重构策略 速的传输能力,使得f c s a n 的性能非凡,被业界普遍采用。但另一方面, f c s a n 采用光纤网络使得其实现成本极其昂贵。 i p s a n 使得服务器可以通过i p 网络连接s c s i 设备,就像使用本地的设备 一样,无需关心设备的地址或位置。由于既有的成熟性和开放性,i p 存储技术, 使企业在制定和实现“安全数据存储”的策略和方案时,有了更多的选择空间。 例如远程的数据备份、数据镜像和服务器集群等领域,i p 存储的介入都可以大 大丰富其内容。同时,i p 存储也消除了企业i t 部门在设计传统s a n 方案时, 必须面对的产品兼容性和连接性方面的问题。最重要的是,基于i p 存储技术的 新型”s a n ”,兼具了传统s a n 的高性能和传统n a s 的数据共享优势,为新的 数据应用方式提供了更加先进的结构平台。 n a s 和s a n 的不同点: ( 1 ) 传输的协议不同,n a s 通过t c p i p 协议访问数据,采用业界标准文件 共享协议如:n f s 、h t t p 、c i f s 【1 1 】实现共享,而s a n 通过专用光纤通道交换 机访问数据,采用s c s i 、f c a l 接口。 ( 2 ) 文件管理系统的位置不同,如图1 4 所表示,在s a n 结构中,每一个 应用服务器上都有一个文件管理系统( f s ) ;而n a s 则是每个应用服务器通过网 络共享协议( 如:n f s 、c i f s ) 使用同一个文件管理系统。 图1 4n a s 和s a n 的本质区别 从以上论述可知,n a s 专注于应用、用户和文件以及它们共享的数据上, 而s a n 则专注于磁盘、磁带以及连接它们的可靠的基础结构。 n a s 和s a n 的优劣已经停止了争论,现在一个比较一致的看法是:n a s 可以很经济地解决存储容量不足的问题,但难以获得满意的性能,对于关键事 务应用而言,它必须使用专用的宽带网络。因此,如果公司的发展将需要大量 的n a s 设备或是网络带宽需求超过千兆以太网,就应该考虑最高端的存储解决 方案s a n 。s a n 与n a s 体系的融合正在积极发展。这种融合存在其合理性, s a n 提供速度,n a s 提供由文件处理带来的协作性。 6 硕十学位论文 总的来说,d a s 、n a s 、s a n 三种存储模式,已经很好的满足了目前企业 信息化应用在单服务器扩容、服务器双机高可用集群、高性能、高可用、高扩 展的网络存储和简单易用的网络文件共享等方面的需求。随着信息化建设朝深 度和广度发展,新兴的存储模式也必将会逐步走向普及应用。 1 2 2 网络共享存储技术的改进和创新 ( 1 ) 网络互连协议:目前基于i p 的存储主要包括,f c i p ,i f c p ,i s c s i 【1 2 1 4 1 等,以下将对其做详细介绍。 f c i p f c i p 是一种通过现有的i p 网络连接光纤通道s a n “孤岛 的标准方法。 它可用来克服光纤通道目前存在的距离限制因素,能够跨越大于光纤通道支持 的距离连接s a n 孤岛。在传输的发送端,所有的光纤通道帧被“包装”成t c p i p 数据报,在接收端,数据报“包装器被丢弃,光纤通道帧以原有的格式展示 给接收端的s a n 。t c p i p 充当了隧道的作用,而f c i p 数据报本身与其他任何 数据报一样可以路由或交换。f c i p 具有实现纠错和检测的优点,如果i p 网络 错误率高的话,它就重试。这是在一条低性能、高错误率的i p 网络上连接s a n 的理想途径。 i f c p 协议 互联网光纤通道协议( i n t e m e tf i b r ec h a n n e lp r o t o c o l ,i f c p ) 是利用t c p i p 网络传送光纤通道传输流的标准。i f c p 可以将光纤通道r a i d 阵列、交换机和 服务器连接在i p 存储网络上,从而保护了基础设施投资。i f c p 运行时将光纤 通道数据包裹在i p 包中,并将i p 地址映射到不同的光纤设备上。在i p 网络中, 每台光纤通道设备都有自己的身份,因此它可以单独地向i p 网络中的其它节点 传送存储数据流以及从这些节点接收存储数据流。通过在i f c p 网关上端接光 纤通道信令和在i p 网络上传送存储数据流,使i f c p 打破了传统的光纤通道网 络的距离障碍( 传统光纤通道网络的传输距离只有6 2 英里) 。i f c p 与i p 上光纤 通道( f i b r ec h a n n e lo v e ri p ,f c i p ) 不同,它是一种简单的隧道协议,将两个光 纤通道结构互联在一起,组成一个更大的结构。因此f c i p 类似于扩展2 层网 络的桥接方法,不具有i f c p 的隔离故障的能力。 i s c s i 协议 i s c s i 是将s c s i 映射到网络上的传输协议,同s c s i 一样,i s c s i 也采用 请求响应的方式进行通信。i s c s i 将s c s i 请求和响应加载到i s c s i 请求和响应 中通过网络传送。对应于s c s i 模型,i s c s i 也是一种启动器目标器的模型, 称为i s c s i 启动器和i s c s i 目标器。i s c s i 中无论启动器方还是目标器方都采取 如下两层模型发送和接受p d u 。 7 网络计算模式下的多主机动态藿构策略 ( 1 ) s c s i 层:负责构造、发送或接受s c s i 命令描述块c d b 和相关的s c s i 参数。 ( 2 ) i s c s i 层:构造i s c s ip d u ,并从一个或多个t c p 连接上发送和接收 i s c s ip d u 。 发起端 圃 圃 圃 圃 圃 目标端 图1 5i s c s i 体系结构 当i s c s i 启动器向目标端发起一个存储命令时,发起端操作系统先把该命 令转换成s c s i 命令,s c s i 命令经过i s c s i 协议层,被封装在一种叫做i s c s i 协议数据单元( i s c s ip r o t o c o ld a t au n i t ) 的数据包中,再经过t c p i p 协议栈被 封装成i p 数据包( 如图1 6 ) ,到达目标器时,再反向解析,提取出s c s i 命令。 图1 6s c s i 协议数据报格式 ( 2 ) 虚拟存储技术:从d a s 到n a s 和s a n ,存储系统的性能已获得很大 提高,然而n a s 和s a n 仍然有难以克服的缺陷。随着存储系统的规模逐渐扩 大,人们迫切需要一种新的方法来改善存储系统的管理问题。虚拟存储【”一6 】 正是在这种情况下产生的,它可以对现有的各种存储设备和存储子系统进行整 合,对存储管理进行优化,为解决现时的存储需求提供了新的途径。 所谓存储虚拟化技术是指将实际的多个物理上独立存在的存储实体通过硬 件和软件的手段集中管理起来,逻辑上实现了一个大的线性逻辑地址空间,供 8 圃圃圃甸圃j 硕l 学位论文 主机访问,用户并不需要知道数据具体存放在那个物理设备上,虚拟卷的存储 容量是它集中管理的存储实体的容量之和,应用服务器只与分配给它们的逻辑 卷( 或称虚拟卷) 打交道,而不用关心其数据具体是在哪个物理存储实体上。虚 拟存储克服了物理存储的局限,将底层存储设备进行抽象化统一管理,在原有 的存储系统结构上增加了虚拟化层,向用户层屏蔽了存储设备硬件的特殊性, 将多个存储单元抽象成一个虚拟存储池,存储单元既可以是物理存储设备,也 可以是各种存储系统,最终以统一的存储空间呈现给用户,存储用户通过虚拟 层提供的接口向虚拟存储池发出虚拟i o 请求,虚拟层对这些请求进行处理后 将相应的请求映射到具体的存储单元,从而实现了集中存储和统一方便的管理。 该技术不仅能创建大容量存储池,并可根据需要对容量进行虚拟化分配。 在网络存储的大背景下,存储虚拟化从单机内部走到局域互联,再走向广 域互联。从宏观的角度来看,当前主要有以下三种存储虚拟化方法:基于主机 的虚拟化、基于存储设备的虚拟化和基于网络的虚拟化。 基于主机的存储虚拟化 基于主机的存储虚拟化其核心是操作系统平台相关的设备驱动程序和管理 软件。它们运行在一个或多个主机上,实现存储虚拟化的控制和管理。 基于存储设备的虚拟化 基于存储设备的虚拟化是指在存储设备( 通常是磁盘阵列) 中增加相关的功 能模块,比如s o t a r g e t e k a v 9 6 0 和h p v a 7 0 0 0 。从性能上来说这种方法应该是最 优的,因为它能充分考虑存储设备的物理特性,并且将应用服务器从存储虚拟 化的管理工作中彻底解放出来,不需要在主机上安装驱动程序,所有的虚拟化 功能全部在存储设备一端实现,不存在平台相关的兼容性问题,从而更容易管 理。在功能方面,它一般由存储设备厂商提供,应用测试比较完备,可以用到 厂商专用的很多成熟技术。 网络级的虚拟化 网络级的虚拟化,它能将存储网络上的各种品牌的存储子系统整合成一个 或多个可以集中管理的存储池,并在存储池中按需要建立一个或多个不同大小 的虚卷,最终将这些虚拟卷按一定的读写授权分配给存储网络上的各种应用服 务器。这样就达到了充分利用存储容量、集中管理存储、降低存储成本的目的。 总的来说,采用存储虚拟化技术,支持物理磁盘空间的动态扩展,用户现 有的设备可以融入到新的系统中来,保障了用户已有的投资,降低了用户总体 成本,实现了存储容量的动态扩展,从而能够增加用户的资源利用率。 ( 3 ) 远程启动技术:远程启动服务 1 7 一1 8 】( r e m o t e b o o t ,通常也叫r p l ) 是使 用服务器硬盘上的软件代替工作站硬盘来引导另一台网络上的工作站的新技 术。工作站的网络适配卡上必须装有一个r p l ( r e m o t ep r o g r a ml o a d 远程初始 9 网络计算模式下的多主机动态荦构策略 程序加载) r o m 芯片。每一种r p lr o m 芯片都是为一类特定的网络接口卡而 制作的,它们之间不能互换。带有r p l 的网络接口卡发出引导记录请求的广播 ( b r o a d c a s t s ) ,服务器自动的建立一个连接来响应它,并加载相关启动文件到工 作站的内存中。为了远程启动一台工作站,运行远程启动服务的w i n d o w sn t 服务器必须提供两个资源给客户: 一个引导程序块( b o o tb 1 0 c k ) ,它包含了引导时开启工作站需要的所有 信息。 远程启动配置文件( r e m o t e b o o tp r 0 6 l e ) ,它定义了工作站引导后将要用 到的操作系统环境。 阶段1 :初始化引导程序块下载,这个阶段的目标是去寻找一个远程启动 服务器并下载适合该工作站特定类型的网络接口卡的引导程序块信息。 阶段2 :操作系统下载,这一阶段的目标是模仿m s d o s 引导过程。来自 引导程序块的信息被r p lr o m 用来加载基本的操作系统和网络,然后建立一 个同远程启动服务器的会话。 远程启动允许使用无盘工作站( d i s k l e s sw b r k s t a t i o n ) 而勿需在每一台工作 站上配置一个硬盘。有如下优点: 增强的网络安全性。 远程启动的工作站只能运行经服务器设置为有效的软件。远程启动不 需要通过磁盘驱动器来进行数据复制,因此减少了病毒的危险。 软件版本便于控制,更易集中升级软件。 利用远程启动服务,使通过在单一服务器上的升级文件来更新众多的 工作站的操作环境成为可能。即使工作站已经有一个硬盘驱动器,通 过远程引导也会有更多的的好处。 集中的磁盘资源,在分配信息和软件资源上具有更大的控制权被广泛 访问的数据资源放置在单个磁盘( 服务器) 而不是众多单独的工作站磁 盘上,这使得数据备份更为容易。 降低购买和维护工作站的成本。 1 3 本文主要研究内容 本系统存储设备端采用存储虚拟化【1 9 圳】技术,屏蔽了上层操作系统和下层 存储设备之间的差异,存储设备被映射为本地磁盘,通过封装s c s i 命令,在 广域上传输。存储设备端,保存一份共享的系统卷和各自主机系统卷之间的差 异信息,由于差异信息量很小,且系统之间的差异信息基本相同,如i p 地址, 用户名,密码等,所以不同主机之间修改的系统数据块基本相同。根据这一特 性,通过记录前面主机的启动查找过程,预取需要的块,可大大节省查找时间, l o 硕上学位论文 因此课题在采用集中存储的同时,采用蚁群算法来记录前面主机的经常操作的 块,用马尔可夫模型的转移概率来记录块之间的先后转移关系。通过这种策略 预取需要的块,命中率将大大提高。大体来说,本文的研究主要有以下四点: ( 1 ) 通过对蚁群算法的研究,设计出了基于蚁群的多主机系统卷统计模型, 并利用该模型统计分析了多个同构主机分别由同一共享系统卷远程启动与配置 过程中对共享卷改写情况。 ( 2 ) 通过对基于蚁群的多主机系统卷访问模型的研究,得出了多主机启动 过程中访问块的规律,提出了透明计算模式下多主机系统卷重构过程的相似性 模型,通过在共享系统卷的改写相似集元素s c e ( s i m i l a rc o l l e c t i o ne l e m e n t ) 上留 下一种标识来进行信息传递,以此指导该主机以后对改写相似集的快速定位, 并指导其它主机重构其系统卷时快速感知将要改写的s c e ,最终设计了基于二 度局部特征的主机系统卷重构算法。在蓝鲸分布式系统所采用的复合快照技术 【2 2 2 3 1 ,进一步节省了存储空间。 ( 3 ) 提出了透明计算模式下分布式系统卷重构过程的改写块预取模型基 于二度局部特征的马尔可夫样本概率预取算法,使得改写块预取能在横向顺序 预取、纵向跳转预取两方向并发完成,同时概率预取与否基于马尔科夫样本命 中率,进一步提高了命中的准确率。 1 4 论文的组织 本学位论文共5 章,其具体内容安排如下: 第1 章简要的介绍了本文选题的背景,研究的意义,网络存储体系结构的 变革,存储技术的改进和创新,以及当前主要研究的内容及本文的组织安排。 第2 章介绍了本系统的整体架构:客户端,虚拟存储管理系统,互连协议 以及整个数据流。 第3 章提出了一种用蚁群的思想来分析多主机启动过程中对共享系统卷 的访问以及改写的情况,并总结出了规律。 第4 章以第3 章的理为论基础,设计出了一种多主机系统卷重构模型和 相似性算法。 第5 章基于多主机系统卷重构模型,提出了一种基于二度局部特征的预取 算法一基于样本命中率的马尔科夫二重跳转预取算法。 最后是结论部分,对本文的研究及创新工作做了总结,并对未来的研究工 作进行了展望。 网络计算模式下的多主机动态霆构策略 1 5 小结 本章为整个论文的绪论部分,着重介绍了本文的目的、意义、主要工作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论