(计算机科学与技术专业论文)面向容灾专网的广域数据服务优化技术研究.pdf_第1页
(计算机科学与技术专业论文)面向容灾专网的广域数据服务优化技术研究.pdf_第2页
(计算机科学与技术专业论文)面向容灾专网的广域数据服务优化技术研究.pdf_第3页
(计算机科学与技术专业论文)面向容灾专网的广域数据服务优化技术研究.pdf_第4页
(计算机科学与技术专业论文)面向容灾专网的广域数据服务优化技术研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机科学与技术专业论文)面向容灾专网的广域数据服务优化技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院硕士学位论文 摘要 随着信息技术的不断发展以及企业规模的不断扩大,业务系统对业务的连续 性、实时性等性能指标的要求越来越高,短暂的系统宕机有可能会造成整个业务 系统的瘫痪。在这样的背景环境下,政府、企业,尤其是军事业务,亟需提高整 个系统的容灾能力,而传统的数据备份已经无法满足业务系统的应用需求,为了 提高业务系统在灾难中的存活概率,须对整个系统进行容灾备份。 在军事应用中,由于军事打击范围较广,为了提高战时军事业务系统的存活 率,须着眼于广域网的异地容灾备份。本文首先对容灾专网的特性进行了深入分 析,进而针对容灾专网的特点,研究分析了如何提高容灾系统中数据传输的性能, 主要工作如下: 分析了t c p 协议的三次握手交互过程给t c p 应用数据流,尤其是短数据流所 带来的性能影响。结合容灾专网的传输特性,优化了三次握手过程,设计了应用 透明的f c t c p 快速连接建立算法,模拟测试表明短数据流的数据传输性能得到了 较明显的提升。 通过将否定应答机制应用到容灾专网,使得广域数据服务传输性能得到了较 大提升。针对传统的j a c o b s o nr t o 算法存在的不足,结合否定应答机制的特点, 设计了一种基于否定应答机制的r t o 算法,模拟验证了该算法对数据传输延迟的 估计较j a c o b s o nr t o 算法更为精确。 设计了一个远程数据服务框架,给出了关键的数据聚集模块的设计,并基于 v t u n 软件进行了原型实现分析。 主题词:容灾,广域数据服务,t c p 协议,三次握手,r t o 算法 第i 页 国防科学技术大学研究生院硕士学位论文 a b s t r a c t w i t l lt h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ya n dc o n t i n u a l e x p a n s i o no f e n t e r p r i s es c a l e ,t h ed e m a n d sf o rp e r f o r m a n c es u c ha sb u s i n e s sc o n t i n u i t y ,r e a l t i m ea r e i n c r e a s i n gf o rb u s i n e s ss y s t e m s ,a n das h o r tp e r i o do fd o w n t i m em a yr e s u l ti nc o l l a p s e o ft h ee n t i r eb u s i n e s ss y s t e m i ns u c hab a c k g r o u n d , i ti s u r g e n tf o rg o v e r n m e n t , e n t e r p r i s e ,e s p e c i a l l ym i l i t a r yo p e r a t i o n st oi m p r o v et h er o b u s t n e s so ft h es y s t e m b u t n o wi ti sh a r df o rt h et r a d i t i o n a ld a t ab a c k u pt e c h n o l o g i e st om e e tt h er e q u i r e m e n t so f b u s i n e s ss y s t e m s t oi m p r o v et h ep r o b a b i l i t yo fb u s i n e s ss y s t e m s s u r v i v a li nt h e d i s a s t e r ,w es h o u l dp r e p a r et h es y s t e mf o rd i s a s t e rr e c o v e r y i nm i l i t a r ya p p l i c a t i o n s ,b e c a u s eo ft h ev v i d er a n g eo fm i l i t a r ya t t a c k ,w es h o u l d f o c u so nt h er e m o t ed i s a s t e rr e c o v e r yd u r i n gaw i d ea r e an e t w o r ki no r d e rt oi m p r o v e t h ep r o b a b i l i t yo fm i l i t a r ys e r v i c es y s t e m s s u r v i v a lw h i l et h ew a rb r e a k so u t i nt h i s p a p e r , f i r s t l y ,t h ec h a r a c t e ro ft h ep r i v a t en e t w o r kf o rd i s a s t e rr e c o v e r yh a sb e e n a n a l y z e d ,a n dt h e nt h ep r o b l e mt h a th o wt oi m p r o v et h ep e r f o r m a n c eo fd a t a t r a n s m i s s i o ni nt h ed i s a s t e rr e c o v e r ys y s t e mi ss t u d i e db a s e do nt h e s ea n a l y s e s m y w o r kf o c u s e so n : f i r s t l y ,a na n a l y s i sa b o u th o wd o e st h et h r e e w a yh a n d s h a k ei n f l u e n tt h e p e r f o r m a n c eo ft c pa p p l i c a t i o nd a t af l o w s ,e s p e c i a l l ys h o r t - t i m ed a t af l o w s ,i sg i v e n c o m b i n i n gt h ec h a r a c t e r i s t i c so ft h ep r i v a t en e t w o r kf o rd i s a s t e rr e c o v e r y ,ip r o v i d e da n o p t i m i z a t i o nf o rt h ep r o c e s so ft h r e e w a yh a n d s h a k e ,d e s i g n e dt h ef c t c pa l g o r i t h m w h i c hc a nh e l pe s t a b l i s h i n gt c pc o n n e c t i o nm o r eq u i c k l ya n di sa p p l i c a t i o nt r a n s p a r e n t , t h e nv e r i f i e dt h a tt h ep e r f o r m a n c eo fs h o r t - t i m ed a t af l o w sh a sb e e ni m p r o v e dg r e a t l y a f t e ro p t i m i z a t i o n s e c o n d l y ,t h et r a n s m i s s i o np e r f o r m a n c eo ft h ew i d e a r e ad a t as e r v i c eh a sb e e n i m p r o v e do b v i o u s l yb ya p p l y i n gt h en e g a t i v ea c kt ot h ed i s a s t e rr e c o v e r yp r i v a t e n e t w o r k c o m b i n i n g t h e s h o r t c o m i n g s o fj a c o b s o nr t o a l g o r i t h m a n dt h e c h a r a c t e r i s t i c so ft h en e g a t i v ea c km e c h a n i s m ,id e s i g n e dan e wr t o a l g o r i t h mb a s e d o nt h en e g a t i v ea c km e c h a n i s m ,v e r i f i e dt h a tt h ee s t i m a t i o no ft h ed a t at r a n s m i s s i o n d e l a yb yt h en e wa l g o r i t h mi sm o r ep r e c i s et h a nt h a tb yj a c o b s o nr t oa l g o r i t h m t h i r d l y ,id e s i g n e dar e m o t ed a t as e r v i c ef r a m e w o r k ,d e s c r i b e dt h ep r o c e s so fd a t a a g g r e g a t i o n ,a n da n a l y z e ds o m e t h i n ga b o u tp r o t o t y p ei m p l e m e n t a t i o nb a s e do nt h e v t u ns o f t w a r e k e yw o r d s :d i s a s t e rr e c o v e r y , w i d e - a r e ad a t as e r v i c e , t c pp r o t o c o l , t h r e e - w a yh a n d s h a k e ,r t oa l g o r i t h m 第i i 页 国防科学技术大学研究生院硕士学位论文 图目录 图1 1 容灾资源视图【3 1 2 图2 1 t c p i p 协议簇中不同层次的协议 2 4 】1 0 图2 2a v a m a r 的解决方案所获得的效率【3 s 】1 7 图2 3a v a m a r 的分布式索引体系结构【3 s 1 1 8 图2 4r i v e r b e dw d s 的管理平台【3 6 】1 9 图3 1t c p 三次握手过程2 1 图3 2t c p 连接时序图 3 7 】2 3 图3 3t ,t c p 连接时序图【3 7 】- 2 4 图3 4f c t c p 连接的建立过程2 7 图3 5 吞吐量测试3 1 图3 6 文件传输延迟3 2 图4 1 a c k 返回的概率密度函数 4 6 l 3 3 图年2 网络拓扑结构图3 9 图4 3n a c k t c p 的吞吐量分析3 9 图4 4j a c o b s o nr t t o 算法的模拟效果。柏 图4 5 基于否定应答机制r 丌。算法模拟效果4 0 图s 1 远程数据服务框架4 2 图5 2q o s 服务质量控制流程一4 3 图s 3 借助i p 隧道,实现原本不相连网络之间的通信4 5 图5 4 利用l p 遂道技术进行报文聚集4 6 图s 5 客户端报文聚集流程图4 7 图5 6 代理服务端报文解聚集的流程图4 8 图s 7 以太网数据帧格式【2 4 1 4 9 图5 8v r u n 工作原理 6 3 1 5 1 图5 9 基于v r u n 软件的远程数据服务原型实践。s 2 第1 l i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意 学位论文舰堑燮塑递巫型鳢监坐幽塾 撇黼始越吼叫。年;月, 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文胍继塑! 刍塑之翻幽盟巡差驾垒 学位论文作者签名:鎏丕筮:- 作者指导蝴张杰雄么 吼少产年寻月7 日 吼刀细年弓月夕日 国防科学技术大学研究生院硕士学位论文 第一章绪论 随着科学技术的不断进步,现代战争也逐渐朝着信息化的方向发展。信息已 成为影响未来军事斗争中的决定性因素,掌握了制信息权,就掌握了战争的主动 权。为了保证军事信息系统的安全、可靠,为了使业务系统遭受袭击之后,能够 迅速恢复,业界针对军事业务系统的远程容灾技术的研究也日趋广泛与深入。然 而广域网传输延迟大、带宽有限等诸多因素使系统进行远程容灾备份及恢复的效 率受到很大的影响。如何提高远程容灾系统中,灾备及灾难恢复的效率,是近年 广大学者研究分析的热题。本文针对容灾专网的特点,从应用加速、协议优化等 角度出发,研究分析了如何通过提高数据服务的质量,优化系统远程数据传输的 性能,从而提高系统远程容灾的效率。 1 1 容灾系统结构 1 1 1 相关概念 容灾 容灾是指在灾难发生时确保业务连续性的过程,这个过程着眼于在尽可能短 的时间内恢复业务的主要功能。 灾难恢复的性能指标0 1 1 2 1 : 恢复时间目标( r t o ) ( r e c o v e r yt i m eo b j e c t i v e ) :指灾难发生后,业务功 能从停顿到恢复的时间要求。该指标侧重于恢复时间的测量。 恢复点目标( r p o ) ( r e c o v e r yp o i n to b j e c t i v e ) :指灾难发生后,系统和 数据必须恢复到的时间点要求。该指标侧重于数据损失量的测量。 1 1 2 容灾系统的结构 课题组根据业务的需求,提出并设计了n + m ( n m 。,n d + m d ) 结构的容灾系 统。其中,n 表示活跃系统,m 表示备用系统,下标a 表示应用系统,下标d 表示数据系统,如n a 就表示活跃的应用系统。该系统的结构如图1 1 所示: 笫i 页 国防科学技术大学研究生院硕士学位论文 b 一h 目 :i ;i ! :;i ;i :零; 二二萝爹蠡一。萋多 掣二j :窖塾乏垒 塞雾= = 罴s 趋y :遵, 一 图1l 容灾资源视图 3 从图1 1 中可以看出,n + m 结构的容灾系统,其资源在地域上可以分为集 群、局域( s i t e ) 、群域( z o n e ) 、广域( g i o b a l ) 匹 个层次。其中,局域容灾层由多个集 群以及其他软、硬件设施构成,这些集群通过局域网络互连:而在群域范围内, 包括多个s i t e ,这些s i t e 通过城域网络进行互连:最后,所有的s i t e 通过广域网络 互连,构成了广域范围的容灾。 n + m 结构的容灾系统的特点可归纳如下: l 、多对多的容灾结构,使该系统能够支持多个活跃和多个备份业务之间的 切换和恢复能够在遭遇连续灾难的恶劣环境下保持服务能力。 2 、该系统中应用系统和数据系统是分离的以便能更灵活的进行容灾业务 部署。 3 、支持广域范围的容灾,从而使系统的容灾能力更强,更能够适应军事应 用等业务系统的容灾需求。 4 、业务部署集群化,从而可以充分利用集群的高可用性提高业务系统的容 灾能力。 1 13n + m 结构窖灾系统的网络特点 1 、从上一节的介绍可以看出,该系统是面向广域范围进行容灾的。由于容 灾备份及俄复过程中,要跨越广域网络进行,受广域网自身条件的限制,该系统 的网络具有延迟大,带宽有限的特点。 2 、为了提高系统运行的可靠性,容灾系统运行在可靠的专用网络之上,消 息在网络上传输的质量是有保证的。如果消息不丢失,则会在一定时间内到达目 的节点,这个时间可能会较长,但它应该是有界的。另外,丢包是允许的,引发 丢包的原因是多方面的,物理线路、网络设备或者协议栈缓冲区阻塞等都可能引 起消息丢失。但丢包是随机小概率事件,可能在某个时间段内一个节点发出的所 第2 页 国防科学技术大学研究生院硕士学位论文 有消息都丢失,但这种情况不会一直持续下去。因此,该系统的网络具有高可靠 性的特点。 3 、在容灾专网中进行数据传输时,对专网的访问可以做到对应用透明,即 系统的管理中心可以了解网络的当前状况,并且可以根据网络状况的好坏控制应 用建立t c p 连接的请求,并将网络状态、各应用建立t c p 连接的情况通告系统用 户。而以因特网为代表的公用网络,由于是面向全社会提供服务的,接入这些网 络的应用错综复杂,有正常的网络交易,有视频、音频服务,也有黑客的攻击、 病毒入侵等恶意访问,由于网络的复杂性,用户无法了解它们的使用情况,并且 由于其庞大及其公用性,没有有效的机制管理用户对网络的访问,造成了大量的 应用对网络资源的无序竞争使用。但是,容灾系统中,由于采用了专网,用户角 色单一,并且由于其对应用透明,可以避免对网络资源的无序竞争。因此,容灾 系统具有访问可控性特点。 4 、容灾专网中,由于应用特性,存在大量的短t c p 数据流。( 数据流是指 一个t c p 连接上所产生的报文序列。一般的可以用5 个参数来标识一条数据流: 源i p 地址、目的i p 地址、协议字段、源端口、目的端口。) t c p 协议大量的交 互过程、不合理的流控机制等因素,造成了短t c p 数据流数据传输性能的低下。 总之,n + m 结构的容灾系统具有访问延迟大、带宽有限、高可靠性、可控性 等网络特点。 1 2 广域数据服务优化 从上一节的介绍中可以看出,n + m 容灾系统具有资源分布广泛、结构较为 复杂的特点。在具有这样特点的容灾系统中,由于受到广域网延迟大、带宽有限 等因素的限制,传统的数据备份技术已经很难适应远程容灾的需求,要在广域范 围内实现业务的连续、不中断,必须提高广域网数据传输的性能。 在很长一段时间里,人们普遍认为造成广域网数据传输性能低下的主要原因 是广域网带宽有限。然而,实践证明,单纯的增加网络带宽,非但没有有效的提 高数据服务的质量,反而造成了网络资源的浪费。为了提高容灾系统的服务质量, 必须基于广域网,进行数据服务优化。目前,研究广域数据服务优化主要包括以 下几个方面: l 、应用程序加速:通过数据压缩、数据缓存、重复数据删除等技术,不但 可以节省业务应用所占用的带宽,减少业务访问的流量,而且可以有效降低应用 程序的响应时间,提高业务访问的效率。广域网应用加速既可以基于硬件设备实 现,也可以通过软件实现。研究开发广域网应用加速硬件设备的公司有f 5 、 r i v e r b e d 公司等,在第二章中较为详细的介绍了r i v e r b e d 公司广域加速的主要技 第3 页 国防科学技术大学研究生院硕士学位论文 术;基于纯软件实现广域应用加速是近几年才兴起的一门技术,它主要利用虚拟 化技术,通过虚拟化系统管理程序对虚拟设备进行部署与管理,并使用各种技术 对应用程序加速,提高业务访问的效率,与基于硬件设备的加速技术相比,基于 纯软件的虚拟化加速技术具有可扩展性好,部署灵活以及成本低廉等优点。 2 、q o s 服务质量优化:随着i n t e m e t 的不断发展与壮大,各种新兴网络应用 层出不穷。如何在网络中保证业务需求的质量,提高业务访问的效率,增加业务 服务的内容,是当前用户普遍关注的问题。然而,传统的尽力而为的服务模型, 由于没有提供对传输延迟、延迟抖动、报文丢失率等相关服务质量的控制,难以 满足当前各种业务发展的需要。在这样的背景环境下,q o s 服务质量控制成了近 年来研究学习的热题。q o s 服务质量优化通过有效的流控、资源预留等机制,避 免多应用流对网络资源的无序竞争,根据各应用的轻重缓急,对各应用进行优先 顺序排队,并对紧急应用进行优先处理在进行q o s 服务质量控制时须注意以下 问题: ( 1 ) 某个特定的应用不可能同时满足各种q o s 服务质量控制的性能指标,各 种性能参数并不能完全很好的共存,例如要减少业务传输过程中的差错,就有可 能会增加业务传输的延迟,要提高某种业务传输的优先级,势必会增加各种业务 应用之间抢占网络资源带来的不公平性。因此,q o s 服务质量控制应是针对某个 应用的特性,首先厘清该应用最需关注的性能指标,而后针对该性能指标,采取 相应的服务控制。 ( 2 ) 由于各种性能指标并不能完全很好的共存,因此进行q o s 服务质量评估 时,应首先确定用户最为关注的性能指标,所确定的性能指标不同,q o s 服务质 量的评估标准也大不一致。 3 、t c p 协议优化:t c p i p 协议簇诞生于上个世纪8 0 年代初,由于其提供 了一种开放的网络体系模型,使得不同网络之间的通信成为可能,并最终促成了 互联网的诞生与不断发展,并且由于其为应用程序提供了面向连接的可靠服务, 使其成为网络通信领域的标准协议,在信息技术的各个方面都得到了广泛的应 用。然而经过近3 0 年的发展,如今的网络环境相比较于当初,无论是从硬件设 施还是从应用范围来看,都已经发生了巨大的变化。伴随着网络环境的变化, t c p 协议的不足之处也逐渐凸显出来,业界针对t c p 协议优化的研究工作已逐 渐兴起,专门从事t c p 协议优化研究的公司与相关产品也不断生成。经过分析 与总结,t c p 协议的不足之处主要体现在以下几个方面: t c p 短数据流无法充分利用网络带宽:为了避免网络拥塞与数据丢包, t c p 协议使用慢启动算法来控制发送窗口的增大过程。但是该算法使得 t c p 连接初期,带宽等网络资源的利用率过低,从而造成t c p 短数据流 应用业务服务性能的低下。 第4 页 国防科学技术大学研究生院硕士学位论文 协议的复杂性,带来了数据传输延迟的加大: 应用连接建立与关闭时, t c p 协议使用“三次握手 与“四次握手来保证t c p 连接建立与关闭 的可靠性。这虽然有助于保证数据传输的可靠性,但却增大了数据传输 的延迟。而这部分传输延迟对t c p 短连接的影响则更为明显。 t c p 协议带来的安全隐患:黑客能够利用开始建立连接时的“三次握手, 使用i p 期骗技术,对网络服务器发起s y n 攻击,从而阻止正常应用连 接的建立,因此存在着较大的安全隐患。有关s y n 攻击的原理将在第三 章中详细介绍,此处不再赘述。 针对以上t c p 协议的不足之处,目前研究人员提出的相应优化方案如下: 通过优化t c p 协议连接初期的慢启动算法,提高t c p 短连接应用的网 络带宽利用率。较为著名的算法为b i ct c p ( b i n a r yi n c r e a s ec o n g e s t i o n c o n t r o lt c p ) ,相关内容将在第二章中详细介绍。 针对t c p 协议复杂性,很早就有学者展开研究与分析,在第三章中介绍 了b o bb r a d e n 先生提出的t t c p 协议,并分析了该协议的优点与存在的 不足。 使用s y nc o o k i e 技术来防止t c ps y n 攻击【4 】。 本节从应用程序加速、q o s 服务质量优化、t c p 协议优化三个方面讨论了 广域数据服务优化技术,在之后的章节将对相关技术作更深入的研究与分析。 1 3 论文主要工作 前已述及,n + m 的容灾系统是面向广域范围容灾的系统,而广域网,由于 其自身条件的限制,数据传输性能受到很大影响。本文针对容灾专网的特性,研 究了如何优化专网中数据传输的性能。 1 、研究分析了当前基于广域网数据加速的主要技术,并就这些技术对数据 传输性能的影响做出分析。 2 、针对容灾专网以及短t c p 数据流传输的特点,提出了基于容灾专网的t c p 三次握手过程优化技术,模拟验证了优化后,t c p 短数据流的数据传输性能有了 较大提升。 3 、通过将否定应答机制应用于容灾专网,有效的提升了广域数据传输性能。 结合否定应答机制的特点,设计了基于否定应答机制的t c pr t t o ( r t t o : r e t r a n s m i tt i m eo u t 重传超时) 算法,该算法对数据传输延迟的估计较传统的 j a c o b s o nr t t o 算法更为精确。 4 、设计了一个远程数据服务的框架,对其中的报文聚集模块做了设计,并 基于v t u n 软件进行了原型实现分析。 第5 页 国防科学技术大学研究生院硕士学位论文 1 4 论文结构 全文共分为6 章: 第一章阐述了论文的研究背景,简要地分析了容灾专网的特性,论述了容 灾专网中优化数据传输性能的必要性。 第二章从数据预处理技术、t c p 协议优化、网络服务质量优化三个角度, 介绍了当今广域数据加速领域的研究成果,并分析了他们优化数据传输性能的主 要技术。 第三章结合容灾专网的特性,提出了面向容灾专网的t c p 三次握手过程优 化技术,并对优化后协议的数据传输性能做了分析。 第四章研究分析了j a c o b s o nr t t o 算法的设计思路及其不足之处,阐述了 在t c p 差错控制中,采用否定应答机制所带来的优势,设计了基于否定应答机制 的t c pr t t o 算法,并对该算法的性能进行了实验分析与验证。 第五章设计了一个远程数据服务框架,并着重分析了与报文聚集设计相关 的一些问题与解决思路。 第六章对全文进行了总结,并指出未来的工作与研究方向。 第6 页 国防科学技术大学研究生院硕士学位论文 第二章广域数据服务优化的研究现状 当今世界,随着经济全球化的发展,企业、公司要在激烈的商业竞争中取得 胜利,必须能够快捷、高效的从广域范围内获取有用信息。然而由于广域网自身 条件的限制,传统的广域数据传输中存在着诸如延迟大、数据吞吐量有限等性能 瓶颈,为了克服这些问题,越来越多的企业不惜重金购买能够有效提高数据服务 性能的设备,于是,广域数据服务( w d s :w i d e a r e ad a t as e r v i c e ) 成了当前学 术界非常热门并且很有前景的课题,同时,也涌现出像r i v e r b e d ,e m c 等从事研 究开发广域数据加速设备的公司。本章从数据预处理、q o s 服务质量控制、t c p 协议优化等方面介绍分析了当前广域数据服务领域的主要研究内容。 2 1 数据预处理技术 本节主要介绍数据传输之前,对数据进行的一些相关预处理及优化技术,通 过这些处理优化可以极大提高数据传输的效能。 2 1 1 数据缓存与预取技术 在介绍数据缓存与预取技术之前,首先对相关概念作简单介绍: 时间局部性原理:指用户当前访问的数据,在未来的短时间内,很可能 会被再次访问。这段时间间隔越短,数据被重复访问的概率将越高 5 6 。 空间局部性原理:与当前被访问的数据块在空间上相邻的数据块,将来 被访问的可能性较大 7 。 缓存技术:利用时间局部性原理,将用户最近访问过的数据置于本地或 附近的节点中,当用户再次访问这些数据时可以就近获取,而无需访问 远地的服务器,从而减少数据访问的延迟。 预取技术:是对缓存技术补充,可以称之为主动缓存技术,主要是利用 空间局部性原理,通过最近访问的数据块来预测将来短时间内将要访问 的数据内容,并将其置于缓存中 8 。 下面以w e b 服务为例,简单介绍缓存技术与预取技术的应用背景。 在经济、信息高速发展的今天,因特网已成为人们生活、工作与学习中必不 可少的基本工具,人们通过因特网浏览信息,通过因特网进行商务活动以及娱乐, 等等。但由于因特网的逐渐普及,使得用户逐年呈指数增长,大量的用户给网络 造成了巨大的负担,尽管因特网的软、硬件设施不断得到完善,新技术层出不穷, 第7 页 国防科学技术大学研究生院硕士学位论文 人们仍然感到网络的速度太慢 9 。通过研究,科研人员发现进行w e b 访问过程 中,会有大量重复、相同的查询内容,这些内容称为冗余的数据流量。通过w e b 缓存,在网络中的关键节点存储经常访问的信息,使得用户访问这些信息时可以 避免在网络中进行大量的重复传输,以此达到减轻网络负担,提高数据访问实时 性的目的。 但是,随着网络资源更新频率的增加,缓存命中率出现了显著的下降,单纯 的缓存技术对传输性能改善的效果显得非常有限 1 0 1 1 。针对这一现象,p c a o 先生于1 9 9 5 年提出了缓存与预取相结合的思想 1 2 。为了提高缓存的命中率, 在预取技术中,根据不同的业务需求,设计合理的预取策略显得犹为重要。针对 不同的w e b 应用,研发人员提出了智能预取策略 1 3 、基于搜索结果的预取策略 1 4 、时间局部性预取模型 1 5 ,文 1 6 则基于a r t l 神经网络,提出了一种新 颖的针对流媒体应用的预取策略。 2 1 2 数据挖掘 自上个世纪9 0 年代以来,人们积累的数据以每个月1 5 的速度迅速增长 1 7 ,但是如何有效管理、分析与理解这些海量数据,以便从中提取需要的内容, 成了亟需解决的问题。数据挖掘是一门新兴的交叉学科,其任务就是对数据进行 更高层次的分析,从大量的数据中提取隐藏的信息,以便更好利用这些数据。将 数据挖掘与数据缓存、预取技术结合起来,则能够更好的对用户访问的数据特征 进行分析,提取更多有用的信息,从而可以更好地进行数据预取,提高缓存访问 的命中率。 2 1 3 重复数据删除技术 伴随着数据量不断增长,对大量的数据进行备份存储,难度越来越大。通常 对海量数据进行备份有两种方式:一种方式是基于大量的廉价的磁带,但由于磁 带的传输速度有限,这种备份方式效率比较低下;另一种方式是基于磁盘或磁盘 阵列,这种方式提高了备份效率,但是代价过于昂贵。并且,在容灾业务系统中, 为了使系统更为健壮与可靠,需要对关键数据进行异地备份,但由于受到有限的 网络带宽等因素限制,对大量数据进行远程复制显得十分困难。然而,学者通过 研究发现,在这些激增的数据中,有大量重复的数据内容,重复数据删除可以大 量减少所需备份的数据量,用更少的磁盘来实现数据备份,节省了数据备份的代 价,也提高了数据备份的效率,并且当进行异地备份时,由于大大减少了所必须 传输的数据量,极大降低了备份操作对网络资源的需求与占用。下面对重复数据 删除概念及相关技术作简单介绍: 重复数据删除:也被称为智能数据压缩或单一实例存储。其基本方法就是 第8 页 国防科学技术大学研究生院硕士学位论文 将文件数据流截成数据段,然后与其他数据流中的数据段进行比较,得知每个数 据段是否重复,系统只对非重复的数据段进行备份,然后通过创建索引的方式, 将冗余数据段与硬盘中已备份的数据段进行关联。可以看出,划分的数据段越小, 出现重复数据段的概率越大,能够减少的存储空间也越多,但是由于数据段的增 多,需要对这些数据段进行更多的计算与比较 1 8 。与传统的数据压缩技术不同 的是,传统的数据压缩技术是通过清除文件中的冗余数据来达到减小文件大小的 目的,而重复数据删除是通过删除存储系统中相同的文件或不同文件中相同的子 文件数据段的方式,来减少存储空间 1 9 。在之后的章节,将结合国内外产品, 对重复删除技术作进一步探讨。 2 2 网络服务质量q o s ( q u a l i t yo fs e r v i c e ) 优化技术 服务质量是一种服务性能的综合体现,这种服务性能决定了网络可以在多 大程度上满足用户的需求。这些服务性能具体可以量化为带宽、延迟、延迟抖动、 丢失率、吞吐量等性能指标 2 0 2 1 。 传统的网络提供的是尽力而为的服务模型( b e s te f f o r ts e r v i c e ) 。尽力而为服 务模型是根据现有资源的可用情况,尽量满足用户的业务需求。但该模型没有提 供可靠性、延迟、延迟抖动等各种服务质量的保证,在资源条件不允许的情况下, 用户的业务需求就无法得到保障。 针对传统的尽力而为服务模型的不足,研究学者研究设计了通过资源预留、 优先级排队等方式,为应用业务提供o o s 服务质量保证,满足各业务的应用需求。 传统的q o s 服务模型有集成服务模型( i n t e g r a t e ds e r v i c e ) 与区分服务模型 ( d i f f e r e n t i a t e ds e r v i c e ) 。 1 、集成服务模型( i n t e g r a t e ds e r v i c e ) 在因特网发展初期,主要业务服务包括电子邮件、网页流览、文件传送等, 这些业务对o o s 服务质量并不敏感,因此,尽力而为的服务模型可以满足用户的 业务需求。但是,随着网络技术的不断发展,因特网整合了大量的诸如视频、电 话、电子商务等有各种不同q o s 需求的业务,在这种情况下,如果单纯的使用尽 力而为的服务模型,则难以满足特定业务的服务需求。 集成服务模型便是在上述的背景环境下应运而生的。该模型以r s v p ( 资源预 留协议) 2 1 2 2 2 3 为实现机制,其基本思想是在数据传送之前,根据业务需求 为其预留网络资源,从而保证其服务质量。但集成服务模型由于对所有业务是不 加区分的为其提供o o s 保证,因而预留资源所占用的开销相当可观,为解决这 问题,研究学者又提出了区分服务模型。 第9 页 国防科学技术大学研究生院硕士学位论文 2 、区分服务模型( d i f f e r e n t i a t e ds e r v i c e ) 区分服务的思想是对业务进行分类,然后根据不同的q o s 服务指标对这些已 经分类的业务进行等级划分。当出现由于某类资源的不足造成网络拥塞时,便可 以根据服务等级的划分,使优先权较高的业务类优先获得使用资源的权利,而优 先权相对较低的业务便可以适当的降低其服务质量。通过这种方法,降低了系统 的资源开销。 2 3t c p 协议加速 本节主要从t c p 协议实现的各角度,研究分析如何通过协议优化的方式提高 数据传输的性能。首先,对t c p 协议的特点及作用介绍如下: t c p i p 协议簇的分层情况如图2 1 所示 媒体 用层 网络层 链路层 图2 1t c p i p 协议簇中不同层次的协议 2 4 i p 协议作为网络层的核心协议,其本身是一种不可靠的无连接的体系,它 的主要功能是处理数据报文的路由,并不保证数据报文的可靠传输。对数据传输 过程中的差错控制是由传输层的t c p 协议完成的,t c p 协议为高层应用提供了面 向连接的可靠服务。 但是,自从上个世纪8 0 年代初t c p 协议的首次提出,经过近3 0 年的发展, 伴随着网络环境的不断演进以及新技术的不断出现与应用,原始t c p 协议的不 足之处逐渐凸显出来,针对不同的应用需求,对t c p 协议进行优化,使之适应于 新环境的需求,是学者研究分析的热题 2 5 ,也是目前实现广域网数据加速的核 心技术。在王圣的( t c p 加速技术研究综述 2 6 一文中,对t c p 协议的性能做 了理论分析并进行了实验验证。本节将针对t c p 协议的实现机制,分析其对数据 传输性能的影响,并给出其优化方案。 第l o 页 国防科学技术大学研究生院硕士学位论文 2 3 1t c p 协议差错控制机制的优化 前已述及,t c p 协议是面向连接的传输控制协议,它为高层应用提供了可靠 的数据传输,协议自身实现了应对数据传输出错情况的处理机制。本小节将从 t c p 协议的数据重传机制以及应答机制两个方面探讨t c p 协议的差错控制机制及 其不足之处,并且介绍了学者提出的解决方案。 2 3 1 1t c p 应答机制及其改进 在数据传输过程中,t c p 协议为每个数据报文都标明了一个序列号,这个序 列号是顺序增长的,并且唯一。为保证数据的可靠传输,数据接收方每接收一个 数据报文( 或一个连续的报文序列) ,都要向数据发送方发送一个应答( a c k ) 消息, 该应答消息中标记了接收方希望顺序接收的下一个数据报文的序列号,同时告诉 发送方该序列号之前的所有数据报文都已经被接收方正确接收。传统t c p 协议的 应答机制存在的主要问题如下: 1 、首先,应答消息的处理是需要消耗资源的,不仅接收方要进行应答消 息的发送处理,数据发送方也要做相应的接收处理。大量频繁的应答消息降低了 数据发送方与接收方的数据处理速度,同时,也增加了网络的负担。 2 、数据传输过程中,如果发送方的发送序列中某个数据报文丢失,t c p 协议需要重传最后确认的报文之后的所有后续报文,此时,原先已经正确传输的 报文也需要重复发送,降低了t c p 协议的性能。 针对以上两个问题,本小节将分别介绍一种对原始t c p 协议应答机制的改 进方案t c p 延迟应答策略与选择应答策略,在第四章中将继续探讨t c p 的应答策 略。 l 、延迟应答策略1 2 4 】 原理:接收方在收到数据报文时,并不立即发送应答消息,而是,等待一 段时间,如果接收文也有数据需要发送给对方,就将应答消息连同这些数据一起 发送出去。但是,等待时间是有限制的( 设其阈值为t ) ,因为另一方如果在规定 时间内没有得到应答消息,会认为该数据报文丢失了,并进行重传( 详见2 2 1 2 重传机制) 。 优点:若在时间t 内,接收方有需要发送的数据,采用该方案,可以大幅 降低应答消息对资源的占用。 缺点:若在时间t 内,接收方没有准备好需要发送的数据,此时,应答消 息将单独发送,这样,该策略并不能提高数据传输的性能。 2 、选择应答( s a c k ) 策略1 2 7 】 第l1 页 国防科学技术大学研究生院硕士学位论文 为了避免重传已正确传送的报文,目前使用的t c p 协议的报文头提供了 s a c k 信息选项,通过该选项的设置,t c p 协议只需重传丢失的报文,并且提供了 相应的机制通告发送方自最近确认的报文之后,哪些报文丢失,哪些已经正确接 收。在s a c k 信息选项中有两个标识,一个标识是在t c p 三次握手过程发送,表 明协议是否支持s a c k 功能,另一个标识提供了具体的s a c k 信息。 当前,s a c k 策略的改进优化也是一个热门的研究课题,许多研究学者根据 不同的应用需求,提出了相应的改进机制。在刘雨的一种改进的s a c kt c p 在 带宽不对称网络中的应用 2 8 中,分析了在带宽不对称网络中,反向带宽的不 足限制了反馈信息的返回,导致t c p 性能的急剧下降。针对该问题,作者提出采 用s a c k 过滤改善带宽不对称网络中的t c p 性能。 2 3 1 2t c p 重传机制 t c p 协议中用于判断数据是否需要重传的方法有两种:( 1 ) 基于定时机制的 判断方法,一般将之称为t c p 重传超时机制:( 2 ) 快速重传。 2 4 1 、t c p 重传超时机制 首先介绍相关概念: r t t o :r e t r a n s m i tt i m eo u t ,重传超时间隔。 r t t :r o u n dt r i pt i m e ,数据报文传送的往返延迟。指的是数据发送方从 发送报文开始到正确接收应答消息所经历的时间延迟。 在上一小节介绍了t c p 使用应答机制确认数据报文的接收,但是数据和应 答消息有可能会丢失。为解决报文的丢失问题,t c p 在发送方使用一个定时器, 该定时器规定了数据发送方在发送数据报文之后,等待对方应答到来的时间延迟 的上限,此上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论