(信号与信息处理专业论文)高速网络流量测量的一般实现方法.pdf_第1页
(信号与信息处理专业论文)高速网络流量测量的一般实现方法.pdf_第2页
(信号与信息处理专业论文)高速网络流量测量的一般实现方法.pdf_第3页
(信号与信息处理专业论文)高速网络流量测量的一般实现方法.pdf_第4页
(信号与信息处理专业论文)高速网络流量测量的一般实现方法.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(信号与信息处理专业论文)高速网络流量测量的一般实现方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j 匕京邮电大掌硕士研究生毕业论文 高速网络流量测量的一般实现方法 摘要 网络行为测量是互联网流量工程的重要组成部分。随着互联网的发展,理解网络行为 对于网络管理、规划和发展都有重要意义。作为网络行为测量的一个分支,网络流量测量 是理解网络流量组成和分布的首要条件,也是进行高速网络q o s 研究的基本手段。 本文从网络流量测量的研究内容出发,根据网络流量测量对象的不同,分别阐述了两 种主要测量方法:主动测量和被动测量。在对网络流量测量的一般体系结构、流量特点有 所了解的基础上,通过对高速网络的流量测量中的关键问题的研究与分析,给出了高速网 络流量抽样测量的一般模型。在此基础上,我们提出了两种报文抽样方法:随机抽样和分 层抽样,并从网络吞吐率测量的角度对这两种抽样测量方法的性能进行了比较。结果表明, 在相同样本容量的情况下,分层抽样测量精度几乎平均是简单随机抽样精度的8 倍,有效 解决了高速网络测量环境中测量效益不高的问题。这种基于分层抽样的测量技术还可以用 于其他网络流量参数的测量。 最后,在i e t f 的两个工作组r t f m 和i p f i x 提出的流量监测体系及框架的基础上, a t m 技术研究中心基于自主开发的宽带接入网关设备完成了t m a 流量监测系统的设计和 实现。 关键词:网络测量测量方法分层抽样随机抽样吞吐率测量体系结构 第i j 匕京邮电大掌硕士研究生毕业论文 t h ec o m m o nm 哐a s u r e 匝n t m 匝t h o do fh i g h s p e e dn e t w o r kt r a f f i c a b s t r a c t t h er e s e a r c ho nn e t w o r km e a s u r e m e n ti sat e c h n o l o g yf o c u so fi n t e m e t t r a f f i ce n g i n e e r i n g i ti sv e r yi m p o r t a n tt ou n d e r s t a n dn e t w o r kb e h a v i o rw h i l et h e d e v e l o p m e n to ft h en e t w o r kd u et on e t w o r km a n a g e m e n t ,n e t w o r kp l a n n i n ga n d n e t w o r k d e v e l o p m e n t t h em e a s u r e m e n t o fn e t w o r kt r a f 五c a so n eo ft h e m e a s u r e m e n t so f n e t w o r kb e h a v i o r , i st h eb a s eo f t h es t u d yo f n e t w o r kb e h a v i o r a c c o r d i n gt o t h ed i f f e r e n c eo fm e a s u r e di r a 筒c m e a s u r e m e n tm e t h o di s c o n s i s t e do fp a s s i v em e a s u r e m e n ta n da c t i v em e a s u r e m e n tt h a th a v et h e i r a d v a n t a g ea n dd i s a d v a n t a g e f u r t h e r m o r e ,c o m m o ns y s t e m s t r u c t u r eo f m e a s u r e m e n to fn e t w o r kt r a f f i ci ss i m p l yd e s c r i b e d h o w e v e r ,i ti sm o r ei m p o s s i b l et om e a s u r ef u l lt r a f f i ct r a c ew h i l eb a n d w i d t h i si n c r e a s i n gl a r g e r ,a n da tt h es a m et i m e ,i ti sm o r ed i f f i c u l tt o a n a l y s i st h ev a s t t r a f f i cl o g t os o l v et h ep r o b l e m ,s t a t i s t i c a la n ds a m p l i n gm e t h o da r ea p p l i e dt ot h e m e a s u r e m e n to ft h es w e e p i n ga n dh i 曲- s p e e dn e t w o r ka n dt h et r a f f i cs a m p l i n g m e a s u r eb e c o m e st h ef o c u so ft h e s t u d y o f h i g h s p e e d n e t w o r kt r a f f i c m e a s u r e m e n ti nr e c e n ty e a r s a sf o rm e a s u r e m e n to fn e t w o r kt r a f ! f i c s e v e r a ls o r t so fs a m p l em e t h o d sa r e p u tf o r w a r d ,d i s c u s s e da n da n a l y z e d r a n d o ms a m p l i n gt r a f f i cm e a s u r e m e n ts t i l l e n c o u n t e r st h e l a r g es a m p l e s i z eu n d e rt h e h i 曲m e a s u r e m e n tp r e c i s i o n r e q u i r e m e n t ,a n dr e s u l t si nh i g ho v e r h e a do nm e m o r ya n dp r o c e s s i n gt os o m e e x t e n t c o n t r a s t i n gt ot h el i m i t a t i o no ft h i sp r e v i o u ss i m p l es a m p l i n gs t r a t e g y ,a n e wt e c h n i q u eb a s e do ns t r a t i f i e ds a m p l i n gi sp r o p o s e dt om e a s u r et h et h r o u g h p u t o fh i g h s p e e dn e t w o r k ,a n dat h o r o u g hr e s e a r c hi sm a d eo nt h ed e c i s i o n so f p a r a m e t e r sa n di t st h e o r i e s t h ed e t a i l e de x a m i n a t i o n sa r ep e r f o r m e do np r e c i s i o no fm e a s u r e m e n t si nt h e 北京邮电大掌硬士研究生毕业论文 一 r e s p e c to fn e t w o r kt h r o u g h p u t ,w h i c hi n d i c a t e st h a tt h ep r e c i s i o no fs t r a t i f i e d s a m p l i n gi sa v e r a g e l y8t i m e sh i g h e rt h a nt h a to ft h es i m p l er a n d o ms a m p l i n g u n d e rt h es a m es a m p l es i z e ,s oi tr e s o l v e sw e l lt h el o we f f i c i e n c yo fm e a s u r e m e n t i n h i g h s p e e d n e t w o r ke n v i r o n m e n t t h i s t e c h n i q u e i sa 3 0f l e x i b ! ef o r t h e m e a s u r e m e n to fo t h e rn e t w o r kt r a f f i cp a r a m e t e r s f i n a l l y ,o nt h eb a s eo f t h et r a f f i cm o n i t o r i n gf r a m ew h i c hw a ss u g g e s t e db v r t f ma n di p f i xo f i e t f ,w eh a v ef i n i s h e dt h ed e s i g na n di m p l e m e n t a t i o n0 f t l l e b r o a d b a n da c c e s se q u i p m e n t 眦w h i c h i sd e v e l o p e di na t ml a b k e yw o r dn e t w o r km e a s u r e m e n t m e a s u r e m e n tm e t h o ds t r a t i f i e d s a m p l i n g r a n d o ms a m p l i n gt h r o u g h p u t m e a s u r e m e n ta r c h i t e c t u r e 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均己在论文中作了明确的说明并表示了谢意。 申请学位 本人签名 关于论文 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅 和借阅:学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印 或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 姓麓差予静谬瀚馐鬻孓叶 导师签名: 。形阳惘日期:w 、多硝 9 北京邮电大学硕士研究生平蛐。曾文 第一章绪论 1 1 高速网络流量测量的研究背景 1 1 1 互联网流量工程的概况 i n t e m e t 的规模不断扩大,用户数量的急剧膨胀,以及随着音频和视频等实时业务的出 现和迅速发展,i p 网络面临着新的机遇和挑战。这些新业务对i p 网络提出了新的服务质 量要求,不仅要求可靠的数据传输,还要求传输过程的实时性和可预见性。同时迅猛发 展的网络应用所产生的大量数据给网络带来了极大的压力,要求网络管理者必须有效地利 用有限的网络资源以满足曰益增长的带宽需求。流量工程就是在这种背景下提出的一种用 来预测网络状况、控制网络资源、提高网络性能、满足服务要求的网络技术。流量工程的 实质是用来对i p 网络进行网络性能分析和网络优化的工程技术。它涵盖了用于对i p 网络 进 亍测量、分类、建模和控制的科学原则和工程应用,以及用于实现特定性能目标的原理 和技术。流量工程的目标是通过可靠高效的网络操作实现优化网络资源利用和提高业务服 务胜能。 我们可以从微观和宏观两个层次来分析一下i p 网络。从微观上来看,网络是由定数 量的设各、用户和应用构成,他们通过竞争有限的服务资源来完成某项特定的工作,他们 之间的交互过程是复杂而无序的。从宏观上来看,网络是由按照某种组织方式连接在一起 的若干组件构成的服务实体,这些组件的服务资源和能力是有限的,使用状况是动态变化 的。因此,流量工程就是从这两个层次来测量网络状况、控制网络资源、提高网络性能和 服务水平的网络技术,目的是达到充分利用网络资源以满足用户不同等级的服务请求。 由此我们可以看到,流量工程主要包括两部分:网络测量和网络控制。 网络测量包括网络拓扑测量、网络性能测量和网络流量测量。网络拓扑测量主要是了 解网络拓扑结构,用以指导资源调节和流量分配;网络性能测量主要是通过监测网络的端 到端的时延、抖动、丢包率等特性,了解网络的可达性、利用率以及网络负荷等;网络流 量测量主要是对网络数据流的特性进行监测和分析,以掌握网络的流量特性,如协议的使 用情况、应用的使用情况、用户的行为特征等。网络测量的目的是通过获取描述网络状况 的数据,进行综合分析,为网络控制提供决策信息。 网络控制可以分为微观控制和宏观控制。微观控制是指在数据流层进行控制的网络设 备功能,包括接纳控制、策略控制、质量控制和拥塞控制等,这一系列控制方法可以称为 第1 页 j 匕京邮电大掌硕士研究生毕业论文 流量控制。宏观控制是指网络层面的控制与调整,包括拓扑调整、资源分配等,主要解决 微观控制不能解决的一些问题。 由此可见,网络测量是网络流量工程的重要组成部分。测量是对网络行为的观察和评 估,并力图发现影响网络外部特征的主导因素。而网络流量的测量则是网络测量的一个组 成部分,通过对网络数据流的特性进行监测和分析,为网络控制提供决策信息。 1 1 2 鬲递网络流量测量的必要性 i n t e n e t 作为人们改造世界的一大成果,其设计的复杂性和给人们带来的便捷,都远远 超乎我们的想象。随着网络技术的日新月异,网络的性能也在不断提高,这当然是与用户 的多方需求和网络应用的不断增多密切相关的。但是,i n t e m e t 目益多样的功能和快捷的速 度,是以其复杂的组成和不断扩充的规模为代价的。现在的i n t e m e t 如同一个复杂的生物 群落,各个层面的技术相互交织,相互影响,组成了一个层际明显,但各层又互相交错的 生念金字塔。i n t e m e t 的这种扩张使网络在可扩展、安全、服务质量和创新性的应用等方面 也面l 临新的挑战。而且网络系统出现各种故障。因此,我们需要了解网络的运行环境、网 络应用和服务的实际工作状况,为应用和技术的改进提供参考,以此提高网络服务和应用 的效率和效果:提供对网络性能和功能的改善可量化的依据,从而为掌握网络运行的客观 规律的研究提供系统的概念和方法。 作为认识网络行为特征的一向努力,网络流量测量的出现为人们掌握网络运行的客观 规律以及对网络性能进行改善提供了可靠的依据。正如上面讲到的那样:网络流量测量被 定义为网络测量的一个组成部分它通过网络流量的建模、描述、测量和控制,达到特定 的服务和性能上的目标。网络流量测量是网络测量工程的重要组成部分。网络流量测量是 对网络行为的观察和评估,并力图发现影响网络外部特征的主导因素。 在这样一个复杂的系统下,网络测量技术得到的信息对我们了解各种已知技术组成的 这个复杂系统表现出的一些未知行为至关重要。通过对网络行为进行测量和分析的手段, 去了解网络运行环境的应用和服务的实际工作状况,为技术的改进提供参考,从而提高网 络和应用的效率和效果。掌握了网络规律和运行情况,就能够帮助网络服务商根据网络的 性能更好地为用户提供服务:了解网络系统存在地不足和问题,就可以及时了解和排除网 络设备或软件出现的故障,例如,对路由故障地研究等。 网络流量测量是分析和模拟地基础,如果没有反映当前i n t e m e t 现状地高质量地测量 数据集,单凭纯数理分析或空想,不可能分析寻找流量中的内在特征。网络行为测量和分 析是网络行为学研究的基础,通过测量分析可以掌握网络的行为的基本特征,有助于寻找 网络行为变化的规律,构造并验证网络行为的数学模型。所以,针对网络行为的测量与分 析方法展开系统性的研究将对i n t e m e t 行为学方面的研究取得理论突破具有重要的意义。 综上所述,网络流量的测量是流量工程的重要组成部分,尤其是对于高速、大规模的 第2 页 北京邮电大掌硕士研究生毕业沧文 网络流量的测量显得更为重要。本文将针对高速网络流量的的测量方法、性能评估等问题 展开讨论,并在此基础上着重研究几种抽样技术测量的解决发方案。 1 2 高速网络流量测量中抽样测量的需求 国外最早的网络测量始于7 0 年代初,逐渐成熟于8 0 年代,9 0 年代己渐成体系。在网 络测量的方法、工具以及网络基础设施框架和流量的测量模型等方面都做了探索和改进。 而我国网络的发展起步较晚,9 0 年代初才引入i n t e m e t ,大规模的快速发展于9 0 年代末, 近来随着i n t e m e t 网络的发展,我国己成为世界上i n t e m e t 用户第二的国家。网络流量的成 倍增加,同样需要解决流量的监测、预测和网络规划的问题。我国的一些大的i s p 和网络 规划及运营者也在进行网络流量测量、网络行为、性能分析这方面的工作,正逐步缩小和 国外的差距。纵观i n t e r n e t 发展的三十年,网络用户的迅速增长,网络技术的不断更新, 促进了下一代i n t e m e t 的成长和发展,而i n t e m e t 网络的发展也越来越向着高速、大规模的 方向发展。 而且,随着我们对网络的不断认识和应用的不断深入我们就会越来越清楚的发现, 对于越来越大规模高速的i n t e m e t 网络来说,掌握i n t e m e t 的行为是网络规划、网络管理和 网络安全、新网络协议和网络应用设计等诸多研究工作的重要前提。但是,我们知道,由 于目i h 吉比特以太网和其它大规模高速网络技术的发展,对流量分组进行直接测量几乎是 不可能的,同时,大量的流量日志也使流量行为分析变得相当困难。 为了解决这一问题,人们开始把统计抽样的方法应用到高速网络流量测量中去,近几 年,抽样测量的研究已渐渐成为高速网络流量测量的研究重点。目前国外网络行为测量学 研究发展很快,同时也取得了较大的成绩,该文将分别对网络流量测量的一般方法、测量 对象、测量工具和测量体系结构进行相应地介绍,然后针对高速网络流量的测量提出抽样 测量的方法并对基于分层抽样技术的流量测量进行专门讨论,最后给出了流量测量的一般 实现方法。 1 3 论文结构安排 本文的主要研究内容及章节安排如下,全文共分五章: 第一章,绪论部分。通过对互联网流量工程的背景及现状的阐述与思考,引出了目前 对于高速网络流量测量的需求,并在此基础上明确了论文研究的内容。 第二章,网络流量抽样测量。首先介绍了一下网络流量的测量的一般方法、测量工具: 然后对高速网络流量的测量的一些关键问题给予了分析并提出了流量测量的模型。 第三章,分层抽样测量的性能评估。从网络吞吐率测量的角度对分层抽样与简单随机 第3 贞 j 匕京i 电大掌硕士研究生平业。沦文 一一 抽样的测量性能进行对比并给出了相应的误差分析。 第四章,高速网络流量测量设备的设计及实现。首先对流量测量设各的体系结构进行 了简单介绍,然后对流量测量设备的现状给予了归纳总结,最后给出了流量测量设备的一 般实现方法。 最后一章,是对自己的工作进行总结和展望。 第4 贝 j 匕京i 电大学硕士研究生毕业论文 第二章网络流量抽样测量 网络就像一把双刃剑,带给人们种种方便的同时,网络拥塞和服务质量低等一系列问 题也频频出现在我们的面前,给我们的生活带来了很多的不便。这一系列问题的出现并不 是一个偶然的现象,而是伴随着大规模高速网络的发展出现的必然结果。从网络出现的那 一天起,我们对于网络流量的测量与分析从来就没有停止过。但是,当吉比特以太网和大 规模高速网络出现在我们的身边时,我们还是真切的感受到它带给我们的种种难题:直接 对网络流量进行全分组测量已经变得越来越困难;另外,大规模流量数据库的维护、数据 分析也开始面临着越来越多的难题。在这种情况下,人们开始将统计抽样的方法引入到网 络流量测量中来,并成为日后人们研究的热点。使用抽样的方法,不是收集流量的所有报 文,而只是选择部分报文。网络流量抽样测量技术便是在这种情况下,应运而生,解决了 这一难题。它一经出现,就被应用在大规模的、高速网络流量的测量中。 本章节,我们将对网络流量流的基本特点、流量测量的一般方法、及其高速网络流量 模型进行逐一介绍,然后对当前的研究热点网络流量抽样测量给予详细的讨论。 2 1 网络流量测量简介 网络流量的测量和模型化对于分析网络性能,指导网络流量管理,开发高效的网络应 用等方面都十分重要。网络建设的根本目的在于应用,而提高网络的应用水平网络流量 特征化和模型化的研究与网络的物理设施建设同等重要。国外有专家认为,建设下一代高 速网络所要做的第一项工作,就是分析和收集有关性能数据、建立网络运行模型、模拟网 络行为。目前对于网络流量模型理论方面的研究较多,但基于网络真实流量的测量、分析 及模型化的工作较弱,在我国更是亟待开展,特别是在流量特征研究、链路能力测量等领 域。 目前,i n t e m e t 测量研究工作大致可划分为三部分:端到端性能测量( 主要包括性能拓 扑推测、时延、丢包率测量、带宽测量等) 、路由路由器相关测量( 包括流量抽样技术、 根据路由器端口流量推测端到端流量特征、路由器参数推测、路由器协作测量协议、路由 测量、网络距离推测等) 、应用层测量( w e b 测量、d n s 系统性能测量等) 。 本节将从网络流量的特点、网络中流的特征的定义、测量方法给予阐述。 j l :京邮电大掌司仕研究蔓;牛业论文 2 1 1i p 网络流量的主要基本特点 ( 1 ) 网络流量具有“邻近相关性”效应。表明因特网流量的模式非完全随机。因 特网流量的结构与用户在应用层发生的任务有关,因此网络中传送的各分组并非是独立 的。邻近相关性包括时间上的邻近相关性和空间上的邻近相关性。在主机级、路由器吸 和应用级都有该效应。 ( 2 ) 分组流量并非均匀分布。因特网上主机的分组流量很不均匀,例如,1 0 ( 或 2 0 ) 的主机上分布了总流量的9 0 ( 或8 0 ) 这主要是因为使用了客户服务器方式。 此外,地理因素也是原因之一。 ( 3 ) 分组长度分布呈双模态( 双尖峰分布) ,许多短分组包括交互式的流量和确 认,这类分组约占4 0 :许多长分组是批量数据文件传输类型的应用,这些应用使用尽 可能长的分组( 基于最大传送单元) ,这类分组约占5 0 。中等长度的分组很少,仅i o 左右。 ( 4 ) 会话的到达过程是泊松过程。因特网的最终用户是人。这些人独立地随机发 起对因特网的接入,例如,用户向万维网服务器请求单个页面时就服从于泊松过程。 ( 5 ) 分组到达不是泊松分布。经典的排队论和网络设计是基于分组的到达过程是 泊松分布( 无记忆的指数分布) 的假定。然而大量的实验结果指出,分组是突发式到达 的( 分组有成群的特性) ,分组到达的前后有关联,分组的到达时间并非独立和服从指数分 布的,突发到达的特点是:平均值可能很低,但峰值可能很高,这与使用的时间段有关。 流量可能是自相似的,在较长的时间范围内存在突发性( 突发性难以精确定义) 。 ( 6 ) 流量是双向的,通常是不对称的。数据通常在两个方向流动,但两个方向的 数据量往往相差很大( 尤其是下载万维网的大文件) 多数应用都使用t c p i p 流量。 ( 7 ) 在因特网的分组流量中,t c p 的份额占绝大部分。至今为止t c p 协议一直是最 重要的协议。即使目前i p 电话和多播技术( 这些应用是在u d p 上运行) 得到广泛应用, t c p 仍处于主导地位。 2 1 2 网络中“流”的基本特征 在i p 技术上,至少在三个领域用到了“流”( f l o w ) 的概念:首先,在资源预约类协议( 比 如r s v p ) 中,“流”用来描述网络流量;其次,在交换技术中,“流”被看作交换的一个单元; 最后,“流”是网络测量与分析中的一个重要概念。作为网络测量与分析中的“流”,包含以 下要素: 方向性 首先,可以把“流”定义为单向的或双向的。面向连接的t c p 流一般是双向的,从a 到b 的流量会引起从b 到a 的流量,至少有确认流。但是,现在网上多媒体应用一般都 是单向的,比如实时音频流或视频流通常采用u d p ,不必对方进行确认。单向“流”数据和 第b 页 j 匕京邮电大掌硕士研究生毕业论文 双向“流”数据都很重要,单向数据对路由问题、网络流量特征的分析等都非常重要,而双 向数据对于协议、应用的使用情况的分析更为重要。从单向数据到双向数据总是可能的, 所以在网络测量中,一般把“流”定义为单向的,也就是说从a 到b 的流和从b 到a 的流 被看作两个流。 端点特性 定义一个“流”,最重要的是要说明流对应的端点( 流的起点和终点) 的情况和协议使用 情况。对于i p v 4 ,定义一个流一般需要以下几个方面: 源i p 地址 目的i p 地址 源的端口号 目的的端口号 协议类型 开始时间 结束时间 综上所述,我们可以将“流”定义为:有同一组特性( 源i p 地址、目的i p 地址、源的端 口号、目的的端口号、协议类型、开始时间和结束时间) 的数据包集合。一个流在一定的超 时时间内没有新的包到来时,称这个流为终止流,否则称这个流为活跃流。 2 1 3 网络流量的一般测量方法 针对某一具体的网络行为指标,比如说本文中的流量的测量,选取合适的测量方法, 测量方法的标准应满足如下条件: 稳健性被测网络的轻微变化不会使测量方法失效; 准确性测量结果应能反映网络的真实情况: 可重复性同样的网络条件,多次测量结果应一致: i n t e r a c t 流量数据有三种形式:被动数据( 指定链路数据) 、主动数据( 端至端数据) 和b g p 路由数据,由此涉及到两种主要测量方法:主动测量方法和被动测量方法。 主动测量 主动测量的基本原则是直接向网络注入测试流量,通过分析测试流量经网络传输后发 生的改变获得网络状态属性,其根本目的是为可能在网络中部署的端到端业务进行服务质 量探测。主动测量给网络增加了潜在的荷载负担,特别是如果没有仔细设计使得该方法产 生的流量数最小,那么附加的流量会扰乱网络,歪曲分析结果。一般来况,主动测量多使 用u d p 或i c m p 报文进行探测,使用g p s 对测量设备进行时间同步( 用于测量单向时延) , 其主要测量对象包括报文传输时延( 抖动) 、报文丢失率等等。如i e p m 、n i m i 、n l a n 、 第7 负 j 匕京邮电大掌硕士研究生事业论文 r a m p 、s u r v e y o r 、s k i t t e r 等采用了主动测量。 主动测量技术通常被网络工程师用来诊断网络问题,然而,近几年来,主动测量技术 被网络用户或网络研究人员用来分析指定网络路径的流量行为。主动测量主要应用的领域 有:评估i p 地址空间的利用率,路由的不对称性和不稳定性,按网络地址前缀长烹的流量 分布,b g p 路由表空间使用效率,单播和组播路由不一致的程度等。如路由器信息测量工 具t r a c e r o u t e 、s k i t t e r 就是通过向目的地址发送探测性数据包并记录返回数据来测量路由 信息的。 被动测量 被动测量方法是从网络中的某一点收集流量信息,如:从交换机、路由器或通过个 单独的设备被动地监听网络链路上的流量来收集数据。被动监测的常用形式是使用类似 r m o n 的探测器或c o r a l 监测器从交换机或路由器上直接收集流量信息,缺点是不够灵活。 与主动测量不同,被动测量主要用于提取观测点的流量特征( 如报文长度分布、协议分布、 网络负载情况,数据流传输质量等等) 。由被动测量获得的数据文件为分析测试点流量特 性提供了可靠的依据。r t f m 工作组是被动测量研究的标准化组织。 由于主动测量在实际应用中会影响网络的运行,所以在实际测量中对这种网络的应用 有一定的限制。而被动式测量则几乎不会干涉网络的正常运行,所以其应用范围比较广泛, 尤其适合于长期的网络监视任务。合理的结合使用这两种方法,就能比较系统的刻画出网 络的运行特征,并以此对网络进行进一步的管理、分析、规划和设计。 关于高速网络流量测量的一般模型将在下一节中详细阐述。 2 2 网络流量抽样测量 当用户惊喜于越来越大网络带宽带给他们快乐和方便的时候,我们却惊讶于高速网络 流量所带来的诸多问题,比如网络拥塞等。以前针对网络的全流量测量和分析研究也越来 越困难,为了解决这一问题,人们开始使用网络流量统计抽样技术,网络流量抽样测量研 究也渐渐成为高速网络流量测量的研究重点。 下面我们将对抽样测量的背景进行简单介绍,并对流行的几种抽样测量的采样方法进 行讨论以及通过对高速网络流量测量的关键问题的分析提出高速网络的测量模型。 2 2 1 网络抽样测量的一般概述 在1 9 9 3 年,c l a f f y 进行n s f n e t 主干测量时,首次使用网络流量统计抽样技术,研 究使用经典的事件和时间驱动静态抽样方法来减少采集的报文数。j a c k 等人认为这砷静态 流量抽样方法可能会产生不精确的流量统计资料,考虑了网络流量自相似的特点,对c l a f f y f 挣仑抽洋方法加以改进,发展了一种自适应的抽样方法,这种方法能更好地进行网络管理 第8 页 j 匕京邮电大掌硕j 啊f 兜生毕业论文 及对测量的流量特性进行评估。 一种常用的抽样方法是使用固定时间间隔的抽样:周期抽样。周期抽样简单,但是这 种方法具有两方面问题: ( 1 ) 如果被测量的统计量本身具有周期行为,那么周期抽样将 可能只能测量到周期行为的一部分。( 2 ) 周期抽样的测量行为可能会干扰被测量的对象。 另外种较合理的抽样方法是“随机附加抽样”:样本之间是相互独立的,抽样间隔是通 过一个函数g ( t ) 随机产生。这种样本抽样的效果取决于分布函数g ( t ) 。随机附加抽 样具有重要优点,一般而言,它避免了同步的影响,样本的统计量可以得到一个无偏估计。 但随机附加抽样也有一些缺点。首先,由于抽样不是按照固定间隔产生,而傅立叶变换技 术是假设样本间隔固定,所以抽样样本难以进行频域分析。其次,如果g ( t ) 不是一个指 数分布,样本仍然可能会具有某些可预见性。 可以证明,如果g ( t ) 是具有比率的的指数分布:g ( t ) = l e x p ( 1 - - t ) ,新样本 的到达是不可预见的,即,样本是无偏的。泊松抽样不易引起同步,它能精确地进行周期 行为的测量,且当新的样本出现时,泊松抽样的方法不易被预先控制。由于泊松抽样的方 法具有如此多的优点,r f c 2 3 3 0 推荐使用泊松抽样的方法进行i n t e m e t 的流量测量。 2 2 2 网络流量抽样测量的采样方法 如何进行数据采集是测量设备必须关注的问题。随着物理传输速率的提高,对测量过 程中网络传输的全部报文进行处理变得越来越困难,测量设备必须通过采样的方式减少数 据提取的工作量。 常见的采样机制有系统抽样( s y s t e m a t i cs a m p l i n g ) 、分层随机抽样( s t r a t i f i e d r a n d o m 册妒f f 馏) 和简单随机抽样( s i m p l er a n d o ms a m p l i n g ) 三种。相对于传统采样的一些局限 性,我们又尝试提出了分布式随机抽样自适应抽样的概念并进行了简单介绍。 系统抽样 系统抽样( 等距抽样或机械抽样) : 把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本, 即每个抽样间隔都具有相等的长度。第一个样本采用简单随机抽样的办法抽取。 k ( 抽样距离) = n ( 总体规模) n ( 样本规模) 前提条件:总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研 究变量相关的规则分布。可以在调查允许的条件下,从不同的样本开始抽样,对比几次样 本的特点。如果有明显差别,说明样本在总体中的分布承某种循环性规律,且这种循环和 抽样距离重合。 简单随机抽样 按照等概率的原则,直接从含有n 个元素的总体中抽取n 个元素组成的样本( n n ) 。 第9 页 j 匕京邮电大掌司e 士研究生毕业论文 随机数由专门的随机函数抽取。 分层随机抽样 从每个抽样间隔内随机抽取一个观察对象,每个抽样间隔都具有相等的长度2 ”。 先将总体中的所有单位按照某种特征或标志( 性别、年龄等) 划分成若干类型或层次, 然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后, 将这些子样本合起来构成总体的样本。 两种方法: 先以分层变量将总体划分为若干层,再按照各层在总体中的比例从各层中抽取。 先以分层变量将总体划分为若干层,再将各层中的元素按分层的顺序整齐排列,最后 用系统抽样的方法抽取样本。 分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总 本中的样本分别代表该子总体,所有的样本进而代表总体。 分层标准: ( 1 ) 以调查所要分析和研究的主要变量或相关的变量作为分层的标准。 ( 2 ) 以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为 分层变量。 3j 以那些有明显分层区分的变量作为分层变量。 分层的比例问题: ( 1 ) 按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来 抽取子样本的方法。 r ! ) 不按比例分层抽样:有的层次在总体中的比重太小,其样本量就会非常少,此 时采用该方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较。如果要用 样本资料推断总体时,则需要先对各层的数据资料进行加权处理,调整样本中各层的比例 使数据恢复到总体中各层实际的比例结构。 系统抽样 囊 分层随机抽样ii i 叠 简单随机抽样i量i 图2 一i 传统随机抽样的比较 图2 1 对这三种采样机制进行简单的对比。对于系统抽样和分层随机抽样而言首 先要对测量数据进行划分,划分的准则可以是时间、报文到达序号、报文长度、协议类型 等等:在划分完成后所有样本被划分在 个区间( b u c k e t ) 中,采样设备在每一个区间内 j 匕京邮电大掌硕士研究生毕业论文 抽取一个样本。具体的说,对于系统抽样方法,采样设备直接抽取每一个区间的第一个元 素( 报文) 作为样本:对于分层随机抽样方法,采样设备在每一个区间内随机抽取一个元 素作为样本;而简单随机抽样则是在整个采样过程中随机抽取仃个样本。研究表明,对于 总体方差小于局部方差的情形系统抽样的方法优于随机抽样方法,对于变化趋势近似线性 的采样对象,分层随机抽样方法更有效。 在具体实施中,测量设备可以通过时间驱动或事件驱动完成采样。所谓时间驱动是指 在测量设备仅在既定的时刻对流量进行抽样,需要说明的是在实际测量中抽样时刻的选取 一般使用负指数分布进行计算,以及避免周期性抽样造成的信息丢失;所谓事件驱动是指 当符合给定条件的某事件发生时对流量进行抽样( 如第k m 个报文到达,k = l ,2 ,3 ) 。研 究发现,在突发性较强的流量进行测量时,事件驱动的采样方式具有较高的精度。 分布式随机抽样 分布式测量体系结构中,抽样是从通过网络的报文中随机选择部分报文,第一种抽样 方法不能保证分布式测量点从同样的流量中抽取相同的样本,不同的抽样样本无法实现网 络行为分析因此,若保证分布式测量点能获得一致性报文信息,只能使用第二种抽样测量 方法,使用确定的抽样模型,由指定的报文具体内容激发报文抽样同第一种方法相比,第 二种抽样方法样本的随机性无法用数学理论证明,只能通过对实测报文的统计分析来确定 文章所研究的是内容激发的抽样测量模型,根据报文的某些位具有随机性,使用指定的掩 码和指定的比特串相匹配以实现抽样,抽样方法的核心是选择合适的报文匹配比特串,这 些比特必须在统计上具有随机性,同时又和流量统计特性无关这样既能保证分布式测量点 抽样到同样的报文,又能实现抽样报文样本统计的随机性。 如果一个抽样掩码和指定的报文比特串发生匹配,那么测量器将抽样该报文。如果在 测量体系结构中所有测量器的匹配函数使用相同的抽样掩码,指定相同的匹配比特串,就 能实现分布式测量体系结构中抽样测量一致性报文流量。这种匹配机制以比特为基础,使 用一个内容随机的比特掩码比较每个报文中的指定比特的内容,比特掩码的偏移和长度决 定测量体系结构的精度和可靠性,图l 显示一个抽样掩码来实现掩码匹配的抽样测量。假 发放匹配的每个比特出现0 和1 的概率类似于掷硬币,等概率随机分布,即0 和1 出现的 概率均为1 2 ,同时假设不同比特间服从独立同分布,则理论上抽样比率是由抽样掩码比 特长度决定的,理论抽样比率r a t i o = l 2 ”,但报文中匹配比特串的每一比特很难保证等概 率随机分布且独立同分布,实际抽样比率同被选取的匹配比特串有直接关系,被匹配位串 的比特随机测度值越接近1 ,则实际抽样比率越接近理论抽样比率。因此模型的核心是寻 找合适的被匹配比特,选择的比特必须满足以下几方面因素:( 1 ) 被匹配的比特在传输过程 中不能发生变化,这是实现分布式协同抽样测量的首要条件;( 2 ) 被匹配的比特需要具有高 随机性,使得实际抽样比率在概率范围内等于理论抽样比率:( 3 ) 被匹配的比特尽可能与报 文统汁属性无关。 第1 i 负 j 匕京5 电大国“曩士习院生毕业论文 自适应随机抽样 传统抽样方法简单易实现,但都存在一个共同的缺陷,即在每一次抽样测量过程中, 抽样比率是保持不变的。也就是说,从统计的角度来看,抽样间隔是不变的。这样得到的 抽样样本必然无法准确地表示网络业务流总体的性能参数。例如:当网络负载比较低时, 一个长间隔的抽样算法就能足够精确地得到低负载下网络业务流性能参数。然而,这样的 算法在网络业务流出现突发活动时就无法适用,因为在高负载情况下,必须采用短间隔抽 样算法,才能获取足够的数据包样本,从而精确的反映出网络性能参数。而自适应随机抽 样则完全能解决这一问题。他可以根据样本中各元素的具体分布情况即时调整抽样参数, 以获得对高速网络流量的精确估计。自适应随机抽样的逻辑是这样的:抽样过程有一个输 入,两个输出,输入就是本次抽样间隔,输出一是本次抽样测量到的网络参数,输出二是 从本次测量所得网络参数中选择一个作为自适应控制的控制参量。 2 2 3 高速网络流量测量的关键问题分析 报文采样 高速网络已成为网络发展的必然趋势,要支持高速网络流测量最直接也是最核心的目 际就是尽量减少测量设备在提取和分析数据时所需的时间,尽量在不影响测量结果的前提 下减少处理的报文数目。前者可以通过提高硬件速度来实现;而后者则需要引入新的流量 测量原理和算法报文采样技术,它是当前的一个研究热点。 报文采样技术可以在满足一定测量精度的前提下,一方面大大减少流测量记录数据文 件的大小,另一方面也降低了测量过程对系统造成的负荷,更适宜于高速网络中的流测量 和实时测量。采样方法随采样策略的不同而不同,如系统采样或随机采样:也随触发采样 事件的不同而不同,如由报文到达时间触发( 基于时间采样) 、由报文在流中所处的位置 触发( 基于数目采样) 或由报文的内容触发( 基于内容采样) 。最简单的采样策略为周期 采样,它实现简单,但会导致两个方面的问题;其一,如果被测量本身表现为周期行为且 和采样周期吻合或相关,采样就有可能仅仅只观测到这种周期行为的一部分,并且如果被 测量受到一个小的扰动,周期采样只能观测到这个被测量被扰动后的行为;其二,周期采 洋的测量行为可能会对被测对象造成周期性的干扰,以至于影响被测量的真实性。 为了克服周期采样带来的弊端,人们将注意力逐渐转移到随机采样,如1 1o u to fn 采 样和概率采样等。随机采样的样本空间是相互独立的,它避免了周期采样导致的同步影响, 同时样本的统计量可以得到一个无偏估计。但随机采样也有一些缺点,如实际采洋的时间 间隔不固定会导致采样样本难以进行频域分析、样本采样函数的非负指数性会导致样本仍 具有某些可预见性等。从数学上讲,如果采样函数服从到达率为五的负指数j ,布 f ( r ) = l p “,则新样本的到达是不可预见的,这时的样本才是无偏的,即使当采样的行为 ! 彤叫到网络的:恢态其采样结果也是渐进无偏的,这就是泊松采弹。另外,泊松采样不易 第1 :页 j 匕京i 电大掌硕士研究生毕业论文 产生同步问题,可以对周期行为进行精确测量,也不易受网络中新添加的其它采样的影响。 因此,i p p m 将泊松采样推荐为i n t e m e t 流量测量中优先使用的采样方法。 流量信息的导出 传统的网络流量测量组件在收集、传输流记录信息时一般都使用各自特定的方式,没 有一个统一的标准可循,而且分别还存在一些安全性和完整性的问题,严重阻碍了网络测 量设备的应用范围和应用前景。如何将测量到的流信息记录以一种标准化的协议,以安全、 完整的方式收集起来已成了当前的研究热点之一。 流量信息的导出就是将测量到的记录数据及其它相关控信息从测量受备( 如路由器或 专用探测设备等) 传送到测量信息收集设备和组件的过程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论