




已阅读5页,还剩51页未读, 继续免费阅读
(计算机系统结构专业论文)网络丢包对流测量影响的评估研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 网络丢包对流测量影响的评估研究 王远丁伟 东南大学计算机科学与工程学院 “报文”是互联网用i p 协议进行传输的基本单位,也是被动测量“感知”网络的基本 单位,因此被动测量所获得的原始信息是报文流,通常称为“i p t r a c e ”。早期相关的研究 工作直接面向t r a c e 展开,主要关注报文到达的统计特征,以及一些仅限于i p 层的流量 特性。随后,对网络流量行为的研究向更高的层次进行,研究人员开始用属于t c p 层的、 具有更完整逻辑含义的、面向端系统的“流”( f l o w ,也称数据流) 这个概念,作为网络动 态行为研究的对象和基础。这一做法的好处在于可以将原先孤立的流量网络层行为和应用层 行为关联起来,使研究工作可以到达更高的境界。不同于“i pt r a c e ”,“流”信息无法直 接通过被动网络测量获得,于是将被动测量所获得的i p t r a c e 组成“流”既是研究人员获 取“流”信息的主要手段,也是对庞大的i pt r a c e 进行摘要的一种手段。试验表明,被动 测量由于软硬件的能力原因,测量系统存在“丢包”现象,那么基于丢包后的i p t r a c e 获 得的“流”它的可信度如何? 本学位论文的研究工作主要围绕这个目的展开。研究工作分为 三个阶段,分别是:数据流超时研究、评估方法研究和网络丢包对流测度的影响。 由于研究的目的不同,“流”的定义也不同,而对“流”的准确的定义是评估工作的基 础。最常规的定义是五元组+ 超时。“流”超时研究始于k c c l a f f y ,她于1 9 9 4 年提出的“主 干网数据流超时时间以6 4 秒为宜”的结论,被广泛接受并大量使用。但十几年来,网络规 模、设备的能力,特别是网络应用发展巨大的变化,6 4 秒是否仍是合适的超时时间? 本学 位论文使用和c l a f f y 相同的方法对近期c e r n e t 主干网流量进行实验和分析,提出了目前 主干网流测量超时值以1 6 秒为宜的结论。这个结论在论文后面的部分中使用。 论文随后进行了丢包影响评估研究,主要分为四部分进行,包括:指标研究、评估系统 设计与实现、实验方案设计和实验结果分析。首先进行的是指标研究。由于国内外缺乏同类 研究,论文从已有的参考文献出发,系统化地归纳、总结和提出了用于评估丢包影响的指标 体系。这些指标分为集合属性和流测度两个大类,共计九个,分别是:流总数、流符合度、 流报文容量分布、流字节容量分布、流持续时间分布、新流个数、活跃流个数、t c p 流比 例和u d p 流比例。文中详细给出了它们的定义、测量( 计算) 方法、对比方法和意义。通 过这些指标,可以客观全面地考察网络丢包对流测量结果的影响。 在此基础上,论文基于上述研究成果设计并实现了一个用于评估丢包影响的软件系统。 该按照规范软件工程流程进行设计和开发,该系统具备良好的通用性、可配置性和可扩展性, 可以随时调整配置参数、加入新的组流算法( 定义) 、增加t r a c e 、新的测度算法和新的评估 公式。 最后,论文用上述平台和来自于c e r n e t 主干网的i p t r a c e ,进行了一次完整的丢包 对流测度影响的评估,得出的主要结论包括:( 1 ) 1 6 秒是适合于当前网络环境的数据流超 时值;( 2 ) 流符合度指标对丢包较为敏感,其变化趋势和丢包率呈指数关系,其余指标为线 性关系;( 3 ) 丢包对1 6 秒的影响小于对6 4 秒的影响;( 4 ) 丢包对t c p 流的影响小于对u d p 流的影响。论文最后作了简要的总结,回顾论文完成的工作并对未来工作进行了展望。 【关键词】网络丢包、网络测量、网络流、数据流超时、评估指标、单因素方差分析 东南大学硕士学位论文 a b s t r a c t s t u d yo nt h ei n f l u e n c eo fp a c k e tl o s s o nn e t w o r km e a s u r e m e n t b a s e do nf l o w w a n gy u a n ,d 1 n gw e i s c h o o lo fc o m p u t e rs c i e n c ea n de n g i n e e r i n g ,s o u t h e a s tu n i v e r s i t y t h eb a s i cu n i to ft h ed y n a m i c so fi n t e r n e tt r a f f i ci s “p a c k e t a n dt h e r e f o r ee a r l ys t u d i e so n u n d e r s t a n d i n ga n dc h a r a c t e r i z i n gi n t e r a c tt r a f f i cp a t t e m sh a v ed e a l tw i t hp a c k e t l e v e lg r a n u l a r i t y t h e s es t u d i e sh a v em a i n l yf o c u s e do nt h es t a t i s t i c a ln a t u r eo fp a c k e ta r r i v a l s ,a n du n c o v e r e d f r a c t a l ”c h a r a c t e r i s t i c so fi n t e m e tt r a f f i ca tt h ep a c k e tl e v e l r e c e n t l y , i n t e m e tr e s e a r c h e r sa n d p r a c t i t i o n e r sh a v eb e g u nt a c k l i n gt h ed a u n t i n gc h a l l e n g eo fu n d e r s t a n d i n gt h ei n t e m e tt r a f f i c d y n a m i c su s i n gt h en o t i o no ff l o w u n d e r s t a n d i n gi n t e r a c tt r a f f i cd y n a m i c sv i at h ea b s t r a c t i o no f f l o w sf r o mp a c k e t so f f e r st h ea d v a n t a g et h a ti tc o u l dc o m b i n et h ei s o l a t e dt r a f f i cb e h a v i o ro fi p l a y e rw i t ht h ea p p l i c a t i o no n et o g e t h e r , b u tm e a n w h i l et h i sk i n do fm e t h o dp r o v i d e se x t r ab u r d e n t ot h em e a s u r e m e n td e v i c e ,t h u st h ep r o b l e mo f p a c k e tl o s st a k e sp l a c ef r e q u e n t l yw h i c hm a yl e a d t ot h ei n c o r r e c t n e s so ft h em e a s u r e m e n tr e s u l t t h ep r o b l e mb e c o m e se v e nm o r eo b v i o u sw h e n m e a s u r i n gt h eh i g h s p e e db a c k b o n e t h et h e s i st r i e st oe v a l u a t eh o wp a c k e tl o s sm a yi n f l u e n c et h em e a s u r e m e n ta c t i v i t yb a s e do n f l o w a f t e rr e s e a r c h i n go ns o m ei s s u e sa b o u tp a c k e tl o s sa n df l o wm e a s u r e m e n t ,t h eo b j e c t f o c u s e so nt w op o i n t s ,o n ei st h es t u d yo nf l o wt i m e o u t ,a n dt h eo t h e ro n ei st oe v a l u a t et h e i n f l u e n c eo fp a c k e tl o s so nf l o wm e a s u r e m e n tr e s u l tw h i c hm a yu s es o m ec o n c l u s i o no ft h ef l o w t i m e o u ts t u d ya sb a s i s b a s e do nao n e - h o u rp a c k e tt r a c ec o l l e c t e df r o mac e r n e t2 5 gp r o v i n c en e tb o r d e rl i n k r e c e n t l y , s e v e r a ls t a t i s t i c sa n da n a l y s i si nt h es i m i l a rm e t h o d o l o g ya sk c c i a f f y sh a v eb e e nd o n e t h ec o n c l u s i o nw a st h a ta16s e c o n d sf l o wt i m e o u tv a l u ew a sa p p r o p r i a t ef o rp r o v i d i n ga ni d e a l e f f e c to fm e a s u r e m e n t t h ei n f l u e n c ee v a l u a t i o np a r tc o n s i s t so ff o u ra s p e c t s f i r s t ,b a s e du p o ne x i s t i n ge v a l u a t i o n i n d e xa n dt h ec o n c l u s i o n so fi n t e r r e l a t e dr e s e a r c hf i e l d s ,t h ed e f i n i t i o na n dc a l c u l a t i n gm e t h o d so f n i n ei n d e x e sa r ep r o p o s e di nt h i st h e s i s s e c o n d ,a l le v a l u a t i o ns y s t e m ,w h i c hi su s e dt od os o m e e x p e r i m e n t st oa s s e s st h ei n f l u e n c eo fp a c k e tl o s so nf l o wm e a s u r e m e n t ,h a sb e e nd e s i g n e da n d i m p l e m e n t e d t h i r d ,t h et h e s i st o l ds o m et h e o r ya b o u te x p e r i m e n td e s i g n ,b a s e do nw h i c h ,as e to f e x p e r i m e n ts o l u t i o nf o re v a l u a t i o nw a sd e s i g n e d f i n a l l y , a l lt h ee x p e r i m e n tr e s u l t sw e r ep r e s e n t e d i nt h et h e s i s ,a n da l s ot h ea n a l y s i sa n dc o n c l u s i o n a tl a s t ,t h et h e s i si ss u m m a r i z e di nt h ef i n a lc h a p t e r , a n da l s ot h ee x p e c t a t i o no ft h ef u t u r e w o r ki sa l s op r o p o s e d k e yw o r d s p a c k e tl o s s ,n e t w o r kf l o w , n e t w o r km e a s u r e m e n t ,f l o wt i m e o u t , e v a l u a t ei n d e x , o n e 。w a ya n o v a i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 研究生签名:玉垦 日期:砌形6 6 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论 文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子 文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查 阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊 登) 授权东南大学研究生院办理。 研究生签名: j 县一导师签名: 啊名弓 第一章绪论 第一章绪论 网络建设的根本目的在于应用。提高网络的应用水平,除了需要加强物理设施的建设, 另一种必不可少的途径就是进行网络流量特征化和模型化的研究。此类研究的作用主要包 括:分析网络性能和行为,指导网络流量管理,以及为迸一步的物理设施建设提供参考依据 【l 】【3 】 8 】。网络测量是一项研究如何应用工程方法和数学工具定量测量和描述网络流量动态 特性的技术,也是研究网络行为的基础。网络测量是对网络流量进行特征化、对各项指标进 行量化,并充分理解与正确认识互联网的最基本手段,是理解网络流量行为最有效的途径。 1 1 研究背景 1 2 1 网络测量 目前,网络测量研究的方式主要分为两种:主动测量和被动测量【3 】【5 】 7 】。主动测量是 在选定的测量点上利用测量工具有目的地主动产生测量流量,注入网络,并根据测量数据流 的传送情况来分析网络的性能。其优点是对测量过程的可控性比较高,灵活、机动,易于进 行端到端的性能测量,如端到端传输的带宽,路径的不对称性,传输的延迟和抖动等特性 【1 】 2 】 4 】。被动测量是指在链路或设备( 如路由器,交换机等) 上利用测量设备对网络进行监 测的测量方法。其优点在于它不产生多余流量,不会增加网络负担;其缺点在于被动测量基 本上是基于对单个设备的监测,很难对网络端到端的性能进行分析,并且由于实时采集的数 据量过大,对采集设备的性能要求很高 1 3 1 1 6 1 。在网络发展的早期,网络带宽有限,网络 流量内容和行为特性单一,无法为被动测量提供足够丰富的信息,因此主动测量更为合适。 然而,随着网络规模的不断扩大,网络带宽不断增加,网络业务流量呈现多样性,导致流量 行为不再单一,主动测量无法有效的感知复杂网络行为特征。因此,被动测量成为大规模高 速网络测量的研究焦点。 1 2 2 报文测量和流测量 网络流量的基本单位是“报文”,因此早期的被动测量都基于报文这个粒度。这些研究 主要关注报文到达的统计特征,以及一些仅限于网络层的流量特性。近年来,对网络流量行 为的研究已不能够仅仅满足于流量的网络层特性,网络研究者和工程实践者开始使用“流” ( f l o w ) 这个概念,来试图理解复杂的网络流量动态行为。相比于基于报文的被动测量,基 于流的被动测量主要具有两大优势:( 1 ) 由于流的定义本身基于报文,同时它又能反映应用 层甚至是用户的行为特征,所以流测量能够将原本孤立的网络层行为与应用层行为联系起 来;( 2 ) 流测量解决了被动测量不善于分析网络端到端性能的问题。目前,利用流测量进行 科学研究和工程实践的领域也越来越多,它们主要包括:路由器转发速度优化、资源预留和 服务质量、拥塞控制、攻击行为分析、网络审计等。但是,由于流测量加重了测量设备的软 硬件负担,所以在测量时很容易产生丢包现象,从而导致测量结果不够准确,尤其是针对大 规模高速主干网进行的实时流测量,这一问题凸现的更加明显。 在工程实践领域,c i s c o 公司提出的网络数据包交换技术n e t f l o w 2 6 ,是利用流测量提 东南大学硕士学位论文 高网络服务质量的典型代表。n e t f l o w 因为其技术的先进性和c i s c o 网络产品的市场占有率优 势,成为了当今互联网领域公认的最主要的i p 流量分析行业标准。该技术首先被用于网络设 备对数据交换进行加速,具体做法是:在超时时间内,将流中的数据报文按一定的聚类规则 汇聚形成原始数据置于缓存中,转发的时候,对于属于同一个流的连续包,只处理它的第一 个包,后继包不再做三层处理,而是根据第一个包的处理情况直接转发,这样大大加快了数 据交换的速度,并可同步实现对高速转发的j p 数据流( f l o w ) 进行测量和统计。在n e t f l o w 技术的演进过程中,c i s c o 公司一共开发出了n e t f l o wv 1 、v 5 、v 7 、v 8 和v 9 等5 个主要的实 用版本。 1 2 3 丢包问题的研究现状 目前对丢包问题的研究,主要集中于三个领域,分别是g 拥塞控制、抽样测量和丢包影 响评估 1 6 【1 7 】【1 8 】【1 9 2 0 】。 在拥塞控制方面,j a c o b s o n 早在1 9 8 8 年就提出了一个重要的拥塞回避算法【1 5 】,该算 法的大致流程是,当探查到网络发生拥堵时,算法会抑制t c p 发送端的报文发送速率,从 而减少丢包的数量,当拥堵情况消失后,算法又会逐步提升发送报文的速率,直到发生下一 次拥塞为止,接着算法进入下一次迭代,如此周而复始,便实现了对流量拥塞的控制。之后 为了提高网络的服务质量( q o s ) ,研究者又提出了很多拥塞控制的策略,主要集中于讨论 报文转发设备的队列控制机制【2 7 】【2 8 】。这些机制主要包括:优先队列、随机公平队列( s f q ) 、 公平缓冲分配( f b a ) 、类别队歹l j ( c b q ) 、加权公平队列( w f q ) 和加权早期随机丢包( w e i g h e d r e d ) 等。 为了避免丢包对流测量造成的影响,很多研究集中于抽样测量领域,即只抽取较少的一 部分报文作为组流的样本,并根据统计学理论,建立误差模型,使得测量在可以被接受的误 差范围内进行。k c c l a f f y 于1 9 9 4 年提出对报文进行抽样是进行流测量的可行方案 1 】,并 设计了具体的抽样组流方法,她还使用n f s n e t 主干网节点的t r a c e 进行了实验。d u f f i e i d 于2 0 0 2 年对抽样组流结果的各主要测度进行了实验探索,展示了这些测度随抽样比的变化 规律,并对此进行了理论分析。另外,部署于c i s c o 路由器的n e t f l o w 技术 2 6 】也是通过报 文抽样,为网络管理者和研究者提供了具有一定价值的流测量信息,同时基于这些流信息, 路由器可以加快转发报文的速度。 在丢包影响评估方面,研究集中于对音频、视频的影响,以及对u d p 、t c p 或者组播 等单独一类流量的影响。b o y c e 等探索了丢包对m p e g 视频传输造成的影响【1 0 】。v e l i b o r m a r k o v s k i 等利用n s 2 ,仿真分析了丢包对使用u d p 传输的压缩视频的影响,重点观察了 时间跨度和丢包影响的关系【1 8 】。t h o m a sj h a c k e r 等利用仿真实验,分析了系统丢包对多 条并行t c p 连接吞吐量的有效性、均匀性( 公平性) 和效率的影响,他们发现由系统和拥 塞导致的丢包对多条并行t c p 连接的有效性和效率都影响不大,若丢包完全由拥塞引起, 则多条t c p 连接之间的流量均匀性将遭到破坏,而丢包是由系统调节所致,则其均匀性仍 可保持 2 h 。 但在评估丢包对流测量结果影响的领域,目前国内外尚无同类研究,尤其缺乏针对高速 主干网的全部流量的丢包影响评估。 1 2 研究工作的意义 和前文所述的一些研究相似,本论文也试图探究丢包造成的影响,但不同的是本文的目 2 第一章绪论 的是评估网络丢包对流测量的影响,尤其关注丢包对大规模高速主干网的所有流量进行测量 的结果造成的影响。 基于流的被动测量已成为观察和理解主干网流量行为的重要手段,然而丢包问题却成为 限制流测量发展的一大瓶颈。相比于传统的报文测量,流测量多出了一个必需的“组流”( 也 被成为“流重组”、“会话重建”) 过程,其功能是将“听”到的报文t r a c e 组成流,从而将 原先的报文集合转化为能够提供更多流量特征信息的流集合。丢包会导致测量结果不准确, 尤其是经过组流算法处理的测量结果。解决该问题的根本手段,是提高测量设备的软硬件水 平,特别是硬件水平,但从目前的情况来看,短时间内无法做到。所以,评估网络丢包对流 测量的影响,是一件非常有意义的研究工作。 1 3 研究工作的难点 本文的第一个研究难点是确定明确的流定义。由于流定义并没有形成标准,因此长期以 来业界存在着多种流定义,而没有一个明确的流定义,对于丢包影响的评估就缺乏了一个基 本的判断标准,所以明确流定义是本文研究工作的第一步。各种流定义之间的区别主要在流 的结束条件上,其中比较有代表性的流结束条件包括:6 4 秒固定超时,t c p 流的f i n 或r s t 报文,自适应性可变超时等等。虽然,长期以来针对高速主干网的流测量,研究者较为认可 并广为采纳k c c l a f f y 于1 9 9 4 年提出的“6 4 秒固定超时”结论,但是十几年过去了,网络 在包括带宽和应用在内的几乎所有方面发生了巨大的变化,用6 4 秒作为流超时参数是否仍 然符合当今主干网的流测量要求? 因此,本文首先对此进行研究,用c l a f f y 的方法作用子新 的数据,找出合适的流超时参数的取值,然后以此形成明确的流定义,为接下来的丢包影响 评估研究提供基础。 除了明确流定义之外,本文研究工作的另一个难点在于,如何使用定量的方法解决论文 题目描述的定性问题。解决该问题的办法是分别为“丢包”和“流测量结果”这两个定性的 研究对象,选择易于量化分析的代表。通过研究,本文选择以“丢包率”作为“丢包”的量 化指标,丢包这一网络现象具有很多属性,但毫无疑问,丢包率是这众多属性中最重要的一 个,研究丢包率的影响也最具有代表意义。而对“流测量结果”则从集合属性和流测度等角 度,提出多个评估指标,如:流总数、流符合度、流容量分布等,以此作为“流测量结果” 的代表。通过研究“丢包率”和受影响的“流测量结果”的上述评估指标之间的数量关系, 本文可以定量的给出“丢包”在各种“流测量结果”指标上造成的影响。这样就解决了如何 利用定量手段分析定性问题的难点。 本文计划通过各种实验,探查各种丢包率水平下,丢包对流测量影响在各种流测量结果 指标上的表现。这些结论将为基于流测量结果的研究和实践起到很好的样本有效性甄别作 用。 1 4 研究工作的思路 图1 1 描述了进行丢包影响评估的研究思路。因素影响评估问题,即对某种因素所造成 的影响进行评估,是一个遍及社会各个角落的常见问题。如:农业生产中,往往需要评估某 种饲料添加剂对农畜体重增加有何影响,有多少影响;又如,推出某种新药时,需要进行大 量实验以评估此类药物的药效。同样,在工程、科研,甚至社会领域,人们都有多种多样的 因素影响评估需求。虽然被评估的对象各具特色,但其使用的评估方法却几乎一致。该方法 一般被称为“对照实验法”【2 9 】。 3 东南大学硕士学位论文 网络丢包对流测量结果的评估研究问题也是一种因素影响评估问题。在该问题中,造成 影响的“因素”是“丢包率”,被实验者是“流测量结果”。通过使用“对照实验法”,我们 可以了解流测量结果的各个指标受丢包率影响的敏感程度,从而得出网络丢包对流测量影响 的结论。 图1 1 丢包影响评估的研究思路 根据对照实验法,工作的过程大致分为提出指标、分组试验、指标参数对比、试验方案 设计和结果分析几个方面。具体介绍如下: ( 1 ) 提出指标 指标是评估因素影响的基本参数,其作用是将复杂的、特征不明显的、难以测定和量化 的综合影响,分解为简单但具有代表性的、特征较明显的、易于测定和量化的众多基本指标 上的影响。利用这些指标参数,研究者可以使用数学工具对它们进行分析研究,从而最终给 出一些便于使用的综合影响结论。因此提出指标是进行因素影响评估研究的第一步。例如, 在评估药效的研究中,人们难以直接给出该药物是否有效的结论,但比较容易做到的是测量 服用药物者的血压、心率、血氧浓度、脑电波、肺活量等基本生命指标,而这些指标的测量 结果也构成了下一步实验分析的基础。对应于丢包影响评估问题,本文主要以流测度作为基 本指标,如:流报文容量、流字节容量、流持续时间等。本文的第三章详细探讨了这部分内 容。 4 一 彩|l|l 第一章绪论 ( 2 ) 分组实验 评估指标只是从理论上提出几个需要被观测的角度,真正的数据需要依靠实验获得。“分 组实验”是这里常用的实验手段,其方法大致为:将被试验者分为两组,一组接受该因素的 影响,通常被称为“影响组”,另一组除了不接受该因素的影响外,其他条件和影响组完全 相同,这一组被称为“对照组”或“空白组”,接下来分别对这两组的成员测定各种指标参 数,用于下一步的指标对比,这样就结束了一轮实验。 如图1 1 所示,在丢包影响评估问题中,“空白组”是对某段t r a c e ,按照标准流定义( 五 元组+ 超时) 组流后得到的流记录,本文称之为“原始流记录”( 下文简称为“原始流”) , 而“影响组”是对同一段t r a c e ,先进行模拟丢包,再按照相同的流定义组流得到的流记录, 本文称之为“丢包流记录”( 下文简称为“丢包流”) 。与药物实验不同,丢包影响评估的“空 白组”是一个标准答案,因为对同一段t r a c e 按照某种流定义进行组流的结果是唯一的,而 药物实验中“空白组”被试的生命体征并没有绝对的唯一性。因此,从这个角度看,丢包对 流测量结果造成的影响会比药物对人体造成的影响更加容易度量。本文在第二章详细讨论了 适合当前网络状况的流定义,在第四章介绍了模拟丢包和组流程序的设计与实现过程。 ( 3 ) 指标参数对比 对测定的各个指标参数进行对比是对照实验法里的关键步骤,因为这一步量化的给出了 各个指标上因素造成的影响,这些影响一方面可以作为进一步分析的基础,另一方面它们本 身已经代表了该因素在该方面的影响,因而也是结论的一部分。由于各个指标被设计的足够 简单和易于量化,因此有很多数学方法可以被应用于指标参数对比。通常,一些数字型指标 的对比只需要进行简单的四则运算,而曲线型或分布型指标的对比则可以通过计算曲线间的 距离来表示二者的差异。本文的第三章从理论上提出了各种指标的对比方案,在第四章中介 绍了对比方案的实施。 ( 4 ) 设计实验方案,实验结果与分析 完成上述理论研究和实验准备之后,接下来就要进入真正的实验环节。首先需要设计有 效、可操作的实验方案。除了影响因素( 丢包) 、响应变量( 指标) 之外,方案设计还需要 确定以下几点: a )水平 水平的选取没有一定之规,也就是说,这部分工作主要依靠专业理论和实践经验来确定。 另外,通常水平选取也是一个迭代的过程,即这次的实验结果往往可以用于指导下一次的实 验方案设计中的水平选取。 b ) 样本量选取 通常,实验轮数越多,实验误差就越小,而根据一些数理统计学的理论,当实验次数达 到某临界值时,实验误差就足够小了,因此一般来说实验次数只要达到该临界值即可,这一 点保证了该方法的可操作性。 c )数据分析方法( 统计方法) 统计方法不能证明一个因素( 或几个因素) 有特殊的效应。它们仅对实验结果的可靠性 和有效性提供准则。从本质上来说,应用统计方法不允许利用实验来证明任何事情,但是统 计方法允许我们去度量结论中可能出现的误差,或者对一个命题附加上置信水平。统计方法 的基本优点是它对做出判决的过程加进了客观性。统计方法和好的专业知识结合在一起,通 常会导致正确的结论。 d ) 结论表述方式 按照设计好的方案进行实验与分析,并结合相关专业理论,研究者就可以给出该因素是 否存在影响,以及影响有多大的结论。一般以图表的形式进行结论展示,这样做能够简单明 了的显示出各种指标对丢包的敏感程度,从而可以看出丢包对其影响是否显著。 5 东南大学硕士学位论文 本文的第五章详细介绍了丢包影响实验的方案设计和实验结果与分析。 1 5 研究目标和内容 1 5 1 研究目标 本学位论文工作的目标是以c e r n e t 华东( 北) 地区网络中心提供的报文t r a c e 为样 本,基于对照实验法,完成网络丢包对流测量影响的研究和评估。 1 5 2 研究内容 围绕上述目标,具体的研究内容包括: ( 1 ) 数据流超时研究 研究网络丢包对流测量的影响的基础,是确定适合当前主干网流量状况的流定义。本文 计划使用和c l a f f y 相似的方法对近期c e r n e t 主干网流量进行实验和分析,以找到适合于 当前网络状况的流超时值,进而确定流定义,为后续的丢包影响评估研究奠定基础。 ( 2 ) 丢包影响评估指标和对比方法研究 丢包影响的评估指标是衡量网络丢包对流测量结果影响的主要参数。由于现有丢包影响 评估研究大多集中于某一类流量,如:音频、视频、组播等,缺乏对主干网总体流量进行流 测量影响的评估研究,因此本文计划从集合属性和流测度两个大的方面提出尽可能多的反映 丢包影响的角度,和各个角度的量化指标。研究和分析它们,并从中选出具有较高代表性的 角度和指标,展开深入研究。 伪丢包影响评估系统的设计与实现 为实验设计并实现一个丢包影响评估系统软件,该系统主要包括:t r a c e 管理、组流、 评判和结果管理等模块。t r a c e 管理负责提供可用t r a c e 信息,并解决不同格式t r a c e 的输入 问题。组流模块的作用是,将报文t r a c e 转化为相应的流记录集合,它接受的t r a c e 输入可 以是未经丢包的,也可以是经过模拟丢包的。该模块的设计要点是,选取合适的数据结构和 算法,以降低处理海量数据的时间复杂度和空间复杂度。丢包影响评判模块的作用是,计算 丢包流集合和原始流集合的各个指标参数,之后将每个指标进行对比分析,从而得出丢包影 响结论,设计该模块时,需注意指标和计算公式的可扩展性。结果管理模块主要用于查询、 删除和图表化显示等基本数据操作。 ( 4 ) 丢包影响评估方案设计与结果分析 为设计合理、有效、可行的丢包影响评估方案,本文需要研究实验设计的作用、原理和 基本方法,并需要特别关注统计分析方法在实验设计中的作用。按照实验设计的相关理论, 本文将设计针对评估丢包影响的实验方案,具体内容包括:确定了因素、水平、响应变量等 基本参数,并选择了合适的统计分析工具。最终,利用丢包影响评估系统,实施这一实验方 案。本文以c e r n e t 华东( 北) 地区网络中心提供的报文t r a c e 为样本,利用丢包影响评 估系统进行仿真实验,展示和分析实验结果,得出流测量结果的各个指标随丢包率变化的敏 感程度,从而完成评估网络丢包对流测量影响的研究。 6 第一章绪论 1 5 3 实验数据说明 中国教育和科研计算机网( c e r n e t ) 华东( 北) 地区网络中心作为c e r n e t 全国8 个地区 网络中心之一,连接江苏、安徽、山东的1 9 7 所高等院校、科研机构等接入单位。该中心在 国家重点基础研究发展计划( 9 7 3 计划) 课题“网络动态行为和传输控制理论”的支持下,完 成了一个基于分光器的分布式千兆信道采集系统w a t c h e r 。在这个系统的支持下,课题组于 2 0 0 5 年1 1 月1 0 日在c e r n e t 某省网边界到c e r n e t 骨干网之间的光纤主干线路上采集到 了2 4 小时i p 报文头,该边界网有9 4 个接入网,逻辑信道由3 对1 g b p s 光纤信道构成,其 边界路由器和c e r n e t 主干路由器连接。采集的长度为报文的前6 0 个字节,附加信息包括 时戳和流向标志( 时间戳微秒的最低一位表示流向) 等,具体数据格式如图1 2 所示,数据 总量2 5 t b ,报文总量约3 6 g 。对其中一个小时( 1 4 :0 0 - 1 5 :0 0 ) 的数据进行统计发现,不相 同的地址数量为2 , 3 9 4 。2 7 9 个。本文的所有实验都基于这一小时的报文t r a c e 展开。 t i m es t a m p ( 8b 计e s ) 口h e a d e r ( 2 0b y t e s ) i po p t i o n s 雠a n y ) t cph e a d e r + t cpo i | l o l t s 皿i n k y ) o r 乏j d ph e a d e ro ri c a 薹ph e a d e ro f d a t a 图1 2w a t c h e r 系统采集的原始数据格式 1 6 论文的组织结构 6 8b y t e s 1 r 本论文的组织安排如下: 本文的第一章是绪论部分。这部分首先介绍了网络测量的意义和方法,以及流测量的优 点和遇到的问题,之后阐述了丢包问题的成因、研究现状,接着介绍了评估丢包对流测量影 响研究工作的意义、难点和思路。最后给出了论文的研究目标、研究内容和本文的组织结构。 第二章介绍了数据流超时研究的方法和实验经过,以及所得结论。 第三章进行了丢包影响评估指标体系研究,概述了利用指标进行评估研究的原理和方 法,详细介绍了各种指标的定义、测量( 计算) 方法、参数对比方法和意义。 第四章描述了丢包影响评估系统的设计实现过程,并详细刻画了t r a c e 管理、组流和影 响评判和结果管理等几个主要功能模块设计与实现的经过。 第五章阐述了评估方案的设计过程,它包括理论研究、实验流程设计、实验样本来源、 实验参数介绍等几个部分。利用第四章开发的评估系统对丢包影响进行了实验评估,并对实 验结果进行了分析,最终给出了评估结论。 第六章总结了论文的成果,并对未来的工作提出了展望和建议。 7 东南大学硕士学位论文 第二章流超时研究 2 1 流定义与流超时 “流”是一个逻辑概念,其定义并没有统一的标准。自1 9 8 8 年c l a r k 1 提出这个概念以 来,各种流定义层出不穷。究其原因,是由流测量不断发展所致。从协议角度看,流测量从 只针对t c p 报文发展成为需要涵盖所有传输层协议数据:从测量粒度角度看,流测量对象从 小型局域网发展为高速主干网。因为各种网络环境和都需要适合其测量要求的流定义,所以 流定义并没有一定之规。由于同一个数据包集合( t r a c e ) ,采取不同的流定义,会产生不 一样的流测量结果,因此,在研究丢包对流测量影响时,论文的首要任务就是要确定一种适 合当今高速主干网测量要求的流定义。这样,在统一标准下执行的各种评估实验结果才具有 可比性。 虽然流定义的种类繁多,但任何一种流定义都由两部分组成流规范和流中止机制。 流规范是指,进行流测量时需要被提取的报文信息,一般被称为“n 元组”,常用的有:五 元组( 源宿i p 地址、源宿端口号、传输层协议号) 、三元组( 源宿i p 地址、传输层协议号) 和一元组( 目的网络号) 等 1 】。和流规范相比,传统的流中止机制相对复杂,因此也难以 实现。如标准的t c p 数据流,其中止机制是识别f i n 或r s t 报文,但在实践中对每个报文去 识别它是否是f i n 或r s t 会消耗很多计算和存储资源,所以是很难做到的。而且,这种面向 t c p 的流中止机制,无法应用于不使用f i n 和r s t 报文的u d p 数据流。所以,人们尝试设计 一种实现简单、应用广泛的流中止机制。 k c c l a f f y 1 是此类研究的先行者,她率先提出了“n 元组+ 超时”的流定义,即对所有 协议的数据流采用统一的“超时”值,若某条流在该超时时间内没有新的报文到达,则被判 定为超时,这条流就会被中止。这种流中止机制实现简单并可应用于所有传输层协议,因此 c l a f f y 于1 9 9 4 年提出的“主干网数据流超时以6 4 秒为宜”的结论 1 】 2 】,很快被业界广泛接受 和应用。之后,网络测量界对流超时的研究,开始从固定流超时方式转向可变流超时方式, 即对每个流不是一视同仁的使用一个固定的流超时值,而是针对每个流不同的情况,给予不 同的流超时值,甚至同一个流在不同时间点上的流超时值也有所不同。b r y e 、d c h e n e y 8 】 等人提出的m b e t 算法是针对每个流都维护一个独立的超时,并根据此流的数据包到来时 间间隔,吞吐量等观测特性动态改变超时的大小,以适应流的变化。h o h n 、d v e i t c h 2 3 在 此基础上提出了利用不同的超时,如协议( 如t c p 的f i n 包) 和内存控制( 为新流准备空间 而结束存在一定时间的流) 等定义流的方式,但并没有对此作进一步的分析。这些超时策略, 特别是内存控制策略,一般需要和具体的网络测量相结合,在必要时为保证测量性能必须牺 牲其正确性。 在实践领域,c i s c o 路由器上采用的n e t f l o w 2 6 技术是典型的流测量应用。该技术制定 的流中止机制,包含四条规则:( 1 ) t e p 流出现f i n 或r s t 报文, ( 2 ) 以1 5 秒作为固定流超 时值,( 3 ) 流已经被创建超过3 0 分钟,( 4 ) 流记录缓存满。由此可见,在工程领域,被动 流测量仍偏重于使用固定流超时方式。实践证明,当网络测量粒度为高速主干网时,固定型 流超时方式相对于可变型,确实具有较大的优势,主要表现在:( 1 ) 固定式实现简单,对 测量设备的处理能力要求较低,因此面对高速主干网的大规模流量时,丢包较少;( 2 ) 由 于实现简单,固定式较容易做成硬件模块,进一步提高了处理速度( 3 ) 可变式相对于固定 式,其测量精度并没有明显提高。 8 第二章流超时研究 综上所述,在对高速主干网,进行流测量时,无论在科研领域还是工业实践中,人们都 倾向于采用固定流超时方式进行组流,因为其控制简单,实现方便。不过,c l a f f y 提出的“6 4 秒”结论,距今已有1 4 年,在这期间网络在包括带宽和应用在内的所有方面发生了非常大的 变化,6 4 秒是否仍然是合适的流超时时间? 另一方面,虽然参数的取值可以有时间局限性, 但确定这个参数的方法却不存在这方面的问题,因此,本文首先用c l a f f y 的方法,将其作用 于采集于c e r n e t 主干的近期的i pt r a c e ,以找出更合适的流定义的超时值。 2 2c l a f f y 的实验方法 2 2 1 实验方法 c l a f f y 1 】【2 研究流超时的实验方法为:对同一段t r a c e ,固定流规范,采用不同的流超 时值,分别组流,这样产生出的每个流集合之间的差异完全由超时值决定,从而可以将流集 合在各方面的表现作为超时值优劣的评估标准,最后通过综合考虑其在所有评估标准上的表 现,确定最优的流超时值。 除了在评估标准方面有所改进之外,本文使用的实验方法与c l a f f y 完全相同,采用的流 规范为“主机对”( h o s tp a i r ) ,考查的传输层协议含t c p 、u d p 和i c m p 三种,探索的流超 时值( 单位:秒) 包括区间【2 , 2 0 4 8 中所有2 的幂。 2 2 2 评估标准 评估标准,是由具体的基于流的研究和应用决定的。c l a f f y 的评估标准主要包括以下几 个方面: ( 1 ) 新流和活跃流个数 保存流信息的路由器相对于传统路由器有很多优势,如:报文转发快、拥塞控制合理等。 对于这种路由器来说,新流多意味着建立和销毁流信息的操作频繁,这会大量消耗c p u 资 源,还将导致“颠簸”问题( t h r a s h i n g ) 【l 】【2 】;而活跃流多意味着需要大量的内存资源来 维持流信息,从而导致查找流记录时间大大增加。所以,这种基于流的应用,其理想状态是 新流和活跃流的个数都少,若无法实现理想,则应选择两者相对平衡的状态。 ( 2 ) 流平均重建次数 很多基于流信息的研究,如:负载敏感路由( 1 0 a d s e n s i t i v er o u t i n g ) 9 】,需要长流( 1 a r g e f l o w ) 所占
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业生态修复与环境治理合作合同
- 外墙涂料买卖合同
- 生物技术基因工程知识题集及解析
- 化学工程与工艺专业基础试题集
- 六一儿童节探访活动方案
- 六一公司团建音乐活动方案
- 六一商城活动方案
- 六一孕妇店活动方案
- 六一抢牛奶活动方案
- 六一教育音乐活动方案
- 实验题(7大类42题)原卷版-2025年中考化学二轮复习热点题型专项训练
- CJ/T 362-2011城镇污水处理厂污泥处置林地用泥质
- 2025安全宣传咨询日活动知识手册
- DB31/T 1249-2020医疗废物卫生管理规范
- 四川省宜宾市翠屏区2025届数学七下期末综合测试试题含解析
- 乡镇合法性审查工作报告
- 宁波大学《通信原理》期末考试试题
- 生命体征监测技术操作考核评分标准
- 第三章混合策略纳什均衡ppt课件
- 粉尘浓度和分散度测定
- 一年级成长档案
评论
0/150
提交评论