(通信与信息系统专业论文)高速接入网络的流量识别特性研究.pdf_第1页
(通信与信息系统专业论文)高速接入网络的流量识别特性研究.pdf_第2页
(通信与信息系统专业论文)高速接入网络的流量识别特性研究.pdf_第3页
(通信与信息系统专业论文)高速接入网络的流量识别特性研究.pdf_第4页
(通信与信息系统专业论文)高速接入网络的流量识别特性研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(通信与信息系统专业论文)高速接入网络的流量识别特性研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电人学硕上论文 声明 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 : 本人签名:逛避同期: 2 卫血,z :勿 导师签名:7 殇e o k 一 同期:3 反阻j 一_ h l 北京邮电人学硕上论文摘要 高速接入网络的流量识别特性研究 摘要 近年来,随着互联网用户的快速膨胀和业务类型的多样化, i n t e m e t 业务呈爆炸性地增长,网络行为特征也日趋复杂,这给网络 规划、网络管理带来了巨大的挑战,因此进行网络流量分析进而成为 了当前网络研究的热点。而网络流量识别是网络流量测量分析的基 础,目前网络流量识别技术主要有基于端口和基于应用层协议标签两 种技术,这些技术分别具有实现简单或者准确性较高的优点,但是它 们也都存在着必须了解端口和协议标签具体数据以及不能识别加密 流量等难以克服的缺点。 网络流量识别技术是进行流量测量与分析的基础。如何识别和控 制不同业务的网络流量,并通过准确的流量特征、高效的分类算法和 合理的测量方案对网络流量实施测试、识别和分类是迫切需要研究解 决的重要课题。本课题是国家自然科学基金重点项目:“智能化光接 入网关键技术研究( 6 0 6 7 2 0 2 5 ) 的研究内容之一。因此,本文主要 针对高速接入网络的流量识别特性进行了较深入和全面的研究;提出 了基于机器学习的适合高速接入网络的流量识别算法和在高速网络 中的其他两种流量识别方法的比较与分析。其结果对高速接入网络的 流量识别的实际应用研究具有一定的理论指导意义和较重要的参考 价值。下面简要介绍本文所做的主要工作: 1 系统研究了国内外流量识别的发展情况,重点研究了基于机器 学习的流量识别的国际发展动态,分析了基于机器学习的流量识别的 优点; 2 系统研究了网络流量的主要特征以及这些特征对网络的影响, 论述了网络流量测量方法和指标体系; 3 分析网络流量识别的必要性,然后针对不同的网络流量识别 技术进行了比较分析,阐述了它们的优缺点以及流量识别技术的发展 北京邮电人学硕十论文摘要 趋势; 一 4 提出并实现了网络流量识别分析系统,并基于1 1 种有监督机器 学习算法,利用正确肯定率,c p u 占用率,建模时间,测试时间等多 项指标,对系统的性能进行了评估; 5 使用网络流量识别分析系统对我国宽带运营网络进行了测试, 测试表明决策树中的c 4 5 ,r a n d o m t r e e 算法,规则推理中的o n e r 算法, 贝叶斯分类中的b a y e s n e t 算法是适合于高速接入网络的流量识别; 本文是作者在研究生期间的理论学习和实际研发的总结,分为以 下六章: 第一章是论文的引言部分,主要对现有传统互联网的现状进行了 分析和描述,对网络流量工作的技术发展、必要性进行了阐述,从而 阐明了本论文研究的背景、意义、目标以及关键研究内容等; 第二章首先分析了网络流量的主要特征,包括自相似性、长相关 性和重尾性的特征以及这些特征对网络的影响;然后论述了网络流量 测量方法和指标体系,为论文的后续工作和方向做好了准备 第三章首先分析网络流量识别的必要性,然后针对不同的网络流 量识别技术进行了比较分析,阐述了它们的优缺点以及流量识别技术 的发展趋势; 一 第四章在以上章节对网络识别技术和算法研究与比较分析的基 础上,提出并实现了网络流量识别分析系统,基于1 1 种有监督机器学 习算法对系统进行了评估; 第五章使用网络流量识别分析系统对我国宽带运营网络进行了 测试,测试表明决策树中的c 4 5 ,r a n d o m t r e e 算法,规则推理中的o n e r 算法,贝叶斯分类中的b a y e s n e t 算法是适合于高速接入网络的流量识 别。 第六章总结了论文的主要成果和创新点,同时指出了论文中尚待 解决的问题并对下一步的研究工作进行了展望。 关键词高速接入网络流量识别机器学习数据挖掘 i i 北京邮电大学硕上论文 t h ec h a r a c t e rr e s e a r c ho ft r a f f i c i d e n t i f i c a t i o na l g o l u t h m si nh i g h s p e e d a c c e s sn e t w o r k a b s t r a c t i nr e c e n ty e a r s ,w i t ht h er a p i de x p a n s i o no fi n t e r n e tu s e r sa n dt h e d i v e r s i f i c a t i o no fs e r v i c et y p e s ,t h ei n t e r n e tb u s i n e s si s e x p l o s i v e l y i n c r e a s i n g a n dt h ec h a r a c t e r i s t i c so fn e t w o r kb e h a v i o ra r eb e c o m i n g g r a d u a l l yc o m p l e x i th a sb r o u g h te n o r m o u sc h a l l e n g e t ot h en e t w o r k p l a n n i n g a n dn e t w o r km a n a g e m e n t t h e r e f o r e ,t h en e t w o r kt r a f f i c a n a l y s i sb e c o m e sp o p u l a ri n t h en e t w o r kr e s e a r c h h o w e v e r , n e t w o r k t r a f f i ci d e n t i f i c a t i o ni st h eb a s i so ft h et r a f f i ca n a l y s i s n e t w o r kt r a f f i c i d e n t i f i c a t i o nt e c h n o l o g ym a i n l yc o t a i n st w ot e c h n o l o g i e sw h i c ha r e r e s p e c t i v e l yb a s e do nt h ep o r t a n dt h ea p p l i c a t i o nl a y e rp r o t o c o ll a b e l t h e s et e c h n i q u e sh a v et h ea d v a n t a g e so fh i g h e ra c c u r a c ya n ds i m p l e a c h i e v e m e n t b u tt h e yh a r d l yo v e r c o m et h es h o r t c o m i n g st h a tt h e ym u s t k n o wt h ep o r ta n dt h ed a t ao fp r o t o c o ll a b e la n dc a nn o ti d e n t i f yt h e c r y p t o g r a p h i ct r a f f i c t h ea l g o r i t h m sb a s e do nm a c h i n el e a r n i n g c a n o v e r c o m et h e s es h o r t c o m i n g s n e t w o r kt r a f f i ci d e n t i f i c a t i o n t e c h n o l o g y i st h eb a s i so ft r a f f i c i i i 厂 北京邮电大学硕十论文a b s t r a c t m e a s u r e m e n ta n da n a l y s i s h o wt oi d e n t i f y , c l a s s i f ya n dc o n t r o ln e t w o r k t r a f f i co ft h ed i f f e r e n t a p p l i c a t i o n sb ym e a n so fa c c u r a t et r a f f i c c h a r a c t e r i s t i c s ,a n de f f i c i e n tc l a s s i f i c a t i o n a l g o r i t h m ,a n dr e a s o n a b l e s o l u t i o ni sa nu r g e n ti m p o r t a n ts u b j e c tt h a tn e e d st ob es t u d i e da n ds o l v e d t h i sr e s e a r c hi so n ep a r to f “r e s e a r c ho fk e yt e c h n o l o g i e so fi n t e l l i g e n t o p t i c a l a c c e s s n e t w o r k ”p r o j e c t ( 6 0 6 7 2 0 2 5 ) w h i c hp e r t a i n s t ot h e s u b s i d i z a t i o no ft h en a t i o n a ln a t u r a ls c i e n c e sf u n d t h i sp a p e rm a i n l y g i v e saf u r t h e ra n dc o m p r e h e n s i v er e s e a r c ha b o u tt h ec h a r a c t e rr e s e a r c h o ft r a f f i ci d e n t i f i c a t i o n a l g o r i t h m s i n h i g h s p e e d a c c e s sn e t w o r k p r o p o s e d t r a f f i ci d e n t i f i c a t i o n a l g o r i t h m sw h i c hb a s e do nm a c h i n e l e a r n i n gf o rh i g h s p e e da c c e s sn e t w o r ka n do nt h eo t h e rt w ok i n d so f t r a f f i ci d e n t i f i c a t i o nm e t h o d sw h i c hw e r eu s e di nt h eh i g h s p e e dn e t w o r k w e r ec o m p a r e dw i t hle s e a r c ha n da n a l y s i s w ew i s hi ts h o u l db eo f i m p o r t a n c et ot h ed e v e l o p m e n ta n dr e s e a r c ho nt r a f f i ci d e n t i f i c a t i o no f h i g h - s p e e da c c e s sn e t w o r k c o m b i n i n gt h e o r ys t u d ya n ds i m u l a t i o n ,t h e w r i t e rh a sd o n et h ef o l l o w i n gw o r k : 1 s t u d i e dt h ei n t e r n a la n da b r o a dd e v e l o p m e n ti n s t a n c e so ft r a f f i c i d e n t i f i c a t i o ni nd e t a i l ,a n dd e e p l ys t u d i e dt h ei n t e r n a t i o n a lt r e n d so f t r a f f i ci d e n t i f i c a t i o nw h i c hb a s e do nm a c h i n el e a r n i n g a n a l y z e dt h e a d v a n t a g e o ft h et r a f f i ci d e n t i f i c a t i o nw h i c hb a s e do nm a c h i n el e a r n i n g 2 t h i sd i s s e r t a t i o nr e s e a r c h e di n t ot h ec h a r a c t e r so ft r a f f i c i d e n t i f i c a t i o n ,d i s c u s s e dt h em e t h o d so fn e t w o r kf l o wm e a s u r e m e n ta n d i v 北京邮电大学硕卜论文 i n d e xs y s t e m ; 3 a n a l y z e dt h en e c e s s i t y o fn e t w o r kt r a f f i c r e c o g n i t i o n ,t h e n c o m p a r e d t h ed i f f e r e n c eo fn e t w o r kf l o wr e c o g n i t i o nt e c h n o l o g i e s , e x p o u n d e d t h e a d v a n t a g e s a n d d i s a d v a n t a g e s o ft h e ma n dt h e d e v e l o p m e n tt r e n do ff l o wr e c o g n i t i o nt e c h n o l o g y ; 4 p r o p o s e da n di m p l e m e n t e dn e t w o r kt r a f f i ci d e n t i f i c a t i o na n a l y s i s s y s t e mw h i c hi s b a s e do nn e t w o r ki d e n t i f i c a t i o na n dt h ea n a l y s i so f a l g o r i t h m si nt h el a s tp a r t ,a n dt h eu s eo f1 1k i n d so fs u p e r v i s e dm a c h i n e l e a r n i n ga l g o r i t h mt oe v a l u a t et h es y s t e m ,a n du s e dm a n yi n d i c a t o r st o t e s tt h eb r o a d b a n dn e t w o r k :f o re x a m p l e ,t h ec o r r e c tr a t eo fa f f i r m a t i o n , c p u ,m o d e l i n g o ft i m e ,t h et e s t i n gt i m ea n ds oo n ; 5 t h r o u g ht h ee x p e r i m e n t a la n a l y s i s ,w ec o m et ot h ec o n c l u s i o n t h a tc 4 5a n dr a n d o m t r e ea l g o r i t h mb a s e do nd e c i s i o nt r e ei n d u c t i o n , o n e ra l g o r i t h mb a s e do nr u l e b a s e dr e a s o n i n ga n db a y e s n e ta l g o r i t h m b a s e do nb a y e sc l a s s i f i c a t i o na r es u i t a b l et ob eu s e dt om a k et r a f f i c i d e n t i f i c a t i o ni nb r o a d b a n dn e t w o r k t h i sa r t i c l ei ss u m m a r yo ft h ew r i t e r st h e o r ys t u d ya n dp r a c t i c a l r e s e a r c hd u r i n gb e i n gag r a d u a t es t u d e n t ,i n c l u d i n gf i v ep a r t s : t h e1 s t p a r ta n a l y z e d a n dd e s c r i b e dt h ec u r r e n ts i t u a t i o no f t r a d i t i o n a li n t e m e t ,d e s c r i b e dt h et e c h n i c a ld e v e l o p m e n ta n dn e c e s s i t yo f n e t w o r kt r a f f i cw o r k ,e x p o u n d e dt h eb a c k g r o u n d ,s i g n i f i c a n c e ,t h eg o a l a n dt h ek e yc o n t e n to ft h i sp a p e r ; v 北京邮电人学硕士论文a b s l l r a c t t h e2 n dp a r tr e s e a r c h e di n t ot h ec h a r a c t e r so ft r a f f i ci d e n t i f i c a t i o n , i n c l u d i n gs e l f - s i m i l a r i t ya n dl o n g ,h e a v yt a i l ,a n dt h e s ef e a t u r e so nt h e n e t w o r k ,d i s c u s s e dt h em e t h o d so fn e t w o r kf l o wm e a s u r e m e n ta n di n d e x s y s t e m ,p r e p a r e ds u b s e q u e n tw o r ka n dd i r e c t i o nf o rp a p e r ; t h e3 r dp a r ta n a l y z e dt h en e c e s s i t yo fn e t w o r kt r a f f i cr e c o g n i t i o n , t h e nc o m p a r e dt h ed i f f e r e n c eo fn e t w o r kf l o wr e c o g n i t i o nt e c h n o l o g i e s , e x p o u n d e d t h e a d v a n t a g e s a n d d i s a d v a n t a g e s o ft h e ma n dt h e d e v e l o p m e n tt r e n do ff l o wr e c o g n i t i o nt e c h n o l o g y ; t h e4 t h p a r tp r o p o s e d a n d i m p l e m e n t e d n e t w o r kt r a f f i c i d e n t i f i c a t i o na n a l y s i ss y s t e mw h i c hi sb a s e do nn e t w o r ki d e n t i f i c a t i o n a n dt h ea n a l y s i so fa l g o r i t h m si nt h el a s tp a r t ,a n dt h eu s eo f11k i n d so f s u p e r v i s e dm a c h i n el e a r n i n ga l g o r i t h mt oe v a l u a t et h es y s t e m ,a n du s e d m a n yi n d i c a t o r st ot e s tt h eb r o a d b a n dn e t w o r k :f o re x a m p l e ,t h ec o r r e c t r a t eo fa f f i r m a t i o n ,c p u ,m o d e l i n go ft i m e ,t h et e s t i n gt i m ea n ds oo n ; t h e5 t hp a r tt h r o u g ht h ee x p e r i m e n t a l a n a l y s i s ,w ec o m et ot h e c o n c l u s i o nt h a tc 4 5a n dr a n d o m t r e ea l g o r i t h mb a s e do nd e c i s i o nt r e e i n d u c t i o n ,o n e ra l g o r i t h mb a s e d o nr u l e b a s e d r e a s o n i n g a n d b a y e s n e ta l g o r i t h mb a s e do nb a y e sc l a s s i f i c a t i o na r es u i t a b l et ob eu s e d n t sa n di n n o v a t i o no f p a p e ra n dp r o s p e c t e d 北京邮电人学硕1 二论文 k e yw o r d s :h i g h - s p e e da c c e s s n e t w o r k ;t r a f f i ci d e n t i f i c a t i o n ; m a c h i n el e a r n i n g ;d a t am i n i n g 北京邮电大学硕上论文 目录 摘要l 目录i 第一章绪论1 1 1 课题研究背景及意义1 1 2 国内外研究现状。2 1 3 论文的主要研究内容。3 1 4 论文组织结构。3 1 5 本章小结4 第二章网络流量识别概述5 2 1 引言。5 2 2 网络流量的主要特征5 2 2 1 自相似性5 2 - 2 2 长程相关性6 2 2 3 尺度分布6 2 2 4 网络流量特征对网络性能的影响7 2 3 网络流量的测量8 2 3 1 指标体系8 2 3 2 测量方法9 2 4 网络流量识别技术现状1 0 2 5 小结1 2 第三章网络流量识别技术分析与比较1 3 3 1 流量识别技术分析1 3 3 1 1 基于端口号的流量识别技术1 3 3 1 2 基于特征字段的流量识别技术1 4 3 1 3 基于传输层的流量识别技术1 7 3 2 流量识别技术的比较2 0 3 3 小结:。2 1 第四章基于机器学习的网络流量识别系统实现2 3 4 1 基于机器学习的网络流量识别的算法概述2 3 4 1 1 决策树二2 3 4 1 2 规则推理2 4 4 1 3 贝叶斯分类2 4 4 1 4 最近邻分类2 5 4 1 5 神经网络2 6 4 2 网络流量识别系统的实现2 7 4 2 1 网络流量识别分析系统框架:2 8 4 3 网络流量识别系统的评估。2 9 4 3 1 评估方法2 9 4 3 2 网络流量识别系统的评估3 1 4 4 小结3 4 第五章适合高速网络中的流量识别分类算法3 5 5 1 网络流量识别算法实验分析3 5 5 1 1 数据采集;3 5 5 1 2 网络流量识别算法测试方法3 5 5 2 测试结果与分析3 6 5 2 1 特征选择3 6 5 2 2 各评估指标测试结果3 8 5 2 3 实验结果分析3 9 5 3 小结4 0 第六章结束语4 1 6 1 结束语4 1 6 2 展望4 2 参考文献4 3 附录1 流量特征表4 7 附录2 流量识别分析软件工具介绍- w e k a 4 9 蜀【谢。5 3 攻读学位期间发表或已录用的学术论文5 4 i v 1 1 课题研究背景及意义 第一章绪论 i n t e m e t 是当前全球最大的、最开放的、以t c p i p 协议族为核心的、由众多 网络互连而成的计算机网络。它的发展可追溯到7 0 年代中期美国国防部高级研究 计划署a r p a ( a d v a n c e dr e s e a r c hp r o j e c t a g e n c y ) 为实现异种网络之间的互联 ( i n t e r c o n n e c t i o n ) 与- f f j 嗵( i n t e r c o m m u n i c a t i o n ) 建立的a r p a n e t 试验网。当时 a r 啪t 仅是一个用5 0 k b p s 线路连接着几十台计算机,并使用网络控制协议 n c p ( n e t w o r kc o n t r o lp r o t o c 0 1 ) 传输数据的小型网络。 2 0 世纪7 0 年代末,随着大规模集成电路( l s i ) 技术的发展,大量小型和微型 计算机开始涌现,局域网( l 蛾) 技术也发展起来,这样就产生了小型和微型机与 远程主机相互通信的需求。为此,a r p a 开始了一个称为i n t e r n e t 的研究计划,主 要研究如何将各种局域网和广域网( 互连起来。1 9 7 3 年a r p a n e t 扩展成国 际互联网,第一批接入的有英国和挪威计算机。1 9 7 4 年r p a 的b o bk a n e 和s t a n f o r d 的w e d e nz e f e n 合作提出了称为网际协议i p 年t l 传输控制协议t c p 的两个协议,使不 同的计算机及网络可以相互通信。以这两个协议为核心,以a r p a n e t 为主干, 许多不同的网络开始相互互连,构成了i n t e m e t 的原型。a r p a n e t 的主要特点是 实现了资源共享、分散控制、分组交换和分层网络协议,这些特点被认为是现代 计算机网络的一般特征,被其后的网络设计广泛采用。 j进入8 0 年代,随着a r p a 将a r p a n e t 各站点的通讯协议全部转为t c p i p ,标 志着全球i n t e m e t 的正式诞生,t c p i p 也广为流传开来。之后,i n t e r n e t 规模呈指 数增长。我国i n t e r n e t 的发展较晚,但却十分迅速。随着近年来i n t e m e t 持续高速 的发展,各种新的网络应用与需求层出不穷,网络业务也由传统的w w w 、f t p 和e m a i l 等应用逐步向包括语音、流媒体和数据等在内的综合业务及增值服务发 展,v o l p 、在线游戏、视频会议、v o d 点播、网上购物、电子银行和网上炒股等 实时业务己经在i n t e r n e t 得到广泛应用。中国互联网络信息中一i 二, ( c n n i c ) 在2 0 0 8 年7 月发布的第2 2 次中国互联网络发展状况统计报告数据显示:截至2 0 0 8 年6 月底,中国网民数量达到2 5 3 亿人,中国网民规模己跃居世界第一位。比去年同 期增长了9 1 0 0 万人,在2 0 0 8 年上半年,中国网民数量净增量为4 3 0 0 力人。网络国 际出口带宽总数达至u 4 9 3 7 2 9 m b p s ,目前网络音乐、网络新闻、即时通信、网络 视频、搜索引擎、电子邮件、网络游戏、博客个人空间、论坛b b s 和网络购物 成长为排名前十位的网络应用,这十大网络应用中,三大娱乐类网络应用网 络音乐、网络视频和网络游戏都分列其中,娱乐仍旧是中国网民的主要互联网活 动之一。从上网设备来分析,台式机仍为目前上网设备的主流,有8 7 3 的网民 使用台式机上网。与此同时,笔记本电脑和手机已经成为网民的重要选择,分别 有约3 成的网民使用这两种设备上网。上网设备在2 0 0 8 年上半年的变化趋势很明 显,台式机的使用比例在下降,笔记本和手机的使用比例在上升。互联网已经发 展成为国内增长最快、市场潜力最大的产业之一,而用户对当前互联网网络速度 的满意程度不高,口网络的服务质量- ( q o s ) 、可靠性和效率成为用户主要关心的 问题。 1 2 国内外研究现状 近年来,随着互联网用户的快速膨胀和业务类型的多样化,i n t e r n e t 业务呈 爆炸性地增长,网络行为特征也同趋复杂,这给网络规划、网络管理带来了巨大 的挑战,因此进行网络流量分析进而成为了当前网络研究的热点。而网络流量识 别是网络流量测量分析的基础,目前网络流量识别技术主要有基于端口和基于应 用层协议标签两种技术,这些技术分别具有实现简单或者准确性较高的优点,但 是它们也都存在着必须了解端口和协议标签具体数据以及不能识别加密流量等 难以克服的缺点。 文蒯1 i 中r o u g h a n 采用最近邻和线性判别分析的万法,连接持续时间和平均 包的大小作为流量分类的特征属性,并采用b a y e s 的方法进行分类。他的缺点是 获得的准确度很低。这些方法的关键点只在于针对给定类别的流量数据,如何提 高分类器的准确度,而无法发现新的应用模式,所以这类方法的应用有很大的局 限性。 。 文献【2 l 设计的是基于传输层主机行为模式识别各种业务应用的技术,不易受 到网络动态的影响,但其缺点是准确性易受到诸如n a t 等端口与i p 地址转换技术 的干扰,另外该方法留有漏洞使攻击者容易设计新协议逃避这种分类技术。s 。z a n d c r 等人采用了a u t oc l a s s 的方法,并通过特征选取技术来选取较优的流量属性 集,并评定不同的特征集对结果的影响。为了验证其方法的有效性,使用了从不 同的网络位置收集的流量来进行评估,获得的平均准确率为8 6 5 。然而该方法 在选取数据时,排除了所有传输包的个数少于3 的流,这在某种程度上也会提高 2 其分类的准确性,并降低泛化能力。 一 文献【3 】中j e r m a 等人采用无监督的方法e x p e c t a t i o nm a x i m i z a t i o n ( e m ) 来 识别不同应用的网络流量,并采用五个流量统计特征来标志每个连接。通过与 b a y e s 的分类方法进行比较,获得了更为准确的分类结果。该方法的缺点是训练 时间较长。 文献【4 i q a l b e m a i l l e 等人并不根据上述的五元组的属性来对网络流量进行分 类并识别应用,提出了采用每个t c p 流的前五个数据包的大小来标志不同的应 用,并尽可能早地识别出流量的应用类型,而不是等到传输结束后再确定其应用 类型。文献【5 】将流量分类机制分为两个阶段,即离线学习和在线分类。离线学习 阶段采用k - m e a n s 方法对原始的流量进行划分,并给出每个簇的描述和其所属的 应用类型;在线分类阶段根据学习的知识确定新的流量所属的应用类型。通过实 验评估,最高的准确率可达9 6 9 2 。但是该方法的局限性在于,如果数据包没有 按序传输,或者两个应用的前五个数据包有着相同的大小时,其准确度会有大幅 度的下降。 1 3 论文的主要研究内容 : 本文的主要研究内容包括: 1 、针对不同的主流识别技术进行了比较分析,阐述了它们的优缺点以及发 展趋势; 载 2 、提出并实现了网络流量识别分析系统,网络流量识别分析系统的实现为 掌握网络运行情况,进行异常流量监测,分析和控制各种业务流量,以及为网络 优化、网络规划和网络安全提供了一个新型的网络性能评估工具; 3 、基于1 1 种有监督的机器学习算法,利用j 下确肯定率、建模时间、测试时 间、c p u 利用率等多项指标,对系统的性能进行了评估,系统能够对业务流量进 行成功地识别与分析,通过实验结果分析出适合高速接入网络的流量识别算法。 1 4 论文组织结构 本论文的研究工作紧扣上述发现的问题和相关内容而展开,整个论文共分为 五章,论文的各章之间具有较为紧密的内在逻辑关系,具体的组织情况以及各章 的内容概括如下: 1 、第一章是论文的引言部分,主要对现有传统互联网的现状进行了分析和 3 描述,对网络流量工作的技术发展、必要性进行了阐述,从而阐明了本论文研究 的背景、意义、目标以及关键研究内容等; 2 、第二章首先分析了网络流量的主要特征,包括自相似性、长相关性和重 尾性的特征以及这些特征对网络的影响:然后论述了网络流量测量方法和指标体 系,为论文的后续工作和方向做好了准备; 3 、第三章首先分析网络流量识别的必要性,然后针对不同的网络流量识别 技术进行了比较分析,阐述了它们的优缺点以及流量识别技术的发展趋势; 4 、第四章在以上章节对网络识别技术和算法研究与比较分析的基础上,提 出并实现了网络流量识别分析系统,基于1 1 种有监督机器学习算法对系统进行了 评估; 5 、第五章使用网络流量识别分析系统对我国宽带运营网络进行了测试,测 试表明决策树中的c 4 5 ,r a n d o m t r e e 算法,规则推理中的o n e r 算法,贝叶斯分 类中的b a y e s n e t 算法是适合于高速接入网络的流量识别: 6 、第六章总结了论文的主要成果和创新点,同时指出了论文中尚待解决的 问题并对下一步的研究工作进行了展望。 1 5 本章小结 本章主要介绍了论文研究的背景、作者的主要研究工作,论文所关注的主要 研究内容、论文的主要贡献、论文解决了哪些问题和应用价值,以及论文的结构 组织,提出了论文的研究思路和概览了整个论文的主要内容、主要研究成果。 4 2 1 引言 第二章网络流量识别概述 随着近年来i n t e r n e t 持续高速的发展,各种新的网络应用与需求层出不穷, 口、在线游戏、视频会议、v o d 点播、网上购物、电子银行和网上炒股等实时 业务己经在i n t e r n e t 得到广泛应用;同时网络用户数量也呈指数增长、网络规模 飞速膨胀,但是非关键业务的泛滥导致运营网络的带宽资源被大量地消耗,影响 了其它一些关键业务的正常开展,降低了网络性能,用户没有得到相应的服务质 量,运营商也没有得到利润。因此,必须通过有效的技术手段,管理和控制网络 中的各种业务流量,为不同应用分配合理的带宽资源,提供不同级别的服务质量 保障,是当前网络运营中面临的主要挑战之一。 然而传统的网络流量分析技术面临巨大的挑战,因此加强网络流量的测量与 分析成为了人们关注的热点。而网络流量识别是网络流量测量的基础,这样可以 对网络上纷繁复杂的流量有个更加清晰的认识;它对于网络规划、网络故障检测、 网络使用记账收费甚至异常流量监测、网络流量预测等都具有比较重要的价值; 网络管理者可以利用流量监测和分析的结果来进行性能管理、故障管理、安全管 理的研究;同时它更加完善了流量分析理论,对于推动网络管理理论的研究也具 有十分重要的作用。 2 2 网络流量的主要特征 在网络流量研究历史上,人们先后提出了自相似性、长程相关性、尺度性等 几个含义非常接近但又存在明显区别的概念。这些概念不仅反映了网络流量特征 的不同侧面,而且也折射出研究者对网络流量的认识逐步深化的过程。通过对这 几个主要概念的分析和比较,将能够在以往研究成果的基础上,对网络流量的特 征有一个比较全面的把握。 一 2 2 1 自相似性 自相似性是当前人们认识到的网络流量最重要的特征之一。作为自然界普遍 s 存在的一种现象,自相似性是指客观事物在不同的空间或时间尺度上,具有相同 或者相似的特征。这个特征可以是几何形状,可以是某个统计量,也可以是其它 可以标度的任何物理量。它有两个典型的特性:一是它在任意小尺度上都有结构, 二是各个尺度上结构是重复的1 5 j 。 自然现象的自相似性有强弱之分,其强弱程度用h u r s t 参数来表示( 一般简记 为m ,该参数是以水利学家h e h u r s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论