




已阅读5页,还剩80页未读, 继续免费阅读
(计算机应用技术专业论文)网络流量识别模型的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
己li j 10 王 一 鼻7厦覃i 独创性声明 l 删嬲 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:盏盏蔓z日期:卅b 年岁月纠日 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 日期:沙口年,月叫e l i罩- 争 争 0 i 卜 1 , j 摘要 摘要 上世纪九十年代中期互联网进入我国以来,业务发展如火如茶,虽然经历过 坎坷,但毕竟给人类带来了全新的通信工具和方式。基于互联网的应用的增长, 网络流量急剧膨胀。应用的发展也伴随着更多的威胁,网络质量与网络安全受到 了越来越多的关注。网络流量识别与分类技术变得越来越重要,它是网管管理、 网络安全以及服务质量保证的重要基础,研究流量识别与分类技术,提高流量识 别与分类的速度、准确度以及能够准确识别未知流量的能力变得尤为重要。 本文中综述了流量识别的原理、关键技术与监测方法。提出自己的研究方法, 并对本文提到的方法做了验证。本文的研究内容与研究成果如下: 1 根据前人研究,结合目前的英特网应用情况,将流量分成多种类别。 2 全面深入分析英特网中广泛使用到的网络协议,分析的内容包括协议的描 述文档,通过抓包软件抓取的原始协议数据包,从中得出各类网络流量的 共同特征,或者某一类中一种应用的协议或者流量特征。将这些特征归纳 起来设计数据结构,存储流量特征,为流量识别做好准备。 3 改进基于端口识别流量的方法。通过协议分析过程中得出的结论,知道某 些以往可以以端口来分析的流量类型,目前应用的变化。通过一些附加的 特征来确认流量类型。 4 对于最新的一些没法使用端口识别的应用,分析它的有效载荷中包含的特 征信息,通过基于有效载荷的方法来识别这些流量。在第三章我们分析近 几年突起的新的应用,它们占到了网络流量的很大比例。它们无法用端口 法识别,有必要分析它们的有效载荷,在有效载荷中提取特征。 5 将贝叶斯神经网络,k - m e a n s 算法的学习功能,应用到网络流量的识别中。 通过事先标记的流量样本,并选择一组流量特征进行学习,通过学习后的 贝叶斯神经网络来对流量进行识别。它不但能够识别已知的流量,而且还 能够对未知的应用产生的流量进行分类。 6 通过将基于端口,基于有效载荷,基于机器学习的方法融合起来,达到了 互补的效果,确实有效的提高了识别率与识别的准确率。 关键字:流量识别、流量分类、协议特征分析、识别引擎 6 7 僵 0 - a k , j h a b s t r a c t a b s t r a c t s i n c et h ei n t e r n e te n t e r e dc h i n ai n1 a s tm i d n i n e t i e s ,i t sb u s i n e s sd e v d o p e di nf u l l s w i n g ,a l t h o u g hi te x p e r i e n c e du p sa n dd o w n s ,b u ta f t e ra 1 1 ,h a sb r o u g h tt om a n k i n da n e wc o m m u n i c a t i o nt o o l sa n da p p r o a c h e s i n t e r n e t - b a s e da p p l i c a t i o n sg r o w sr a p i d l y l i k ea l le x p l o s i o n ,c a u s e dar a p i de x p a n s i o no fn e t w o r kt r a f f i c a p p l i c a t i o nd e v e l o p m e n t i sa c c o m p a n i e db yt h et h r e a t e n ,n e t w o r kq u a l i t ya n dn e t w o r ks e c u r i t ya leg r o w i n g c o n c e r n e db yu s e r s n e t w o r kt r a f f i ci d e n t i f i c a t i o na n dc l a s s i f i c a t i o nt e c h n i q u e sh a v e b e c o m ei n c r e a s i n g l yi m p o r t a n t ,i ti sa ni m p o r t a n tb a s i s f o rn e t w o r km a n a g e m e n t , n e t w o r ks e c u r i t y , a n dq u a l i t yo fs e r v i c e 。r e s e a r c ht r a f f i ci d e n t i f i c a t i o na n dc l a s s i f i c a t i o n t e c h n o l o g yt oi m p r o v et h ei d e n t i f i c a t i o na n dc l a s s i f i c a t i o ns p e e d ,a c c u r a c ya n dt h e a b i l i t yt oa c c u r a t e l yi d e n t i f yt h eu n k n o w nt r a f f i cc a p a c i t yi sb e c o m i n gp a r t i c u l a r l y i m p o r t a n t t h i s p a p e rp r o v i d e s a no v e r v i e wo ft h et r a f f i c r e c o g n i t i o np r i n c i p l e s ,k e y t e c h n o l o g i e s a n d m o n i t o r i n gm e t h o d o l o g i e s i n c o n j u n c t i o n w i t ht h er e s e a r c h b a c k g r o u n di nt h i sf i e l d ,p r e s e n tm yo w nr e s e a r c hm e t h o d s ,a n dv a l i d a t et h em e t h o d m e n t i o n e di nt h i sp a p e r t h i sr e s e a r c hc o n t e n ta n dr e s u l t sa r ea sf o l l o w s : 1 a c c o r d i n gt op r e v i o u sr e s e a r c h ,c o m b i n i n gw i mi n t e m e ta p p l i c a t i o ns t a t u s , d i v i d et h ei n t e r n e tt r a f f i ci n t om a n yc l a s s e s 2 f u l l ya n dd e e p l ya n a l y z ew i d e l yu s e dn e t w o r kp r o t o c o l,a n a l y z e c o n t e n t i n c l u d e sp r o t o c o ld e s c r i p t i o nd o c u m e n t s ,r a wd a t ap a c k e tc a p t u r e db ys o m ec a p t u r e s o f t w a r el i k ee t h e r e a l d r a w nc o l i l m o nf e a t u r e so ft h ee a c hc l a s so fn e t w o r kt r a f f i c ,o ra c e r t a i nt y p eo fa i la p p l i c a t i o np r o t o c o l ,o rf l o wf e a t u r e s a n dt oe n s u r et h a tt h e s e c h a r a c t e r i s t i c sc a nb ea c c u r a t e l yi d e n t i f yt h et y p eo ft r a f f i c t os u mu pt h e s ef e a t u r e sf o r t h ef l o wi d e n t i f i c a t i o n 3 i m p r o v i n g t h ep o r t - b a s e di d e n t i f i c a t i o nm e t h o d b yt h ec o n c l u s i o n so ft h ea n a l y s i s p r o c e s s ,f i g u r eo u tt h ef l o w sw h i c hu s e dt ob e i d e n t i f i e db yp o r tn u m b e r , b u tc u r r e n t l y c h a n g e d t h r o u g ha n u m b e ro fa d d i t i o n a lc o n d i t i o n st oc o n f i r mt h ec l a s so ft r a f f i c 4 f o rs o n i co ft h e1 a t e s ta p p l i c a t i o n sw h i c hc a nn o tb ec l a s s i f i e db yp o r t - b a s e d m e t h o d ,a n a l y z e i t s p a y l o a d w h i c hi n c l u d e dt h e c h a r a c t e r i s t i c s ,b yu s i n g u , - a b s t r a c t i n f o r m a t i o n - b a s e dp a y l o a da p p r o a c ht oi d e n t i f yt h e s ef l o w s i nc h a p t e ri i i w e 锄a l y z e s o m en e wa p p l i c a t i o n sw h i c ha c c o u n t e df o ra l a r g ep r o p o r t i o no f n e t w o r kt r a f f i ci n r e c e n ty e a r s 。f o rs o m ef l o w st h o s ec a n n o tb ec l a s s i f i e db yp o r t - b a s e dm e t h o d ,i ti s n e c e s s a r yt oa n a l y z et h e i rp a y l o a d sa n dd r a wf e a t u r e sf r o mt h e i rp a y l o a d s 5 1 1 1 eb a y e s i a nn e u r a ln e t w o r kl e a r n i n gf u n c t i o na p p l i e dt o t h ei d e n t i f i c a t i o no f n e t w o r kt r a f f i c p r e - l a b e lt h e s a m p l e s ,a n ds e l e c tas e to ff l o wc h a r a c t e r i s t i c sf o r l e a r n i n g ,u s el e a r n e db a y e s i a nn e u r a ln e t w o r kt oi d e n t i f yt h et r a f f i c i tc a l li d e n t i f yn o t o n l yt h ek n o w nt r a f f i c ,b u ta l s ot h et r a f f i cg e n e r a t e db yt h eu n k n o w nc l a s s i f i c a t i o n 6 b yi n t e g r a t i n gp o r t - b a s e d ,p a y l o a d - b a s e d ,m a c h i n el e a r n i n gb a s e dm e t h o d s ,t o a c h i e v eac o m p l e m e n t a r ye f f e c t , i ti n d e e de f f e c t i v e l yi m p r o v et h er e c o g n i t i o nr a t ea n d r e c o g n i t i o na c c u r a c y k e y w o r d s :f l o wr e c o g n i t i o n 、f l o wc l a s s i f i c a t i o n 、p r o t o c o lf e a t u r e sa n a l y z e 、 r e c o g n i t i o ne n g i n e i l l - - 第一章引言 1 1研究目的与意义 1 2 研究背景 1 2 1概述 1 2 2 协议分析与特征提取 1 3本文的主要研究工作 1 4论文组织结构 第二章流量识别技术综述。 2 1 基于端口的方法 2 2 基于有效载荷的方法 2 3 基于机器学习的方法 2 3 1 有监督的学习算法。 2 3 2 无监督的学习算法 2 3 3 算法性能比较 第三章协议特征分析 3 1 协议特征分析方法 3 2 协议特征分析环境 3 3 协议特征分析过程 3 3 1b u l k 类型 3 3 2 数据库流量一 3 3 3 邮件流量识别 3 3 4 服务流量 3 3 5w w w 流量 3 3 6p 2 p 流量 3 3 7 网络攻击流 3 3 8 游戏流 3 3 9 多媒体流 3 4 总结协议特征分析结果 目录 第四章流量获取方法研究3 6 4 1流量获取方法比较3 6 4 1 1l i b p c a p 3 7 4 1 2w i n p c a p 3 8 4 1 :;t c p d u m p w i n d u m p 4 1 4 1 4 流量获取方法选择4 2 4 2 流量协议特征选择与数据结构设计4 2 4 2 1 协议特征选择4 2 4 2 2 数据结构设计4 3 4 3 流量获取模型设计4 5 4 3 1 流量获取流程4 5 4 3 2 流量获取过程中使用到a p i 4 6 4 4 流量获取实验4 9 4 4 1实验环境4 9 4 4 2 实验与结果分析4 9 第五章流量识别模型的实现5 1 5 1 流量识别模型总体结构设计5 1 5 1 1 设计思想与设计目的5 1 5 1 2 总体框架设计5 1 5 2 各模块实现5 4 5 2 1 高级端口识别引擎5 4 5 2 2 有效载荷识别引擎5 5 5 2 3 机器学习识别引擎5 7 5 2 4 各识别引擎间的关系5 8 5 3 流量识别分析5 9 5 3 1 实验环境5 9 5 3 2 实验数据5 9 5 3 3 实验结果分析6 0 5 4 本章小结6 6 第六章结束语6 8 6 1 论文的主要成果、创新点与不足6 8 6 2 未来的研究工作6 9 v 目录 致谢 参考文献 攻硕期间取得的成果 v i 戏和闪游,以及其他网页娱乐内容层出不穷,这类游戏容易上手而且只要能够打 开网页就能玩上 2 1 。很多上班族迷恋这些游戏,影响了正常的工作,给一些公司造 成了一定的损失。根据目前网络的现状,对于网络流量的识别与控制的技术的研究 具有很重要的现实意义。本文将重点对网络流量识别技术进行研究,提出一套网 络流量识别模型,使其不仅对传统流量具有较高的识别率,而且对于新兴的流量 也要有一定的识别能力,同时对于未知流量也要具有一定的估判能力。 1 2 研究背景 1 2 1概述 网络流量识别技术是通过截获网络数据包,通过分析数据包的包头m 3 ,载荷口1 , 特征进程嘲以及数据流特征拈1 等等来判定流量的类型的一种技术。根据目前网络的 应用情况,结合以前研究人员对网络流量的分类,本文中将网络流量大致分为以 电子科技大学硕士学位论文 下表卜1 的类别: 表1 - 1 流量分类 编号分类名称应用事例 1块数据流量 邱 2数据库流量 s q l s e r v e r , m y s q l ,o r a c l ep o s t g r e s 3邮件流量i m a p 、p o p 3 、s m t p 4服务流量d n s 、d h c p 、n t p 5 w n h t t p ,h t t p s b i t t o r r e n t ,t h u n d e r , e m u l e ,b i t s p i r i t e ,p p l i v 6p 2 p 流量 e , q q l i v e ,p p s t r e a m ,t v a n t s ,c c t v r e g ,s o p c a s t 蠕虫、病毒攻击、拒绝服务攻击、分布式 7网络攻击流量 拒绝服务攻击 8游戏流量m i c r o s o rd i r e c tp l a y ,a m f 3 9多媒体流量r t s p ,f l v ,w i n d o w sm e d i ap l a y e r 1 0其他流量无法识别的流量 本文的主要工作就是通过对上述各种类别流量的协议进行分析,总结出各种 流量的特征。设计一个流量识别系统的模型,该模型中包含了多个流量识别引擎, 每一种识别引擎都是一种识别方法的改进型的实现,整个流量识别模型能够将获 取到的流量按照一定的规则选择识别引擎来进行识别,不能被当前引擎识别的流 量会被递交给其他识别引擎,直到所有引擎都被使用到或者流量已经被识别完成, 所有的流量都将会被划分到上表中的一类中。通过这种方式整合了多个流量识别 的方法,能够很有效的提高流量的识别率,具有很重要的意义。 1 2 2 协议分析与特征提取的必要性 对于每一类流量,拥有多种应用,对于多种应用有着共同的特征,通过对特 征的提取,就可以实现对流量的识别。网络流量有多种特征,有的流量可以一个 单一的特征就可以识别,有的则需要多个特征才能够确定类型。比如说对于在i a n a 端口列表中注册的端口号的应用的流量就直接可以通过端口来进行识别,又比如 说有些p 2 p 的流量可以直接通过有效载荷的某些特定字段就可以识别。但是直接 用端口8 0 可以识别h t t p 流量,但是却没法识别h t t p 流量中可能存在的流媒体 ( f l y ,w i n d o w sm e d i av i d e o ,r e a l ) ,也没法识别网页游戏流量。有效载荷被加密 的时候通过有效载荷识别的方法也将失效。所以分析流量协议的特征,通过多个 l _ - _ _ _ _ - 。_ _ _ - - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ _ _ 。_ - 一 2 第一章引言 特征组合的方式来识别流量将可以解除以前的识别方法所存在的弊端。 1 3 本文的主要研究工作 本论文研究的主要内容是在高带宽高流量的条件下,对已知的和未知的网络 流量的识别与分类的技术。网络流量的识别与分类技术是一种分析网络流量的特 征确定其属于何种应用的技术。随着计算机网络技术的飞速发展,基于计算机网 络的应用和网络流量也在爆发式的增长,这些流量可能是正常的流量也可能是不 安全的流量,准确和快速的识别与分类这些流量,并且及时的采取相应的措施, 对于网络规划、网络安全监控、q o s 保证、网络问题检测、网络使用记账收费、异 常流量诊断、网络流量预测等都具有重要的价值。 网络流量的识别技术由于网络流量的数量级大以及需要达到一定的实时性与 准确性,这要求要求进行流量识别的时候,要尽量减少每个包的检测时间,传统 的检测方法对每个包进行基于端口的检测以及基于有效载荷的特征位串的识别需 要将数据包解开,消耗过多的时间,同时在检测的时候还会受到各种限制,其通 用性很差。 本论文通过分析各种主流的网络应用协议,总结并且精心选择各种协议在进 行通信的时候的发生的各种特种,作为流量识别与分类的通信特征值,通过通信 特征值的匹配程度来达到识别流量的目的。这种方法不同于以往的以单个包作为 分析对象的方法,它可以同时处理一批特定的数据包,所以理论上相对于其他检 测方法会有更快的识别速度。为了提高识别的准确率,考虑综合传统的识别方法, 制定一整套流量识别与分类的模型,同时还制定一套识别的等级,以确定识别到 什么程度,比如识别到协议类型,还是应用的类型。这套流量识别与分类的模型 的内容涉及到:数据采样、数据分析、数据传输、识别等级以及处理策略等。在这 套流量识别与分类框架的基础上,实现一个流量识别与分类的系统,在实际中检 测与分析该系统的识别速度与正确率,验证这种方法的正确性、有效性、实用性, 并且将实验的结果整理成正式的文档,做出准确客观的分析,以确定一下步的研 究方向。 本论文研究的主要内容可以总结为下面几条: 1 数据采集:获取网络流量,预处理流量,以特定格式存储流量特征。 2 分析主流协议的流量特征,精心选取用于识别的特征对象:分析传统协议 如:h t t p ,f t p ,d n s 协议,各种p 2 p 共同特征,流媒体,网络游戏等等的 3 电子科技大学硕士学位论文 流量特征,通过对协议文档以及协议数据包的分析,总结出他们的通信特 征对象,通过实验选取可用于识别的特征对象。 3 制定识别的策略:根据不同的识别程度需求,给出不同的识别方案。如对于 超高带宽的情况下,一般只用识别流量协议的类型;在流量相对较小如局 域网内可能就需要能够准确的识别出应用的类型;也可以自主定义识别方 案。使用这种方式来提高识别效率与速度,减少不必要的开销。 4 在已有研究的基础上提出一套流量识别与分类的模型。 5 在提出的识别模型的基础上,实现这种模型,并且总结该模型的效率。 6 根据得出的结果,规划下一步研究方向。 1 4 论文组织结构 论文分为六章,内容组织如下: 第一章:绪论,介绍论文的研究背景,主要研究工作和论文结构。 第二章:流量识别技术综述,这一章中主要讲述目前应用到流量识别领域的 各种算法,比较各种算法的优缺点。 第三章:协议特征研究,这一章中通过对要识别的各大类网络流量的协议特 征进行分析,提取出有用有效的特征,作为识别各类网络流量的属性。 第四章:流量特征提取方法研究,这一章研究如何在网络中获取网络流量, 并且将获取到的网络流量进行预处理,根据协议特征研究的结果提取出流量中的 有用信息,为流量识别做好准备。 第五章:识别模型的实现,在这一章节中主要研究如何设计流量识别的模型, 以此来达到高的识别准确率和识别效率,通过多组实验数据检测实验模型的效果。 并且将该实验模型与以往研究人员的研究结果进行对比,发现不足,得出优势。 第六章:总结与展望,总结了本文的研究成果与创新点,提出以后的发展方 向。 4 第二章流量识别技术综述 2 1 基于端口的方法 第二章流量识别技术综述 本文中讨论的端口是指软件邻域的端口一般指网络中面向连接服务和无连接 服务的通信协议端口。在因特网发展的初期,协议系统中对协议的识别是通过端 口映射的方式来实现的,所以在应用程协议流量识别最初阶段是通过端口号来确 定的。在i a n a 中注册的应用层协议都对应着自己相应的端口号。端口号为0 - 1 0 2 3 的被称作公认端口,每个端口对应一个特定的应用层协议,通过端口号就能确定 该流量属于哪一个应用。我们熟悉的协议与端口号如表2 - 1 所示: 表2 1 常用端口 端口号对应协议 2 0 却一d a t a ( 文件传输协议,数据传输) 2 1 邱( 文件传输协议) 2 2 s s h ,p c a n y w h e r e ( 安全外壳协议) 2 3 t e l n e t ( i n t e m e t 远程登陆服务) 2 5 s m t p ( 简单邮件协议) 5 3 d n s ( 域名服务) 8 0 h 1 v r p ( 超文本传输协议) 1 1 0 p o p 3 ( 邮局协议第三版本) 4 4 3 s s l ( 安全套接字层协议) 端口识别方法的流程如下图所示: 图2 - 1 端口识别法流程 5 电子科技大学硕士学位论文 随着互联网及网络通信的爆发式的发展,应用协议与日俱增,要求每个应用 协议都注册自己的端口号变得比较不现实,同时传统的公认端口也发生了一些变 化,例如f t p 协议改进后的p a s s i v e 方式下,数据传输不再有固定的2 0 端口, 而是通过f t p 服务器随即分配一个动态端口与客户端进行数据的传输。更多的 新的应用协议使用的也是动态端口,它的范围是1 0 2 4 6 5 5 3 5 ,要通过端口号的 方式来识别流量变得越来越困难。同时,某些用户为了使他们的网络活动比较隐 蔽,常常通过一些方法来绕过基于端口的流量控制系统。还有一种情况,就是随 着连入互联网的主机的增多,口地址也变得比较稀缺,存在着多台主机或者多 个服务器共享一个p 的情况。 上面描述的这些现状使得通过端口的方式进行流量识别的方法越来越不准 确,该方法能够识别的协议与总协议数的比例越来越小。正由于这些情况的存在, 导致基于端口的流量识别算法的准确率降到了5 0 以下( 如下图2 2 所示) ,该方 法的正确率小于了错误率【l 。如果新的协议不在i a n a 中注册的话,现实中则 必须要通过实验的方式来获取要识别的协议使用的端口号。不过该算法简单,所 需流量信息少,在识别公认端口对应协议数据的时候具有一定的优势。 零 辩 :, 口r 馨 删 骡 鬓 j i 尽 慑 图2 - 2 端口识别法识别率趋势 6 第二章流量识别技术综述 2 2 基于有效载荷的方法 随着基于端口的方法的逐渐失效,在2 l 世纪的初,研究人员们开始将研究的 重点转向分析网络数据包的具体内容,从具体内容中获取应用层协议的特征信息, 这些信息包括有效载荷中的特征字符串,特征字段n 2 t 1 4 3 。这种识别流量的方式的技 术比较叫成熟,很多制造厂商的防火墙、入侵检测系统等产品都是采用的这种技 术,但是这种技术需要不断更新不同应用的特征码。 基于有效载荷的识别技术,需要首先对要识别的应用协议进行深入的分析, 并且对协议数据包进行深度的分析,找出在交互过程中与其他应用协议不相同的 特征字符串或者字段,以此来避开端口号识别流量的缺陷。如果某一字段或者字 符串被确定为某种应用协议所独有,则可以就用此特征作为识别该种应用协议流 量的特征。当存在着多个固定字段的时候,则需要通过统计的方法从实际的协议 流量中得出使用频率最高的字段,用来作为识别的特征嘲。特征的选取情况主要有 下面几种情况: 1 对于文本命令类型协议数据包的情况,用 命令+ 参数 或 状态码+ 参数 格式描述,直接提取协议样本中命令和状态码作为协议静态特征m 1 。 2 对于其它无固定格式类型协议样本,寻找可以表示该协议样本服务类型的 单词作为协议静态特征。 3 对于有着固定协议包头的情况,将固定报头中所含字段类型分为静态字段 和动态字段类型,寻找近可能多的连续静态类型字段,并将其取值组合定 义为该类型协议的静态特征h 们。 该识别方法在识别过程中,通过比对每一个传输层协议首部后的有效负载, 如果在有效载荷中匹配到某一应用协议的特征,则将当前流量标记为相应的协议。 这种方法对于识别已知的应用如各种流行的p 2 p ( g n u t e l l a ,s k y p e , p p l i v e 瞳们,e m u l e ,b i t t o r r e n t ) 以及一些流媒体具有很高的正确率。但是存在着一 些问题:当控制会话的数据被加密过后,这种基于有效载荷的识别方法将失去效 果。 7 电子科技大学硕士学位论文 2 3 基于机器学习的方法 2 3 1 有监督的学习算法 有监督的学习算法是指这样的方法,在分类之前,需要用一个训练样本集来 学习,这个训练样本各条样本都已经标记了所属的类,对于无法确定类的样本( 即 未知类) ,在训练样本选择的时候会被排除在训练集之外。在选择好了训练集后, 需要进行属性的选择,再通过训练集构建分类器模型,最后选择一个测试数据集, 通过这个分类模型进行分类测试,记录分类结果。常用于网络流量识别的监督学 习算法有n a i v eb a y e s 。翻1 、b a y e s i a nn e u r a ln e t w o r k s 、s u p p o r t v e c t o r m a c h i n e h 钔。在论文n3 1 5 1 刀中,作者都尝试过将贝叶斯分类算法应用到流量识别中。 有监督的学习的分类方法的流程可以由下图2 - 3 表示: i 属 i 训练样本集i叫类标记卜 性 一法h 怄 选 择 i 测试样本集 - i l 图2 - 3 有监督学习分类算法流程 n a i v eb a y e s ,朴素贝叶斯分类器是一种基于贝叶斯理论的分类器。 贝叶斯理论的公式2 一l 表达如下: 婀协x 警2 勰 螂, 其中p ( c ,) 是先验概率,p ( x l c ,) 是联合概率,p ( c ,j x ) 是后验概率。p ( c ,) 独立 于x 。 朴素贝叶斯分类器基于一个简单的假定:在给定目标值时属性值之间相互条 件独立。换言之,该假定说明给定实例的目标值情况下,观察到联合的a i , a ,a m 的 概率正好是对每个单独属性的概率乘积。 朴素贝叶斯分类器有一个假设:类的属性间是完全独立的,但是在实际的流量 属性中,属性间的依赖性是可能存在的。这一点正好就是朴素贝叶斯分类器的缺 陷,从而导致它在流量识别上不敬如人意,它的准确率只有6 4 。同时它还有一个 第二章流量识别技术综述 最显著的缺点就是在识别特定流的时候准确率非常低,如对于p 2 p 流量准确率才 4 8 ,游戏流更是低至1 3 。但是它在学习时间和分类时间上速度比较快。 b a y e s i a n n e u r a ln e t w o r k 神经网络算法是指模拟生物的神经结构以及其处理信息的方式来进行计算一 种算法。神经网络算法的学习与分类的方法可以被应用到网络流量的分类上。往 常用于流量识别的的神经网络主要存在两方面的缺陷:第一个是需要在事先确定 该网络的结构,还有一个是数据过度拟合的情况存在。 贝叶斯神经网络的出现将这些问题都迎刃而解了,贝叶斯神经网是基于贝叶 斯理论,在朴素贝叶斯算法中已经讲述过。它在贝叶斯分析的框架下,将模型参 数视为不确定性量,使用显式的概率分布假设进入到模型中加以分析与推断。 贝叶斯神经网络学习过程的特点是:在学习前首先定义网络的结构,设为m ;同时还 要定义权重矢量的先验分布( 它代表在没有数据输入的情况下权值的初始置信 度) 。当入去观察数据,设为n 时,按照贝叶斯定理对后验分布进行更新公式( 2 - 2 ) : 尸( wi ,m ) :p ( n i w , _ m i ) p _ = _ ( w ln ) 公式( 2 2 ) 、。7 只w i 肘) 一 上面表达式中的后验分布律p ( im ) 综合了由观察得来的w 信息和含w 背景 知识的先验信息,因此对数据内在统计关系的描述更为准确,故尸( i m ) 可做模 型m 的识别证据。 网络中往往会出现很多未知的流量,它们对于以往的识别方法是一个很大的 挑战,这一点对于网络流量识别来说非常重要。传统的神经网络网络结构不像贝 叶斯神经网络这样固定,同时贝叶斯神经网络还可以识别未知的流量。有研究人 员把贝叶斯神经网络与朴素贝叶斯用在流量识别领域做过比较研究,发现贝叶斯 神经网络在网络流量识别上大致来说要比朴素贝叶斯好一些o 。对某些特定流的 识别率也显著提高,如p e e r - t o p e e r ,游戏流量等,同时各种流量的识别准确率都 比较高也比较平均,基本都超过了9 5 。 s u p p o r tv e c t o rm a c h i n e 支持向量机( s v m ) 是数据挖掘中的一个新方法,能非常成功地处理回归问题 ( 时间序列分析) 和模式识别( 分类问题、判别分析) 等诸多问题,并可推广于预测 和综合评价等领域,因此可应用于理科、工科和管理等多种学科。目前国际上支 持向量机在理论研究和实际应用两方面都正处于飞速发展阶段。它广泛的应用于 统计分类以及回归分析中它的主要特点是计算简单和高性能。它与邻近法、神经 9 电子科技大学硕士学位论文 络等算法比较起来各方面都比较有优势。它追求分类间间隔最大化。但是它也 致命的弱点就是它的算法效率很低,花在训练上的时间很长,但它也有它的优 ,那就是它的算法复杂度与训练样本集的维度无关,既是它能够处理不限数量的 量属性的样本,并且那丝毫不会影响它的效率。有研究人将s v m 算法与朴素贝 斯算法识别流量的准确性做过比较,发现s v m 算法要比朴素贝叶斯更好一些。 尤其在识别p 2 p 上更是优势明显,平均都能够达到7 6 以上,而朴素贝叶斯才5 6 。 这种算法在某些指定的流量识别上具有一定的优势和价值。 2 3 2 无监督的学习算法 无监督学习口5 卅一般情况指的是聚类方法。与有监督的学习的情况不同,无监 督的学习不需要对每一样本进行类标记。这样就不用事先估计训练数据集中包含 多少个类,也不用为标记每一样本属于哪一类,从而省去了很多手动的耗时的过 程。对于无法标记的样本对象,有监督的方法就会将它们排除:n i ) l i 练数据之外, 而无监督的方法还可以对它们进行分类。所以聚类的方法更有现实意义。下图2 3 描述了非监督的学习方面的学习过程。它不需先标记训练集的类,而是直接先选 择属性,通过聚类的方法生产簇,最后再人工的将算法分出的各个簇进行类的划 分。在流量识别邻域主要使用到的非监督学习的算法有基于划分的、基于密度的、 和基于模型的三种。 i 一一一一一一一一一一一一一一一一一一一一一一一一一一一 i - l 属 i 昔生产簇陋 1 分析 l 训练样本集卜+ 性 一结果 i 选 择 图2 - 3 无监督学习分类算法流程 一、基于划分的方法它通过一个划分算法将一组数据划分为m 个分组,每一 个分组的数据称为一类。通过一定的规则反复迭代,改变分组内的数据,使得各 组中的数据相似的越来越高。这种分类具有以下的条件: 1 每一组中的数据个数不能为o 2 每一条数据只属于一个组。 这类算法主要包括了k 均值算法、k - m e d o i d s 算法和c l a r a n s 算法。其中典型 1 0 第二章流量识别技术综述 的算法是k 均值算法,但是它存在主观性,数据输入先后依赖性,无法处理噪音 的缺点。 二、基于密度的方法通过检查集中数据中的每一点附近的点来构成一个类, 判定一个点的领域点是否属于该类的方法是通过判定该点的大小是否超过了预先 设定的阀值。这种算法能够消除依据距离进行分类的算法仅能划分圆形类的特点。 这一类算法包括了基于密度的带噪音识别的空间聚类算法、o p t i c s 算法和d e n c l u e 算法。 其中最具代表向的是基于密度的带噪音识别的空间聚类算法,它通过重复的查询 中心数据的周围的直接密度最大的数据,添加到组中,只要组中数据量没有达到 最大数量,就不停的添加。不包含在任何分组中的数据被划分为“噪声”。将这种 方法用于流量识别,它的准确率要低于k - m e a n s 算法,仅仅有7 6 。但是这种算法 具有以下几个优点: 1 、它能够发现任意形状的簇,而不仅限于圆形。 2 、在选择的参数很合理的情况下,能够很好的处理噪声点。 3 、它不依赖于数据的输入顺序,适合大型的数据集或者数据库。 三、基于模型的方法它需要有一个假设前提就是每一类数据按照一定的规律 分布,并且在分类之前需要事先定义类的模型,然后就在总的数据中去寻找适合 该模型的数据集。常用的基于模型的方法有基于统计数据的方案的和神经网络的 方案。 e m 算法是一种基于统计模型进行期望最大化分析的算法,它被看作是k 均值 算法的一直扩展,但是它有所不同。它在总体识别准确率上比k 均值算法高,但 是它无法正确的处理未知流量。 2 3 3 算法性能比较 通过上面两节对有监督与无监督的机器学习方法在流量识别领域的应用特点 进行比较分析,可以看出无监督的学习比有监督的学习具有更多的优点,更适合 流量识别的特点,主要表现在下面几个方面: 无监督学习不需要对训练样本进行类标记,此过程可以节约很多时间,因此更适 合流量识别。 无监督的学习可以在分类过程中发现新的应用作为新的类,而有监督的学习 类已在识别前由训练样本集中的类确定了的。 电子科技大学硕士学位论文 有监督学习无法对有效载荷加密的流进行正确有效地类标记,还有可能被排 除n - o l l 练数据集之外,还会降低有监督学习的准确率。对于无监督学习来说,它 可以发现加密的流与未加密的流的相似特征,并将它们划分到同一类中。 机器学习的方法进行网络流量识别的算法众多,可以通过下面几项标准来对 它们的性能进行比较评判: 一、算法的准确性:在流量识别中,算法的准确性至关重要,是最重要的性 能因素,它包括对已知流量的识别率以及对未知流量的识别率。 二、算法的计算复杂度:在实时流量监测系统中,对算法时间复杂度的要求很 高,如果不能及时完成处理将达不到实时性的要求。计算的复杂度包括 学习时间和分类时间。 三、算法对噪声的处理能力:在实际的应用中常常会包含一些孤立点、未知的 数据或者错误数据,它们属于噪声。这些流量会影响非监督学习的质量。 四、算法的数据处理量:算法能够处理的数据量的大小范围。当然既能适用于 少量属于又能适用于大量数据的算法相对来说就比较好。 五、算法的属性处理:分类算法处理流量属性个数的能力。当遇到流量属性很 多的情况,当然就要选择可以处理很多属性的算法。 将上面介绍的几种机器学习算法的性能用上面五个标准进行比较,结果如下 图2 4 : 算法 准确率计算复杂噪声处理数据量处詹陛处理 己知流未知流度能力 理能力能力 k
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2《丁香结》教学设计-语文六年级上册统编版
- 智能饲料配方软件创新创业项目商业计划书
- 宠物关节保健创新创业项目商业计划书
- 宠物保健品公益捐赠创新创业项目商业计划书
- 2025义务教育体育与健康新课标课程标准考试题库及答案
- 生物能源技术服务创新创业项目商业计划书
- 电子产品模拟机租赁创新创业项目商业计划书
- 老年超市经营创新创业项目商业计划书
- 6.4 随机现象的变化趋势说课稿-2025-2026学年初中数学青岛版2012九年级下册-青岛版2012
- 2024年八年级生物下册 7.2.1生态系统的组成和类型说课稿 (新版)冀教版
- 高中化学鲁科版必修第一册第一章认识化学科学第二节研究物质性质的方法和程序课时练习
- 露天煤矿有毒有害气体防治研究
- 电影鉴赏评论智慧树知到期末考试答案章节答案2024年山东艺术学院
- 植物生产与环境考试题及答案
- 绿源电动车使用说明书
- 唯恒农业-中国美洲大蠊产业发展研究报告
- 新概念英语14册单词表打印版
- 汽车app行业分析
- 医保飞行检查培训课件
- 2023年云南省昆明市盘龙区中考语文二模试卷(含答案)
- 河北涿州商业调研报告37
评论
0/150
提交评论