




已阅读5页,还剩51页未读, 继续免费阅读
(计算机应用技术专业论文)网络流量分类及其算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络流量分类及其算法的研究 摘要 随着网络技术的快速发展,基于网络的应用越来越多、越来越复杂。种类 繁多的应用( 合法的或者非法的) 不但吞噬着越来越多的网络资源,而且也对 q o s 和网络安全带来了巨大的威胁。由于在负载均衡、资源利用等方面的优势, 流量工程( t r a f f i ce n g i n e e r i n g ) 得到了业界广泛的关注。在流量工程中,流量 识别是网络管理、流量监控、服务分析、安全和错误监测、网络计费等多方面 的重要基础。 已有的流量识别方式,例如基于端口识别,基于特征码识别,b l i n c 识别 存在一些缺点。近年来,以流量统计特征为基础的机器学习识别方法得到了广 泛的关注。基于机器识别流量类型的原理是:根据i p 包的长度、时间间隔等流 量特征进行流量类型识别,无须检测i p 包的载荷内容。在实践中,基于机器学 习的流量类型识别又有“有监督型”和“无监督型”两种。例如贝叶斯,e m 算法属于有监督型,而k m e a n s 算法则属于无监督型,它们的区别在于有无导 师信号的指导。在当前的实践中,基于机器学习的流量识别方法表现出了较高 的准确率。 有监督型算法往往由于依赖已知的人工分析,对于新的网络流量反应迟钝。 这样一个很具挑战性的课题就是不仅保证对已知流量的准确检测,而且能检测 出未知流量。本文将无监督型的自组织映射网络算法( s e l f - o r g a n i z i n gm a p p i n g , s o m ) i j i 入流量分类,该算法在学习过程中不需要人工分析做向导,自动对数据 进行分类。 在属性的选取上,引入流量时间间隔变化率这一概念,尽可能消除了网络 状况对于流量时间间隔的影响,并实现了一个基于该算法的流量识别系统模型, 初步达到了识别新流量的目的。 关键字:流量分类;流量特征;自组织映射网络;机器学习 t h er e s e a r c ho fn e t w o r kt r a f f i cc l a s s i f i c a t i o na n di t s a l g o r i t h m s a b s t r a c t n e t w o r ka p p l i c a t i o n sa r em o r ec o m p l e xa n dh a v em o r ek i n d sw i t ht h ef a s t d e v e l o p m e n to fn e t w o r k m a n yk i n d so fn e t w o r ka p p l i c a t i o n sl e g a la n dl a w l e s sn o t o n l yl i c ku pm o r en e t w o r kr e s o u r c eb u ta l s ot h r e a t e nb o t hs e c u r i t ya n dq o s c o n s i d e r a t i o n b e c a u s eo ft h ea d v a n t a g e so nl o a dp r o p o r t i o na n du s i n gr e s o u r c e , t r a f f i c e n g i n e e r i n gh a sa t t r a c t e dag r e a td e a l o fi n t e r e s t ,o nw h i c ht r a f f i c c l a s s i f i c a t i o np a y si m p o r t a n tr o l e si nm a n ya r e a ss u c ha sn e t w o r km a n a g e m e n t , t r a f f i ci n s p e c t i o n ,s e r v i c ec l a s sm a p p i n g ,i n s p e c t i o no fs e c u r i t ya n de r r o r s ,n e t w o r k c h a r g i n g t h e r ea r es e v e r a lm e t h o d sw h i c ha r eu s e dt ot r a f f i cc l a s s i n c a t i o n ,s u c ha sb a s e d o np o r t ,b a s e ds i g n i f i t u r ea n db l i n k b u tt h e s em e t h o d sh a v es o m ed i s a d v a n t a g e s t h eu s eo fs t a t i s t i c a l t e c h n i q u e s t od e t e c tn e t w o r ka p p l i c a t i o n sr e c e n t l yh a s r e c e i v e dag r e a td e a lo fi n t e r e s t t h i sm e t h o dr e l yo nf e a t u r e so ft h et r a f f i c s t a t i s t i c se g p a c k e ts i z ed i s t r i b u t i o n ,p a c k e ti n t e r v a lt i m ee t c ,w h i c hd o n td e t e c t t h ep a y l o a do fp a c k e t i nf a c tt h e r ea r et w ok i n d so ft r a f f i cc l a s s i f i c a t i o nu s i n g m a c h i n el e a r n i n g :s u p e r v i s e da n du n s u p e r v i s e d f o re x a m p l e ,b a y s ea n de ma r e s u p e r v i s e d k m e a n s i s u n s u p e r v i s e d s u p e r v i s e dh a v et h em e n t o rs i g n a lb u t u n s u p e r v i s e dd o n t t h i sm e t h o dh a sg o t t e nh i g ha c c u r a c y s u p e r v i s e dd e p e n d so nt h ep r i o rm a n u a la n a l y s i sw h i c hi si n f e a s i b l et oc o p e w i t ht h ef a s tg r o w i n gn u m b e ro fn e w a p p l i c a t i o n s o n eo ft h ec h a l l e n g i n gi s s u e sf o r e x i s t i n gd e t e c t i o ns c h e m e si st h a tw en e e dn o to n l yi d e n t i f yk n o w nt r a f f i cb u ta l s o d e t e c tu n k n o w nt r a f f i c w eu s es e l f - o r g a n i z i n gm a p p i n g ( s o m ) t oc l a s s i f yt h e t r a f f i ci nt h i sp a p e r ,w h i c hd o e s n tn e e dp r i o rm a n u a la n a l y s i sa n dc a r r i e so nt h e s t u d yo fd a t at h r o u g hs e l f - o r g a n i z i n g i no r d e rt oa v o i dt h ea f f e c t i o no fn e t w o r kc o n d i t i o n ,w eu s et h ec o n c e p to ft h e c h a n g er a t i oo ft i m eg a pt os e l e c ta p p r o p r i a t et r a f f i cf e a t u r e s w ec a r r yo u tt h e m o d e lo ft r a f f i cc l a s s i f i c a t i o nb a s e do ns o ma n da c h i e v et h ea i mo fd e t e c t i n gn e w t r a f f i c k e yw o r d :t r a f f i cc l a s s i f i c a t i o n ;t r a f f i cf e a t u r e ;s e l f - o r g a n i z i n gm a p p i n g ;m a c h i n e l e a r n i n g 4 插图清单 t c p i p 协议族中不同层次的协议4 封装t c p 数据的i p 报文6 t c p 的报文段格式:6 基于机器学习的流量分类9 i p 数据报格式及其首部中的各字段i l u d p 数据报格式1 2 人工神经元模型_ 1 8 具有二维网格的自组织映射网络模型2 1 基于s o m 的流量分类模型2 2 r e a l p l a y e r 和s k y p e 时间间隔比较图2 4 r e a l p l a y e r 和s k y p e 流量变化趋势2 6 b m u 及其半径,邻居节点2 7 局域网拓扑结构图3 0 l i b p c a p 抓包流程图3 2 数据的封装过程3 4 流量的存储结构3 5 f t p 下载文件时的流量信息3 7 具有二维网格的4 0 * 4 0 自组织映射网络模型3 8 表5 3 中数据的s o m 聚类结果4 1 二维s o m 网络表示的流量类别坐标图4 2 l 2 3 4 l 2 3 4 l 2 3 4 1 2 3 4 5 6 7 8 z z乏z爻王生爻乱乱禾乱殳殳炙炙殳殳殳 图图图图图图图图图图图图图图图图图图图图 表格清单 表2 1 常用t c p 端口号示例j 6 表2 2 几种流行的p 2 p 协议的特征字段7 表5 1 四组流量的上行下行属性数据3 7 表5 2 流量的属性3 7 表5 3 表5 1 中流量乃和乃的向量表示3 8 9 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得金厦工业太堂 或其他教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示谢意。 学位论文作者签字:夕羞至糸签字日期:z a p l 年争月闷日 学位论文版权使用授权书 本学位论文作者完全了解 金胆王些太堂 有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人 授权金胆王些盘堂 可以将学位论文的全部或部分论文内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名:夕主至责、 口 签字日期:训o 【年午月7 孑日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: 签字日期。夕 2 电话: 邮编: 致谢 在此论文完成之际,向我的导师、计算机学院的老师、我的同学以及其他 在学习上和生活中给我帮助的人们表达我真挚的谢意! 本论文是在我的导师周健副教授的悉心指导和关怀下完成的。在我读研的 这近三年的时光里,周老师以其渊博的学识和精辟的见解为茫然的我指明了研 究方向。他还鼓励我们自由地思考和选择,在他的指点下,我们各自选择了自 己喜欢的研究方向。早在研究生生活开始的时候,周老师就建议我们阅读计算 机网络方面的经典书籍和优秀论文,并要求我们写读书笔记。在其合理的建议 和督促下,我才掌握了计算机网络方面的基础知识和理论,学会了如何发现问 题和分析问题。他为我们提供的项目机会,更是使我们学会了如何动手去解决 实际问题。在研究方向和论文的撰写上,周老师的独到见解让我屡屡茅塞顿开。 而周老师诲人不倦的敬业精神,为人坦诚的思想品质更是使我受益匪浅,终身 难忘。 合肥工业大学网络中心研究生实验室是一个优秀的集体。感谢程克勤在项 目期间给于我的无私指导,以及论文撰写期间的合理建议。感谢我一个实验室 的所有同学,大家集思广议,相互交流,使我对计算机相关知识有了更深的理 解和掌握。它们在我研究生期间为我提供了一个团结、友善、和谐的工作学习 环境。 感谢在我读研期间带过我课和给于我无私帮助的各位学院老师。你们精彩 的讲解使我如沐春风,获益良多。 感谢各位评委专家在百忙之中抽出时间对我的论文进行了仔细的评阅! 最后,再次向所有帮助和关心过我的人表示由衷的谢意。 5 作者:潘亚东 2 0 0 9 年3 月 第一章绪论 1 1 课题研究的来源及目的 本课题来源于项目“应用层协议的分析与控制”,这个项目中的一个关键问 题就是如何识别出用户的上网行为,即如何能通过对i p 数据包信息的分析,识 别应用层协议。最终该项目基于网络层i p 包载荷数据的特征码识别,解决了这 一问题。 基于特征码的识别的基本原理是:某些网络应用( 例如:m s n ,f t p ,p 2 p 等等) 所发送的i p 包的载荷数据中,相应字段的a s c i i 码是相同的。这些相应 字段的值被称为该应用的特征码。基于特征码识别就是通过对比i p 包中含有的 特征码,来识别网络应用。 这种方法设计的系统简单易用,检测效率高。关键问题在于如何准确的找 出网络应用的特征码。该方法的缺点也是显而易见的,如果应用层协议对数据 进行加密,每次发送的i p 包的特定字段的a s c i i 都是变化的,则该方法就无能 为力了。而且由于它涉及到能够窥视个人隐私的问题而受到质疑。 针对这些存在的问题,本文试图在不检测i p 包载荷数据具体内容的情况 下,识别出应用层协议。一般而言,两台主机之间进行某个协议的数据传输时 都会建立这样一个链接:源地址+ 源端口+ 目的地址+ 目的端口+ 传输层协议( t c p 或u d p ) ,在一次传输过程中这条链接会一直维持着,本文中把这条链接所传 送的i p 包串称为流量。通过对该流量的分析,找出流量与应用层协议之间的联 系,进而识别出网络层应用。 1 2 课题的意义 近年来,网络流量分类在学术和应用领域备受重视,已形成一个相对独立 的研究领域。用户对各类i n t e r n e t 业务的服务质量要求越来越精细,网络管理 者需要对各种业务流进行实时的监控与管理,网络服务提供商在规划和建设网 络时需要了解网络各类业务流的状况,网络研究人员需要关注网络中各种流的 特征及相应的用户行为等,这些都离不开网络流量分类技术。 通过监控各类应用的网络流量,管理员可以及时发现设备故障,链路拥塞,用 户带宽的使用状况等。此外,随着互联网的日益普及,网上传播病毒的种类与数 量也越来越多,由此造成的危害也在不断升级。所以,如何有效遏制病毒传播是 目前i n t e r n e t 急需解决的难题之一。t h o m a s 等人在文献【7 】中提到,如果一台主 机利用一个或多个源端口扫描多台主机的同一个端口,或者是一台主机利用多 个端口扫描另一台主机的多个端口,则这台主机产生的流量很可能是攻击流量。 由此可见,通过识别可疑流量,可以及时进行网络管理告警,达到预防病毒泛滥的 目的。 网络服务提供商通过流分类,可以获悉各类网络应用所占比例,预测网络业 务的发展趋势。传统技术采用尽力而为的方式进行包转发,对吞吐量、延迟、延 迟抖动和丢包率没有任何保障,把传输损失都留给终端系统来处理,这对于过去 以电子邮件传输和网页浏览为主的网络来说基本没有问题。最近几年,i n t e r n e t 通信无论是在流量还是应用类型方面,都保持着飞速增长。同时音频,视频以及 其它实时应用的加入,更是从根本上改变了人们对于网络的使用方式。为了适应 电话、视频、对等网络应用( p 2 p ,p e e r t o p e e r ) 等新型业务的大量普及,要求新 一代的互联网必须能够为不同应用提供不同级别的服务质量( q o s ,q u a l i t yo f s e r v i c e ) 保障,使用户得到更好的上网体验,因此,流量分类已成为提供服务质量 中不可缺少的重要手段。 对于研究人员,在p 2 p 应用出现之前,网络传输基本上都是遵循客户端服 务器( c s ,c l i e n t s e r v e r ) 模式,从链路带宽设计考虑,他们自然而然地选择了某种 数字用户线路( x d s l ,xd i g i t a ls u b s c r i b e rl i n e ) 模式,即上行带宽小,下行带宽 大。然而,最近几年的研究报告表明【2 7 1 ,p 2 p 已成为当前网络带宽的“杀手级”应 用,其上传和下载产生的流量巨大,传统x d s l 网络的上行链路极易拥塞。所以, 流分类的另一个重要性在于能够及时了解网络上各种应用流量所占的带宽比例 及其趋势,帮助研究人员更合理地规划网络资源,为用户提供更好的服务质量。 1 3 国内外研究现状 流量分类的研究在国外早在2 0 0 2 年就已经开始了,国内起步较晚,在2 0 0 7 年才有相关论文出现。已有的流量识别方法包括:端口识别、特征码识、b l i n c 识别、基于统计特征的识别。本文中将在第二章中对这些算法做详细的介绍, 通过仔细的对比,发现基于统计特征的识别方法更适合1 1 节中的研究目标。 基于统计特征的识别方法可以在不检测i p 报文载荷数据的情况下,对流量做出 准确的识别分类。 由于基于特征码的识别在实现上比较简单,目前其应用技术已经相当成熟。 国外流量管理软件中的a l l o t 和m a x n e t 使用的d p i ( d e e pp a c k e ti n s p e c t i o n ) 技术 的基本原理其实就是特征码识别。虽然基于统计特征的识别方法目前仍处于研 究阶段,其应用技术还不成熟,但是其理论上的优势仍吸引着大量的研究者。 1 4 本文的主要工作 对基于统计特征识别方法中的机器学习算法进行了研究,尤其是贝叶斯算 法。机器学习算法有监督型和无监督型两种,由于实际的网络环境中新的网络 应用层出不穷,而有监督型的机器学习方法对新流量类型的识别往往依赖于先 前的人工分析,所以监督型算法是无法胜任的。自组织映射网络算法模拟生物 2 神经元,通过自组织行为对数据进行分类学习,是一种无监督型算法,本文最 终选用此算法作为流量分类的聚类算法。 接着,搭建实验需要的网络环境,抓取原始i p 数据包。这些数据是不能直 接作为聚类算法的输入数据的,我们还必须对流量进行整合。根据已有的资料 表明:i p 包( 流量) 的时间间隔、包长度、包数目等信息值都与应用层协议息息 相关,必须从这些信息中选择合适的流量特征,整合成聚类算法可以使用的向 量值。流量特征的选取要求尽可能消除时间特征与网络状况的相关性。 最后,通过对生成的自组织映射图的分析,产生流量分类器。最终形成的 s o m 神经网络自组织图是一个由很多个小的区域组成的图形,本文采用了人工 的方式将这一个个小的区域提取出来,并与实际网络的网络应用类型一一对应 起来,初步达到了流量分类的目的。 1 5 本文的章节安排 根据1 4 节中的工作要求,本文的内容安排如下t 第一章绪论。介绍课题来源,提出本文将要解决的问题。 第二章网络流量分类问题的研究。对已有的流量识别算法及其优缺点做 了概括性介绍和比较。 第三章基于统计特征的流量分类算法的研究。该章节中,分别对贝叶斯、 e m 、k m e a n s 等分类和聚类算法做了详细的介绍,并引出自组织网络映射算法。 第四章流量分类模型的设计与实现。根据第三章关于s o m 的理论分析, 设计流量分类模型。对流量整合问题进行了分析,最终确定流量的6 种属性。 设计s o m 算法的学习步骤。 第五章流量分类模型的实现。编程实现了一个简易的流量识别系统模型, 并对其性能进行对比分析。 第六章总结。对本课题的研究工作进行总结,阐述下一步的研究方向。 3 第二章网络流量分类问题的研究 2 1 网络流量分类 2 1 1 流量的定义 网络协议通常分不同层次进行开发,每一层分别负责不同的通信功能。一 个协议族,比如t c p i p ,是一组不同层次上的多个协议的组合。t c p i p 通常被 认为是一个四层协议系统【1 i 1 ) 链路层,有时也称为数据链路层或网络接口层,通常包括操作系统中的 设备驱动程序和计算机中对应的网络接口卡。 2 ) 网络层,有时也做互联网层,处理分组在网络中的活动,例如分组的选 路。在t c p i p 协议族,网络协议包括i p ( i n t e r n e tp r o t o c 0 1 ) ,i c m p ( i n t e r n e tc o n t r o l m e s s a g ep r o t o c 0 1 ) ,以及i g m p 协议( i n t e r n e tg r o u pm a n a g e m e n tp r o t o c 0 1 ) 。 3 ) 传输层主要为两台主机上的应用程序提供端到端的通信。在t c p i p 协 议族中,有两个互不相同的传输协议:t c p ( t r a n s m i s s i o nc o n t r o lp r o t o c 0 1 ) 和 u d p ( us e rd a t a g r a mp r o t o c 0 1 ) 。 4 ) 应用层负责处理特定的应用程序细节。常见的应用层协议有t e l n e t ,f t p , s m t p , s n m p , w w w 等等。 图2 1 展示了各层协议之间的依赖关系: 燃 图2 1t c p i p 协议族中不同层次的协议 针对t c p i p 协议的不同层次,流量分类研究对象和研究目的也不相同【2 】 1 ) 链路层的流量分析主要针对网络电缆线路的传输速率和吞吐率的变化。 4 目的在于减少物理线路传输中的误差和提高网线的传输速度。 2 ) 网络层的流量分析关注i p 报文的路由策略,延迟和丢失。目的在于按照 一定的过滤规则尽可能快的存储、转发数据包,减少丢包。文献 3 】在这一层次 上研究了干网的流量负载,路由时间,数据报的无序率和延迟。 3 ) 由于传输层和应用层是紧密联系在一起的,可以把这两层的流量分析放 在一起研究,在这一层上文献【4 把流量定义为:流量( f l o w ) 是一个对象,这个 对象描绘了具有相同i p 地址,端口号和协议( t c p ,u d p ) 的包串。它是一个由源 地址,源端口,目的地址,目的端口和传输层协议组成的五元组。这样一系列 的i p 包串就可以按这个定义组成双向的t c p 流或u d p 流。这一层的研究目的 在于识别应用层协议。 由于本文的课题来源于应用层协议的分析与控制,研究的最终目的是为了 识别应用层上的协议,因此本文的研究针对第三层的流量数据。第三层的五元 组再加上应用层协议便构成了本文中的流量( t r a f f i c ) 。 2 1 2 流量分类的定义 网络流量分类( n e t w o r kt r a f f i cc l a s s i f i c a t i o n ) 是指在基于t c p i p 协议的互联 ( i n t e r n e t ) ,按照网络的应用类型( 如f t p 、d n s 、w w w 、p 2 p 等) ,将网络 通信产生的双t c p 流( f l o w ) 或u d p 流进行分类。 流量分类的关键在对t c p 流或u d p 流采用何种分类方法。 2 2 流量分类方法 现如今的流量分类方式包括:基于端口的识别,基于特征码识别,基于 b l i n c 识别,基于统计特征的机器学习识别等等,下文依次对这些方法进行介 绍。 2 2 1 基于端口的识别 传统上,流量的类型可以根据国际互联网代理成员管理局( i n t e r n e ta s s i g n e d n u m b e r sa u t h o r i t y ,i a n a ) 建议的非强制端口号进行区分。如w e b 服务规定为 t c p 端口号8 0 、f t p 规定为t c p 端口号2 1 、t f t p 规定为u d p 端口号6 9 等等。 常见的t c p 端口号见表2 1 。 在截获网络中i p 报文后,剥去图2 2 中的i p 头,只需解析出图2 3 中t c p 头中的1 6 b i t 源端口号和目的端口号,再和表2 。2 中的常用t c p 端口号比较, 就可以识别出应用层协议。u d p 端口号识别方式和t c p 相同。 不难看出这种方法的优点在于实现上的简单易用。这种方法在互联网发展 早期起到了很好的识别效果。 5 表2 1 常用t c p 端口号示例 十进制数值关键字应用层协议描述 7e c h o 回送 2 0f t p 。d a t a 文件传输协议( 数据) 2 lf t p 文件传输协议 2 3t e l n e t 终端连接 2 5s m t p 简单邮件传输协议 5 3d o m a i n 域名服务器 8 0w w w 互联网服务 下面以t c p 协议的端口号识别为例说明这个方法的识别过程。 :亚茎:l 蔓量至麴 图2 2封装t c p 数据的i p 报文 041 01 63 i 辩端f h 的埔门 颥侉号 确认母 uappsf 酋部长度保斑rcssyi窗u gkh。| nn 校骏和紧急 爵针 珂选硕填鬼 敷掘 图2 3t c p 的报文段格式 2 2 2 基于特征码的识别 随着互联网的快速发展,应用层的应用协议越来越多,端口识别方式的准 确度也越来越低。尤其是p 2 p 网络应用协议的出现,大量的网络带宽资源被占 用,此类流量占网络总流量的比例逐年增加,在很多网络中甚至超过了5 0 ,急 需一种更加有效的流量识别方法,限带l j p 2 p 网络的应用。特征码检测是另一种 得到广泛应用的流量类型识别方法,其基本原理是根据i p 包中包含的协议特征 码进行流量分类。该方法主要用于识别p 2 p 协议流量。 为了避免被检测和限制,目前大多数主流p 2 p 协议都使随机端口号进行通信, 甚至有些p 2 p 应用为了躲避网络管理员的封杀,使用8 0 端口( h t t p 使用的端口) 来伪装自己的流量。为此,s e n 等人【5 】研究了几种当时流行的p 2 p 协议 ( g n u t e l l a ,k a z a a ,d i r e c t c o n n e c t ,b i tt o r r e n t ,e d o n k e y ) 的信令流和数据流之后, 主要针对数据流中的t c p 流进行了详细的分析,在这些数据包的有效载荷中找 到了具有代表性的唯一的特征字段及其位置。为了验证他们方法的有效性,s e n 等人提出从3 个方面来对流分类技术进行评价:( 1 ) 准确性:分类结果的正、负错 误率都很低;( 2 ) 实时性:即能够同时处理几百万条连接的数据,但计算量却相对 较小;( 3 ) 健壮性:即这种流分类方法对于常见的路由不对称,丢包等网络现象不 6 敏感。s e n 等人的实验结果表明基于特征字段的这种方法在上述3 个方面都做得 很好:( 1 ) 准确性方面,首先假设通过p 2 p 默认端口的流量都是p 2 p 流量,然后用 基于特征字段的方法对这些流进行再判断,如果不属于p 2 p 流,那么定义为一个 负错误,结论显示该方法的负错误率一般小于5 ,只有b i t t o r r e n t 协议的负错误 率较高,约9 9 :( 2 ) 实时性方面,经实验统计,只需要检查一条流的前3 4 个包, 即可捕获9 9 以上的p 2 p 流量( 实验设备已根据5 元组将包汇聚成流) ,因此认为 实时性方面也基本没有问题;( 3 ) 健壮型方面,由于大多数p 2 p 报文( 包括信令流和 数据流) 都带有特征字段( 除b i t t o r r e n t 协议的特征字段一般仅出现在信令流中) , 所以该方法在路由非对称或者少量丢包的情况下同样有效。 h o l g e r 等人【6 j 也做了类似的研究,并总结了当时几种流行p 2 p 协议的特征字 段,例如表2 2 所示。( 注,由于各种p 2 p 协议都在不断更新,表中的特征字段仅作 参考,并没有包括全部) 。 表2 2 几种流行的p 2 p 协议的特征字段 协议名特征字段传输层默认 协议端口 g n u t e l l a“g n ut e l l a ”,“g i v ”,“g e t u r i r e s ”,“g e t g e t t c p6 3 4 6 ,“x - d y n a m i ”,“x q u e r y ”,“x - u l t r a p ”,“x - m a x ” t c p6 3 4 7 “x - q u e s s ”,“x t r y ”,“x - e x t ”,“x - d e g r e e ”, t c p “x - v e r s i o ”,“x - g n u t e l ” t c p “g n d ”t c p f a s t t r a c k “g e t h a s h ”,“g i v e ”,x - k a z a a t c p1 2 1 4 o x 2 7 0 0 0 0 0 0 2 9 8 0 ,0 x 2 8 0 0 0 0 0 0 2 9 0 0 ,0 x 2 9 0 0 0 0 0 0 , u d p 0 x c 0 2 8 ,0 x c1 ( 5b y t e s ) ,0 x 2 a ( 3b y t e s ) u d p e d o n k e y 0 x e 3 ,0 x c 5 t c p4 6 6 1 - u d p4 6 6 5 d i r e c t c o $ s e n d ”,“$ s e a r c h ”,$ c o n n e c t ”,“$ g e t ”, t c p4 11 n n e c t “$ m y n i c k ”,“$ d i r e c t i o n ”,$ h e l l o ”,“s q u i t ”, t c p4 1 2 ,“$ l o c k ”,“$ k e y ”,$ m y l n f o t c p “$ s r ”,“s p i n u d p 另外,不同p 2 p 协议的特征字段都不相同,因此利用这种方法还可以进一步 识别出各种p 2 p 协议类型。基于特征字段的方法也属于确定性的分类方法。目 前市场上多数流量监控系统中采用这种方法来专门识别p 2 p 流量。 2 2 3b l i n c 识别 面对如此急迫却又尴尬的局面,人们逐渐将目光转向网络的行为模式,希 望通过不同网络应用所表现出来的行为模式进行流量类型的识别。t h o m a s 等人 7 在文献【7 】中提出的b l i n c 算法就是根据不同应用在传输层上所表现出的不同 行为模式而进行复杂流量分类的方法之一。 该方法的三个最大特点是:( 1 ) 无需解读数据包的负载,从而不会牵涉到用户 隐私问题;( 2 ) 不需要知道与端口号相关的信息,因此不易被其所误导;( 3 ) 只需 要获得一般网络监控设备能够提取的信息,不需要额外的设备开销,因此这种分 类方法也被称为b l i n c ( b l i n dc l a s s i f i c a t i o n ) 。此外,该方法还有一特色,即用户可 以根据实际情况在流分类的准确性和完整性之间进行折中,所谓完整性是指分 类方法可以识别出的流量占网络总流量的比例。 b l i n c 方法的工作原理如下:( 1 ) 观察i n t e r n e t 上单个主机的行为特点,例如是 否同时与多台主机通信,或者同时扫描另一台主机的多个端口;( 2 ) 从三个层次对 主机行为进行分析,即反映主机连通度的社会层( s o c i a l ) 、反映服务提供者或消费 者行为的功能层( f u n c t i o n a l ) 以及表示传输层拓扑连接的应用层( a p p l i c a t i o n ) ; ( 3 ) 将观察到的主机群行为模式与已知的应用特征进行匹配,即根据事先构造好 的图表进行匹配。最后,利用由统计数据或凭经验得到的启发式进一步改善算法 性能。t h o m a s 等人对采集到的不同数据集进行了实验验证,结论表明b l i n c 方法 的准确性高达9 0 以上,同时完整性可达8 0 - - 9 0 ( 针对不同的数据集) 。 t h o m a s 的这种基于传输层的流分类方法完全避开了对报文内容的检查,开创性 地将研究焦点转移到网络主机的行为上,被誉为是流分类领域的一个新里程碑。 2 2 4 基于统计特征的识别 近年来,以机器学习为基本原理的方法得到了广泛的关注,文献 2 1 1 8 】 9 】 【10 1 1 11 【1 2 】 13 】等分别采用了不同的机器学习对流量识别问题进行了探索和阐 述。 流量的数据包长度因不同的应用层协议而不同l 1 1 1 ,例j t l m s n 的聊天数据包 比较小,而f t p 的下载数据包一般比较大。而文献 1 3 】证明在不同种类流量的i p 包时间间隔也是不同的,文中以r e a l p l a y e r b b c 和s k y p e v o i c e 为例,指出 r e a l p l a y e r 的时间间隔短而且持续稳定,而s k y p e 的时间间隔长而且动态变化。 上行和下行流量的数据包数目也在不同的协议所产生的流量中存在差异。 z a n d e r 8 】等人凭借数据挖掘技术,将贝叶斯分类理论引入流分类领域,统计 流量的各种特征,利用机器学习,对i n t e r n e t 上的流量进行分类。图2 4 是他们的原 型系统。 根据5 元组将数据包划分为不同的流,并分别计算流的各项参数,例如平均 包长、平均包间隔时间、流持续时间等。在上述过程中,为进一步提高执行速度, 还可以对每条流的数据进行适当采样。之后,将流的统计数据以及初始的流属性 模型用于自分类的机器学习算法。机器学习的时间越长,则分类的准确性越高, 一旦达到某个标准,就可以对后续的输入数据流自动分类。最后,对流的分类结 果进行评估,或是进入后续操作,例如q o s 匹配等。实验结果显示根据被测数据集 的不同,该方法分类的准确性会有所变化,但基本都高于8 0 ,平均值为8 6 5 。 l :浆梯: ,一l 滞练:+ l 一 一篙 i 数据包分类 l7 l 讲旧。广 机 器 申南t 陋受 等乏 一tq o s : 习 甲3l 数据包分类 机器学习( 1 ) 和分类( 2 )i 结果和j i _ h 途 : l: 图2 4基于机器学习的流量分类 在整个系统中,最重要的部分莫过于流属性集合的选择。作者采用了顺序前 进法( s f s ,s e q u e n t i a lf o r w a r ds e l e c t i o n ) 来挑选最佳的流属性集合,该方法是目 前最简单的自下而上搜索算法。实验结果表明集合中属性数目越多,应用与类别 之间的一一对应关系就越好,直到达到一个上限为止。应用流量属性的统计特 征,为流分类领域又开辟了一个全新的探索方向。 这个方法另外一个重要部分是机器学习算法的选择,基于机器学习的流量 类型识别又有“有监督型”和“无监督型”两种。它们的区别在于学习过程中有无 导师型号的指引。除了前文提到的贝叶斯算法外,后人开始将更多的机器学习算 法运用到流量分类中,如文献【2 】中的k m e a n s 算法,文献 9 】中的e m 算法,文献 【1 0 中的支持向量机算法,其中贝叶斯算法和支持向量机算法属于有监督性, 而文献【2 中的k m e a n s 贝l j 是无监督型。 值得注意的是即使对一个简单应用来说,流属性的分布也非常复杂,因此不 可能为每种应用都构建一个流属性模型。但是,从另一角度来看,如果一种应用 符合多个流属性模型,则能对此应用有更深入的理解,例如,w e b 应用通常还包 含各种具体的内容,包括块传输,流媒体等等,所以其流量可能与多个流属性模型 匹配,发现这一点有助于对w e b 应用进行更细致的划分。 2 3 流分类方法的比较 基于端口号的分类方法原理和实现都非常简单,可以满足高速网络上的实 时分类要求,不涉及用户的隐私,不需要繁复的计算,可以用硬件实现但是由于 i a n a 对端口号规定的非强制性和有限性,越来越多的应用采用非规范的端口, 有些应用甚至干脆就封装在h t t p 中,使得传统的流量类型识别方法变得十分困 9 难。k a r a g i a n n i 在文献【1 4 】中指出有些应用协议例如p 2 p 通过使用动态端口和冒 充特定端口的方法来伪装自己。端口识别已经不能满足流量分类的需要,它只 能作为其他流量识别方式的一种补充。 而基于应用层特征字段的方法准确性较高,并且已经可以用于实时的流分 类系统,是目前绝大多数流量监控系统选择使用的方法;与端口识别方法相比 较,尽管这种技术表现出了较好的流量类型识别能力,但由于涉及到能够窥视 个人隐私的问题而受到质疑。它只能对现有已知的p 2 p 应用进行识别,无法识别 新型应用,而实际上p 2 p 协议的更新周期是非常短的,新型版本不断涌现,如果是 私有协议,则特征字段的破解开销较大同时,对于加密后i p 包,这种技术也几乎 无能为力【9 1 。 b l i n c 识别和基于统计特征的识别,这两种方法克服了前两种方法无法解 决的难点,其共有的优点在于准确率高、完整性好,可以识别新型应用,还能提醒 用户检查那些疑似的病毒攻击流。 t h o m a s 等人设计的b l i n c 方法根据传输层主机的行为模式等信息识别各 种应用,不易受到网络动态的影响,例如拥塞、延迟等。还能根据使用者的要求 在分类准确性和完整性之间进行折中,但缺点是其准确性会受n a t 等端口i p 地址转换技术或监测设各位置的干扰,另外由于该方法还依赖于凭经验提出的 启发式,留有漏洞使攻击者容易设计新协议逃避这种分类方法。总之,由于传输 层行为通常与网络环境密切相关,相同应用在不同网络环境下的传输层行为很 可能存在较大差异,这种相关性限制了该方法的应用范围。 z a n d e r 和t h o m a s 的方法都属于概率分类方法,并且主要基于传输层分 类。z a n d e r 等人基于流量统计特征的方法,优势在于不依赖流的i p 地址或端口 号,因此不受n a t 等技术的干扰,但缺点则是有些特征对网络动态变化极其敏 感。例 如包的到达间隔、流的持续时间等,并且到目前为止,还没有找到一套完整的与 各种应用类型一一对应的流量属性集合。此外,z a n d e r 和t h o m a s 方法还有一个共 同的缺点,计算量非常大,尚不能用于高速网络进行实时的流量分类。 从实现上来说,上述几种方法都属于网络测量中的被动测量方法,在流分类 过程中基本不会对网络产生任何影响。而它们的主要缺点在于无法深入了解某 些应用的网络行为,例如目前非常流行的p 2 p 文件共享系统。另外,由于被动测 量要求对数据包进行截取和检测,随着网络速度的迅猛发展,这些方法的实现的 时间开销和空间开销将越来越高。 基于统计学的分类方法可以有效克服前三种流量分类方法存在的问题,因 此成为当前流量分类的主要研究方向,得到了越来越多的青睐。 1 0 第三章基于统计特征的流量分类算法的研究 本课题来源于“应用层协议的分析与控制”,其中一个要解决的关键问题就 是如何识别出用户的上网行为,鉴于第二章中提到的前三种方法固有缺陷,本 文试图基于流量的统计学特征,运用机器学习算法,在不检测i p 包载荷数据具 体内容的情况下,识别出应用层协议。 受z a n d e r l 8 j 等人的启发,后来的研究者开始将大量的分类和聚类算法运用 于流量分类。它们的大致原理基本相同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 卫生应急考试试题及答案
- 消防泳池改造方案范本
- 屋面马鞍板壳板施工方案
- 青海海西州州本级公益性岗位招聘考试真题2024
- 东方市医疗健康集团招聘医疗卫生及辅助类专业技术人员考试真题2024
- 2025年新密市属事业单位考试试卷
- 沉桩法基础施工方案模版
- 园林中桥有哪些施工方案
- 2025广东依顿电子科技股份有限公司招聘操作工人员考前自测高频考点模拟试题及答案详解(夺冠系列)
- 专项施工方案内审表模板
- 2025年国家电网有限公司特高压建设分公司招聘10人(第一批)笔试参考题库附带答案详解
- 6.2 人大代表为人民 第二课时 课件 2025-2026学年六年级道德与法治 上册 统编版
- 2025年甘肃省金川集团股份有限公司技能操作人员社会招聘400人考试参考试题及答案解析
- 2025年会议行业研究报告及未来发展趋势预测
- T/CIE 189-2023硫化物全固态锂电池
- 借游戏账号合同5篇
- 《医疗器械监督抽验介绍》
- 2025年中职政治专业资格证面试技巧与答案解析大全
- 炎德·英才大联考长郡中学2026届高三月考试卷(一)生物试卷(含答案)
- 3.4 活动:电路创新设计展示说课稿 2023-2024学年教科版物理九年级上册
- 2025-2026学年人教鄂教版(2024)小学科学三年级上册(全册)教学设计(附目录P137)
评论
0/150
提交评论