已阅读5页,还剩70页未读, 继续免费阅读
(计算机应用技术专业论文)基于机器学习的因特网流量分类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于机器学习的因特网流量分类研究摘要 论文题目:基于机器学习的因特网流量分类研究 专业:计算机应用技术 硕士生:车春回 指导教师:王建民副教授,何海涛高级工程师 摘要 因特网流量分类研究是众多因特网研究的基础,清楚地了解整个因特网的流量情 况对于因特网流量建模、网络运行维护管理、网络安全及流量工程等均具有重要意 义。在p 2 p 应用逐渐普及的今天,基于端口和载荷的传统流量分类方法逐渐凸现出局 限性,迫切需要一种新型的、有效的流量分类方法,为因特网业务的q o s 保证、网络 异常检测等提供支撑。 本文在参考国外优秀文献和最新研究成果的基础上,提出了两个基于机器学习的 流量分类模型。首先,第一个分类模型引入整体学习和半监督学习,一定程度上弥补 了单假设算法性能低下的缺陷,并且可以利用网络中容易可获取的未标记流量来改善 分类器性能。其次,第二个分类模型引入整体学习和代价敏感学习,重点关注真正影 响网络带宽的“大象”流量,提高分类的字节准确率,改善流量控制设备的性能。实 验结果表明:两个分类模型相对以往文献中使用的流量分类模型,具有更好的性能。 本文在中山大学校园网主干的一条接入链路上设立监测点并进行双向的流量数据 采集,然后对校园网中的流量进行分类,并深入讨论。与传统的流量分类方法不同, 本文方法不需要通过端口或者载荷信息进行分类,而是采用独立于载荷的流量统计特 征作为分类依据。本文中的一系列分析数据不但为因特网流量分类研究提供帮助,也 为其它有关网络流量的研究提供了定的事实依据。 关键词:因特网流量分类、整体学习、半监督学习、代价敏感学习 基于机器学习的因特网流量分类研究a b s t r a c t t i t l e : m a j o r : n a m e : s u p e r v i s o r : n e 钾旧r kn a m cc l a s s i f i c a t i o nb a s e do nm a c h i n el e a r i l i n g c o m p u t e ra p p l i c a t i o na n dt e c h n 0 1 0 酣 c h u n h u ic h e a s s o c i a t ep r o f e s s o rj i a n - m i nw a n g ,s e i l i o re n g i n e e rh a i t 缸ih e a b s tr a c t n e t w o r kt r a m cc l a s s i f i c a t i o ni st h ef o u n d a t i o no fm a l l yo t h e rn e 拥幻r kr e s e a r c h e s i t i sm e a n i n g f u lt ou n d e r s t a n dc l e a r l ya b o u tt h ee n t i r et r a ,伍es t a t j s t i c so fi n t e r n e t ,e s p 争 c i a u yf o rt h er e s e a r c hf i e l do fi n t e r n e tn a 伍cm o d e l i n g ,n e t w o r km a n a g e m e n t ,n e t w d r k s e c u r i t ya n dn a m ce n g i n e e r i n g r 启c e n t l y jp 2 pa p p l i c a t i o ni sb e c o m i n gp o p u l a ra n d t h en e 怕r kt r a 伍cg e n e r a t e db yp 2 p 印p l i c a t i o n sr e s e r 、髑;ab i gp a r to ft o t a lb a n d w i d t h , t h ee 雎c t i v e n e s so ft r a d i t i o n a lp o r t - b a u s e da n dp a y l o a d b a s e dc l a s s i f i c a t i o nt e c h l l i q u e si s d i m i n i s h e d t h e r ei sas t r o n gn e e dt op r o p o s es o m ea d v a n c e da n de 骶c t i v ec l a s s m c a t i o n m o d e l st op r o v i d es u p p o r t i n gf o ri n t e r n e tb u s i n e s s ,s u c ha sq o sg u 盯a n t e e sa n dn e 如旧r k a n o m a l yd e t e c t i o n i nt h i st h e s i 8 ,t 、7 l ,on e t w o r kt r a 伍cc l a s s i f i c a t i o nm e t h o d o l o g i e st h a tb a s e do nm a c h i n e l e a r n i n ga r ep r o p o s e d ,u s i n go n l yf l o ws t a t i s t i c s t h ef i r s tm e t h o d o l o g yi m p r o v e st h e c l a s s i 丘c a 七i o na c c u r a c yb yi n t r o d u c i n ge n s e m b l el e a r n i n ga n ds e m i s u p e r v i s e dl e a m i n g , a n di tc a nu s et h el a r g e 锄o u n to fu n l a b e l e df l o we x 锄p l e s ,w h i c ha r ei n e x p e 璐i v e ,t o i m p r o 、,et h ep e r f o r m a n c eo fc l a l s s i f i e r t h es e c o n do n ei m p r o 、1 胬t h eb y t ea c c u r a c yo f c l a s s i f i e a t i o nb yi n t r o d u c i n ge n s e m b l el e a r n i n ga n dc o s t s e n s i t i v el e a r n i n g i tf o c u s e s o nt h e e l e p h a j l t f l o w s ,w h i c hh a eam u c h 伊e a t e re 能c to nt h en e t w o r kt h a n8 m a u “m i c e ,a o w s t h ee m p i r i c a lr e s u l t sh a v ep r 0 、r e dt h a to u rm e t h o d 0 1 0 9 i e sh a eb e t t e r p e r f o r m a n c et h a nt h c 睨c l a s s i f l c a t i o nm o d e lp r e s e n t e di np r e v i o u s1 i t e r a t u r e s t h i st h e s i se 8 t a b l i s h e st h em o n i t o r e dp o i n ta taa u c c e s sl i n k o fg i g a b i t l e v e lc o r e n e 佩r o r k ,w l l i c hi sl o c a t e da ts u ny 乱一s e nu n i v e r s i t y -b i d i r e c t i o n a ln e t 、阳r kt r a m ci s i i i 基于机器学习的因特网流量分类研究 a b s t r a c t c o u e c t e d ,a n dd e e p e rt r a 伍ca j l a 蜘扭o fc 锄p u sn e 七w o r ki sp e r :f o r m e d d i 艉r e n t 行锄 t h et r a d i t i o n a lt r 施cc l 嬲s i 6 c a t i o n 印p r o a u c h e s ,t h em e t h o d o l o g i 铝i nt h i st h e s i sd o e sn o t r e q u i r et h ep o r ta i l dp a y l o a di n f o r m a t i o n ,i 瑚t e a do fu s i n gt h en o w8 t a t i s t 妇w l l i c hi s p a y l 0 址i n d e p e n d e n t t h ea i n a 虮i c a ld a t ai nt h i st h e s i si sn o to n l yh e l p f u lf o rt h er 争 s e a r ( 盘o fn e t w - o r kt r a m cc l a s s i 丘c a t i o n b u ta l s o1 0 rt h eo t h e rn e t w o r kr e l a t e dr e s e a r c h e 8 k e yw 0 r d s :n e t w o r kt r a 伍cc l a s s i f i c a t i o n ;e n s e m b l el e 盯n i n g ;s e m i s u p e i s e dl e a u r n - i n g ;c o s t s e n s i t i v el e a m i n g 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行 研究工作所取得的成果除文中已经注明引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写过的作品成果对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明本人完全意识到本声明的法 律结果由本人承担 学位论文作者签名:尘妲 日期:筝业生 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权 保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版, 有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、 院系资料室被查阅,有权将学位论文的内容编入有关数据库进行检索,可以 采用复印、缩印或其他方法保存学位论文 学位论文作者签名:名徊 日期:矽7 年口;月2 日 导师签名: 日期:d 产r 月飞、一日 基于机器学习的因特网流量分类研究第1 章绪论 第1 章绪论 本章介绍了研究背景,相关研究现状,研究内容,意义,及论文的章节安排。 1 1 论文选题背景及意义 在过去的十余年中,因特网取得了令人瞩目的发展,无论是从网络规模、用户数 目,还是网络应用的角度来看。现今的因特网是一个巨大的、持续演变的对象,具 有异质性和动态性,这给因特网研究带来极大的挑战。正确的因特网流量分类是众 多因特网研究的基础,正受到越来越多的网络服务提供商( i n t e m e ts e r v i c ep r o v i d e r s , i s p s ) 以及网络设备赞助商的关注。因为只有清楚地了解流动于整个网络环境的流量 状况,才能为众多的上层网络服务( 带宽管理、流量工程、网络安全、网络服务质量 保障等) 提供支撑。 因特网流量分类是入侵检测系统1 ,2 ( i n t r u s i o nd e t e c t i o ns y s t e m ) 的重要组成部 分,可用于检测来自外部的网络攻击。同时,从商业的角度来看,i s p s 可以参考当前 的流量状况为v i p 用户提供网络资源的再分配【1 1 ,或者根据用户对网络资源的使用情况 进行进一步的网络优化。近期,政府部门越来越重视对网络流量的合法监听【2 】( l a 讹1 i n t e r c e p t i o n ,l i ) ,例如电信运营商可以在政府授权的情况下对用户的通话进行监听甚 至拦截,i s p 提供商也可能被要求向政府部门提供某些特定用户的流量信息,而这一系 列服务都是以网络流量分类研究为基础的。 因特网流量分类研究是网络服务质量( q u a l i t yo fs e n r i c e ,q o s ) 保障的基础,对 于解决网络延迟和阻塞非常重要。在过去的一段时期内( 特别从2 0 0 4 年起) ,由于点 对点( p e e r - t 俨p e e r ,p 2 p ) 应用的迅速兴起,整个因特网环境发生了天翻地覆的变化。 越来越多的在线视频服务涌现出来,越来越多的网络共享服务被用户所接受,整个因 特网的流量状况日益混杂。根据近期的研究报告3 ,p 2 p 应用的流量已经占据整个因特 1 h t t p :w w w s n o r t o r g 2 h t t p :b r 0 - i d s o r g 3 h t t p :、 r 、 r r c a c h e l o g i c c o m h o m e p a g e 8 r e s e a r c h p 2 p 2 0 0 5 p h p 一1 一 基于机器学习的因特网流量分类研究第1 章绪论 网流量的5 0 一7 0 。现今每天大约有超过1 5 5 ,0 0 0 的新用户开始使用s k y p e ,而在某 一特定时刻内,平均有超过两百万的用户在使用s k y p e l 。如此庞大的用户群是任何一 个网络服务供应商所不能忽视的,因此改善对p 2 p 流量的管理显得越来越重要。一方 面,p 2 p 流量在整个带宽中占据的比重越来越大,意味着越来越少的带宽可被用于其 它的网络应用,例如传统的网络浏览,邮件收发,在线聊天等等。在最坏的情况下, 网络用户将享受不到他们所应有的服务,表现出来的症状可能是网络浏览速度缓慢, 或者是在线聊天的时候经常性地掉线。网络服务质量的低下会导致用户的流失,这是 任何一个网络服务提供商所不愿意看到的,因为通常情况下吸引一个新的用户的花销 大约是维持一个用户的五倍。成熟的因特网流量分类技术可以帮助减少网络用户的流 失率,因为在流量可识别的情况下,服务商可以控制p 2 p 应用所使用的流量,从而保 证其他服务所应有的质量。另一方面,由于p 2 p 应用的普及,在保障传统网络服务的 同时也需要为p 2 p 应用提供更加好的服务。在p 2 p 流量被准确分类的情况下,网络管 理员可以通过优化对等网络节点之间的路由,或者重定向p 2 p 应用对于资源的搜索路 径,从而提高p 2 p 应用的连接速度。 正是由于网络流量分类研究的重要性,几乎从因特网的初期开始就有相关的学者 对其进行研究,下面对现今国内外的研究现状做一个简要的描述。 1 2 国内外因特网流量分类研究现状 1 9 7 3 年底,t c p i p 的发明人文特瑟夫和鲍勃卡思完成了一篇题目为:“关 于包网络相互通信的协议 的论文,并于1 9 7 4 年5 月成功发表。在这篇划时代意义的 论文中,瑟夫和卡恩提出了t c p 协议,并逐渐使t c p 成为标准,走向世界。正因为 有了t c p i p 的理论性基础,因特网从此蓬勃发展起来,而因特网流量分类研究其实 从因特网诞生的那天开始就已经存在,并且在每个特定的时期都有着不同的流量分类 策略。 从历史发展的角度来看,因特网流量分类研究主要经历了三个阶段:基于端口过 滤的流量分类阶段,基于载荷的流量分类阶段,以及基于机器学习的流量分类阶段。 1 h t t p :们哪s k y p e c o m c o m p a n y n e w s 2 0 0 5 1 m _ s k y p e o u t h t i n j 一2 _ 基于机器学习的因特网流量分类研究 第1 章绪论 1 2 1 基于端口过滤的因特网流量分类阶段 网络流量分类最早是通过端口过滤的方法来完成的。流量管理设备通过检查 网络应用所使用的t c p u d p 端口号( t c p u d p 头部可见) 来区分不同的网络应 用。在因特网发展的早期,大多数的网络应用都使用互联网地址指派机构1 ( i n t e r n e t 灿s i g n e dn u m b e r sa u t h o r i t y 认n a ) 所指派的端口号进行通信,我们现在称之为“标 准通信端口”。例如,传统的w e b 应用使用8 0 端口,文件传输协议f t p 使用2 0 和2 1 端口,安全超文本传输协议h t t p s 使用4 4 3 端口。早期的网络应用使用的端口相对固 定( 端口号一般小于1 0 2 4 ) ,很少有网络应用使用动态端口。基于端口过滤的流量分 类技术在早期的效果非常好,网络流量分类研究在那个时期相对简单,技术上也比较 容易实现。 1 2 2 基于载荷的因特网流量分类阶段 基于端口过滤的方法假设网络应用总是使用固定的端口,但是随着因特网的不断 发展,越来越多的网络应用不再使用标准端口进行通信( 特别是2 0 0 2 年以后) 。例如 现在很多的f t p 服务不再使用2 1 端口进行通信,而允许用户使用自定义端口。同时, 为了躲避监测、突破防火墙等网络安全设备的封堵,动态分配端口技术和伪装技术被 广泛采用。p 2 p 应用大多使用动态端口来进行通信,甚至有些p 2 p 应用为了伪装自 己,使用一些传统应用的端口。例如国内现在流行的下载软件迅雷( t h m l d e r ) ,它在 默认端口被拦阻的情况下,会自动改用端口8 0 进行通信。端口8 0 是传统的w - e b 应用 采用的默认端口,通常情况下流量管理设备不可能对端口8 0 进行封阻,这就使得端口 过滤的方法对于迅雷应用失效了。端口过滤技术的有效性被大大削弱了f 3 - 5 l ,为了改善 流量识别的准确率,基于载荷的流量分类方法变得流行起来p 9 l 。这种方法通过扫描网 络数据中每一个分组( p a c k e t ) 的载荷部分,然后检查载荷部分是否存在已知网络应用 的特征码,从而区分不同的网络应用。这种方法的依据在于:不同网络应用在应用层 ( a p p l i c a t i o nl a 辨r ) 数据部分都会存在独一无二的特征,在特征已知的前提下,通过 1h t t p :w w w i a n a o r g 一3 一 基于机器学习的因特网流量分类研究 第1 章绪论 对分组数据进行深度检查,匹配特征码,就可以对当前流量进行分类。研究表明,这 种通过特征匹配的方法在现今的因特网流量分类研究中相当有效( 包括p 2 p 流量) 。 事实上,很多的商业流量管理系统都采用类似的技术来增强流量分类的健壮性。 然而,基于载荷的因特网流量分类方法具有一定的局限性。基本上,这种方法基 于以下两个假设:( 1 ) 分组数据的荷载部分可见;( 2 ) 载荷部分的特征已知。 前一个假设要求网络设备对分组数据进行“深度检查,这需要对网络数据包进 行拆解,这在高带宽的情况下对设备的运算速度和内存都提出了更高的挑战。对于 超过1g 带宽的主干网络,带宽管理设备如果进行数据包的“深度检查”,往往会 导致高丢包率,对用户的网络服务造成不良影响。另一方面,一旦网络应用对自己 的数据包进行加密,载荷部分的特征将不可见( 包括t c p u d p 端口号) ,无法采用 这种方法进行分类。现今主流的一些b i t t o r r e n t 客户端,例如:a z u r e l l s ,肚o r r e n t 和 b i t c o m e t ,都采用了载荷加密技术。 后一个假设说明这种方法只能识别那些特征码已知的网络流量,而无法识别那些 特征码未知的。同时,由于网络应用在进行版本升级的时候,其特征码可能会发生改 变,这就要求分类系统及时更新一个关于应用特征码的列表。维护一个及时的应用特 征码列表是一件十分繁琐的工作,而这通常需要人工的干预,这同时又对一些自动检 测( a u t o m a t i cd e t e c t i o n ) 的研究造成了困扰。近期的一些研究报告都曾经提及过这 个问题【6 ,7 1 。 1 2 3 基于机器学习的因特网流量分类阶段 由于前两种方法具有一定的局限性,近年来,基于机器学习( m a u c l l i n el e a r n j n g , m l ) 的流量分类方法受到越来越多研究者的关注。这种方法从网络流量中抽取一系列 独立于荷载( p a 咖址i n d e p e n d e n t ) 的统计属性( 例如:分组的数目,分组所携带的 字节量,流的持续时间,分组到达的平均间隔时间) ,然后采用机器学习的方法训练 出一个分类模型,从而进行下一步的流量分类。在这种方法中,网络流量用一系列的 流量统计属性进行刻画,m l 分类器通过训练一些己知应用的流量数据,得到一个分类 模型,然后就可以用于对未知的网络流量进行分类。 一4 一 基于机器学习的因特网流量分类研究第l 章绪论 这种方法的有效性假设在于:不同应用的流量在网络层面上都存在着某种统计上 的特性( 例如:流的持续时间,流的空闲时间,分组之间的平均间隔时间,分组的长 度) ,而这种特性对于每种应用而言都是独一无二的,因而可以用于区分不同的网络 应用。九十年代中期,p a 潞o nv 在l0 1 中采用流的统计特性对一系列的t c p 网络应用 进行分类。2 0 0 3 年,d e 懈c 通过一系列包括流的持续时间,分组的平均间隔时间, 分组大小的统计特性对因特网的聊天系统进行分析。之后包括f 1 2 1 4 】的一些研究都 表明,基于流的统计特性的流量分类方法是相当有效的。虽然从理论上而言,流的统 计特性同样可以通过伪装来混淆,但是相比载荷加密这一类的技术,在实践上显得非 常困难。另外,其它有关流的采样( s a m p l i n g ) 和估计( e s t i m a t i o n ) 的研究可为流的 统计特性的获取带来便利【1 5 1 。 1 9 9 0 年,第一个采用m l 相关技术的网络流量控制器被提出【1 6 】,其目的在于使 电信网络得到最有效的利用,这是m l 技术第一次被引入电信网络这个领域。1 9 9 4 年,n a n kj 在网络入侵检测系统的研究中引入m l 技术【1 7 1 ,这是m l 技术第一次被 利用于因特网流量分类研究中,在之后的十余年时间内,基于机器学习的流量分类方 法变得逐渐流行起来。 用机器学习的方法解决因特网流量分类问题,通常情况下分为两类:( 1 ) 聚 类( c l u s t e r i n g ) 的方法,如e m 【1 8 】、a u t o c l a s s 【1 9 i 和k m e a n s 【1 5 2 0 】:( 2 ) 监督学习 ( s u p e n r i s e dl e a r n i n g ) 的方法,如n a i v eb a y 船【2 1 2 4 】,b a y 髑i a nn e u r a l ln e t w 0 r k 【2 5 1 和d e c i s i o nn e e 2 3 】( 有关利用机器学习方法进行因特网流量分类的综述可参见n g u y e n t t t 的文献【2 6 】) 。 1 3 本文研究内容及其意义 随着因特网的快速发展,基于端口过滤和基于载荷的传统流量分类方法的局限性 已经凸现,需要研究一种有效的流量分类方法,为因特网业务的q o s 保证、网络异常 检测等提供支撑。本文在这背景下开展研究工作,主要研究内容包括:通过“被动 测量方法收集大量中山大学校园网的分组级( p a c k e t - l e v e l ) 流量数据,从“流 的 角度出发,抽取独立于载荷( p a y l o a d ,i n d e p e n d e n t ) 的流量统计特征作为流量分类依 据,并根据因特网流量分类研究中存在的若干问题,提出两个新型的、基于机器学习 一5 基于机器学习的因特网流量分类研究第1 章绪论 的流量分类模型,有效地提高了分类器的性能。 与以往文献中的方法相比较,本文有效改善了以下三个问题:( 1 ) 以往文献通 常使用单假设的算法,分类性能低下。( 2 ) 以往文献大多使用监督学习方法,需要 大量的标记性训练样本,而无法利用网络中容易获取的未标记性流量数据来改善分类 器性能。( 3 ) 在以往的研究中,流量分类的衡量标准都在于分类的流准确率( f 1 0 w a c c u r a c y ) ,但是在实际的流量分类过程中,真正影响带宽的只是网络中很小的一部 分“大象 流量,以往研究并没有意识到分类的字节准确率( b y t ea c c u r a u c y ) 的重要 性。 监督学习方法需要利用大量的标记性训练样本来完成分类模型的构造。训练样本 的正确标记通常由人工完成,但是现今网络链路的带宽越来越高,流量数据也愈加庞 大,人工标记大量的流量样本将耗费大量的人力、物力,且网络应用的多样性也导致 并非所有的流量数据都能被识别。本文提出的第一个流量分类模型将整体学习和半监 督学习引入到因特网流量分类研究中,该分类模型在训练样本量相当的情况下能够获 得更好的性能,并且可以利用因特网中大量易采集的未标记性流量数据,在少量标记 性训练样本和大量未标记性数据的情况下改善分类器的性能。 在以往的研究中,流量分类的衡量标准都在于流分类准确率( f 1 0 wa c c u r a c y ) , 但是在实际的流量分类过程中,由于大象老鼠流量现象( e l e p h a n t sa n dm i c ep h e - n o m e n o n ) 【2 j 7 】的存在,e r m a nj 【2 8 】提出的字节准确率( b y t ea c c u r a u c y ) 在某些层面上 更为重要。本文提出的第二个流量分类模型结合了整体学习和代价敏感学习这两种机 器学习方法,有效提高了流量分类模型在字节准确率这个新的流量分类指标上的性 能。 实验部分通过一系列的横向比较和纵向比较,证明了本文两个流量分类模型的有 效性。 1 4 论文章节安排 本文由五个章节组成。 第1 章论述了因特网流量分类研究的背景和意义,现今国内外在这方面的研究现 一6 一 基于机器学习的因特网流量分类研究第1 章绪论 状,并简要描述了本文的研究内容及其意义。 第2 章讨论了基于机器学习的因特网流量分类的整个流程,并且结合中山大学校 园网的流量状况进行分析,从而更好展示整个过程。本章的末尾提出了本文在流量分 类过程中关注的三个问题,具体的解决方案在第3 章中详细描述。 第3 章根据前一章提及的三个问题提出了两个基于机器学习的流量分类模型,主 要涉及到整体学习、半监督学习以及耗费敏感学习这三类新型机器学习方法在因特网 流量分类研究中的应用。 第4 章通过一系列的实验对本文的两个流量分类模型进行验证,包括和以往文献 中方法的横向比较,以及算法本身的纵向比较。实验证明了本文方法的有效性。 第5 章对全文进行总结,并展望了研究前景和进一步努力的方向。 一7 一 基于机器学习的因特网流量分类研究 第2 章因特网流量分类的流程 第2 章因特网流量分类的流程 本章重点讨论基于机器学习的因特网流量分类的整个流程,包括流量数据采集、 流的属性提取、流数据采样、属性的最优选择、流量分类模型的构造等。本章将结合 中山大学校园网的流量状况进行分析,从而更好进行展示整个过程。 2 1 流量分类流程概述 如图2 1 所示,基于机器学习的因特网流量分类主要分为以下几个部分: 图2 1 基于机器学习的流量分类体系 首先在流量数据采集阶段,流量采集设备在网络链路上把流量数据采集到本地 ( 通常以p c a p l 格式保存) ,包括本文关注的网络应用的数据( p p l i v e ,t h u n d e r , 等) 以及所有当前时刻通过流量采集设备的其它网络应用的数据( d n s ,s s h ,等) 。 接着在统计特征提取阶段,通过计算流量的一些统计属性( 分组的平均大小,流 的持续时间,分组到达的平均间隔时问) ,生成本文所关注的网络应用的属性集数 据。这一系列的属性集数据被用于之后的分类模型训练。 1h t t p :w w w t c p d u m p o r g p c a p 3 m a n h t m l - 9 一 基于机器学习的因特网流量分类研究第2 章因特网流量分类的流程 在整个过程中,一个可选的步骤是数据采样( d a t as a m p l i n g ) 。在流量数据采集 阶段,所采集下来的流量数据是非常庞大的,而且每种网络应用之间的数量不均。如 果将所有的数据都用于之后的分类模型训练,会导致搜索空间过大,并且由于不同应 用的数量不均,有可能导致分类结果的偏颇。通过数据采样操作,一方面可以降低搜 索空间,提高搜索效率,另一方面可以通过控制操纵不同应用之间的数量分布,达到 最好的分类效果。 属性选择( f e a t u r es e l e c t i o n ) 阶段的作用在于:从统计特征提取阶段中生成的 个属性中挑选出m 个最好的组合用于机器学习,从而使得机器学习能以最小计算耗费 达到最好的分类效果。 机器学习是整个因特网流量分类过程中最为重要的组成部分,在这个阶段,通过 对之前生成的属性集数据进行训练,生成流量分类模型,用于之后的未知流量识别。 需要注意的是,图2 1 是一个离线( o 昏l i n e ) 模式的因特网流量分类体系,在实 际的流量分类过程中,更为普遍的是一种实时( r e a l t i m e ) 的分类模式,如图2 2 所 示。 图2 2 实时模式下的流量分类体系 实时( 出t i m e ) 模式的不同之处在于,分类模型的训练只在模型更新的时候才 进行,通常情况下流量数据直接通过已经生成好的分类模型进行分类。本文所关注的 主要是离线( o 蛋l i n e ) 模式的因特网流量分类,因为从研究的角度来看,对网络流量 一1 0 基于机器学习的园特网i j ;c 量分类研究第2 章因特阿流量分类的流程 的离线分析,更能把握因特网流量的内在本质。在实时模式下,为了保持网络服务的 畅顺,网络数据包在流量采集设备上停留的时间是非常短的,不允许研究者在短时间 内对流量本身做深入的分析。而在离线模式下,由于流量本身已经以p c a p 格式保存于 本地,相对容易对其作深入的分析。并且,离线分析得到的研究成果,可以非常容易 应用于实际的流量管理系统。 下面结合中山大学校园网的流量状况对离线模式的各个过程做相对详细的描述。 22 流量数据采集阶段 为使网络数据充分体现当前田特刚应用的现状( 尤其是在中国) ,本文将网络数 据收集点设在中山大学南校区园区网与外网的边界,如图2 3 所示。 图2 3 流量采集的拓扑结构示意图 中山大学南校区园区网主要分为教学科研区、教工宿舍区、男生宿舍区和女生宿 舍区,合计入网计算机约1 6 0 0 0 台。其中外网路由器分别连接着中因电信和中国教育科 研网这两条光纤链路其中巾园电信的带宽为1g ,而中国教育科研网的带宽为8 0 0 m 。本文的数据采集点就处于这两条光纤链路所在的外网路由器和内网路由器之间。所 有穿越监测点的“入”和“出”两个方向的i p 分组均被镜像到路由器上的另外一个 s p a n 接口,然后由流量采集系统收集、记录到本地硬盘。在这个过程中本文使用的网 络工具是t c p d u m p l 。 l n p t c p d u “po r “ i 基于机器学习的因特网流量分类研究第2 章因特网流量分类的流程 考虑到网络流量存在的日模式( d i l l r n a l lp a t t e r n ) 、周模式( w 砘kp a t t e m ) 等特 点,本文使用t c p d u m p 在每天的不同时段分别采集网络数据,其中分别在每天凌晨 4 :0 0 ( 网络负载低) 、上午1 0 :0 0 ( 网络负载正常) 和晚上2 2 :0 0 ( 网络负载高) 各收 集5 分钟的双向网络数据。为减轻测量系统的处理压力,我们仅抓取每个i p 分组的前 1 5 0b y t e s ,主要包括网络层协议i p 的头部、传输层协议t c p 和u d p 的头部以及应用 层的一部分数据等。当然,每个分组通过监测点的时间戳( t i m es t a n l p ) 也被自动记 录下来( 毫秒级) 。之所以每个分组被捕获的最大长度为1 5 0b y t e s ,是因为一方面可 以保证分组中含有足够的应用层信息用于正确标记训练样本( 本文在训练集数据的构 造阶段仍一部分采用基于载荷的方法对网络应用进行类别标记,因为在大多数的情况 下,用这种方法对流量进行离线标记仍然是最准确的) ,而另一方面这样的捕获长度 又可以降低因捕获数据过大而使得系统过载、产生较大分组丢失率的可能性。 和以往的一些研究不同,在数据预处理时,每个分组的源、目标地址并没有被匿 名化( a n o n y m i z e d ) ,这主要是因为接下来做基于地域分析的需要( 如c o u n t r y - l e v e l 和a s 1 e v e l ) 等。例如我们需要将学生宿舍区、教育科研区以及教工宿舍区的流量区分 开来,分别做相应的分析。据统计,男生宿舍区和女生宿舍区的网络流量约占南校区 总体流量的7 0 以上,再考虑到学生使用网络应用的广泛性,本文在第四章进行实验 时主要使用这两个区域的网络数据。 2 3 数据预处理阶段 本小节主要描述因特网流量分类的数据预处理阶段,主要包括:流的属性提取阶 段和数据采样阶段。 2 3 1 流的属性提取阶段 在对网络流量模式及特性进行网络负载层面研究时,一般采用分组( p a u c k e t s ) 、 字节( b y t e s ) 和流( f l o w s ) 这三个指标( m e t r i c s ) ,本文主要从“流 的概念上来 研究因特网的流量状况。与分组和字节不同,“流 不能直接被观测到,它是从分组 级( p a u c k e t 1 e v e l ) 的流量数据中计算得到的。直观来说,“流 反映出网络中的某些 1 2 基于机器学习的因特网流量分类研究第2 章因特网流量分类的流程 应用行为特征,当然多个不同的流也可以映射为同一个行为,因此流对于刻划因特网 网络行为是非常有帮助的。迄今为止,有关“流”的定义并不统一,根据具体研究目 的的不同,研究者可以从各自不同的角度( 研究重点) 给出流的不同解释。下面首先 简要介绍一下几个主要的“流定义,然后给出本文研究所采用的“流”的定义【2 9 】。 1 c b pf l a 有关“流 的定义是由c l 锄k c 等人在研究中最早总结的。他们给出了参数 化的i p 流结构描述,即根据流的方向( 单向或双向) 、单端点( e n d p o i n t ) 或双 端点聚合方式( 源、目标端点,或源目标端点对) 、端点描述的颗粒度( i p 地 址、网络号、a s 号,或i p 地址十端口号) 及功能协议层( t c p 、u d p 或应用 层) 等四个方面定义“流p o 】。他们认为“一个流是活动的,就是指在一个定义 好的时限内( t i m e o u t ) 可以观察到属于给定条件的流的i p 分组( p a c k e t 8 ) 。 这个流的定义对于以后有关流及因特网行为研究产生了深远影响。 2 c i s c on e t f l o w 1 c i s c o 的n e t 丑o w 指在给定源和目标节点之间的单一方向上的i p 分组流( s t r e 锄) , 它们具有相同的源i p 地址、目标i p 地址、源端口号、目标端口号、协议类 型、t o s 、输入逻辑接口号。其主要在c i s c o 的路由器和交换机产品系列实现, 主要用于网络监测、应用监测、用户监测、容量规划和安全分析等,目前实现的 最新版本是第九版。 3 i e t fr t f m 2f l o w r t f m 中的流是指仅根据端点的有关属性来定义的i p 分组集合【3 1 】,这些属 性有:( 1 ) 完整的5 元组信息( 源i p 地址、目标i p 地址、源端口号、目标端口 号、协议类型) ;( 2 ) 网络地址块对( n e t w 0 r kb 1 0 c kp a i r s ,如1 9 2 1 6 8 1 2 4 和 1 9 2 1 6 8 2 2 4 ) 或( 3 ) 地址块列表等。由于r t f m 仅关注端点之间的“会话” ( s e s s i o n s ) 行为,端点的属性值( 如地址和类型等) 在两个方向上是相同的,且 单向流可以被看做是一种双向的退化情况( d e g e n e r a t ec a u s e ) ,因而r t f m 流是 1 h t t p :w w w c i s c o c o m e n u s d o c s i o s s o l u t i o n s d o c s n e t f l o w n f h i t e h t m l 2 h t t p :w w w i e t f o r g r f b r f 2 7 2 4 t x t - 1 3 基于机器学习的因特网流量分类研究第2 章因特网流量分类的流程 双向的( b i - d i r e c t i o n a l ) 。n e t r a m e t1 是第一个实现r t f m 的的流量测量工具, 被广泛使用。 4 i e t fi p f 2 ( i pf l o wi n f o n n a 七i o ne x p o r t ) i e t f 的i p f i x 是以c i s c o 的n e t f l o w 的第九版为基础制定的,根据r f c 3 9 1 7 3 的 定义,一个流是指在一个特定的时间间隔内通过网络中的观测点( o b s e n ,a t i o n p o i n t ) 的i p 分组集合,属于同一个流的分组具有相同的属性集合。每个属性 都是直接来源于以下值或者某种规则的组合:( 1 ) 一个或者多个分组的头部信息 ( 如目标i p 地址) 、传输层协议信息( 如目标端口号) 、应用层协议信息( 如 r t p ) ;( 2 ) 分组自己的一个或者多个属性( 如m p l s 标签号) ;( 3 ) 分组在传输 处理过程中的信息( 如下一跳的i p 地址、输出接口号) 。可见,i p f 有关流的 定义更具有普遍性,其标准化的进程进展非常顺利,目前已有多家世界上的著名 网络厂商开始或即将支持i p f i x ,如c i s c o 、j u n i p e r 、n o r t e l 、e x t r e m e 等。需要 说明的,目前i p f i x 中的流仍然是单向的( 与n e 钮o w 类似) 。 本文分别从“入”和“出 两个方向描述因特网流量的特性,在流的定义方面主 要参照了c b p f l o w 、c i s c on e t f l o w 和i e t fi p f i x 。本文中的流是指在一个特定的时 间间隔内( 在实际的数据采集过程中时间间隔通常设定为5 分钟) 通过观测点的具有 相同5 元组( ) 的单 向i p 分组的集合。需要注意的是,在本文并没有使用“时限”的概念,而是在每个时 间间隔到达时强制将流设定为结束。下面我们讨论一下本文所定义的两个基本概念: 单向流和双向流。 假设一个流a ,对应的5 元组为 ;在相反的方向上存在流b ,对应的5 元组为 ,满足下列条件: i ) s r c m 胁= 如亡以d d r 上且d s 亡- 0 撕一4 = s r c m d 出; i i ) s r cp 州_ a = d s 亡秽亡且d s 亡秽亡- = s r c 缈b ; 1 h t t p :w 们矿c a j d a o r g t o o l s m e 笛u r e r n e n t n e t r 锄e t 2 h t t p :刑w i e t f o r g h t m l c h a l r t e r s i p 鼷c h a r t e r h t i n l 3 h t t p :哪i e t f o r g 疵疵3 9 1 7 t x t 一1 4 基于机器学习的因特网流量分类研究第2 章因特网流量分类的流程 i i i ) 优o d 一4 = 研咖d 。 则称流a 和流曰组成一个双向流( d u p l e xf l o w ) ,否则流a 为单向流( s i m p l e x f l o w ) 。 监测点 一入方向 出方向 图2 4 单向流、双向流示意图 d 如图2 4 所示,出方向的,f 删一4 和入方向的,f 删卫组成了一个双向流,而出方 向的厂f 删一c 和入方向的,z 删d 则为一个单向流。双向流通常反映了主机之间的正常 数据交换( 如t c p 连接) ,而单向流的成因较多。这里需要再次强调的是,不管是 单向流,还是双向流,均是由单一方向(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健康宣教简图设计参考
- 健康讲座开播
- AI人才发展前景
- AI在哈医医疗与哈药中的应用
- 高考地理复习知识点基础题-工业地域的形成与发展
- 英语四年级下册Unit2 Family rules 单元整体教学设计
- 运输车辆卫星定位装置使用管理制度
- 公关服务公司公关设备使用与维护管理制度
- LC基础技术应用 8
- 2026东莞中职面试题目及答案
- 2026年上海市初三语文二模试题汇编《综合运用》含答案
- (2026版)《煤矿重大事故隐患判定标准》培训课件
- 2026年无锡小升初语文小升初分班考卷:语文阅读写作与基础积累(冲刺讲评版第2套)含参考答案、逐题解析与评分细则
- 2026贵州遵义余庆县公安局面向社会公开招聘警务辅助人员18人笔试备考题库及答案解析
- 2026年安全月知识竞赛试题附答案
- 2026年北京市西城区初三下学期二模英语试卷和答案
- 2026年新版应急处置卡共31项含管理和操作岗位
- 2025年湖北省中考生物、地理合卷试卷真题(含答案)
- GB/T 43232-2023紧固件轴向应力超声测量方法
- 单层厂房抗震设计
- 公路水运工程施工企业(主要负责人和安全生产管理人员)考核大纲及模拟题库
评论
0/150
提交评论