(计算机应用技术专业论文)高速网络中实时流量识别系统的研究与设计.pdf_第1页
(计算机应用技术专业论文)高速网络中实时流量识别系统的研究与设计.pdf_第2页
(计算机应用技术专业论文)高速网络中实时流量识别系统的研究与设计.pdf_第3页
(计算机应用技术专业论文)高速网络中实时流量识别系统的研究与设计.pdf_第4页
(计算机应用技术专业论文)高速网络中实时流量识别系统的研究与设计.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机应用技术专业论文)高速网络中实时流量识别系统的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

、i一,1 ylllli1llh17tll5lif18tli5ijl19ll11ll 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 日期:一迎生:! ! ! ! 一 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: , 蔫 日期:垒f 里:! :! f 牛牡 广 岭 -k , - 、 - 摘要 高速网络中实时流量识别系统的研究与设计 摘要 下一代互联网为用户带来了丰富多彩的用户体验,但同时庞大的 网络流量也给网络管理人员及服务提供商带来了巨大的挑战。流量监 测是保障网络可控性的基础。目前传输速率为1 0 g b p s 的设备已经被 广泛应用,传输速率为4 0 g b p s 的设备也将出现在骨干网上,这给传 统的流量监测技术提出了更高的要求。目前业界对流量识别技术的研 究还远远无法满足业务发展的步伐,主要体现在目前大多数技术都采 用离线分类的手段,无法实现实时监控。本文主要研究高速网络中实 时流量识别系统的研究与设计,该系统能对高速网络环境下的业务进 行实时精确分类,实现下一代网络流量的有效控制。 本文深入学习和研究了传统流量识别技术以及数据挖掘的流量 识别方法,提出了基于数据流挖掘的流量识别技术,并将采样技术应 用到数据包采集过程中,以保证在不影响分类准确性的前提下,降低 流量识别系统的负担。同时,本文将v f d t ( v e r yf a s td e c i s i o nt r e e ) 算法应用于实时流量识别中,并详细分析了如何在实时流量识别系统 中应用v f d t 算法。与此同时,定义了实时属性的重要特性,并制定 了适合于本流量识别系统的实时属性集。最后,通过相关的实验以及 不同情况下的结果进行了统计分析,说明如何根据实时流量识别系统 的要求来使用v f d t 算法,通过选择不同的v f d t 参数以及不同的 分类粒度,全面展示了该流量识别系统的分类精度。 关键词流量识别数据流挖掘采样v f d t 一i 北京邮i 【1 人学硕l :学位论文 a b s t r a c t r e s e a r c ha n dd e s i g n0 fr e a l t i m et r a f f i c c l a s s i f i c a t l 0 nf o rh i g h s p e e dn e t w o r k a b s t r a c t n e x tg e n e r a t i o ni n t e r n e tp r o v i d e su s e r sw i t har i c ha n dv a r i e du s e r e x p e r i e n c e ,m e a n w h i l e ,i th a sb r o u g h tg r e a tc h a l l e n g e s t on e t w o r k m a n a g e r sd u et oi t sh u g en e t w o r kt r a f f i c t r a f f i cm o n i t o r i n gi st h eb a s i s t oe n s u r et h ec o n t r o l l a b i l i t yo ft h en e t w o r k n o w a d a y s ,t h ee q u i p m e n t s w i t h10 g b p st r a n s m i s s i o ns p e e dh a v eb e e nb r o a d l ya p p l i e d ,a n dt h e e q u i p m e n t sw i t h4 0 g b p sw i l la l s oa p p e a ri nt h eb a c k b o n en e t w o r k ,w h i c h g i v e sh i g h e rr e q u i r e m e n t s t ot r a d i t i o n a ln e t w o r kt r a f f i c m o n i t o r i n g s y s t e m n o w a d a y s ,t h er e s e a r c ho nt r a f f i cc l a s s i f i c a t i o nt e c h n o l o g i e si s s t i l lf a rf r o mt h er e q u i r e m e n to ft h ed e v e l o p m e n to fb u s i n e s s i ti sm a i n l y b e c a u s et h em o s to ft e c h n o l o g i e s t o d a ya p d o p t so f f i i n ec l a s s i f i c a t i o n t e c h n i q u e s ,w h i c hc a n n o tr e a l i z er e a l - t i m em o n i t o r i n g t h i sp a p e rm a i n l y f o c u s e so nt h es t u a ya n dd e s i g nf o rt r a f f i cc l a s s i f i c a t i o ns y s t e mi n h i g h s p e e d n e t w o r k ,w h i c hi sa b l et or e a l i z er e a l - t i m ea c c u r a t e c l a s s i f i c a t i o nf o ra p p l i c a t i o n si n h i g h s p e e dn e t w o r ka n de f f e c t i v e l y c o n t r o ln g it r a f f i c t h i sp a p e rd e e p l ys t u d i e st r a d i t i o n a lt r a f f i cc l a s s i f i c a t i o nt e c h n o l o g y a n dd a t am i n i n gb a s e dt r a f f i cc l a s s i f i c a t i o nm e t h o d ,a n di n t r o d u c e sad a t a h m i n i n gb a s e dt r a f f i cc l a s s i f i c a t i o nt e c h n o l o g y m o r e o e v e r t h i sp a p e ra l s o a p p l i e ss a m p l i n gt e c h n o l o g yt od a t ap a c k e tc o l l e c t i n gm e c h a n i s ms oa st o r e d u c et h eb u r d e no ft r a f f i cc l a s s i f i c a t i o n s y s t e mw i t h o u ta f f e c t i n gt h e a c c u r a c yo ft h ec l a s s i f i c a t i o n m e a n w h i l e ,t h i s p a p e ra p p l i e sv f d t a l g o r i t h mt or e a l _ t i m et r a f f i cc l a s s i f i c a t i o n ,a n da n a l y z e sh o wt oa p p l y v f d ta l g o r i t h mo nr e a l - t i m et r a f f i cc l a s s i f i c a t i o n s y s t e mi n d e t a i l s m e a n w h i l e ,w ed e f i n et h ei m p o r t a n tc h a r a c t e r i s t i c so fr e a l t i m ea t t r i b u t e s , a n di n t r o d u c er e a l - t i m ea t t r i b u t es e t ,w h i c hi ss u i t a b l ef i tf o rt h ep r o p o s e d t r a f f i cc l a s s i f i c a t i o ns y s t e m a t l a s t ,a c c o r d i n gt oe x p e r i m e n tr e s u l t sa n d s t a t i s c a l l ya n a l y s i su n d e rd i f f e r e n ts i t u a t i o n s ,w ei n t o d u c e sh o wt ou s e v f d ta l g o r i t h m d e p e n d i n go nt h er e q u i r e m e n to fr e a l t i m et r a f f i c ,c l a s s i f i c a t i o ns y s t e m o nt h eo t h e rh a n d ,w ef u l l yd e s c r i b ec l a s s i f i c a t i o n a c c u r a c yo ft h i st r a f f i cc l a s s i f i c a t i o ns y s t e mt h r o u g hs e l e c t i n gd i f f e r e n t v f d t p a r a m e t e r sa n dc l a s s i f i c a t i o ng r a n u l a r i t i e s k e yw o r d s :t r a f f i cc l a s s i f i c a t i o n d a t as t r e a mm i n i n g s a m p l i n g 一 v f d t i l l 北京邮电人学硕。 :学位论文目录 目录 摘要i a b s t r a c t i i 目录 第一章引言1 1 1 课题研究背景及意义1 1 2 课题研究的重点及创新意义2 1 3 论文章节安排。2 第二章流量识别技术4 2 1 不同层面的流量识别技术4 2 2 传统流量识别的方法与技术一5 2 2 1 基于端口的方法5 2 2 2 基于净荷检测的方法5 2 2 3 基于流量行为特征6 2 3 数据挖掘算法6 2 3 1 数据源与数据预处理7 2 3 2 属性选择8 2 3 3 主要算法9 2 3 4 算法性能与结果的一些比较9 2 4 高速网络中实时的流量识别1 0 2 4 1 高速网络对流量识别带来的问题1 0 2 4 2 网络流量中的采样技术1 l 2 4 3 基于数据流挖掘的流量识别13 第三章流量采集和采样机制的研究与设计1 6 3 1 数据采集机制1 6 3 1 1lin u x 系统下的包捕获机制1 6 3 1 。2 基于lib p c a p 的包捕获机制l7 3 1 3p f rln g 。19 3 2 数据采样机制一2 l 3 2 1 理论分析2 l 3 2 2 实验观察2 2 3 2 3 高速网络中的应用2 4 第四章基于数据流挖掘的实时流量识别算法研究2 5 4 1h o e f f din g 约束与h o e f f djn g 树算法2 5 4 2v f d t 算法2 6 北京邮电大学硕j :学位论文 日录 4 3v f d t 对h o e f f din g 树的改进2 7 4 4v f d t 的优点以及不足2 8 4 5v f d t 与流量识别系统2 9 第五章高速网络中实时流量识别系统的研究与设计3 l 5 1 系统需求分析3l 5 1 1 基于流的流量特征分析的需求分析3l 5 1 2 高速网络中实时流量识别系统的需求分析3 l 5 2 系统设计与流程图3 2 , 5 2 1 系统分析与设计3 2 5 2 2 系统框架和基本模块3 2 5 2 3 系统主要使用的数据结构3 3 5 2 4 系统流程图3 4 5 3 模块的具体设计与实现。3 6 5 3 1 主要数据结构的设计3 6 5 3 2 流实时属性选择4 l 5 3 3 建树模块4 2 5 3 4 流采集模块4 4 5 3 5 分类模块4 4 第六章实验结果分析4 5 6 1 实验设计4 5 6 1 1 实验环境4 5 6 1 2 数据源4 5 6 1 3 分类粒度4 6 6 2 实验结果的分析4 6 6 2 1 流实时属性的选择- 4 7 6 2 2 与分类结果相关的v f d t 参数。4 9 6 2 3 选择不同的参数值组合5 0 第七章总结与展望5 2 7 1 总结一。5 2 7 2 展望及前景5 2 参考文献5 4 致j 射5 7 攻读学位期间发表的学术论文目录5 8 v 北京邮l 乜人学硕+ :学位论文第一章引言 1 1 课题研究背景及意义 第一章引言弟一早jli 下一代网络是集多业务、宽带化、分组化、开放性、移动性以及安全可管于 一体的网络平台。它使得在新一代网络上语音、视频、数据等综合业务成为了可 能,可并行提供话音、数据、多媒体等多种业务。与此同时,其开放式的业务接 口结构使得新业务的开发更为灵活、多样,大大提高了业务开放的能力。 正是由于下一代网络的多业务特性,随之也涌现出了一大批以p 2 p 业务也 代表的语音、数据和多媒体业务。这些丰富多样的网络服务给用户带来了前所未 有的体验,但同时也给网络运营商带来了巨大的压力。网络运营商需要对网络流 量及其业务很有好的管理及控制能力,以便为用户提供有服务质量保证的差分服 务,其本身也可从带宽运营向业务运营转变。同时,有效识别各项业务还有利于 网络运营商给用户提供一个安全可靠的网络,增加用户的满意度及对服务的可信 任度。 因此,在下一代网络中,对业务流进行区分的高速业务识别技术显得尤为重 要。业务识别技术是实现下一代网络的可控、可信、可扩展的一个重要因素。优 秀的业务识别技术不仅可以大大提高网络管理的能力,还能从一定程度上预测网 络的未知流量。它是下一代网络基础技术之一,可广泛应用于网络测量、网络管 理、网络监控、服务质量管理等各个系统中,对于下一代网络业务管理、服务质 量控制等都有着重大的现实意义。 然而要进行高速流量的识别,首先必须做的是捕获到所需的网络流量进行分 析。从网络体系结构来说,捕获网络流量是一切针对网络流量研究的基础。所有 的针对网络应用以及网络本身的行为特征的研究都可以通过研究网络流量来获 得,这主要是因为,不同业务流量的行为特征往往可以通过网络流量的动态特性 来反应。因此,整个系统的基础是数据采集,只有完整的采集到网络数据,才能 进行后续的处理,例如分析属性,流量识别等。所以如何从网络中采集所需的数 据也成为一个很重要的问题。从网络中捕获数据,一般就是以下两种方式:第一 种是基于特定的硬件;第二种是在普通p c 或服务器上用软件实现。后者是计算 机的网络适配器从网络上获得数据帧,然后用软件进行大量的捕获处理。虽然这 北京邮电人学硕j :学位论文 第一章引苦 种方式比第一种方式性能差,但价格低廉,容易修改和升级,因此得到了广泛的 应用。我们也主要集中精力在改进第二种采集方式上。第二种方式一般采用采样 的技术来监测整个网络流量。所以采用何种方式进行采样,也就成为流量采集的 核心研究内容。 在业务识别系统中,流量分析技术也随着网络技术的发展经历了很大的变 化。最新一代的业务识别技术通过引入数据挖掘的技术来对业务流量进行分析。 这类业务识别技术通过利用数据挖掘领域中的已有理论,将其应用于业务流量识 别中。数据挖掘领域已有了多年的发展历史,形成了其相对成熟的理论技术,它 可以从海量数据及数据库中抽取隐含的、具有潜在用处的信息,已广泛应用于市 场营销、金融投资等领域。通过使用适合业务流量的数据挖掘算法可以实现准确 业务识别,具有较好的可扩展性和可预测性。因此,基于数据挖掘的业务识别技 术将是高速业务识别技术的发展方向。通常,利用数据挖掘进行业务识别需要提 取业务流量特征、选择业务识别算法、业务分类结果映射及评价。然而,已有的 研究成果还只探讨了少量可用于业务识别的数据挖掘算法,如朴素贝叶斯、贝叶 斯网络和k 均值算法,对于如何提取合适的业务流量特征、提出适合业务识别 的数据挖掘算法、如何对应用业务识别算法后的结果进行映射以及如何评价分类 识别算法及算法性能都还没有相对成熟的研究成果。适用于业务识别的数据挖掘 算法是实现实时业务识别的关键之处。 1 2 课题研究的重点及创新意义 本课题的创新点在于,在有限的系统资源上如何实现高速流量实时识别。其 主要研究内容包括以下三点: 1 ) 研究适用于高速流量识别的数据挖掘算法,提高识别的准确率。 2 ) 引入流量采样技术,减少流量采集的丢包率对识别效果的影响,以适应 高速网络环境。 3 ) 流量识别的整体框架。 1 3 论文章节安排 本文简要叙述了流量识别技术的发展历史,通过对传统以及不同网络环境下 的流量识别技术进行了分析,探讨了高速网络中实时流量识别系统的研究与设 计。 全文共分为四个部分,第一部分( 第一章、第二章) 概述了流量识别技术的 发展及此课题的研究内容与创新点。第二部分( 第三章、第四章) 阐述了高速网 2 北京邮电人学硕- j j 学位论文第一章j l 苦 络中实时流量识别系统采用的采样技术和识别技术。第三部分( 第五章、第六章) 是本文的重点,具体研究和设计了高速网络中实时流量识别系统,并进行了相关 实验。第四部分( 第七章) 总结了本课题研究的成果。并展望未来的工作计划。 3 北京邮电人学硕一j :学位论文 第二章流量识别技术 第二章流量识别技术 高速流量识别技术是下一代网络的关键技术,对于下一代网络的监控、q o s 控制和业务管理等都有着重大的现实意义。首先,对网络流量进行分类并识别应 用将是一项很有意义的工作,它有助于趋势分析、动态访问控制。其次,识别不 同应用类型的流量是网络安全和流量工程的重要依据。不同应用类型的网络流量 的统计,反映了用户使用网络的行为,从而帮助网络管理员在必要的时候控制用 户的流量。再次,对流量进行分类也是发现入侵或恶意攻击的重要方法,同时 可以识别影响网络资源分布的新应用的出现。 2 1 不同层面的流量识别技术 从目前来看,对网络流量识别的研究主要集中在以下几个层面【l 】: 比特级( b i t 1 e v e l ) : 主要关注网络流量的数量特征,对链路层上的数据进行分析,例如,网络的 带宽、传输速率以及吞吐率等各项指标的变化情况。 包级( p a c k e t l e v e l ) : 主要关注的是网络( i p ) 包的特征,例如,包的大小、到达过程、延迟以及 丢包率等。 流级( f l o w 1 e v e l ) : 流是指具有相同特征网络包的集合,常用的流的划分是基于地址和传输层协 议。最常用的划分方法是基于五元组( 源i p 地址,目的i p 地址,源端口号,目 的端口号,传输层协议) 的。本文为了便于讨论和分析,采用六元组来划分流, 这六元组除了包括上面阐述的五元组外,还加入了一条流中第一个包的到达时 刻。 业务级( a p p l i c a t i o n - l e v e l ) : 主要是根据应用层的协议去划分,不同应用层协议之间由于协议的区别,产 生特征各异的流量,主要的研究包括有不同协议流量的行为特征等。而本文所描 述的流量识别系统主要目的就是在业务级上划分不同的流量。 上述四个层面的研究,流量的粒度不断的增大,相对应的流量时间跨度也在 不断的增大。在不同时间跨度上,网络流量往往表现出不同的行为规律。有研究 4 北京邮电人学硕i :学位论文第二章流量识别技术 指出【i j :毫秒级时间粒度的网络流量行为特征主要受网络协议的影响;小时以上 时间粒度的网络流量行为特征主要受外界因素的影响;而介于上述两者之间时间 粒度上的网络流量行为特征则表现出自相似性。通常,网络设备( 如三层交换机、 路由器等) 其本身提供了基于i p 包头的分析功能,负责分析和整理网络数据, 按照一定的条件向流采集器( f l o wc o l l e c t o r ) 输出定义格式的流数据,然后再用 软件将采集到的网络数据进行整理、分析和呈现。 因此,流级以及业务级的流量分析将成为趋势。 2 2 传统流量识别的方法与技术 进行网络流量识别是网络管理任务的一个重要目标,如流量的服务质量、流 量策略、带有诊断的监控等。当前所采用的流量识别的方法主要有【2 】,基于端i = 1 、 基于净荷检测以及基于流量行为特征等三种方法。 2 2 1 基于端口的方法 这是最传统的流量分类方法。通过应用与其众所周知的端口号( 由i a n a 指 定) 进行映射,以不同的端口号区分不同的应用,如h t t p 流量使用端口号8 0 , f i t 使用端口号2 l 等。但是随着p 2 p 技术的不断发展,许多新的反监测、反封 锁技术也被引入。当前大部分的p 2 p 应用开始支持用户自定义端口号、随机动 态端口号、端口跳变技术或h t t p 伪装技术等,使基于特征端口号的流量识别方 法的识别率和准确率都大大下降。 基于端口号的流量识别方法属于确定性方法,即这类方法可以确定的识别出 是何种具体的协议h t t p ,f t p ,m a i l ,e m u l e 、b i t t o r r e n t 等。目前,基于端口 的流量识别方法已经不是学术研究的热点,但由于该方法原理简单,技术成熟, 一些对准确性要求不高的流量监测系统仍使用特征端口号识别作为主要的流量 识别手段。 2 2 2 基于净荷检测的方法 由于基于端口方法的失效,研究者提出了基于净荷( p a y l o a d ) 检测的方法。 这种方法中,通过分析包的净荷来确定其包是否含有已知应用的特征字段,从而 去关联具体的应用协议。研究表明,这些方法能够准确地识别不同应用的流量。 然而,有些应用如p 2 p 中的b i t t o r r e n t 使用纯文本密码、可变长度的包和加密等 机制,使得基于净荷检测的方法逐渐失效。 5 北京邮电人学硕+ 仁学位论文 第二章流量识别技术 总结起来,基于净荷检测的方法存在着如下问题: 1 ) 需要事先确定流量的特征字段,只能去识别那些可以获得特征字段的流 量,对未知特征字段的流量无能为力。 2 ) 需要保存包的净荷并进行匹配分析,要求较高的处理和存储能力。 3 ) 基于净荷检测的方法会引起侵犯隐私及安全性等问题。 2 2 3 基于流量行为特征 由于上述两种识别方法的逐渐失效,基于传输层流量行为特征的流量识别方 法被提出来。这种方法不需要检测包的净荷,而是通过对传输层数据包的分析, 并结合流量所表现出来的行为特征,来对流量进行识别。如p t p ( p 2 pt r a f f i c p r o f i l i n g ) 算法【2 】,该算法是针对p 2 p 流量,算法不需要访问包的净荷部分,只 需要包头的信息就可以对p 2 p 流量进行识别,这点使得p t p 算法应用很广。 2 3 数据挖掘算法 面对高速网络环境的普及,为了保存和获取相关的网络信息,越来越广泛地 应用数据库相关技术。随着数据库的迅速发展以及人们对数据库管理系统的广泛 应用,积累的数据越来越多,手工分析如此庞大的数据库并获得有价值的结果是 不可能的。为实现用智能化的从大量的数据中迅速发现有用的知识,必须采取一 种更为有效的方法和技术,数据挖掘技术应运而生。 数据挖掘技术【3 j ,是从大量、不完全、包含噪声以及模糊的数据中,提取隐 含在其中的以前未知的并具有潜在可用的模式的过程。数据挖掘的主要方法可以 分为两大类:统计学方法和机器学习方法。其中,机器学习是使用计算机模拟人 类学习活动的一种方法,结合数据挖掘理论用于观测数据( 样本) ,发现规律, 预测新数据。它是研究计算机识别现有知识、推导新知识、不断改善性能和实现 自身完善的方法。 机器学习应用在流量识别中时,网络流量就是样本,通过学习流量的各种属 性特征而发现的规律可以预测流量属于何种应用。已经应用在流量识别中的机器 学习算法可以分为有监督学习、无监督学习和半监督学习三类。对流量识别来说, 每条流都可以由一系列的属性特征来表示,但是不同流之间属性值不尽相同,所 以可以采用机器学习算法,利用这些不同的属性值将网络中的流量与相关应用关 联起来。 图2 1 表明了机器学习在流量识别中的实现过程。首先是对数据源进行预处 理,确定数据源中的每个流量所属的应用类型,作为基准用来测试分类器的准确 6 北京邮电大学硕i :学位论文第一二章流量识别技术 率。其次是进行属性选择,从流量的众多属性中选择所需的属性用来进行机器学 习。然后再选择适合的机器学习算法来对流量进行分类,最后分析算法的准确率 和性能。 图2 - 1 机器学习在流量识别中的实现过程 2 3 1 数据源与数据预处理 一 关于数据源,对于有监督和半监督的学习( 具体参考2 3 3 节) 需要两部分 数据:训练数据集和测试数据集。其中,训练数据集用来构建分类器,测试数据 集用于测试分类器的分类准确性。而对于无监督的学习只需要测试数据集。 而数据源的采集,主要有以下三种方法: 1 ) 软件采集: 用位于边缘路由器上的流量采集软件来采集流量,能采集到链路上的双向 流,即上行流和下行流【4 】。 2 ) 硬件采集: 文章 5 】中提供一种高性能网络监控器,文章 6 1 1 7 8 1 1 9 的数据采集都是使用 这种监控器。 3 ) 网络公开数据: 有些研究机构会在网站上公布其采集到的流量供其他研究人员使用,如文章 【9 】【l o 】分别使用的是a u c k l a n d i v 流量【l l 】和n l a n r 流量【1 2 1 。 表2 1 流量分类法 分类典型应用 b u l k 邱 d a i a b a s e p o s t g r e s ,s q l n e t ,o r a c l e ,i n g r e s i n t e r a c t i v e s s h ,k l o g i n ,r l o g i n ,t e l n e t m a i l i m a p ,p o p 2 3 ,s m t p s e r v i c e sx 11 , d n s ,i d e n t ,l d a p ,n t p r v n vw w w p 2 p k a z a a ,b i t t o r r e n t ,g n u t e l l a m a l i c i o u s i n t e r n e tw o r ka n dv i r u sa t t a c k s g a m e sh a l f l i f e m u l 订m e d i aw i n d o w sm e d i ap l a y e r , r e a l 当然,采集到的流量形式根据研究需求也不尽相同,有时采集完整的、包含 包净荷部分【6 】【8 】【9 】【1 3 】;有时只需要采集包头且, pn - - - - 9 】【1 3 】。 7 北京邮电大学硕f :学位论文 第二章流量识别技术 在获得数据源之后,要把数据源中的流与各自应用关联起来。网络中的应用 非常之多,主要可将流量分为游戏流、多媒体流、p 2 p 流等十判7 1 ,具体如表2 1 所示。进行划分的方法主要有以下两种: i ) 预先分类法【7 】:由端口法,净荷检测法和协议字段法等九种方法所组成, 利用这些方法逐步地标记数据源中的流,对最后无法标记的流采用手动标记【1 4 】, 如文章【6 】 8 】。 2 ) 由k a r a g i a n n i s 等提出的基于流量传输特征的算法【1 5 】,该方法无需访问包。 2 3 2 属性选择 属性是指从大量的对象信息中得到的统计学特征。而流量识别就是利用流的 属性来完成类标记。表2 2 概述了在流量识别中可利用的2 4 6 个属性【引,在文章 【1 6 d p 有详细介绍。 表2 - 2 流量识别中可利用的属性特征 但很多属性特征并不适用于机器学习,因此我们必须筛选出适合于机器学习 的流量属性特征,去除不相关的以及冗余的属性,而这个过程就是属性选择【l o l 。 属性选择的方法主要有两种:一种是凭借主观经验来筛选属性;一种是通过属性 选择算法来确定属性。最初,都是凭借主观经验来确定采用的流量属性特征,最 常用的有包大小、包的间隔时间等【1 7 1 。之后,出现了属性选择算法。属性选择 算法可分为过滤器( f i l t e r ) 和嵌入方式( w r a p p e r ) 两种。过滤器在训练开始前 确定了所需的属性特征,该属性特征集适用于任何分类器,而且数据处理速度非 常快。嵌入方式则要考虑具体的算法,只能构造一个属于特定分类器的属性特征 集,其准确性相对较高但处理速度慢,通常用于数据量小且分类器已经确定的情 况。在流量识别中,由于数据量都非常大,所以一般选择过滤器方法。 目前,基于数据挖掘的流量识别方面的研究大多关注的是各种数据挖掘算法 在流量识别中的准确率,很少有研究人员去关注不同的属性集对准确性的影响。 北京邮电人学硕i :学位论义第二章流量识别技术 但,进行属性选择能提高分类准确率,很好的降低训练时间、提高算法计算性能 垒硝6 】 寸0 2 3 3 主要算法 有监督学习: 也称为分类学习,通过已经建立好的分类器对未分类样本进行分类。其主要 原理是:利用训练样本来构建分类器;利用这个分类器,当有一个新的实例到来, 检测新实例的属性特征,判断该实例的类别,完成类标记。目前,有监督学习中, 最主要的算法有决策树算法、朴素贝叶斯、贝叶斯神经网络和支持向量机等。 i l l 无监督学习: 又称为聚类学习。无监督学习,是通过流量的属性特征之间的相似度将流量 分成不同的簇,一个簇相当于一个类别,从而完成类标记。这些流量预先无需标 记其类别,因此无监督学习不需要有监督学习中的训练样本,而对大量对象指定 类标号是一个代价很高的过程,所以聚类在大型数据库和现实应用中更实用。并 且算法中簇的大小是出算法本身所决定的。目前,主要的聚类算法包括基于划分 的方法、基于密度的方法以及基于模型的方法等。 半监督学习: 有监督学习需要大量带有标记的数据作为训练集。但是,在流量识别中,要 标记训练集上所有流的类代价非常高,而且还可能存在着无法标记类的流。而在 无监督学习中,虽然无需对训练集进行类标记,但是在聚类过程缺少分类器的指 导,使得产生的簇通常并不理想。而半监督学习则综合了以上两种学习方法的优 点,无需对全部训练集进行类标记,而是利用少量的、已标记的实例来指导大量 无标记实例的学习。 2 3 4 算法性能与结果的一些比较 数据挖掘中算法众多,对于流量识别来说可以将以下几方面作为算法评判的 标准: 1 ) 准确性: 算法的准确性是流量识别中最重要的考虑因素。对于流量识别来说,准确性 可以从多方面的因素进行考虑,例如,正确类标记的流量比例和识别未知流的准 确率等。 2 ) 计算性能: 这一点在对较大数据量的流量进行实时分类时显得至关重要。我们主要关注 两点:学习时间( 构造分类器时间) 和分类时间。 9 北京邮t 乜人学硕 :学位论文第二章流量识别技术 3 ) 可伸缩性: 要求算法能同时有效的处理大数据量和小数据量。由于网络流量的未知性, 因此我们在流量识别中要选择伸缩性较好的算法。 4 ) 敏感性: 在实际应用中的数据库通常会包含孤立点、未知数据或者错误数据等异常数 据即噪声。而在流量识别中,我们将未知类的流认为是噪声。噪声会影响聚类的 质量,就要求选择对这样的数据不敏感的聚类算法。 5 ) 高维性: 对于流量识别来说,流量的维度就是指流量的属性的个数。而流量属性众多, 所以要选择可以处理高维数据的算法。 一些著名机器学习算法在这五个标准上比较结果如下: 表2 - 3 算法性能分析比较结果 算法准确率计算可伸敏感性高维性 性能缩性 已知流未知流 k 均值算法 8 5 3 l 4 7 快 较高敏感较低 d b s c a n 算法 7 5 3 5 慢一般敏感一般 e m 算法 9 0 2 2 4 2 一般一般一般一般 c 4 5 9 5 3 0 较快一般不敏感一般 贝叶斯神经网络 9 5 较差较快一般不敏感一般 s v m 算法7 5 9 9 较差较慢较高不敏感局 2 4 高速网络中实时的流量识别 2 4 1 高速网络对流量识别带来的问题 随着网络技术的不断发展,高速网络已经成为网络发展的必然趋势。目前传 输速率为1 0 g b p s 的设备已经被广泛应用,传输速率为4 0 g b p s 的设备也将出现 在骨干网上,这给传统的流量监测技术提出了更高的要求。在大部分网络测量系 统中,网络中的设备如路由器、交换机等并不分析采集,使得我们必须花费大量 的资源去采集、分析、存储流量数据。 l o 北京邮电人学硕十学位论文第一二章流量识别技术 因此,对高速网络流量进行实时流量识别,存在以下两个重要的难题: 1 ) 如何获得所需的高速网络流量: 在真实网络环境中,路由器、交换机这些设备的处理和内存资源都非常的稀 缺,主要用于路由和交换功能,无法应对采集海量的网络数据。而且采用软件采 集网络流量,还存在着速度上的巨大的差异。 2 ) 如何进行实时流量识别: 高速流量的越发普及,使得传统的流量识别方法越来越不适用。 为了较好的解决上述的两个难点,在实际的高速网络流量识别系统中,我们 引入了采样和数据流挖掘的概念。 2 4 2 网络流量中的采样技术 采样技术的研究现状 传统的网络流量采集,通常是对链路上所有网络包进行捕获和统计。但随着 高速网络技术的发展,传统的网络流量采集效率低,而且对网络设备造成非常大 的负担,严重影响了网络业务的正常运行,变得越来越不实用。流量采样作为一 项可扩展的技术逐渐引起研究者更多的关注,其中著名的组织有,i e t f 的 i p f i x ( i pf l o wi n f o r m a t i o ne x p o r t ) t 塌j 工作组和p s a m p ( p a e k e ts a m p l i n g ) t 1 9 - 1 - _ 作 组,二者都建议使用流量采样技术进行流量检测。著名的c i s c o 公司,其产品 n e t f l o w 也采用“lo u to f n 的静态采样技术【2 们,以此降低高速核心路由器收集 流统计信息时的开销。基于流量采样的流量测量技术可以在不影响或较小影响网 络性能条件下,实现一定精度的测量。而近年来出现的自适应抽样技术,更是很 大程度上提高了流量测量的精度和效率。 总结起来,网络流量采样技术是在系统低开销、可容忍精度的前提下,从总 体的部分样本特征中推导出总体所具有的特征,是为待观察网络流量构造一个典 型的子集,通过该子集去推断关于待观察流量的特征。 i e t f 中的p s a m p 工作小组,其主要任务是研究网络流量的采样技术。该 小组提出了一系列的r f c ,提出建立起一种高速网络流量测量的基本框架【2 1 1 , 并分析了可行性,制定了采样测量中标准化的指标参数。 在目前的研究中,网络流量的采样测量方法有许多种,概括起来为两类:一 种是基于统计学的典型采样技术,如简单随机采样、系统采样等;另一种是基于 实际网络应用的采样技术,如泊松采样、自适应采样等。之所以存在如此之多的 方法,最主要的原因是因为网络行为的复杂性造成的。 至今,没有一个统一的标准去考察哪个或哪一些网络流量特征是最有用 的,因此必须针对不同的应用特点去设计才能达到预期的效果。设计一个适合的 北京邮电人学硕l 学位论文第二章流量识别技术 流量采样策略,主要应该从两个方面去考虑:首先,去了解所需流量特征的种类 非常重要,这些特征可以从简单的包数到复杂的流的分布特性等;第二,必须去 确定所系统要求的精确度,通过该精确度可以去推断目标信任度,确定采样策略 的可用性。 典型的采样算法: 采样策略通过采样算法来描述,采样算法主要描述了样本选择的基本过程。 而如何开始采样以及如何确定采样的时间长度一般采用触发机制。采样算法源自 于统计学理论,典型的采样算法主要包括系统采样、随机采样以及分层采样三大 类【冽: 1 ) 系统采样: 也称机械采样。若总体中的样本都按一定顺序排列,初始在规定的范围内随 机地抽取一个样本,然后按照事先定义的规则确定其他样本单位,通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论