




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)基于小波svm的p2p流量识别技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
河南大学硕士研究生学位论文 摘要 对等网络技术( p e e r - t o p e e r , 简称p 2 p ) 的迅速发展,使得其应用已经占据了互 联网业务总量的6 0 8 0 ,甚至引起了网络拥塞,严重影响了其他正常网络业务 的开展,因此就需要对p 2 p 流量进行识别。目前现有的基于端口扫描、应用层特征 串、流量特征等识别方法,对越来越多的使用动态端口甚至经过加密的p 2 p 应用显 得力不从心,使得p 2 p 流量识别越来越困难。如何快速、准确、有效的识别和控制 p 2 p 流量具有非常重要的理论意义和现实价值。 支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 在避免局部最优解,克服“维 数灾难,解决小样本、高维输入空间的p 2 p 流量识别问题上体现出了很多独有的 优势,为解决p 2 p 流量识别问题提供了一条新的途径。 本文从p 2 p 流量识别的原理为切入点,研究分析了p 2 p 流量识别技术中存在的 主要问题和实现有效的p 2 p 流量识别方案所需要的技术,提出了一种基于小波s v m 的p 2 p 流量识别模型。重点工作如下: l 、特征向量的选取:根据节点流量呈现出有差异的行为特征,从数据包,网 络流,节点连接三个层面进行特征向量的分析,通过实验选取了具有行为特征的 三维特征向量,作为支持向量机的输入向量。 2 、核函数的构造:将小波分析中多尺度的学习方法和s v m 结合起来,引入 m e x i c a nh a t d 、波函数来构造s v m 的核函数,实现对流量样本的多尺度逼近,自适 应的处理p 2 p 流量的非线性变化特征,提高识别精确率。 3 、训练算法:提出一种基于小波支持向量机的b o o s t i n g 迭代算法应用于p 2 p 流量识别,通过在学习过程中重点训练错分的样本,来提高学习机的泛化能力, 减小误报率。 最后,对论文提出的新的p 2 p 流量识别模型进行验证,采集了真实的p 2 p 网络 流量,使用建模工具m a t l a b7 0 中的s v m 工具箱( l i b s v m ) 来实现一个用于p 2 p 流量识别的s v m ,实验从误报率和漏报率两个方面进行衡量,并同采用径向基核 第1i 页河南大学硕士研究生学位论文 函数的s v m 识别模型进行了比较,实验表明,基于小波s v m 的p 2 p 流量识别模型具 有较高的识别精度。 关键词:小波;支持向量机;p 2 p , 网络流量 河南大学硕士研究生学位论文第1 | l 页 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ep 2 pt e c h n o l o g y , t h ea p p l i c a t i o no fp 2 ph a s t a k e n u p6 0 一8 0 o ft h et o t a li n t e r n e tt r a f j f i c a n d i t s e r i o u s l ya f f e c t sn o r m a ln e t w o r k o p e r a t i o n ,a r o u s e dc o n g e s t i o no fn e t w o r ka n dr e d u c e s t h e p e r f o r m a n c e o fo t h e r o p e r a t i o n s a tp r e s e n t ,s o m ee x i s t i n gm e t h o d so fp 2 pt r a f f i ci d e n t i f i c a t i o n ,s u c ha sp o r t s c a n n i n g ,a p p l i c a t i o ns i g n a t u r em a t c h i n ga n dc h a r a c t e r i z a t i o no ft r a f f i c ,c a n ti d e n t i f y i n c r e a s i n gp 2 p 撕t l ld y n a m i cp o r ta n de n c r y p t e d ,w h i c hm a k et h ei d e n t i f i c a t i o no fp 2 p t r a f f i cb e c o m e sm o r ea n dm o r ed i f f i c u l t t h e r ei san e e do fap 2 pt r a f f i ci d e n t i f i c a t i o n a l g o r i t h m t h a tf a c i l i t i e st h ed e p l o y m e n to fan e t w o r kt r a f f i c s v mh a ss p e c i a la d v a n t a g e sw i t ha v o i d i n gl o c a lo p t i m u m ,o v e r c o m i n gd i m e n s i o n d i s a s t e r , r e s o l v i n gs m a l ls a m p l e sa n dh i 曲d i m e n s i o n f o rp 2 pc l a s s i f i c a t i o np r o b l e m s ,a n e ww a yo fs o l v et h ep r o b l e mp 2 pt r a f f i ci d e n t i f i c a t i o n i nt h ep a p e r , w eb e g i nw i t ht h eo p e r a t i n gp r i n c i p l eo fp 2 pt r a f f i ci d e n t i f i c a t i o na n d a n a l y z et h ep r o b l e mi nt h ei d e n t i f i c a t i o no fp 2 pt r a f f i ca n dt h en e e d e dt e c h n o l o g yt o r e a l i z et h ee f f e c t i v ep 2 pi d e n t i f i c a t i o ns c h e m e ,a n dp r o p o s ean o v e lm o d e lo fw a v e l e t f u n c t i o na n ds u p p o r tv e c t o rm a c h i n ef o rp 2 pt r a f f i ci d e n t i f i c a t i o n f o c u so nt h ew o r ko f t h ep a p e rh a sb e e nd o n ei sa sf o l l o w s : f i r s t , s e l e c t i o no ff e a t u r ev e c t o r :a c c o r d i n gt ot h en o d ef l o ws h o w sad i f f e r e n t b e h a v i o rc h a r a c t e r i s t i c ,f r o mt h ed a t ap a c k e t ,n e t w o r kf l o w , n o d ec o n n e c t i v i t yo ft h r e e l e v e l so ff e a t u r ev e c t o r s ,s e l e c t e dw i t ht h eb e h a v i o r a lc h a r a c t e r i s t i c so ft h e t h r e e d i m e n s i o n a lf e a t u r ev e c t o ra n da st h es u p p o r tv e c t o rm a c h i n ei n p u tv e c t o r s e c o n d ,s t r u c t u r eo fk e r n e lf u n c t i o n :t h r o u g ht h ew a v e l e ta n a l y s i sc o m b i n e dw i t h t h es v mm e t h o do fc o m p a c t ,i n t r o d u c e dw a v e l e tf u n c t i o n so fm e x i c a nh a tt oc o n s t r u c t s v mk e r n e lf u n c t i o n , p r o p o s ean o v e lm o d e lo f w a v e l e tf u n c t i o na n ds u p p o r tv e c t o r m a c h i n ef o rp 2 pt r a f f i ci d e n t i f i c a t i o n t h i r d ,t r a i n i n ga l g o r i t h m :p r o p o s eo faw a v e l e ts u p p o r tv e c t o rm a c h i n eb o o s t i n g i t e r a t i o na l g o r i t h mi sa p p l i e dt op 2 pt r a f f i ci d e n t i f i c a t i o n f o c u so nt h el e a r n i n gp r o c e s s b yt r a i n i n gt h ew r o n gs u b - s a m p l e st oi m p r o v et h eg e n e r a l i z a t i o na b i l i t yo fl e a r n i n g m a c h i n e ,r e d u c eo ff a l s ep o s i t i v e 第1 v 页河南大学硕士研究生学位论文 f i n a l w ev e r i f i e dt h a tt h em o d e lf o rp 2 pt r a f f i ci d e m i f i c a t i o n , a c q u i s i t i o no fr e a l p 2 pn e t w o r kt r a 伍ca n dd e s i g n e da n di m p l e m e n t e das v mf o rt r a f f i cr e c o g n i z e ri nt h e p o p u l a rm o d e l i n gs o f t w a r eu b s v m i i ln 呛t l a b ,e x p e r i m e n tf r o mt h ef a l s ep o s i t i v e r a t ea n df a l s en e g a t i v er a t e sw e r em e a s u r e da n dw i mi 出fk e m e lf u n c t i o ns v m r e c o g n i t i o nm o d e lw e r ec o m p a r e d e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ea l g o r i t h mc a n e r i e c t i v e l yi m p r o v et h ea c c u r a c yo f p 2 pn e t w o r kt r a f f i ci d e n t i f i c a t i o n k e yw o r d s :s v m ;w a v e l e t ;p 2 p ;n e t w o r k t r a f f i c 关于学位论文独立完成和内容仓i 燕的声艰 本人向河南大学提出硕士学位申请。本人郑重声明:所呈交的学位论文是 本人在导师的指导下独立完成的对所研究的课题有新酌见解。据我所知,除 文中特别加以说明、标注和致谢的地方外,论文中不包括其他人已经发表或撰 写过的研究成果,也不包括其他人为获得任何教育、拜研机构酌学位或征书而 使用过的材料。与我一同工作酌同事对本研究所做酌任何贾献均已在论文中作 7 明确酌说明并表示了谢意。 学位中请人( 学位论文诈者 荟名:虬舶 2 0f 口年占月9 露 关于学位论文著作权使用授权书 本人经河南大学审核批准捩子硕士学位。作为学位论史的作者,本人完全 了解并同意河南大学有关保留、使用学位论文酌要装,即河南大学有权向国家 图书馆、科研信息机构、数据收集机构和本校图书馆等提供学位论文( 纸质文 本和电子文本) 以供公众检案、奎溷。本人授权河南大学出于宣扬、展览学校 学术发展和进行学术交流等羁的,可以采取影印、缩即、扫描和拷冀等复制手 段保存、汇编学位论文( 舐质文本和电子文本) 。 ( 涉及保密内容的学位论文在解密后适用本授权书) 学位获得者( 学位论文作者) 鍪名:塞兰! ! 塾 2 0 o 年月如日 学位论文指导教师蚕名: i 圣篁皇量 2 0p 年舌月幻日 河南大学硕士研究生学位论文第1 页 第1 章绪论 随着p 2 p 网络技术的迅速发展和网络规模的急剧扩张,用户期望p 2 p 网络能 提供下载更快、更安全的网络服务;网络运营商希望能够通过优化p 2 p 网络,使 得传统的业务和网络资源都能得到充分利用,使p 2 p 网络上对开展的业务控制和 管理更为合理和规范。因此,开展p 2 p 网络的q o s 控制研究就显得非常有必要, 而实现q o s 控制也成为了p 2 p 网络管理的重要特征。 要实现p 2 p 网络q o s 控制管理,那么就必须很清楚的了解到p 2 p 网络当前的 工作情况,以便及时对网络采取相应的管理措施。这就需要对p 2 p 流量进行识别, 因此p 2 p 流量识别是实施有效的q o s 控制的基础,从而p 2 p 流量识别技术也受到 越来越多的重视。 1 1 课题背景和意义 对等网络技术( p e e r t op e e rc o m p u t i n g ,简称为p 2 p ) ,正在以飞快的速度发展, p 2 p 技术是作为一种全新的网络通信模式,现在已经被列为影响未来i n t e m e t 发展 的科技技术之一,与网格计算技术( g r i dc o m p u t i n g ) ,云计算技术( c l o u dc o m p u t i n g ) 并列成为分布式计算技术领域的相关研究重点,越来越受到研究者的重视。目前, 针对p 2 p 技术还没有确切的定义,但是它的思想改变了人们对于互联网的理解和 认识。p 2 p 网络与传统网络最大的区别是,它允许两个用户之间进行互相链接,彼 此进行文件传输和共享,改变了传统网络中,服务器客户机的传输模式,资源的 需求者同时也是资源的提供者,同一个资源的需求者越多,其下载速度就越快, 从而明显提高了数据传输的速度和效率。 据艾瑞咨询的2 0 0 9 年1 1 月下载工具软件行业数据显示,排名前1 0 的下载软 件中,有8 款采用了p 2 p 技术,可见如今p 2 p 文件共享已经深入到互联网的日常 行为中。正是p 2 p 技术带来的各种应用上的便利,这种便利从用户的角度,主要 体现在文件下载和流媒体的应用方面,又据全球知名的i s p 流量管理及分析解决方 第2 页河南大学硕士研究生学位论文 案提供商c a c h el o g i c 公司公布的中国互联网实际流量模式分析报告中指出 【1 】,数据交换方面p 2 p 方式己占整个互联网的6 0 8 0 ,其中,电驴( e d o n k e y ) 和b t ( 全名为b i t t o r r e n t ) 是目前我国最主要的下载方式。随着这样趋势发展和蔓 延,就不可避免的带来了各种负面的影响,占据大量的网络带宽,病毒木马的快 速传播,p 2 p 文件共享带来的版权问题等。据统计,p 2 p 下载超过8 0 内容涉嫌盗 版侵权,损害了原创作者的利益,随着3 g 网络的普及,2 0 0 9 年国家广电总局针 对p 2 p 下载站的色情内容、盗版等问题加大了重点打击的力度。 因此,网络的安全性、可管理性及传统应用的可用性等都受到了挑战,加强 网络流量监控,这就非常有必要对p 2 p 流量和网络行为进行深入的了解和分析, 为管理与监控p 2 p 网络提供技术支持。p 2 p 的流量与传统的w e b 流量不同,它独特 的资源共享方式决定了其流量难以管理、控制的特点。 所以,要实现对p 2 p 流量的管理,首先要解决的问题是实现对p 2 p 流量的识别。 深入研究p 2 p 网络流量的特征,选取适当的识别模型,进而高效的对p 2 p 网络流 量进行识别,及时的采取对策,对p 2 p 网络流量进行有效的控制具有非常重要的 理论意义和现实价值。 1 2p 2 p 概述 目前,国内外对p 2 p 没有一个确切的定义,与其说定义,不如说p 2 p 是一种 思想,大致有两个基本含义【2 】: 第一,p 2 p 网络的通信方式,其通信方式与传统的客户机服务器不同,c s 的控制核心是服务器,全部的信息交换都要经过中心服务器进行,部分节点在某 些情况下处于闲置状态,没有被全部利用;而p 2 p 方式下,每个对等节点全部被 充分利用,节点充当服务器和客户端,而且每个对等节点都能够发起一个通信过 程。 第二,p 2 p 网络层面,p 2 p 网络是一种建立在i n t e r n e t 上的而且随时变化的逻 辑网络。此逻辑网络是经过相同的网络客户端彼此连接构成的,互相连接的客户 端能够访问对方的信息资源,而且这样的逻辑网络能够充分利用网络资源,实现 河南大学硕士研究生学位论文第3 页 数据的共享与交换、信息存贮等资源的共享使用。 1 2 1p 2 p 的结构 p 2 p 网络中没有了传统c s 模式下的进行资源传递的服务器功能,在逻辑网络 上形成了一种通信节点之间的资源传递,从而实现了互联网上资源利用的最大化, 这和p 2 p 网络独特的网络结构是分不开的,p 2 p 网络的拓扑结构大致分为三种类 型:中央控制式p 2 p 网络、分布式p 2 p 网络、混合式p 2 p 网络。 ( 1 ) 中央控制式p 2 p 网络: 中央控制式p 2 p 网络结构采用了中心服务器进行资源的分配和调度,但是资 源的存贮并不在中心服务器中,而是在网络中的各个节点处,当一个节点需要搜 寻某个位置的资源时,该节点向中心服务器发送请求,中心服务器在数据库中查 询到匹配的资源后,再将位置信息返回到请求节点,资源的传输是通过请求节点 和响应节点的t c p 连接来进行的,这也是和传统的客户服务器的模式不同的地方。 这种结构依靠的是中心服务器,能对资源进行快速的搜索和定位,速度较快,缺 点是一旦中心服务器出现异常,就使得资源的传输出现中断,安全性能不高。其 典型代表是:n a p s t e r ,n a p s t e r 是m p 3 音乐共享网络,服务器端存放用户自己的 m p 3 文件资源,其他用户在服务器端请求下载资源,整个过程是完全对等的,这 样的p 2 p 网络通常都是使用固定的端口进行资源的传输和共享,所以可以使用固 定端口的方法对p 2 p 的应用进行识别。 图1 - 1 中央控制式p r p 网络 对等节点 桃服务 q :请求 r :响应 d :文件下载 第4 页河南大学硕士研究生学位论文 ( 2 ) 分布式p 2 p 网络 分布式p 2 p 网络结构相比中央控制式p 2 p 网络结构,彻底取消了中心服务器 的功能,节点之间进行资源的传输,成为了真正意义上的对等节点,网络中的所 有节点都参与通信服务,采用分布式p 2 p 网络结构的p 2 p 应用也不再使用固定的 连接端口,而是取而代之的是动态端口,伪装端口,或者直接使用h t t p 作为其 通信的协议,所以这种结构当部分节点出现问题,也不会使得整个网络的资源通 信受到影响,容错性能较好,缺点是每次搜索都需要全网进行,产生大量的网络 流量,网络开销比较大,其典型代表:g n u t e l l a ,g n u t e l l a 采用了分布式的文件共 享网络,没有一个专门搜集文件信息的服务器。e d o n k e y 2 0 0 0 是一种分布式散列表 ( d i s t r i b u t e dh a s ht a b l e ) 的p 2 p 文件共享网络,它继承了分布式文件共享网络,但 是为文件增加了“h a s h 的信息。所谓h a s h ,就是根据文件的内容通过一定的算法 产生一个与之对应且唯一的字符串,这样用户便可以直接通过这个字符串来准确 地定位到需要的文件,而无需关心其文件名是什么。这样的p 2 p 网络由于使用了 动态端口,所以通过应用层载荷特征匹配的方法,来对p 2 p 应用进行识别。 ( 3 ) 混合式p 2 p 网络 图1 - 2 分布式p 2 p 网络 对等节点 q :请求 q h :请求命中 d :下载 在混合式p 2 p 网络中,引入了一个新的概念一超级节点( s u p e rn o d e ) , 河南大学硕士研究生学位论文第5 页 超级节点内存贮了所有节点的信息,把用户节点按照性能的不同,体现在处理速 度、存储带宽等,将节点分为两类,一个是搜索节点,一个是普通节点。搜索节 点和其接近的普通节点构成簇( c l u s t e r ) ,簇内采用中央控制式模式;若干个簇之 间,采用分布式模式,将搜索节点连接起来,结合了两种网络构架的优点,使用 超级节点代替了中心服务器,使用分布式架构提高了整体性能。典型代表: b i t t o r r e n t ,b t 协议是需要一个中心服务器来存放用户的信息的,这样的一个服 务器被称为t r a c k e r 服务器。在整个下载过程中,t r a c k e r 服务器仅负责提供下载该 文件的用户列表,并不会存储文件本身,数据交换完全是用户之间通过p 2 p 进行 的。因此下载的人越多,提供的带宽也就越多,用户获取到自己没有的文件块的 机会就越大,下载速度就越快。这样的p 2 p 网络使用应用层载荷特征匹配的方法 和流量行为特征的方法进行p 2 p 应用的识别,并且可以识别出加密的p 2 p 流量。 图1 3 混合式p 2 p 网络 1 2 3p 2 p 的特点 p 2 p 网络是种架构在互联网上的并且动态变化的逻辑网络。这个逻辑网络是由 网络中运行相同网络程序的客户端互连构成的,呈现出与传统的网络不同的特点: ( 1 ) 非中心化分布:网络中的资源节点,也就是对等节点都是独立的,节点之间 可以互相进行资源的访问与获取,不需要中间服务器和第三方的参与,具有很强 的扩展性,在混合p 2 p 网络中,搜索节点和其接近的普通节点构成簇( c l u s t e r ) , 簇内采用中央控制式模式,但是资源的交互过程还是通过节点之间来完成的,这 第6 页河南大学硕士研究生学位论文 个特点实现了资源利用率的最大化。 ( 2 ) 容错性能好:在p 2 p 网络中,由于资源信息的交互是通过节点之间来完成 的,没有中间服务器的参与,所以在某个对等节点出现问题的时候,会自动对网 络拓扑进行及时调整,不会影响到其它节点对信息资源的正常交换,适合于较大 网络规模的部署,随着p 2 p 网络的发展,较强的容错性能是衡量网络性能的关键 性指标之一。 ( 3 ) 实现负载均衡:在p 2 p 网络中,尤其发展到混合式p 2 p 网络的构架,充分 发挥了中央控制式和分布式p 2 p 网络的优点,将p 2 p 网络中的节点资源全面分配, 每个节点充当着客户端服务器的双重角色,将原来进行资源交换的闲置边缘节点 都给利用起来,每个节点都进行资源的分配和调度,实现了网络的负载均衡,较 好的实现负载均衡的网络,可以实现较高的性价比,也是未来高速网络和海量存 储的必然要求。 1 2 4p 2 p 的流量特征 p 2 p 网络所具备的非中心化分布、较好的容错性能、实现了负载均衡的特点, 使得其发展非常迅速,各种p 2 p 应用应运而生,s k y p e 、b i t t o r r e n t 、e d o n k e y 、p p l i v e 、 q q 等都是常见的p 2 p 应用,随着p 2 p 网络技术的发展,更加复杂的动态端口选择、 双向流下载技术迅速发展,带来更快传输下载速度的同时,也使得掌握p 2 p 流量 的变化规律更加困难,各种p 2 p 业务流量有着如下的特点: ( 1 ) 高速传输:网络中的流量,p 2 p 流量占到5 0 以上,p 2 p 应用的过度使用, 使得网络带宽大部分被p 2 p 流量占据,影响到i s p 其它业务的正常开展,引起网 络的拥塞。 ( 2 ) 海量下载:目前的p 2 p 网络中,p 2 p 应用能够下载上g 的网络资源,其中 以各种免费的、共享的影音文件为主,大量的网络带宽被以娱乐为主的p 2 p 流量 占据,普通的w e b 浏览仅占到5 。 ( 3 ) 在线时间长:各种p 2 p 应用可以在无人值守的情况下,在任何时段进行无 限下载,而且支持在线多线程下载,加大了网络带宽的分配,使得下载服务器不 堪重负。 河南大学硕士研究生学位论文第7 页 ( 4 ) 上下行流量对称:在p 2 p 网络中,p 2 p 应用产生的上行流量和下行流量基本 是一致的,和传统的非对称流量( a d s l ) 不同,容易造成上行链路的拥塞。 1 3 问题的提出 p 2 p 技术的迅速发展,也带来了很多问题,体现在以下几个方面: ( 1 ) 占据大量的网络带宽:分享视频和高清视频等p 2 p 应用占据了大量的网络 带宽,消耗过多的网络资源,引起网络的拥塞,其他正常的网络业务不能开展, 影响到了非p 2 p 应用的用户的权利,损害了i s p 的利益。 ( 2 ) 网络安全防护问题:p 2 p 应用普及的同时,也使得大量的病毒、木马程序、 不健康的内容信息乘虚而入,在互联网上快速的进行传播,给黑客和不法分子以 可乘之机,危害到用户的利益安全。 ( 3 ) p 2 p 文件共享的版权问题:据统计,p 2 p 下载超过8 0 内容涉嫌盗版侵权, 损害了原创作者的利益,随着3 g 网络的普及,2 0 0 9 年国家广电总局针对p 2 p 下 载站的色情内容、盗版等问题加大了重点打击的力度。 因此,网络的安全性、可管理性及传统应用的可用性等都受到了挑战,加强 网络流量监控,这就非常有必要对p 2 p 流量和网络行为进行深入的了解和分析, 为管理与监控p 2 p 网络提供技术支持。p 2 p 的流量与传统的w e b 流量不同,它具有 难以管理、控制的特点: ( 1 ) 没有固定的网络协议标准:p 2 p 应用使用的是其专有协议,普通的防火墙技 术不能对p 2 p 流量进行完全过滤, ( 2 ) 使用了动态端口:为了躲避使用固定端口检测p 2 p 流量,采用了动态端口, 典型应用有p p l i v e ,s k y p e 可以由用户改变原来的默认端1 2 1 ,端口的设置更加灵活, 为正确识别p 2 p 流量加大了难度。 ( 3 ) 伪装为正常流量:k a z z a 等p 2 p 应用在进行流量传输时,其报文格式伪装 成h t t p 流量,更加不易于识别。 ( 4 ) 使用流量加密技术:s k y p e 等使用了报文加密技术,使得根据应用层特征 匹配的方法不能识别出经过加密的p 2 p 流量。 第8 页河南大学硕士研究生学位论文 通过上面我们不难看到,随着网络流量的不断增长,各种p 2 p 网络应用的发 展日趋纷繁复杂化,仅仅依靠简单、无限制地增加网络带宽、控制端口等传统的 方式是不能解决p 2 p 网络流量的根本问题的。我们需要对网络流量进行有效的管 理,对p 2 p 网络流量进行识别,从而保证网络的健康和网络应用的正常服务。 1 4 国内外研究现状 目前的p 2 p 网络技术发展迅速,伴随着p 2 p 文件共享和流媒体的广泛应用, p 2 p 网络的构架也从开始的中心、分布式结构直到发展到现在的混合式结构,各种 p 2 p 应用也从最初采用的常见端1 2 1 发展n t 随机使用动态、经过伪装的端n 2 1 , 从而使p 2 p 网络流量的正确识别变得越来越困难,就目前国内外研究现状来看, 可以将p 2 p 网络流量识别从技术层面上分为:端口识别方法,流量特征识别方法, 深层数据包识别方法和机器学习的识别方法。 文献【3 】通过分析p 2 p 流的相关统计属性特征,主要包括平均流持续的时间、 每条流的平均字节数、每条流的平均包数目,包到达的时间间隔等,从这些属性 特征上来进行识别。文献 4 从p 2 p 流量的开始和结束时间差的角度进行了识别, 并且通过实验证明了2 个p 2 p 流的时间相关系数的关系。文献 5 】针对数据报文消 息起始部分没有进行加密的特点,利用概率统计的方法对加密的p 2 p 流量进行识 别,但是这种方法需要对大量的报文信息进行统计,时间复杂度较高。文献 6 研 究了p 2 p 网络流量具有长时间的固定连接、流量大、高速进行传输、非突变性, 上行和下行流量对称的特征,也就是说当一个方向的流是p 2 p 流的话,其相反的 方向流也一定是p 2 p 流。文献【6 】针对p 2 p 节点充当的上传和下载的双重角色,其 流量变化范围较常规流量具有明显的变化范围,实验证明范围在【2 ,6 7 】之间,进行 有效的识别。 文献 7 】通过p 2 p 流量在传输层表现出的特点结合了端1 3 检测的方法,提出了 基于传输层行为特征的p 2 p 流识别方法,与基于流量属性特征相同的是,这种识 别方法也是建立在宏观角度进行识别的,不同的是,流量属性特征的识别方法是 建立在平均流持续的时间、每条流的平均字节数等这些属性特征基础之上的,而 河南大学硕士研究生学位论文第9 页 基于传输层行为特征的识别方法是根据p 2 p 网络连接的t c p 和u d p 协议的不同, p 2 p 节点使用的是两种协议的混合,u d p 负责控制信息,t c p 负责数据传输。文 献【8 】根据p 2 p 节点连接会出现类似于病毒和木马传播时产生较多的t c p 连接的特 点进行识别。文献 9 根据p 2 p 原节点和对等点发起连接时不仅同时使用了t c p 和 u d p 两种协议,而且发生连接的i p 地址数量的不同进行区分。文献 1 0 利用了在 p 2 p 网络中,节点发起了大量的连接请求,但是无效的连接请求占了很大部分,其 占用总连接的比例较高,这是和其他应用不同的地方。文献 1 1 1 提出b l i n c 方法, 通过对p 2 p 应用从社会、功能、应用3 个方面连接的行为特征进行分析,得出识 别结果。文献 1 2 1 根据p 2 p 网络中的节点双重角色,统计其这样节点的数量,当超 过一定的阈值,就说明这些节点是p 2 p 节点。同时分析了p 2 p 网络的拓扑结构, 其网络直径较其他网络大,当直径超出一定的阈值是也说明是p 2 p 节点,其产生 的流量也就是p 2 p 流量,这个方法需要记录整个网络存储所有的节点信息,系统 开销比较大。 文献【1 3 】【1 4 】都是采用了基于深层数据包的p 2 p 流量识别技术。文献【1 5 】研究 发现在不同p 2 p 应用的t c p 和u d p 数据包报文头部有固定的几个字段的特征值是 不同的,是有规律可循的,并且说明了未来p 2 p 的应用将更加隐蔽的方向发展。 文献【1 6 】对常见的几种p 2 p 协议的特征进行了分析,对应用层数据进行了分析,如: e d o n k e y , b i t t o r r e n t ,k a z z a 协议,并且根据应用层的特征进行具体的识别。文献 1 7 】 使用d p i 识别的方法对多媒体流量进行了分析和识别。文献 1 8 针对p 2 p 网络q o s 的质量需求,提出了统计签名的策略,没有对应用层协议进行分析,而是分析p 2 p 应用属于信息交换还是仅仅传输大量的数据,对p 2 p 流量进行分类管理文献 1 9 】 将端口识别的方法、流量属性特征的识别方法和d p i 方法进行了结合,互相取长 补短。目前,国内外生产厂商陆续推出了部分针对p 2 p 网络流量识别和控制的网 络设备,采用了各自的识别技术。如:思科公司的n e t l o w 技术 2 0 】、a l l o t 公司的流量管理技术【2 1 】、c a c h el o g i c 公司的p 2 p 流量管理方案 2 2 】等,这些设备 和技术都是基于深层数据包检测技术的。 文献 2 3 】将神经网络技术引入到了p 2 p 网络流量识别领域,因为神经网络技术 第1 0 页河南大学硕士研究生学位论文 适用性能很好,适合处理非线性样本问题,而且具有并行分布处理的能力,纠错 性能较好。使用了三层结构的b p 神经网络,通过确定输入层神经元的数目,流量 的属性特征,通过捕获的数据包相关信息,利用k - 邻近均值算法计算得到包的大 小变换频率、包大小的平均值和包的数目作为特征值,对p 2 p 网络流量进行识别。 文献 2 4 使用4 个输出神经元的神经网络结构,利用均方差计算隐含节点数目,使 用线性激发函数替换了原来的s i g m o i d 函数,通过对权值进行调整,比仅仅使用 b p 算法具有更好的纠错和泛化能力,而且避免了过度拟合的问题,取得了很好的 识别效果。文献 2 5 】使用具有增量学习功能的f u z z ya r t m a p 神经网络,利用模糊 集算法处理特征维数,采用监督学习的训练方式,根据端口号标记p 2 p 样本和非 p 2 p 样本,取得了不错的识别效果。文献 2 6 】利用贝叶斯分类器和神经网络技术结 合对p 2 p 流量进行识别。文献1 2 7 1 采用了小波分析与b p 神经网络技术结合起来, 用于p 2 p 流量分析,由于小波的多尺度特性使得需要较少的训练步数,达到了最 佳的预测效果。 文献 2 8 】首次利用统计学原理将支持向量机技术用来进行解决二分类和多值 分类问题被提出,为识别技术又提供了一种解决途径。文献【2 9 将支持向量机技术 用于i n t e m e t 流量分类问题的研究,利用了支持向量机的非线性和结构风险最小化 理论,将流量分类问题转化为了能够求解的二次规划问题。文献 3 0 】根据目前p 2 p 应用呈现出的复杂多变、不易识别、现有的识别方法识别正确率较低的特点,提 出使用支持向量机来实现p 2 p 流量识别问题,将支持向量机应用到了网络流中的 p 2 p 流量识别应用中,实验证明该方法的识别精确率较高。文献 3 1 】在p 2 p 流量检 测中采用径向基核函数,并且引入损失函数,在1 0 。 在支持向量机上,求解的复杂度是由支持向量的数量来决定的,并不是由特 征的维数来决定的 3 8 1 。这个特征给出了其容易导致维数灾难的解决方法:在建立 第2 2 页河南大学硕士研究生学位论文 决策函数时,使用的不是对输入空间的训练样本进行非线性的转换,而是在对输 入向量预先进行比对,得到支持向量,之后再进行非线性的变换。这样做的好处 是,复杂的计算量不是在高维特征空间中完成的,而是在低维的输入空间中来完 成的 3 1 3 特征空间和常见的三种核函数 m e r c e r 定理将核函数定义为特征空间的内积运算形式,选择的核函数的实现 起初是在高维的特征空间中进行运算的。现在经过核函数在输入的特征空间中来 进行,不需要知道高维空间的变换公式。为了解决出现造成的维数灾难问题,很 多机器学习的方法都是经过降低其输入维数的方法进行解决,将向量从复杂的高 维空间转变到容易解决的低维特征空间,这样容易造成部分起作用的相关特征向 量的丢失,从而致使训练学习的性能有所降低。而采用核函数的解决办法与此不 同,它可以从低维的特征空间向高维特征空间实现映射,其维数的因素不会对训 练学习的性能产生影响。 核函数的选取在支持向量机的分类技术中起着重要的作用,构造出不同的核 函数,起到的分类效果也就不相同。已知对称函数七( x ,y ) ,y ( x ) 0 ,满足如下约 束条件: 舻曲歇o ( 3 - 1 0 ) 【北( x ,y ) y ( x ) y ( y ) 撕 0 只要通过变换l f ,满足m e r c e r 条件,就可以用来构造核函数,支持向量机内核 函数的不同其算法也就不同,目前常见的三种核函数分别是: ( 1 ) 多项式核函数: 七( 勋x j ) = ( 五x j ) + c q ( 3 1 1 ) 表示g 阶多项式分类器 ( 2 ) 径向基核函数:( r a d i a lb a s i sf u n c t i o n , r b f ) 河南大学硕士研究生学位论文第2 3 页 坼伪阳斟掣 浯 i矿。i 上式得到的核函数和传统的径向基方法有明显的不同,该处的任一基函数的 中心对应一个支持向量,其输出来的权值是由算法自动进行确定的。 ( 3 ) s i g m o i d 核函数: 后( 船蔚) :t a n h ( 1 ,( 船刁) + 力 ( 3 1 3 ) 得到的支持向量机是其实是包含隐含层的多层感知器,其隐含层节点的数目 是由算法自动进行确定的。 核函数的思想目前有着非常广泛的应用,只要所需要解决的问题牵扯到点积 运算,就可以将问题引入核函数映射到高维的空间去解决,这种解决问题的方法 也称为核方法( k e r n e lm e t h o d s ) 不同的核函数,实现的算法也不尽相同。目前, 对基于核方法的应用模型的研究成果不多,可是作为支持向量机的核心研究内容 已经日益成为研究者的重要研究课题。 3 1 4 基于支持向量机识别技术的优点 ( 1 ) 支持向量机算法是以统计学理论的结构风险最小化为基础的,和传统上的 算法有所不同,支持向量机可以对经验风险进行优化,并且还可以对模型的计算 复杂度进行控制,所以有效的避免了机器学习中的过学习现象。 ( 2 ) 支持向量机器的研究对象是有限样本的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中化学选修原电池课件
- 2024学年泰州市泰兴市九年级语文上学期期中试卷附答案解析
- 电厂闸门安装施工方案
- 高一民主监督课件
- 高一地球自转课件
- 离婚协议书:财产分割、子女抚养及经济补偿合同
- 离婚房产赠与未成年子女抚养费支付合同
- 离婚协议书英汉对照:法律条款解读与应用
- 离婚协议书中涉及知识产权分割的法院模板
- 旅游景区租赁合同转让与权益调整协议范本
- 2023年赛季中国男子篮球职业联赛竞赛规程
- 《马克思主义基本原理概论》期末试卷及答案
- 外发清单模板
- 档案分类和保管期限表
- ISO 15609-1 金属材料焊接工艺规程及评定-焊接工艺规范中文版
- 人居环境科学市公开课一等奖省赛课微课金奖课件
- 高级电工证考试题库电工考试题库
- 2023译林版新教材高中英语选择性必修第一册同步练习-Unit 1 Food matters
- 糖尿病足中医辩证治疗
- 脑膜瘤的护理诊断与护理措施
- T-ZJFS 010-2024 银行业金融机构转型贷款实施规范
评论
0/150
提交评论