已阅读5页,还剩52页未读, 继续免费阅读
(信号与信息处理专业论文)网络流量识别特征码自动提取系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮i l ! 人学硕i :学位论文 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 绉i 螽硷 r 期:垫翌:! :12 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位 本人签名: 导师签名: 适用本授权书。 日期: 同期: 。 北京邮l 乜人学顾f :学位论文 p 砂 网络流量识别特征码自动提取系统的研究与实现 摘要 网络流量识别的目标是希望侦测目标网络的数据流,通过对数据 流的分析发现该数据流使用的协议类型。当前的时代是信息技术的时 代,信息技术的发展是人类历史上一次巨大的进步,尤其是网络的应 用已经深入到生活的每个角落,越来越多的人的生活已经离不开网络 了。若想有效地利用网络,对网络的使用必须注意考虑到各种问题, 例如在架设网络时进行合理的规划部署,提前对网络使用中可能出现 的问题采取措施进行预防,在网络部署完成后要把握网络的使用情 况,对出现的问题要及时地进行排查,这些都涉及到网络流量识别技 术。 另外,随着网络的发展,它能提供的服务也越来越多,一些服务 是需要计费的,而随着服务种类的增多,分业务计费正逐渐变成一种 迫切的需求,网络流量识别技术能够帮助达到这个目的。而且,使用 网络的人群数量逐渐增大,肯定会有很多危害社会安全和网络安全的 因素存在,像恶意病毒、反动和色情内容等,要阻止这些内容的传播, 更要进行网络流量的识别。 因此,网络流量识别技术具有很重要的研究价值。目前,常见的 网络流量识别技术有基于端口的识别技术、基于负载的识别技术和基 于测度的识别技术。其中基于负载的识别技术具有较高的识别准确 率,因而应用比较广泛。基于负载的识别技术实现的一个重要前提是 获得协议的特征码,使用特征码来进行模式匹配,以此来确定网络流 量,设计一套特征码提取系统对于实现基于负载的识别技术具有重要 意义。以往的特征码提取工作大多是通过人工实现的,进行提取时的 工作量很大。本文提出了一种基于g s p 改进算法的特征码自动提取 系统,给出了系统的设计方案和实现,并使用几种协议对系统进行了 测试。 本文首先介绍了网络流量识别技术的研究背景和目前常见的几 种网络流量识别技术,并且重点对比说明基于负载的识别技术的优越 性。而特征码提取作为基于负载识别技术的首要工作,是本文的主要 研究内容和方向。 之后,介绍了几种常见的协议识别方法:基于端口的识别技术、 基于测度的识别技术和基于负载的识别技术,说明了各个方法的实现 原理和特点,并对其准确性和识别效率做了分析比较,说明了基于负 载的识别技术的优点和特征码提取技术对基于负载的识别技术实现 的重要性。对常见的几种协议应用做了介绍,主要包括h t t p 协议、 s m t p 协议、p o p 3 协议和f t p 协议。介绍这些协议的目的是为了明 白协议工作的原理和典型的网络流量交互的流程,对它们的特征码有 一个初步的了解。 随后介绍了改进的g s p 算法和涉及到的序列模式挖掘技术。主 要是对g s p 算法的基本概念、核心思想等做了说明,并对改进的g s p 算法做了说明,提出了改进后算法的实现。给出了基于改进后算法的 的性能分析。 关键字: 北京邮电人学硕1 二学位论文 r e s e a r c ha n di m p l e m e n t a t l 0 no f n e t w o r kt r a f f i csi g n a t u r ec o d e s a u t o m a t i ce x t r a c t i o ns y s t e m a b s t r a c t t h eg o a lo fp r o t o c o li d e n t i f i c a t i o nt e c h n o l o g yi st od e t e c tt h et a r g e t n e t w o r k sd a t af l o w s ,a n a l y z et h ed a t af l o w sa n df i n do u tw h i c h p r o t o c o l i su s e di nt h ed a t af l o w t h ec u r r e n te r ai st h ee r ao fi n f o r m a t i o n t e c h n o l o g y i n f o r m a t i o nt e c h n o l o g yi sag r e a ta c h i e v e m e n ti nt h eh u m a n h i s t o r y t h eu s eo fn e t w o r kh a sg o n ed e e pi n t oe a c hc o m e ro fo u rw o r l d m o r ea n dm o r e p e o p l ec a nn o t l i v ew e l lw i t h o u tt h en e t w o r k i fw ew a n t t ou s et h en e t w o r km o r ee f f e c t i v e l y ,al o to fi s s u e sm u s tb ec o n c e r n e d a b o u tw h e nw eu s ei t f o re x a m p l e ,w es h o u l dd od i s p o s i n gw o r kb e f o r e t h en e t w o r kd e p l o y m e n ts ot h a tw ec a nt a k e r i g h tm e a s u r e sw h e n p r o b l e m sa p p e a ri nt h en e t w o r k t h e s ea r ea l lr e l a t e dt ot h ep r o t o c o l i d e n t i f i c a t i o nt e c h n o l o g y i na d d i t i o n ,w i t ht h ed e v e l o p m e n to ft h en e t w o r k ,i tc a no f f e rm o r e a n dm o r es e r v i c e s s o m eo ft h es e r v i c e sn e e dp a y m e n t ,a n da st h e i n c r e a s eo fs e r v i c et y p e s ,t h eb i l l i n gb a s e do nd i f f e r e n ts e r v i c e si s b e c o m i n gu r g e n tn e e d s t or e a c ht h i sg o a l ,w en e e dt h ep r o t o c o l i d e n t i f i c a t i o nt e c h n o l o g y m o r e o v e r , w i t ht h ei n c r e a s i n gn u m b e ro f p e o p l e ,t h e r ec e r t a i n l yw i l lb eal o to fa g a i n s t s e c u r i t yf a c t o r s ,w en e e d t od op r o t o c o li d e n t i f i c a t i o nt op r e v e n tt h es p r e a do ft h e s ee l e m e n t s t h e r e f o r e ,i th a sg r e a tv a l u et os t u d yt h en e t w o r kf l o wi d e n t i f y t e c h n o l o g y a n dn o w a d a y s ,t h em o s tc o m m o nt e c h n o l o g i e sa r et h o s e i d e n t i f i c a t i o n sb a s e do np o r t s ,b a s e do nl o a da n db a s e do ne s t i m a t i o n a m o n gt h e s e ,t h eo n ew h i c hb a s e do nl o a di ss oa c c u r a t et h a tm a k e si t u s i n gw i d e l y a sw es e e ,o n eo ft h em o s ti m p o r t a n tp r e c o n d i t i o n so ft h i s m e t h o di st og e tt h es i g n a t u r ec o d e so fp r o t o c o l s ,a n dt h e nu s i n gt h e s e c o d e st oa c h i e v et h em o d e sm a t c h i n g ,t h r o u g ht h e s es t e p st o g e tt h e 1 1 1 北京邮电人学硕i :学位论文 n e t w o r kf l o w s oi tc a nb ec o n c l u d e dt h em e r i to fd e s i g n i n gas u i t a b l e c o d e si d e n t i f ys y s t e mw o u l dh a v ea ni m p o r t a n ti n f l u e n c et oa c t u a l i z et h e t e c h n o l o g yb a s e do nl o a d h o w e v e r ,t h ef o r m e ri d e n t i f yw o r k sa r e m a i n l ya c h i e v e db yh u m a nt h e m s e l v e s ,a n dt h e r ei sn od o u b to fi t sh i g h w o r k l o a d c o n s i d e r i n gt h e s e ,i nt h i sp a p e r ,ac o d e si d e n t i f i c a t i o ns y s t e m w h i c hb a s e do ng s p a l g o r i t h mw i l lb ep u tf o r w a r d a l s o ,t h en e wp l a n a n di t si m p l e m e n t a t i o nw i l lb eg i v e n a n da tl a s t ,s o m et e s t sb yw h i c h u s i n gp r o t o c o l sa p p l i c a t i o nw i l lb ec a r r i e do n t h i s p a p e rf i r s t l y i n t r o d u c e st h e b a c k g r o u n d o fn e t w o r kf l o w i d e n t i f i c a t i o n t e c h n o l o g ya n ds o m ec o m m o ni d e n t i f yt e c h n o l o g i e s n o w a d a y s a l s ob yc o n t r a s t i n gt h e s e ,t of o c u st h ea d v a n t a g eo ft h e m e t h o dw h i c hb a s e do nl o a d ,a n dt os h o wt h ec h i e fa c t i o ni st og e tt h e s i g n a t u r ec o d e s a uo ft h e s ea r et oe x p l a i nt h em a i n l yr e s e a r c hc o n t e n t s a n dd i r e c t i o n so ft h i sp a p e r s e c o n d l y ,s o m ec o m m o np r o t o c o li d e n t i f ym e t h o d sw i l lb eg i v e n , s u c ha st e c h n o l o g i e sb a s e do np o r t s ,b a s e do ne s t i m a t i o n ,a n db a s e do n l o a d n o to n l yt h ep r i n c i p l e sa n dc h a r a c t e r so fe a c hm e t h o dw i l lb e i n t r o d u c e d ,b u ta l s o ,t h ev e r a c i t ya n di d e n t i f ye f f i c i e n c yw i i lb e 己o m p a r e d ,a n dt h r o u g ht h e s ea n a l y s i s ,i tc a nb es h o w nt h ec o d e si d e n t i f y t e c h n o l o g yh a sg r e a ti m p o r t a n c et o t h et e c h n o l o g yb a s e do nt h el o a d a n da l s o ,s o m ec o m m o np r o t o c o l s a p p l i c a t i o nw i l l b ep r e s e n t i n c l u d i n gh t t p ,s m t p ,p o p 3a n df t p t h ep u r p o s eo ft h e s e i n t r o d u c t i o n si st oc l e a rt h ep r o t o c o l sw o r k i n gm e c h a n i s m a n dt h e p r o g r e s so ft y p i c a ln e t w o r kf l o wi n t e r c o u r s e s ,t h e nt og e ta ne l e m e n t a r y k n o w l e d g eo fs i g n a t u r ec o d e s a f t e rt h ef o r m e rt w os t 印s ,a na m e l i o r a t e dg s pa l g o r i t h ma n di t s s e q u e n t i a lp a t t e r nm i n i n gt e c h n o l o g yw i l lb er e c o m m e n d e d i nt h i s p a p e r , i tm a i n l yf o c u s e so nb a s i cc o n c e p t sa n dc o r ei d e a so fg s p a l g o r i t h m ,t h e na n a l y z e st h ea m e l i o r a t e dg s pa l g o r i t h mi nd e t a i l s ,a n d m a k e si ta c t u a l i z a t i o n an e wd e s i g no fa na m e l i o r a t e da l g o r i t h mb a s e d o ns i g n a t u r ec o d e sw i l lb e g i v e n b e s i d e st h e s e ,t h es y s t e m sf r a m e w o r k , e a c hm o d u l e ss t r u c t u r ea n di t sa c h i e v e m e n t t h ed e s c r i p t i o no fd a t a p r o c e s s i n gw i l lb er e f e r r e d a n da tl a s t ,s o m et e s t sb a s e do np r o t o c o l s s u c ha sh t t p ,s m t pa n df t pw i l lb ec a r r i e do n a l s ot h er e s u l t sa n d i v 北京邮电人学硕1 :学位论文 p e r f o r m a n c ea n a l y s i sw i l lb es h o w na tt h ee n do ft h i sp a p e r k e y w o r d s :p r o t o c o li d e n t i f i c a t i o n ,s e q u e n t i a lp a t t e r n ,g s p a l g o r i t h m ,s i g n a t u r ee x t r a c t i o n v 北京邮电人学硕i :学位论文 v i 北京邮l 乜人学顾。f :学位论文 第一章绪论 目录 1 1 研究背景与意义。l 1 2 研究现状。2 1 3 研究内容2 1 4 本文结构安排3 1 5 本章小结3 第二章背景技术介绍 5 2 1 基于端口的l 】c ) 9 络流量识别技术5 2 2 基于测度的网络流最识别技术5 2 3 基丁二负载的网络流最识别技术6 2 3 1 单模式匹配算法7 2 3 2 多模式匹配算法8 2 4 本章小结9 第三章常见协议及其特征码选择分析 1 0 3 1h 订p 协议1 0 , 3 1 1 概述1 0 3 1 2h t i p 协议特征码选择1 4 3 2s m t p 协议1 4 3 2 1 概述1 4 3 2 2s m t p 协议特征码选择l6 3 3p o p 3 协议1 6 3 3 1 概述1 6 3 3 2p o p 3 协议特征码选择1 8 3 4f 嘈协议l8 3 4 1 概j 苤1 8 3 4 2f t p 协议特征码选择2 1 3 5 本章小结2 l 第四章特征码自动提取系统的研究与实现。2 2 4 1 系统设计背景及目标2 2 4 2 系统设计框架2 2 4 3 各模块详细实现2 3 4 4g s p 算法改进实现2 7 v i i 北京邮电人学硕f :学位论文 4 4 1g s p 算法分析2 7 4 4 2 改进的g s p 算法设计2 7 4 5 系统的主要功能2 9 4 6 本章小结3 0 第五章特征码自动提取系统测试及结果分析。3 1 5 1 系统测试3l 5 1 1 数据源的形成3l 5 1 2 运行步骤3l 5 2 测试结果3 4 5 2 1h r r p 结果分析3 4 “ 5 2 2s m t p 结果分析3 5 5 2 3p o p 3 结果分析3 6 5 2 4f t p 结果分析。3 8 5 3 性能分析3 9 5 4 本章小结4 0 第六章总结与展望 6 1 总结4l 6 2 展望4 2 参考文献 致谢 攻读硕士学位期间发表的学术论文目录 v 1 1 1 4 5 弋 北京邮电人学硕i :学位论文 第一章绪论 本章介绍了网络流量识别技术的研究背景和目前常见的几种网络流量识别 技术,对比其他技术说明了基于负载的识别技术的优越性,介绍了特征码提取对 基于负载的网络流量识别的重要性。阐述了本文的研究方向和主要的研究内容, 并对本文的结构做了介绍。 1 1 研究背景与意义 当前我们已经进入了信息时代,信息技术的发展是人类社会的一次革命,它 在很大程度上改变了人们的生活观念。随着计算机和网络技术迅猛发展,人们之 间利用互联网进行的信息交流变得更加容易、更加频繁。因此,能够准确识别出 网络流量就具有了非常重要的意义。如果能实现这个目的,无论是对网络规划、 网络问题检测、网络使用情况报告,还是对提高网络服务质量、检测网络异常流 量、研究区分服务、按不同业务进行流量计费都有极大的帮助。另外,使用互联 网的人群是十分庞大的,在互联网的使用中,肯定会有许多的恶意病毒、反动、 色情和暴力的内容在传播,这些对互联网的使用发展都产生了巨大的破坏和影 响。因此,网络的安全问题就越来越重要。目前的市场上有许多的网络安全产品, 比如入侵检测系统、软件防火墙、电子邮件监控系统等。这些系统或软件需要对 网络上的内容进行监控或者还原,就要识别清楚传输的数据包的类型,因此必须 能对网络流量进行识别。 但是随着互联网底层和上层应用的发展,一些问题正变得越来越突出,以至 于影响了网络流量识别的准确性和应用程度。当前互联网主干带宽已有了巨大的 提升,在这样高速高带宽的网络上每分钟的流量是相当巨大的。如何设计算法以 处理数量庞大且不断增长的网络流量,使网络流量识别的工作能够顺利进行是识 别算法需要面对的首要问题。而且,现在各种各样的新的协议正在不断地出现。 在过去的网络环境中,绝大部分网络流量被w e b 、f t p 、s m t p 、t e l n e t 等协议 所占据。而近年来,应用层协议的形式与种类都较过去更加复杂,传统协议的流 量在总流量中的比重越来越少。相反,p 2 p 【1 1 、流媒体、网络游戏等新应用协议 不断涌现,并且已经占据了网络流量的6 0 以上心一1 。更重要的是,这些新协议 的规范往往不公开并且不遵守默认固定端口的约定。因此,基于负载的网络流量 识别技术以其识别准确率高,识别协议数量多的优点受到了越来越多的关注。该 方法通过事先详细分析待识别的网络流量用到的协议,找出其交互过程中不同于 其他任何协议的字段作为该协议的特征码。从理论上讲,只要对协议的特征码进 北京邮电人学硕i :学位论文 行了准确的提取,使用基于负载的网络流量识别技术能达到很高的识别准确率, 而且几乎可以识别出任何协议。因此,特征码的提取工作具有十分重要的意义。 1 2 研究现状 网络流量识别技术是现在计算机网络的一个比较热的研究方向,由于大量的 新协议不断地涌现出来,而且协议的实现也越来越复杂,因此优秀的网络流量识 别技术必须要应对这些变化,要能够快速、准确地识别新的协议。目前比较常见 的网络流量识别技术归纳为三类:传统的基于端口的识别技术、基于负载的识别 技术和基于测度的识别技术,其中基于负载的识别技术具有较高的识别准确率和 识别范围,因而研究和使用的也较多。1 使用基于负载的网络流量识别技术首先要确定出网络流量所使用协议的特 征码,只有建立了特征码库,才可以对其进行正确的匹配。 以往对特征码库的建立都是人工进行的,这需要对网络流量涉及的协议交互 流程有很清楚的认识,同时需要对选择出的特征码进行甄别。新的协议层出不穷, 因此会出现大量新的特征码,哪些能用来进行网络流量的识别,这需要认真地考 察。传统的特征码库的建立过程是很复杂的。h a f f n e r p 5 1 等人首次提出使用机 器学习的方法来建立特征码库,其过程为将一条t c p 数据流根据五元组的不同 区分出来,然后根据上下行的方向将其看作两个单向数据流。将两个单向数据流 重组后提取前n 字节作为输入数据生成数据矢量,利用大量的数据矢量作为训 练矢量,使用朴素贝叶斯6 1 、a d a b o o s t f 7 1 等算法进行样本训练,生成检测的模 型。但该方法无法直接建立协议的特征码库,且受到算法复杂度的影响,当数据 量大时反应时间较长。 r s r i k a n t 和r a g r a w a l 8 】提出了一种基于a p r i o r i 9 】算法的g s p 序列模式挖掘 算法,该方法采用迭代构建模式预测库而后进行验证的方式挖掘频繁序列。 1 3 研究内容 本文针对现有的网络流量识别机制,首先介绍了网络流量识别技术的研究背 景和目前常见的几种网络流量识别技术,对比其他技术说明了基于负载的识别技 术的优越性。而进行基于负载的网络流量识别特征码提取工作是首要的,是本文 的主要研究内容和方向。 之后,介绍了几种常见的协议识别方法:基于端口的识别技术、基于测度的 识别技术和基于负载的识别技术,说明了各个方法的实现原理和特点,并对其准 确性和识别效率做了分析比较,说明了基于负载的识别技术的优点和特征码提取 2 北京邮电人学硕i :学位论文 技术对于基于负载识别技术的重要性。对常见的几种协议应用做了介绍,主要包 括h t t p 协议、s m t p 协议、p o p 3 协议和f t p 协议。介绍这些协议的目的是为 了明白协议工作的原理和典型的网络流量交互的流程,初步确认出它们的特征 码。 随后介绍了g s p 算法和涉及到的序列模式挖掘技术。主要是对g s p 算法的 基本概念、核心思想等做了说明,提出了改进后算法的实现。给出了基于改进后 算法的特征码自动提取系统的设计,介绍了系统的框架结构和对数据的处理流 程。并针对h t t p 协议、s m t p 协议、p o p 3 协议和f t p 协议等协议的特征码提 取进行了测试,给出了测试结果的分析。 1 4 本文结构安排 本文的结构安排如下: 第一章主要介绍了本文的研究背景、国内外的研究现状、主要研究内容,确 定了本文研究的方向和主题,对本文的结构和内容做出安排。 第二章主要是介绍了几种常见的协议识别方法:基于端口的识别技术、基于 测度的识别技术和基于负载的识别技术,说明了各个方法的实现原理和特点,并 对其准确性和识别效率等做了分析比较,说明了基于负载的识别技术的优点和特 征码提取技术对于基于负载的识别技术的重要性。 第三章对常见的几种协议应用做了介绍,主要包括h t t p 协议、s m t p 协议、 p o p 3 协议和f t p 协议。介绍这些协议的目的是为了明白协议工作的原理和典型 的网络流量交互的流程,对它们的特征码有一个初步的了解。 第四章研究学习了g s p 算法,介绍了涉及到的序列模式挖掘技术。对g s p 算法的基本概念、核心思想及序列模式挖掘技术做了说明。为了实现利用这种算 法进行特征码自动提取的目的,对g s p 算法进行了改进。基于改进后的算法, 设计了特征码提取系统,对系统的框架结构做了介绍,对系统各功能模块做了说 明。 第五章主要是利用设计的系统对常见的几种协议应用做了特征码自动提取 的实验,以便验证该系统的有效性,对各实验结果给出了分析说明和比较。 第六章对本文的研究做了总结展望,给出了下一步的完善方向。 1 5 本章小结 本章介绍了研究背景、国内外的研究现状、主要研究内容,确定了本文研究 3 北京邮i 乜人学硕f :学位论文 的方向和主题,对文章的结构和内容做出安排。 4 北京邮电人学硕j :学位论文 第二章背景技术介绍 网络流量识别就是通过侦查目标网络的数据流,经一定的分析后确定该数据 流使用的协议类型。常见的网络流量识别方法有基于端口的识别技术、基于测度 的识别技术和基于负载的识别技术。下面分别对这几种识别技术做介绍,对比出 基于负载识别技术的优越性,并进一步介绍特征码提取技术。 2 1 基于端口的网络流量识别技术 基于端口识别技术是比较常见的识别方法,它利用的原理是不同的协议交互 过程中会使用不同的端口号,用不同的端口号来识别网络流量。传统的应用层协 议在i a n a 们中注册了交互中使用的端口号信息,不同的协议使用不同的端口, 因此可用来作为网络流量识别的依据。例如,若某个t c p 流川1 使用了端口号8 0 、 8 0 8 0 或4 4 3 ,则将其标记为w 曲流量。 这种识别方法有一个默认的前提,即操作系统和协议交互的流程都是严格遵 守在i a n a 中注册的端口号信息。因此,这种网络流量识别方法所能识别的协议 数量比较有限,只能是在i a n a 中注册端口号信息的协议数量,由于现在大量 出新协议,而这些新协议一般都不在i a n a 中注册其端口号,因此基于端口的 网络流量识别技术所能准确识别的协议比重正变得越来越少。可以总结出,这种 网络流量识别方法失效的原因有以下两个方面:( 1 ) 新协议开始复用一些公开的 端口来进行协议的交互流程,从而使这些公开的知名端口无法成为网络流量识别 的依据。例如,q q 2 0 0 6 版开始使用作为w e b 流量标记依据的8 0 端口。( 2 ) 在 通信过程中使用的端口号不再是固定的了,比如目前大量使用到得p 2 p 下载方 式,这种下载方式需要占用很大的带宽,对资源的占用很多,因此经常遭到网络 管理员的封杀,很多p 2 p 下载软件的客户端为了避免被封杀,经常使用动态端 口设定的方法。由于这些原因,基于端口的网络流量识别技术已经无法适应实际 应用的需要。 但是,由于算法简单,所需信息少,基于端口的网络流量识别技术的时空复 杂度是所有技术中最低的。 2 2 基于测度的网络流量识别技术 因为基于端口的网络流量识别技术具有很大的缺点,现在基本上已经停止了 5 北京邮i 人学硕l :学位论文 对其的研究,而基于测度的网络流量识别技术正逐渐成为研究的热点。 基于测度的网络流量识别技术利用协议规范的不同造成的流的测度差异来 区别不同的网络流量。所谓流的测度差异是指网络数据流所表现出来的不同特 征。举例来说,传统的h t t p 协议2 1 交互流程产生的报文都比较短小,而近期 来大量出现的p 2 p 协议,其报文长度都比较大。这种网络流量识别技术实现的 前提是必须清楚不同的协议流测度差异,对于新出现的协议,在未得知其流测度 差异的情况下无法进行有效的网络流量识别。因此必须建立其训练集,利用已知 协议的流测度建立训练器,在使用时将已确定的标准流测度和待测得流测度进行 比较,使用适当的算法来判断出待测网络流量所用的协议1 1 3 1 。 不同的协议必然具有不同的规范,因此从理论上说,每种协议都会有其独特 的流测度,以此推论,基于测度的网络流量识别技术能够对已知的协议进行有效 的识别。但是实际的情况却不是这样的,由于无法准确地将流测度进行分门别类, 而只能将其归结为几个大范围的类,导致使用这种技术进行网络流量识别的准确 率无法达到很高,但是比基于端口的网络流量识别技术要高,可以达到7 0 的准 确率。而且,这种技术在实现过程中无需知道协议的细节,只要根据规范了解到 流测度差异即可。但是,因为要根据标准的流测度差异来比较待确定的网络流量, 这种技术的时空复杂度要比基于端口的网络流量识别技术高。 从上面的分析可以看出,该技术的研究实现主要集中在以下方面,首先是如 何选择流测度。因为流测度不是能以一个或两个变量就能描述清楚的因素,在实 际操作时对流测度的选择将直接决定了识别的准确率。其次,在确定了流测度之 后,还需要解决判定算法的问题。 2 3 基于负载的网络流量识别技术 基于负载的网络流量识别技术从本质上说也属于判决问题,其判决对象是负 载和已建立的特征码库。网络流量的负载是很庞大的,将所有负载作为判别的对 象显然是不现实的。因此需要事先详细分析待识别的网络流量,找出其交互过程 中出现的特定字段作为特征码,建立起特征码库。然后在识别的过程中检查流中 的负载部分,如果负载部分出现了特征码库中存在的特征码,则可以将这条网络 流量标记为对应的协议应用。从该技术的实现原理来看,基于负载的网络流量识 别技术具有较高的识别准确率。这种识别技术也不受协议类型的限制,只要建立 了准确完善的特征码库,基于负载的网络流量识别技术能对单连接、多连接、静 态端口、动态端口等多种协议类型进行网络流量识别,具有识别范围广泛的优点。 因此,目前很多厂商在研发的网络流量识别设备时都采用这种技术。 从上面的介绍可以看出,基于负载的网络流量识别技术对于建立特征码库有 6 北京邮i 乜人学硕i :学位论文 十分严格的要求,这是该技术实现的前提。如果特征码库的建立不成功,将直接 影响到识别的准确率和范围。该技术涉及的另个方面是模式匹配算法“们。模 式匹配算法就是在目标串中搜索指定模式的所有出现位置的算法。在本技术中, 用模式匹配来实现待识别负载在特征码库中的特征码匹配判断。需要了解的是, 模式匹配不单单是应用于特征码字符串的匹配判定,它也可以对数字,字母或其 他任何定义的结构单元进行匹配判定工作。常见的模式匹配算法有单模式匹配和 多模式匹配,下面对这两种模式匹配算法做简单介绍。 2 3 1 单模式匹配算法 单模式匹配算法是对一个模式串在目标串中的匹配判定。比如,设模式串为 a b c ,目标串为a b c d a b a b c d a b d 。将模式串和目标串左端对齐,从两个串的第一个 字母开始比较,目标串从第一个字母开始到第三个字母,都可以与模式串吻合, 因此目标串的第一个位置被记录下来,作为匹配吻合位置。再将模式串向右滑动 一个位置,比较目标串的第二个字母和模式串的第一个字母,不吻合,再将模式 串向右滑动一个位置。以此类推直至比较完所有目标串,确定出目标串中与模式 串相吻合的子串位置。常用的单模式串匹配算法包括k m p ( k n u t h m o r r i s p r a t t ) 算法和b m ( b o y e r - m o o r e ) 算法等。 ( 1 ) k m p 算法5 】 , k m p 算法是d k n u t h 、j m o r r i s 和v p r a 仕三人提出来的,这种算法的核 心思想是充分利用了已匹配字符的信息,在匹配的某一步发现字符无法匹配时, 用已匹配字符的信息将模式串向右滑动尽可能远的长度,以此作为比较的新起点 来继续进行匹配工作。仍然以模式串a b c ,目标串a b c d a b a b c d a b d 作为例子。在 普通的单模式匹配过程中,当模式串匹配到a b c d a b 的时候,模式串的a b 分别与 目标串的第五位a 和第六位b 匹配成功,而目标串的下一位a 无法与模式串的c 匹配成功,这时模式串会向右移一个位置。而k m p 算法则会利用己得到的目标 串第六位是b 的信息,将模式串向右移动两位,继续进行匹配比较工作,从而缩 短了匹配工作的事件。 以n 表示目标串的长度,用m 表示的模式串的长度,k m p 算法的时间复杂 度为o ( m + n ) ,空间复杂度为o ( m ) 。 ( 2 ) b m 算法 b m 算法是一种基于后缀的匹配算法,与k m p 算法的主要区别是匹配操作 的方向不同,即在窗口内部从右向左逆向匹配。同时,通过两种启发式方法,即 良好后缀转移机制和不良字符转移机制,来决定下一次匹配时向右跳跃的距离。 b m 算法的基本流程:设文本串t ,模式串为p 。首先将t 与p 进行左对齐, 7 北京邮电人学硕j j 学位论文 然后从右向左进行比较。若是某趟比较不匹配时,b m 算法就采用两条启发式规 则良好后缀转移机制和不良字符转移机制来计算模式串向右移动的距离,直 到整个匹配过程的结束。 1 ) 不良字符转移机制( b a dc h a r a c t e r ) b m 算法中,从右向左匹配时,若发现某个字符x 不匹配,则分两种情况讨 论:一种情况是如果字符x 不包含于模式p 中,那即是说从字符x 开始的m 个 文本显然不可能与p 匹配成功,直接全部跳过该区域即可;另一种情况是如果x 在模式p 中出现,则以该字符进行对齐操作。 2 ) 良好后缀转移机制( g o o dc h a r a c t e r ) 从右向左匹配时,若发现某个字符x 不匹配的同时,已有部分字符匹配成功, 则按如下两种情况讨论:一种情况是如果在p 中位置t 处已匹配的部分p t 在p 中的某位置t 也出现,且位置t 的前一个字符与位置t 的前一个字符不相同,则 将p 右移使t 对应t 方才的所在的位置;另一种情况是,如果在p 中任何位置已 匹配部分p 嘟没有再出现,则找到与p 的后缀p ”相同的p 的最长前缀x ,向右移 动p ,使x 对应方才p ”后缀所在的位置。 在最理想情况下,该算法性能很高,时间复杂性为o ( n m ) ;在一般情况下, 该算法时问复杂性约等于o ( n + m ) ;在最坏情况下,也就是说每次不匹配的字符 出现在最左边,既每次都对模式字符串所有字符进行比较,在此情况下时间复杂 性为o ( n 宰m ) ,但b m 算法的优点是,由于指示目标串的指针不需要回溯,目标 串中的指针能跳过不可能匹配的位置,向前移动尽可能远的距离。 b m 算法最佳适用情况是在字母表很大模式串很长时,在项目实际应用中, 这种情况下b m 算法能够显著提高匹配速度,比具有相同o ( i i l + n ) 时间复杂度的 k m p 算法效率高出大约3 5 倍。 2 3 2 多模式匹配算法 顾名思义,多模式匹配算法是指同时对多个模式串进行匹配的算法。a c 多 模式匹配算法7 川钉是一种常见的多模式匹配算法,这种算法的实现过程可以分 为两步:首先,将多个模式串组成的集合p 构造成一个有限状态自动机,然后将 要匹配的字符串作为自动机的输入,经自动机处理后输出字符串中都出现了哪些 模式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 演员劳动合同范本模板
- 购买移动厨房合同范本
- 湿地公园保安合同范本
- 酒店合资协议合同范本
- 灌注桩基合同补充协议
- 2025年高中一年级化学下册期中测试试卷(含答案)
- 物业用房ab合同范本
- 社区团购推广合同范本
- 置换合作服务合同范本
- 购销办公家具合同范本
- 公证财产协议书范本
- 2024年锦州辅警招聘考试真题附答案详解(综合卷)
- 2025年高校教师资格证之高等教育学测试卷附答案
- 2025-2026学年高二上学期《如何引导高中生“碳索绿色未来”培养环保意识》主题班会课件
- 北师大版数学七年级上册期中综合能力测评卷(含解析)
- 农业经理人考试题库四级及答案
- 门面反恐应急预案
- 《移动电源车运维管理技术规范(柴油机式)》
- 出租注册地址合同范本
- DB32∕T 4700-2024 蓄热式焚烧炉系统安全技术要求
- DB31T 1605-2025电动自行车充换电柜建设和消防安全管理要求
评论
0/150
提交评论