基于DPI的网络流量识别系统的设计与实现优秀毕业论文 参考文献 可复制黏贴.pdf_第1页
基于DPI的网络流量识别系统的设计与实现优秀毕业论文 参考文献 可复制黏贴.pdf_第2页
基于DPI的网络流量识别系统的设计与实现优秀毕业论文 参考文献 可复制黏贴.pdf_第3页
基于DPI的网络流量识别系统的设计与实现优秀毕业论文 参考文献 可复制黏贴.pdf_第4页
基于DPI的网络流量识别系统的设计与实现优秀毕业论文 参考文献 可复制黏贴.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

基于DPI的网络流量识别系统的设计与实现优秀毕业论文 参考文献 可复制黏贴.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号 u d c 学校代码 1 0 4 9 7 武多萎理歹大署 学位论文 题目基王旦 数因络流量迟墨4 丕统的遮让皇塞丑 英文d e s i g n a n di m p l e m e n t a t i o no fn e t w o r kt r a f f i c 题目i 亟曼巫i 鱼殳堑q 堕墨y 墨 星堡垒垒塑鱼q nq i 研究生姓名奎鑫 指导教师姓名 赳上l 一职称 立缒l 一学位 一 4 3 0 0 7 0 申请学位级别硕士学科专业名称通信皇信息丕统 论文提交日期2 q q 笙 q 且论文答辩日期2 q q 笙 且 学位授予单位武这理王太堂学位授予日期 答辩委员会主席 垒址盈 j 乎阅人 斟j 0 一 一 违近乙 一 2 0 1 0 年1 0 月 h j一 r k 独创性声明 本人声明 所呈交的论文是本人在导师指导下进行的研究工作及取得的 研究成果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包 含其他人已经发表或撰写过的研究成果 也不包含为获得武汉理工大学或其 它教育机构的学位或证书而使用过的材料 与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示了谢意 签名 学位论文使用授权书 本人完全了解武汉理工大学有关保留 使用学位论文的规定 即 学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版 允许论文被 查阅和借阅 本人授权武汉理工大学可以将本学位论文的全部内容编入有关 数据库进行检索 可以采用影印 缩印或其他复制手段保存或汇编本学位论 文 同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录 本学位论文 并向社会公众提供信息服务 保密的论文在解密后应遵守此规定 研究生 签名 专鑫导菇 签名 l 彦舀期z 卟备 弓王日 一 j i l 武汉理工大学硕士学位论文 摘要 随着互联网技术的高速发展 各种新的网络应用层出不穷 给人们的工作 生活等带来了极大的方便 但是随着网络承载的业务的不断增多 多种网络应 用软件时时刻刻都在争夺有限的网络带宽 这样各种各样的网络问题也就随之 而来 尤其是以p 2 p 技术为核心的软件占用了大量的网络带宽 造成网络带宽 资源急剧消耗 使运营商不断面临扩容的压力 同时也对大多数用户的网络质 量造成了一定的影响 对网络运营商而言 需要明确了解网络上各种应用软件 的带宽占有情况 以便进行合理的网络规划和网络带宽分配 使关键的应用能 够得到及时响应 从而保证网络服务质量 因此如何从技术上来解决这些问题 已经成为相关各方急于探讨和解决的问题之一 本文重点研究了网络流量识别的关键技术 深入分析了各种流量检测技术 对a c 自动机算法进行了研究 在此基础上提出了一个网络流量识别方案 设计 实现了一个网络流量识别系统 能够满足对各种网络流量的识别和记录 并且 能够进行相应的控制 具体来说 本论文的工作主要包括如下几个方面 1 研究分析了网络流量识别的关键技术 d p i 深度包检测技术 以 及d f i 深度 动态流检测技术 比较了这两种流量检测技术的优缺点 并合理 利用者两种技术的结合来实现网络流量的识别 2 对d p i 技术的理论基础 模式匹配算法进行了研究 重点研究了 a c 自动机算法 分析了a c 自动机在d p i 中的应用 3 在研究分析网络流量识别的关键技术之后 提出了一种基于d p i 的网络 流量识别技术解决方案 设计实现了一种网络流量识别系统 给出了系统的总体结 构 详细分析了流量识别模块的实现 识别引擎的工作原理以及数据包的检测方式 并介绍了d p i 特征库 最后对系统的网络部署方案做了详细的介绍 4 运用本文研究的流量识别技术 搭建了相应的网络流量识别测试环境 对网络上的流量进行了测试分析 能够识别对网络上的绝大多数应用 准确率 和系统的性能都能够达到相应的要求 有很好的稳定性和扩展性 关键词 流量识别 p 2 p 技术 d p i d f i a c 自动机 d p i 特征库 j 0 武汉理工大学硕士学位论文 a bs t r a c t w i t ht h eh i g h s p e e dd e v e l o p m e n to fi n t e m e tt e c h n o l o g y v a r i o u sn e wi n t e r n e t a p p l i c a t i o n sb r o u g h tg r e a tc o n v e n i e n c et op e o p l e sw o r ka n dl i f e h o w e v e r 析t 1 1t h e n e t w o r kc a r r y i n gm o r ea n dm o r eb u s i n e s s m o r ea n dm o r en e t w o r ka p p l i c a t i o n s s c r a m b l ef o rt h e1 i m i t e dn e t w o r kb a n d w i d t ha l lt h et i m e s oa l lk i n d so fn e t w o r k p r o b l e m s i s c o m i n g av a r i e t y o fp 2 pf l o wh a v et a k e nu pal a r g en u m b e ro f b a n d w i d t hr e s o u r c e s r e s u l ti nt h er a p i dc o n s u m p t i o no fn e t w o r kb a n d w i d t h a n dm o s t o ft h eu s e r sn e t w o r kq u a l i t ya r ea l s oa f f e c t e d f o rt h ei n t e m e ts e r v i c ep r o v i d e r s n l e yn e e dt ok n o wt h ec o m p o s i t i o no fn e t w o r kt r a f f i c w h i c hi so c c u p i e db yaw i d e r a n g eo fa p p l i c a t i o n s i no r d e rt oc a l t yo nr e a s o n a b l en e t w o r kp l a n n i n ga n da l l o c a t e t h el i m i t e dn e t w o r kb a n d w i d t h t h u se n s u r i n gb u s i n e s s c r i t i c a la p p l i c a t i o n sr u n n i n g e f f e c t i v e l y t h e r e f o r eh o wt ot a k ee f f e c t i v et e c h n i c a lm e a s u l et os o l v et h e s ep r o b l e m s h a sb e c o m ea ni s s u ef o rt h ei n t e m e ts e r v i c ep r o v i d e r sa n dt h er e l e v a n tp a r t i e s t h i sp a p e rf o c u s e so nt h ek e yt e c h n o l o g i e so fn e t w o r kt r a f f i ci d e n t i f i c a t i o n a n a l y z g sv a r i o u st r a f f i ci d e n t i f i c a t i o nt e c h n o l o g i e sd e e p l ya n df o c u s e so np a t t e m m a t c h i n ga l g o r i t h m b a s e do l lt h i s p r o p o s e dat e c h n i c a ls o l u t i o nf o rn e t w o r kt r a f f i c i d e n t i f i c a t i o n a n dd e s i g na n di m p l e m e n tan e t w o r kt r a f f i ci d e n t i f i c a t i o ns y s t e m w h i c hc o u l da c c u r a t e l yi d e n t i f ya n dr e c o r dt h ev a r i o u sa p p l i c a t i o no fn e t w o r kt r a f f i c a n dc a nm a k ec o r r e s p o n d i n gc o n t r 0 1 s p e c i f i c a l l y t h e p a p e rw o r ki n c l u d e st h e f o l l o w i n ga s p e c t s 1 n l i sp a p e rr e s e a r c h e da n da n a l y z e dt h ek e yt e c h n o l o g i e so fn e t w o r kt r a f f i c i d e n t i f i c a t i o n d p i d e e pp a c k e ti n s p e c t i o n a n dd f i d e e p d y n a m i cf l o wi n s p e c t i o n a n dt h e i rr e s p e c t i v ea d v a n t a g e sa n dd i s a d v a n t a g e s s oa st om a k er a t i o n a lu s eo ft h e t w ot oi d e n t i f yn e t w o r kt r a f f i c 2 t h i sp a p e rr e s e a r c h e dc o m m o n l y u s e dp a t t e r n m a t c h i n ga l g o r i t h m s f o c u s e d o nt h ea n a l y s i so fm u l t i p a t t e mm a t c h i n ga l g o r i t h ma h o c o r a s i c ka u t o m a t o na n d a n a l y z e da p p l i c a t i o no ft h ep a t t e r nm a t c h i n ga l g o r i t h mi nd p i 3 a f t e rt h er e s e a r c ha n da n a l y s i so ft h en e t w o r kt r a f f i ci d e n t i f i c a t i o n p r o p o s e d i i k i 武汉理工大学硕士学位论文 at e c h n i c a ls o l u t i o nb a s e dd p i t h i sp a p e rd e s i g n e da n di m p l e m e n t e dak i n d o f n e t w o r kt r a f f i ci d e n t i f i c a t i o n s y s t e m i m p l e m e n t e dt r a f f i ci d e n t i f i c a t i o nm o d u l e w h i c hc o m b i n e d 埘t 1 1av a r i e t yo ft r a f f i cd e t e c t i o nt e c h n o l o g i e s a n a l y z e dt h ed a t a p a c k e td e t e c t i o nm e t h o d s i n t r o d u c e dt h ed p il i b r a r y s y s t e m sf r a m e w o r ka n d n e t w o r kd i s p o s i t i o nb a s e do ni pn e t w o r k 4 b u i l dt h en e t w o r kt r a f f i ci d e n t i f i c a t i o nt e s t i n ge n v i r o n m e n tb yu s i n ga v a r i e t yo ft r a f f i ci n s p e c t i n gt e c h n o l o g y a n a l y z e dt h en e t w o r kt r a f f i c t h er e s u l t s s h o w e dt h a tt h es y s t e mc o u l di d e n t i f ya n dc l a s s i f yn e t w o r kt r a f f i ca c c u r a t e l ya n d e f f e c t i v e l y t h es y s t e mh a st h ev e r yg o o ds t a b i l i t ya n de x p a n s i b i l i t y k e y w o r d s n e t w o r kt r a f f i ci d e n t i f i c a t i o n p 2 p d p i d f i a ca u t o m a t i o n d p il i b r a r y l 一 夕 武汉理工大学硕士学位论文 目录 第1 章绪论 1 1 1 研究背景及目的意义 1 1 2 流量识别技术简介 1 1 3 国内外的发展现状 3 1 4 本论文的主要工作及组织结构 4 第2 章流量识别关键技术及算法研究 5 2 1 深度包检测技术d p i 6 2 1 1 基于 特征字 的识别技术 7 2 1 2 应用层网关识别技术 8 2 1 3 端口检测技术 9 2 2 深度 动态流检测技术d f i 9 2 3d p i 和d f i 技术的比较 1 0 2 4 协议识别的评价标准 1o 2 5a h o c o r a s i c k 算法研究 1 1 2 5 1 有限状态自动机 1 2 2 5 2 搜索匹配 1 7 2 5 3a h o c o r a s i c k 算法在d p i 中的应用 1 8 2 6 本章小结 1 8 第3 章流量识别系统的实现 1 9 3 1 硬件方案的选择 1 9 3 2 系统的总体结构 1 9 3 3 流量识别模块的实现 2 1 3 3 1 流量识别的处理流程 2 2 3 3 2 协议识别引擎工作原理 2 4 3 3 3 数据包检测方式 2 6 3 3 4d p i 特征库 2 7 3 4 系统的部署方案 2 9 一 武汉理工大学硕士学位论文 3 4 1 传统的直路部署方式 3 0 3 4 2 旁路部署方式 31 3 4 3 改进的直路部署方式 3 2 3 5 本章小结 3 3 第4 章系统测试及结果分析一 3 4 4 1 识别结果分析 3 4 4 1 1 准确率分析 3 4 4 1 2 流量报表分析 3 5 4 1 3p 2 p 协议检测结果分析 3 7 4 2 阻断测试 3 7 4 3 本章小结 4 0 第5 章总结与展望 4 1 5 1 全文的工作总结 4 l 5 2 展望 4 2 致谢 4 3 参考文献 4 4 攻读硕士学位期间发表的论文 4 7 一 武汉理工大学硕士学位论文 第1 章绪论 1 1 研究背景及目的意义 随着互联网技术的迅猛发展 网络已经成为人们生活中不可分割的组成部 分 通过网络人们的工作 生活都变得便捷 欣欣向荣的宽带业务 给运营商 带来机遇的同时也带来了挑战 一方面 p 2 p w e bt v 网络游戏 v o l p 等应 用的普及为运营商吸纳了大批客户 但同时也带来带宽管理 内容计费 信息 安全等一系列新的课题 l 以迅雷 b t 以及e d o n k e y 为代表的p 2 p 流量已经占 据了整个互联网流量的2 3 以上 2 网络的绝大部分带宽被少量用户所占 影响 了大部分用户的网络质量 并使得电信运营商陷入增量不增收的窘境 大量非 法v o i p 运营充斥着正规电信市场 导致合法运营商话务量流失 利润降低 造成以上现象的主要原因是电信运营商对网络上的流量缺乏一个有效技术 监管方案 不知道i p 网络承载的流量和业务组成 从而也就无法对这些流量和 业务进行有效的监管 如果不知道网络流量的组成成分 也没有办法给不同用 户提供一个不同的服务质量 服务等级的保证 当然就不能根据业务特性设置 合理的费率 不能将网络流量的增量转化为收益的增加 3 j 本文着重研究了在城域网的环境下从运营商的角度出发 如何对城域网出 口的网络数据进行有效的技术监管的问题 研究的目的就是提出一种基于d p i 技术的网络流量识别方案 实现一个网络流量识别系统 使该系统可以满足对 网络中各类流量的准确监控和记录 并且能够进行相应的控制 比如限流 阻 断等 从而可以针对不同的用户 不同的流量类型提供不同的q o s 服务 最终 使大多数用户的网络质量得以提高 1 2 流量识别技术简介 流量识别所要解决的主要问题就是如何精准的对网络上的流量进行识别与 分类 并且能够根据需要下发策略对某些流量进行有针对性的控制 从而达到 对网络流量的精细化管理 早期的网络业务流量检测 主要从i p 地址和传输层的端口来了解网络流量 武汉理工大学硕士学位论文 的类型 因为很多传统的应用协议使用固定的知名端口 w e l l k n o w np o r t s 进 行通信 如t e l n e t 使用2 3 端口 d n s 协议采用5 3 端口 h 1 呼使用8 0 端口等 表1 1 显示了部分常用的知名端口与应用层软件 协议之间的对应关系 早期协 议一般规定1 0 2 4 以下的端口给知名协议使用 这样就可以通过统计1 0 2 4 以下 的端口来分析应用层软件 协议流量的分布情况 但随着互联网技术的不断发展 大量的应用层软件为了躲避防火墙的检查 不使用固定端口进行通信 不仅包 括近些年出现的p 2 p 协议 而且包括了越来越多的传统协议 4 例如网络即时语 音沟通软件s k y p e 可以使用8 0 端口和4 4 3 端口 故现在检测到8 0 端口的流量 就不一定能确定是h t t p 流量 表1 1 知名端口与常用应用层软件 协议的对应关系 端口号协议名协议说明 2 1 f t p 文件传输协议 f t p 端口 2 2s s h 安全s h e l l s s h 服务 2 3t e l n e t 远程登录服务 2 5 s m t p 简单邮件传输协议 5 3d n s 域名解析服务 8 0 h t t p 网页浏览服务 4 4 3 h t t p s 网页浏览 能提供加密和通过安全端口传输的另一种h t t p 流量识别技术主要分为基于深度包检测技术 d p i 技术 和基于数据流特征 的d f i 技术 d p i d e e pp a c k e ti n s p e c t i o n 即深度包检测技术 是一种基于 o s i 七层模型中应用层的流量检测和控制技术 通过对网络数据包的应用层数据 进行内容检测 识别出各种应用层的协议或者应用程序 并进行相应的处理 5 j d p i 技术具有准确性高 健壮性好 是网络流量识别的主要方法 d f i 技术的基本思想是 不同的应用类型体现在会话连接或数据流上的状态 各有不同 通过对数据流进行行为分析 并与事先建立好的流量特征模型进行 比对 从而识别数据流 d f i 技术通过分析会话连接流的数据包的长度 连接速 率 传输字节量 包与包之间的间隔等信息来与事先建立好的流量模型对比 从而实现应用协议 软件的识另j t 6 l 由于这种识别技术不需要对应用层的数据进 行拆包解析 因此不会随着应用层特征的变化而失效 对加密协议的识别效果 也较好 2 武汉理工大学硕士学位论文 在实际的应用中 一般会将深度包检测技术和基于数据流特征的检测技术 相结合 对于不同类型的网络流量采用不同的方法识别 从而达到对网络上的 流量精准的识别和分类 1 3 国内外的发展现状 国外在流量识别与控制技术的研究工作和产业化做的较好 s u b h a b r a t as e n 等人在2 0 0 4 年初的时候提出基于应用层签名的p 2 p 流量识别方法i f 实际上是 深度数据包检测技术的一种 该检测技术把p a y l o a d 特征分为固定偏移量 f i x e d o f f s e t 特征和变化偏移量 v a r i a b l eo f f s e t 特征 第一步检查固定偏移量 第二 步检查变化偏移量 在性能上取得了令人满意的效果 韩国的j a m e sw o n k i h o n g 等人于2 0 0 3 年提出一种基于传输层特征的p 2 p 流量检测方法 8 该方法先 通过离线统计的方法找到各种p 2 p 应用的常用端口 然后把这些常用的端口信 息用到流量检测中作为应用分类的依据 9 国外网络设备生产商和网络服务提供商都推出了相关的产品或技术 如 c i s c o 公司的n e t f l o w 技术 l o l a l l o t 的故障恢复流量管理方案 f a i l s a f et r a f f i c m a n a g e m e n ts o l u t i o n s h i c a c h e l o g i c 公司的c a c h e l o g i ep 2 p 管理方案 c a c h e l o g i cp 2 pm a n a g e m e n ts o l u t i o n s l l 列及v e r s ot e c h n o l o g i e s 的n e t s p e c t i v e 系列产品 1 3 等 其中n a s p e c f i v e 系列产品已经拥有了拦截加密p 2 p 应用s k y p e 的能力 国内在流量识别与控制技术方面的研究工作起步的比国外稍微晚一些 但 发展迅速 国内厂商中 比较优秀的有畅讯科技 南京信风 宽广电信 华为 等 目前国内的一些网络设备生产厂商已经推出相应的网络流量识别与控制的 产品 比如宽广电信的t m ag a t e l 0 0 0 华为的s i g9 8 0 0 系列 畅讯科技的 q q s g 1 0 0 0 0 等等 国外产品的特点是硬件平台的性能好 解决方案和产品成熟 国内产品在 硬件方面要稍微羞一些 不过由于国内外网络应用软件的种类有很大区别 国 内的产品在协议识别上是优于国外厂商的 价格上也比国外厂商有较大优势 不管是国外还是国内的流量识别的产品 大都采用了深度包检测技术和基 于数据流特征的识别技术 除了在识别性能和识别精度方面有些差别外 其技 术本质是相同的b 4 1 武汉理工大学硕士学位论文 1 4 本论文的主要工作及组织结构 本文分析和研究了各种网络流量识别技术 重点研究了深度包检测技术d p i 以及深度 动态流检测技术d f i 这两种典型的流量检测技术 研究了d p i 的理论 基础 模式匹配算法 对最为典型的多模式匹配算法a c 自动机做了详细的研 究分析 在此基础上设计和实现了一个基于d p i 的网络流量识别系统 论文的 具体结构安排如下 第1 章阐述了流量识别技术的研究背景 技术简介 国内外的发展现状以 及本论文的主要研究工作 第2 章研究了流量识别所用到的关键技术 详细分析和比较了深度包检测 技术d p i 和深度 动态流检测技术d f i 给出了协议识别的评价标准 对最经典 的多模式匹配算法 一a c 自动机进行了研究 分析了a c 自动机在d p i 中的应 用 第3 章给出了流量识别系统的实现 分析了硬件方案的选择 介绍了系统 的结构 详细介绍了流量识别模块的实现 最后详细分析了网络流量识别系统 的部署方式 第4 章对系统进行测试 并且对测试的结果进行详细的分析 第5 章总结了本课题研究所取得的成果及不足之处 提出了课题进一步深 入研究的展望 4 武汉理工大学硕士学位论文 第2 章流量识别关键技术及算法研究 这里首先介绍下流 s t r e a m 的概念 流量识别中最重要的概念就是流 协 议分析中所要提取的特征就是流的特征 流是一系列数据包的集合 是通信双 方的一次完整的通信过程 流可以这样定义 利用五元组 即源i p 源端口 目的l p 目的端口 协议类型 通常是t c p 肘d p 可以唯一确定一条流 一 条完整的流分为上行和下行 图2 一l 显示了一条完整的t c p 流 脚曲蚺如幽m 扣岫涮如t 懒i p o k 州p 一誓一 圈日誓霉舀j o 虿量i 国l 国 qqq 口 国吗冀i 国 一一 二 一二 一 一一 目 o i 日 瞳 la 吨 弹 n n s 栅p a j1 f o二i g d u v o v 辑 耳 f 孙 霸哪一匠j 西 口 a 托 删1 f 1 m 啊 啊节i 和嘲 r 疆 阳重瞩x 矗p v 啊 f20 0 9 3 1 4 8 2 1 8 6 1 6 1 3 21 0 0 0 1 7 1t c p h t t p d d g n s a c k s e 峭 30 0 9 7 4 0 4i 0 0 0 1 7 12 1 8 6 1 6 1 3 2t c p d d g n h t t p a c k s e q la c k i l 1 2 霍t 7 i i i i l 卅j i 一 1 r 1 1 1 9 i i d i a e l ii qt m 4i k i r a i i i i 50 1 9 8 6 4 62 1 8 6 l 6 1 3 21 0 0 0 1 7 1t c p h t t p d d g nl a c k s e q la r k i60 1 9 9 3 2 92 1 8 6 1 6 1 3 2i 0 o 0 1 7 1t c p t c ps e q m e 3 1 to far e a s s e m b l e 70 1 9 9 9 7 9 2 1 8 6 1 6 1 3 2i o o o 1 7 1 r r r p帅 1 12 0 0o k t e x t p l a i80 2 0 0 0 j 31 0 0 0 1 7 12 1 8 6 1 6 1 3 2t c pd d g n h t t p a c k s e q 3 5 3 e90 2 0 0 0 4 52 1 8 6 1 6 1 3 2 1 0 0 0 1 7 1 t c ph t t p d d g n f i n a c k s e q 哥 l1 00 2 0 0 0 6 61 0 0 0 1 7 12 1 8 6 1 6 1 3 2t c pd d g n h t t p a c k s e q 3 5 3 蠢一 如 a 1o 8 7 2 4 6 2 箱蕊舯 0 内 双k 城蛐蠊蠡 z 1 8 轧蠡 被 盛龇 滩恐潮黼 棚 矗j 扭翱 f 矾妇觚k 1 翮 m if r a m e4 4 0 6b y t e so n 们r e 4 0 6b y t e nc a p t u r e d ie t h e r n e ti i s r c e 1 t e g r o a f 0 8 7 f o o 2 1 9 7 a f 0 8 7 0 d s t h a n g z h o u c a 5 0 9 fc 0 0 o f e 2 ci i n t e r n e tp r o t o c o l s r c 1 0 0 0 1 7 1 1 0 0 0 1 7 1 d s t 2 1 8 6 1 6 1 3 2 2 1 8 6 1 6 1 3 2 1 t r a n s m i s s i o nc o n t r o lp r o t o c 0 1 s r cp o r t d d g n 4 1 6 7 d s tp o r t h t t p 8 0 s e q i a c k 1 ii 2 2 孜篮篡 o 勰羽e l 疙 哺 隧j陆 睡 毒l啊翻目 一 i 嗣鄹哆擎洌 昌 瓣豳 r j 1 翻 巨翮 踟 熏 e 姐 f t l 1 勰 翟 i 谚 圉 闲 二 r l一 叫 固崤 咧 翟 圈 鼍 者 o 1 l 上 o l 一 鼍 k l a i ir 川嗍 1 1 l j l l 唧棚忸 一 l i 酬 9h y 弹他虹t r 扑s t e rp f 口 o c o l b r t p 3 5 2d y t e s p a c k e t s 1 2d i p l 叩娃1 2m 捌 0 一 图2 1 一条完整的t c p 流 从图2 1 可以看出 这条流的源i p 为1 0 0 0 1 7 1 源端口为4 1 6 7 目的i p 为2 1 8 6 1 6 1 3 2 目的端口为8 0 协议类型为t c p 在第l 章已经介绍过早期使用传输层的端口来识别一些常用的应用层的软 件 协议 早期的p 2 p 软件也是如此 那时大多数的p 2 p 软件都使用固定的端口 如b i t t o r r e n t 使用6 8 8 1 6 8 8 9 端口等 表2 1 是部分p 2 p 软件使用的端口号 在 这种情况下 对其流量的识别方式就很简单 直接通过对比传输层的端口信息 即可识别相应的p 2 p 软件 但是随着p 2 p 技术的不断发展 端口识别法逐渐失 武汉理工大学硕士学位论文 效 p 2 p 软件为了躲避防火墙的检测而采用了多种方式 从最开始使用固定端口 到使用动态端口 后来还有随机端口 这就使得基于端口的识别方法失效 目 前端口识别法较少用于p 2 p 流量的识别 只是作为一种辅助的手段来进行应用 层软件 协议的识别 表2 1 部分p 2 p 软件使用的端口号 p 2 p 软件 端口 协议类型 b i t t o r r e n t6 8 8l 6 8 8 9 r c p 厂i 肪p e d o n k e y 4 6 6 2t c p e m u l e 4 6 6 2t c p 4 6 7 2u d p g n u t e l l a6 3 4 6 石3 4 7t c p b e a r s h a r e6 3 4 6t c p u d p w i n m x6 6 9 9t c p 6 2 5 7u d p 目前常见的网络流量检测技术有2 种 一种是以深度包检测技术d p i 为代 表的应用层 特征字 检测方法 另一种是以深度 动态流检测技术d f i 为代表 的基于数据流特征的检测方法 2 1 深度包检测技术d p i d p i d e e p p a c k e ti n s p e c t i o n 即深度包检测技术是一种基于o s i 七层模型 中应用层的网络流量检测技术 通过对网络数据包应用层中的数据进行内容检 测 从而确定数据报文的所承载的应用 d p i 技术 深度包检测技术 是相对传统报文检测的一种新技术 传统报文 检测只是分析数据包2 至4 层的头部 包括源m a c 地址 目的m a c 地址 源 i p 地址 目的i p 地址 源端口 目的端口以及协议类型 而d p i 则在此基础上 增加了对应用层数据的分析 能够识别出各种应用层的协议或者应用程序 图 2 2 显示了d p i 检测技术和传统报文检测的内容的区别 6 武汉理工大学硕士学位论文 产 传输层 网络层 链路层 氲r 传统报文检测 謦 冀 传输层 网络层 链路层 酚 一啐 深度包检测 图2 2d p i 技术与传统报文检测技术的区别 典型的d p i 检测技术主要包括基于 特征字 的识别技术 应用层网关识 别技术以及作为辅助手段的端口检测技术 2 1 1 基于 特征字刀的识别技术 不同的网络应用通常采用不同的应用层协议实现 而各种协议都有其特殊 的指纹 这些指纹可能是特定的b i t 序列或者特定的字符串 基于 特征字 的 识别技术 正是通过数据报文应用层指纹信息来确定业务流所承载的应用 1 5 图2 3 显示了应用层协议q v o d 报文中的指纹信息 黧0 0 7 0 氍i v 豳m r a i m 嚣m t 翻i 1 k 鐾黼黜l 嚣嚣氍醚潮陲凇剽隧飘霜鹾溺 i l l l 三 一 堰 i堤t 臣l n i 瞄盯王 鬲王j 图2 3q v o d p l a y e r 点播时的报文 7 r 武汉理工大学硕士学位论文 图2 3 是q v o d 点播时抓取的报文 可以清楚的看到 应用层的数据中有 q v o dp r o t o c o l 字段 这样的字段可以唯一标识q v o d 这个协议 基于 特征字 的识别技术的关键是要从各种不同格式的数据包中判断出 特征字的集合 即要从应用层的数据中搜索是否存在目标字符串 通过对数据 业务流中特定数据报文中的 指纹 信息来进行匹配从而确定数据流所承载的 网络应用 1 5 根据具体检测方式的不同 基于 特征字 的识别技术又可细分为固定位 置特征字匹配 变动位置特征字匹配和状态特征字匹配三种技术 固定位置特 征字匹配是指特征字的位置在数据包中的偏移是固定的 变动位置的特征匹配 是指特征字的位置在数据包中的偏移是变动的 状态特征匹配就是从当前已识 别的数据流中提取出协议状态信息保存 当还未识别的数据流的状态信息和保 存的某协议的状态信息匹配时 我们就认为此条数据流为此协议软件的数据流 这种方法通俗的讲就是 关联 这种方式检测效率往往比较高i l 引 例如 b i t t o r r e n t 协议的识别 通过反向工程的方法对其对等协议进行分析 所谓对等协议指的是p e e r 与p e e r 之间交换信息的协议 对等协议由一个握手开 始 后面是循环的消息流 每个消息的前面 都有一个数字来表示消息的长度 在b i t t o r r e n t 协议握手过程中 首先是发送1 9 跟着是字符串 b i t t o r r e n t p r o t o c o l 可以看出 19 b i t t o r r e n tp r o t o c o l 就是b i t t o r r e n t 的 特征字 i l 别 2 1 2 应用层网关识别技术 某些应用层业务的控制流和业务流是分离的 在业务流没有任何特征 这 种情况下 我们就要使用应用层网关识别技术来进行识别 应用层网关需要先 识别出控制流 并根据控制流的协议通过特定的应用层网关对其进行解析 从 协议内容中识别出相应的业务流 l 引 对于每一个协议 需要有不同的应用层网关对其进行分析 如s i p h 3 2 3 协议都属于这种类型 s i p h 3 2 3 通过信令交互过程 协商得到其数据通道 一 般是r t p 格式封装的语音流 也就是说 纯粹检测r t p 流并不能得出这条r t p 流是那通过那种协议建立的 只有通过检测s i p h 3 2 3 的协议交互 才能得到其 完整的分析 l 引 8 武汉理工大学硕士学位论文 2 1 3 端口检测技术 本章开头已经详细介绍了端口检测技术 这种流量识别方式最大的优点就 是简单 速度快 不过现在单一的端口检测手段已经不适合大多数应用程序识 别的需要 故目前端口检测技术在d p i 检测中只是作为辅助的手段 2 2 深度 动态流检测技术d f i d f i d e e p d y n a m i cf l o wi n s p e c t i o n 即深度 动态流检测技术 与d p i 进 行应用层的载荷匹配不同 d f i 采用的是一种基于流量行为的识别技术 即不同 的网络应用类型体现在会话连接或数据流上的状态各不相同 这种方法主要用 来识别p 2 p 流量与v o l p 流量 d f i 技术是基于一系列流量的行为特征 建立流量特征模型 通过分析会话 连接流的数据包的大小 连接速率 延时 持续时间 发送频率 上下行流量 的比例关系以及i p 地址的连接方式等信息来与流量模型对比 从而实现鉴别应 用类型 l 州 例如 网上i p 语音流量体现在流状态上的特征就非常明显 r t p 流 的包长相对固定 一般在1 3 0 2 2 0 b y t e 连接速率较低 为2 0 8 4 k b i t s 同时 会话持续时间也相对较长 而基于p 2 p 下载应用的流量模型的特点为平均包长 都在4 5 0 b y t e 以上 下载时间长 连接速率高等 1 7 1 表2 2 是几种常见的网络应 用的流量特征分析 表2 2 常见的网络应用协议的流量特征分析 1 8 网络服务持续时间平均速度传输字节数 h t t p短高中一高 v p n长低高 g a m e s长低高 s t r e a m i n g 长中高 t e l n e t长低 由 f i l e s h 批 p 2 p长中一高高 d p i 技术不需要对报文的应用层数据检测 故识别效率较高 也不受数据是 否加密的限制 但有时会产生误报 需要和其他识别方法结合使用来进行检测 9 武汉理工大学硕士学位论文 2 3d p i 和d f i 技术的比较 目前 在识别的精细度和准确度方面 d p i 技术均优于d f i 技术 d p i 技术 不仅可识别出各种大类业务 还可识别出同一大类业务中的不同应用协议 并 且能够提供更为精细的业务运营和q o s 保证 d f i 技术一般只支持大类流量的 识别 不支持或较少支持具体协议流量的识别 因此无法对具体某个协议业务 数据进策略控制 不利于运营商针对应用层某些特定业务流量的区分管理 d p i 技术对加密后的数据识别性能较差 而d f i 技术则能够识别加密后的流量 由于d f i 技术不需要对数据流进行逐包的拆解分析 只需对数据流行为进 行统计分析 因此d f i 技术的识别效率要高于d p i 并且对于流量特征与已知流 量较为一致的加密数据时 其识别能力要高于d p i 技术 d p i 技术需要经常升级 其特征库 而d f i 的升级频率相对低一些 大部分的网络使用d p i 检测技术就可以识别 但是对于一些加密的协议需 要d f i 技术来识别了 d f i 技术为使用d p i 技术不能识别的协议提供的一个解 决方案 在实际的应用中 往往先进行d p i 检测 对于无法检测出的数据流再 进行d f i 检测 这样就大大提高了识别系统的性能 2 4 协议识别的评价标准 综合文献 1 9 2 0 2 1 2 2 1 中的系统评价方法 综合考虑系统支持的协议数量 匹配 性能 准确性与系统更新的性能 本文采用以下评价标准 1 协议识别系统所支持的协议种类 即识别系统能够识别的应用层软件 协议的数量 特别是所支持的主流网络应用软件的数量 2 协议识别系统的性能 即协议识别系统所能处理的链路带宽 协议识 别系统既可采用在线式识别 也可采用离线式识别 在线式识别系统的性能评 价为在不丢包情况下所能够处理的最大带宽 而离线式识别系统则根据报文存 储空间除以处理时间得到性能 3 协议识别的漏报率 f a l s en e g a t i v e 也称假阴性 任何协议识别系统 都不可能完全准确 若协议a 的流量没有被系统识别为协议a 的流量 即为漏 报 协议a 未识别的流量占整个流量的百分比分比称为协议a 识别的漏报率 协议识别的漏报率计算公式为 l o 武汉理工大学硕士学位论文 罗协议a i 未被识别出的流量 肿上l 酾丽r 2 1 4 协议识别的误报率 f a l s ep o s i t i v e 也称假阳性 若非协议a 的流量 被错误地识别为协议a 的流量 则为误报 被错误识别为协议a 的流量占协议 a 整个流量与错误识别流量之和的百分比称为协议a 识别的误报率 协议识别 的误报率计算公式为 非协议a 而被错误识别为a 的流量 f p 上l 1 丽 2 2 5 协议识别系统的更新性能 即识别系统对协议库规则改变的适应能力 它包括两个方面 当协议库规则发生变化时系统应该能够在尽可能少的修改和 重新配置的前提下继续匹配该协议 当某些协议失效或者新增协议时系统应该 能够比较方便快捷的删除或增加规则 2 5a h o c o r a s i c k 算法研究 d p i 的关键是要不断地在格式不定的数据包中判断出各种 指纹 信息 其 基础是模式匹配 p a t t e r n m a t c h i n g 即从数据中搜索是否存在目标字符串 由 于本文研究的是城域网出口的网络数据流量识别 故需要处理的数据量是很大 的 如果来不及处理这些实时的数据包 那就可能会出现丢包的现象 从而会 造成漏报 这就对模式匹配算法的性能提出了高的要求 2 引 模式匹配算法一般分为单模式匹配算法和多模式匹配算法 经典的单模式 匹配算法有b f 算法 2 4 1 k m p 算法口5 2 6 2 7 2 8 1 以及b m 算法 2 9 3 0 而a h o c o r a s i c k 算法是最为经典的多模式匹配算法 在网络流量的识别中 通常采用a c 自动机或者其改进算法 从应用层的负 载开始 a c 自动机只扫描报文一次 便可对多个模式串进行匹配 因此在规则 匹配时 需要存储每一个规则命中的模式数以判断是否需要对规则进行精确匹 配 下面就详细研究a c 自动机 这里先介绍下有限自动机的概念 有限状态机 f i n i t es t a t em a c h i n e 又称 有限状态自动机或简称状态机 是表示有限个状态以及在这些状态之间的转移 武汉理工大学硕士学位论文 和动作等行为的数学模型 它包括如下五个部分 1 有穷状态集s t a t e s 2 输入字符集i n p u ts

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论