




已阅读5页,还剩49页未读, 继续免费阅读
(计算机软件与理论专业论文)基于关联规则的流量识别方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于关联规则的流量识别方法研究 摘要 随着互联网的不断深入发展,网络速度的快速提高,规模的逐渐扩大 以及用户需求的日益增多,出现了许多新型的网络应用程序,这些新型应 用程序呈现出结构复杂、协议多变等特点,具有比传统应用程序更加复杂 的网络流量和模式。这些新特性给网络管理员在对因特网上的流量进行识 别和控制时带来了许多新的问题和困难。目前大部分流量识别技术主要采 用特征匹配来识别网络流量,这种方式的优点是速度快,识别的准确率高, 但缺点是不能识别未知的网络流量,而且通过人工编写应用层特征码的方 式来更新特征库,编写效率很低,很难应对层出不穷的新型网络应用模式。 而关联规则挖掘技术善于从大量的数据里提取有用的规则。显然采用关联 规则挖掘技术来辅助安全专家提取应用层特征是一个很好的办法。基于这 个方案,本文提出了一种利用关联规则挖掘技术从i p 流量载荷中提取应用 层特征码的方法来研究和设计流量识别系统。 本文首先分析了从事网络流量识别研究的现实意义以及国内外对流 量识别的研究现状,并比较了几个常用流量识别方法的优缺点;然后研究 了数据挖掘技术的功能和特点,展示了几种数据挖掘的分析方法;接着阐 述了在本课题中如何使用a p r i o r i 算法来提取应用程序特征码,a p r i o r i 算 法主要用于关联规则挖掘,在本课题中主要是利用其挖掘频繁项集的方法 来提取候选特征码;最后详细给出了流量识别系统的设计与实现过程,同 时给出实验结果,结果表明这种方法准确率和有效率都非常高,可满足实 际网络应用中的需求。 关键字:应用层特征码;流量识别;关联规则;a p r i o r i 协议分析 t h er e s e a r c ho ft r a f f i ci d e n t i f i c a t i o nb a s e do nt h e a s s o c i a t i o nr u l e sm i n i n g a b s t r a c t w i t ht h ef u r t h e rd e v e l o p m e n to ft h ei n t e r n e t ,n e t w o r ka n dc o n t i n u o u s i m p r o v e m e n ti nt h es p e e da n ds c a l eo ft h ee x p a n s i o n , a sw e l la si n c r e a s i n gu s e r d e m a n d ,m a n yn e wt y p e s o fn e t w o r k a p p l i c a t i o n sh a sa p p e a r e d t h e s en e w a p p l i c a t i o n ss h o w i n gt h e s t r u c t u r eo fc o m p l e x ,e v e r - c h a n g i n gf e a t u r e s ,a n di th a s m o r ec o m p l e xn e t w o r kt r a f f i ca n dp a t t e r n sc o m p a r e dw i t ht r a d i t i o n a lt e c h n o l o g y t h e s en e wf e a t u r e sb r o u g h tm a n yn e wp r o b l e m sa n dd i f f i c u l t i e st ot h en e t w o r k a d m i n i s t r a t o r si ni d e n t i f y i n ga n dc o n t r o l l i n gt h et r a f f i co nt h ei n t e r n e t a tp r e s e n t , m o s to ft h et r a f f i ci d e n t i f i c a t i o nt e c h n o l o g i e sm a i n l yu s ef e a t u r em a t c h i n gt oi d e n t i f y n e t w o r kt r a f f i c ,t h ea d v a n t a g e so ft h i sm e t h o da r ef a s t ,h i g hr a t eo fr e c o g n i t i o n a c c u r a c y , b u tt h ed i s a d v a n t a g ei st h a ti tc a n tr e c o g n i z et h eu n k n o w n n e t w o r kt r a f f i c , a n dt h i sm e t h o dm a i n l yu s et h ew a yo fm a n u a l l ys e a r c hf o ra p p l i c a t i o nl a y e rs i g n a t u r e t ou p d a t et h ec h a r a c t e r i s t i c so ft h et r e a s u r y , s ot h ec o m p i l i n ge f f i c i e n c yi sv e r yl o w , i t i sd i f f i c u l tt od e a lw i t ht h ee n d l e s ss t r e a mo fn e wn e t w o r ka p p l i c a t i o nm o d e l t 1 1 e a s s o c i a t i o nr u l e sm i n i n gt e c h n o l o g yw i l lb eg o o da te x t r a c t i n gu s e f u lr u l e sf r o mal o t o fd a t a o b v i o u s l y , i ti sag o o dw a yt ou s et h ea s s o c i a t i o nr u l e sm i n i n gt e c h n o l o g yt o h e l ps e c u r i t ye x p e a si ne x t r a c t i n gt h ec h a r a c t e r i s t i c so ft h ea p p l i c a t i o nl a y e r b a s e d o nt h i sp r o g r a m ,t h i sp a p e rp r e s e n t sam e t h o d ,w h i c hu s e so fa s s o c i a t i o nr u l e sm i n i n g t e c h n o l o g ye x t r a c t i n gt h ea p p l i c a t i o nl a y e rs i g n a t u r e sf r o mi pt r a f f i ct or e s e a r c ha n d d e s i g nt r a f f i ci d e n t i f i c a t i o ns y s t e m t h i sp a p e rf i r s t a n a l y z e s t h es i g n i f i c a n c eo fi d e n t i f y i n gn e t w o r kt r a f f i c , s u m m a r i z e st h er e s e a r c hs i t u a t i o no ft r a f f i ci d e n t i f i c a t i o nt e c h n o l o g ya th o m ea n d a b r o a da n da n a l y z e st h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h et r a f f i ci d e n t i f i c a t i o n t e c h n o l o g y a n dt h e ns t u d i e st h ef u n c t i o n sa n df e a t u r e so f t h ed a t am i n i n gt e c h n o l o g y , a n ds h o w ss e v e r a lt y p e so fd a t am i n i n gm e t h o d ,a n dt h e ns e to u th o wt ou s ea p f i o r i a l g o r i t h m ( w h i c hi sm a i n l yu s e df o rm i n i n ga s s o c i a t i o nr u l e s ) t oe x t r a c t i n g t h e s i g n a t u r ea p p l i c a t i o n s ,i nt h i si s s u ei ti sm a i n l yt ou s ea p r i o f i sm i n i n gf r e q u e n ti t e m s e t sm e t h o dt oe x t r a c t i n gc a n d i d a t es i g n a t u r e s f i n a l l y , t h i sp a p e rg i v e so u ti nd e t a i l t h ed e s i g na n dt h ei m p l e m e n t a t i o np r o c e d u r eo ft h et r a f f i ci d e n t i f i c a t i o ns y s t e m ,a n d g i v e st h ee x p e r i m e n t a lr e s u l t s ,w h i c hs h o wt h a tt h i sm e t h o dh a sh i g hr a t eo fa c c u r a c y a n de f f i c i e n c y , i tm e e t st h ea c t u a ln e e d so fn e t w o r ka p p l i c a t i o n s k e yw o r d s :a p p l i c a t i o nl a y e rs i g n a t u r e s ;t r a f f i ci d e n t i f i c a t i o n ;a s s o c i a t i o nr u l e s ; a p r i o r i ;p r o t o c o la n a l y s i s 插图清单 图2 - 1t c p i p 协议族中不同层次的协议5 图2 2t c p 报文段格式6 图2 3u d p 报文段格式6 图3 - 1 数据挖掘的螺旋处理过程1 2 图4 - 1 网络数据分组格式2 0 图4 - 2 应用层数据包格式2 0 图4 - 3 基于关联规则的流量识别模型2 2 图5 1 流量识别系统功能图2 9 图5 - 2 正常数据包捕获过滤流程3 0 图5 3 基于w i n p c a p 的数据捕获流程图3 1 图5 - 4 封装与解析过程3 2 图5 5 协议解析函数结构关系图3 3 图5 - 6t c p 的连接过程3 6 图5 7 应用层特征码提取流程图3 8 图5 - 9 打开外部程序效果图3 9 图5 1 0 数据捕获及协议分析效果图4 0 图5 1 1 特征码提取效果图4 0 v 1 表格清单 表2 - 1p 2 p 协议常用默认端口6 表4 一lb i t t o r r e n t 数据包2 1 表4 - 2 单字节出现频率统计表2 4 表4 - 31 阶大项集2 5 表4 - 42 阶大项集2 6 表4 - 53 阶大项集2 6 表4 - 6g n u t e l l a 协议的频繁大项集2 7 表4 - 7b i t t o r r e n t 协议的频繁大项集2 8 表6 - 1 应用程序特征码提取的实验结果4 1 v i l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得 金罡王些太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:翰嘞良 签字日期:叫年午月1 e l 学位论文版权使用授权书 本学位论文作者完全了解佥鲤王些太堂有关保留、使用学位论文的规定,有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权金月曼王些太堂可以 将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:砩珞爱 签字日期:1 年甲月q 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: f 签字日期彩舢 电话: 邮编: 致谢 在此论文完成之际,向我的导师、计算机学院的老师、我的同学以及 其他在学习上和生活中给我帮助的人们表达我真挚的谢意! 首先,我要感谢我的导师周健副教授。我在硕士期间所取得的成绩, 离不开周老师的悉心指导和鼓励。无论从论文的选题、调研、资料准备, 还是实验研究、论文成稿等方面,都倾注着周老师大量的心血。周老师在 科研选题上能瞄准科技及应用前沿,在实验过程中常常提出一些独到的见 解,经常鼓励我们大胆创新。周老师渊博的知识、敏锐的学术思想、严谨 求实的治学态度、为人坦诚的思想品德,使我受益匪浅,终身难忘。在此 谨向恩师致以最真挚的谢意! 同时,在此对研究生期间讲授课程的胡学钢、侯整风、王浩、沈明玉 等教授深表感谢。他们精彩的讲解使我受益匪浅,他们在课堂上的教诲为 本文的研究提供了理论基础。 合肥工业大学网络中心研究生实验室是一个优秀的集体,感谢网络中 心的程克勤老师,在课题完成的过程中给我提供了宝贵的意见。同时要感 谢实验室的潘亚东、顾栋梁、蒋昱城,大家一起研讨、集思广益,对我顺 利完成论文有很大帮助:他们奋发向上、只争朝夕的精神时常感染着我。 没有这个团结、上进的集体就没有我今天的成绩;感谢合肥工业大学研究 生部及计算机与信息学院所有老师的辛勤付出! 在这里,我还要特别感谢我的亲人和朋友,是他们的理解、支持和帮 助给了我拼搏进取的力量,使我得以坚持下来,走完这条令人难忘的求学 之路。! 最后,我要向百忙之中抽出时间评审我论文的诸位老师表达我衷心的 谢意! i i i 作者:孙海霞 2 0 0 9 年3 月 1 1 课题背景 第一章绪论 经典的互联网应用大多建立在t c p i p 协议栈基础上,并采用客户端服务 器端的模式,随着网络用户的增多,用户会明显感觉到访问速度的下降。在这 种情况下就出现了许多新型的基于网络的应用程序,如p 2 p 软件、流媒体、网 络游戏等等【l 】,这些技术充分利用了网络带宽,极大地方便了互联网上的信息 共享。这些新型应用程序在网络上的流行和用户的增多,呈现出大量占用带宽 的现象,给互联网运营商带来越来越大的压力。例如,在对等模式的p 2 p 系统 中,其上行下行方面都具有较高的流量。如果下行流量过大,会造成局域网内 其他用户出现网络速度过慢甚至停顿等现象;如果上行流量过大,则会造成其 他用户完全无法使用网络。此时,如何对网络上的流量进行控制和管理就成为 一个非常关键的问题。而要做到对不同的网络流量进行不同的管理就需要我们 能够对不同的应用程序产生的流量进行准确的识别。 在经典的网络环境中,网络流量主要是由h t t p 、f t p 、t e l n e t 、s m t p 等所产生的流量组成。随着网络技术的发展和普及,上面这些传统的流量类型 所占的比例在大幅的下降,而p 2 p 、流媒体、网络游戏的流量在大幅的上升。 当前流量分析领域的一个困难是传统的方法无法分析这些新兴的应用流量,需 要一个新的方法来分析这些新兴的应用。新兴的网络应用程序具有以下特点: ( 1 ) 随着用户需求的多样化,网络应用程序会更加丰富,越来越多网络应 用程序被开发和广泛使用,产品和用户数量会持续不断地增长。 ( 2 ) 许多新型网络应用程序都使用私有的应用层协议,这些私有的协议非 常复杂,形态各异,很难在格式和操作上进行理解和交流。比如k a z z a 2 】 3 】,在 将数据加密后才将数据流入网络,这样做是为了隐藏其行为以保护系统免受潜 在的攻击。 ( 3 ) 网络应用程序的结构正在从传统的c s 模型转变为p 2 p 模型,许多p 2 p 应用程序可以直接将数据传给另外一个对等的节点,这些应用程序所构建的网 络结构日益复杂。 ( 4 ) 许多新型网络应用程序使用多个会话与其它应用程序通信,比如流媒 体类【4 】应用程序建立两个或多个会话来传递控制数据和多媒体类数据,有时它 们同时使用t c p 和u d p 。 ( 5 ) 许多网络应用程序的缺省端口号并不在i a n a 端口列表中注册,许多 为某个特定区域的用户所开发的应用程序也不将他们的端口号在i a n a 端口列 表中注册。而且,有些网络应用程序还使用一个大于l0 2 4 的临时端口号作为缺 省端口。 ( 6 ) 许多p 2 p 和流媒体垆j 应用程序使用动态的端口号在节点间进行通信。 比如流媒体,它所使用的端口号和分发流媒体数据的协议是在客户端和服务器 端进行协商时确定的:在实时消息通信软件m s n 中传输的端口号也是动态决 定的;另外还有一些应用程序使用动态端口号来避免被检测和控制。 上述种种特性使得我们很难利用传统的基于常用端口等简单方法在应用层 上对流量进行分析和控制。为做到这一点,首先需要在应用层上对因特网上的 流量进行识别,这对于正确的应用层流量控制是非常重要的一步;其次要在应 用层上找出其流量特征,这在流量分析中也是一个很有挑战性的研究领域。 本文着重研究应用层的流量识别和特征刻画,并把焦点集中在下面两个关 键的问题上:第一,从应用层的角度分析并识别网络中的具体应用流量特征; 第二,根据流量特征对具体的应用加以管理和控制。 课题背景及其研究意义 随着信息化进程的不断推进,企业各种业务对互联网的依赖程度日益加深。 为了保证业务的正常开展,企业的计算机网络已经不能简单独立于互联网之外。 如何在不中断与互联网连接的情况下规范和约束企业员工使用网络的行为成为 各级管理人员急需解决的问题。 “应用层协议的分析与控制”项目就是在此背景下应运而生。该项目的主要 目的就是希望通过相对智能的手段对企业员工的上网行为进行规范和管理,达 到既能满足正常业务活动对互联网的需求又能有效的遏制网络滥用趋势的蔓 延。 有效地进行网络流量识别是该项目研究和开发过程必须加以解决的关键问 题之一。作者参与了该项目的研究和开发,并主要围绕应用层流量分析和识别 展开工作。本文也是在上述工作的基础上经加工、整理和完善得以形成。 事实上,基于应用层的流量识别方法研究,在理论和应用两个层面上都具 有重要的意义。首先,由于网络技术和应用的不断发展和普及已经并且还会继 续对我们的工作、学习和生活发挥重要作用。然而,无论是企业的管理人员还 是网络的维护者几乎都面临着这样一个问题:“我们的网络中究竟有些什么应用 在占用宝贵的资源? ”。换句话说:我们怎么才能将网络中的各类流量看清楚? 基于应用层的协议分析使我们可以拥有一对洞察网络中各类流量的慧眼。其次, 无论是在网络规划、日常网络维护、用户管理和计费等方面,还是在异常流量 诊断和网络流量预测等方面,基于应用层的协议分析都能给我们提供可量化的 依据,使我们对网络上纷繁复杂的流量有更加清晰的认识。再次,应用层协议 的分析可以使得网络流量分析理论更加丰富,不但可以帮助我们识别因特网中 的绝大部分流量,而且还能够分析这些流量。最后,流量监测和分析是网络管 2 理的基础,对于推动网络管理理论的研究也具有比较重要的作用,网络管理者 可以利用流量监测和分析的结果来进行性能管理、故障管理、安全管理的研究。 1 3 本文研究的主要内容和课题设计方法 目前主要的流量识别系统主要采用基于净荷特征的识别方法,但这里的净 荷特征主要采取手动寻找,人工编写的方式,特征编写效率很低,很难实时地 识别出新型网络应用程序。数据挖掘技术( 又被称为知识发现技术) 善于从大 量的数据里提取有用的规则。显然采用数据挖掘技术来辅助安全专家提取应用 程序的特征码,编写流量特征码是一个很好的办法。 本文根据上述思想,提出了一种利用关联规则挖掘技术从i p 流量载荷中自 动提取应用层特征码的方法,实验结果表明这种方法准确率和有效率都非常高, 可满足实际网络应用中的需求。 1 4 论文的组织 本文以如下方式进行组织: 第一章绪论。本章主要介绍本课题的项目背景、来源和意义,并对本文 研究的主要内容做了阐述。 第二章流量识别原理和技术。本章介绍了目前常用的几种流量识别方法 的原理和技术,并分析了每种方法的优缺点。 第三章关联规则挖掘技术。本章介绍了课题中用到的一些关键技术。介 绍了用来提取应用程序特征码的数据挖掘技术,并重点介绍了其中的关联规则 技术。 第四章基于关联规则挖掘的流量识别研究。本章在分析现有流量识别技 术所存在缺陷的基础上,提出了基于关联规则挖掘的流量识别模型,并以此为 依据用来提取和分析应用程序的特征码,以便能够准确地识别出每个不同的应 用程序。 第五章基于关联规则的流量识别系统设计与实现。本章先给出流量识别 系统的总体设计,并对其中的主要模块进行了详细的分析和介绍,然后介绍了 流量识别系统的实现方案,并给出实验结果和性能评估。 第六章总结与下一步研究方向。本章对整个课题进行总结,并指出下一 步工作的方向。 第二章流量识别原理和技术 网络应用的迅猛发展是导致带宽不够用的主要原因,尤其是最近几年出现 的p 2 p 软件( 如b i t t o r r e n t 6 1 、e m u l e 、f a s t t r a c k 、g r o k s t e r 、g r o o v e 、g n u t e l l a 7 】 等) ,极大的消耗了有限的网络资源。p 2 p 用户的总数越来越多,造成了网络 带宽的巨大消耗,甚至引起网络拥塞,大大降低了网络性能,恶化了网络服务 质量,妨碍了正常网络业务的开展和关键应用的普及。同时,通过并不安全的 网络环境获得的应用程序和p 2 p 协议给网络安全带来了很大隐患【引。据统计, p 2 p 业务的带宽占用比约为4 0 6 0 ,极端情况下达到8 0 - - 9 0 ,被称为 “带宽杀手”,导致运营商网络关键链路拥塞和其他互联网应用性能快速下降【9 1 。 带宽占用与收益倒挂问题越来越突出,已经成为困扰宽带业务发展的最重要 因素之一。 因此,解决带宽拥塞的关键问题是当网络资源紧张的时候限制那些使用量 大的用户,保障那些使用量小的用户,相反,当网络资源有较大空闲时则取消 这些限制,让每个用户都能高效的利用线路。此时如何对网络资源进行有效的 控制,如何对网络流量进行有效的控制就是显得相当的重要了。而如何识别出 每个网络应用产生的网络流量,是对网络流量进行有效控制的关键技术。本章 首先介绍流量识别的几个概念,接着介绍和分析几种常用的网络流量识别方法 【1 0 儿1 1 】【1 2 1 ,并分析其优缺点,为网络流量识别技术的应用提供参考。 2 1 流量识别基础 所谓流量识别,就是标识出网络上每个流所使用的应用层协议,它是基于 使用类型的流分类的延伸和升华1 3 】【14 1 。本文研究的流量识别技术都是基于 t c p i p 体系结构。t c p i p 协议是一组不同层次上的多个协议的组合,它通常被 认为是一个四层协议系统【1 5 1 。 ( 1 ) 网络接口层 网络接口层一般包括物理层和数据链路层。 物理层 物理层的任务就是透明地传送比特流。在物理层上所传送数据的单位是比 特。传递信息所利用的一些物理媒体,如双绞线、同轴电缆、光缆等,并不在 物理层之内而是在物理层的下面。因此也有人把物理媒体当作是第0 层。 数据链路层 数据链路层的任务是在两个相邻节点间的线路上无差错地传送以帧( f r a m e ) 为单位的数据。每一帧包括数据和必要的控制信息。在传送数据时,若接收方 检测到所收到的数据中有差错,就通知发送方重发这一帧,直到这一帧正确无 误地到达接收方为止。 4 ( 2 ) 网络层 在计算机网络中进行通信的两个计算机之间可能要经过许多个结点和链 路,也可能还要经过好几个不同的通过路由器互连的通信子网。在网络层,数 据的传送单位是分组或包。网络层的任务就是要选择合适的路由,使发送站的 运输层所传下来的分组能够正确无误地按照地址找到目的站,并交付给目的站 的运输层。这就是网络层的寻址功能。 f 3 ) 运输层 运输层的任务是根据下面通信子网的特性最佳地利用网络资源,并以可靠 和经济的方式,为两端主机( 也就是源站和目的站) 的进程之间,建立一条运 输连接,并透明地传送报文。或者说,运输层向上一层进行通信的两个进程之 间提供一个可靠的端到端的服务,使它们看不见运输层以下的数据通信的细节。 在通信子网内的各个交换结点以及连接各通信子网的路由器,都没有运输层。 ( 4 ) 应用层 应用层是t c p i p 体系结构中的最高层。应用层确定进程之间通信的性质以 满足用户的需要( 这反映在用户所产生的服务请求) 。应用层不仅要提供应用进 程所需要的信息交换和远地操作,而且还要作为互相作用的应用进程的用户代 理,来完成一些为进行语义上有意义的信息交换所必需的功能。应用层直接为 用户的应用进程提供服务。需要注意的是,应用层协议并不是解决用户各种具 体应用的协议。 图2 1 展示了各层协议之间的依赖关系: 图2 一lt c p i p 协议族中不同层次的协议 应用层 传输层 网络层 网络接口 层 2 2 基于端口的识别方法 2 2 1 常用端口识别法的原理 在早期,许多网络应用都有一个默认的端口号,并将这个端口号在 i a n a 1 6 】【1 7 l ( i n t e r n e ta s s i g n e dn u m b e r sa u t h o r i t y ) q b 注册,通过这个端口号来完 成他们的功能。如早期e d o n k e y 采用4 6 6 1 和4 6 6 2 端1 2 ,b t 采用6 8 8 1 一6 8 9 0 端口等,如表2 1 所示。这些应用在运行的时候,用这些端口号与外界进行通 信 1 日。 表2 - 1p 2 p 协议常用默认端口 p 2 p 协议默认端口 bi t t o r r e n t6 8 8 1 6 8 8 9 e d o n k e y 2 0 0 0 4 6 61 4 6 6 5 g n u t e l l a6 3 4 6 6 3 4 7 k a z z a1 2 1 4 根据这个特性,美国a t & t 实验室的s u b h a b r a t as e n 提出了一种基于端口 的流量识别方法,它是一种基于运输层信息的识别方法。在运输层上,t c p 和 u d p 是经常使用的协议,它们协议数据单元的格式如图2 2 ,图2 - 3 。 0 41 01 6 3 1 源端口目的端口 顺序号 确认号 首部长 u la i p l p 澈 窗口 度 保留r l c i s ls d 到刊t 校验和 紧急指针 可选项填充 数据 图2 - 2t c p 报文段格式 01 51 63 1 u d p 源端口号u d p 目的端口号 u d p 数据报长度 u d p 校验和 u d p 数据区 图2 - 3u d p 报文段格式 这种方法是最简单也是最直接的。它的基本思路是:对捕获到的网络流量 进行分析,只需解析出图2 2 中t c p 头中的1 6 b i t 源端口号和1 6 b i t 目的端口号 或解析出图2 - 3 u d p 头中的1 6 b i t 源端口号和1 6 b i t 目的端口号,再和表2 1 中 的常用端口号比较,就可以识别出应用层协议。 6 2 2 2 常用端口识别法的优点 ( 1 ) 仅需分析到传输层即可完成识别,逻辑简单,识别性能高。 ( 2 ) 在p 2 p 应用刚出现时识别效果非常好。 ( 3 ) 方便控制。 ( 4 ) 识别系统建设投资较少或无需投资。 2 2 3 常用端口识别法的缺点 在实际的匹配过程中,基于端口号的识别方法十分简单,效率也是最高, 但是这种方法也有其本身的局限性【1 8 】。 ( 1 ) 随着网络应用的增多,维护一个这样的端口对应表并不容易,不断有 新的协议、新的端口加入到这个应用中来。 ( 2 ) 随着网络应用的发展与普及,大多数的网络应用允许用户手动选择来 设置默认的端口号。此外,许多新出现的网络应用为了躲避被这些流量限制, 往往会使用动态的端口来进行数据传输,而不是使用一个公共不变的端口,这 样就导致这种鉴别技术无法有效的识别网络流量。 ( 3 ) 端口控制粒度太粗,容易出错。不同的应用可能会使用相同的端口, 简单地基于端口进行控制可能会导致错误的产生。如阻断了不该阻断的应用。 ( 4 ) 目前还存在另外一种现象,那就是网络应用开始使用一些其他常规服 务的默认端口号,比如用8 0 端口、2 5 端口来伪装为自己的功能端口。因此通 过端口方式能够识别的协议类型非常有限。 鉴于以上这些情况,基于端口号分析方法的识别效果就变得很差了。 2 3 基于流量统计特征的识别方法 2 3 1 统计特征识别法的原理 各种互联网应用数据包的自身特性及传输特性都有所区别【1 9 】【2 0 1 。数据包的 流量大小因不同的应用层协议而不同【z ,例如,w e b 流一般为短流小报文,而 p 2 p 流一般为长流大报文。在文献【2 2 】中作者指出不同种类流量的i p 包时间间 隔也是不同的,文中以r e a l p l a y e r b b c 和s k y p e 。v o i c e 为例,r e a l p l a y e r 的时间 间隔短而且持续稳定,而s k y p e 的时间间隔长而且动态变化。而且上行和下行 流量的数据包数目也在不同的协议所产生的流量中也存在着很大的差异,因此, 可以通过对网络流量的特性进行统计分析,从而识别出不同业务的流量。 根据上述原理,意大利的l u e as a l g a r e l l i ,日本的h jk a n g 及美国麻省理工 学院的f i v o sc o n s t a n u n o u 提出基于统计特征的识别方法。此方法的特点在于分 析己知业务的流量特征,除了取得流量组成的基本信息之外不分析其他数据包 的净载荷,而将精力集中在统计一种业务的数据包的字节大小分布、数据包间 隔分布、流字节大小分布、流间隔分布、流量间的连接特性等上,并从中得到 固定的规律,然后将此规律应用到未知的网络流量上。此种方法在文献 19 】中 有着详细的描述。 2 3 2 统计特征识别法的特点 根据基本原理,统计特征识别法的特点大致可以归纳如下: ( 1 ) 该方法不需要获取用户数据包的有效载荷,不会涉及到用户隐私问题。 ( 2 ) 如果统计中采用无监督模式的机器学习算法,由于聚类过程是由算法 自发完成的,它可以识别新型应用,并提醒用户检查那些疑似病毒的攻击流。 ( 3 ) 该方法有些特征对网络动态变化极其敏感,例如包的到达间隔、流的 持续时间等,并且到目前为止,还没有找到一套完整的与各种应用类型一一对 应的流量属性集合,因此,基于统计特征的识别方法准确性不高。 ( 4 ) 该算法的识别过程比较复杂,计算量非常大,尚不能用于高速网络进 行实时的流量分类。 ( 5 ) 该方法还一个最大的弱点:它只能将流量进行大致的分类,而不能精 确的定义出每个业务的名称。 2 4 基于净荷特征的识别方法 2 4 1 净荷特征法的原理 根据大量的研究发现 2 3 2 4 ,每种网络应用程序在进行数据传输时,都 或多或少会呈现一些固有的特征( 因为数据是按一定规则或协议传送的) ,这些 特征是在实际交互过程中必须出现的并且是数据包中出现频率最高的固定字段 【2 5 1 ,不同的应用协议,它们的特征是不同的,所以我们可以找出这些出现频率 较高的固定字段作为这个应用程序的特征码。如果在数据包的相应位置能够找 到这些特征字就可以判断数据包属于哪种类型的网络应用,从而对其进行有效 的控制。例如主机进行b t 下载时,必须使用t r a c k e r 通过h t t p 的g e t 命令 的参数来接收信息,而在h t t p 请求报文中,携带了b t 的特征值u s e r a g e n t : b i t t o r r e n t 。可见如果h t t p f i l t e r 能够将具有该特征值的h t t p 的数据包过滤掉, b t 客户端便无法进行t r a c k e r 查询,从而有效阻截b t 下载。因此我们通过分 析捕获到的网络数据包,找到每个网络应用的固定特征字,利用这些特征字来 进行有效的识别不同的网络应用。 a t t 实验室的s u b h a b r a t as 以及美国威斯康星大学的p a u lb a r f o r d 根据 这种原理提出了一种基于净荷特征的识别方法,它通过检测各种网络应用协议 使用的固定特征字来识别各种网络应用。 净荷特征识别技术是一种基于应用层信息的识别方法,它不仅需要检测网 络层和传输层数据包头部,而且需要在应用层上检测数据包的有效载荷所封装 8 的内容部分。该技术深入探查数据包或数据流的应用程序流量,根据数据包的 有效载荷来做出如何对数据包处理的决定。它主要使用以特征为基础的分析技 术,还会用到统计和非正常分析技术。 对于可以采用净荷特征法识别的p 2 p 业务,必须对不同协议的数据报进行 单独分析,因为它们的协议都是自定义的非标准协议。具体方案是抓取用户的 数据报,通过各自协议特有的净荷特征和众所周知的协议端口号识别p 2 p 业务。 首先提取数据报关键信息,包括源i p ( s i p ) 、目的i p ( d i p ) 、源端口( s p ) 、目的 端口( d p ) 、协议类型( p r o ) 和部分净荷( s t r ) ,可以通过以下方法来识别是否为 p 2 p 流量: 如果是s po rd pi np o r tl i s t ,则判断为对应的业务。 对比所抓取的部分净荷信息,如果是s t ri ns t rl i s t ,则判断为对应 的p 2 p 业务。 将方法中包含的s i p 和d i p 地址放入h a s h 表,认为所有包含这些i p 的流量都是“可能的p 2 p 业务”,通过常用的端口号,除去常规的网络业务流量, 如w e b 、f t p 、e m a i l 、s s l 、d n s 等。 净荷检测法适用于常见的p 2 p 应用,能识别出大部分的p 2 p 业务流量,如 e d o n k e y 、e m u l e 、k a z a a 、b i t t o r r e n t 、w i n m x 、o p e n n a p 、g n u t e l l a 等。任 何客户端改变默认端口或采用动态端口的方法以及用一些将8 0 等常用端口伪 装成自己的功能端口的方法都不能避开p 2 p 检测。这种方法的实际运行结果还 是比较可靠的。 2 4 2 净荷特征识别法的特点 根据基本原理,净荷特征识别法的特点大致可以归纳如下: ( 1 ) 检测准确率比基于端口的识别方法和基于流量统计的方法都要高,并 且端口的变化不会影响检测率。 ( 2 ) 能够检测使用最广泛的p 2 p 应用,适合流量的精确检测。 ( 3 ) 随着各种p 2 p 协议的不断发展,新p 2 p 协议的不断出现,因此数据包 的静态标识特征需要不断的更新和增加。 ( 4 ) 若p 2 p 开发者们将p 2 p 协议进行加密,这样p 2 p 协议的数据包有效载 荷将呈现无规律状,我们将无法提炼出各种p 2 p 协议的标识特征,这就使得协 议分析与识别变得十分困难。 ( 5 ) 这种对数据包有效载荷进行识别的方法是一种高资源消耗的方法。协 议分析和特征搜寻需要投入大量人力及时间。为了保证检测产品的稳定性,必 须拥有很强的信息处理能力,所以高额的投入必不可免,这恰恰是大家都不愿 意接受的。 9 目前,很多网络设备生产商和网络服务提供商都推出了大量的p 2 p 流量监 控技术和产品,这些产品基本都使用了净荷特征识别技术。净荷特征识别技术 成为主流的原因如下: ( 1 ) 通过各种优化措施和发现更多的p a y l o a d 特征,净荷特征识别技术可以 达到非常高的检测精度和令人满意的性能。 ( 2 ) 目前主流的p 2 p 协议都是非加密的,识别和破译相对容易。 ( 3 ) 对于新出现的p 2 p 协议,只需在识别和破译后升级p a y l o a d 特征库就 可以实现对新出现的p 2 p 协议的监控,后期维护简单。而且一种新p 2 p 应用出 现并大量占据互联网带宽需要比较长的时间,所以,净荷特征识别技术检测新 应用的滞后性缺点会降低很多。 2 5 本章小结 流量识别技术是对网络流量进行控制的基础,对于不同的网络应用要求有 不同层次的网络流量识别技术来支撑。 本章对基本的流量识别技术进行了总结和分析,阐述了基于端口的流量识 别技术、基于流量统计的识别技术和基于净荷特征的识别技术。重点阐述了基 于t c p i p 体系结构应用层的内容识别技术即基于净荷特征的识别技术,通过这 种识别方法可以识别大部分的p 2 p 流量。 1 0 3 1 数据挖掘理论基础 3 1 1 数据挖掘概述 第三章关联规则挖掘技术 数据挖掘是从海量的数据中提取或“挖掘”知识,这些数据可以存放在数据 库、数据仓库或其它信息存储中【2 6 1 。数据挖掘是一门涉及面很广的交叉学科, 包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学 等相关技术。由于数据挖掘是一门受到来自各种不同领域的研究者关注的交叉 性学科,因此导致了很多不同的术语名称。其中,最常用的术语是“知识发现【2 7 】” 和“数据挖掘”。相对来讲,数据挖掘主要流行于统计界( 最早出现于统计文献 中) 、数据分析、数据库和管理信息系统界;而知识发现则主要流行于人工智能 和机器学习界。 数据挖掘与数据库知识发现即有联系,又有区别。微软研究院的著名专家 f a y y a d 等人曾经给出一个普遍接受的数据库知识发现的观点。他们认为一个完 整的数据库知识发现过程【27 】应该包括以下各个步骤:数据选取抽样,数据清理, 数据转换,数据挖掘,评价解释,结果的可视化,并在最后根据获得的知识采 取何种行动等。因此,数据挖掘仅仅是数据库知识发现的一个步骤,只不过数 据挖掘是最核心的步骤。 在数据库知识发现过程中,数据挖掘之前的各个步骤可以看作是数据挖掘 的数据准备,而数据挖掘之后的各个步骤则是对所获得结果的后处理。数据库 知识发现是知识发现的一个完整的综合过程,而数据挖掘则可以看作是一个相 对简化的数据库知识发现过程,它可能不包括数据库知识发现的一些具体步骤。 从上面可以看出,数据挖掘是一个高级的处理过程,它从数据集中识别出 用模式表示的知识。高级处理过程是指一个多步骤的处理过程,多步骤之间相 互影响、反复调整,形成一种螺旋式上升的过程。图3 1 给出了这种处理过程 的模型。 一个完整的数据挖掘过程一般可以分为以下几步骤【2 6 1 。 ( 1 ) 问题定义 数据挖掘是为了在大量数据中发现有用的令人感兴趣的信息,因此发现问 题以及问题定义就成为整个过程中第一个也是最重要的一个阶段。在问题定义 过程中,数据挖掘人员必须和领域专家以及最终用户紧密协作,一方面明确实 际工作对数据挖掘的要求:另一方面通过对各种学习算法的对比确定出合适的 学习算法。 ( 2 ) 数据收集和数据预处理 数据挖掘的处理对象是大量的数据,这些数据一般经过长期积累并存储在 数据库系统中。但是这些数据不适合直接用来进行数据挖掘,需要做数据准备 工作,一般包括数据的选取( 选择相关数据) 、净化( 消除噪音、冗余数据) 、 推算( 推算缺失数据) 、转换( 离散值数据与连续值数据之间的相互转换,数据 值的分组分类、数据项之间的计算组合等) 、数据缩减( 减少数据量) 。数据准 备是否做好会影响到数据挖掘的效率和准确度以及最终模式的有效性。 图3 1 数据挖掘的螺旋处理过程 ( 3 ) 数据挖掘 这是数据挖掘中最关键的一步,也是技术难点所在。首先决定挖掘的任务 或目的是什么,如数据总结、分类、聚类、关联规则发现等。确定了挖掘任务 后,然后就要决定使用什么样的挖掘算法。可采用的技术较多,有粗糙集、决 策树、分类、聚类、关联规则、神经网络、遗传算法等。选取相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河北省青龙满族自治县2025年上半年公开招聘城市协管员试题含答案分析
- 2025版苹果产业链上下游协同发展合作协议
- 2025年建筑防水材料研发与应用合作项目合同
- 2025版智能家居设备销售与安装服务协议
- 2025版全新生物技术合作开发合同文本及封面
- 2025年新型二手房买卖合同模板
- 2025年度环保节能设备维修配件销售协议
- 2025年产品质量纠纷诉讼保全委托担保执行合同
- 2025年度农业科技研发定金合同范本7
- 2025年度商务活动场地租赁合同范本
- 宝钢国际集团胜任能力模型
- 2023年内蒙古化工职业学院单招笔试职业技能考试题库及答案解析
- 二年级四宫格六宫格数独练习
- LS/T 3243-2015DHA藻油
- GB/T 2423.7-1995电工电子产品环境试验第2部分:试验方法试验Ec和导则:倾跌与翻倒(主要用于设备型样品)
- 医院进修生结业鉴定表
- 西师版四年级数学上册第一单元测试题(A)
- 花甲水库库底清理实施方案(修订稿)
- 鞘内镇痛泵置入术全程图解课件
- 水产食品原料中的生物活性物质课件
- 项目1 单相半波整流调光灯电路的设计与制作
评论
0/150
提交评论