




已阅读5页,还剩50页未读, 继续免费阅读
(计算机科学与技术专业论文)基于kmeans和自适应谐振理论的网络流量分类方法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
, 。 一, j p 、, 原创性声明 本人声明:所罕交的学f t 论文是- 奉人住导师的指导卜进行的研究f :作及取得的研 经注明引川的内容外,论文中不包含其他人已经发表域撰1 ;过的研究成果,也不包岔为 其他教育机构的。产f 声或证l5 向使_ l j 过的材: = :l 。与我同i :仵的同忠对本研究所做的任何 作了明确的说明并丧示谢意。 学何论文作者签名:牲指导教师签名:丝 日 期:盈2 立:占。! 1 日期: 砬! 旦:6 :! l 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使刖学位论文的规定,即:内蒙古人学有权将学位论文的全 部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索, 也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期 间取得的研究成果属丁内蒙古人学。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古 人学就读期间导师的同意;若用于发表论文,版权单何必须署名为内蒙古人学方可投稿或公开发表。 学位论文作者签名: 日 期:趋垃:611 l 指导教师签名: 盘左! 畦冀 日期: 迎! ! :! l 一 易 基于k - m e a n s 平白适应谐振理论的网络流量分类与法 n e t w o r ka p p l i c a t l 0 ni d e n t i f i c a t l 0 nb a s e d0 n f a v e l e tt r a n s f o r ma n da d a p t i v er e s o n a n c e t h e o r ya l g o r i t h m a bs t r a c t t h en e t w o r kd e v e l o p sr a p i d l y , a c c u r a t ei d e n t i f i c a t i o na n dc a t e g o r i z a t i o no f n e t w o r kt r a f f i ci sm o r ea n dm o r ei m p o r t a n t t h ei d e n t i f i c a t i o no fn e t w o r ka p p l i c a t i o n b a s e do np o r tn u m b e ri sc o n s t r a i n e db yt h es t a t u st h a tm a n yp e e r - - t o - p e e ra p p li c a t i o n s m a k eu s eo fd y n a m i cp o r tn u m b e r s a n dc o n s i d e r a t i o n so fs a f e t y , a p p l i e se n c i p h e r e d d a t a ,t r a d i t i o n a lm e t h o d sb a s e do np a y l o a da n dw e l l k n o w np o r tn u m b e r sh a v en o t h e l dg o o d t h em e t h o db a s e do na p p l i c a t i o nl a y e rs t a t i s t i c si su s e dt oc o p ew i t ht h i s , 之 f , 、 , 基于k - m e a n s 和白适应谐振理沦的网络流量分类方法 目录 摘要i a b s t r a c t i i 第一章引言1 1 1 课题研究背景1 1 2 国内外的研究现状2 1 3 本文解决的关键技术2 , 1 4 基于k - m e a n s 和自适应谐振理论的网络流量分类方法的提出和实现一2 1 5 本论文的安排3 第二章研究背景4 2 1 网络流量分类4 2 2 机器学习方法6 2 2 1 基于有监督机器学习方法6 2 2 2 基于无监督机器学习方法9 2 3 现有的网络流量分类产品1 0 2 4 j 、l 宕l1 第三章网络流量分类系统的关键技术1 2 3 1 小波压缩1 2 3 2k - m e a n s 算法1 3 3 3 自适应谐振理论1 4 , 3 3 1 人工神经网络1 4 、 3 3 2 自适应谐振理论15 3 4 以、结18 第四章网络流量分类系统的设计1 9 4 1 搭建试验环境2 0 4 2 实验中的t r a c e 2 0 4 3 分流2 3 4 4 特征提取2 4 i v v 基于k - m e a n s 和自适应谐振理论的网络流量分类方法 图表目录 图3 1k - m e a n s 算法流程图1 4 图3 2 人工神经网络神经元结构图15 图3 3 自适应谐振神经网络的结构图1 7 图4 1 网络流量分类实验的流程图1 9 图4 2 实验环境拓扑图2 0 图4 3 数据包的传输路径2 1 图4 4w i r e s h a r k 捕获的数据包示例一2 2 图4 5w i r e s h a r k 输出的文本形式示例一2 3 图4 6 流文件示例一2 4 图4 7 小波压缩结果图2 9 图4 8 自适应谐振网络流程图3 2 图4 9 识别阶段流程图3 4 图4 10 比较阶段流程图3 5 图4 11 查找阶段流程图3 7 表2 1 端口号映射表4 表3 1 哈尔小波变换过程示例1 3 表4 4 主要函数和描述 表4 5k - m e a n s 算法的主要参数和描述 v i 巧 砑 凹 一 一 一 一 一 一 一 一 一 一 据 义 数含值的 及征后 征特缩 特的压 要取波 主提小 1 2 3 妒 扣 仁 表表表 内蒙古人学硕十学位论文 1 1 课题研究背景 第一章引言弟一早ji 苗 网络的发展是一柄双刃剑,一方面新的网络基础设施不断部署,新型网络应用模式和应 用需求不断涌现,为人民的日常牛活提供了便利;另一方面,有限的网络资源越来越不能满 足日益增长的网络流量的需要,网络上各种病毒肆虐,新应用的增加给监管带来网难,为了 趋利避害,合理的管理、规划现有的网络资源,使网络使用环境安全、可靠和高效迫在眉睫。 精确的分类网络流量可以解决这一问题,它的丰要作用体现在以下三方面: 第一,满足网络监控的需要,精确的网络流量分类可以使网络管理员更好的管理监控现 有的网络,预测未来网络的需求。从网络应用的特点上来看,除了传统的网页浏览、收发电 子邮件等数据应用之外,出现了网络电话、网络视频、网络游戏等对网络实时性有较高要求 的应用。针对耗用资源比较多,而且实际收益很小的应用,网络管理员可以进行监控,对这 些应用进行限制,满足用户的正常需求。 第二,满足政策的需要,在学校或者在企业中,常常有限制文件共享或者禁止玩游戏的 需要。精确的网络流量分类可以帮助网络管理员更好的区分应用,尽早发现文件共享或者在 线游戏等应用,避免文件共享对企业利益造成的不必要的损失,防止学生过分沉迷于在线游 戏耽误学习。 第三,满足对安全的需要,网络里面充斥了大量的病毒、攻击等垃圾流量。病毒不仅会 破坏系统程序,盗取账号密码,而且会无限制抢占有限的网络出口带宽,导致无法保证网络 用户关键业务的服务质量,大量带宽的无谓消耗,大大增加网络出口费用的支出,严重时可 以导致网络系统瘫痪。 因为随着网络的发展,出现了很多p 2 p ( p e e rt op e e r ) 下载等对网络带宽抢占能力极强的 应用,所以本课题丰要是针对网络流量分类中区分p 2 p 应用和非p 2 p 应用进行研究,基于2 0 0 8 年北京邮电大学牵头的国家重大基础研究( 9 7 3 ) 项目“面向业务感知的网络测量理论与方法 ( 课题编号:2 0 0 7 c b 3 1 0 7 0 2 ) ”,项目对网络测量的基本理论,核心技术进行攻关。 基于k - m e a n s 和臼适应谐振理沦的网络流量分类方法 2 国内外的研究现状 国内外进行网络流量分类的方法丰要有三种,即基于端口号的方法,基于特征串的方法 和基于统计特征的方法,前两个方法都有明显的缺点,基于端口的网络流量分类中对使用随 机端口的应用分类分辨力低,基于特征进行网络流量分类方法无法识别没有特征串的应用和 数据加密的应用,这些内容在第二章中详细介绍。 对比发现,由于越来越多的应用使用随机端口号,基于端口号的方法已经很少有人使用, ,- 基于特征串的方法的分类精确度比较高,所以目前仍有人使用,例如现有的d p i ( d e e pp a c k e t i n s p e c t i o n ) 技术的基本原理就是特征串识别,而基于统计特征的方法由于不依赖于端口号和 特征串,无需包的全部负载信息,越来越多的人选择这种方法进行网络流量分类,它同时也 是本文的研究和使用的网络流量分类方法。 3 本文解决的关键技术 本论文解决的关键问题为: ( 一) 对实验数据的捕获,现有的抓包工具较多,如何选择以备后期特征的提取。 ( 二) 网络流量可供提取的特征达数百种之多,将每个特征都应用于实验不可行,如何选择。 ( 三) 分类算法很多,它们各有利弊,如何选择有效的分类算法。 1 4 基于k - m e a n s 和自适应谐振理论的网络流量分类方法的提出和实现 基于统计特征的网络流量分类方法的本质是机器学习问题,而机器学习的算法不胜枚举, 如贝叶斯算法,决策树,支持向量机等等,在众多的基于统计特征分类的方法中,本文选择 k - m e a n s 方法进行分类,这主要基于两点考虑,第一,k - m e a n s 是无监督机器学习中聚类的一 种,不需要事先对样本数据进行标记,而且耗时较短。第二,通过k - m e a n s 方法能够生成的 簇中大部分只包含一个应用,这符合网络流量分类中精确区分应用的目标。 评价一个机器学习方法优劣通常有两个标准:预测精度( 泛化能力) 、学习与分类速度。 在网络流量分类系统中,我们需要预测精度越高越好,学习与分类的速度越快越好,而k - m e a n s 方法在这些方面有明显的不足,即网络流量分类精确度低,分类速度慢。从这两点来考虑提 高k - m e a n s 算法的计算性能。 针对这两点不足,本文对k - m e a n s 算法进行网络流量分类的过程进行了两点改进,首先, 2 内蒙占人学硕十学位论文 针对第一个问题,采用无损压缩的小波变换对特征进行数据预处理,减少了存储数据,缩短 了分类时间。其次,针对k - m e a n s 算法中对噪声数据敏感,精确度低的情况,采用了自适应 谐振理论的方法进行第一次分类,提高了分类精确度,于是提出了本文的分类模型,即在 k - m e a n s 算法之前先使用小波压缩预处理,然后使用自适应谐振理论进行初次分类,把应用 分为p 2 p ( p e e r - t o - p e e r ) 应用和非p 2 p 应用两类。最后使用k - m e a n s 算法进行进一步分类, 达到最终的分类结果。 木实验中使用的分类方法同单独使用k - m e a n s 算法的方法相比较,实验结果表明,这种 分类方法比单独使用k - m e a n s 进行分类占用空间小、分类精确度高。针对本文所捕获的网络 流量,单独使用k - m e a n s 算法需要对8 0 * 4 的网络流量特征矩阵进行处理,按照本文的方法, 进行小波压缩后,只需对8 0 * 2 的网络流量特征矩阵进行处理。而且实验的精确度有明显的提 高,单独使用k - m e a n s 算法的分类精确度为6 8 7 5 ,采用木文的分类方法基于k - m e a n s 和自适应谐振理论的网络流量分类方法,最终的分类精确度为8 0 。 1 5 本论文的安排 本论文的第二部分介绍了网络流量分类的研究背景,其中介绍了现有的网络流量分类方 法,网络流量分类工具,三类网络流量分类方法的丰要优缺点。第三部分介绍了小波压缩, k - m e a n s 和自适应谐振理论方法。第四部分介绍了对基于k - m e a n s 和自适应谐振理论方法的 网络流量分类的方案的详细设计,并得出实验结论。第五部分对全文进行总结,提出下一步 研究的工作重点和展望。 表2 - 1 端口号映射表 t a b l e2 - 1t h et a b l eo fp o r t sm a p p i n g 常用端口号协议应用程序名称 描述 7t c p 厂u d p e c h o回送 1 5t c p u d pd i s c a r d 丢弃 2 lt c pf t p文件传输协议 2 3t c p t e l n e t 远程登录 5 3 t c p u d pd o m a i n域名服务器 1 1 0t c p p o p 3邮局协议版本3 1 6 lu d ps n m p 简单网络管理协议 1 6 2u d ps n m p t r a ps n m p 陷阱 4 4 3t c ph t t p s 安全h t t p 协议 5 4 6t c pd h c p c l i e n t 动态主机配置协议客户 基于端口号的方法是从t c p 头部获取端口号,然后与端口映射表中应用程序名称一一 4 内蒙古人学硕十学何论文 对应,由于这种方法的分类过程中只查找端口号,所以它分类速度较快,但是有两个难以克 服是缺点:第一,这种方法仪对使用众所周知端口的应用有效,无法分类使用随机端口的应 用;第二,当非传统应用使用众所周知端口时,使用这种方法容易错误分类。由于近几年来 涌现出的p 2 p 应用大量使用随机端口,这种方法变得越来越不适用。具体表现为分类精确度较 低,这点在很多文献中都有提到。剑桥大学的m o o r e 平h p a p a g i a n n a k i 1 就发现使用官方的 i a n a 端口映射表进行流量分类,其分类字节准确度不到7 0 。而m a d h u k a r $ l l w i l l l i a m s o n 在文 2 】中提到对于他们所研究的网络数据流,采用基于端1 2 1 的分类办法,其中3 0 7 0 的数据流 识别不出。s e n 等人 3 】报告对于k a z a ap 2 p 协议,基于端口的分类方法仪能识别其中3 0 ( 按 字节) 的流量。 2 基于特征串的分类方法 基于应用层内容的分类方法的基木原理是不同的应用的i p 包中包含特有的协议特征码, 女n e d o n k e y 中包含“0 x e 3 ”、“0 x c 5 ”的特征串,d i r e c t c o n n e c t 包含“$ s e n d ”、“$ s e a r c h ”、 “$ q u i t ”、“s p i n ”、“$ h e l i o ”、“$ m y i n f o ”等特征串。基于应用层内容的分类方法就 是根据这些协议特征码来划分应用。 这种方法的优点是准确率很高,这是因为这种方法对网络流量数据都用特征串匹配了一 遍。m o o r e 和p a p a g i a n n a k i 1 就曾提出采用基于应用层内容分析的办法,可将准确率提高到 7 9 ,而针对个别应用,如f t p ,该数值则可高达9 8 。s u b h a b r a t as e n 4 等人提出基于应用 签名的p 2 p 流量检测方法,本质是深层数据包检测方法,把特征分为固定偏移量特征和变化偏 移量特征。首先检查固定偏移量,然后检查变化偏移量。但是这种方法有三个明显的缺点, 第一,分类需要获取完整的应用层负载内容,涉嫌侵犯用户隐私,在用户对个人信息越来越 重视的今天,这种方法很不适用。第二,该方法也无法识别应用层加密的应用,无法识别特 征字段未知的应用。第三,这种方法需要对网络流量数据都是用特征串匹配一遍,这无疑会 增加处理数据的时间,计算量大。t h o m a sk a r a g i a n n i s 5 等人在仔细研究t p 2 p 流量的传输 层特征后,提出了一种基于传输层特征和传统的端口检测技术的方法,能够有效地检测到新的 p 2 p 应用和加密p 2 p 应用,但是该方法过于复杂。 3 基于统计特征的分类方法 基于统计特征的分类方法是根据网络流行为来区分应用,它的基本原理是:由于不同的 应用类型目标和特点的差异,网络流行为也就表现的千差万别。网络流量的行为特点,即数 据流持续时间的分布、空闲时间、数据包的长度、到达时间等等,它们对特定类型的应用是 基于k - m e a n s 和自适应谐振理论的网络流量分类方法 独一无二的,由此可以按照这些行为特点将不同的应用类型进行区分。 这种流量类型与它可观察到的统计特征之间的对应关系,在1 9 9 4 年,文 6 , 7 中就有 提及,而在其之后也有很多研究者针对特定网络应用所特有的流量特点进行过研究( 如 8 1 0 ) 。文 1 1 中t a u l d 贝j j 将其称为“互联网用户( 从网络应用的角度) 的可逆性”, 并对其进行了证实:基于从数据包头中得到的统计特征,利用同一网站同一天的数据进行训 练和测试,准确度可达至1 j 9 9 。虽然对于p 2 p 应用的识别准确率仍然不高( 4 7 1 ) ,但对于一 些传统的应用,诸女n f t p 、d n s 、m a i l 、d a t a b a s e 等,识别准确率都高达9 7 以上。这充分体现 出根据对网络流量行为特点进行网络流量分类的可行性,这一点在文 1 2 1 9 中也得到了 充分的证明。 基于统计特征的网络流量分类方法需要从海量的网络数据中生成模型,然后根据从网络 流量中提取的网络流量特征进行分类,只有从这些数据中区分出不同的应用类型,才能理解 网络用户的行为,做到科学的管理。而机器学习就是从一个给定的数据集合中自动生成模型 的过程,所以网络流量分类木质是一个机器学习问题。机器学习方法是一个自动学习过程的 总称,这个学习过程可以从一个给定的集合中得出推广模型。机器学习分为有监督的机器学 习方法和无监督的机器学习方法。 2 2 机器学习方法 机器学习分为有监督的机器学习方法和无监督的机器学习方法。有监督的机器学习方法, 需要事先正确的标记训练样本类别,然后通过已经标记好的样本,学习一个模型的参数,如 分离器的阈值等,然后使用这个分类器模型给新的数据标记。无监督的机器学习方法不需要 事先标记样本的类别,主要是通过发现相似数据点的集合,这两种方法各有利弊。 2 2 1 基于有监督机器学习方法 有监督的机器学习方法,需要事先正确的标记样本类别,然后通过已经标记好的样木的 类别,学习一个模型的参数,然后使用这个分类器模型给新的数据标记。这一类型的网络流 量分类方法的优点是分类准确率高。缺点是要求样本数据事先被正确标记类别,而且无法发 现未知的类别,需要足够的训练数据,生成具有良好泛化性能的检测模型。每次分类都需要 重新学习,占用时间。有监督的机器学习方法如贝叶斯方法、决策树方法、支持向量机分类 方法等。 6 内蒙古人学硕十学位论文 1 贝叶斯分类方法 贝叶斯分类方法的珲论基础是贝叶斯定理,根据已知各类别的先验概率和条件概率密度 函数,通过贝叶斯公式计算出该样本分属各类别的概率,即后验概率,通过计算,把待分类 对象归于可能性最大的那个类别中。 贝叶斯方法基于严格的数学公式,具有较高的分类精确度。贝叶斯公式如下所示: p ( c j 小掣出进盟 厂( yg ) p ( 纠 公式中p ( c j ) 是表示类别c j 的概率,f ( yc j ) 是c j 发牛时y 的概率,贝叶斯分类算法的一 个关键问题就是求解f ( yc j ) 。为了解决这个问题,贝叶斯方法做出了两个强的特征假设:即 属性之间不相互关联和样木之间服从标准正态分布。在网络流量分类中,属性之间不相瓦关 联的要求一般是难以达到的,因为网络流量分类方法很多属性是关联的。例如一个流中包的 间隔到达时间就和流的持续时间相关联,包的间隔到达时间越长,流的持续时间就越长,两 者正向相关。所以此方法对网络流量辨识不很适用,而且它同众多的有监督机器学习方法一 样,无法对未知类别的网络流量进行分类。 m o o r e 和z u e v 2 0 等人使用朴素贝叶斯方法来构造分类器,基于描述待分类对象的属性特 征值相互独立的假设,所以分类精确度很低。在文献 2 1 中,分类的精确度有了提高,t o m a u l d 和a n d r e ww m o o r e 等人使用贝叶斯神经网络来对网络流量进行分类,分别测试了两天的 数据,对当时的数据分类的精确度为9 9 ,对八个月以后的数据分类,分类的精确度降为9 5 。 z u e v 和m o o r e 2 2 提出了基于概率模型的朴素贝叶斯方法。该方法要求参与分类的各项属性条 件独立而且遵循高斯分布,然而在流量分类问题中原始的网络流属性集合很难满足上述条件, 因此该方法的整体准确率只有6 5 左右。为了克服条件独立假设和高斯分布假设带来的消极影 响,m o o r e 等人 2 3 采用f c b f ( f a s tc o r r e l a t i o n - b a s e df i l t e r ) 算法对属性集合进行了过滤, 并使用核估计( k e r n e le s t i m a t i o n ) 技术对原始的朴素贝叶斯方法进行了改进,从他们的实验 结果来看,改进后的平均分类准确率达到t 9 5 以上。然而,朴素贝叶斯方法是种传统的参 数估计方法,需要已知待分类样本的分布形式,而在实际的流量分类问题中,建立分类器时 所获得训练样本数量相对于海量的未知数据则显得非常有限,难以模拟未知样本的空间分布, 从而无法保证分类结果的稳定性。 2 决策树分类方法 决策树分类方法是首先训练数据,把得到的函数表示成树形结构,用这个树形结构来表 分类的问题,需要构造多个二类分类器。这一点不利于对网络流量进行分类,因为在网络流 量分类过程中,分类目标是对越来越多的应用准确辨识。 文献 2 5 提出一种基于s v m 的p 2 p 网络流量分类方法,利用p 2 p 流量的统计特征和基于统计 理论的s v m 方法,对不同应用类型的p 2 p 流量进行分类研究。2 0 0 6 年,围防科学技术大学的王锐 等人 2 6 率先将支持向量机s v m 方法应用蛩j p 2 p 流的识别领域。他们利用网络流量相关的统计 属性将网络流简单划分为p 2 p 流和非p 2 p 流,然而他们所用的统计属性依赖于应用的流模式。 因此,该方法与基于传输层行为的流量识别方法相似,分类结果的稳定性极易受到网络环境的 内蒙占人学硕十。学位论文 影响。 2 。2 2 基于无监督机器学习方法 无监督的机器学习方法,最终是要发现相似数据点的组合。优点是克服了监督方法中需 要标记数据的不足,缺点是其检测精度明显低于有监督的分类方法,速度慢。 无监督机器学习方法事先没有仟何关于待分类对象的先验知识,只是根据待分类对象的 相似度分类,其代表算法有k - m e a n s 、自适应谐振理论等,以下对上述方法做详细说明。 1 k - m e a n s 分类方法 k - m e a n s 算法是现在被广泛使用的无监督学习方法之一。该方法的丰要思想是首先给定n 个对象和需要牛成的k 个类,假定k 个簇的中心,首先计算其它( n k ) 个对象到这k 个簇的中心 的距离,然后把它们归于离自己最近的簇的中心的簇中,然后计算这个簇的平均值。这个过 程不断达代,直到找到最优的情况,即所有对象距离的平方误差的总和最小。最终使得簇内 数据对象距离最小,而簇间数据的对象距离最大。 k - m e a n s 算法的优点是简单迅速,在处理大的数据集时,相对可以伸缩。但是k - m e a n s 算 法对噪声点敏感,而且必须要事先清楚待分类对象的类别k 。但是网络的实际情况是新的网络 应用层出不穷,很难确定k 的值。所以在网络流量分类算法中,单独使用k - m e a n s 算法解决网 络流量分类问题,分类效果并不是很好。因而在本文中选择t k - m e a n s 算法,但是用小波压缩 和自适应谐振理论进行了改进。 j e f f r e y 2 7 等人评价了三种无监督机器学习方法,n d k m e a n s ,d b s c a n 和a u t o c l a s s ,这 些方法共同的缺点是计算时间比较长。此夕b 2 0 0 6 年法国l i p 6 实验室的b e r n a i l l e 等人 2 8 还提 出利用t c p 流中前5 个数据分组的长度序代表相应的网络流。他们采用了k 均值、高斯混合模型 ( g a u s s i a nm i x t u r em o d e l ) 和谱聚类( s p e c t r a lc l u s t e r ) 三种聚类方法来处理这些由分组长 度序列构成属性向量。他们的实验结果表明这些聚类算法不仅能够以9 0 的准确率有效地分类 知名应用的网络流量,而且能够将部分类型未定义的新型网络流标记出来。但是b e r n a i l l e 等人采用网络流属性依赖于数据分组的到达顺序,而在实际网络环境中数据分组由于网络拥 塞等原因,通常无法保证顺序到达 2 9 ,因此,b e r n a i1 1 e 等人的方法,其稳定性和实用性无 法保证,而本文中的k m e a n s 方法的使用没有数据包到达顺序的限制,从现实的校园网络中捕 获,并且可以应用到实际环境中进行流量分类。 2 自适应谐振理论分类方法 9 基于k - m e a n s 和白适应谐振理论的网络流量分类方法 自适应谐振理论是一种无监督的神经网络。当神经网络与环境有交互作用时,对环境的 编码会自发的在神经网络中产牛,自适应谐振理论来源于协作竞争网络模型。自适应谐振理 论基础来自于无意识推理学说,即:原始的感觉信号需要经历学习过程不断修改,直到成为 一个真实的感觉过程为止。这个过程类似于在牛活中,我们遇见了熟悉的人,或者是不熟悉 的人的情况。如果是熟悉的人,那么马上识别;如果是不熟悉的人,那么会进行学习,修正 自己的记忆,下次遇到后直接识别。 自适应谐振理论可以进行实时学习,对于己分类的对象能够快速识别,同时,也能迅速 适应未学习的新对象。根据特征在全体中所占的比例,能够选择关键特征,剔除噪声数据。 不需要事先对数据进行训练,是无监督学习。如果对环境作出错误的判断则自动提高“警觉 性”,迅速识别对象。这些优点很符合网络流量分类的要求。因为在网络流量分类过程中, 分类的时间越短,越能够便网络管理员快速的作出有效决策。而且网络流量数据庞杂,分类 的最好的情况就是使用较少的特征,但是网络流量的精确度并不改变。 自适应谐振理论丰要应用在网络入侵检测方面,吉林大学的田大新等人 3 0 设计了基于 自适应谐振理论的入侵检测系统,提高了学习效率,使丢包率由1 5 降低到1 0 以下,实现了 无监督和在线实时学习。中国石油大学的宋吴 3 1 在深入研究i p v 6 协议的结构特点的基础上, 将协议分析和自适应谐振理论( a r t ) 应用到入侵检测技术中。实验结果证明,这种将协议分 析幂 i a r t - 2 网络相结合的多层次入侵检测系统,对潜在的攻击类型有较好的检测效果,尤其是 缩短了训练和测试的时间。 2 3 现有的网络流量分类产品 现有的网络流量分类产品可以实现网络流量分类的部分功能,但是还存在自身显著的缺 点。 n i k s u n 公司的n e t d e t e c t o r 为i p 网络提供实时、连续的流量记录和分析,缺点是 n e t d e t e c t o r 采集完整用户业务流量需时很长,工程规模复杂,费用极高。 福禄克( f l u k e ) 公司的网络协议分析仪( o p v w g a ) 提供对网络的从一层到七层的全部分 析,缺点是分析仪主要分析的也是基于端口的传统协议,对使用端口动态变化的新应用层协 议,女h p 2 p 协议则识别率很低。 华为3 c o m 公司的n t a ( n e t w o r kt r a f f i ca n a l y s i s ) 解决方案是基于网络流信息的统计和 分析的系统,它基于三层协议号、端口号,可识别上千种已知应用( 比如:n o t e s 应用、f t p 应用、h t t p 应用等等) ,并提供应用自定义功能。缺点是无法分析四至七层的应用流量。 1 0 内蒙占人学硕+ 学位论文 2 4 小结 本节中首先介绍了网络流量分类的基础三种网络流量分类方法,基于端口的网络流 量分类方法无法处理使用随机端口的应用,基于特征串的网络流量分类方法对处理加密数据 和不知道特征串的应用兀能为力,基于统计特征的网络流量分类方法克服了它们的缺点,所 以这种网络流量分类方法是现在网络流量分类研究中普遍采用的方法。第二小节丰要介缁了 基于统计特征的网络流量分类方法,其中对有监督的机器学习方法和无监督的机器学习方法 做了详细介绍,并且介绍了这两类机器学习方法中一些有代表性的方法。对比了这些方法的 优缺点后发现,有监督的机器学习方法需要事先标记样木类别,无法发现新的应用类型:无 监督的机器学习方法突破了它的这些限制,但是面临着分类精确度低,分类速度慢的问题, 所以改进了速度和精确度的无监督分类方法更符合网络流量分类的需求。第三小节介绍了现 有的网络流量分类产品,指出了这些产品虽然可以实现网络流量分类的部分功能,但是还存 在着显著的不足。 并且需要从中 少数据的存储 近似的小波系 高频的变化成 分类的质量, 能够被丢弃。低频部分的近似系数表示主要特征,需要保留来表示数据。 下文以哈尔小波为例来描述小波变换的过程。 哈尔小波的定义如下所示: 1 ) f ( x ) = l 当0 = x = 1 2 2 ) f ( x ) = - 1 当1 2 h t t p a c k 】s e q = 1 争一9o 3 4 02 1 8 7 3 1 9 2 i s 02 0 2 2 0 7 。4 3 3u s o u r c ep o r t :4 3 1 0 0o e s t l l o0 。0 0 0 3 4 2 2 2 2 3 1 。2 1 2 。s 6 0 2 2 。3 0 2 4 8 盯w c o r t i n u a z i o no rf l o r l h t r p , 1 10 0 0 0 3 4 42 2 2 3 1 。2 2 1 辨6 0 。1 4 1 9 王1 舛u s o u r c ep o r t :h y d a po e s t ,7 1 20 0 0 0 3 4 5 2 2 2 3 1 2 2 1 9 g o 1 4 。1 9 1 1 9 4 u d ps o u r c ep o r t :d 秘o e s t i ,。1 30 0 0 0 3 4 62 2 2 3 1 。2 2 1 。辫6 0 。l 。l 鳃鸫4u 潍s o b r c ep o r t :d 翰d e s t i ,1 毒n 黝 ; ,:, ”盛。7 ,钔1 始确7 4 j ,二。l 舶p 一 钠扩f p 嬲 :新f 艚矗剃萱,。 i 汀a l l e2 ( 7 9b y t e s 瓣讲f e ,7 9 眯e sc a p t u r e d ) t h e r n e t :z 。s r c :c i s c o j 3 :9 5 :0 0 ( 0 0 :0 2 :7 e :2 3 :9 5 :0 0 ) ,o s t :c t s c 0 2 6 :3 c :8 2 ( o o :0 1 :秘:7 6 :3 c :8 2 ) $ i n t e r n e tp r o t o c o l ,卯c :2 2 1 i 8 。4 6 1 0 0 ( 2 2 1 1 0 。4 6 1 0 0 ) ,d s t :2 0 2 。2 0 7 。4 。1 1 4 ( 2 0 2 2 0 7 4 。1 1 4 ) 菘u s e ro a t a g r a 盎p r o t o c o l ,劈cp o r t :1 9 2 8 8 ( 1 9 2 8 8 ) ,o s tp o l l :6 8 4 0 ( 5 舶o ) 匿o a i a ( 3 7 妍e s ) 图4 - 2w ir e s h a r k 捕获的数据包示例 f i g 4 - 4t h ee x a m p l eo fp a c k e t sc a p t u r e db yw i r e s h a r k 上面的每一条记录都代表了一个数据包,包含的主要信息有:记录号,到达时间,源i p 地址,目的i p 地址,发送时使用的协议,还有相关信息( 主要含端口号信息) ,下面部分是 这个包的详细信息。为了后续能够利用p e r l 语言进行分流,而p e r l 语言只能对文本文件进行 操作,所以设置w i r e s h a r k 把捕获的流量信息直接输出为文木形式,如下图所示: 内蒙占人学硕士学位论文 h o t i m es o u r c e 1b 0 0 0 0 0 02 0 2 2 0 7 1 5 7 。9 d e s t i n a t i o np r o t o c o li n f o 2 0 2 2 0 7 1 5 7 2 5 5h b h s h a n eq u e r y f r a 盹1 ( 9 2b y t e s0 1 1w i r e ,9 2b y t e sc a p t u r e d ) e t h e r n e t i i ,s r c :a s u s t e k c 一4 0 :7 3 :3 c ( 0 0 :2 4 :8 c :4 0 :7 3 :3 c ) ,o s t :b r o a d c a s t ( f f :f f :f f :f f i n t e r n e tp r o t o c o l ,s r c :2 0 2 2 0 7 1 5 7 9 ( 2 0 2 2 0 7 1 5 7 9 ) ,o s t :2 0 2 2 0 7 1 5 7 2 5 5 ( 2 0 2 2 0 7 1 5 7 2 5 5 j u s e rd a t a g r a np r o t o c o l ,s r cp o r t :n e t b i o s f l s ( 1 3 7 ) 。o s tp o r t :n e t b i o s n 5 ( 1 3 7 ) s o u r c ep o r t :n e t b i o s - n s ( 1 3 7 ) d e s t i n a t i o np o r t :n e t b i o s - n s ( 1 3 7 ) l e n q t h :5 8 c h e c k s u n :o x 4 f 5 4f u a l i d a t i o nd i s a b l e d 】 h e t b l o sh a m es e r u i c e t r a n s a c t i o ni d :o x 9 c f d f l a g s :o x o l l o ( h a p eq u e r y ) q u e s t i o n s :1 r n s w e r r r s :0 r u t h o r i t l 】ir r s :o r d d i t i o n a r r s :0 图4 - 3w ir e s h a r k 输出的文本形式示例 f i g 4 5t h ee x a m p l eo ft e x to u t p u t t e db yw i r e s h a r k w i r e s h a r k 输出的文本丰要包括五个字段的信息,序号,到达时间,源和目的i p 地址,协 议,字段的下面是这个包的详细信息。上图显示 w i r e s h a r k 捕获的第一个包的文本格式的信 息。 4 3 分流 在分流阶段采用了p e r l 语言的正则表达式,选择p e r l 语言的原因是p e r l 语言的正则表达 式可以方便的处理任何字符数据,方便后面的特征提取。 传统的分流方法是根据五元组分流,将具有相同五元组内容的数据包看为是一种流,而 不必考虑源和目的的顺序性。这种方法分流得到的流的粒度较小,分后的流数目很大,增大 了数据处理时间。本文基于i p 地址对进行分流,即不区分源和目的,有相同i p 地址的就划分 到一个流中,选择这种方法主要的原因是:在网络管理中,网络流量分类越迅速就越有效, 而仅使用i p 地址对分流比使用五元组分流得到的流的数目较少,可以缩短程序的处理时间, 提高网络流量分类的效果,在试验中,本文把这种分流方法的结果命名为“流”。 具体做法是首先把w i r e s h a r k 软件捕获的p c a p 格式的数据转换成t x t 文本格式,因为 p e r 语言只能对文本文件中的数据进行操作。i p 地址对相同的即为一个流,不区分源和目的 i p 地址。即把i p 地址对相同的数据包都提取到一个文件中,以备后续使用。使用p e r l 语言分 流的程序主要部分如下所示: 基于k - m e a n s 平臼适应谐振理论的网络流量分类力法 $ l i n e 3 ,$ 1 i n e 4 分别表示源和目的i p 地址,检索条件为源i p 地址满足$ l i n e 3 ,目的 i p 地址为$ l i n e 4 的所有数据包,把结果以文本的形式输出,因为本文使用的流是不区分源 和目的i p 地址的,所以还需要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 1953:2025 EN Coal - Size analysis by sieving
- 2025昆明聂耳交响乐团编外人员招聘(1人)考前自测高频考点模拟试题及参考答案详解一套
- 2025年滇西科技师范学院公开招聘博士人员(8人)考前自测高频考点模拟试题含答案详解
- 2025福建三明市教育局华东师范大学附属三明中学招聘紧缺急需专业工作人员18人(省外高校专场)考前自测高频考点模拟试题附答案详解(突破训练)
- 2025北京清华附中上庄学校招聘模拟试卷及参考答案详解
- 2025年中国华电集团有限公司宁夏分公司所属基层单位高校毕业生招聘笔试题库历年考点版附带答案详解
- 2025北京市大兴区教育委员会所属事业单位第二批招聘教师251人考前自测高频考点模拟试题及答案详解(新)
- 2025湖北恩施市福牛物业有限公司补招恩施市金满园农业发展有限公司工作人员1人考前自测高频考点模拟试题及答案详解(网校专用)
- 2025福建厦门市翔安招商集团有限公司(第一期)招聘4人考前自测高频考点模拟试题及参考答案详解
- 2025年福建省福州市少年儿童图书馆招聘3人模拟试卷参考答案详解
- 文化遗产数字化保护与文化遗产数字化保护的公众认知与接受度研究报告001
- 部编版(2024)七年级上册道德与法治第一单元 少年有梦 单元测试卷(含答案)
- 重大危险源安全培训
- 中职历史说课课件
- 广西2025年初中学业水平考试英语真题(含答案及听力音频听力原文)
- 锻造工理论知识考试题(附答案)
- 妇科手术麻醉出科
- 公司人员来访管理制度
- 2025至2030MCU行业市场发展分析及竞争形势与投资机会报告
- 2025年植物保护专业考试试题及答案
- 防水工程质量保证书
评论
0/150
提交评论