(计算机软件与理论专业论文)面向服务聚类的无监督异常检测技术研究.pdf_第1页
(计算机软件与理论专业论文)面向服务聚类的无监督异常检测技术研究.pdf_第2页
(计算机软件与理论专业论文)面向服务聚类的无监督异常检测技术研究.pdf_第3页
(计算机软件与理论专业论文)面向服务聚类的无监督异常检测技术研究.pdf_第4页
(计算机软件与理论专业论文)面向服务聚类的无监督异常检测技术研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机软件与理论专业论文)面向服务聚类的无监督异常检测技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着网络技术和规模的发展,网络安全问题也越来越突出。防火墙、 病毒检测等传统的网络安全技术己难以胜任网络安全的需要。入侵检测系 统作为一种“可适应网络安全模型”和“动态安全模型”逐渐成为研究的 热点。 为提高无监督异常检测系统的检测率、误报率和检测效率,本文在研 究服务分类技术、聚类技术和特征检测技术的基础上,提出一种全部属性 聚类和部分相关属性聚类( 即特征聚类) 相结合的无监督异常检测模型。 采用服务划分,有助于建立更加精确的检测模型。结合特征聚类,有利于 提高模型的数据处理速度。 模型首先将数据集划分为不同的服务集,然后对每个服务集数据包进 行全部属性聚类和特征属性聚类并比较训练结果,取其中训练性能较优的 方法建立对该服务的检测模型。离线检测实验表明,本文模型的检测率达 到9 9 2 2 ,误报率降低到2 2 。与不加服务划分的模型相比,本文模型的 训练时间和检测时间分别降低为相应模型的2 2 “和2 1 8 7 。与其他检测 算法的比较结果也表明,本文模型在检测率和误报率方面具有更优的性能。 系统在实时网络环境下的检测实验表明,对训练模型中己出现的攻击,在 线阶段和离线阶段的检测率保持在相同的水平。对训练模型中未出现的 s y n f l o o d 拒绝服务攻击,其检测率达到9 8 以上,而对背景流量的误报率 仅为5 3 4 ,都表现出很好的检测效果。 关键词入侵检测,全部属性聚类,特征聚类,无监督异常检测 a b s t r a c t w i t ht h ed e v e l o p m e n to fn e t w o r kt e c h n o l o g ya n ds c a l e ,n e t w o r ks e c u r i t y i s s u e sb e c o m e m o r ea n dm o r ep r o m i n e n t t r a d i t i o n a ln e t w o r k s e c u r i t y t e c h n i q u e s ,s u c ha sf i r e w a l l ,v i r u sd e t e c t i o ne t c n o wf a i lt os a t i s f yt h en e e d so f n e t w o r ks e c u r i t y i n t r u s i o nd e t e c t i o ns y s t e ma sa n a d a p t a b l en e t w o r ks e c u r i t y m o d e l a n d “d y n a m i cs e c u r i t ym o d e l ”g r a d u a l l yb e c o m e sah o tr e s e a r c hs p o t t oi m p r o v et h eu n s u p e r v i s e da n o m a l yd e t e c t i o ns y s t e m sd e t e c t i o nr a t e , f a l s ea l a r mr a t ea n dd e t e c t i o ne f f i c i e n c y , t h i sp a p e rp r o p o s e da nu n s u p e r v i s e d a n o m a l yd e t e c t i o nm o d e lt h a tc o m b i n e dt o t a l a t t r i b u t e sc l u s t e r i n ga n ds o m e r e l a t e da t t r i b u t e s c l u s t e r i n g ( i e f e a t u r e a t t r i b u t e s c l u s t e r i n g ) ,b a s e d o n r e s e a r c h e sa b o u ts e r v i c ec l a s s i f i c a t i o n t e c h n i q u e ,c l u s t e r i n gt e c h n i q u e a n d f e a t u r ed e t e c t i o nt e c h n i q u e t h eu s eo fs e r v i c ep a r t i t i o n i n gc o n t r i b u t e dt o e s t a b l i s h m e n to fm o r ep r e c i s ed e t e c t i o nm o d e l c o m b i n i n gf e a t u r ec l u s t e r i n g w o u l db eb e n e f i c i a lt oi m p r o v em o d e l sd a t ap r o c e s s i n gs p e e d t h em o d e lf i r s t l yd i v i d e dt h ed a t as e tt od if f e r e n ts e r v i c es e t s ,a n dt h e n c l u s t e r e de a c hs e r v i c ep a c k e t s t o t a la t t r i b u t e sa n df e a t u r ea t t r i b u t e s t h e d e t e c t i o nm o d e lo ft h es e r v i c ew a se s t a b l i s h e db yc o m p a r i n gt h et r a i n i n gr e s u l t s a n d s e l e c t i n gt h ep r e f e r a b l et r a i n i n gm e t h o d o f f - l i n ed e t e c t i o ne x p e r i m e n t s s h o wt h a tt h i sm o d e l sd e t e c t i o nr a t er e a c h e s9 9 2 2 ,a n df a l s ea l a r mr a t e d o w n st o2 2 c o m p a r e dw i t hm o d e lw i t h o u ts e r v i c e sp a r t i t i o n i n g t h em o d e l s t r a i n i n gt i m ea n dd e t e c t i o nt i m er e d u c et oc o u n t e r p o i n t2 2 1l a n d21 8 7 t h e r e s u l tc o m p a r e dw i t ho t h e rd e t e c t i o na l g o r i t h m sd e m o n s t r a t e so u rm o d e lh a s b e r e rp e r f o r m a n c e si nd e t e c t i o nr a t ea n df a l s ea l a r mr a t e u n d e rr e a l t i m e n e t w o r ke n v i r o n m e n t ,s y s t e m sd e t e c t i o ne x p e r i m e n t ss h o wd e t e c t i o nr a t e r e m a i n i n ga tt h es a m el e v e li no n l i n ea n do f f - l i n ep h a s et oa t t a c k st h a th a v e a p p e a r e di nt r a i n i n gm o d e l t h ed e t e c t i o nr a t ea c h i e v e sa b o v e9 8 t od e n i a lo f s e r v i c ea t t a c ks y n f l o o dw h i c hh a sn o ta p p e a r e di nt r a i n i n gm o d e l t h ef a l s e a l a r mr a t ei so n l y5 3 4 t ob a c k g r o u n dt r a f f i c ,a l s os h o w i n gg o o dd e t e c t i o n r e s u l t s 1 i k e yw o r d si n t r u s i o nd e t e c t i o n ,t o t a la t t r i b u t e sc l u s t e r i n g ,f e a t u r ec l u s t e r i n g , u n s u p e r v i s e da n o m a l yd e t e c t i o n i i l 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南 大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本 研究所作的贡献均已在论文中作了明确的说明。 作者签名:墨堡兰丝 嗍斗年日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保 留学位论文并根据国家或湖南省有关部门规定送交学位论文,允许学位论 文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复 印、缩印或其它手段保存学位论文。同时授权中国科学技术信息研究所将 本学位论文收录到中国学位论文全文数据库,并通过网络向社会公众提 供信息服务。 作者签名: 导师签名芈日期斗年三日 硕士学位论文第一章绪论 第一章绪论 传统的网络安全工具防火墙虽然能够通过过滤和访问控制阻止多数对系统的非法 访问,但其不能抵御某些入侵和攻击,尤其是在防火墙系统存在配置错误、没有定义或 没有明确定义系统安全策略时,都会危及到整个系统的安全。此外,由于防火墙主要是 部署在网络数据流的关键路径上,通过访问控制来实现系统内部与外部的隔离,从而对 于针对恶意的移动代码( 病毒、木马、缓冲区溢出等) 攻击、来自内部的攻击等,防火 墙将无能为力。因此针对网络的安全不能只依靠单一的安全防御技术和防御机制。只有 通过在对网络安全防御体系和各种网络安全技术和工具的研究基础上,制定具体的系统 安全策略,通过设立多道安全防线、集成各种可靠的安全机制( 比如:防火墙、存取控 制和认证机制、安全监控工具、漏洞扫描工具、入侵检测系统以及进行有效的安全管理、 培训等) 、建立完善的多层安全防御体系,才能够有效地抵御来自系统内、外的入侵攻 击,达到维护网络安全的目的i 。而这些机制中的入侵检测系统在“可适应网络安全模 型”和“动态安全模型”中都占有重要地位。 1 1 入侵检测概述 1 1 1 入侵检测的定义 入侵检测是指在特定的网络环境中发现和识别未经授权的或恶意的攻击和入侵,并 对此作出反应的过程【2 】o 而入侵检测系统i d s ( i n t r u s i o nd e t e c t i o ns y s t e m ) 是一套运用 入侵检测技术对计算机或网络资源进行实时检测的系统工具。i d s 一方面检测未经授权 的对象对系统的入侵,另一方面还监视授权对象对系统资源的非法使用。 1 1 2 入侵检测技术 入侵检测按检测技术分为误用检测( m i s u s ed e t e c t i o n ) 、异常检测( a n o m a l yd e t e c t i o n ) 和复合检测( h y b d do rc o m p o u n dd e t e c t i o n ) 3 1 。误用检测首先建立攻击模式库,然后通 过对目标数据和模式库的匹配来判断数据是否蕴涵着攻击。其优点是准确率高、误报率 低、容易设计和部署。缺点是不能识别未知攻击、已知攻击的变种【4 1 、内部滥用等行为 1 5 1 。异常检测通过建立系统或用户行为的正常行为轮廓( n o r m a lp r o f i l e ) ,检查目标数据 硕士学位论文第一章绪论 是否与之相偏离。其优点是能够检测未知攻击,不需要建立攻击模式库。缺点是误报率 高。异常检测由于其检测未知攻击的能力而成为入侵检测技术研究的热点。复合检测则 把误用和异常检测结合起来检测入侵。 异常检测又分为有监督的异常检测( s u p e r v i s e da n o m a l yd e t e c t i o n ) 、半监督异常检 测( s e m i s u p e r v i s e da n o m a l yd e t e c t i o n ) 和无监督的异常检测( u n s u p e r v i s e da n o m a l y d e t e c t i o n ) 【6 1 。前者需要纯净的正常数据集或者已标记的数据集来建立检测模型,而这 些数据在现实中不易获得。半监督异常检测需要部分标记的数据集外加未标记的数据, 但半监督异常检测并不能保证提供比无监督异常检测更好的检测性能i7 1 。后者不需要已 标记的数据,但它需要确定适当的阈值( t h r e s h o l d ) 来作为评判标准,阈值的取值是否 合理,将直接影响模型的性能。 常见的误用检测技术包括以下几种: ( 1 ) 模式匹配 模式匹配采用一定的模式描述来提取攻击特征,然后将入侵规则库中的己知攻击模 式与系统所保护的网络数据包或重构的t c p 流中的文本进行匹配,若匹配成功,则检 测到入侵。模式匹配技术有高检测率和低误警率,尤其和协议分析技术【8 】的结合,利用 网络协议的高度规则化和层次性,仅对数据包特定部分进行检测,减少了计算量、降低 了存储空间,提高了检测准确性。其缺点是计算负载大,不能检测变种攻击,规则库需 不断更新。 ( 2 ) 专家系统 专家系统将入侵知识转化为i f - t h e n 结构,i f 部分表示入侵特征,t h e n 部分表示系统 响应。当其中某个或某部分条件满足时,系统即判断为入侵。专家系统的优点是推理控 制过程和问题最终解答相分离,缺点是专家系统的建立依赖于知识库的完备性。 ( 3 ) 状态迁移分析 状态迁移分析以状态图表示攻击特征,不同状态描述系统某一时刻的特征。初始状 态对应入侵前系统状态,攻击状态对应入侵时刻系统状态。初始状态与攻击状态间的迁 移可能有一个或多个中间状态。若某个观测事件作用于状态图,使系统从初始状态迁移 到某个危害状态,则该操作即为入侵。该方法的优点是可检测缓慢攻击和分布式攻击。 但由于状态和转换动作的手工编码,因此对某些精心设计的攻击难以精确表达。s t a t 州 ( s t a t et r a n s i t i o na n a l y s i st e c h n i q u e ) 和u s t a t 1 0 j ( s t a t et r a n s i t i o na n a l y s i st o o lf o ru n i x ) 是典型采用该方法的i d s 。 异常检测按照层次和检测模型可划分为以下三大类【l i 】: ( 1 ) 基于统计的异常检测 统计分析通过在一段时间内收集与合法用户行为相关的数据来定义正常的阈值,如 2 硕士学位论文 第一章绪论 果当前的行为偏离正常行为阈值,那么就意味着潜在的攻击。其优点是系统不需要先验 的知识,可以检测对系统的滥用比如拒绝服务攻击。缺点是统计方法需要纯净的数据作 为依据,统计量度并不能反映事件间的顺序,而且不易为统计量度选择合适的阈值。 h a y s t a c k t l 2 j 是最早的基于统计分析的入侵检测系统。其缺点是对入侵特征的选取困难, 且其工作在离线状态不能实现实时检测。 ( 2 ) 基于机器学习的异常检测 机器学习检测技术是通过在新获取知识的基础上改进系统的检测性能或改变系统 的检测策略。常用的机器学习检测技术包括以下四类。 系统调用序列分析 基于系统调用序列分析是被广泛应用的机器学习异常检测技术,该技术通过学习特 定软件的行为来识别和正常行为的显著偏离。f o r r e s t 等3 】提出通过分析一个程序的系统 调用序列来构建一个正常的行为轮廓,偏离正常序列轮廓的系统调用则被认为是攻击。 但该系统仅可工作在离线状态并使用一个简单的表搜索算法来学习程序的行为。 贝叶斯网络 贝叶斯网络是一个封装了变量之问概率关系的图论模型。在数据分析方面,贝叶斯 网络有以下优点【1 4 】:可以处理不完备和带有噪声的数据集;可以体现事件的因果关系; 可对需要将现有知识和数据联系起来的问题进行建模。 贝叶斯网络在一些特定应用中都相当有效,但在实际实施时应考虑它的一些局限。 因为该方法的精确性依赖于对被保护系统行为模型的某种假设,偏离这些假设将降低系 统的精确性。因此,精确模型的创建对问题的解决非常重要。 主成分分析法 通常,入侵检测数据集有规模大和多维的特性。为解决高速网络和分布式网络下密 集高维数据的存储、处理、传输等问题,主成分分析法被提出以减少高维数据的维数。 从数学的角度讲,主成分分析法将n 个相互关联的随机变量压缩成d ( d n ) 个不相关 的变量。典型地,第一主成分表现了原变量线性组合的最大变化。很多数据集中,变化 最大的前几个主成分基本决定了原数据集的变化,因此对原数据集变化影响较小的主成 分可以被忽略。 马尔科夫模型 马尔科夫链已经被广泛应用在异常检测领域。y e 等【1 5 】提出了一个基于马尔科夫链 的异常检测模型。该模型通过打开一个观测窗口,检测一段时间内的状态序列,状态序 列的概率越大,则该状态序列越有可能是正常的活动,反之该状态序列为攻击的概率越 大。隐马尔科夫模型是另一种流行的马尔科夫技术,该模型是建立在未知参数基础上的 统计模型。隐马尔科夫模型的关键是如何根据观测的参数来确定其隐藏参数。 硕士学位论文第一章绪论 ( 3 ) 基于数据挖掘的异常检测 。 为减轻构建入侵检测过程中人为设定阈值的工作量,数据挖掘技术被用来检测受保 护对象的异常行为。数据挖掘技术按其检测思想主要分为三类。 基于分类的入侵检测 基于分类方法的入侵检测技术通过利用一组规则或模式将数据分为正常或异常。文 献中提出的分类方法包括推导规则生成、模糊逻辑、基因算法和神经网络等方法。 关联规则发现 关联规则发现是从一组给定的数据项以及事务集合中,分析数据项集在事务集合中 出现的频度关系。关联规则已被成功应用于发现审计数据中的异常模式。 聚类分析( c l u s t e r i n ga n a l y s i s ) 聚类分析由于可发现未标记多维数据中的潜在模式而越来越受到研究者的重视。聚 类的主要优点是其不需要系统管理员提供关于入侵或攻击的详细信息便可从审计数据 中检测入侵的能力。因此,它减少了异常检测所需的训练数据规模。聚类和孤立点检测 ( o u t l i e rd e t e c t i o n ) 是密切相关的。从聚类算法来讲,孤立点是位于数据集簇之外的数 据,这些数据可能就代表入侵或攻击。 1 2 入侵检测系统的分类 入侵检测系统根据检测对象的不同可分为基于主机的入侵检测系统h i d s ( h o s t i n t r u s i o nd e t e c t i o ns y s t e m ) 和基于网络的入侵检测系统n i d s ( n e t w o r ki n t r u s i o n d e t e c t i o ns y s t e m ) 。 1 2 1 主机入侵检测系统 基于主机的入侵检测系统h i d s 是根据主机的审计跟踪数据和系统的日志等信息来 发现可疑事件。它的目标环境是主机系统,仅检测当前系统。其优点是可精确判断入侵 事件,及时进行反应,而且可针对不同操作系统的特点判定应用层的入侵事件。缺点是 要占用宝贵的主机资源。 1 2 2 网络入侵检测系统 基于网络的入侵检测系统n i d s 是通过对共享网段或特定网络结点上的通信数据进 行侦听,并配合网络流量、协议分析等数据来判断入侵是否发生。这类系统不需要主机 4 硕士学位论文 第一章绪论 通过严格的审计,主机资源消耗少,可提供对网络通用的实时保护而无需顾及异构主机 的不同架构。但缺点是它只能监视经过本网段的活动,且精度较差,在交换网络环境下 难于配置,防欺骗能力也较差。 1 3 本文的主要研究内容 为提高无监督异常检测系统的检测率、误报率和检测效率,本文通过对现实网络流 量的分析,发现特定的网络对外提供的服务( 如h t t p 、m a i l 等) 在一定时间内有限而确 定。由于各种服务所采用的协议格式和应用层软件各不相同,因此不同服务连接记录之 间及针对不同应用层的攻击之间也表现出差异。比如p h f 漏洞是基于h t t p 服务,s m u r f 攻击则针对i c m p 协议。因此,单纯将网络中连接记录不加服务区分的处理方式不利于 精确检测模型的建立。 聚类是一种被广泛采用的数据挖掘技术,它根据数据间的相似性对数据对象进行分 类或簇,使得同一簇中对象之间的相似度较高,不同簇之间相似度较低。目前,聚类在 无监督异常检测系统中的应用都是基于对网络中连接记录的全部属性而进行。而事实 上,一条完整的连接记录按其属性的意义可分为三个特征属性集,其中的负载属性由于 其分布的随机性并没有聚类的价值。因此对连接记录的全部属性进行聚类并不能保证比 对某个特征属性集的聚类结果更优。和对某个特征属性的聚类相比,全部属性聚类将消 耗更多的时间。 针对特定网络环境下网络流量构成的现实依据和全部属性聚类的缺陷,本文提出一” 种全部属性聚类和特征属性聚类相结合的无监督异常检测模型并对其进行了离线和在 线检测。在离线训练和检测阶段,论文主要研究了服务分类技术、全部属性聚类和特征 属性聚类训练结果的比较选择、本文模型和其他相关模型检测性能的比较。在在线检测 阶段,论文研究了数据包的捕获技术、连接记录的生成和对检测结果的分析。 1 4 论文组织结构 论文分为五个章节,每个章节的内容概述如下: 第一章绪论主要介绍了入侵检测系统的定义,入侵检测技术的分类和该技术在每个 分类中的典型应用,然后介绍了入侵检测系统的分类并叙述了论文的主要研究内容。 第二章无监督异常检测技术针对本文研究的内容分析了国内外对无监督异常检测 技术的研究现状以及其所面临的威胁和挑战。然后论述了国内外对服务分类技术研究, 最后阐述了聚类在无监督异常检测技术中的研究现状。 硕士学位论文第一章绪论 第三章在分析当前无监督异常检测技术已有成果和现有方法缺陷的基础上,提出了 本文模型的工作环境,介绍了全部属性聚类和特征属性聚类相结合的无监督异常检测模 型的构成,并对其进行了离线训练及检测结果的分析和比较。 第四章对本文所提出的模型进行了在线实验。主要分析了数据包的捕获技术、连接 记录的生成和数据包属性的提取。最后对在线数据的测试结果进行了分析。 第五章总结论文的工作,指出将要继续研究的工作。 6 硕士学位论文 第二章无监督异常检测研究综述 第二章无监督异常检测研究综述 无监督异常检测的过程包括两个阶段:训练阶段和检测阶段。训练阶段中模型使用 无监督异常检测算法对未带标记的数据进行合理的分簇,并对分簇的结果进行标记,即 标记簇为正常簇或异常簇。检测阶段则根据某种分类规则将待检数据划分到某个簇,并 将该数据的属性标记为它所属簇的属性。即如果它所属的簇为正常簇,则该条数据为正 常数据;反之,该条数据为攻击数据。 2 1无监督异常检测技术的国内外研究现状 2 1 1国外对无监督异常检测所进行的研究 目前国内外对无监督异常检测技术的研究主要体现在对系统实时性、自适应性的研 究和不同检测方法的应用等方面。就检测方法而言,大多数无监督异常检测都基于孤立 点和聚类的检测技术。以下是国外对无监督异常检测所进行的研究。 文献【1 6 】提出基于无监督进化连接系统来解决异常检测系统的自适应问题,即传统 异常检测系统不能有效适应实际的网络环境。该系统通过在线学习本地网络的变化从而 使其适应正常行为的变迁。实验表明,与基于静态学习的支持向量机相比,该自适应异 常检测系统能显著降低误报率同时保持高的检测率。但是,入侵者可能通过逐渐渗透的 方式使该框架适应其恶意行为而不引发告警。 文献 1 7 】中提出并实现了一个实时无监督基于神经网络的入侵检测系统r t - u n n i d ( r e a l t i m eu n s u p e r v i s e dn e u r a l - n e t b a s e di n t r u s i o nd e t e c t o r ) 。该系统使用无监督神经 网络对正常和异常网络流量进行分类和分离。r t - u n n i d 将误用和异常检测结合起来, 因此,该系统可对己知和未知攻击进行检测。 文献 1 8 1 q b 提出一种基于进化人工免疫网络的无监督异常检测算法。该进化人工免 疫网络由未标记的训练数据“进化”而来,然后应用一个传统的聚类方法进行聚类分析。 对1 9 9 9 k d dc u p 数据集的检测结果表明该算法是可行和有效的。该算法的不足是需要 提前确定一些必要的参数和阈值,并且检测结果对参数和阈值的设定比较敏感。 文献【1 9 】在主成分分析和模糊自适应共振理论的基础上提出一种网络异常检测方 法。主成分分析被用来减少高维数据的维数和向量之间距离的计算的复杂度。k d d 实 验数据表明该模型对连接的分类达到了满意的效果。该模型的优点是降低了审计数据的 硕士学位论文第二章无监督异常检测研究综述 特征数、高检测率和对新攻击的检测能力。但模型在审计数据的维数变得更大的时候, 它的处理时间和检测率还有提升的空间。 在无监督异常检测领域,孤立点检测是其所采用的主要技术之一。与已有簇有明显 偏离或簇内记录数量显著较小的簇都被认为是孤立点【2 0 】。在基于孤立点的检测技术中包 括基于分布、基于密度和基于支持向量机等方法【2 1 1 。 2 1 2国内对无监督异常检测所进行的研究 以下是国内对无监督异常检测所进行的研究。 邱文彬等【2 2 】探讨了主成分分析法在网络入侵检测方面的应用,提出一种基于健壮主 成分分类器的无监督异常检测方法。该方法首先利用m c d ( m i n i m u mc o v a r i a n t e d e t e r m i n a n t ) 估计解决异常数据对协方差阵的敏感问题,然后对基于健壮协方差阵的主 成分构造主成分空间距离模型和数据重构误差模型,最后利用测试数据进行仿真实验。 实验表明,该方法能够有效检测未知入侵,在检测率、误报率方面都达到较满意的结果。 朱程辉等【2 3 j 分析了支持向量机在解决无监督分类问题上的不足,采用球面投影函数 作非线性映射的方法,将无监督样本非线性映射到一超球面上,利用支持向量机构造一 个二次规划问题,在该球面上解得一个最优的分类界线,使分类后的两个类间距最大。 实验结果表明,该算法能很好的解决很多无监督分类问题。 么耀宗等【2 4 l 通过分析现有的入侵检测方法,提出一个基于无监督h e b b 规则的入侵 检测方法。该方法采用高效的抓包工具抓取计算机网络数据包,根据抓取到的网络数据 包信息定义行为变量,再由无监督h e b b 规则构建网络行为模型,最后采用h a m m i n g 距 离进行检测。实验证明该方法能正确地构造网络行为模型,并准确的检测异常行为。 张应辉等1 2 5 】针对现有模型中存在对训练数据要求高、误报率高等问题,提出一种基 于最小差异度聚类的入侵检测方法。该方法将区间标量、序数变量、二元变量、标称变 量类型的属性映射到区间 0 ,l 】上,然后计算每个数据对象与已有类的差异度,并将其 赋予与它差异度最小的类。但该方法在计算类的特征值时,也假定异常行为是少数,正 常行为是大多数。 2 1 3 无监督异常检测面临的挑战和发展趋势 作为一种新技术,对无监督异常检测系统的研究已经取得了长足的进展,但现在的 无监督异常检测系统仍存在很多不足,其面临的问题主要体现在以下几个方面: ( 1 ) 高误报率己成为制约无监督异常检测系统发展的一个瓶颈【1 1 】。当真正的入侵 8 硕士学位论文第二章无监督异常检测研究综述 发生时,入侵要么被完全遗漏,要么入侵被淹没在大量的错误报警记录中。所以,无监 督异常检测系统面临的主要挑战是寻找高效的策略来抑制其高误报率。 ( 2 ) 对网络中“正常”的理解是异常入侵检测系统面临的另一个挑战。异常检测 依赖于正常模型对攻击进行检测,而随着网络环境的变化,对正常的理解也是一个不断 变化的过程。 ( 3 ) 无监督异常检测建立在正常数据量远大于攻击数据量、攻击和正常之间有明 显的偏离的基础之上【2 6 j 。为满足此条件,需要将训练集的攻击数据量限制在l 1 5 。 分簇结果中,每个簇仅根据簇中包含数据的数目将该簇标记为正常或入侵。但实际网络 环境中,利用训练阶段生成的标记簇来对新网络连接记录进行入侵判断的思想可能会造 成误判【2 7 1 。因为拒绝服务攻击、扫描攻击可产生大量攻击数据,这两种攻击破坏了无监 督异常检测的检测条件而需要单独进行研列2 8 j 。 ( 4 ) 无监督异常检测中,大多数方法都不能满足效率的需求。很多无监督异常检 测方案在离线检测时表现出较好的性能,但投入实际网络环境后很难满足实时要求【2 9 1 。 目前,国内外一些研究机构己开发出适应不同操作系统的典型入侵检测系统,但在 入侵检测系统的体系结构、检测方法和测评方法等方面均存在尚未解决的问题。同时, 网络技术的发展和攻击方式的复杂化、多样化,对入侵检测系统提出了更高的要求。入 侵检测系统的发展趋势如下: ( 1 ) 智能检测成为入侵检测研究的重点【3 引。为降低系统误报率、漏报率和克服现 有系统的缺陷,数据挖掘、神经网络、支持向量机等各种智能化方法被广泛应用到入侵 检测研究中。 ? ( 2 ) 应用层入侵检测成为入侵检测系统发展的一个重要方向f 3 。由于许多入侵的 语义只有在应用层才能理解,因此开发基于解析应用层数据包的入侵检测系统成为发展 方向之一。 ( 3 ) 网络分析和管理功能。由于入侵检测系统可以捕获网络中的所有数据,所以 对网络故障分析和管理有重要作用。当管理员发现某个主机发生故障时,也希望能马上 对其进行管理。所以,入侵检测产品集成网管功能,如扫描器、嗅探器等功能也是其以 后的发展方向。 ( 4 ) 安全性和易用性的提高。入侵检测系统作为一个安全产品,自身安全极为重 要。因此,目前的入侵检测产品大多采用硬件结构,以减少自身的安全问题。同时,对 易用性的要求也日益增强,比如全中文的图形界面、自动的数据库维护、多样的报表输 出。这些都是优秀入侵产品的特性和以后发展的趋势。 ( 5 ) 防火墙联动功能。入侵检测系统在发现攻击后,将攻击信息发送给防火墙, 防火墙加载动态规则阻止入侵,称为防火墙联动。通过入侵检测系统和防火墙的联动可 9 硕士学位论文第二章无监督异常检测研究综述 以构建更加的安全的网络环境。 2 2国内外对服务分类技术的研究 2 2 1国外对服务分类技术的研究现状 国外对服务分类技术的研究主要集中在对每种服务的统计建模及同一服务中多分 类器的融合技术研究等方面。以下是国外对服务分类技术所进行的研究。 k r u e g e l 等p 2 j 提出一种面向特定服务的异常检测方法,文献中把报文负载按2 5 6 个 a s c i i 字符聚合成6 个段( 0 、1 3 、4 6 、7 1 1 、1 2 1 5 和1 6 2 5 5 ) ,计算它们的发生频率, 并按从高到低的顺序存储。对同一类型的服务请求建立负载分布模型,运用x 2 - t e s t 方法, 计算服务请求的异常值,若该异常值超过设定的异常阈值则表明入侵。实验以d n s 服 务为例,对该方法的可行性进行了验证。 g i a c i n t o 等p 驯在其文献中分析了面向服务的多分类器在入侵检测中应用的可行性, 但其实验结果仅建立在对一种服务的检测之上。该方法将网络连接特征分为三类:负载 属性、网络连接的固有属性和流量属性。对于网络中经过的每个数据包,经过特征提取 后,分别对三类特征属性子集用不同的神经网络进行训练,最后将对三个属性特征子集 的判断结果用不同的融合规则进行综合来判断该记录属于正常或攻击类。实验表明,这 种基于特征分类的方法比用整个特征集训练分类器的方法在通用性和降低误报率方面 提供了很好的折中。同时,该方法将更好的满足基于模式识别入侵检测系统的实际需要。 文献 3 4 】在文献 3 3 】的基础上进一步提出了一个考虑t c p i p 网络中多种服务的模块 化多分类系统架构,其中每个模块检测针对被保护网络特定服务的攻击。该文献中,将 网络服务分为六类,每一类由一些相似的服务构成。其中服务分类的数量依赖于被保护 网络向外所提供的服务。特别地,m l p 和r b f 神经网络、k - n n 、g a u s s i a n 等算法被用 来对每种服务的三种特征分别进行分类。结果表明,就k d d 9 9 数据集而言,在分类代 价和总误报、漏报率方面多分类器系统架构比k d d 9 9 竞赛冠军方法有更好的性能。 文献【3 5 】提出用无监督异常检测对每个服务模块的检测方案。每个服务的三个属性 特征集都通过一分类器进行聚类,然后将一分类器的输出结果结合起来判断连接记录属 于正常或异常类。该方案首次提出将一分类器的输出映射到密度函数,然后用已有的多 分类器组合技术将各一分类器的输出高效结合起来。此外,考虑指定的全局误报率,文 献中提出一种启发式设计每个模块误报率的方法。 2 2 2 国内对服务分类技术的研究现状 1 0 硕士学位论文 第二章无监督异常检测研究综述 国内对基于服务分类的异常检测技术研究较少,而且大多数研究都集中在利用统计 思想上。 冯宇等【3 6 j 基于服务特征模型,同时考虑包头信息和负载,提出一种针对r 2 l ( r e m o t e t ol o c a l ) 攻击的面向服务特征的异常检测系统。该系统通过考虑请求类型、请求长度 和统计负载分布来计算一个请求的异常度。通过对大量d n s 请求样本的训练,测试结 果表明该方法能有效地检测攻击。 任会彩等【37 l 提出一种面向特定网络服务的异常检测方法。其中考虑特定网络服务的 负载知识,结合信息论和n - g r a m 分析方法,对正常服务请求报文类型、长度、负载分 布建立模型,通过对检测对象计算其特征异常值,来检测i 匕l 和u 2 r ( u s e rt or o o t ) 两类攻击。实验同样是在对d n s 服务请求的分析下进行。 2 3 国内外对聚类在无监督异常检测技术中的应用研究 2 3 1 聚类分析算法 聚类是将数据集划分为若干类或簇的过程,并使得同类中的数据具有较高的相似 度,而异类中的数据不相似。根据实现方法的不同,聚类算法可以分为基于划分的聚类 算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的 聚类算法。 : 1 基于划分的聚类算法 对于一个包含n 个对象的数据集,划分方法将数据集划分为k 个子集。其中每个子 集均代表一个聚类。为获得基于划分聚类分析的全局最优结果,需要穷举所有可能对象 的划分。基于划分的聚类算法主要包括k m e a n s 和k m e d o i d s 。这类算法的优点是数据 处理速度快,程序实现简单。但由于每次都要求用户输入聚类的个数,因此时间复杂性 高,而且不能处理大数据集,对噪声数据比较敏感。 2 基于层次的聚类算法 层次聚类方法是通过将数据组织为不同的组并形成相应的树来进行聚类。根据聚类 方向的不同,层次聚类分为自顶而下和自下而上两种聚类方式,常用的层次聚类算法有 c u r e ( c l u s t e r i n gu s i n gr e p r e s e n t a t i v e s ) 算法、b i r c h ( b a l a n c e di t e r a t i v er e d u c i n ga n d c l u s t e r i n gu s i n gh i e r a r c h i e s ) 算法、r o c k 算法和c h a m a l e o n 算法。 基于层次聚类方法具有处理噪声数据的能力,并且c u r e 、r o c k 可以挖掘任意形 状的簇,b i r c h 算法可以发现非凹形状簇,它们共同的缺点是处理大规模数据集时, 硕士学位论文 第二章无监督异常检测研究综述 必须采用采样划分等技术,同时还要指定聚类的数目。 3 基于密度的聚类算法 基于密度的聚类算法其主要思想是只要邻近区域的密度( 样本的数目) 超过某个阂 值,则继续聚类,可以用来过滤噪音数据,以发现任意形状的簇。常用的密度聚类算法 有d b s c a n ( d e n s i t y - b a s e ds p a t i a lc l u s t e r i n go fa p p l i c a t i o nw i t hn o i s e ) 算法、o p t i c s ( o r d e r i n g p o i m st oi d e n t i f yt h ec l u s t e r i n gs t r u c t u r e ) 算法。基于密度聚类算法的最大 问题是其复杂度高,不能对大型数据库进行挖掘。 4 基于网格的聚类算法 基于网格的聚类方法采用了多维网格数据结构,将空间划分为有限数目的单元,以 构成一个可以进行聚类分析的网格结构。常用的基于网格的聚类算法有s t i n g ( s t a t i s t i c a li n f o r m a t i o ng r i d ) 算法和c l i q u e ( c l u s t e r i n gi nq u e s t ) 算法。 其中,c l i q u e 算法的优点是能自动发现最高维中所存在的密集聚类,对数据的输 入顺序不敏感,也不需要假设任何特定的数据分布,时间复杂性与输入数据量大小呈线 性关系,当数据维数发生变化时具有较好的可扩展性,缺点是追求方法简单化的同时, 降低了聚类的精度。 2 3 2 国外对聚类在入侵检测技术中的应用研究 文献【3 8 】是最早研究无监督异常检测技术的文献之一。该文献中p o r t n o y 等人提出 一个算法检测己知攻击和未知攻击,该算法不需要己标记的训练数据。然而这个方法建 立在一个假设条件基础之上,那就是正常数据量远大于攻击数据量。除此之外,它需要 一个预先确定的簇宽度参数,而这个参数不容易获得。 g u a n 等人p 州克服了传统k m e a n s 算法的缺点,提出y - m e a n s 算法,该算法通过不 断的分割和合并簇可以自动确定簇的个数。然而,和其他基于簇中心的算法一样, y - m e a n s 算法也只能处理圆形的簇,而且也需要定义一个阈值作为信任区域。 文献【4 0 】提出一种新的聚类算法,模糊连接聚类f c c 。该算法己被成功应用于图像 分割领域。算法以单个或多个种子点作为初始簇,然后动态地将其他的数据点分配给和 该点拥有最强模糊连接度的簇。该算法的优点是其可以检测任意形状的簇。实验表明, 算法不仅可以检测出已知攻击,也可以检测出已知攻击的变种。但这些算法都是将所有 数据作为一个整体而考虑,没有考虑不用服务数据之间的差别。因此,都不利于构建更 精确的检测模型。 文献【4 1 】为提高检测率降低误报率提出一种建立在e a ( e v i d e n c ea c c u m u l a t i o n ) 算 法发基础上的聚类整合方法,该方法克服了传统k m e a n s 算法不能检测不规则形状簇的 1 2 硕士学位论文第二章无监督异常检测研究综述 缺点。算法通过将多个聚类的结果合并成一个单独的数据分类,然后用e a 算法检测异 常网络行为模式。k d dc u p 9 9 实验结果表明e a 入侵检测系统对所有类型攻击都有高 的检测率和低的误报率。 文献【4 2 】中提出一种利用聚类技术进行无监督异常检测的方法,其聚类的思想是对 数据集不加服务划分并且考虑记录的全部属性,由此所带来的不足是对不同服务流量数 据之间和针对不同服务攻击之间差别的忽略,从而导致系统检测性能的降低。 2 3 3 国内对聚类在入侵检测技术中的应用研究 罗敏等【4 3 】研究了基于无监督聚类的入侵检测算法,算法首先通过比较未标记训练集 样本问的距离来生成聚类,并根据正常比例n 来确定异常数据类别,然后再用于真实数 据的检测。该方法的优点是不需要人工或其他的方法来对训练集分类。 熊家军等m 】将信息熵理论应用到入侵检测聚类问题中,实现了一种启发式入侵检测 算法h b e c 。该算法通过提取t c p i p 网络中每个数据包的包头信息并构成连接记录数 据库,然后利用三个子算法,即初始化聚类子算法、顺序聚类子算法和顺序相关性处理 子算法完成对连接记录的启发式聚类。该算法的不足是对整个网络数据的不加区分处理 增加了聚类结果的粗糙性。 文献 4 5 提出一种新的无监督入侵检测方法,该方法克服了聚类算法中对数据输入 顺序敏感和需要预设聚类数据的缺点,减少了所需参数的个数。文献通过初始聚类簇的 建立和混合遗传算法对初始聚类进行优化组合两个阶段来实现聚类,克服了初始聚类对 结果的影响,提高了聚类质量。实验结果表明该方法有较好的检测率和误报率。 文献 4 6 】针对模糊c 均值算法在入侵检测中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论