




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于不均衡数据集和决策树的入侵检测分类算法的研究 摘要 随着信息技术的快速发展,网络安全日益成为信息社会人们所面临的 一个挑战性难题,入侵检测系统的研究和实现随之成为计算机研究和应用 领域的重要课题。数据挖掘技术可以对海量数据进行自动高效的分析处 理,并能从中挖掘出潜在的规律、规则、模式等知识,已被引入到入侵检 测研究领域中。分类技术作为一种有效的数据挖掘方法,在基于数据挖掘 的入侵检测中得到广泛应用。由于入侵检测数据集存在类分布不均衡的问 题,传统分类方法应用到入侵检测中存在不足,需要引入新的策略来解决 类分布不均衡的数据集分类问题。 c 4 5 算法分类原理简单易懂,很容易被理解和接受,具有简单有效的 特点。特别在不均衡数据集分类问题上,经典的c 4 5 算法似乎已成为比较 的基准。 本文分析了入侵检测训练集的特点和当前不均衡数据集的分类方法, 提出了基于欠抽样处理器和c 4 5 算法的二级分类器c c b c e 。 欠抽样处理器采用聚类算法g c a 和k 近邻算法对训练集中大类进行 欠抽样,旨在更加准确地去除大类中的边界、噪声和冗余样本,降低训练 集的不均衡程度,同时采用a d a b o o s t 算法,以c 4 5 作为基分类器,构造 集成分类器c 4 5 b c e 进行二次分类,避免了大类在欠抽样时丢失有用分类 信息,从而提高了整体的分类性能。 将本文提出的二级分类器c c b c e 在u c i 学习库中的入侵检测数据集 k d d c u p 9 9d a t a 的实验结果与经典的c 4 5 算法以及基于欠抽样处理器 的c 4 5 算法的实验结果进行了分析比较。另外,针对集成分类器c 4 5 b c e , 采用不同的集成规模进行了实验,并对实验结果进行了分析。发现随着集 成规模的增加,分类检测性能不断得到增强,当集成分类器中个体分类器 数目达到一定数量后,集成分类器的性能趋于稳定。 关键词:入侵检测:不均衡数据集;c 4 5 算法;欠抽样技术;a d a b o o s t 算法 r e s e a r c ho na l g o r i t h mt oi n t r u s i o nd e t e c t i o nc l a s s i f i c a t i o n b a s e do ni m b a l a n c e dd a t a s e ta n dd e c i s i o nt r e e a b s t r a c t w i t ht h ef a s td e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , n e t w o r ks e c u r i t y i n c r e a s i n g l yb e c o m e st ob eac h a l l e n g ep r o b l e m ,s or e s e a r c ha n di m p l e m e n to f i n t r u s i o nd e t e c t i o ns y s t e mt u r n st ob ea l li m p o r t a n tt a s ki nc o m p u t e rr e s e a r c h a n da p p l i c a t i o nf i e l d s d a t am i n i n gt e c h n i q u e ,w h i c hc a l la n a l y z ea n dp r o c e s s h u g ed a t aa u t o m a t i c a l l ya n de f f i c i e n t l ya n dm i n ef o rl a t e n tr o l e ,r e g u l a t i o na n d p a t t e r nh a sb e e ni n t r o d u c e di n t oi d sr e s e a r c hf i e l d s c l a s s i f i c a t i o nh a sb e e n u s e di nd mb a s e di d sa sa na v a i l a b l ed mt e c h n i q u e h o w e v e r ,t r a d i t i o n a l c l a s s i f i c a t i o nm e t h o d sh a v ed e f i c i e n c yi ni d sf o rt h ec l a s sd i s t r i b u t i o no fi d s d a t a s e ti si m b a l a n c e d s on e wc l a s s i f i c a t i o ns t r a t e g i e ss h o u l db ei n t r o d u c e d i n t oc l a s sd i s t r i b u t i o ni m b a l a n c e dd a t a s e tc l a s s i f i c a t i o np r o b l e m s c 4 5a l g o r i t h mi se a s yt ou n d e r s t a n dp r i n c i p l e so fc l a s s i f i c a t i o n ,i ti se a s y t ou n d e r s t a n da n da c c e p tt o p e r s o n ,w i t hs i m p l e a n de f f e c t i v ef e a t u r e s e s p e c i a l l yi nt h ec l a s s i f i c a t i o no fi m b a l a n e e dd a t as e t s ,t h ec l a s s i c a lc 4 5 a l g o r i t h ms e e m st oh a v eb e c o m et h eb a s e l i n ef o rc o m p a r i s o n i n t h i sp a p e r , w ea n a l y z e st h ef e a t u r e so ft h ec u r r e n ti n t r u s i o nd e t e c t i o n t r a i n i n gs e ta n dc l a s s i f i c a t i o na p p r o a c h e so fi m b a l a n c e dd a t a s e t w ep r o p o s e d t h et w oc l a s s i f i e r sn a m e dc c b c eb a s e do np r o c e s s o ro fu n d e r s a m p l i n g t e c h n i q u ea n dc 4 5a l g o r i t h m s t h eu n d e r s a m p l i n gp r o c e s s o ra d o p tg c ac l u s t e r i n ga l g o r i t h ma n dk n e a r e s tn e i g h b o rr a n d o m l yu n d e r s a m p l i n ga g a i n s tt h em a j o r i t yc l a s s ,s ot h a t w em o r ea c c u r a t e l yr e m o v et h eb o r d e r ,n o i s ea n dr e d u n d a n ts a m p l e so ft h e m a jo r i t yc l a s st or e d u c et h eu n e v e n l e v e lo ft r a i n i n gs e t a tt h es a m et i m e ,w e a d o p ta d a b o o s ta l g o r i t h mt o b u i l dc l a s s i f i e r se n s e m b l eb a s e do nc 4 5 a l g o r i t h m sn a m e dc 4 5 b c ea sas e c o n dc l a s s i f i c a t i o n ,a v o i d i n gt h em a j o r i t y c l a s sm i s su s e f u li n f o r m a t i o nb e c a u s eo fu n d e r s a m p l i n g ,t h e r e b ye n h a n c i n g t h eo v e r a l lc l a s s i f i c a t i o np e r f o r m a n c e t h e nw ee v a l u a t et h ep e r f o r m a n c e sf o ro u rp r o p o s e dc c b c eo ni n t r u s i o n d e t e c t i o nd a t a s e tk d d c u p 9 9d a t af r o mu c l ,w ec o m p a r et h ec l a s s i f i c a t i o n p e r f o r m a n c e so fo u rm e t h o dw i t hc 4 5a l g o r i t h m sa n dc 4 5a l g o r i t h m sb a s e d o nt h eu n d e r - s a m p l i n gp r o c e s s o r i na d d i t i o n ,w em a k es o m ee x p e r i m e n t s l l u s i n gd i f f e r e n te n s e m b l e s i z ep a r a m e t e r so fc l a s s i f i e r se n s e m b l ec 4 5 b c ea n d a n a l y z et h er e s u l t s ,w h i c hs h o w t h a tp e r f o r m a n c eo fc l a s s if y i n ga n dd e t e c t i n g b e c o m e sb e t t e rw i t hi n c r e a s i n go fe n s e m b l es i z e w h e ni n d i v i d u a lc l a s s i f i e ro f t h ee n s e m b l er e a c h e ss o m ea m o u n t ,p e r f o r m a n c eo ft h es y s t e mt u r n st ob e s t a b l e k e yw o r d s :i n t r u s i o nd e t e c t i o n :i m b a l a n c e dd a t a s e t ;c 4 5a l g o r i t h m ;u n d e r s a m p l i n gt e c h n i q u e ,a d a b o o s ta l g o r i t h m i i i 插图清单 图3 1 二级分类器c c b c e 的构造流程图1 8 图3 - 2 二级分类器c c b c e 分类流程图1 8 图3 - 3 欠抽样处理器2 2 图3 4c 4 5 函数流程图2 4 图4 - 1 不同规模的集成分类器u 2 r 攻击检测结果3 3 图4 - 2 不同规模的集成分类器p r o b e 攻击检测结果3 4 图4 - 3 不同规模的集成分类器r 2 l 攻击检测结果3 4 v i l 表格清单 表4 - 1 数据集及类分布2 7 表4 - 2 攻击类型2 8 表4 - 3 二元分类问题的混合矩阵2 8 表4 - 4 试验结果( ) 分析与比较3 2 v i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果,也不包含为获得 金鲤王些太堂 或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己 在论文中作了明确的说明并表示谢意。 学位论文作者签字:夏潞签字日期:矽解尹月加日 学位论文版权使用授权书 本学位论文作者完全了解 金鲤王些太堂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借 阅。本人授权 佥胆互些太堂可以将学位论文的全部或部分论文内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名:谡嘏 签字日期:劢年牛月如日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: 签字日期:力纠汐年月多阳 电话: 邮编: 致谢 本研究及学位论文是在我的导师的悉心指导下完成的。从课题的选择 到论文的最终完成,叶老师给予了我细心的指导。两年多来,叶老师不仅 在学业上还在思想、生活上给我以解惑和关怀,在此谨向叶老师致以诚挚 的谢意和崇高的敬意! 我还要感谢在一起愉快地度过研究生生活的同学们,正是由于你们的 帮助和支持,我才能克服一个一个的困难和疑惑,直至本文的顺利完成, 从你们身上我学到了很多。 在论文即将完成之际,我的心情无法平静,从开始进入课题到论文的 顺利完成,有很多可敬的师长、亲爱的同学和朋友给了我无尽的帮助,在 这旱请接受我诚挚的谢意! 最后我还要感谢我的父母,谢谢他们一直以来 对我的支持和鼓励! i v 作者:夏竹青 2 0 1 0 年4 月 1 1 研究背景及意义 第一章绪论 随着互联网技术的高速发展,计算机网络已经进入现代社会的各行各 业,如证券、金融、商业、教育、政府和军事等,信息技术改变着人类社 会的运行方式。各种组织机构的运作和发展越来越离不开信息技术,信息 资源已经成为各个行业最为重要的资源之一。这一方面给我们带来了丰 富、及时的信息,另一方面准确定位用户所需信息变得越来越困难。正如 r u t h e r f o r dd r o g e r 所言:“我们被信息淹没,但却缺乏知识”。人们迫切 需要更加先进智能的方法和技术,能够自动的从海量数据中抽取出模式、 规则,找出数据变化的规律和数据之间的关联关系。数据库中的知识发现 1 2 j 正是在这种背景下诞生的一种新技术。 人类社会在得益于信息革命带来的巨大机遇的同时,也面临信息安全 问题的严峻考验。互联网的开放性,特别是其跨国界性、无主管性、不设 防性以及法律约束的欠缺,给互联网本身带来了巨大的安全风险,网络攻 击行为大量出现。计算机网络遭受非法入侵,重要情报信息被泄露,更有 甚者造成网络系统瘫痪,给各个国家以及众多公司造成巨大的经济损失, 严重的甚至已经危害到国家和地区的安全。入侵检测1 3 ,4 1 ( i d ,i n t r u s i o n d e t e c t i o n ) 是近年来出现的新型网络安全技术,采用软硬件相结合的方法, 弥补防火墙的不足,为受保护的网络提供有效的入侵检测并采取相应的防 护措施。入侵检测作为一个全新发展的领域,已成为网络安全中非常重要 的一个研究和应用课题。 目前有很多研究将数据挖掘中的分类方法应用于入侵检测中。但真实 世界中,不同类别的样本在数量上往往相差很大,传统的数据挖掘分类方 法难以对数据量很少的小类样本进行正确分类【5 ,6 l ,若小类的样本是足够重 要的,就会带来较大的损失。因此,类别分布不均衡数据集的分类问题已 成为目前面临的一个挑战性课题。入侵检测正面临着这样的问题,现实世 界中,某些类别的攻击出现的频率很高( 如拒绝服务攻击d o s ) ,另一些类 别的攻击( 如对本地超级用户权限的未授权访问攻击u 2 r ) 则很少出现,导 致入侵检测i j l i 练集中攻击类别样本分布极不均衡。传统的分类算法大多是 基于数据集中各类别的样本数量是基本均衡的假设的,针对不均衡数据 集,利用传统的分类方法往往不能获得良好的性能,因而研究适用于入侵 检测数据集特点的分类方法就显得相当重要。 由于入侵检测要处理的数据量非常大,类别分布极不均衡,所以如何 建立一个攻击行为和正常操作的分类模型将直接影响到检测的精度和效 率。将数据挖掘技术应用于入侵检测【7 ,8 】,对数据集进行均衡化预处理, 再用集成技术将弱分类器提升为强分类器,广泛地审计数据来得到模型, 从而精确地识别出实际的入侵和正常行为模式,对提高入侵检测的精度和 效率有很重要的意义。 1 2 国内外研究现状 数据挖掘的应用领域十分广泛,国内外已开始研究数据挖掘技术在入 侵检测系统中的应用,如哥伦比亚大学的w e n k el e e 9 j 等人首先将数据挖 掘技术应用于入侵检测系统中,提出了各种入侵检测的方法。目前,对数 据挖掘算法的研究已经比较成熟,数据挖掘本身就是一个通用的知识发现 技术。在入侵检测领域,将入侵检测看作是一个数据的分类过程,对大量 的网络和主机数据应用特定的数据挖掘算法,以达到建立一个具有自适应 性和良好的扩展性能的入侵检测系统。目前,应用到入侵检测上的数据挖 掘算法主要集中在关联、序列、分类和聚类这四个基本模型之上【l o l 。 入侵检测技术经过几十年的发展,从以前的单机入侵检测到现在的网 络入侵检测,从基于主机的到基于网络的入侵检测,从集中式的入侵检测 到分布式的入侵检测,以及各种相关技术的应用,使得入侵检测系统正朝 着实时、高效和智能化的方向发展。将数据挖掘技术应用于入侵检测中的 研究成果表明,数据挖掘技术可能成为大规模入侵检测系统中的重要技 术,将是实现入侵检测的一个重要技术,值得深入研究。 针对不均衡数据集分类问题,r c p r a t i 等人对两类问题的数据中心重 叠问题进行分析2 。c d r u m m o n d 在c 4 5 算法的基础上,详述了欠取样方 法优于过取样方法的原因【1 3 】。n v e h a w l a 等人提出了s m o t e ( s y n t h e t i c m i n o r i t yo v e r s a m p l i n gt e c h n i q u e ) 取样策略i l4 。,它人工生成小类样本,避 免过抽样时导致过拟合问题,但这同时也增加了噪音数据。a k o l c z 等人 研究得出结论:重复样本造成了分类器不正确的分类偏置【1 5 】。m k u b a t 等 人提出新的取样方法,去除冗余与分类边界上的样本【1 6 】,但这也并不能有 效解决多类之间的重叠问题。文献【1 7 认为不均衡问题不是一个算法问题, 而是一个数据集的问题,通过设置权值,或改变分布也许能够解决问题。 1 3 本文主要研究工作 本文主要研究的问题是:对数据挖掘技术应用到入侵检测中,尽量提 高入侵检测的准确率,同时提高小类攻击的检测率,进行了研究。聚类技 术和分类技术作为有效的数据挖掘方法,在基于数据挖掘的入侵检测中得 2 到应用。由于入侵检测数据集中存在类分布不均衡的问题,传统分类方法 应用到入侵检测中存在不足,需要引入新的分类策略和评估准则来解决类 分布不均衡的数据集分类问题。 本文采用k 近邻和聚类的思想设计了欠抽样处理器,对入侵检测的训 练集进行欠抽样预处理,去掉大类的边界、噪声和冗余样本,降低训练集 的不均衡程度,并且采用了a d a b o o s t 算法以c 4 5 作为基分类器构造了集 成分类器c 4 5 b c e ( b o o s t i n gb a s e do n c 4 5c l a s s i f i e r se n s e m b l e , c 4 5 b c e ) ,将普通的弱分类器提升为强分类器,然后在c 4 5 和c 4 5 b c e 的基础上,设计了一个基于不均衡数据集的入侵检测二级分类器c c b c e , 解决了欠抽样处理时丢失有用的大类信息的问题。在u c i 学习库中的入侵 检测数据集k d d c u p 9 9d a t a 上对本文提出的二级分类器c c b c e 进行了 测试。另外,针对集成分类器c 4 5 b c e 采用不同集成规模进行了实验,并 对结果进行了分析。 论文共包括五章内容: 第一章简要说明课题的研究背景、国内外研究现状、本文主要的研 究工作和本文的组织结构。 第二章介绍数据挖掘和入侵检测的一些概念和相关的研究以及数据 挖掘在入侵检测中应用的优势。 第三章分析了当前入侵检测训练集的特征和存在的问题;引入了不 均衡数据集分类问题和现有的分类方法。提出了利用k 近邻和聚类方法构 造欠抽样处理器,对训练集中的大类集合欠抽样,降低不均衡程度,并且 用c 4 5 作基分类器,利用a d a b o o s t 算法构造了集成分类器c 4 5 b c e ,从 而将弱分类器提升为强分类器。最后,用普通分类算法c 4 5 和集成分类器 c 4 5 b c e 建立了基于不均衡数据集分类的入侵检测二级分类器c c b c e , 解决欠抽样时丢失大类有用信息的问题,从而提高整体分类性能。 第四章将入侵检测二级分类器c c b c e 在u c i 学习库中的入侵检测 数据集k d d c u p 9 9d a t a 上进行了测试。另外,针对集成分类器c 4 5 b c e 采用不同集成规模进行了实验,并对结果进行了分析。 第五章对所做的工作进行总结,并指出在工作中存在的有待改进的 问题。 3 第二章入侵检测和数据挖掘概述 本章简要叙述了入侵检测和数据挖掘的相关内容;介绍了入侵检测的 基本概念,以及入侵检测系统的发展方向;比较分析了误用和异常这两种 入侵检测技术中各种方法的优缺点。并简述了数据挖掘的概念、功能、方 法和步骤。最后说明了数据挖掘应用在入侵检测中的优势。 2 1 入侵检测概述 入侵检测【4 1 ( i d ,i n t r u s i o nd e t e c t i o n ) 是近年来出现的新型网络安全技 术,采用软硬件结合的方法,弥补防火墙的不足,为受保护的网络提供有 效的入侵检测并采取相应的防护措施。入侵检测作为一个全新发展的领 域,已成为网络安全中非常重要的一个研究和应用课题。 2 1 1 入侵概述 “入侵”有很多种定义,在8 0 年代早期,a n d e r s o n 将入侵定义为未 经授权蓄意尝试访问信息、窜改信息,使系统不可靠或不能使用的行为。 h e a d y 认为入侵是指一系列试图破坏资源的完整性、机密性及可用性的活 动集合。美国国家安全通信委员会的下属入侵检测小组将“入侵”定义为: 入侵是非授权访问信息系统以及未经允许对信息系统进行操作。 入侵的类型和方法多种多样,根据其行为的后果,大致可以分为:非 授权访问、信息泄漏或丢失、破坏数据完整性、拒绝服务攻击( d e n yo f s e r v i c e ,简称d o s ) 。 目前有许多种攻击手段可以用来进行入侵活动,这些攻击手段主要分 为以下这六大类: ( 1 ) 信息收集型攻击 主要是为进一步入侵提供必要的有用信息,此类攻击不会对目标本身 造成直接危害。该类攻击包含三种手段:扫描、体系结构刺探、利用信息 服务。扫描分为地址扫描、反响映射、端口扫描、慢速扫描;体系结构探 测是指黑客使用具有己知响应类型的自动工具检查来自目标主机传送坏 数据包时作出的响应,根据不同的响应结果来分析目标主机的体系结构: 利用信息服务包括d n s 域转换、f i n g e r 服务、l d a p 服务。 ( 2 ) 假消息攻击 主要包括:伪造电子邮件和d n s 高速缓存污染。伪造电子邮件攻击 是入侵者利用s m t p 协议不对邮件发送者进行身份鉴定的缺陷,发送电子 邮件,在邮件中携带可安装的木马程序或添加恶意网站的链接。d n s 高速 4 缓存污染攻击,是黑客利用d n s 服务器与其他域名服务器交换信息时不 进行身份验证的漏洞,将不正确的信息掺进来并把用户引向黑客的恶意主 机。 ( 3 ) 口令猜测 当黑客识别了一台主机并且发现了基于t e l n e t 、n e t b i o s 或n f s 这些 服务的用户帐号,口令猜测成功后就能完全控制该主机。 ( 4 ) 缓冲区溢出 由于程序员在很多的服务程序中大意地使用如s t r c p y ( ) ,s t r c a t 0 之类不 进行有效位检查的函数,恶意用户利用这个缺陷,编写一小段程序来进一 步打开安全豁口,将这一小段程序添加到缓冲区有效载荷末尾,当缓冲区 溢出时,返回指针就可能指向恶意代码,系统的控制权就会被夺取。 ( 5 ) 特洛伊木马 特洛伊木马没有复制能力,不是病毒,可以与病毒配合攻击目标系统, 它一般是通过伪装成一个安全的程序秘密安装到目标系统。安装成功后, 取得目标系统的管理员权限,就能够直接远程控制目标系统。 ( 6 ) 拒绝服务型攻击d o s d o s 是使用最频繁的一种攻击方式,该攻击使用大量的数据包攻击系 统,使系统无法接受正常用户的请求,或者主机挂起不能提供正常的服务。 常见的d o s 攻击有包括:泪滴( t e a r d r o p ) 、s y n 洪水( s y nf l o o d ) 、s m u r f 攻击、f r a g g l e 攻击、电子邮件炸弹等等。拒绝服务攻击和其他攻击的不同 之处在于:攻击者并不是去寻找进入内部网络的入口,而是阻止合法用户 访问网络资源。 2 1 2 入侵检测的定义和发展趋势 入侵检测就是通过从计算机网络或主机系统的关键点收集信息并对 对这些关键点信息进行分析,以识别出网络或系统中是否讯在企图入侵、 正在进行入侵或已经发生入侵的行为。 未来入侵检测技术的发展趋势如下: ( 1 ) 高速实时化:为适应高速网络的需求,不断提高系统的检测效率, 对入侵行为作出快速即时的反应。 ( 2 ) 智能化:由于网络攻击手段得多样性和不断演变,使得已有的检测 方法产生较高的误报率和漏报率。为克服这个缺陷,许多智能化的方法被 引入到入侵检测中,如数据挖掘、支持向量机、神经网络、遗传算法、智 能体等等。 ( 3 ) 分布式:传统的入侵检测系统一般局限于单一的主机或网络构架, 针对分布式攻击检测存在明显的不足,主要是由于不同的架构的系统之间 5 难以很好地协同工作,入侵检测系统收集数据难。 2 1 3 入侵检测系统的分类 入侵检测系统的分类方法有很多,根据信息源的不同,可分为三类: 基于主机的入侵检测系统、基于网络的入侵检测系统和混合分布式的入侵 检测系统。 ( 1 ) 基于主机的入侵检测系统 早期的入侵检测系统都是基于主机的。主要对操作系统的审计跟踪日 志进行分析,一般是根据攻击对系统的影响来判断攻击事件的,时间上滞 后于攻击本身,比如用户是否多次使用错误口令,文件状态是否被非法改 变等。它主要收集系统调用和应用层审计的信息,试图从日志中发现滥用 和入侵事件的痕迹。基于主机的入侵检测的实现主要是正对某一特定平台 的,在在获取系统的高层核心信息、审计系统资源情况等方面有无法替代 的优势。同时由于此类系统的数据来源受到所依附具体操作系统平台的限 制,故存在环境适应性、可移植性较差的缺陷。 ( 2 ) 基于网络的入侵检测系统 该系统在网络中的某一点通过线路窃听的方式监听网络传输的原始 流量数据,分析处理截获的网络分组,从中提取出有用的信息。基于网络 的入侵检测系统通过分析流量来提取特征模式,然后与已知攻击特征匹配 或者与正常网络行为模式比较,识别出攻击行为,非常适用于检测应用层 以下的底层攻击事件。 与基于主机的入侵检测系统相比,基于网络的入侵检测系统在实时 性、适应性、可扩展性等方面具有不可替代的优势,但是此类系统也存在 一些先天的不足,如更易受到拒绝服务型攻击,难以获取到目标系统的高 层信息,实现技术更加复杂等。同时对于某些种类的攻击,如远程缓冲区 溢出、网络碎片攻击等大量针对协议栈或特定网络服务的攻击手段也只有 此类系统可以检测出来。而基于网络的系统不是依靠审计入侵事件对目标 主机系统产生的实际影响来发现入侵,它强调通过分析网络行为过程的特 征来发现入侵事件。比方说,一旦网络上发生了针对w i n d o w s n t 系统的攻 击,即使该基于网络的入侵检测系统得保护网络中没有w i n d o w s n t 系统, 也一样能够检测出该攻击。此类系统侧重于对网络活动进行分析检测,所 以能实时地发现攻击企图,做到防范于未燃。 该系统能够直接从数据链路层获取数据,所以理论上它可以获取所有 的网络信息,数据来源丰富,只要传输数据没有在底层加密,就可以检测 出所有通过网络发起的入侵事件。 ( 3 ) 混合分布式入侵检测系统 6 混合分布式系统在基于主机和基于网络的这两种入侵检测系统发展 成熟后,也就随之出现了,它整合了上两种入侵检测系统各自不可替代的 的优点。可以从不同的目标系统、网络组成部件,采用网络监听方式收集 数据和信息,系统可以分析网络数据和收集到的主机系统的关键事件,检 测出可疑行为。 2 1 4 入侵检测的主要方法与技术 从数据分析的角度,入侵检测主要方法有滥用检测和异常检测两种。 ( 1 ) 滥用检测 滥用检测技术是建立在分析各种类型的攻击手段,找出可能的攻击特 征集合的基础上的。它的主要问题是怎样确定已定义的攻击特征模式能够 覆盖到与实际攻击相关的所有特征,以及如何对入侵活动进行特征匹配。 想要实现一个理论上能1 0 0 正确检测所有攻击的入侵检测系统,首先必 须要保证能够用数学语言1 0 0 正确描述所有的攻击活动的特征。滥用检 测有多种方法,这些方法的区别就在于表示入侵活动的方法和匹配入侵的 算法不同。 对于滥用检测,研究者们提出了各种类型的检测方法,有代表性的方 法如:专家系统( e x p e r ts y s t e m ) 、状态转移分析( s t a t e t r a n s i t i o na n a l y s i s ) 和模式匹配等。 ( a ) 专家系统 早期检测系统中的入侵行为多采用专家系统。入侵行为被编码成专家 系统的规则,即知识。每个规则转化成具有“i f 条件t h e n 动作”的结构: 其中条件部分为入侵的特征;动作部分表示条件被触发时入侵检测系统所 采取的防范措施。专家系统的规则能够识别单个得审计事件,还可以识别 出一个入侵行为的一系列事件。专家系统的完备性完全依赖专家知识库的 完备性,知识库的维护和升级难度很大,需要专业的知识库程序员来完成, 否则知识的更新很困难的;并且,用专家系统对目标主机系统的审计数据 进行分析的效率很低。另外,对于系统的协同攻击,使用专家系统难以检 测出来。 ( b ) 状态转移分析 入侵行为也就是黑客执行的一系列的操作,这些操作使得系统从某些 安全初始状态转移到一个可能威胁到系统安全的状态。系统某一时刻的特 征即这里说的状态,用一系列的系统属性来描述。入侵刚刚开始时刻的系 统状态就是初始状态,危及系统安全的状态是已经成功入侵时刻的系统状 念;这两个状态之间一般会有一个或多个中间状态的转移。该技术主要分 析在初始状态和危及系统安全状态之间发生状态迁移的关键活动,可以用 7 状念迁移图描述这些迁移信息或者用于生成系统规则,然后用来检测系统 的入侵行为。状态转移分析可以检测出协同攻击,适用于检测这种多个步 骤之间具有全序关系的入侵,而对具有偏序序列等更复杂的入侵行为无能 为力。 ( c ) 模式匹配 以下几种类型的入侵行为可以用s a n d e e p k u m a r 的基于模式识别的入 侵检测方法来处理: 通过审计迹中某个事件是否存在就可确定的入侵行为; 根据审计迹中某一系列事件的出现顺序便可识别的入侵行为; 根据审计迹中某一系列具有偏序关系的事件的出现便能够识别的入 侵行为: 根据审计迹中的一个事件序列发生在某一个确定的时间间隔或持续 时间在一定的范围内,就可以确定的入侵行为; s a n d e e p k u m a r 使用p e t r i 着色网络c p n ( c o l o r e dp e t r in e t w o r k ) 描述攻 击模式。c p n 是一个节点代表状态的有向图,其边表示状态间迁移,表示 迁移的边可以附加一些操作。c p n 允许有多个初始状态,但终结状态只能 有一个。c p n 模型目的是把入侵检测问题转化为模式匹配问题:系统的审 计迹被看作是抽象的事件流,入侵检测器就是一个模式匹配器。采用模式 识别技术是因为该技术发展比较成熟,而且在构造入侵检测系统时可以围 绕它的实用性和有效性做些优化。所以,检测入侵事件时采用的模式匹配 技术比专家系统技术更加有效。 ( 2 ) 异常检测 大多数的异常检测方法从本质上说都是基于统计的方法。异常检测是 基于这样的假设条件的:对攻击行为的检测可以通过观察当前活动与目标 主机系统的历史活动的差异来实现。异常检测系统通常会建立一个主机系 统的正常活动的特征轮廓库,不断进行更新。然后设定一个差异阈值,把 与正常行为特征轮廓库中差别很大的行为都标志为异常。很明显,当入侵 集合与正常常活动集合存在重叠情况时,就会出现漏报和误报问题。所以 差异阈值的选择很重要。 由于异常检测系统检测入侵时并不需要知道各种具体攻击方法的特 点,所以它可以检测出未知的攻击,这也是该技术最大的优势。当然,异 常检测也有一些缺点: 难以确定正常操作和异常行为之间的界限。 用户的行为经常会发生变化。 当每个单个事件都可看做是正常操作时,需要研究这些时间之间的 序列关系才能确定是否为入侵。基于统计技术的异常检测系统主要是通过 8 学习用户的行为得到的,入侵者可以通过在一段时间里逐渐改变行为模 式,训练系统将其看作正常行为。 异常检测系统中最广泛使用的较为成熟的技术是统计分析,主要有: 统计性特征轮廓、基于规则描述的特征轮廓。还有许多新的方法也出现在 异常检测研究的文献中,如数据挖掘、神经网络、遗传算法等。 ( a ) 统计性特征轮廓 统计性特征轮廓通过描述主体特征的均值、频度以及偏差等统计量来 得到,然后再使用统计方法来判断审计记录与正常行为之间的偏差。该方 法对特洛伊木马和欺骗性程序的检测十分有效。s r i 的n i d e s ( n e x t g e n e r a t i o nr e a l t i m ei n t r u s i o nd e t e c t i o ne x p e r ts y s t e m ) 就是一个基于统计 性特征轮廓的异常性检测系统。 ( b ) 基于规则描述的特征轮廓 这种方法是一组用于描述主体每个特征的合法取值范围与其它特征 的取值之间关系的规则。理论上,通过分析主体的历史操作记录自动生成 这些规则,该方法的瓶颈是如何选择准确描述主体的正常行为与入侵活动 的属性。t i m ( t h et i m e b a s e di n d u e t i v em a c h i n e ) 就是一个代表性的基于规 则描述的特征轮廓技术的异常检测系统,使用归纳方法生成规则,在系统 的学习阶段,这些规则允许动态修改。t i m 系统采用信息熵技术计算规则 的预测概率。该方案还可以采用数据挖掘技术从大量的系统审计数据中挖 掘出描述用户正常操作特征轮廓的规则集。 ( c ) 遗传算法 遗传算法【1 8 】是模仿在自然环境中生物的遗传和进化过程而产生的一 种自适应全局优化算法。遗传算法中构成群体的对象个体主要是具有固定 长度的字符串或比特组。遗传算法在入侵检测中的应用,主要包括以下几 步:首先,用一组字符串或比特组对可能出现的检测结果进行编码;接着, 用定义好的适应度函数对上一步的全部字符串和比特组个体进行测试,找 出最优个体,并对所有个体交叉组合和变异,不断生成新的个体;然后不 断执行上述的测试、选择、交叉和变异等操作,直到得到满意的结果。 b a l a j i n a t h 等采用遗传算法生成了用户的正常行为模式,g a s s a t a 将遗传算 法应用到审计追踪中。在进化过程需要遍历整个基因库,所以遗传算法的 学习效率不高,不适用于实时系统。遗传算法用于异常检测时,首先如何 找到一个合适的决策向量作为染色体不是一件容易的事,而且进化过程 中,为了防止出现严重的退化现象,如何选择合适的适应度函数、交叉算 子与变异算子都是难以解决的问题。 ( d ) 神经网络 人工神经网络具有概括和抽象能力,以及高度学习和自适应的能力。 9 因而,在基于人工神经网络技术的入侵检测系统中,通过对训练集中的正 常样本和异常样本反复训练学习,就可以准确地识别出训练集中异常样 本,并且能够识别出新的入侵行为和已知入侵行为的变种。对于神经网络 技术在入侵检测中的应用,前人已经做了很多研究工作,取得了很多成果。 同时,我们也要看清人工神经网络应用在入侵检测中存在的不足与缺陷。 神经网络对海量入侵特征行为的学习能力比较弱;神经网络虽然具备很强 的学习能力,对分类结果的解释能力很不足;另外,在当前计算机架构下, 无法实现神经网络强大的并行计算能力,需要硬件的配合。 ( e ) 数据挖掘 数据挖掘是在解决日益增长的数据量和快速分析数据要求之间的矛 盾的背景下提出的。它可以从大量的、不完整的、包含冗余信息的数据集 中发现潜在有用的规则和知识。目前数据挖掘技术被广范应用到入侵检测 研究中。哥伦比亚大学的w e n k e l e e 是最早将数据挖掘技术引入入侵检测 领域的,并系统地提出了用于入侵检测的数据挖掘框架。与入侵检测相关 的算法主要分类算法、关联规则和序列分析。关联规则和序列分析主要用 于模式的发现和特征的构造,分类算法主要用在最后的检测模型中。 2 2 数据挖掘概述 数据挖掘,就是从大量的、不完整的、有噪声的历史数据中,探索发 现隐含在其中的、潜在有用的规律和知识的过程。在人工智能领域,数据 挖掘汇聚了不同领域的研究成果,特别是数据库、机器学习、数理统计、 模式识别、粗糙集、模糊数学等学科。但许多人都把“数据挖掘和“数据 库中的知识发现”看作是等同的概念,在这种意义下它们的定义是一致的。目前, 一种比较公认的定义是:“数据挖掘,即数据库中的知识发现( k d d ) ,是一个在 数据中提取模式的过程,这些模式是有效的、新颖的、有潜在实用价值的和易于 理解的 。还有人把“数据库中的知识发现”看作是发现知识的完整过程,而数 据挖掘只是其中关键的一个部分。由这种观点给出的数据挖掘的定义是:“数据 挖掘是数据库中的知识发现( k d d ) 过程中的一个步骤,这个步骤由一些特定的数 据挖掘算法组成,这些算法的任务是在满足一定计算效率的约束条件下,从数据 中提取有效的模式 。 2 2 1 数据挖掘功能 数据挖掘融合汲取了很多学科技术,主要功能如下: ( 1 ) 分类:首先从数据中选出已经分好类的训练集,在该训练集上运用 数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。 1 0 ( 2 ) 关联规则和序列模式的发现:关联规则是某事件发生时其他事件 也会发生这样一种联系。一般用支持度和可信度两个参数来度量关联规则 的相关性,为了使得所挖掘的规则更符合需求,还引入兴趣度、相关性等 参数。与关联不同,序列模式是一种纵向的联系。 ( 3 ) 聚类:聚类是把数据按照相似性划分成若干类簇,同一类簇中的数 据相似度很高,不同类簇中的数据相似度很低。聚类分析可以作为数据预 处理的一个有用环节,发现数据的分布情况,以及数据属性之间的关系。 ( 4 ) 预测:从大量历史数据中找出事物的变化规律,建立模型,用此模 型对未来数据的变化趋势进行预测。通常用预测方差来度量预测精度和不 确定性。 ( 5 ) 孤立点的检测:对已有数据中少数的、极端的特例的分析,找出出 现这种个别事件的内在的原因。例如:1 0 万笔银行交易中有5 0 例是欺诈 行为,银行为了稳健经营,就要发现这5 0 例的内在因素,降低经营风险。 2 2 2 数据分类 数据挖掘有很多研究领域,分类就是其中之一。分类在数据挖掘中是 一项非常重要的任务,有很多用途。分类的主要目标是用己知的类别标识 的数据集作为训练集,从中学习潜在的分类规律,得出分类模型,然后用 该模型对未知类别标识的记录进行分类,将其标识为已知的某一类别。分 类在许多现实领域得到广泛应用,比如商业、金融、电力、d n a 分析、科 学研究等。 分类的过程通常由两个阶段构成【2 】: 第一阶段,通过对己知类别的数据集训练建模。该阶段的目标是对训 练集进行学习,建立分类器,即从训练集中获取可以用于对未知类数据分 类潜在有用的知识。得到的指导分类的知识有多种不同的形式来描述,如 数学公式、决策树或分类规则等。这些训练得到的分类模型用不同的形式 描述了类之间的分类轮廓。 第二阶段,用第一阶段生成的模型对未知类数据进行分类。在用分类 模型对待分类样本进行分类前,先要用测试集评估分类模型的分类性能。 只有当分类性能达到要求时,才可以用该模型进行分类。 除了用分类准确率评估分类器性能外,分类模型的评估准则还应该从 多角度多方面衡量,如:分类的时间开销、建模型的时间开销、空间开销, 可扩展性、健壮性及分类规则的可解释性等。通常要结合具体应用的特定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课件显示不安全问题
- 2025年中国酒店羽绒枕芯数据监测报告
- 酒类评委考试题及答案
- 经纪顾问考试题及答案
- 近期热点考试题及答案
- 鱼粉制作工专项考核试卷及答案
- 2025年教师招聘之《幼儿教师招聘》模拟试题及参考答案详解(夺分金卷)
- 戒烟考试题及答案大全
- 2025年中国手工绣花工艺品数据监测研究报告
- 液氯工质量管控考核试卷及答案
- 血液透析病人饮食管理
- 饿了创业成功案例分析
- I类切口手术预防应用抗菌药物制度
- 鞋业模具制作流程
- 第六课 实现人生的价值(精美课件)
- 《水利工程白蚁防治技术规程SLT 836-2024》知识培训
- 《专利及专利查询》课件
- 地下水污染控制与修复
- 智障个别化教育计划案例(3篇)
- 《欧盟的法律体系》课件
- 网络信息安全基础知识培训课件
评论
0/150
提交评论