




已阅读5页,还剩64页未读, 继续免费阅读
(计算机科学与技术专业论文)基于聚类算法的网络入侵检测研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
r e s e a r c ho nn e t w o r ki n t r u s i o nd e t e c t i o nb a s e do nc l u s t e r i n g a l g o r i t h m b y y a n gx i a o m a o b e ( h u n a nn o r m a lu n i v e r s i t y ) l9 9 4 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g l n c o m p u t e ra p p l i c a t i o nt e c h n o l o g y i nt h e g r a d u a t es c h o o l o f h u n a nu n i v e r s i t y s u p e r v i s o r a s s o c i a t ep r o f e s s o ry a n gs h e n g s e n i o re n g i n e e rt i a ns h a o h u i o c t ,2 0 1 0 哪3咖4& 帆7,0m 9刖ii_帆y y l 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的 研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:_ p ,、名) 日期:如,。年月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“”) 作者签名:喀铂川秒 日期:加伶年,2 月, e l 导师签名: 伽降啪掘日期:加年眨月日 基于聚类算法的网络入侵检测研究 摘要 随着信息化建设的飞速发展,网络已无处不在,这种技术给人们带来了很多 方便,但同时也存在一些安全的问题。为了解决这些问题,人们提出了很多方法, 其中入侵检测技术是解决安全问题的重要组成部分。正因为如此,目前对入侵检 测系统技术要求越来越高,因此,传统的入侵检测系统技术很难适应目前安全系 统的需求,有必要提出一种更为有效的方法。 针对目前大多数聚类算法在大量网络数据设置时要设定聚类数目和在网络事 务中缺乏处理字符属性的能力这种现状,由于这些算法对于聚类数目的依赖性表 明了k 值的确定对聚类结果是非常重要的,并且聚类前是固定的,以及缺乏处理 侧重于字符相似属性的能力( 比如协议) ,用k 均值或者k 中心点很难解决。因 此,本文结合决策树分类思想和蚁群聚类思想,提出了一种由决策树和蚁群算法 相结合的多级混合分类器,即对算法c 4 5 改进的树分类器以及对混合数据运用蚁 群聚类算法来区分哪些是正常的入侵行为两种技术相结合的方法,并且对攻击数 据类型进行分层,第一层为正常数据,第二层为其他数据,第三层为特殊数据。 实验表明,这种新方法在入侵检测时是非常有效的,它的误报率非常低,同时也 维持一个相对可以接受的误警率,还可以合适的发现未知的入侵检测从而提高入 侵检测率。 在入侵检测警报处理的问题中,大多数利用数据挖掘技术来解决的方法中, 更注重的是特定合适的环境下提出的,并且在警报数量巨大的情况下表现不是很 理想。针对入侵检测中警报数量巨大,但其中有相当一部分的警报是冗余的问题, 提出了一种基于信息熵的入侵检测警报聚类算法,通过对警报进行量化并求得其 信息熵值,以“熵值越小,聚类效果越好 这一标准进行警报聚类,从而区分误 警和真正的警报。实验表明该算法能有效处理巨大的警报数量,也能有效提高对 未知警报的检测率,降低了入侵检测的误警率和漏警率。 关键词:入侵检测;决策树分类;蚁群聚类;警报聚类 h 硕士学位论文 a b s t r a c t t h er a p i dd e v e l o p m e n to fi n f o r m a t i o n t e c h n o l o g y l e a d st ot h e p o p u l a c eo f n e t w o r k n e t w o r kt e c h n o l o g yh a sb r o u g h tg r e a tc o n v e n i e n c et op e o p l eo no n eh a n d , o nt h eo t h e rh a n dp r o d u c e ds e c u r i t yp r o b l e m s i no r d e rt os o l v et h e s ep r o b l e m s ,m a n y m e t h o d sh a v eb e e np r o p o s e d ,a m o n gw h i c hi n t r u s i o nd e t e c t i o nt e c h n o l o g ye n j o y st h e i m p o r t a n c e t h u st h i st e c h n o l o g yu n d e r t a k e sm o r ea n dm o r es e r i o u sd e m a n d w h i l e t h eo l do n ec a n n o ts a t i s f yt h en e e do ft h ec u r r e n ts e c u r i t ys y s t e m ,s ot h ep r o p o s i t i o n o ft h em o r ee f f e c t i v eo n ei sn e c e s s a r y a tt h ep r e s e n t ,a sm o s tc l u s t e r i n ga l g o r i t h m s d e p e n d s o nc l u s t e r i n gn u m b e r w h i c hm e a n sc o n f i r m i n gt h ek m e a n si s i m p o r t a n t ,a n dt h en u m b e rh a sb e e ns e t b e f o r ec l u s t e r i n g ,t h ea l g o r i t h m sh a v et os e tt o om a n yc l u s t e r i n gn u m b e r si ns e t t i n g n e t w o r kd a t a ;t h e ya r ei n c a p a b l et od e a lw i t ht h ec h a r a c t e ra t t r i b u t ei nt h en e t w o r k a f f a i r s ;a n dt h e yc a n n o ts o l v et h es i m i l a rp r o p e r t i e so fc h a r a c t e r s ( s u c ha sp r o t o c 0 1 ) w h i c ht h ek - m e a n so rk c e n t e rc a n n o ts o l v e t h e r e f o r e ,i nt h el i g h to ft h ed e c i s i o n t r e ec l a s s i f y i n gt h o u g h ta n da n tc o l o n yc l u s t e r i n gt h o u g h tt h i sp a p e rp r o p o s e sa h y b r i d s t r u c t u r eo fs p a t i a lm u l t i l e v e lc l a s s i f i e rc o m p o s e do fd e c i s i o nt r e ec l a s s i f i c a t i o na n d a n tc o l o n ya l g o r i t h m t h i sc l a s s i f i e ri m p r o v e st h et r e ec l a s s i f i c a t i o no fa l g o r i t h m c 4 5 ,a n da tt h es a m et i m ee m p l o y sa n tc o l o n yc l u s t e r i n ga l g o r i t h mt om a k es u r e w h i c hi st h er i g h ti n t r u s i o na c t i o n i ta l s oc a nd e l a m i n a t et h ea t t a c k i n gd a t aw i t ht h e n o r m a ld a t ai nt h ef i r s tl a y e r ,t h eo t h e rs e c o n da n dt h es p e c i a lt h i r d b ye x p e r i m e n t , t h i sn e wm e t h o di se f f e c t i v et od e t e c tt h ei n t r u s i o nb yw h i c hf a l s ea l a r mr a t ei sl o w a n dk e e p si t s e l fi nar e l a t i v e l ya c c e p t a b l el e v e l ;a n dt h eu n k n o w ni n t r u s i o nd e t e c t i o n c a nb ef o u n dt oi m p r o v ei n t r u s i o nd e t e c t i o nr a t e i nd e a l i n gw i t ht h e i n t r u s i o nd e t e c t i o na l a r m ,t h ed a t am i n i n g t e c h n o l o g yi s m o s t l ye m p l o y e d t h i si su s u a l l yu s e di nt h ep a r t i c u l a r l yp r o p e rs i t u a t i o n ,a n di sn o t v e r yp e r f e c tu n d e rl o t so fa l a r m s a i m i n gt h ep r o b l e mt h a ta l a r m si st o om a n ym o s to f w h i c hi sr e d u n d a n t ,t h i sp a p e rp r o p o s e st h ei n t r u s i o nd e t e c t i o na l a r m c l u s t e r i n g a l g o r i t h mb a s e do ni n f o r m a t i o ne n t r o p yw h i c hq u a n t i f i e so ft h ea l a r mt og e tt h ev a l u e o fi n f o r m a t i o ne n t r o p y ;c o m p l e t e st h ea l a r mc l u s t e r i n gb yt h es t a n d a r do f ”t h es m a l l e r t h ev a l u eo fe n t r o p y , t h eb e t t e rt h ec l u s t e r i n ge f f e c t t od i s t i n g u i s hr e a la l a r m sf r o m t h ef a l s eo n e s t h ee x p e r i m e n ts h o w st h a tt h i sa l g o r i t h mn o to n l yc a nd e a lw i t ha l a r g en u m b e ro fa l a r m s ,b u ta l s oc a ni m p r o v et h ed e t e c t i o nr a t eo fu n k n o w na l a r m st o i i i 基于聚类算法的网络入侵检测研究 r e d u c et h ef a l s ea l a r mr a t ea n dt h ei n t r u s i o nd e t e c t i o nl e a k i n g k e yw o r d s :i n t r u s i o nd e t e c t i o n ;d e c i s i o nt r e ec l a s s i f i c a t i o n ;c o l o n yc l u s t e r i n g ; a l a r mc l u s t e r i n g i v 硕士学位论文 f :i 三罩 口习 学位论文原创性声明和学位论文版权使用授权书i 摘要i i a b s t r a c t i i i 插图索引v i i 附表索引v i i i 第1 章绪论1 1 1 研究背景_ 1 1 2 数据挖掘技术在入侵检测系统中应用的研究现状2 1 2 1 数据挖掘技术在网络入侵检测中应用的优劣势2 1 2 2 国内外研究综述:3 1 3 本文的研究内容与框架6 第2 章数据挖掘和入侵检测相关理论一8 2 1 数据挖掘技术概述8 2 1 1 数据挖掘和知识发现关系8 2 1 2 数据挖掘和相关领域关系9 2 1 3 四种常见的数据挖掘理论9 2 2 入侵检测技术概述1 2 2 3 本章小结1 4 第3 章基于决策树分类算法和蚁群聚类算法相结合的入侵检测系统1 5 3 1 引言1 5 3 2 算法理论基础1 6 3 2 1 决策树分类算法分析1 6 3 2 2 蚁群聚类算法分析1 8 3 3 一种基于决策树分类算法和蚁群聚类算法相结合的入侵检测系统1 9 3 3 1 算法的基本思想1 9 3 3 2 系统体系结构1 9 3 3 3 改进的c 4 5 算法2 0 3 3 4 蚁群聚类算法2 1 3 4 实验及结果分析2 2 3 4 1 训练和测试数据2 2 3 4 2 实验结果与分析2 2 v 基于聚类算法的网络入侵检测研究 3 5 本章小结一2 3 第4 章入侵检测系统中警报聚类相关问题研究2 4 4 1 引言2 4 4 1 1 警报聚类算法分析2 5 4 1 2 信息熵分析2 7 4 2 基于信息熵的警报聚类算法一2 8 4 2 1 算法的基本思想2 8 4 2 2 初始化聚类阶段3 0 4 2 3 顺序聚类阶段3 0 4 2 4 顺序相关性处理阶段3 1 4 2 5 算法的实现一3 2 4 3 实验及结果分析3 4 4 3 1 实验配置3 4 4 3 2 结果分析3 5 4 4 本章小结3 7 结论:3 8 参考文献4 0 j i 殳谢4 6 附录a 攻读学位期间主要的研究成果4 7 v i 硕士学位论文 插图索引 图3 1 系统体系结构一2 0 图3 2 误用入侵检测流程图2 1 图3 3 蚁群聚类截图2 3 图4 1 入侵检测中警报聚类实施框架2 5 图4 2 数量大小与算法响应时间对比图3 6 v 基于聚类算法的网络入侵检测研究 附表索引 表2 1 数据库记录实例1 0 表3 1 旧攻击检测比例对比表( ) 一2 2 表3 2 新攻击检测比例对比表( ) 2 2 表4 1 不同情况下产生的警报类型2 7 表4 2 聚类数k 为3 3 时,两种算法的评估值比较3 6 表4 3 不同回溯百分比下,两种算法的信息熵大小比较一3 6 v i i i 硕士学位论文 1 1 研究背景 第1 章绪论 随着信息化建设的飞速发展,网络己无处不在,成为人们生活的必不可少的 一部分,电子商务、电子政务、虚拟社区等建立在i n t e r n e t 网络上的电子在线服 务呈快速增长的趋势,人类社会对数字信息的依赖达到前所未有的程度,计算机 网络成为现代社会的神经系统和社会经济运行的基础平台。 但是,人们在享受信息化社会带来的方便同时,也不得不考虑到信息安全的 问题。因为许多系统具有本身的开放性,网络协议固有的一些安全漏洞以及不同 软件中存在很多人为的漏洞后门,还有网络管理人员的失误或者内部人员故意捣 乱违规,使得网络安全的问题越来越严重。1 9 9 9 年3 月的“梅利莎病毒事件导 致电子邮件系统瘫痪,并造成了8 0 0 0 万美元的经济损失。1 9 9 9 年1 2 月不法分子 从网上唱片零售商“c d 宇宙公司 窃取了3 0 万张信用卡的号码。2 0 0 0 年2 月8 日至1 0 日,y a h o o ,e b a y ,a m a z o n 等8 家美国著名大型网站相继遭到黑客袭击 【i 】,使这些网站在相当长的时间内服务中断,网上交易完全陷入停顿。2 0 0 3 年1 月2 5 日,互联网遭到全球性的病毒蠕虫王w i n 3 2 s q l e x p w o r m 攻击,亚洲、北 美和欧洲的网络陷入了瘫痪或者半瘫痪的状态,发生了很严重的经济损失。美国 n i f w i c ( n a t i o n a li n t e r n e tf r a u dw a t c hi n f o r m a t i o nc e n t e r ) 数据显示,2 0 0 5 年美国 由网络欺诈造成的总损失达到1 3 8 6 3 万美元,较2 0 0 4 年增长1 3 9 6 ,平均损失 也在逐渐增加,接近了翻番。全世界因为网络安全问题造成的经济损失屡见不鲜。 据调查,中国有不少电脑是通过漏洞以及其它方面来控制的,其中有蠕虫和漏洞 一些主要的攻击,有的是被植入了病毒木马软件等,黑客可以从中盗走一些重要 文件,还有一些金融银行领域也成了被攻击的对象,造成了巨大的损失【2 】。 随着网络技术的飞速发展和i n t e r n e t 的日益普及,信息安全的重要性和必要 性也愈加凸显,人们越来越充分重视了网络安全的问题,据某家研究公司调查研 究,安全开支的费用一直在不断增加,另外也显示,中国的安全产品市场也呈现 快速增加的趋势,比2 0 0 4 年同比增长2 7 3 。预计在接下来的几年内,中国的安 全市场规模比例会翻一倍以上。【3 l 我们已跨入信息时代,信息已成为社会发展的重要战略资源,社会的信息化 已成为当今世界发展的潮流和核心,然而网络安全问题也成为人们日益瞩目的焦 点,因为它关系到一个国家,企业以及人们的日常安全问题。在目前网络安全形 势严峻的情况下,大力发展信息安全技术,使日益增加的计算机及网络犯罪受到 基于聚类算法的网络入侵检测研究 应有的制裁,进一步保护国家的安全不受侵犯,保障国家的经济秩序不被破坏保 护网络用户的合法权益不受侵害具有非常重要的现实意义。 1 2 数据挖掘技术在入侵检测系统中应用的研究现状 1 2 1 数据挖掘技术在网络入侵检测中应用的优劣势 数据挖掘技术在入侵检测系统中的应用方法【4 “】与其它方法的区别不同的地 方在于:该方法是以数据为中心,将入侵检测完全看成一种海量安全审计记录数 据的分析与处理过程,即使根本不知道各种攻击手段的作用机制,也可以从安全 审计数据本身所隐藏的规律中发现异常行为,从而使i d s ( i n t e r n e td e t e c t i o n s y s t e m ) 具有更好的自学习、自适应和自我扩展的能力。这种方法与传统的入侵 检测技术相比,存在以下一些优势: ( 1 ) 自动化智能性高 将数据挖掘技术引入到入侵检测当中,其中采用了一些神经网络,统计知识 以及决策知识等多门技术相结合的方法,利用这些技术从中发现一些人为很难发 现的知识,实现了计算机自动发现新的入侵行为,减轻网络管理员的负担,同时 也能够提高入侵检测系统的准确率。 ( 2 ) 检测效率高 通过数据挖掘技术,可以预先对数据进行预处理,把对系统有用的数据提取 出来,去除冗余数据,减少系统分析的数量,达到一个较高的检测效率。这种方 法对于数据量相当大的检测系统来说,是非常有用的。 ( 3 ) 自适应能力强 将数据挖掘应用到检测系统当中,在这些系统中不存在特定已知或者自定义 的检测模型,而是它自适应能力非常强,能够有效的检测出系统中新的攻击行为 或者是已知攻击类型的变异种类。所以,在检测系统中应用数据挖掘技术的优势 就在于它能够从大量的系统数据中自动生成检测模型,使得这个模型能够适应于 当前的系统环境。应用数据挖掘技术的i d s 是一个智能系统,它集智能性、实时 性于一体,易于操作,在克服传统检测技术固有缺点方面有很大的优势,具有很 好的发展前景。 虽然将数据挖掘应用到检测系统中,上面已经证明了它的很多优势,但是这 类系统在检测时仍然存在不少的难题: ( 1 ) 检测的有效性太低,这种通过训练数据中的行为来学习的模型,对已经 攻击行为具有较高的检测率,但是对于新的攻击或者说没有在训练数据中出现的 数据集,却不能够有效检测出来,具有较低的检测率,所以,在这种检测系统, 如何提高对未知入侵检测的检测率是一个难题,这个也很关键。 2 硕士学位论文 ( 2 ) 检测的效率较低,因为在入侵检测中,通过数据挖掘技术对大量的已知 数据进行训练学习,才能通过这些学习测试网络中的数据,这样系统检测就会对 已知数据有一个非常的依赖性,所以,训练数据集的分布情况决定了这个系统的 算法性能,这样假如运用到真实环境下,会造成比较差的检测效率,这个问题也 是非常的棘手。 1 2 2 国内外研究综述 不论什么计算机网络系统,都存在一定的系统漏洞或者缺点,然而,要修补 这些漏洞或缺点,不是一件很容易的事,除了费用很贵之外,加之没有一台计算 机是非常完美无漏洞的。正因为这样,入侵黑客就可以充分利用这些漏洞来进行 危害计算机系统,从而达到他们的目的。 但是,如果只通过系统自带的漏洞或者缺点来进行攻击,入侵者是很难达到 他们的目的,所以攻击者还需利用一些其他的系统弱点来攻击,比如计算机软件 或者木马来攻击。 虽然很难避免遭受到攻击,但是我们还要力所能及的去防御它,而不是放弃, 人们也采取了很多方法和策略,比如,通过数字签名,防火墙,加密等等方法, 这些方法在防御时能达到一定的效果,但是遇到更为动态或者利害的攻击者,这 些技术就很难对于,所以说,我们必须再设计出另外一道防线来保护计算机和网 络。 因此,系统安全模型从一开始的静态安全模式发展到了另外一种更高级的安 全模型,即动态安全模型,比如p 2 d r ( p o l i c y 、p r o t e c t i o n 、d e t e c t i o n 、r e s p o n s e ) 模式,这种模型可以通过一些策略或者模型来保护计算机网络系统,所以说,入 侵检测系统在安全模型中非常重要,越来越得到人们的重视。 1 9 8 6 年,在d e d e n n i n g 提出了一种入侵检测安全模型,在这个模型的基础 上,人们经过十几年的时间,越来越的模型从它扩展而来,并且做实验通过实际 运用,能够很好的防御外来入侵者,随后美国斯坦福国际研究所( s r i ) 在前人 的基础上,第一个提出了一种安全模型,它是一种比较抽象的入侵安全检测模型 【7 】 o 在d e n n i n g 提出的模型之后,1 9 8 8 年,同样是s r i 中的t e r e s al u n t 等人在 d e n n i n g 的模型的基础上,并且改进了它,随后提出了一种入侵检测专家系统 ( i d e s ) 【8 9 1 ,这个入侵检测系统是基于规则的模型匹配检测系统,在同时代, 除了i d e s ,还有其他的一些入侵检测系统相继被提出,比如基于主机的入侵检测 系统。 8 0 年代提出的基于主机的入侵检测安全系统,当时的网络还不是很发达,网 络间的电脑也不是全部连接的,所以在这样的简单环境下,要检测入侵非法可疑 基于聚类算法的网络入侵检测研究 行为,就能通过查看是否有可疑行为,从而对这些行为进行分析,进而封堵漏洞, 达到防御保护系统的目的。 2 0 世纪9 0 年代,随着计算机信息建设和网络的快速发展,这种基于主机的 检测系统已不能满足当前的需求,也就是说很难满足以互联网和计算机为主的网 络时代,所以,在这种情况下,面向网络的入侵安全检测系统也应运产生,在l9 9 0 年,h e b e r l e i n 等人提出了一种全新的入侵检测概念,它是基于网络的入侵检测系 统n s m r i o ( n e t w o r ks e c u r i t ym o n i t o r ) ,这种系统与之前的i d s 有很大的不同之处, 即n s m 它不需要检查主机系统的历史数据,直接通过监视网络的流量,从而跟 踪可疑的程序或行为。 随后,由于检测环境的不同,为了解决不同问题,一些研究人员转战到对分 布式的入侵安全检测系统进行了充分的研究,并取得了不少成果。典型的系统有: 19 91 年n a d i r ( n e t w o r ka n o m a l yd e t e c t i o na n di n t r u s i o nr e p o r t e r ) 和d i d s ( d i s t r i b u t e di n t r u s i o nd e t e c t i o ns y s t e m ) 系统提出了收集和合并处理来自多个主 机的审计信息以检测一系列主机的协同攻击。 1 9 9 4 年,美国p u r d u e 大学的c o a s t 实验室设计研究并提出了一种代理分 布式的入侵检测模型( a a f i d ) 。这个模型由于是采用自定义的代理实体进行检 测,因此这种模型提高了入侵检测系统的效率和容错性,也提高了系统的维护性。 2 0 0 0 年,中科院软件研究所设计研究并提出了一种基于a g e n t 的分布式入侵 检测安全模型,这个模型比较开放,有很好的扩充性,也能加入新的协议或者入 侵检测代理,是一个比较开源的模型。 随着数据挖掘技术的不断发展和成熟,更多大量的数据挖掘技术应用到了入 侵检测系统当中。比较典型的有,清华大学的基于数据挖掘的协同入侵检测系统 框架( c o i d s ) ,它是采用a g e n t m a n a g e r u i 三层实体结构,加上多种数据挖掘 算法结合在一起建立入侵异常检测模型。另外,中科院的选择层次化协作模型, 它是使用数据挖掘算法对训练数据预处理分析处理,随后自动生成入侵检测的规 则并且建立异常警报检测模型。还有美国的c o l u m b i a 大学的m a d a mi d ( ad a t a m i n i n gf r a m e w o r kf o rc o n s t r u c t i n gf e a t u r e sa n dm o d e l sf o ri n t r u s i o nd e t e c t i o n s y s t e m s ) 项刚1 0 ,u 】,用一种比人工信息工程更加系统化和自动化的方式利用数据 挖掘技术来构造一个i d s ,并且提出了通过关联规则和其它一些重复出现的规则 进行再造规则和特征的方法,这样可以找到预先没发现的特征,具有预测性。美 国g e o r g em a s o n 大学的审计数据分析与挖掘( a u d i td a t aa n a l y s i sa n dm i n i n g ) 是一 个基于网络的异常检测系统【1 2 14 1 。 上面提到的基于数据挖掘的入侵检测模型,虽然有很多方法和理论,但是在 应用当中,存在很多新的问题,比如入侵检测中的数据挖掘算法不能够对新的知 识发现等等,这些难点问题依然存在,并且有待解决。 4 硕士学位论文 知识发现中数据挖掘环节是相当重要的一步。数据挖掘技术已经成功被运用 很多领域,比如生物领域,它可以鉴别一些基因和蛋白质的生物功能,也被应用 到网络管理中,它可以在网络管理中发现有用的规则【l5 1 。还有,数据挖掘可以用 到银行领域,帮助发现新的借贷市场策略等需求【l6 1 。在上面的领域中,数据挖掘 通常与预处理和后期处理的步骤联系在一起,通过它发现新的有用知识。发现新 的有用知识是数据挖掘的显著特点之一,也是区分其他有关领域( 比如机器学习) 的关键特征之一。但是,在入侵检测模型中很少运用数据挖掘算法对新知识的发 现,所以,利用数据挖掘对新知识和虚假攻击行为的发现是当前研究的重点。比 如m a d a mi d 和a d a m ,这些成功的系统中都充分的显示出,构造一个对新知 识发现的入侵检测安全系统是非常有必要的。虽然有很多的入侵检测系统,但是, 要充分发挥数据挖掘的功能还有待迸一步提高,所以,充分发挥数据挖掘性能来 发现新的有用信息,将数据挖掘和入侵检测两者技术充分的融合在一起,发挥各 其真正的作用,从而得到满意的结果。 因此,只注重数据挖掘技术的开发,忽略了入侵检测的技术,通常是很难适 应系统要求的,也是不可取的。尤其是,当你对应用领域不清楚的情况下,或者 不能正确理解其内涵,盲目的使用数据挖掘,这将带来很严重的后果。为了证明 这一点,举个例子说明,假设有一个警报,模拟为t u p l e s ( a ,t ) ,其中a 是一种 警报类型,t 是时间标记,其他的一些属性暂时忽略不计( 如目的主机地址或者 源地址) 。很明显,这个模型太简单化了,也限制了很多的实际效果,其有效性大 大降低,如果之前用知识发现可以很好的避开,也节省了很多时间。 在知识发现的过程中,确认这一步骤非常重要,这当中直接影响到发现模式 的质量高低和满意程度。例如,如果把欧氏距离作为一个测量的尺度,用它来记 录连接记录的相似性,是很难令人信服。所以,如果这些属性是在某个范围程度 上相似,而不是所有的属性都相似,那么,我们就要用欧氏距离去测量这些记录 相似所得到的记过,这一必须要用到一个确定的确认步骤对所得结果进行评估分 析,否则,在发现的过程中的质量很难得到保证。 在基于数据挖掘的入侵检测模型中,通常要有两个假设,并且以这两个假设 为依据,他们分别是:一,假设带有标识的训练数据比较容易获得;二,必须要 假设这些获得的训练数据质量很高,具有很强的代表性,并且分配也很明确清晰。 事实证明,许多研究人员在大多情况下,要获得带标识的训练数据往往并不 太容易。因为,他们通过手分类很容易出错,即使你可以通过一些模拟的办法来 获得这些带标识的训练数据,也会引发很多其它一系列的问题,再者,模拟的攻 击类型固定了已有的攻击集合【1 8 2 0 1 。第二点就是,质量问题,如果训练数据质量 很高。打个比方,我们可以假定,一,正常的训练数据的总量超过入侵训练数据 的总量很多倍;二,正常的训练数据例子和入侵的训练数据例子不相同;三,在 基于聚类算法的网络入侵检测研究 被选定训练数据中,它能够代表大多数数据的一个集合。这里要说明的是,这些 入侵一定要在训练数据中被标记【l 引。所以说,如果你要使得检测率较高,就必须 使用高质量的训练数据。 因此,在入侵检测模型中,检测效率问题是一个至关重要的关键问题之一。 在上述的研究背景下,本文针对数据挖掘在入侵检测中应用中存在的问题进 行了研究,分析如何能够将数据挖掘技术更有效的在入侵检测模型中发挥其作用, 进而促进数据挖掘技术在入侵检测中应用的快速发展。 1 3 本文的研究内容与框架 主要研究内容 本文致力于研究将数据挖掘技术运用于网络入侵检测中,以提高入侵检测系 统的检测正确率和检测效果,降低误警率和漏警率。在入侵检测模型中,引入数 据挖掘技术进行分析,解决传统入侵检测模型中存在的难题。 论文的主要研究内容包括: ( 1 ) 针对目前大多数聚类算法在大量网络数据设置时要设定聚类数目和在网 络事务中缺乏处理字符属性的能力这种现状,由于这些算法对于聚类数目的依赖 性表明了k 值的确定对聚类结果是非常重要的,并且聚类前是固定的,以及缺乏 处理侧重于字符相似属性的能力( 比如协议) ,用k 均值或者k 中心点很难解决。 因此,本文结合决策树分类思想和蚁群聚类思想,提出了一种由决策树和蚁群算 法相结合的多级混合分类器,即对算法c 4 5 改进的树分类器以及对混合数据运用 蚁群聚类算法来区分哪些是正常的入侵行为两种技术相结合的方法,并且对攻击 数据类型进行分层,第一层为正常数据,第二层为其他数据,第三层为特殊数据。 实验表明,这种新方法在入侵检测时是非常有效的,它的误报率非常低,同时也 维持一个相对可以接受的误警率,还可以合适的发现未知的入侵检测从而提高入 侵检测率。 ( 2 ) 在入侵检测警报处理的问题中,大多数利用数据挖掘技术来解决的方法 中,更注重的是特定合适的环境下提出的,并且在警报数量巨大的情况下表现不 是很理想。针对入侵检测中警报数量巨大,但其中有相当一部分的警报是冗余的 问题,提出了一种基于信息熵的入侵检测警报聚类算法,通过对警报进行量化并 求得其信息熵值,以“熵值越小,聚类效果越好这一标准进行警报聚类,从而 区分误警和真正的警报。实验表明该算法能有效处理巨大的警报数量,也能有效 提高对未知警报的检测率,降低了入侵检测的误警率和漏警率。 本文的内容框架 论文共分五章: 第一章,绪论。主要介绍课题的研究背景,基于数据挖掘的网络入侵检测的 6 硕上学位论文 优劣势,目前国内外研究状况和本文的工作与组织结构。 第二章,数据挖掘和入侵检测相关理论。本章主要总结介绍了数据挖掘和入 侵检测相关理论,其中数据挖掘技术相关理论包括:数据挖掘和知识发现关系, 数据挖掘和相关领域关系等,以及四种典型的数据挖掘技术,而网络入侵检测技 术相关理论包括:基于数据挖掘的入侵检测技术、基于机器学习的智能检测技术、 基于概率统计理论的检测技术和基于规则匹配的检测技术。 第三章,一种基于决策树分类算法和蚁群聚类算法相结合的入侵检测系统。 针对目前大多数聚类算法在大量网络数据设置时要设定聚类数目和在网络事务中 缺乏处理字符属性的能力这种现状,由于这些算法对于聚类数目的依赖性表明了 k 值的确定对聚类结果是非常重要的,并且聚类前是固定的,以及缺乏处理侧重 于字符相似属性的能力( 比如协议) ,用k 均值或者k 中心点很难解决。因此, 本文结合决策树分类思想和蚁群聚类思想,提出了一种由决策树和蚁群算法相结 合的多级混合分类器,即对算法c 4 5 改进的树分类器以及对混合数据运用蚁群聚 类算法来区分哪些是正常的入侵行为两种技术相结合的方法,并且对攻击数据类 型进行分层,第一层为正常数据,第二层为其他数据,第三层为特殊数据。实验 表明,这种新方法在入侵检测时是非常有效的,它的误报率非常低,同时也维持 一个相对可以接受的误警率,还可以合适的发现未知的入侵检测从而提高入侵检 测率。 第四章,入侵检测中警报聚类相关问题研究。在入侵检测警报处理的问题中, 大多数利用数据挖掘技术来解决的方法中,更注重的是特定合适的环境下提出的, 并且在警报数量巨大的情况下表现不是很理想。针对入侵检测中警报数量巨大, 但其中有相当一部分的警报是冗余的问题,提出了一种基于信息熵的入侵检测警 报聚类算法,通过对警报进行量化并求得其信息熵值,以“熵值越小,聚类效果 越好”这一标准进行警报聚类,从而区分误警和真正的警报。实验表明该算法能 有效处理巨大的警报数量,也能有效提高对未知警报的检测率,降低了入侵检测 的误警率和漏警率。 第六章,总结与展望。本章主要是对全文进行总结,并提出还需解决的问题 和方向。 基于聚类算法的网络入侵柃测研究 第2 章数据挖掘和入侵检测相关理论 本章主要总结并详细概述了两种相关理论基础,即入侵检测和数据挖掘技术。 2 1 数据挖掘技术概述 在数据中寻找有用模式的这个概念被冠以多种名称,包括数据挖掘、数据库 中的知识发现、信息获取和数据模式分析等等2 1 , 2 2 】。此外,在数据挖掘与机器学 习和统计领域是如何相关的问题上还存在一些混淆【2 引。在本节中,我们将阐明数 据挖掘的有关术语以及数据挖掘与相关领域的联系。最后,举出四个典型的数据 挖掘例子,这些技术已经成功被应用,并被人们广泛接受。 2 1 1 数据挖掘和知识发现关系 数据挖掘,顾名思义是用来从数据库中提取挖掘出对用户有用的信息和数据。 然而,在文献 2 4 所表述的观点中,数据库中的知识发现( k d d ) 这一术语被用 来表述从大的数据集中提取有用知识的过程。而数据挖掘只是知识发现其中的一 个步骤,知识发现过程中利用了数据挖掘技术来发掘提取有用的知识过程。此外, 在它之前和随后有其他的k d d 步骤,以确保提取的模式同有用的知识相一致。 实际上,没有这些附加的k d d 步骤,很可能找到无意义的或者我们不感兴趣的 模式【2 5 】。 换句话说,k d d 过程使用了数据挖掘技术及任何所需的预处理和后处理过 程,从低层数据中提取高层知识。实际上,k d d 过程是交互和循环的,包含了大 量由用户作决定的步骤【2 4 】。这里,我们概述一些最基本的k d d 步骤: ( 1 ) 了解应用领域:首先是提高对应用领域、相关的背景知识和k d d 努力 要达到的具体目标的理解。 ( 2 ) 数据综合及选择:第二步是综合多种( 潜在不同种类的) 数据源并选择 与分析任务相关的数据子集。 ( 3 ) 数据挖掘:第三步是应用各种各样的数据挖掘算法从数据库中提取有用 数据。 ( 4 ) 模式评估:第四步是确认步骤。确认并且解释已被发现出来的数据,它 的目的是确保被发现的实际数据知识。 ( 5 ) 知识表示:这个步骤包括为发现的知识建立文档以及使用已发现的知识。 8 硕士学位论文 2 1 2 数据挖掘和相关领域关系 数据挖掘大量使用来自机器
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- D-Eritadenine-CoA-D-Eritadenine-coenzyme-A-生命科学试剂-MCE
- 维修厂车辆维修质量导致二次事故应急预案
- 工厂网络隔离失效应急预案
- 粉尘污染(厂区范围)应急预案
- 十年(2016-2025)高考英语真题分类汇编:专题08 名词性从句(全国)(解析版)
- 公司写作培训课件
- 2025“文化强国杯”全国高校文学知识挑战赛备赛试题库150题(含答案)
- 城市公共交通一卡通系统在新能源汽车充电领域的应用可行性研究报告
- 2025年度天津市养老护理员资格考试技师考题(含答案)
- 会计学基础试题及答案
- 2025年度哈尔滨市平房区纪委监委公开招聘雇员2人考试参考题库及答案解析
- 海上作业安全培训教学课件
- 2025年ARVR行业研究报告及未来行业发展趋势预测
- 情绪管理课2025年职场压力释放与心灵成长分析报告
- 2025年征地拆迁考试题及答案
- 巡游出租车考试题及答案
- 2025至2030中国方竹笋市场经营方向与竞争格局分析报告
- 2025年人教版三年级数学上册《混合运算》教案
- 2025医用眼科器械消毒处理标准流程
- 胸部穿刺教学课件
- 2025-2026学年苏教版(2024)小学科学三年级上册(全册)课时练习及答案(附目录P102)
评论
0/150
提交评论