(计算机应用技术专业论文)数据挖掘技术在入侵检测中的应用(1).pdf_第1页
(计算机应用技术专业论文)数据挖掘技术在入侵检测中的应用(1).pdf_第2页
(计算机应用技术专业论文)数据挖掘技术在入侵检测中的应用(1).pdf_第3页
(计算机应用技术专业论文)数据挖掘技术在入侵检测中的应用(1).pdf_第4页
(计算机应用技术专业论文)数据挖掘技术在入侵检测中的应用(1).pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘技术在入侵检测中的应用(1).pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 入侵检测是网络安全机制中重要的一环。现有的大多数实用入侵检测系统通 常只是将收集到的审计数据与已有的攻击模式数据库进行简单的比较,从而发现 违背安全策略的行为。但是入侵检测不仅需要利用模式匹配技术来发现模式数据 库中的入侵行为,还需要在此基础上利用数据挖掘技术对审计数据加以分析以发 现更为复杂的和隐藏的入侵行为。聚类分析是数据挖掘技术中的关键技术,但传 统的c 一均值聚类算法对入侵检测数据进行处理有很多不尽人意的地方,如该聚类 算法是局部寻优算法,聚类的结果对数据输入顺序比较敏感等。针对以上问题本 文进行了较深入的研究,给出了相应的解决方法。 本文研究内容主要包括: 1 提出将人工免疫与模糊c 均值聚类技术相结合进行聚类,从而实现对异常 行为的检测的算法。 2 将克隆选择策略引入c 一均值聚类算法,研究了用该算法实现对异常行为进 行捡测的方法。 实验结果证明浚上述两利,算法有效地克服了传统c 一均值聚类算法在解决入侵 检测问题中的稳定性差、收敛性不好和聚类效果不理想等问题,并能在一定程度 j :检测到来知的异常入侵行为。结果表明上述算法具有良好的性能。 关键词:数据挖掘异常检测模糊聚类免疫算法克隆策略 a b s t r a c t a b s t r a c t i n t r u s i o n d e t e c t i o ni soneo ft h em o s ti m p o r t a n tp a r to fn e t w o r ks e c u r i t y m e c h a n i s m u s u a l l ym o s tp r a c t i c a li n t r u s i o nd e t e c t i o ns y s t e m s ( i d s s ) i ne x i s t e n c e o n l yc o m p a r et h ea u d i td a t aw i t ht h ea t t a c kp a t t e r nd a t a b a s e ,a n df i n dt h ea c t i o n si n c o l l i s i o nw i t hs e c u r i t ys t r a t e g y b u ti n t r u s i o nd e t e c t i o n ( i d ) a l s on e e d sd a t am i n i n g m e t h o d st od i s c o v e rt h em o r ec o m p l e xa n dh i d d e na t t a c kb e h a v i o r si na u d i td a t a t r a d i t i o n a l l y ,w eu s e dc m e a n sm e t h o d ,c l u s t e r ss i m i l a rd a t ai n s t a n c e st o g e t h e ri n t o c l u s t e r sa n dd i s t a n c em e t r i c sa r eu s e do nc l u s t e r st od e t e r m i n ew h a ti sa na n o m a l y b u t t h e r ei ss o m ed i s a d v a n t a g e si nt h i sm e t h o d ,s u c ha st h er e s u l t so f t h ec l u s t e ri ss e n s i t i v e t ot h ed a t ai n p u ts e q u e n c e ,f u r t h e r m o r e ,i ti sal o c a lo p t i m u ma l g o r i t h m f a r t h e r r e s e a r c hi sd o n et od e a lw i t ht h ep r o b l e ma b o v e ,a n dt h ec o r r e s p o n d i n gs o l u t i o n sa r e g i v e n 1 i n t r u s i o n d e t e c t i o nm e t h o db a s e do ni m m u n ef u z z yc m e a n s c l u s t e r i n g a l g o r i t h mi sp r e s e n t e d 2 c l o n ep r i n c i p l ei sl e di n t oe v o l u t i o n a r yc o m p u t i n g ,a n dah y b r i da l g o r i t h mi s c o m b i n i n ga n t i b o d yc l o n es t r a t e g yw i t hf u z z yc m e a n sc l u s t e r i n gm e t h o di sg i v e n i ti s u s e di ni n t r u s i o nd e t e c t i o n i m m u n ec l o n es t r a t e g yi si n t r o d u c e di n t oc - m e a n sa l g o r i t h m ,w h i c hc a n e f f e c t i v e l yt a c k l e t h o s ep r o b l e m so fn o n s t a b i l i t y ,s l o wc o n v e r g e n c ea n dn o n i d e a l c l u s t e r i n gt h a te x i s ti ni d sw i t ht h et r a d i t i o n a lc - m e a n s t h ee x p e r i m e n t a lr e s u l t s r e v e a lt h a tt h es y s t e mc a nd e t e c tv a r i e t yo fu n k n o w na b n o r m a li n t r u s i o n s ,a n d d e m o n s t r a t et h a to u rc o m b i n e dc l u s t e r i n ga l g o r i t h mh a sg o o dp e r f o r m a n c e k e y w o r d :d a t am i n i n g a b n o r m a li n t r u s i o n f u z z yc l u s t e r i m m u n eg e n e t i c c l o n es t r a t e g i e s 创新性声明 y 5 8 3 3 0 8 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均己在论文中做了明确的说明并表示了谫 意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:受赞 同期 2 0 0 牛j 9 关于论文使用授权的说明 本人完全了解西安电子科技火学有关保l | | f f 和使刚学位论文的规定,即:研究生 在校攻读学位期间论文工作的玺识产权单位属西安 b 予科技大学。水人保i i e 毕q k 离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学 校有权保留送交论文的复印件。允许查阅和借阅论文:学校可以公扪论文f n 全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在 解密后遵守此规定) 本人签名: 导师签名: f i j l 月型! ! :! :! r j 辩! 兰! ! 垒! ! :生 第一章绪论 第一章绪论 1 1 论文背景 有诸多的原因会导致网络安全问题。首先,系统软件,包括操作系统正变得 越来越复杂。这使得软件设计者在设计时无法预料程序运行时的系统状态,更无 法精确预测在不同系统状态下会发生什么结果。而且组成计算机网络的某些关键 技术也并非安全。如广泛应用的t c p i p 协议本身就有许多不完善之处。所以, 系统漏洞的存在是在所难免的。 其次,随着联网需求的日益增长,将来自系统外部的服务请求完全隔离是不 u j 能的。另方面,系统的安全漏洞和系统的加密措施已不再像以前那样仅为为 数不多的专业人士知道,在国际互联网上,有数以万计的黑客站点在时时刻刻地 发布这些信息,并提供各种工具和技术以利用这些漏洞和破解保密体系、进行系 统攻击。一个普通的计算机用户,只要能上i n t c m e t 网络他就能轻易地获取这 些信息,轻松地变为一个具有很大威胁的潜在黑客。国内也有大量的中文黑客站 点,你只要在搜狐、y a h o o 中国或新浪网上键入“黑客”即可发现,他们提供大 量的中文版黑客教材、当前最新的漏洞列表、黑客工具和使用说明书等,不懂英 文羽l 网络理论薄弱的中学生都可轻松地获得必要的知识和工具从而变成一个威 胁很大的黑客。因此,从根本意义上讲,绝对安全的计算机不存在,绝对安全的 网络也是不可能的。从理论上说开放的系统都会有漏洞,而且正是这些漏洞被 一些捌有很高技术水平的黑客所利用。可以说,网络安全问题是计算机网络及其 技术飞速发展的必然结果。 1 2 入侵检测系统的研究现状 最初,网络安全的主要解决办法是利用防火墙川或者代理服务器等设备进行 被动防护。但是这些方法只能将一部分入侵拒之门外,且网络往往失去配置的灵 活性,妨碍了用户应用的开发和部署:而且由于这种网络配置是静态的,不能随 着时问和外界应用的变化而变化,导致有很多实现和配置上的漏洞不能及时补救; 弭者,防火墙和代理服务器无法应付来自于系统内部的攻击。基于以上原因,人 们提出了入侵检测方法。 入侵检测1 2 】技术是继“防火墙”、“数据加密”等传统安全保护措施后新一 代的安全保障技术。它从系统内部和网络中收集信息,从这些信息中分析计算机 系统的安全问题,并根据用户的定义对攻击做出相应的报警行为或保护措施。 入侵检测是安全保护体系结构中的一个重要的组成部分。传统的入侵检测系 数据挖掘技术在入侵检测系统中的应用 统( i d s ,i n t r u s i o nd e t e c t i o ns y s t e m ) 总的来说还存在一些不足:系统建立的速 度慢、更新代价高,而且更重要的是难于与新的检测模型相结合:面对日益更新 的网络设旌和层出不穷的攻击方法,目前的入侵检测系统显得缺乏有效性、适应 性和可扩展性。因此我们需要用一种更加系统化、自动化的方法来构造入侵检测 模型。 1 3 入侵检测中的数据挖掘方法 随着数据库技术的迅速发展以及数据库管理系统的广泛应用。人们积累的数 据越柬越多。激增的数据背后隐藏着许多重要的信息,但是目前还缺乏有效的手 段挖掘数据背后隐藏的知识导致了“数据爆炸但知识贫乏”的现象。对于计算 机网络的管理人员和安全人员来说,也面临着同样的问题:如何从每日骤增的各 种大量的审计数据中提取有意义的信息? 计算机科学对这个问题给出的最新回答就是:数据挖掘。数据挖掘是从大量 数据中识别出有效的、新颖的、潜在有用的以及最终可以理解的知识和模式的 :1 i 绂搽作过划”。这些模式和知u 可以用来做出预测。数据挖掘的目的就是从海 量的数据集合中提取隐含的、先前未知的、对决策有潜在价值的规则i3 1 。数据挖 掘的过程需要不断学习和反复交互,以及用户的参与p 】【4 i 。 在入侵检测系统中,系统将用户的当前操作所产生的数据同用户的历史操作 数槲根据一定的算法进行检测。从而判断用户的当前操作是否是入侵行为然后系 统根据检测结果采取相应的行动。入侵检测的过程是一个机器( 检测工具) 与人 ( 黑客) 对抗的决策分析过程,其技术是基于知识的智能推理,需要用到人工智 能的相关技术。人工智能( a i ,a r t i f i c i a li n t e l l i g e n c e ) 技术在i d s 中的应用是当前入 侵检测方法研究的重点现有的结合了a i 技术的入侵检测方法包括基于规则的 专家系统、状态转换分析、遗传算法、预测模式生成法、神经网络等。但是目前 采用a i 技术构造的i d s 无法兼顾实时性、准确性、自适应性和入侵表示等各个 方两,而数据挖掘技术在相关领域的应用为解决这些问题带来了启示。并且入侵 检测系统中用户的当前操作行为主要表现为数据形式,而数据挖掘方法在从聚类 中提取特征与规则方面具有非常大的优势,因此我们对将数据挖掘技术应用于入 侵检测进行了探讨。 下面介绍几种常用的数掘挖掘方法“”: 1 关联分析方法( r e l a t i o n ) :关联分析方法是人们研究和使用最多的一种 数据挖掘方法,它主要是发现数据库中一组对象之间的某种关系。关联分析方法 又可分为关联规则挖掘( a s s o c i a t i o nr u l e s ) 和序列模式挖掘( s e q u e n t i a l 第一章绪论 3 p a t t e r n s ) 。其中,关联规则挖掘是在给定的一组项目类别和一些记录集合的条件 下,通过分析记录集合,从而推导出各项目之间的关联关系:序列模式挖掘和关 联规则挖掘相似。其目的也是为了挖掘出数据之间的联系,不过序列模式挖掘在 于分析数据间的前后因果关系。序列分析算法可以获取数据库记录之间在时间窗 口中的关系。这类算法可以发现审计数据中的一些经常以某种规律出现的事件序 列模式。这些频繁发生的事件序列模式可帮助在构造入侵检测模型时选择有效的 统计特征。 2 分类法( c l a s s i f i c a t i o n ) :分类法是最普通的数据挖掘方法之一。它试 图按照事先定义的标准( 如通过检查没有通过检查等) 对数据进行归类。这类算 法的输出结果就是分类器,它可以用规则集或决策树的形式表示。分类法大至上 可分为决策树归纳法( d e c i s i o nt r e ei n d u c t i o n ) 、规则归纳法( r u l ei n d u c t i o n ) 和神经网络法( n e u r a ln e t w o r k s ) 。其中,决策树归纳法根据数据的值把数据组 织成树型结构,在决策树中每一个分支代表一个子类,树的每一层代表一个概念; 规则归纳法是m 一系列的j ft h e n 规则来对数据迸行归类;神经网络法主要是通 过训练神经网络识别不同的类,然后再利用神经网络对数据进行归类。用于入侵 检测时,可以先收集有关用户或应用程序的“正常”和“非正常”的审计数据, 然后用一个分类算法得到规则集,用它来预测新的审计数据属于正常还是异常行 为。 3 聚类法( c l u s t e r i n g ) :聚类法是通过对变量的比较,把具有相似特征的 数据归于一类。因此,通过聚类以后,数据集就转化为类集。在类集中,同一类 的数据具有相似的变量值,不同类之间数据的变量值不具有相似性。区分不同的 类是属于数据挖掘过程的一部分,这些类不是事先定义好的而是通过聚类法采 用全自动方式获得的。 4 粗集方法( r o u g hs e t ) :粗集理论是近年来才兴起的一种数据挖掘方法, 陔方法主要用于数据简化( 例如,删除与任务无关的记录或字段) 、数据意义评估、 对象相似或差异性分析、因果关系以及范式挖掘等方面。粗集方法模拟人类的抽 象逻辑思维,以各种更接近人们对事物描述方式的定性、定量或者混合的信息为 输入,输入空间与输出空间的映射关系是通过简单的决策表简化得到的。粗集方 法通过考察知识表达中不同属性的重要性,来确定哪些知识是冗余的,哪些知识 是有用的。 5 遗传算法( g e n e t i ca l g o r i t h m s ) :遗传算法基于达尔文的进化论中基因 重组、突变和自然选择等概念,作用于对某一特定问题的一组可能的解法。该算 法试图通过组合或“繁殖”现存的最好的解法来产生更好的解法,再利用“适者 数据挖掘技术在入侵检测系统中的应用 生存”的概念使较差的解法被抛弃,从而得到较优的解法,即繁殖的结果得到改 善。通常解法的随机突变用来防止算法受阻于好的但非最优的解法。 数据挖掘算法有很多,根据入侵检测需要完成的任务模型,以上算法中有如 下两种尤其适用于入侵检测的需要: 1 关联分析方法( r e l a t i o n ) :因为该算法主要是发现数据库中一组对象之 问的某种关系,因而我们可以利用关联规则挖掘( a s s o c i a t i o nr u l e s ) 来发现侦 听剑的数据集中各个属性之间的联系。例如,有关某个用户的操作记录里“所使 用的命令”和“该命令涉及到的参数”这两个属性之间就存在着必然的联系:另 外特定的用户会对特别的目标文件感兴趣, 2 分类法( c l a s s i f i c a t i o n ) :上面已经简单加以介绍,需要指出的是利用 浚算法我们可以将侦听到的数据加以分类,以便进行比较,也就是说该算法产生 的结果是一个个经过分类的数据集。例如,我们可以事先获取足够多得“正常” 和“异常”数据,然后对它们进行挖掘,产生正常数据模式集合和异常( 入侵) 模式集合,因为挖掘出的模式中尽可能的包含了数据集的特征,因而可以利用这 璺模式对侦听到的数据进行预测,以确定是否是入侵。 1 4 本文研究的目的和意义 本文的基本思想是以数据为中心,把入侵检测看成是一个数据分析过程。从 这个角度来看,滥用检测就是分析审计数据是否符合已经挖掘到的已知攻击的入 侵模式,而异常检测就是根据审计数据建立用户正常使用计算机的模式,并把偏 离此模式的用户行为看作是异常行为。本文主要研究用数据挖掘方法实现对异常 行为的检测。在分析数据时采用的是数据挖掘中的聚类技术,用聚类算法处理大 量的计算机审计数据,对数据进行分类,从而找出异常数据集合,以实现对异常 行为的检测。 本文主要是对用数据挖掘中聚类算法在异常检测中的应用作了较为深入的探 索。将人工免疫及免疫克隆选择的思想与传统的聚类算法相结合,并将其用于检 测入侵巾的异常行为。通过这种方法,安全管理员不再需要去手动分析并编写入 侵模型,也无须在建立检测模型时凭经验去猜测该统计什么特征。这个入侵检测 模型还有一个好处就是它可以处理来自不同数据源的数据,如网络监测数据、主 机监测数据或者是某种新型攻击的监测数据,并从中学到合并后的检测模型。也 就是说,其一,它不需要人工的分类或训练数据。其二,它不需要为了系统能够 榆测到而知道新的入侵类型。从这一点上来说这个入侵检测模型具有好的可扩 展性和适应性。 第一章绪论 5 智能计算是在神经网络、模糊系统、进化计算三个分支发展相对成熟的基础 上,相互融合而形成的一种新的计算方法。本文研究的意义在于把智能计算中的 方法与数据挖掘技术中的聚类算法有机的结合起来应用于入侵检测系统,这不但 为入侵检测方法的研究提供了一条可行的思路,而且为入侵检测系统的实现提供 了一条可靠的途径。 1 5 本文的结构和内容 本文主要讨论了一种基于数据挖掘技术的入侵检测模型,以及基于该模型的 测试。文中第二章首先介绍了有关入侵检测的概念、功能、分类、常用方法:第 三章简单介绍了模糊理论、聚类算法、模糊聚类及模糊聚类算法在入侵检测中的 应用:第四章介绍了当仅提供没有标识的特征向量时,用基于免疫的模糊c 一均值 聚类方法对未分类数据进行处理,将相似数据实例聚集到起形成聚类,并利用 聚类的距离尺度确定什么是异常,最后在实验中测试这个入侵检测模型的有效性。 第五章给出基于免疫克隆选择策略的模糊c 一均值的算法:讨论用基于免疫克隆选 择策略的模糊c 一均值聚类实现异常检测,并分析实验结果。最后,对方法的整体 实现作一个总结并提出将来可以继续研究的方向。 6 数据挖掘技术在入侵检测系统中的应用 第二章入侵检测的主要方法分析 谈到网络安全,人们第一个想到的是防火墙。但随着技术的发展,网络日趋 复杂,传统防火墙所暴露出来的不足和弱点引出了人们对入侵检测方法的研究和 开发。首先,传统的防火墙在工作时,入侵者可以找到防火墙背后可能敞开的后 门。其次,防火墙完全不能阻止来自内部的袭击。再者,由于性能的限制,防火 墙通常不能提供实时的入侵检测能力。第四,防火墙对于病毒也束手无策。所以。 认为在因特网入口处部署防火墙系统就足够安全的想法是不切实际的。仅仅通过 预防的方法并不能够杜绝攻击事件的发生。因此,入侵检测系统就成了系统的最 后一道防线。 2 1 入侵检测的概念 入侵检测是一种主动的安全措施,它从系统内部和网络中收集信息,从这些 点q l t l 分析汁钎机是7 i 有安全问题,并采取相应的措施。入侵检测系统在不影响 州络性能的情况下能对网络活动进行监测,从而提供对内部攻击、外部攻击和误 操作的实时保护。一个入侵检测系统应该具有以下功能f 5 j : 监视分析用户和系统的行为 审计系统配置和漏洞 坪仙敏感系统和数拈文件的完整性 识别攻击行为 对异常行为进行统计分析 进行审计跟踪,识别违反安全法规的行为 自动地收集和系统相关的补丁 安装诱骗服务器,记录黑客的行为 返吩特点组合起米,就可以使系统管理员轻松地监视、审计、评估网络系统 的安全性。入侵检测的前提是用户和程序的行为可以被监控( 如通过系统的审计 机制) ,且正常行为和攻击行为之间有明显的不同。有许多的入侵检测系统就是 利用审计工具产生的审计记录来检测入侵。不同的入侵检测系统采用不同的特征 集合和不同的分析模型来判断系统是否被入侵。 2 2 入侵检测体系结构 根据i d s 输入的信息源的不同,通常将它们划分为两类:基于主机的i d s 和 第二章入侵检测系统 7 基于网络的i d s 。目前处于研究阶段的还有基于a g e n t 的混合分布式入侵检测系 统( d i d s ) 。最近,又有研究人员提出了基于内核的i d s ,不过,这种系统目前 还只是处于起步阶段。了解这些系统的原理与功能对我们研究入侵检测方法是有 益的。 2 2 1 基于主机的入侵检测系统 如果入侵检测系统运行于被监视的系统之上,就称为基于主机的i d s 。基于 主机的入侵检测系统历史最久。最早用于审计用户的活动,比如用户的登陆、命 令操作、应用程序使用资源情况等。此类系统主要监视以下活动: 1 监视到来的分组,许多主机都可能在将到来的分组转交给网络层以前监视 试图访问该主机的分组。这种机制可以在分组到达主机造成破坏之前拦截它们以 保护主机: 2 监视登录活动; 3 监视根用户的活动,入侵者的目标往往是取得所攻击的系统的超级用户或 管理员的系统访问权。如果要更进一步地保护系统,可以监视超级用户或系统管 理员的任何活动; 4 监视文件系统的改动。 基于主机的i d s 有许多缺点有: 1 通过分析操作系统或专门的日志产品提供的审计日志发现攻击。不同的操 作系统提供的审计同志的方式和编程接口都不同,因此基于主机的i d s 是与系统 相关的; 2 占用主机的网络和系统资源,影响主机性能: 3 不能访问系统的核心通讯功能,因而不能将攻击挡在协议层之外。 2 ,2 2 基于网络的入侵检测 另一种能同时监测互连的多台计算机的i d s 是基于网络的i d s 。这种类型的 系统放置在接近被监视的系统的网络上,它们检查通过网络的业务流并确定这些 业务是否能被接受。其输入数据来源于网络各个节点的信息流,主要用于实时监 控网络关键路径的信息。它是与系统无关的,因此产品的通用性很强。基于网络 的入侵检测系统在网络中的某一点监听网络上传输的原始流量,通过线路窃听的 手段对截获的网络分组进行处理,从中提取有用的信息。基于网络的i d s 需要将 网卡设冒成混杂模式,以便将经过该网段的所有分组传送给i d s 。目前,比较成 数据挖掘技术在入侵检测系统中的应用 熟的、市场较好的产品大都属于基于网络的i d s 。基于网络的i d s 可执行的检测 功能有: 1 枪杳通过网络的分组,允许合法的分组通过( 可以记录下这些分组以供将 来分析) ,当发现威胁到目标系统安全的分组时,给目标系统和发送分组的系统 发送t c p 的“c o n n e c t i o nc l o s e d ”或i c m p 的“p o r tu n r e a c h a b l c ”消息: :监视网络上是否有明显的端口扫描: 3 监视一些符合著名攻击特点的连接: 4 识别不同类型的i p 欺骗企图。 当检测到不希望发生的活动时,基于网络的i d s 将采取行动避免系统遭到破 坏,这包括干预入侵者将来的活动,或重新配置附近的防火墙来阻断来自入侵者 的计算机或网络的业务。与基于主机的入侵检测不同,基于网络的入侵检测非常 适朋丁检测系统应用层以下的底层攻击事件。 2 2 3 基于a g e n t 的混合分布式入侵检测系统 a g e n t 足一种软件实体,它能在特殊的坏境中连续、自治地运行能以灵活、 错能的方式执行,并r 从闩身的经历中得以学习一个a g e n t 还可以和其他的 a g e n t 交流和合作。 基于a g e n t 的i d s 中通常有三个组件:代理、收发器和监控器。一个a g e n t 足运行于主机之上的独立运行的实体,它有独立的数据获取方式、运行模式或可 选规则库,用于监控主机的某些状态,向相应的收发器报告异常的或需要引起注 意的行为。收发器的任务是控制和进行数据处理,a g e n t 之间通过收发器进行通 信。收发器负责启动和终止a g e n t 的运行,保留主机中正在运行的a g e n t 的轨迹, 通过适当的信息或执行被请求的操作来响应监控器发出的命令,并对接收到的数 掘进行适当的处理。监控器则可以监控位于不同主机上a g e n t 和收发器,它也具 有控制和进行数据处理的能力。 基于a g e n t 的i d s 具有可扩展性、鲁棒性和灵活性,这将是i d s 技术发展的 新领域。 2 2 4 基于内核的入侵检测系统 基于内核的i d s 是一种新的入侵检测系统,它驻留在操作系统内核并在系统 的最低级监视系统活动。这些系统近期已开始在一些平台上使用与特定平台相 关,出于l i n u x 源码的公开,该技术在l i n u x 中将会得到广泛的使用、目前在l i n u x 第二章入侵检测系统 9 中已使用的此类系统p e n w a l l 和l i d s 。它们采用防止缓冲区溢出、加强文件系统 的保护、阻断信号等方法增加入侵者的攻击难度。l i d s 还采取进一步措施防止根 用户的一些操作,如安装包嗅探器或改变防火墙规则等。 2 - 3 入侵检测常用方法 按检测入侵的技术来分类,可以将入侵检测方法分为异常入侵检测和滥用入 侵检测。卜面将对现有的入侵检测方法做一个简单的回顾。 2 3 i 滥用检测方法 滥用检测【6 i 采用模型来代表攻击,使用己知的攻击模式或系统弱点识别入侵。 滥用检测系统将己知入侵场景的“特征动作”( 如改变文件的所有权) 序列进行 编码和匹配。它面临的主要问题是如何描述一个包含所有相关攻击的可能变化的 特征模型,而该模型又不能与非入侵行为匹配。所以,要想实现一个理论上能够 西分之百正确检测所有攻击活动的违规检测系统,首先必须保证能够用数学语言 百分之百正确的描述所有的攻击活动。浚系统的主要缺点是己知的入侵模式必须 手工编码到系统中;它们与病毒检测系统相似,可以检测出大部分甚至所有己知 的攻击类型,却不能检测出任何未知的入侵。通常采用的异常检测模型如下: 修改l 且有蚬具! i 图2 1 滥用检测模型 1 专家系统7 】f 8 】 专家系统是基于一套由专家经验事先定义的规则的推理系统,它将控制推理 阶段和问题解决的规范化阶段分开。专家系统将策略声明和已知的攻击编码成一 个规则集( 规则具有i f 一- - t h e n 的格式当规则左边的条件得到满足时就执行右 边的动作) ,根据这个规则集对i d s 收集的信息( 审计日志事件) 作出结论。规 则集的修改需手工完成,并有可能结合了统计或概率的因素。在特定的领域,专 家系统的性能优于人类。专家系统的建立依赖于知识库的完备性,知识库的完备 0 数据挖掘技术在入侵检测系统中的应用 性又取决于审计记录的完备性与实时性。 2 基于模型的入侵检测 该 法的自“提赴某些入侵行为的发生是可以通过其他一些己观察到的活动推 断出来的,将滥用模型与证据推理相结合。系统中包含一个入侵情节数据库,每 条情节包括组成攻击的事件序列。该方法有以下三个主要模块: ( 1 ) 预测器( a n t i c i p a t o r ) :使用现在活动的模型与情节模块来预测这个情 节中下一步最可能发生的事件。 ( 2 ) 敬汁器( p l a n n e r ) 将预测的假设转换成另格式,当这一格式在审计跟 踪中出现时,就表示这一行为出现。它利用预测信息来计划下一步要寻找的对象。 ( 3 ) 注释器( i n t e r p r e t e r ) 在审计跟踪中寻找设计器产生的数据。 系统可以根据入侵模型预测攻击者的下一个动作,这些预测可以证实一个入 慢似设足否属实从而采取预防措施或决定下一步要寻找的数据。一些情节存在 的证据增加的同时,另一些情节存在的证据在减少,活动模型的列表因而被更新。 这利一检测方法减少了需要处理的数据量,因为它首先按脚本类型检测相应类型是 _ i 现,然后再检测具体的事件。这里的关键性问题是: ( 1 ) 入侵情节模式必须能够容易地识别出来; ( 2 ) 这螳模式必须总是在被寻找的行为中出现; ( 3 ) 模式之间是可区分的而且它们不能与任何正常模式相关。 3 状念转换分析法【9 1 1 1 0 l _ | f _ | 状态转换图来表示被监视系统,是由l l g u n 和k e m m e r e r 于1 9 9 5 年提出 的【旧i 。入侵模式由从初始状态到最终状态的状态转换序列来表示。每一状态都代 表系统的当d u 状况,由特征动作( 致使状态之间的布尔条件为真) 来激活状态之 间的转换,要到达最后的“受威胁”状态,还要满足所有的守护条件( g u a r d c o n d i t i o n s ) 。该方法的优点是: ( 1 ) 可以检测到协同攻击; ( 2 ) 可以检测到跨多个用户会话的攻击: ( 3 ) 能预见到当前系统基础上即将面临的威胁,从而抢先采取措施; ( 4 ) 可以在比审计数据更高层上以顺序方法表示入侵模式。 该方法存在的主要问题是: 第二章入侵检测系统 ( 1 ) 状态转换图的构建并不像基于规则的专家系统那样直接; ( 2 ) 攻击模式只能指定为事件序列,而不能是更复杂的格式; ( 3 ) 除了采用原语描述的命题外,没有通用的方法来简化查找: ( 4 ) 不能检测出不会被审计跟踪记录或不能用状态转换图表示的攻击。 4 模式匹配模型 k u m a r 提出这个方法弥补了状态转换图的不足。模式匹配模型需对己知入侵 特征进行编码作为与审计数据匹配的模式,将外来事件与代表入侵脚本的模式相 匹配以报告攻击行为这与状态转换分析模型是一样的。这个模型也是将输入的 事件与代表入侵情况的模型进行匹配。它可以检测到状态转换图方法不能检测到 的入侵。 2 3 2 异常检测方法 这种检测方法假定所有的入侵活动都必须是异常的。先建立起所保护的系统 的特征轮廓,然后检测偏离特征f 常值的情况发生,如果有,则认为可能发生了 入侵。我们通常采用的异常检测模型如下: 更新特征轮廓 彳_ , 迅扩 自动产生新特征孛皂廓 。口 今 n ( 攻击状态j u 图2 2 异常检测模型 异常入侵检测【2 】【6 删可以采用基于统计、神经网络、预测模式生成法、机器学 习、分类技术、模拟生物学免疫系统和b a y e s 分类法等方法。下面对这几种方法 进行简要的介绍: 1 基于统计的方法 这种力法首先针对保护实体创建特征轮廓,在系统的运行过程中,异常检测 器观察主体的活动,产生代表它们的行为的特征轮廓。经过设计,只需用很少的 存储空间来存储这些特征轮廓,且应当可以被有效地更新,因为每个特征轮廓都 数据挖掘技术在入侵检测系统中的应用 有可能被审计记录更新。 审计记录处理时,系统定时产生一个值,该值为特征轮廓异常性的度量量。 是所有包含特征轮廓度量的异常性值的函数、用s i ,8 2 ,s 分别代表特征轮廓度 量m - ,彤” 矗的异常性值,s 的值越大,则意味着更大的异常性,联合函数如 下: d l 踯+ 口2 s ;+ + 吒。 口, 0 q 为相对权重。通常m ,嬲”- m n 不是完全独立的,因而需要一个更复杂的 联合函数。 每个用户的当前行为都保存在一个特征轮廓中,有的系统每隔一段时间就将 当前的特征轮廓与存储的特征轮廓合并,两在其他一些系统中特征轮廓的产生只 是一段时间罩的活动并不合并,特征轮廓一旦确定就不变了。系统中存在一些影 l 咖行为特征的可测量,如活动策略、c p u 和i o 利用率、文件访问、出错率和一 个时间段内的网络连接数等,这些量的变化将会导致特征轮廓的改变。这种方法 最丰要的优点是统计系统自动地学习用户的行为,因而有可能比人类的专家更加 敏感。另外,它可以经常运用一些统计学中发展成熟的技术。它的缺点在于: ( 1 ) 入侵糟可以有同的地不断训练系统,最终使系统认为入侵事件是正常的: ( 2 ) 漏警牢平| | 曝棼半取决于所选墩域值的高低; ( 3 ) 由于统计方法对事件顺序的不敏感性,遗失了事件之间的关系: ( 4 ) 由于采用统计方法检测具有大量用户的系统,不得不保留大量的用户行 为信息,导致系统非常庞大不利于修剪多余信息。 另外,在异常检测中普遍存在着一个问题应浚选择哪些特征轮廓进行监 视。至今还不知道在所有可能的特征轮廓中哪些集合可以准确地预测出入侵活动 的发,士。由于不同的系统都有自己独特的特征轮廓,如果只是采用统计方法静态 地选择特征轮廓,有时会做出错误结论。因此应当采用动静态结合的方法来确定 要采用的特征轮廓集,使用其他的一些方法来弥补基于统计的方法的不足。而采 用更精确的模型,如广义马尔科夫链,则会更复杂且费时。 2 预测模式生成法l ”o 这种方法基予这样一种假想:事件序列遵循一个可辨别的模式而不是随机的, 它在分析数据时把过去已发生的事件及事件间的关系也列入考虑的范围;弥补了 基于统计的方法的不足。这种方法是基于时间的概括归纳,采用基于时间的规则 第二章入侵检测系统 1 3 来表征用户的正常行为模式。归纳产生的规则在学习期间是动态地修改的,系统 只保留具有高的预测精确性( 在大部分时间里是正确的) 和较高置信度( 能多次 成功地应用于观察到的数据当中) 的规则。例如,规则表中有这么一条规则: e i 一e 2 一 ( e 3 = 7 5 , e 4 = 1 0 。e 5 = 1 5 ) 这条规则的含义是:如果事件e l 和e 2 在系统中接连发生,而且e 2 在e l 之后,那么接下来发生事件e 3 的概率是7 5 ,发生e 4 的概率是1 0 ,e 5 概 率是1 5 。这种方法的问题在于对规则表中没有描述的事件如何处理,是否应当 表示为未知。如果这样,若发生入侵事件序列e a 一一e b e c ,而该序列没有出 现在规则表中i d s 将把它标记为未知,从而纵容了攻击事件。虽然解决这个问 题很容易,如可以将未知的事件标记为入侵( 会提高误警率) 或标记为非入侵( 提 高漏警率) 。通常如果发生的事件序列与规则的左边匹配,而右边与预测值只存 在统计上的偏差,就将事件标记为入侵。如果考虑事件间的时间相关性就可以产 生更一般的规则。出观察到的用户行为归纳产生的规则集构成用户的特征轮廓。 这种方法有以下优点: ( 1 ) 基于规则的序列模式可以检测出传统方法难以对付的异常活动; ( 2 ) 用这种模型构造的系统对变化高度自适应,低质量的模式不断消失,最 后保留的是高质量的模式; ( 3 ) 可以将重点放在一些相关的安全事件而不是已经标记为“可疑”的整个 登录会话: ( 4 ) 可以较容易地发现企图在系统学习阶段训练系统的用户; ( 5 ) 在收到审计事件的数秒内就可以检测并报告异常活动。 3 寺申经网络1 。6 1 用户行为模式的动态性要求i d s 具有自学习、自适应的功能。利用神经网络 所具有的识别、分类和归纳能力,可以使i d s 适应用户行为特征的可变性。从模 式识别的角度来看i d s 可以使用神经网络来提取用户行为的模式特征,并以此 创建用户的行为特征轮廓。总之:把神经网络引人i d s ,能很好地解决用户行为 的动态特征以及搜索数据的不完整性、不确定性所造成的难以精确检测的问题。 通常使用一系列有代表性的用户命令参与训练。由系统的审计记录获取的数 据信息( 系统的原始数据信息) ,经过数据预处理模块( 采用模糊处理技术) 的 分类处理,得到一组可以描述用户行为特征的抽象的数量化值( j i , x :,矗) 。把 数据挖掘技术在入侵检测系统中的应用 每个用户的正常行为抽象特征化。神经网络的隐含层节点采用线性闽值单元对 输入层得到的用户行为特征的量度信息进行判决。线性闽值单元的阀值可先由有 关争家给出初始值,其后,在系统的学习训练阶段再自动进行调整。线性阈值单 元根据对量度信息的判决结果是0 还是l 来确定发生的是异常事件还是正常事件。 摸,性中采用了前馈的多层感知器( m l p ) 。 可以使用滑动事件窗口来为神经网络提供输入。该方法给定包含n 个过去的 动作或命令的窗口,用于训练神经网络使其能够预测出用户的下一个动作或命令。 这样就克服了神经网络对序列事件处理上的缺陷。使用神经网络模型的优点: ( 1 ) 能够妥善处理噪音和不完全数据; ( 2 ) 以非线性回归方式进行分析,处理速度快: ( 3 ) 具有学习和识别未曾见过的入侵的能力: ( 4 ) 适应性强,稍做改动便可应用于新的用户环境; ( 5 ) 方法的成功应用不依赖于任何底层数据( t h eu n d e r l y i n gd a t a ) 特征的统 汁f 段改; ( 6 ) 目以自动地解决影响输出的各种度量日j 的相关性。 缺点有以下几点: ( 1 ) 要选好滑动事件窗口的大小,太小的窗口会造成误警,太大的窗口会带 术尤关的数据和造成漏警; ( 2 ) 网络拓扑结构及权值要经过大量反复的训练后才能确定: ( 3 ) 入侵者可以在神经网络的学习期间对网络进行训练,从而逐渐改变系统 i 一川户行为特征的轮廓配置,使入侵者的行为逐渐地变得合法: ( 4 ) 不能为它们找到的任何异常提供解释,不利于用户理解和进一步分析。 4 模拟t 卜物免疫系统1 8 】 在模拟生物免疫系统( i s ,i m m u n es y s t e m ) 的i d s 中,网络上每一节点称 为检测节点,由灵敏度、表示参数和检测器集合组成。检测器集合中检测器的数 目可以根据需要确定。检测器是不断更新的有未成熟、成熟、激活和记忆性四 种状态。 免疫耐受( i m m u n o l o g i ct o l e r a n c e ) 是指免疫活性细胞接触抗原性物质时所表 现的一种异性的无应答状态( as t a t eo f s p e c i f i cu n r e s p o n s i v e n e s s ) 。每个检测器由 第二章入侵检测系统 定长度的字符串代表,根据i s 中耐受的概念,随机产生的检测器要经过一定时间 的耐受期以适应网络中的正常连接。成为一个成熟的检测器。然后可以用来与 非正常连接匹配,匹配成功且匹配次数超过预定门限的检测器被激活( 就如同i s 中受体和抗原结合并超过激活门限后淋巴细胞被激活) ,此时系统需要决策模块 的干预确定这个连接是否真的是不正常的。对于误与正常行为匹配的检测器, 决策模块将不给予任何信号,检测器就会消失( 与i s 中对自身免疫反应的处理类 似) ,反之,获得确定信号的检测器就成为记忆性检测器,它的寿命是无限长的, 当再次遇到相同的攻击时能很快地做出反应。检测器是动态的,不断地有新的检 测器产生,旧的非记忆性检测器灭亡,使得检测器可以适应变化的正常行为集合。 2 5 小结 综上所述,基于主机的系统一般是根据攻击对系统的影响来判断攻击事件的, 比如用户是否多次使用错误口令,文件状态是否非法改变等:时间上滞后于攻击 本身。l 阿丛于m 络的系统强调通过网络行为过程进行分析,不是依靠审计攻击事 件对目标系统带来的实际影响,而通过行为特征来发现攻击事件。 由于来自网络的攻击事件逐渐成为信息系统的最大威胁,因而基于网络的入 侵检测系统具宵重要的价值。基于网络监听方式实现的入侵检测系统同基于主机 的系统相比,在实时性、适应性、可扩展性方面具有其独特的优势,但此类系统 也存在些固有的弱点,比如更容易受到基于网络的拒绝服务等恶意攻击,在高 层信息的获墩上更为困难,在实现技术上更为复杂等。但是也只有此类系统可以 检测到某些种类的攻击,如远程缓冲区溢出、网络碎片攻击等大量针对协议或特 定网络服务的攻击手段。虽然基于网络的入侵检测系统实现的功能可以很强大, 但是要适应现代千兆比特的高速网络和交换式网络方面也有许多难以克服的困 难。而摹于丰机的入侵榆测系统也有其独特功能,所以未来的入侵检测系统要想 取得成功必须将基于主机和基于网络的两种入侵检测系统无缝的结合起来,这就 是混合分钿式入侵检测系统。在基于主机和基于网络的两种入侵检测系统都发展 到一定成熟度后混合分布式系统也就自然出现了。它兼有两种入侵检测系统各 自的优点,但是实现复杂度要更高。 另外,各种入侵检测方法在性能方面均存在差异至今还没有一种方法能够 独占鳖头。存这些方法中,比较成熟且

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论