




已阅读5页,还剩59页未读, 继续免费阅读
(计算机软件与理论专业论文)基于主机的入侵检测方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着互联网的不断普及,越来越多的公司将其核心业务向互联网转移,网络 安全作为一个无法回避的问题就呈现在人们面前了。网络入侵的风险性和机会性 也相应地急剧增多,设计安全措施来防范未经授权的用户访问系统的资源和数 据,是当前网络安全领域的一个十分重要而迫切的问题。为此入侵检测技术的发 展为我们解决这种问题提供了有效的手段。 基于主机的入侵检测,其特点是以网络中的各个主机的日志文件作为主要的 数据来源,通过对日志记录的分析来检测可疑入侵行为和攻击;同时它能够监视 关键的系统文件和可执行文件的完整性、监视主机服务端口的活动,进而发现非 法入侵行为。基于主机的入侵检测作为入侵检测领域的一个重要组成部分,在当 今信息社会活动中越来越发挥着极其重要的安全保障作用。 本文介绍了入侵检测定义、分类、发展及其模型,并着重介绍了基于主机的 入侵检测的特点,详细阐述了其结构特征,并论证了基于主机入侵检测的优点。 本文在着重阐述基于主机入侵检测原理的基础上,详细阐述了三种基于主机 的入侵检测方法:基于免疫原理的、基于频繁统计滑动窗口的、基于权值树的三 种入侵检测方法。这三种检测方法通过对基于主机的系统调用序列进行相关的分 析,进而得出行为是否异常结论。 基于免疫的入侵检测方法,是结合生物学免疫原理实现的一种检测方法。该 方法是入侵检测系统中经典常用的检测方法,它也是其它检测方法的思想基础。 文中阐述的基于频繁统计的滑动窗口检测方法、基于权值树的检测方法的检测思 想均源于此方法。 基于统计的滑动窗口检测方法是本文提出的,是运用滑动窗口的序列处理技 术,并结合频繁模式挖掘中的统计思想而实现的一种全新检测算法。该算法通过 统计被检测序列所产生的滑动窗口序列集中系统调用出现的频繁次数,进而判断 用户行为是否异常。 基于权值树的检测方法是本文重点讨论的另一种新的检测方法。它采用树的 存储结构,使用滑动窗口技术对系统调用序列进行处理,并且将序列蕴含的关联 北京工业大学工学硕士学位论文 信息存储在权值树森林的相关结点中。在检测用户序列的过程中,利用权值树森 林计算出被检测序列的权值序列,进而分析用户行为是否异常。 本文的实验主要是围绕着内存消耗、训练耗时、检测精度、检测时间等四个 指标进行。重点对基于统计的滑动窗口和基于权值树的检测方法进行实验,并且 阐述了两个检测方法的优劣。 最后文章总结了所做的研究工作,并为下一步研究工作指出了方向。 关键词:基于主机的入侵检测滑动窗口权值树系统调用序列 i i a b s t r a c t a b s t r a c t w i t hd e v e l o p m e n ta n dp o p u l a r i z a t i o no ft h ei n t e r n e t ,m o r ea n dm o r e c o m p a n i e sb e g i nt ot u r nt h e i re s s e n t i a lt r a n s a c t i o n st oi n t e r n e t ,s ot h e n e t w o r ks e c u r i t yb e c o m e sa ni n e l u c t a b l ep r o b l e mw h i c hm u s tb ew e l ls o l v e d i nt h e s ed a y s i na d d i t i o n ,w i t ht h er i s k sa n dc h a n c e so fn e t w o r ki n t r u s i o n s h a r p l yi n c r e a s i n g ,d e s i g n i n gs o m es a f em e a s u r e st op r e v e n tu n a u t h o r i z e d u s e rf r o ma c c e s s i n gt h es y s t e md a t aa n dr e s o u r c eb e c o m e sav e r yi m p e n d i n g p r o b l e mi nt h ef i e l do fn e t w o r ks e c u r i t y a i ma t t h e s ep r o b l e m s ,t h e d e v e l o p m e n to fi n t r u s i o nd e t e c t i o nt e c h n i q u ep r o v i d e sae f f e c t i v em e a n s t os o l v e t h ep r o b l e m s t h eh o s t b a s e di n t r u s i o nd e t e c t i o nt e c h n i q u ecanf i n dt h ei n t r u s i o n s a n da t t a c k sb ya n a l y z i n gt h el o gf i l e sw h i c hareo b t a i n e df r o mt h eh o s t c o m p u t e r s int h en e t w o r k :a tt h es a m et i m e ,i ta l s oc a nf i n di n v a l i d i n t r u s i o na c t i o n sb yw a t c h i n gi n t e g r a l i t yo ft h ek e ys y s t e mf i l e s a n d e x e c u t a b l ef i l e s ,o rb yw a t c h i n gt h eh o s tp o r ta c t i v i t i e s t h eh o s t b a s e d i n t r u s i o nd e t e c t i o n ,a st h ei m p o r t a n tp a r to f t h ei n t r u s i o nd e t e c t i o n , w i l lm o r ea n dm o r ep l a yap r o t e c t i v er o l ei nouri n f o r m a t i o ns o c i e t y t h i sp a p e rn o to n l yi n t r o d u c e st h ei n t r u s i o nd e t e c t i o n sd e f i n i t i o n , c a t e g o r y ,d e v e l o p m e n ta n dm o d e l 。b u ta l s oe m p h a s i z e st h ec h a r a c t e r so f t h eh o s t b a s e di n t r u s i o nd e t e c t i o n ,e x p a t i a t e so ni t ss t r u c t u r ei nd e t a i l , a n dd e m o n s t r a t e st h eh o s t b a s e di n t r u s i o nd e t e c t i o n sm e r i t s o nt h ef o u n d a t i o no fh a v i n ge x p a t i a t e do nt h eh o s t b a s e di n t r u s i o n d e t e c t i o n p r i n c i p l e ,t h i sp a p e re x p a t i a t e s o nt h r e eh o s t b a s e d i n t r u s i o nd e t e c t i o nm e t h o d s ,o n ei st h em e t h o db a s e do ni m m u n o l o g i c a l p r i n c i p l e ,o n ei st h em e t h o df o rs e q u e n c ea n a l y s i so fs l i d i n gw i n d o w s b a s e do nf r e q u e n c yc o u n t i n g ,a n o t h e ri st h em e t h o df o rs e q u e n c ea n a l y s i s o fs l i d i n gw i n d o w sb a s e do nw e i g h tt r e e s a 1 1t h em e t h o d scane f f e c t i v e l y 北京工业大学工学硕士学位论文 f i n dt h ea b n o r m a la c t i o n sb ya n a l y z i n gt h e h o s t b a s e ds y s t e mc a l l s e q u e n c e s t h em e t h o db a s e do ni m m u n o l o g i c a lp r i n c i p l ei st h ei n t r u s i o n d e t e c t i o n m e t h o dw h ic hcomes0 ft h eb i o l o g yi m m u n o l o g i c a lp r i n c i p l e i ti s t h e c l a s s i c a li n t r u s i o nd e t e c t i o nm e t h o d a n do t h e rd e t e c t i o nm e t h o d s t h i n k i n gc o m e sf r o mi t i n t h ep a p e r ,t h ed e t e c t i o nt h i n k i n go ft h et w o m e t h o d sf o rs e q u e n c ea n a l y s i so fs l i d i n gw i n d o w sb a s e do nf r e q u e n c y c o u n t i n ga n dw e i g h tt r e e sa l s od e r i v ef r o mi t t h em e t h o df o rs e q u e n c ea n a l y s i so fs l i d i n gw i n d o w sb a s e do nf r e q u e n c y c o u n t i n gi san e wd e t e c t i o nm e t h o dw h i c h i sp u tf o r w a r db yt h i sp a p e r t h i sm e t h o dd i s p o s e so ft h eu s e rs e q u e n c e su s i n gs l i d i n gw i n d o w s ,a n a l y z e s u s e rs e q u e n c e sb a s e do ns t a r i s t i c sp r i n c i p l e t h em e t h o dc a nd i s c e r nt h e i n v a l i di n t r u s i o na c t i o n sb yc o u n t i n gt h es y s t e mc a l lf r e q u e n c yf r o mu s e r s l i d i n gw i n d o ws y s t e mc a l ls e q u e n c e s t h em e t h o df o rs e q u e n c ea n a l y s i so fs l i d i n gw i n d o w sb a s e do nw e i g h t t r e e si sa l s oanewd e t e c t i o nm e t h o dw h i c hi se x p a t i a t e db yt h i sp a p e r t h i sm e t h o dd i s p o s e so fs y s t e mc a l ls e q u e n c e su s i n gs l i d i n gw i n d o w s , s t o r e st h ei n t e r r e l a t e ds e q u e n c ei n f o r m a t i o ni nw e i g h tt r e en o d e s t h i s n e wm e t h o dcand i s c e r nt h ei n v a l i di n t r u s i o na c t i o n sb yc a l c u l a t i n gt h e u s e rs e q u e n c e s w e i g h ts e q u e n c e su s i n gt h ei n f o r m a t i o ns t o r e di nw e i g h t t r e e s t h ee x p e r i m e n t sa r ed o n ei na l l u s i o nt ot h em a i nm e m o r yc o n s u m i n g , t h et r a i n i n gt i m ec o n s u m i n g ,t h ed e t e c t i n gp r e c i s i o n ,t h ed e t e c t i n gt i m e c o n s u m i n g t h i sp a p e rc o m p a r e st h et w om e t h o d sf o rs e q u e n c ea n a l y s i so f s l i d i n gw i n d o w sb a s e do nf r e q u e n c yc o u n t i n ga n dw e i g h tt r e e si nd e t a i l , e x p a t i a t e st h e i rm e r i t sa n dd e f e c t s i nt h ee n d ,t h ep a p e rs u m m a r i z e st h er e s e a r c hw o r ka n di n d i c a t et h e n e x tr e s e a r c hw o r k k e yw o r d s :h o s t b a s e di n t r u s i o nd e t e c t i o n :s l i d i n gw i n d o ww e i g h tt r e e : a b s t r a c t s y s t e mc a l ls e q u e n c e v 独创- 陛声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特另t j d n 以标注和致谢的地方外i 论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 躲驰日期 关于论文使用授权的说明 2 d 心年汨7 日 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名盈导师签名:鳓日期巡玺月伯 1 1 数据挖掘技术简介 第一章绪论 数据挖掘( d a t a m i n i n g ) ,又称数据库中的知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,k d d ) ,它是一种从数据集( 如大型数据库或数据仓库) 中提取隐 含的预测性信息的技术。该技术能够找出数据间的潜在模式,发现最有价值的信 息和知识,从而指导商业活动或为科学研究提供决策支持。 数据挖掘所涉及的学科领域很广,方法也很多。1 ,因而数据挖掘技术融入了 统计学、人工智能、模糊理论、数据库、模式识别、信息抽取等学科的理论和技 术。作为i q 交叉学科,经过十几年的发展,其理论更加成熟,应用范围也越加 广泛。在科学技术目益发展的今天,随着高性能关系数据库引擎技术以及广泛数 据集成技术的发展,数据挖掘技术将在当今的社会活动中发挥着越来越重要的作 用。 数据挖掘技术的发展是一个逐渐演变的过程。数据挖掘的核心模块技术经历 了数十年的发展,主要包括以下技术: 1 关联规则挖掘:关联规则挖掘是发现大数据集中项之间的关联性或相关性。 2 人工神经网络“。”:仿照生理神经网络结构的非线形预测模型,通过学习进 行模式识别。神经网络很适合非线性数据和含噪声数据,所以在市场数据库 的分析和建模方面应用广泛。 3 决策树:利用信息论中的互信息寻找数据库中具有最大信息量的字段,建立 决策树的一个节点,再根据字段的不同取值建立树的分支;再在每个分支子 集中,重复建立树的下层节点和分支过程,即可建立决策树。主要算法有 i d 3 ,c 4 5 u 等。 4 序列分析:序列分析就是找出所有的频繁子序列即该子序列在序列集中的 出现频率不低于用户指定的最小支持度闽值。比较典型的算法有 a p r i o r i a l l 、a p f i o r i s o m e 、g s p 叭1 。1 1 1 1 p r e f i x s p a n 1 算法等。 5 粗糙集方法“3 1 “1 :在数据库中,将行元素看成对象,列元素看成属性( 分为 北京工业大学工学硕士学位论文 条件属性和决策属性) 。等价关系r 定义为不同对象在某个( 或几个) 属性 上取值相同。这些满足等价关系的对象组成的集合称为该等价关系r 的等价 类。条件属性上的等价类e 与决策属性上的等价类y 之间有三种情况:下近 似( y 包含e ) ;上近似( y 和e 的交非空) :无关( y 和e 的交为空) 。对下 近似建立确定性规则,对上近似建立不确定性规则,含可信度,对无关情况 不存在规则。 6 模糊集方法“:利用模糊集理论对实际问题进行模糊评判、模糊决策、模糊 模式识别和模糊聚类分析。 7 贝叶斯网络“:贝叶斯网络是用来表示变量集合的连续概率分布的图形模 式,它提供了一种自然地表示因果信息的方法,用来发现数据间的潜在关系。 随着技术的不断发展,今后数据挖掘技术的发展方向和研究热点主要包括以 下几个方面: 1 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,象 s q l 语言一样走向形式化和标准化。 2 需求数据挖掘中的可视化方法,使知识发现的过程能够被用户所理解。 3 研究在网络环境下的数据挖掘,结合网络技术,特别是在因特网上建立 数据挖掘服务器,实现w e b 挖掘。 4 加强对各种非结构化数据的挖掘,如文本数据、图形、视频数据、声音 数据等。 5 加强在交互式方面的研究,增强与用户的交互性,能自动提取用户的特 征,提供个性化的服务。 6 增强挖掘系统的自学能力,使系统能够自主进行知识的维护和更新工 作。 1 2 序列挖掘 序列模式是描述基于时间或其它序列的经常发生的规律或趋势来进行建模 的。一个典型的例子就是:在购买电脑的顾客中,6 5 的人会在半年内购买内存 条。序列模式将关联模式和时间序列模式结合起来,其重点是考虑数据之间在时 2 绪论 问维上的关联性。 1 2 1 序列挖掘的主要阶段 序列模式挖掘是数据挖掘研究中的重要研究领域,始于a g r a w a l 对超市数据 的分析“,在此基础上目前绝大多数序列挖掘算法大致分为两个阶段: 1 ) 频繁序列的发现。 2 ) 规则的产生。 算法的计算工作量主要集中在频繁序列发现阶段上,不同的算法采用不同的 策略构造候选集,从而计算出频繁集。 1 2 2 序列挖掘的理论基础 针对序列挖掘的研究,a p r i o r i 、h p r i o r i a l l ,a p r i o r i s o m e ,g s p 等算法构 成了序列挖掘的理论基础。 ( 1 ) a p r i o r i 算法“” 该算法的核心是基于频繁集理论的递推方法。其核心思想如下: 首先产生频繁卜项集l 。,然后是频繁2 一项集l 。,直到达到某个r 值使得l , 为空,这时算法停止。这里在第k 次循环中,过程先产生候选k 一项集的集合c 。, c 。中的每一个项集是对两个只有一个项不同的属于l 。的频繁集做一个( k 一2 ) 连 接来产生的。c 。中的项集是用来产生频繁集的候选集,最后的频繁集l k 必须是 c 。的一个子集。c 。中的每个元素需在交易数据库中进行验证来决定其是否加入l k , 这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易 数据库,即如果频繁集最多包含1 0 个项,那么就需要扫描交易数据库1 0 遍,这 需要很大的i o 负载。 为了提高算法的效率,a g r a w a l 等引入了修剪技术( p r u n i n g ) 来减小候选集 c t 的大小,由此可以显著地改进生成所有频繁集算法的性能。算法中引入的修剪 策略基于这样一个性质:一个项集是频繁集当且仅当它的所有子集都是频繁集。 那么,如果c 。中某个候选项集有一个( k 1 ) 一子集不属于l 。,则这个项集可以被 修剪掉不再被考虑,这个修剪过程可以降低计算所有的候选集的支持度的代价。 ( 2 ) a p r i o r i a l l 算法”3 北京工业大学工学硕士学位论文 a p r i o r i a l l 算法,该算法源于频繁集算法a p r i o r i ,它对所有大序列( 满足 最小支持度限制的序列) 包括非最大序列进行计数,然后非最大序列必须要被剪 掉。在每一遍中都利用前一遍的大序列来产生候选序列,然后在完成遍历整个数 据库后测试它们的支持度。在遍历结束时,候选者的支持度来确定大序列。在第 一遍,大项目集阶段的输出用来初始化大l 序列的集合。 与a p r i o r i 算法的特点相似,a p r i o r i a l l 算法一样存在以下缺点: 1 有可能生成庞大众多的候选序列。 2 多遍扫描数据库。 3 不易发生长度较大的序列模式。序列模式越长,所需要生成的序列就越 多 ( 3 ) a p r i o r i s o m e 算法”1 该算法是a p r i o r i a l l 算法的改进算法,具体过程分为如下阶段 1 向前阶段:此阶段用于找出指定长度的所有大序列,即c 。生成l k 。 2 向后阶段:对前阶段已确定的l k 确定为最大序列:对前阶段没有生成l k , 先删除所有在c 。中包含在l 。中的序列,再对c 。计数生成b 。 ( 4 ) g s p 算法。1 ” 该算法类似于a p r i o r i 算法大体分为候选集产生、候选集计数以及扩展分类 三个阶段。与a p r i o r i a l l 算法相比,g s p 算法统计较少的候选集,并且在数据 转化过程中不需要事先计算频繁集。这是g s p 算法优越之处。此外,g s p 算法时 间复杂度与序列中的元素个数成线性比例关系:g , s p 算法的执行时间随数据序列 中字段的增建而增加,但是其增长并不显著。 g s p 算法主要分为以下过程: 1 ) 扫描序列数据库,得到长度为l 的序列模式l :,作为初始的种子集。 2 ) 根据长度为i 的种子集l i 通过连接操作和剪切操作生成长度为i + l 的 候选序列模式c 。:然后扫描序列数据库,计算每个候选序列模式的支持 数,产生长度为i + l 的序列模式l i 。并将l ;+ ,作为新的种子集。 3 ) 重复2 ) 步,直到没有新的序列模式或新的候选序列模式产生为止。 产生候选序列模式主要分两步: 1 ) 连接阶段:如果去掉序列模式s 。的第一个项目与去掉序列模式s 。的最后 绪论 一个项目所得到的序列相同,则可以将s 。与s 。进行连接,即将s :的最后 一个项目添加到s 。中。 2 ) 剪切阶段:若某候选序列模式的某个子序列不是序列模式,则此候选序 列模式不可能是序列模式,将它从候选序列模式中删除。 g s p 算法存在的主要问题有: 1 如果序列数据库的规模比较大,则有可能会产生大量的候选序列模式。 2 需要对序列数据库进行循环扫描。 3 对于序列模式的睦度比较长的情况,由于其对应的短的序列模式规模太 大,本算法很难处理。 1 3 入侵检测技术 1 3 1 入侵检测的定义 入侵检测“”( i n t r u s i o nd e t e c t i o n ) 是指监视或在可能的情况下,阻止入 侵或试图控制你的系统或网络资源的那种努力。它通过对计算机网络或计算机系 统中的若干关键点收集信息并对其进行分析,从中发现网络或系统中是否有违反 安全策略的行为和被攻击的迹象。通常入侵检测的核心融入了人工智能和数据挖 掘的相关技术,通过分析获得的数据,得出最终结果提交给系统管理者。一个合 格的入侵检测系统能大大地简化系统管理员的工作。 作为防火墙的合理补充,入侵检测技术能够帮助系统对付网络攻击,扩展了 系统管理员的安全管理能力( 包括安全审计、监视、攻击识别和响应) ,提高了 信息安全基础结构的完整性。入侵检测被认为是防火墙之后的第二道安全闸门, 在不影响网络性能的情况下能对网络进行监测,有效防止或减轻网络中的潜在威 胁,保证网络安全可靠的运行。 1 3 2 入侵检测分类 根据着眼点不同,可按不同角度分为不同种类”: 数据来源角度 1 基于主机:系统获取数据的依据是系统运行在的主机,保护的目标也是 北京工业大学工学硕士学位论文 2 3 1 2 系统运行所在的主机。 基于网络:系统获取的数据来源是网络传输的数据包,保护的目标是网 络的运行。 混和型:即基于主机又基于网络,因此混和型一般也是分布式的。 分析方法角度 异常检测模型:此模型的特点是首先总结正常操作应该具有的特征,例 如特定用户的操作习惯与某些操作的频率等;在得出正常操作的模型之 后,对后续的操作进行监视,一旦发现偏离正常统计学意义上的操作模 式,即进行报警。可以看出,按此模型建立的系统需要具有一定人工智 能的行为。 误用检测模型:此模型的特点是收集非正常操作,也就是入侵行为的特 征,建立相关的特征库;在后续的检测过程中,将收集到的数据与特征 库中的特征代码进行比较,得出是否入侵的结论。 时效性角度 1 脱机分析:就是在行为发生后,对产生的数据进行分析,而不是在行为 发生的同时进行分析。如对日志的审核、对系统文件的完整性检查等都 属于这种。一般而言,脱机分析不会间隔很长时间,所谓的脱机只是与 联机相对而言。 2联机分析:是在数据产生或者发生改变的同时对其进行检查,以发现攻 击行为。这种方式一般用于地网络的实时分析,对系统资源的要求比较 高。 分布性角度 1 集中式:系统的各个模块包括数据的收集与分析以及响应模块都集中在 一台主机上运行,这种方式适用于网络环境比较简单的情况。 2 分布式:系统的各个模块分布在网络中的不同的计算机、设备上,一般 来说分布性主要体现在数据收集模块上,例如有些系统引入的传感器, 如果网络环境比较复杂、数据量较大,那么数据分析模块也会分布,一 般是按照层次性的原则进行组织。 6 绪论 1 3 3 入侵检测的发展 入侵检测的发展经历了如下的几个重要阶段。“: 1 1 9 8 0 年4 月,j a m e s p a n d e r s o n 第一次详细阐述了入侵检测的概念。他 将入侵尝试( i n t r u s i o na t t e m p t ) 或威胁( t h r e a t ) 定义为:潜在的、 有预谋的、未经授权的访问信息、操作信息,致使系统不可靠或无法使用 的企图。 2 1 9 8 6 年,乔治敦大学的d o r o t h y d e n n i n g 和s r i c s l 的p e t e r n e u m a n n 研 究出了第一个实时入侵检测系统模型,取名为i d e s ( i n t r u s i o n d e t e c t i o n e x p e r ts y s t e m ) 。 3 1 9 8 8 年的莫里斯蠕虫事件发生之后,网络安全才真正引起了军方、学术 界和企业的高度重视。导致了许多入侵检测系统的研究开发。其中 d i d s ( 分布式入侵检测系统) 是入侵检测系统发展历史上的一个里程碑, 它的检测模型采用了分层结构。 4 1 9 9 0 年,加州大学戴维斯分校的l t h e b e r l e i n 等人开发出了 n s m ( n e t w o r ks e c u r i t ym o n i t o t ) 。该系统第一次直接将网络流作为数据 来源。从此之后,入侵检测系统发展史翻开了新的一页。 1 3 4 入侵检测系统模型 一个入侵检测系统( 结构如图1 1 所示) 主要包括以下模块2 2 2 3 i : 1 数据提取模块 此模块在入侵检测中居于基础地位,负责提取反映受保护系统运行状态 的运行数据,并完成数据的过滤和其它的预处理工作,为入侵分析模块和数 据存储模块提供原始的运行数据,它是入侵检测系统的数据采集器。在针对 系统调用的入侵检测中,此模块的主要功能是搜集系统设计日志。 2 入侵分析模块 此模块是具体算法实现的分析引擎。是实现数据挖掘的关键所在。针对 主机的系统调用数据,可以运用序列分析的相应算法“。对数据进行训练, 产生规则即形成知识,然后对于具体的真实数据进行测试,检验其具体结果。 北京工业大学工学硕士学位论文 进一步讲,可将模型应用于基于主机系统调用的实时监控,经数据提取模块 处理后,使用分析检测模型进行检验,判断该用户是否为入侵用户。 3 存储模块 此模块负责保存数据提取模块对原始数据的处理结果,同时保存分析模 块对用户行为分析结果。 4 知识库模块 此模块为入侵分析模块提供安全策略,此策略包括背景知识、历史行为 模式、特定行为模式等。 图卜1 入侵检测系统构成 f i g 1 - i t h e i d ss t r u c t u r e 1 3 5 入侵检测系统能够检测的攻击类型 入侵检测系统的报告中最常见的攻击有三种。“2 “:系统扫描 ( s y s t e m s c a n i n g ) 、拒绝服务( d e n y o f s e r v i c e ,d o s ) 和系统渗透 ( s y s t e m p e n e r a t i o n ) 。 ( 1 ) 系统扫描 攻击者通过发送不同类型的包来探查目标网络或系统,根据目标的响应,攻 击者可以获知系统的特性和安全弱点。扫描本身并不会对系统造成破坏,通常应 用在进行网络入侵的准备阶段,即所谓的“勘查和探点”过程。攻击者通过扫描, 可以获取以下信息:目标网络的拓扑、防火墙允许通过的网络流量类型、网络中 绪论 活动的主机、这些主机f 在运行的操作系统和服务器软件、所检测到的软件的版 本号等。目前有许多种扫描工具帮助自动完成扫描过程,如网络扫描器、端口扫 描器、漏洞扫描器等。其中漏洞扫描器是一种特殊类型的扫描器,它能列出网络 中所有活动的主机和服务器并提供每个系统中可能遭受攻击的安全弱点和漏洞 的详细描述。这些精确的信息大大简化了攻击的过程。 ( 2 ) 拒绝服务攻击 拒绝服务攻击( d o s ) 是指企图阻塞或关闭目标网络系统或者服务的攻击。 拒绝服务攻击十分普遍,每年造成的商业损失高达上千万美元。d o s 攻击主要有: 缺陷利用( f l a w e x p l o i t a t i o n ) 和洪流( f l o o d i n g ) 两种类型。 ( 3 ) 渗透攻击 渗透攻击通过利用软件的种种缺陷获得对系统的控制,包括非法获得或者改 变系统权限、资源及数据。对比前面提到的两类攻击,其中扫描攻击并不对系统 产生直接的破坏,拒绝服务攻击破坏资源的可用性,而渗透攻击则破坏系统的完 整性、保密性和可控制。 1 3 6 入侵检测系统的共同特点 入侵检测系统具有监视分析用户和系统的行为、审计系统的配置和漏洞、评 估敏感系统和数据的完整性、识别攻击行为、对异常行为进行统计、审计跟踪识 别违反安全法规的行为、使用诱骗服务器记录黑客行为等功能,使系统管理员可 以有效地监视、审计、评估自己的系统。入侵检测和响应密切相关,大多数的入 侵检测系统都具有一定的响应功能。作为一个完善的入侵检测系统必须具有以下 特点: 1 经济性:为保证系统安全策略的实施而引入的入侵检测系统必须保证不 能妨碍系统的正常运行同时入侵检测系统的价格是大多数用户可以接受 的。 2 时效性:必须及时发现各种入侵行为,理想情况是在事前发现攻击企图, 比较现实的情况是在攻击行为发生的过程中检测到入侵行为。 3 安全性:入侵检测系统自身必须是安全的。 4 可扩展性:可扩展性有两方面的意义。首先是机制与数据分离,在现有 北京工业大学工学硕士学位论文 机制不变的前提下能够对新的攻击进行检测;其次是体系机构的可扩充 性,必要时可以在不对系统的整体结构进行修改的前提下对检测手段进 行加强,以保证能够检测到新的攻击。 1 3 7 未来入侵检测技术的发展方向 由于传统方法的局限性和入侵技术的发展,要保障系统的安全,需要更好的 检测方法。根据前面分析,未来入侵检测技术主要在以下几个方面进行发展“2 7 、 2 “: 1 分布式入侵检测。传统的入侵检测局限于单一的主机或网络,对异构系 统和大型网络显得力不从心,由于在异构和大型网络的情况下,系统的 复杂度大大增加,模型建立十分困难,系统资源消耗大,因此可以用分 布式系统来协同工作。 2通用入侵检测技术。传统的方法各有所长,但彼此不能协同工作,需要 研究通用的入侵检测技术。 3 应用层入侵检测。许多入侵活动的含义只有在应用层才能理解。但传统 方法很少涉及到应用层,使得一些应用系统内的入侵活动难以检测,所 以需要开发应用层的入侵检测技术。 4智能入侵检测。入侵技术也在发展,对系统的攻击趋向于综合化,传统 方法对此收效甚微。需要研究智能化的入侵检测技术,使系统能够自动 适应( 学习) 新的入侵活动,完善系统模型,提高检测的效率和准确性。 5 入侵检测的评测系统。已有许多检测系统在使用中,但究竟效果如何? 还缺乏全面的评价方法。需要建立评价系统来对此进行评价,同时可以 对进一步的开发工作提供方向。 6 综合性检测系统。与其它的网络安全技术( 包括硬件技术) 相结合,形 成综合的检测系统,解决传统方法检测对象单一、检测攻击形式简单的 问题和一些难以解决的问题。 1 4 研究背景 随着信息网络的发展,信息安全的概念和实践不断深化、延拓。从二战后军 绪论 方、政府专享的通信保密,发展到2 0 世纪7 0 年代的数据保护、9 0 年代的信息 安全直至当今的信息保障,安全的概念已经不局限于信息的保护,人们需要的是 对整个信息系统的保护和防御,包括对信息的保护、检测、反应和恢复能力等。 信息安全可以从理论和工程的两个角度来考虑。一些从事计算机和网络安全 的研究人员从理论上的观点来研究安全,从而开发了计算理论的基础,并从这个 基础出发来考虑安全问题。计算机安全领域的另一个派系则以注重实际的,工程 的角度来研究安全。他们经常对安全问题的起因感兴趣,他们更关心保护操作系 统的问题。这两种方法都有它的合理性,研究者以及工程实践者都可以采纳两种 观点的基本原理,进而提高信息安全的保密性、完整性、有效性。 1 5 研究现状 将数据挖掘技术应用于入侵检测系统中是比较新的方法,这并不需要人工分 析和编码,而是一种自动分析的方法。并且为了检测出不断出现的新攻击,只需 加入新的规则,这比手动升级入侵特征库要简单容易得多。它采用以数据为中心 的思想,将入侵检测看作是数据分析过程。 将数据挖掘应用于入侵检测已经成为一个研究热点,在这个领域已经有了近 百篇论文。但是真正实现这样一套系统的还不多见,主要是c o l u m b i au n i v e r s i t y 的w e n k el e e 研究组和u n i v e r s i t yo fn e wm e x i c o ( u n m ) 的s t e p h a n i ef o r r e s t 研究组”。 w e n k el e e 研究组在1 9 9 8 年参加了由美国国防部高级研究计划署( d a r p a ) 资助的i n t r u s i o nd e t e c t i o ne v a l u a t i o n 计划,这次测试由m i t 的l i n c o l n 实验室提 供了模拟军事网络环境中所记录的7 周的网络流量和主机系统调用记录日志,这 些数据全部采用t c p d u m p 和s o l a r i sb s ma u d i td a t a 的格式,包括了大约5 0 0 万 次会话,其中包含了上百种攻击。这些攻击主要有以下4 种主要类型: 1 ,拒绝服务攻击,如p i n go f d e a t h ,t e a r d r o p ,s m u r f , s y nf l o o d 等。 2 远程攻击( r 2 l ) ,如基于字典的口令猜测和缓冲区溢出攻击。 3 本地用户非法提升权限的攻击( u 2 r ) 。 4 扫描,包括端口扫描和漏洞扫描。 w e n k el e e 研究组分别从网络和主机两个方面进行了审计数据的挖掘处理。 北京工业大学工学硕士学位论文 针对网络数据,w e n k el e e 的主要做法是使用网络服务端口作为网络连接记录的 类型标识,根据大量的正常连接记录生成各个服务类型的分类模型,在测试过程 中,根据分类模型对当前的连接记录进行分类,并与实际服务类型进行比较,从 而判断出该分类模型的准确性。针对主机数据,w e n k el e e 则使用了一种快速的 规则学习算法r i p p e r “,通过对正常调用序列的学习来预测随后发生的系统调 用序列,并对结果进行迸一步抽象分析,以降低算法的预测误差。根据d a r p a 的报告,由c o l u m b i au n i v e r s i t y 实现的基于数据挖掘的入侵检测系统在检测拒绝 服务攻击和扫描方面优于其它系统,在检测本地用户非法提升权限方面与其它系 统大体持平。 此外,u n i v e r s i t yo f n e wm e x i c o ( u n m ) 的s t e p h a n i ef o r r e s t 研究组进行 的是针对主机系统调用的审计数据分析处理,最初的思想是基于生物学中免疫系 统的概念。无论是针对生物机体还是针对计算机系统,免疫系统的关键问题在于 使用一组稳定的、并且在不同个体之间存在足够差异特征来描述自我,从而使系 统具有识别“自我非自我”的能力。然而,对于计算机系统来说,要解决这个 问题相当困难。首先恶意代码隐藏在正常代码之中难以区分,其次系统可能的状 态几乎是无限的,寻找一组稳定的特征来定义自我并不容易。s t e p h a n i ef o r r e s t 使用短序列匹配算法对特定的特权程序所产生的系统调用序列进行了细致分析, 在这一领域做出了大量开创性的工作。 在此之后,u n m 的另一个研究小组使用了有限自动机( f s m ) 来构建系统调 用的描述语言,但是这种方法的效率和实用性都很差。l o w as t a t eu n i v e r s i t y 的一个小组实现了一种描述语言a u d i t i n gs p e c i f i c a t i o nl a n g u a g e ( a s l ) ,以 描述程序的正常行为。另外,还有其它一些研究者采用了神经网络等其它人工智 能的方法。 1 6 面临问题及研究方向 1 6 1 问题提出 目前,序列模式分析在网络安全中的应用是个具有非常重要应用价值的课 题,而针对主机系统调用序列的序列挖掘。”主要分为两个方面: 绪论 1 系统调用的关联分析。2 ”3 从关联分析的角度来看,与系统调用相关的各个变量具有很强的相关性。如 果将次系统调用表示为 ,不 难发现这5 个变量都具有很强的关联关系,特别适合利用数据挖掘算法分析。例 如,经过关联分析发现p s 程序经常只以读权限访问p r o c 目录下的文件,如果 发现p s 以写权限访问到了e t c 目录下的敏感文件,这就可能是一次异常。 2 系统调用的序列分析 任何系统进程归根到底是一段程序,如果一段程序完全没有i f t h e n e l s e 这类选择语句和w h i l e 等循环语句,那么这段程序所产生的系统调用一定 是完全固定的,如果该进程受到攻击,例如,由于缓冲区溢出转而执行“b i n s h ”, 必然会打乱正常的系统调用,从而可以通过对系统调用序列的分析检测出来。当 我们把选择语句和循环语句考虑进来之后就会发现,虽然整个程序产生的系统调 用具有一定的随机性,但是如果将系统调用序列划分为一定窗口大小的子序列, 这些子序列仍然具有相当的稳定性。 1 6 2 研究方向 基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 迷走神经反射怎么治疗
- 诗词文言文对比阅读(一)解析版-2026年中考语文专项复习(浙江专用)
- 人工智能通识教程(微课版) 课件 07 智慧驾驭大语言模型-prompt高级应用
- 酸洗池安全知识培训
- 探究动能定理实验-2023年高一物理下学期期末复习(人教版)
- CN120199835A 一种低增湿燃料电池用气体扩散层及其制备方法和低增湿燃料电池
- 人教版高考历史一轮复习讲义-从三国至隋唐的政权更迭与民族交融(含解析)
- 老师心理知识培训笔记课件
- 配网线路高级知识培训总结课件
- 2025年度出口贸易航空货运代理合同
- 教育政策法规课件
- 2025年秋季开学典礼校长致辞:启步金秋话成长播梦育英向未来
- 2025科研素养考试题及答案
- (2025年标准)学生癫痫免责协议书
- 2025-2026学年人教版(2024)初中生物八年级上册(全册)教学设计(附目录)
- 流动式起重机械检验记录表
- 蛛网膜下腔出血的个案护理
- 大学信息与网络安全保密管理办法
- 音乐《上学歌》课件
- 绿色校园创建资料
- 污水处理池 (有限空间)作业安全告知牌及警示标志
评论
0/150
提交评论