(计算机应用技术专业论文)基于数据挖掘的入侵检测方法研究.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的入侵检测方法研究.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的入侵检测方法研究.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的入侵检测方法研究.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的入侵检测方法研究.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i t 技术的迅速发展,信息安全问题成为了人们关注的一个焦点,其中数 据库系统的安全问题是信息安全中非常重要的一个部分。数据挖掘作为一种规则 挖掘手段被引入到了入侵检测中。近年来,不少专家、学者分别就如何提高入侵 检测系统规则挖掘速度展开了研究并取得了一定成果。 本文对经典的数据挖掘算法a p r i o r i 算法进行改进,将其引入至入侵检测系统。 主要研究工作如下: ( 1 ) 提出了基于改进a p r i o r i 算法的数据库入侵检测系统,该系统共包含数据 预处理模块、规则生成模块、入侵检测模块和响应模块四大模块。在数据预处理 模块中,首先将审计数据转换为布尔型数据以便进行规则挖掘;在规则生成模块 中,引入改进之后的a p r i o r i 算法以提升规则挖掘效率;在入侵检测模块中,使用 异常检测与滥用检测相结合的复合式搜索引擎以克服二者的缺点;在响应模块中, 对不同的检测结果分别进行响应。 ( 2 ) 对经典的a p r i o r i 算法进行研究,针对a p r i o r i 算法做联合规则挖掘时,需 要为每一个候选项集c 的成员扫描整个数据库来确定其支持度的特点,提出一种 改进的a p r i o r i 算法,该算法在使用a p r i o r i 性质删除候选项集时,采用频繁子集 数量多少的判别方式减少对上级频繁项集的扫描。在计算候选项集支持度时,采 用索引树数据结构存储数据,从而大大降低了对数据库的扫描次数,提高算法的 整体效率。并将改进后的a p r i o r i 算法应用至审计数据规则挖掘。 关键词:入侵检测;a p r i o r i 算法;安全日志;数据挖掘;关联规则 a b s t r a c t a l o n gw i t ht h ef a s td e v e l o p m e n to ft h ei n f o r m a t i o nt e c h n o l o g y ,t h es e c u r i t y p r o b l e mo fi n f o r m a t i o nb e c o m e st h ef o c u so fp e o p l e sa t t e n t i o n ,a n dt h es e c u r i t y p r o b l e mo ft h ed a t a b a s es y s t e mi sav e r yi m p o r t a n tp a r to ft h ei n f o r m a t i o ns e c u r i t y d a t am i n i n ga sar u l em i n i n gm e t h o di si n t r o d u c e di ni n t r u s i o nd e t e c t i o n i nr e c e n t y e a r s ,m a n ye x p e r t sa n da c a d e m i c i a n sh a v er e s e a r c h e di nh o wt oe n h a n c et h e e f f i c i e n c yo ft h er u l em i n i n go ft h ei n t r u s i o nd e t e c t i o ns y s t e m ,a n dh a v ea c q u i r e d m a n ya c h i e v e m e n t s t h i sp a p e rh a si m p r o v e do nt h ec l a s s i cd a t am i n i n ga l g o r i t h ma p r i o r i ,a n d i n t r o d u c e si tt oi n t r u s i o nd e t e c t i o ns y s t e m t h em a i nr e s e a r c h e sa r es h o w e db e l o w ( 1 ) t h i sp a p e rp u tf o r w a r dad a t a b a s ei n t r u s i o nd e t e c t i o ns y s t e mb a s e do nt h e a d v a n c e da p r i o r ia l g o r i t h m t h i ss y s t e mi n c l u d e sd a t ap r e p r o c e s s i n gm o d u l e ,r u l e c r e a t i n gm o d u l e ,i n t r u s i o nd e t e c t i o n m o d u l ea n dr e s p o n s em o d u l e i nt h ed a t a p r e p r o c e s s i n gm o d u l e ,w ef i r s tt r a n s f o r mt h ea u d i td a t at ot h eb o o l e a nd a t ai no r d e rt o d ot h er u l em i n i n g ;i nt h er u l ec r e a t i n gm o d u l e ,w ei n t r o d u c et h ea d v a n c e da p r i o r i a l g o r i t h mi no r d e rt oe n h a n c et h ee f f i c i e n c yo ft h er u l em i n i n g ;i nt h ei n t r u s i o n d e t e c t i o nm o d u l e ,w eu s ec o m p o u n ds e a r c he n g i n ec o m p o s i t i o nb ya b n o r m i t yd e t e c t i o n a n dt h ea b u s ed e t e c t i o n ,i no r d e rt oo v e r c o m et h e i rw e a k n e s s ;i nt h er e s p o n s em o d u l e , i tc a n r e s p o n s er e s p e c t i v e l yt ot h ed if f e r e n tr e s u l t ( 2 ) t h i sp a p e rr e s e a r c hi nt h ec l a s s i ca p r i o r ia l g o r i t h m ,a i m i n ga tt h ea p r i o r i a l g o r i t h m sc h a r a c t e r i s t i ct h a ti th a v et os c a nt h ew h o l ed a t a b a c ef o re a c hm e m b e ro f c a n d i d a t ei t e m s e tct od e f i n et h ed e g r e eo fs u p p o r t ,w ei n t r o d u c ea na d v a n c e da p r i o r i a l g o r i t h m ,i tw i l la d o p td i s t i n c t i o no fn u m b e ro ff r e q u e n ts u b i t e mt od e c r e a c et h es c a n o ft h es u p e r i o rf r e q u e n ti t e m sw h e nt h i sa l g o r i t h mu s ea p r i o r ip r o p e r t yt od e l e t et h e c a n d i d a t ei t e m s e t w h e ni tc o m p u t et h ed e g r e eo fs u p p o r to ft h ec a n d i d a t ei t e m s ,i t a d o p tt h ed a t as t r u c t u r eo fi n d e xt r e e t os t o r ed a t a ,w h i c hc a nd e c r e a c et h es c a no f d a t a b a c et oal a r g ee x t e n ta n dr a i s et h ea l g o r i t h m sw h o l ee f f i c i e n c y a n di ti n t r o d u c e s t h ea d v a n c e da p r i o r ia l g o r i t h mt ot h ea u d i td a t ar u l em i n i n g k e y w o r d :i n t r u s i o nd e t e c t i o n ;a p r i o r ia l g o r i t h m ;s e c u r i t yl o g s ;d a t am i n i n g ; a s s o c i a t i o nr u l e s l i 长沙理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果 由本人承担。 i 作者签名:磁、墨讶骘日期:为扣年月弓日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权长沙理工大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本 学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密囹。 ( 请在以上相应方框内打“4 ”) 作者虢弼国年吼太知年f 月 日 导师签名:午为叭 日期:加2 ,d 年月了 日 导师签名:气勾 日期:加2 ,d 年6 月多 日 1 1 课题背景和意义 第一章引言 信息系统共分为三个大的支撑平台,分别为网络系统、操作系统以及数据库管理系 统,操作系统的作用是存储信息与管理资料,网络则是一种传播信息的非常重要的途径, 数据库管理系统的职责是安全地存储数据。就目前来说,我们更为注重面向网络方面的 入侵检测研究,而对数据库方面的研究相对来说比较少。但是数据库系统作为一种基础 的数据管理软件,它有着举足轻重的地位,许多的国家机构以及企业都将重要的信息存 储在各自的计算机数据库中,这些存储的信息中包含许多机密内容,涉及国家机密或者 企业核心竞争力,如果发生非法泄露,将给国家或企业带来巨大损失。非法数据库入侵 者的本意,就是从数据库中窃取、破坏其感兴趣的信息,达到非法目的。如删除数据库 资料、盗取帐号等。数据库的安全问题是信息社会一个影响重大的问题。 目前比较通用的数据库安全保护方法有:身份认证、存取控制以及入侵检测等。但 现存的身份认证技术无法妥善处理合法用户滥用的问题。存取控制是非常重要的安全保 护手段,但其安全性能还有待考证,从而不能完全地保证数据库系统不存在攻击漏洞。 目前所面临的数据库安全问题主要是内部滥用,因此,审计追踪与入侵检测技术成为了 重要的安全防范措施。 入侵检测是一种新兴的信息保护技术,它引入了数据挖掘技术,入侵检测的关键是 如何利用数据挖掘技术,从大量已初始化的数据中挖掘出正常行为规则与不正常行为规 则,以及如何在挖掘出规则以后,自动地、有效地进行入侵检测并更新规则库。入侵检 测技术可弥补已有安全保护技术的缺点,数据挖掘作为一种高效的规则挖掘技术,在入 侵检测系统中使用频繁。 入侵检测系统的数据挖掘步骤:首先,收集原始的用户行为数据集,在对数据进行 分析的基础上,使用挖掘算法对用户行为进行挖掘,从而构建正常用户行为档案,将其 做为不正常行为检测的依据;然后使用正常行为模型区分出入侵数据,并借此获得较纯 的入侵数据,使用分类算法进行规则挖掘,进一步地将正常行为与不正常行为区分开来, 产生异常检测规则,然后使用数据挖掘算法对入侵数据集进行挖掘,构建一个入侵数据 的特征模型,并及时地更新已有规则模型,入侵检测技术一般模型见图1 1 。 1 2 本课题相关研究现状 图1 1 入侵检测技术一般模型 随着信息化规模的扩大,国家、企业与个人普遍使用数据库管理数据。入侵检测作 为高效的安全防卫技术,是信息安全领域的研究热点,在以往的研究中,人们把更多的 注意力放在了网络方面【,1 ,而对基于数据库的入侵检测研究相对来说比较少。目前基于 数据库的入侵检测方法共分为四种: 分类模型法:它主要是针对数据库操作的时序特征,挖掘数据库操作的时序关系。 分类模式法可以分为:序列模式挖掘、读写序列集生成与数据库事务关联规则生成三个 步骤。分类模式法的处理对象是写操作,它主要考虑的是用户对数据库系统进行恶意修 改,对读操作未作过多关注,但是许多信息盗取仅使用了读操作,而未对信息未进行任 何篡改。 关系型数据库入侵检测系统:它主要针对数据库模式间的关系,使用模式的主键和 外键的函数依赖关系以确定属性之间的关系参数,从而进行异常检测。关系型数据库入 侵检测系统其优点是:按照s q l ( s t r u c t u r e dq u e r yl a n g u a g e ) 语句本身的特点生成相对应 的频繁项集,这些频繁项集既要满足既定的最小支持度,同时也要大于最大距离;关系 型数据库入侵检测系统其缺点是只考虑了属性的稳定性,而未对查询结构的稳定性作考 虑。 指印技术:它也是一种基于s q l 语句的检测方法,主要考察用户在长期使用s q l 2 语句之后,其行为与合法s q l 语句行为的偏移程度,若偏移度小则认定为合法行为, 若偏离度大则判定为可疑行为。指印技术它的优点是误报率比较低,缺点则是查询格式 相对来说比较固定,考虑自己创建s q l 语句的情况,指纹数量会因此而增多,从而导 致规则库变得庞大,入侵检测效率降低。 时问标签:在实时数据库系统之中,为了能够保证系统事务的正确性、有用性,每 个事务都会受时间的约束,比如截止时间、更新时间等。数据库管理员则可以设定各 类操作的时限,一旦出现了超时的操作,则认定为入侵行为。时间标签检测的优点是速 度快,但检测的范围相对来说比较狭隘。 针对不同的入侵检测技术的特点,不少专家、学者提出了自己的意见或建议。 石少敏【z 】提出了基于混合式入侵检测模型。对于采用数据挖掘技术进行入侵检测的 三个大模块:数据采集、数据预处理,以及数据挖掘进行了分析。并对传统的a p r i o r i 算 法进行改进。但是,考虑不同支持度的情况,使用该算法进行实验,实验结果显示:支持 度较大时,检测率低,与入侵检测的作用背离。当支持度较大时,检测率高,但误报率 也高,入侵检测效果不理想。 傅德胜,周舒,郭萍f 3 】提出基于数据挖掘的入侵检测系统模型,并且对原有的 f p g r o w t h 算法进行了改进。但单独使用f p g r o w t h 算法进行入侵检测,因为f p g r o w t h 算法本身的特性,当数据项维数较高时,构建f p 树需要耗费大量的内存,运行效率较 低。所以使用f p g r o w t h 算法进行入侵检测较适合维数较低的情况。 张亚玲,康立锦1 4 1 针对传统的s n o r t 系统进行改进,主要的创新点是改进s n o r t 系统 在应对新的入侵行为时反应不积极的情况。在原有的s n o n 入侵检测系统中增加了正常 行为模式挖掘模块,以及异常检测模块和新规则生成模块。但该系统对于挖掘项对检测 效果的影响,最小支持度和最小置信度对模式库精确度的影响等未做考虑。 b h a v a n it h u r a i s i n g h a m t s l 在文中讨论了一般安全问题的不同威胁方式,并结合数据挖 掘技术来处理这些类型的问题。他将这些威胁归结为两个大类:非实时威胁与实时威胁, 提出需要理解这些不同的威胁类型并且采集优良数据进行挖掘并获得有用的结果,并提 出了工作的重点是提高报警率与降低误报率。文中对于实时的威胁进行了较为详细的讨 论,非实时的情况未作过多考虑。 m i n gx u e ,c h a n g i u nz h u t 6 1 在文中将研究重点放在使用数据挖掘算法来处理异常检测 与误用检测。对于误用检测,主要研究点是分类算法,对于异常检测,主要研究点则是 模式匹配与聚类算法,对于模式匹配,主要分析点是联合规则与顺序规则。文中所提出 的数据挖掘算法实用性较好,该类算法的优势在于它有能力处理大规模的数据,同时他 也指出,有三个问题尚待解决,1 :算法的效率不高,2 :入侵检测的正确率较低,3 :进行 异常检测时误报率较高。 北卡罗纳州立大学的w e n k el e d ,嗨研究重点放在构建一个基于数据挖掘的实时入 侵检测系统,指出该系统将用来处理三种类型的问题:精确性、效率、可用性。为了改 进精确性,数据挖掘程序被用来分析信任数据并抽取特征值,这些特征值可以用来识别 入侵行为中的正常行为。使用人为错误与正常异常数据一起建立更为高效的误用与正常 行为检测模型。但是同时他也指出了,目前的方法有很大的局限性,它们仅仅在内网或 者系统内部进行了入侵检测,然而,随着电子商务与电子公务的迅速发展,迫切需要将 入侵检测提升到应用的层面上来。 何海涛,吕士勇,田海燕【8 】提出了基于改进的a p f i o f i 算法的数据库入侵检测系统, 可以进行数据库事务级的异常检测,主要由数据库接口组件、数据采集、数据处理、数 据挖掘和入侵检测5 个部分组成,分别工作在训练阶段和入侵检测阶段。系统采用侦听 方式对用户的行为进行检测,侦听方式具有部署容易、无须修改和可重配置检测系统的 特点。系统采用改进的a p r i o r i 算法挖掘行为模式,经过1 次扫描数据库既可生成频繁 项集。系统具有较强的检测力度,可在事务级别上检测用户的恶意操作或异常行为。该 算法虽然在剪切步时只需扫描一次数据库,但在确定支持度时,仍需多次扫描数据库。 袁朝华,柏文阳【9 】j 是出的一种数据库入侵检测模型的研究,利用所提出的模型对数 据库审计信息进行挖掘,以发现代表合法用户典型行为的用户轮廓。利用用户轮廓发现 用户的误用行为。该系统与c h r i s t i n a 的原型系统相比,考虑了用户在时间上访问数据库 的规律,进一步提高了检测内部用户误用行为的能力。时间是入侵检测系统必须考虑的 一个问题,但不结合其他算法进行复合式挖掘的话,入侵检测系统的效率比较低下。 王静,易军凯0 0 1 在基于入侵检测的数据库安全模型研究中,提出了一种基于数据库 的入侵检测模型,并阐述了规则结构以及入侵检测的统计理论,使用入侵检测来实时检 测数据,对照规则判断攻击,讨论了可疑行为的浏览方式和数据库恢复的功能。但在划 分危险程度时,大量的数据可能介于两个l e v e l 等级之间,造成系统识别的效率比较低 下。 王文娟,王杰等1 1 1 在基于a p r i o r i 改进算法的入侵检测系统的研究中提出了一种基于 4 数据挖掘技术的入侵检测系统,该系统主要采用了关联规则中的a p f i o f i 算法挖掘入侵 模式,实现了规则库的自动更新,极大地提高了系统的性能,并对a p f i o f i 算法进行了 改进,提高了扫描入侵数据库的信息获取率,又及时地剔除了超集不是频繁项集的项集, 进一步缩减了项集的潜在规模。由于规则库采用自动更新系统,减少了人为的干预。但 面对恶意的用户频繁进行某一操作时,系统会误认为是正常的用户行为从而导致错误的 发生。 1 3 本文拟研究的主要内容 基于以上的阐述与总结,入侵检测系统目前所面临的主要问题包括: l 、漏报率高,由于入侵检测规则库里所包含的规则数目有限,一旦出现新的入侵 行为,则系统无法准确进行识别。经常将入侵行为误判为正常行为。 2 、误报率高,正常的用户行为如果发生了变化,则很有可能被误判为异常行为, 从而发生错误报警。 3 、人为干预,入侵检测系统进行了异常检测与滥用检测之后,对可疑的行为通常 无法进行自主识别,需要管理员进行配合。 4 、算法效率低,在使用关联规则进行入侵检测挖掘时,由于算法本身存在一定缺 陷从而导致整个入侵检测系统检测效率低下。 本文针对入侵检测系统效率偏低的缺点,将研究重点放在如何提升异常检测规则挖 掘与滥用检测规则挖掘的效率上。探索使用人工智能的方法改进入侵检测系统,提高其 检测效率。并使用复合式搜索引擎进行检测。 本文所做的工作包括以下几个方面 1 、在介绍了入侵检测知识的基础上,围绕如何提高入侵检测系统的检测效率进行 研究,并将重点放在提升异常检测规则挖掘与滥用检测规则挖掘效率上,使用改进后的 a p f i o f i 算法进行审计数据规则挖掘,并构建了数据库入侵检测系统。提出使用异常检测 与滥用检测相结合的复合式搜索引擎进行检测,以克服滥用检测漏报率高与异常检测误 报率高的缺点。 2 、针对传统的a p f i o f i 算法需要多次扫描数据库的缺点,对经典的a p f i o f i 算法进 行研究,提出一种改进的a p f i o f i 算法,该算法采用索引树作为数据存储结构,采用频 繁子集数量多少的判别方式减少对上级频繁项集的扫描。并将改进后的a p f i o f i 算法应 用至审计数据规则挖掘。 s 1 4 本文的组织结构 本文的组织结构如下: 第1 章介绍了入侵检测的研究背景,并对当前入侵检测技术研究的现状进行了简介。 第2 章对于入侵检测以及数据挖掘的基本知识进行了介绍。包括入侵检测系统体系 结构、入侵检测技术、关联规则分析、序列分析、分类分析、聚类分析等。 第3 章详细介绍了处理审计数据的改进a p r i o r i 算法。 第4 章详细说明入侵检测系统结构,并将改进的a p r i o r i 算法应用至入侵检测系统 以提高其性能。重点研究了如何使用改进后的a p r i o r i 算法来处理安全日志这种高维数 据。 第5 章对本文所做的工作进行了总结,并进一步提出未来研究的建议。 6 第二章入侵检测与数据挖掘技术 2 1 入侵检测技术 入侵检测技术 1 2 1 1 1 3 1 自从2 0 世纪8 0 年代提出以来,经过了2 0 多年的发展,从最初 的一种研究想法和非常单纯的理论模型,迅速发展成为了种类繁多实际原型系统,在最 近的十年内涌现出了许多商用的入侵检测系统产品,这些入侵检测系统已经成为了为计 算机安全防护领域内非常重要的安全防护技术。1 9 8 0 年,a n d e r s o n 跟他的伙伴在一份 技术报告中提出了一项安全审计系统的改善建议,报告中指出可以检测出在计算机上进 行的非授权活动,同时也提出了最基本的检测思路。 2 1 1 入侵检测技术概述 通常情况下,计算机系统安全的三个基本标准是机密性、完整性以及可用性。即保 护计算机自身的信息和资源只有在授权的情况下才可以访问、修改。安全策略的作用是 用于将较为抽象的计算机安全目标和概念映射到现实世界中来,提出了具体的安全规 则,它们的通常定义是一组用以保护计算机系统资源与信息资源的目标、过程规则的集 合。安全策略建立的基础是所期望系统运行方式,同时这些期望值也被完整地记录下来 了,用以定义系统可接受的所有操作类型。 “威胁”的定义是任何潜在的、可能危害系统安全状况的事件、情况。a n d e r s o n 在1 9 8 0 年的一份技术报告中,提出了关于威胁的早期模型,并且按照威胁的来源的不同,分为 如下3 类。 1 、外部入侵者:即系统的非授权用户。 2 、内部入侵者:即系统授权用户超越了一定的合法权限。 3 、违法者:即为在计算机系统上从事非法活动的合法用户。 在入侵检测中,“入侵”的意思是发生在系统内部发生的,违反了安全策略的事件, 包括上面a n d e r s o n 模型中所提到的三种威胁类型,同时也包含如下的威胁类型:带有 恶意的程序,如恶意j a v a 、木马或a c t i v e x 程序等;对系统的配置信息以及安全漏洞进 行探测和扫描,为将来可能发起的攻击活动进行前期准备的活动。 美国的国家安全通信委员会入侵检测小组早在1 9 9 7 年便给了关于“入侵”的定义是: 所谓的入侵就是非授权地访问信息系统、在信息系统中进行未经许可的操作。同时入侵 检n d , 组也在1 9 9 7 年对“入侵检测”进行了定义:所谓的入侵检测就是对企图入侵、正在 进行、或已经发生的非法入侵行为进行相应识别的过程。 入侵检测系统的通用模型见图2 1 ,该系统主要包括以下四个部分。 l 、数据收集器:其职责是收集数据。 2 、检测器( 又可以称之为分析器或检测引擎) :主要职责是分析、检测入侵行为, 并发出警报信号。 3 、知识库:主要职责是为入侵检测系统提供数据信息的支持。 4 、控制器:主要职责根据警报信号做出相应的人工或自动的反应动作。 此外,大部分的入侵检测系统都包含了一个用户接口组件,其作用是观察系统运行 状态、输出信号,并借此对系统行为进行控制。 2 1 2 入侵检测系统的分类 对于入侵检测系统来说,以什么数据作为输入数据是待解决的首要问题。其原因有 2 点: 1 、入侵检测的输出结果,往往取决于系统所获得的输入数据的数量与质量。 2 、采用哪种入侵检测技术,也通常取决于输入数据的类型。 在入侵检测技术的发展过程中,最先用来做入侵检测的输入数据就是操作系统本身 自带的审计记录。操作系统的审计记录由其软件内部的特定子系统所产生,这些审计记 录包含的信息就是当前系统的活动,这些信息会按照时间顺序组合起来,组成一个或者 8 多个审计文件。在不同的系统中存在审计事件、审计记录的选择以及组织内容等诸多方 面的兼容性问题。另外的一个问题就是,操作系统审计机制在开发与设计时,其目标并 非为了同后才出现的入侵检测技术。但是操作系统审计记录由于其特有的优势,至今仍 被认为是进行入侵检测的首选数据源: 1 、审计系统在设计的时侯,便考虑了审计记录应具备的结构化组织,以及如何保 护审计记录内容,因此,操作系统审计记录具有比其他数据源更好的安全性。 2 、操作系统的审计记录中记录了在系统内核级别的事件的发生情况,它所反映的 是系统最底层的活动情况,并且提供了相关的详尽信息,这为发现潜在的用户异常行为 奠定了极好的基础。 计算机系统日志记录下了主机上所发生的事情,这些记录无论是对于日常管理维 护,还是对于追踪入侵者的痕迹都可以起到非常关键的作用。日志可以分为两个大的部 分:操作系统同志与应用程序日志。操作系统日志所记录的是系统中最底层发生的事情, 这些记录对于入侵检测来说具有重要的价值。 系统日志所记录的信息其安全性相对于操作系统所记录的审计记录来说,质量要差 一些,原因如下: 1 、系统日志产生的软件通常不是系统内核中运行的程序,这些软件非常容易受到 修改或者攻击。 2 、系统同志所存储的文件目录通常都是不受保护的,非常容易受到恶意的删除或 者修改等操作。 虽然如此,系统日志还是因为它的简单易读、容易处理等许多优点成为了入侵检测 的重要数据源。 按照数据源来划分,入侵检测可以划分为两类:基于主机的入侵检测和基于网络 的入侵检测。 对于基于主机的入侵检测技术就来说,其数据源是主机的审计记录以及日志文件, 以及存在于主机上的其他信息,基于主机的入侵检测技术就是在这些数据源的基础上完 成检测攻击行为的任务。 此外,在主机入侵检测技术中,我们可以单独地分离出一种基于应用的入侵检测, 这种入侵检测技术是特别为某个特定任务的应用程序而设计的,它采用应用程序中的日 志信息作为数据源。 9 基于网络的入侵检测技术则是通过监听网络中的数据包,以获得相应的数据源,并 且通过协议分析、统计分析、特征匹配等相应手段发现目前正在发生的攻击行为。 基于网络的入侵检测技术也存在一种特殊的情况,就是所谓的基于网络结点入侵检 测技术,它的输入数据源仅仅是检测模块所在的主机上所获取的网络进出流量信息。这 种入侵检测技术的目的是为了减轻数据处理负担,把计算量分散到各个网络结点所在的 主机之上。 基于主机的入侵检测可以比较准确地检测对于主机系统的非法攻击行为。其中,在 这行攻击行为中,部分发生在应用进程中的攻击行为无法借助基于网络入侵检测去完 成。而且,基于主机入侵检测系统也存在一些自身的缺点:首先,由于它太过于依赖 固定的操作系统平台。其次,它是在被保护的主机上运行,这样的检测将影响宿主机的 工作性能。另外,它没有办法对网络环境下正在发生的数量庞大的攻击行为作出比较及 时的反应。而基于网络的入侵检测则可以实时监控网络中现存的数据流量,并且发现潜 在攻击行为,迅速地作出响应。另外,它的主要分析对象是网络协议,不存在移植性问 题。同时,这种检测技术的运行丝毫不影响主机,也不会影响服务器自身运行,这是因 为基于网络的入侵检测系统一般的工作模式是采用独立主机和被动监听。 从数据分析的手段看,我们可以把入侵检测划分为滥用入侵检测以及异常入侵检 测。 滥用入侵检测【1 4 d 5 1 技术的工作原理是分析各种不同类型的攻击手段,并迅速找出其 可能存在的“攻击特征”集合。而滥用入侵检测则可以利用这些特征集合或对应的规则集 合,对其进行数据与预处理后,再按照一定的属性在这些预处理后的数据上进行特征匹 配或规则匹配工作,一旦发现匹配满足条件,则指示系统某个攻击行为正在发生。 异常入侵检测假设条件是对于检测正在发生的可能攻击行为,可以通过观察当前行 为规律与系统历史正常活动规律之间的亦同来实现。 比较而言,在解释能力上,异常入侵检测比滥用入侵检测说服力要弱一些,因为滥 用检测可以明确地指出当前发生行为属于攻击行为,因此,诸多商用系统中正是使用了 滥用检测技术。而且,滥用入侵检测相对异常检测来说,具有检测率高以及虚警率地的 优点,滥用检测规则库与特征集的建立也相对来说更加方便、更加容易。滥用检测技术 主要缺点是它通常情况下只可以检测到已经获知的攻击模式。但异常检测的恰好可以检 测得到未知的可疑入侵行为。 1 0 就目前已有的实际商用系统而言,大多数检测系统均采用滥用入侵检测技术。但在 其中部分优秀的入侵检测系统中,亦使用了不同类型的异常入侵检测技术与相应的检测 模块。 入侵检测还存在有其他的分类标准,如实时检测系统和非实时检测系统。非实时检 测系统的工作原理是事后收集相关审计日志文件,并在此基础上进行离线分析,找出潜 在的攻击行为规律,其目的主要是进行系统配置的改善工作,以防范未来的攻击。 而实时处理系统则实时地对系统进行监控,并在当异常活动出现时及时做出反应。 所谓实时就是根据用户需求不同而定的变量,只要系统分析和处理的效率处在用户需要 的范围之内,我们就可以把它称为实时入侵检测系统。 2 2 数据挖掘技术 2 2 1 数据挖掘定义 从二十世纪末期至今,全球的信息量以非常惊人的速度在增长,据相关估计每一年 半信息量就会增加一倍。许多企业、机构的计算机系统中存储着大量的数据( 或称为信 息) 。但是现存的数据库系统只能实现高效地实现对数据进行录入、查询、统计等相关 功能,而无法发现存储的数据中可能存在的关系和规则,因此无法根据现有的数据对其 预测未来的发展趋势进行有效地推理。为了可以充分利用现有的信息资源,从大量的数 据中找出隐藏其中的相关知识,数据挖掘技术应运而生且显示出了非常强大的生命力。 数据挖掘是是在投资a i ( a r t i f i c i a li n t e l l i g e n c e ) 研究项目失败之后,在a i 转入到实际 的应用时提出的。数据挖掘是一个新兴的,面向信息领域的研究。1 9 8 9 年8 月,在美国 的底特律召开了第1 1 届国际人工智能联合会议,在会议上首次出现了面向数据库的 k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 这一术语。在随后的几年期间都举行了有关于 k d d 的专题讨论会,讨论会有来自各个领域的研究学者和各个公司的开发人员,他们 主要讨论了数据统计、数据分析、知识表示、知识运用等相关问题。在最开始时数据挖 掘仅仅是k d d 中利用算法进行数据处理的一个步骤,但在随后的多年里,数据挖掘逐 渐演变为与k d d 具有同等意义。现在,人们在使用两者的时候一般不再加以区别。k d d 常常被称为d m ( d a t am i n i n g ) ,但是实际两者是有区别的。我们一般把k d d 中知识学 习这一阶段称为数据挖掘,它是k d d 中一个极为重要的步骤。 数据挖掘的定义就是从大量的、不完全的、模糊的、有噪声的、随机的数据中,设 法提取出隐含在其中的、不为人们事先得知的、却又是潜在的、有用的信息或者知识的 过程。数据挖掘的同义词包括:决策支持、数据分析和数据融合。数据挖掘的定义包括 好几层意思:数据源必须是真实的、大量的、含噪声的;需要发现用户感兴趣的知识; 被发现的知识要具有可接受、可理解、可运用的特点。 2 2 2 数据挖掘过程 数据挖掘的处理对象非常广泛,可以是数据库、文件或者是其他的结构化或着半结 构化的数据( 信息) ,但是人们对于数据挖掘存在认识的误区,往往认为数据挖掘只是发 现过程的一个重要步骤而已,其功能只是利用特定算法从大量的数据中抽取出特殊模 式,不包括数据预处理以及领域知识等相关内容。但实际上数据挖掘作为功能处理整体, 并非仅仅是一个单一挖掘过程,在此我们为了避免混淆,指出所谓的数据挖掘共包括数 据准备、数据挖掘以及结果的表达和评估这些部分。 数据挖掘的过程( 图2 2 ) 可分为以下步骤: 知识 粤勿警同( 擎。 准备一j l 一 应用 j ,b f 、 一、 二戎 7 运用 步 ( 1 ) 数据准备:此阶段的任务主要为原始数据的收集,被收集的数据可以是操作系 统本身的日志文件,也可以是网络检测信息等原始数据。在收集完数据之后对其进行提 取以获得挖掘所需的数据信息。 ( 2 ) 数据预处理:上一阶段所获得的数据本身并不适合直接进行挖掘,往往需要做 一些相应的处理工作,也就是数据预处理工作。数据预处理包括数据的筛选、净化( 消 除噪音) 、推测、转换( 转换为适合挖掘的数据了型) 、缩减等工作。数据预处理是数据 挖掘中的比较重要的一个环节。预处理所得数据的质量将会直接影响数据挖掘的效率、 准确度以及数据挖掘最终模式的有效性。 ( 3 ) 数据挖掘:k d d 中最为重要的步骤,它根据k _ d i d 的最终目标,选取适应的算 1 2 法参数,使用算法分析数据,并最终得到知识的模式模型。目前比较常用的的技术和算 法有决策树、蚂蚁算法、f p g r o w t h 、粗糙集、a p r i o r i 算法、遗传算法等。 ( 4 ) 表达和评估:经过上述步骤之后得到的模式,很可能没有意义或者没有任何实 用价值,我们需要对其进行评估,以确定哪些模式是有效、有用的。k d d 的过程通常 需要经过多次循环,任何一个步骤与预期目标不符时,都要返回到前面的步骤,重新调 整并执行。例如进行入侵检测的时候,假如有效地检测出了入侵行为,则本次挖掘是成 功的,如果检测出的不是入侵行为,则重复执行上述过程。直至得到满意结果为止。 2 2 3 数据挖掘分析方法 数据挖掘技术应用范围非常广泛,比如对计算机系统审计数据进行分析、或对网络 流量进行分析、对主机上的用户日志进行分析、对用户的邮件进行分析、对安全防御系 统所发出的警报进行分析等。正对问题类型的不同,所需要使用的数据挖掘方法也随之 改变,究竟采用何种方法取决于数据的类型、规模、以及挖掘的最终目的。目前主要采 用的分析方法有:关联分析、聚类分析、分类分析、预测分析。 1 、关联分析 关联规则挖掘的最先提出者是a g r a w a l ,关联的意思是自然界中的事务存在着一定 的相互关系,某种事物在发生的时候其他事物也会随之发生,这种联系就被称之为关联。 关联所反映的是事件之间依赖或关联的关系,这些依赖或关联知识则被称之为关联型知 识。关联是指两个或两个以上的变量取值之间存在着的、重要的、可被发现的特殊规律。 我们可以把关联的类型划分为简单关联、时序关联以及因果关联。 关联规则的数学定义: 先假设i = i l ,i 2 ,i m ) 是m 个不同元素的集合,t 是针对i 的一个交易集合,每一 笔交易中均包含多个属于i 的项。关联规则可以用x j y 来表示,其中x ,yci 且x n y = ,x 可以称为规则的前提或者是前项,y 则称为规则的结果或后项。每一规则都有两 个标准进行度量,即支持度和可信度。 支持度的定义是:s u p p o r t ( x jy ) = s u p p o r t ( x uy ) 可信度的定义是:c o n f i d e n c e ( x :,y ) = s u p p o r t ( xt ay ) s u p p o r t ( x 1 关联规则的形式为: r :x j y 其中,x 及y 为互不相交的集合,即x ,y c i 且x n y = ( i ) 关联规则可以理解为,如果说有一个交易它支持项集x ,则我们可以认为它以一定 概率支持项集y ,这种可能性我们称它为规则的可信度,记为c o n f ( r ) 或c ( r ) 。 2 、聚类分析 聚类分析是指从繁多复杂的数据中,按照最大化类相似性与最小化类间相似性两个 原则进行聚类或者分组。其目的是使得在一个簇内的对象高相似性非常高,而不同簇间 的对象则相似性很低的过程。 聚类方法的分类 基于划分的聚类方法:假设有一个由n 个对象所组成的数据集合,将这n 个对象构 建称为k 个划分,其中的每一个划分代表一个簇。 要求:每个簇里面至少有一个对象; 每个对象只能属于,也必须属于一个簇。 基于层次的聚类方法:是对于在给定的数据集合之上进行层分解的过程,它主要包 括凝聚法和分裂法这两种。凝聚法指的是每个对象起初都会被认为是一个簇,然后通过 不断的合并工作,直至到达了一个令人比较满意的结果为止;而分裂法则恰恰相反,它 先把所有的数据都归于一个簇,然后通过不断分裂以形成更小的簇,一直分裂直至出现 一个令人比较满意的结果。而根据簇间距离的度量方法不同,层次划分法可分为不同的 种类。通常使用的距离度量方法有:最小距离法、最大距离法、平均值距离法和平均距 离法等。 基于密度的聚类方法:算法的核心思想是,如果某簇附近区域的密度超过了某一设 定的某一阈值,就扩大簇的范围,继续进行聚类。这类算法的最终结果可以是任意形状 的簇。 基于网格的聚类方法:算法首先将问题量化为有限数目的单元空间,形成一个特定 的空间网格结构,并在这些网格结构之上进行聚类。这种算法速度较快。 基于模型的聚类方法:这种算法为每个簇假定一个模型,在此基础上寻找数据对于 给定模型的最佳拟合。它所基于的假设是:数据是按照潜在的概率分布的。 3 、分类分析 ( 1 ) 分类方法概述 分类是数据挖掘中的一种。分类的目的是为了获得一个分类函数或者是分类模型, 此模型可以把数据库数据项映射至某一个给定类别。分类方法可以用来提取出重要数据 1 4 类的模型或者是预测其未来趋势。 ( 2 ) 分类方法的实现 构建模型; 对每一个样本标记类别; 训练集以构成分类模型; 分类模型可使用分类规则或决策树来表示; 使用模型:用来识别未知对象的类别; 模型的评价; 将己标记的测试样本与模型实际分类结果进行比对; 模型的正确率指的是被正确分类了的样本数与总的样本百分比。 4 、预测分析 ( 1 ) 预测分析法概述 一方面,预测与分类非常相似,第一步是构建模型,然后使用模型进行预测。 主要方法包括线性回归与多元回归以及非线性回归,另外一方面,预测并不等同于分类, 预测的处理对象是连续的数值。 ( 2 ) 传统的预测方法 趋势外推法:用描散点图方法来定性地确定数值变化趋势,再按照这个趋势对未来 情况进行预测,它的特点是不对随机成分进行统计处理。 时间序列法:将因变量与自变量都看成是随机变量。实际问题中,大多数预测目标 观测值构成的相关序列,其表现为平稳的、随机的序列或者是能够转化为平稳的序列。 尽管在某一个特定的时刻对预测目标进行观测。其观测值是随机的,不过从整个观测序 列看,它呈现出了某种随机过程的特征。随机时间序列方法就是按照这规律性来建立 实际序列的产生随机过程模型,然后利用这些模型进行预测。 回归分析法:假设同一个或一个以上独立变量存在某种相关的关系,以此寻找相关 关系的模型。与时间序列法不同的是:其因变量为随机变量,而自变量为可控变量。回 归分析法可分为线性回归与非线性回归。目前使用较多的是多元线性回归模型。 第三章处理审计数据的改进a p r i o r i 算法 对基于数据库的入侵检测系统而言,系统的检测效率是一个关键问题,如何提高入 侵检测系统的检测效率一直是专家、学者们的一个研究重点。在基于数据库的入侵检测 系统中,异常规则挖掘与滥用规则挖掘两者所占的时间开销比例非常大,为此,本文围 绕a p r i o r i 算法进行改进,探讨如何使用改进后的a p f i o f i 算法进行关联规则挖掘,以提高 整个入侵检测系统的检测效率。 a p f i o f i 算法是最为经典的关联规则挖掘算法,a p f i o f i 算法使用一种称作逐层搜索的 迭代方法进行挖掘,使用k 项集来探索( k + 1 ) 项集。先找出频繁1 项集的集合,并将该集 合记作l l ,l i 集合用来找频繁2 项集l 2 ,再用l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论