(计算机应用技术专业论文)基于增量式fhcam的入侵检测方法的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于增量式fhcam的入侵检测方法的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于增量式fhcam的入侵检测方法的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于增量式fhcam的入侵检测方法的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于增量式fhcam的入侵检测方法的研究与实现.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)基于增量式fhcam的入侵检测方法的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

abs tract w i t h th e 翔leof目 e 仁 浑 o rkco nt i nuousl y e x p a n d l n g,t he ritv oft hen et w o r k isd r a w i ng peo p les atte n t ion d a yby day,the tech n 0 l o gy ofi n t 川 si on d e t 。 以 io n b eco m e s o neoft hemostpop u l arr e , 灯 c h e s i n仃fi e l df a c l ng al l ki n d s ofa ttac k 胡d dest ru ction ofn el w o r k g r o wingd a y 勿day,we u rg e nt lyn e eda g oodd et e ction 即p ro a c b tod d ec t i n g ai l ki n d s ofn e t w o r k a ” a c k 呱h h igh 翻e ct i o n rate a n d l o w fa l sep o s i t i ve rate , w h i c hp o s , 绍 s e s the abi l i t yofr 以 刀 gn让 in gnewa nd u nkn o wn abnor 叮 以 l a cti vit i e s . t h e p re se ntp a p e r b egin s w it h a n a 】 yzi ngt h e anal y si s ofcurrentt e c h noio gyids 朋dit st r e n d . t h e nitd o e sad e ep re s ea r c ho nidsb as i ng on d a t am i n i ng. c o n s ld ering t h echa ra ct er isticofn e t w o rkd 川 a,we p r o posean l n c r e m e n ta l fast h e u r l st icc lu st e ri ng 川g o ri t h mfo r mi x edd a ta( fhc a m)】 n “ e m e n t a l f l l c a mi s an u nsup ervis ed al gor it h m. w hi ch ca nfa s t r 以 刀 g o l z ethe norma 】 or abn o rma l 碱iv iti esoft he n e t w 0 rkan dposses s the b as icab il ity ofr e co gnl z i 吧 n ew a n d u nkno, n l abn o 而 a l a c t i v it ies. f ir st , t he p aperi nt ro duces the re le v a n t t h e o ri eso f ids , h asm a d e th o ro u g h ana ly si s oft 比c u r r e n t st at i0 n oft hetech n o io gyofids . oth e 户 胃 l s e , it di 别 5 哭 s some m e a s u r e w hi c h h o wtoe v a lu ate t he戈 “ hoo l o gyofms s eco 碱 iti nt ro duces t heb a s i c conc叩t o f d a t a m i n i n g.so me conun o 川 y u se d d a t a 而ni ngm e t b ods , a n d it s p ro sp ect inthe fu t u re . w 七 e mphasi zeo n t hea nal y si s o f clust eringana l y s i s a i g o rit h ma n d f h c a m p o i nto u t t h e l a c k o f f h c a ma l gorith m, 即d p ro posethe m et h odo f r e d u c in g it s co m p l e x it y o f ti me. f i n al ly,we p ro posea n d i m p l e m e ntt hei nt ru si ond etect i o n ap p ro a c h b as edo n a in c re 毗nta1 f h c a m. it can reco gni zethe 汕normalacti v it iesrapid lya n d e x a c t 珍11 al soll a s th e abil itvof八 x 泊 卯l z ingnew and u nkn o 场 叽abn o r 叮 以 1 叭iv iti cs we hav e m ade exa m i n at i o n a n d p r o v e d it tob e 五 ne. t he “ ia l nc h a r a 以e r i st ica nd inn o v a t i o noft he r 尸 , 户 , r c hi s bel o w: ( 1 ) a c c o r d i 眼tothe iso m eris mc h a r a c t 丽st i c oft h e n e 幻 刀 o rkd at a 喊 讹 。 姆 b l e ab s tr a c t t h e al g o r it h mtob e abl e t oproc e s s i s o m e r i s md at a b yu s i ng geo m e t 印d is t a n ce measurel 1 1 e 1 h 0 dto valu eattributes anddifferenti at ionmeasure m e t hodto c h a r a c t er attri b ut e s se p a r a t el 犷 ( 2 ) i m p r o v i n gthe 朴p e r fo r m a nce offhc a m , r e d u c i铭 t he a 】g o rit h m , 5 co 哪l e x it y o f t i m e , e n ha n c i ngth e rate o f m ak i 唱c l u ster s d i st i nctl丫 ( 3 ) w 七 p ro p o s e andi m p le m e ntt h e int ru s io n d et e c t io n 即p ro ac h u n su p e rv i s e di n cremen t a i f h c a m. llc an fa st代 沁 0 9 11 仪et h e n o m之 1 b a s ed o n明 o rabn o n 刀 a l a 以i v it i es of t h e andpos s e s st he b a s i cabi l it yof reco g n i z ing n e w a n d abnon n a ! a c t i v i t i es k 盯叭 劝 rds : ids ; d ata mi n i n g ; c l u steri 呢a n a 】 y s i s ; f h c a m; i n c r e m e nt alf h c a m ni 学位论文独创性声明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。 据我所知, 除了 文中 特别加以 标注和致谢的 地方外,论文中 不包含 其 他人已 经发 表或撰写过的研究 成果, 也 不包含为获得 南昌大李 或 其他教 育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示谢意。 学 位 论 文 作 者 签 名 (手 写 ) : 郁 薇 签 字 日 期 :回年 月 肠日 学位论文版权使用授权书 本 学 位 论 文 作 者 完 全了 解渔 鱼 鑫 匕 有 关 保 留、 使 用 学 位 论 文 的 规 定 , 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅 和借阅。 本人 授权南昌大学可以 将学位论文的全 部或部 分内容 编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 仅冤门|. ,沁日 声叱 学 位 论 文 作 者 签 名( 手 写 ) :郭 夜 签 字 日 期 :哟年 月/ 日 导师签名 ( 手写) : 签 字 日 期 :问年 月 学 位 论 文 作 者 毕 业 后 去 向 :产 鹅乐 莞 辛 工作单位: 通讯地址: 书 高 跋 勺东 兔 乃 仃 电话: 第1 章 引言 第 1 章引言 1 . 1课题背景 随着网络应用范围的不断扩大,对网络的各类攻击与破坏也与日俱增。个 人电脑和网络上的存储数据都可能遭到不同程度的 破坏,使得数据的安全性和 用户的利益受到了严重的威胁,如何保障网 络的安全己 成为关注热点。 面临网络攻击手段不断增多,并且破坏性和隐蔽性也越来越强, 这就要求 ids 具有更强大的检测和防护功能,由 静态的安全模型逐渐过渡到动态的安全 模型。目前ids 主要是基于经验积累或简单模式匹配方法,缺乏理论完备性和 智能分析手段,只能发现模式规定的、已 知的入侵行为,难以自 动发现新的入 侵行为。因 此,设计开发出 一个有效性、适用性和 扩展性强的 入侵检测方法ll 势在必行。 基于数据挖掘技术的入侵检测是入侵检测技术的发展趋势之一。数据挖掘 技术具备良 好的自 适应性和实用性,在传统入侵检测技术基础上利用数据挖掘 技术,分析检测引擎提交的审计数据, 从中自 动产生精确的适用的检测模型, 发现未知的入侵行为,来提高ids 的有效性、适用性、扩展性。 目 前, 国内 外己 有不少研究机构正在从事数据挖掘在入侵检测方面的 研究。 从研究成果来看,大多处于理论阶段,真正实现这样一套系统的不多见,主要 是c o lu mbia u 垃 ve r sit y 的wenk e l 浦 思 研究 组 和u n m的s tephanie f o n e 跳 研究 组。 理论上的 研究主要有: el eazare skin 等在入侵检测框架和入侵检测模型生成方 面作了大量工作, 提出 一种无 监督的异常入侵检测几 何框架即1 ; 卢勇等进行了 基于 数据挖掘的入侵检测系统框架间的 研究; 乔 瑞提出一种基于优化自 组织聚 类 神 经网 络的 入 侵 检 测方 法 181 ; 陈 蒋 著 等 提出 一 种 新 型 的自 适 应 入 侵 检 测系 统 的 研制 191 ; 张玉芳 等 提出 一 种异常 挖掘技 术在入 侵 检测中 的 应用 110 】 ;另 外还 有 一 些学者开 展了 将聚类分 析算 法应用于入 侵检测中 的 研究工作 111 一 均 。 总之,数据挖掘技术应用于入侵检测系统的基本原理和方法尚 未得到充分 的研究,因此,本课题的研究具有一定的理论价值和实用价值。 第1 章 引言 l z课题来源 本课题来源于导 师主持的 课题“ 通信网 综合化集中维护系统” 。 为了 使该系 统能在一个安全可靠的网 络环境下运行工作,需要采用入侵检测技术来检测和 防范网 络攻击。本课 题主要 研究内 容是, 提出一种增量式f h c a m算法 ( 面向 混合类型数据的增量式快 速启发式聚类算法) 并应用于入侵检测系统中, 使其 能快速识别网络中的正常 行为和异常行为,并具备自 动识别新的异常行为的能 力,属于应用与理论结合研究的课题。 l 3课题意义 本课题的研究旨 在针对当前入侵检测技术存在的不足进行深入研究, 提出 了 将一种增量式f h c a m算法 ( 面向 混合类型数据的增量式 快速启发 式聚类算 法)应用于入侵检测系统中。本研究课题具有如下主要意义: ( 1) 国内 对基于数 据挖掘的入侵检测技术的研究工作是近几年才刚起步, 大多都是基于理论上的研究,因此本课题具有较强的前沿性。 ( 2 ) 本课题提出一种基于增量式r i c a m的入侵检测方法, 能快速的生成 和更新行为 特征库。 它依据 “ 变则更新”的设计方 法,只对需改变的量进行计 算, 避免了 重复计算, 提高了 聚类速度。 因此本课题的研究具有一定的创新性。 (3) 所提出的入侵检测方法从输入数据到生成聚类, 然后自 动地对这些聚 类进行正常行为和异常行为的划分,并能使用这些聚类对未知行为分类,从而 判定其是否为异常行为。该方法不需要人工对训练数据标类,能够允许训练数 据中 包含少量的入侵数据, 具 有一定的容噪性。因 此它在入侵检测领域中 应有 广泛的应用前景。 l 4主要工作 此课题研究过程中,本人完成的主要工作包括: ( 1)开展对入侵检测技术和聚类分析挖掘技术的 理论研究, 重点研究如何 将聚类分析挖掘技术与入侵检测技术相结合。 ( 2 ) 深入分析现有聚类分析算法, 结合网络领域知识的特点选用f h c a m 第 1 章 引言 算法,在他人基础上进行二次开发,对算法进行改进,自 行设计数据结构并编 程实现。 ( 3)搭 建 模 拟 环 境 进行 测 试。 从网 上 获 取kdd cup 99数 据集, 从 中 筛 选 出一部分攻击数据和正常数据作为数据源。实现异构数据集的标准化处理,最 后将预处理后的 数据作为聚类算法的输入 进行测试。 ( 4 )统计分析测试结果,对所提出的算法进行评价。 l s论文组织 本文章节安排如下: 第一章:引言 介绍了课题背景、课题来源、课题意义,并 简单介绍了 基于数据挖掘的入 侵检测技术及其国内外研究现状,以及本人所完成的主要工作。 第二章:入侵检测技术概述 详细介绍了入侵检测技术的相关理论,对入侵检测技术的现状作了 较深入 的分析。另外还讨论了评测入侵检测技术的一些测度。 第三章:聚类分析挖掘技术原理 介绍了 数据挖掘技术的相关理论,着重分析了 聚类分析技术, 对各聚类算 法进行比较分析,并引入了曰i c a m算法。 第四章:基于增量f h c a m入侵检测方法的设计与实现 首先,介绍f h c a m算法思想,分析其所具有的优缺点,针对其不足之处 提出了改进方案。其次,从具体实现的角度, 给出了算法的数据结构设计和主 要功能的实现,最后,给出了有关测试方案、测试结果及对测试结果的讨论。 第五章:总结与展望 本章对课题所做的研究工作进行总结,指出了某些不足及待完善的地方。 第2 章 入侵检测技术概述 第2 章 入侵检测技术概述 2 . 1入侵检测系统的基本概念 入侵检测是 对网 络、系 统的 运行状态进行监视, 发现各种攻击企图、 攻击 行为或者攻击结果,以 保证系统资源的 机密性、完整性与可用性。入侵检测系 统被定义为从多种计算机系统及网络中 搜集信息,在从这些信息中分析入侵及 误用特征; 其中入侵指由 系 统外部发起的攻击; 误用指由 系统内 部发 起的 攻击 气 所有的ids 的本质都是基于分析一系列离散的、按先后顺序发生的事件,这些 事件用于误用模式进行匹配,入侵检测源都是连接的记录,他们反映了 特定的 操作, 间 接反 映了 运转 状 态1161。 ids 一 般包 括三部 分: 信息的 搜集 和预处 理、 入侵检测分析引擎以及响应和恢复系统。 2. l i系统的分类 按获得原始数据的方法可以将入侵检测系统分为基于网络的入侵检测和基 于主机的入侵检测系统。 ( 1) 基于主机的入侵检测系统 通常, 基于主 机的ids 可以监视系统、 事件和window n t下的安全记录以 及u n i x环境下的系统记录。当文件发生变化时, ids 将新的记录条目与 攻击 标记相比 较,看它们是否匹配。如果匹配,系统就会向管理员 报警并向别的目 标报告。 尽管基干 主 机的入侵检测系统不如基于网络的入侵检测系统快捷,但它确 实具 有基于 网 络的系统无法比 拟的 优点。 这些优点 包括1 飞 1)性能价格比高。 在主机数量较少的情况下, 这种方法的性能价格比可能 更高。 2 ) 更加细腻。 这种方法可以很容易地监测一些活动, 如对敏感文件、 目 录、 程序或端口的存取,而这些活动很难在基于网络地系统中被发现。 兀 冷 c199 9 年3 月发布的“ 入侵检测及其评估介绍” 给出的定义。 第2 章 入侵检测技术概述 3 ) 视野集中。 一旦入侵者得到了一个主机的用户名和口 令, 基于主机的代 理是最有可能区分正常的活动和非法的活动的。 4 )易于用户剪裁。每一个主机有其自己 的代理,当 然用户裁剪更方便了。 5 )较少的主机。基于主机的方法有时不需要增加专门的硬件平台。 6) 对网络流量不敏感。 用代理的方式一般不会因为网 络流量的增加而丢掉 对网络行为的监视。 7)适用于 被加 密的以 及交换的 环境。 基于主 机的 入 侵 检 测系 统安装在 所需 的重要主机上,在交换的环境中具有更高的能见 度. 不过,基于主机的入侵检测系统也有较多的弱点:它要安装在需要保护的 设备上,这会降低应用系统的效率,也会带来一些额外的安全问 题; 它依赖于 服务器固有的日志与监视能力;全面部署主机入侵检测系统代价较大;它只监 视自身的主机,根本不检测网络上的情况,对入侵行为的分析的工作量将随着 主机数目 增加而增加。 ( 2 )基于网络的入侵检测系统 基于网络入侵检测系统使用原始网络数据包作为数据源。基于网络的ids 通常利用一个运行在随机模式下网络的适配器来实时监视并分析通过网络的所 有通信业务。它的攻击辨识模块通常适用四种常用技术来识别:模式、表达式 或字节匹配;频率或穿越闽值;次要事件的相关性;统计学意义上的非常规现 象检测。一旦检测到了攻击行为,ids的响应模块就提供多种选项以通知、报 警并对攻击采取响应的反应。反应因产品而异,但通常都包括通知管理员、中 断连接,并且为证据收集而做的会话记录。 基于网络的ids 有许多仅靠基于主机的入侵检测无法提供的功能, 它具有 以 下 主 要 优 点 11 飞 1) 侦测速度快。它通常能在微秒或秒级发现问题。 2 ) 隐蔽性好。 一个网络上的监测器不像一个主机那样显眼和易被存取, 因 而也不那么容易遭受攻击。它不运行其他的应用程序,不提供网络服务, 可以 不响应其他计算机,因此可以做到比较安全。 3 ) 视野更宽。 它甚至可以在网络边缘上, 即攻击者还没能接入网络时就被 发现并制止。 4 )需要较少的监视器。由于使用一个监测器就可以 保护一个共享的网段, 所以不需要很多的监测器。 第2 章 入侵检测技术概述 5 ) 攻击者不易转换证据。 基于网络的ids 使用正在发生的网络通讯进行实 时攻击的检测, 所以攻击者无法转移证据。 被捕获的数据不仅包括攻击的方法, 而且还包括可识别黑客身份和对其进行起诉的消息。 6 ) 操作系统无关性。 基于网络的ids 作为安全监测资源, 与主机的操作系 统无关。 7 )占 用资源少。在被保护的设备上不用占任何资源。 根据数据分析方 法( 检测方法) 的不同, 可以 将入侵检 测系统分为两类118 1: ( 1) 异常检测模型 这种模型的特点是首先总结正常操作应该具有的特征,在得出正常操作的 模型之后, 对后续的操作进行监视。一旦发现偏离正常统计学意义上的操作模 式,立即进行报警。由于 这种方法是基于正常操作的,通常正 常操作模型是历 史记录得来的, 所以 经常不能包含所有的 用户正 常模型,因 此误检率比 较高。 ( 2 )误用检测模型 这种模型的 特点是收集非正常操作也就是入侵行为的特征。建立相关的特 征库, 在后续的检测过程中, 将收集到的数据与特征库中的特征代码进行比较。 得出是否入侵的结论所以几乎没有误警。但是,由于这种检测是基于非正常的 操作模型,如果出现了非正常操作集中没有包括的攻击,误用检测就无能为力 了,这就造成了漏警。 另 外,根据数据分析发生的时间不同,可以分为脱机分析和联机分析;根 据系统各个模式的方式不同,可以分为集中式和分布式两种。 2. 1 .2系统通用模型 入侵检测系统的通用模型如图2 . 1 119 10 第2 章 入侵检测技术概述 图2 . 1 入侵检测系统的通用模型 因为异常检测和误用检测两种方法各有优劣,所以比较完整的ids 应该是 两者的结合体。入侵检测的第一步是信息收集,检测成功与否依赖于信息的可 靠性、正确性和实时性。入侵检测利用的数据一般来自以下几个数据源:主机 系统信息、网络信息和其他安全产品产生的审计记录和通知消息等。为了提供 检测结果的准确性, 数据源在提交数据之前需要预处理, 去掉无用和干扰数据。 对于误用检测,需要为模式匹配机准备好入侵的签名库,或称模式库,目前关 于入侵模式的提取和编制还没有统一的标准,一般都由 有经验的安全技术人员 手工完成;而对于异常检测则首先利用收集的数据,采取一定的统计方 法建立 相应的系统剖析模型,作为系统正常运行的参考基准,这个过程由系统的剖 析 引擎完成,而异常检测器则不断地计算相应统计量的变化情况, 一旦系统偏移 参考基准超过许可范围就认为系统发生异常。 较好的ids 都应具有周到、完备 的响应和恢复机制,以便必要时采取果断措施,终止入侵行为, 启动灾难恢复 系统,力争将损失减少到最少。各个部分工作时产生的所有记录都应存入系统 的审计数据库中,方便系统管理员进一步研究和解决问 题,另外准确的时钟也 是保障系统正常工作的前提。 2. i j 主要性能 一个成功的入侵检测系统至少要满足以 下五个主要性能11 飞 ( 1 )实时性 第 2章入侵检测技术概述 如果 攻击或者攻击的企图能 尽快的 被发现, 这就使得有可 能查找 出攻击者 的 位置,阻 止进一步的攻 击活动, 有可能把破坏 控制在最小限 度,并 能够记录 下攻击者 攻击过程的全部网 络活动,并 可作为证 据回放。实时 入侵检测可以避 免常规 情况 下, 管理员通 过的 对系 统日 志进行审计以 查找入 侵者或入侵行为 线 索时的种种不 便与 技术上的限制。 ( 2 )可扩展性 一个已 经建立的入侵 检测系统必须能够保证在 新的攻击 类型出 现时,可以 通过某种机 制在无需对入 侵检测系 统本身 进行改 动的 情况下,使 系统能够检测 到新的攻击行为。并且在入侵检测系统的整体功能设计上,也必须建立一种可 以 扩展的结 构,以 便系统结 构本身能够适应未来 可能出 现的 扩展要求。 ( 3 )适应性 入侵检 测系统必须能 够适用于多 种不同的环 境,比 如高速大 容量计算机网 络环境,并且 在系统环境发生改 变,比 如增加环 境中 的计算 机系统数量,改 变 计算机系统类型时,入侵检测系统应当依然能够不作改变正常工作。适应性也 包括入侵检 测系统本身对 其宿主 平台的 适应性,即: 跨平台工 作的能 力,适 应 其宿主平台软、硬件配置的各种不同情况。 (4)安 全性与 可用性 入侵检 测系 统必须尽 可能的完善与 健壮, 不 能向 其宿主计 算机系统以及其 所属的计算 机环境中 引入新的安 全隐 患。 并且入 侵检测系统 应该在设 计和实现 中 ,应该能 够有针对性的考虑几 种可以 预见的, 对应于该入侵 检测系统的类型 与 工作原理的 攻击威胁, 及其 相应的 抵御方法。 确保该 入侵 检测系 统的安全性 与可用性。 ( 5 )有效性 能够证明 根据某一设计所建 立的入 侵检测系 统是切 实有效的。 即: 对于攻 击事件的错报与漏报能够控制在一定范围内。 2. 2 数据源分析 从上节对入 侵检测系统的通 用模型( 图2 . 1)介绍中, 我们 可以了 解数据的 提 取模块的功能和 效率直接影响到ids 系统的性能。 如何选择正 确的数据源, 如 何进行合适并高 效的 预处理, 是数据 提取模块乃至整 个入侵检 测系 统需首要 第2 章入侵检测技术概述 解决的问题。 2. 2. 1主机数据源 基于 主 机的 数 据 源 主 要 包括 两 种 类 型, 即 操 作系 统 审 计 记 录 和系 统日 志 119 】 : ( 1)操作系统审计记录: 它是由专门的操作系统机制产生的系统事件记录。 这些审计记录用于反映系统活动的信息集合,按照时间顺序组织成一个或多个 审计文件。每个审计文件记录描述了一次单独的系统事件。当系统中的用户采 取动作或调用进程时,引起相应的系统调用或命令执行,此时审计系统就会产 生对应的审计记录。每一条审计记录又包含了 若千个审计标记,分别用于描述 审计记录的不同的域. ( 2 ) 系统日 志: 它是由系统程序产生的用于记录系统或应用程序事件的文 件,通常以文本文件的方式存放。 从系统调用的角度来看, 获取安全审计数据具备的优点有:检测的针对性 强,准确率高;与操作系统结合紧密;适合与 检测复杂攻击模式。 但由于 依赖 于本机的操作系统,所有只能检测针对本机的 攻击,不适合检测基于网 络协议 的攻击。 2. 2. 2网络数据源 网络数据是目 前商业入侵检测系统最为通用的信息来源。网络数据源是通 过网络数据流在网络中传播时,采用特殊的数据提取技术,收集网络中传输数 据得到的。 网络数据源通常具有的优点119 是: ( 1)适用于 检测基于网络的攻击行为。 主要是利用网络协议本身和网络协 议具体实现中的漏洞进行攻击的手段。 ( 2 ) 应用范围广, 扩展性好。 通过网络数据结合高层协议解析, 可以 恢复 几乎所有的网络协议访问记录。 然而,由于网络数据源本身的缺陷,也存在不足:对网络中传输数据流进 行实时监测, 针对每个数据包进行协议解析和模式匹配会消 耗大量的系统资 源; 不能检测本地攻击:检测复杂攻击的准确率低。 第2 章入侵检测技术概述 2. 2. 3数据源选取 从以上对主机数据源和网络数据源的分析,它们各有优势,又各有不足。 两者在各自 所擅长的 检测领域上存在着互补 性。 因此, 最佳的安全审计数据处 理方案应该是综合这两方面的审计数据源,最大限度地提高对网络及主机系统 的信息收集,为实现准确、高效的入侵检测提供保障。 值得一提的是,本课题是针对网络环境下的入侵检测方法的研究,因此在 考虑选用数据源时,采用基于网 络的安全审计数据是来源于美国国防部高级研 究机会署 ( d a r p a ) 在1 9 99年提出的 用于入侵检测系 统评估的 数据集。 。 这个 数据集包括了四千九百多万条连接记录,其中包含了多种常见的攻击,在评估 入侵检测性能方面具有一定的权威性。 k d d c up99数据集中 含有的 入 侵 数据 可为4 大 类 !201, 分别 是: ( 1 ) 0 0 5 (de n i a l o f s e rviee ) 攻 击 d o s 攻击就是利用合理的 服务请求来占 用过多的 服务资源, 从而使合法用 户无法得到服 务。 例如b 郎 k 、 s n l u rf, ne p tu ne、 t ea r d m p 等 攻击。 ( 2 ) u z r ( u 哭 r tor o o t ) 攻击 uzr攻击指的是只有普通权限的用户通过系统的漏洞来获得系统的根权限 的 行为。 例如buffer- o v 翻ow、p erl、 r oo t k it 等 攻击。 ( 3 ) r z l ( rem ot e t o local) 攻击 rzl 攻击指的是攻击者通过网 络登录到一台 他没有用户账号的 机器上,然 后 利用系 统的 漏 洞来获得 这台 机器的 存 取权限的 行为 。 例如ff p 二 w r ite、 sp y 、 gues 吵as swd 等 攻击。 ( 4 )p r o b ing攻击 p r o b ing攻击指的是攻击者扫描网络上的计算机来搜集其信息或发现己 知 的系统 漏洞。 例如satan、 po rt sweep、 i p swee p 等 攻 击。 在k d dc up9 9 数据集中, 对于提供的每一个完整的tcp 连接会话都 被认 为是一个连接记录, 每个u d p 包和ich 1 p 包也被认为是一个连接记录。 每条连 接记录都包括以 下4 类属性集【20 1: ( 1)基 本属 性集。 一 些 基本属 性 ( 例如 协 议类型、 传 送的 字 节数等 ) . ( 2 )内容属性集。利用领域知识扩展的一些属性( 例如登录失败的次数、 k d d c u r 9 9 数 据 集可 从加p 纳 飞 己 改 ics“ l 曰 口 姻 助 臼 幼 面 孵引 记 山 u p 9 9 址 耐网 站上 下 载 第2 章入侵检测技术概述 是否成功登陆等) 。 ( 3 ) 流量属性集。 即基于时间的与网络流最相关的属性。 这类属性又分为 两种集合,一种为sa砒 h o st属性集,即在过去2 秒钟之内与当前连接具有相 同目 标主机的 连接中, 有关协议行为、 服务等的一些统计信息。 另 外一种为s ame 5 翻 ce, 即在过去2 秒钟之内 与当 前连接具 有相同 服务的 连接中 一些统计信息。 例如在过去2 秒钟连接到同一个服务的连接数目 。 (4) 主 机流量 属性集。 即 基于 主 机的与网 络 流 量 相关的 属 性, 这类属 性是 为了 发现慢速扫描而设的属性,获 取的办 法是统计在过去的1 00个连接中的一 些统计特性,如过去1 0 0 个连接中与当前连接具有相同目的主机的 连接数、与 当前连接具有相同服务的连接所占 的百分比等。 其中 基本属性是每条 连接信息 固 有的 属 性, 而 其 他三种属 性是wenk e l ee 等人采用数据挖掘的方法, 通过正常模式和入侵模式比较,提取出 来的与入侵 检测相关的属性。 这四类属性共有41种连续的和离散的特征属性, 其中有7 个 属性是离散型的变量,其余是连续型的数字变量。这些属性的归属和所属的数 据类型的详细信息可参见表2 1 1201. 其中5 代表字符型特征属性, c 代表数值型 特征属性。 表2 . i k d dc u 只 珍数据集特征属性表 基本属性类内部属性类流量属性类主机流量属性类 h 以: cc o u n t : c山th 胎tc o u o 1 : c 第2 章 入 侵检测技术概述 下面将给出k d dc u 甲 99数据集中与 表中 特征属性集对应2 条数据记录样 本 ( 其中 最后一个特征属性为cl as s 用来标识攻击类型): 0 , t c p , f t p 一a t a , sf, 3 3 4 , 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 1 , 1 , 0 . 0 0 , 0 . 0 0 , 0 . 0 0 , 0 . 0 0 , 1 . 0 0 , 00 0 , 0 . 0 0 , 2 5 5 , 5 1 , 0 . 2 0 , 0 . 0 3 , 0 . 2 0 , 0 . 0 0 , 0 . 0 0 , 0 . 0 0 , 0 . 0 0 , 0 . 0 0 , war e z c l i e n t . 0 , i c 叩, e c 几1 , s f , 1 0 3 2 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 5 1 1 , 5 1 1 , 0 . 0 0 , 0 . 0 0 , 0 . 0 0 , 0 0 0 , 1 . o b , 0 . 0 0 , 0 . 0 0 , 2 5 5 , 2 5 5 , 1 . 0 0 , 0 . 0 0 , 1 . 0 0 , 0 . 0 0 。 0 . 0 0 , 0 . 0 0 , 0 . 0 0 , 0 . 0 0 . s mur f . 2. 3入侵检测方法的评测 入侵检测的两个主要评价标准是检测率和误检率。检测率是指正确检测到 的入侵行为数目占 所有入侵行为数目 的百分比:误检率是指将正常行为错误检 测为入侵行为数目占所有正常行为数目 的百分比。 在分析入侵检测方法时,应重点考虑检测的有效性和效率。有效性研究检 测机制的检测准确度和报警的可信度。效率则从检测机制的处理数据的速度的 角 度来考虑。下面从检测方法的 有效性和效率的角度考虑,对检测性能以 及影 响检测性能的因素进行分析和讨论。 为了 能够最大限度地最快地把系统中的正常行为和异常行为区分开来, 这 就涉及检测算法的选择。 如果不能够精确地识别正常行为( 或入侵行为) , 那么 就必然会出现各种误报的情况。如果把正常行为误报为异常行为,这种情况就 被称为误报。如果对于部分异常行为不能识别,这种情况就称为漏报。显然, 过多的 误报会降低报警的可 信度, 漏报危害则更大。 因此,设计一个好的入侵检测算法,不仅要尽可能地提高检测率,而且要 尽可能地降低误报率,提高报警的可信度。 2. 4入侵检测技术 2. 4. 1传统的入侵检测技术 传统的检测方法主要有简单模式匹配、统计检测与专家系统119 气 第2 章 入侵检测技术概述 ( 1) 简单模式匹配 该方法对已知的攻击或入侵的方式做出确定的描述, 形成相应的事件模式。 当被审计的事件与已 知的入侵事件模式相匹配时,即报替.这种方法的特点是 原理简单、 扩展性好、 检测效率高、可以实时检测,但只能 适用于比 较简单的 攻击方式,并且误报率高。 ( 2 ) 统计检测 该方 法常用于异常检测,首先 给系统对象创建 一个统计描 述, 统计正常使 用时的一些测量属性 ( 如访问次数、 操作失败次数和延时等) , 然后测量属性的 平均值和偏差将被用来与网络、系统的行为进行比较,任何观察 值在正常值范 围之外时,就认为有入侵发生。该检测方法能发现大量的系统本身和安全管理 过程中存在的问 题,为提高系统安全性和保证管理的高效性提供帮助。但是, 由于大多数统计分析系统是以 批处理的方式对审计记录进行分析的,不能提供 对入侵行为的实时检测和自 动响应的功能。 (3)专家系统 该方法是针对有特征入侵行为。所谓的规则,即是知识,不同的系统与设 置具有不同的规则,且规则之间往往无通用性。专家系统的建立依赖于知识库 的完备性,知识库的完备性又取决于审计记录的完备性与实时性。入侵的特征 抽取与表达,是入侵检测专家系统的关键。在系统实现中,将有关入侵的知识 转化为i f-then 结构 ( 也可以是复合结构) ,条件部分为入侵特征,t h e n 部分是 系统防范措施。运用专家系统防范有特征入侵行为的有效性完全取决于专家系 统知识库的完备性。 2. 4. 2入俊检测新技术 以上介绍了误用检测和异常检测所使用的一些传统检测技术,在近期入侵 检测系统的发展过程中, 研究人员提出了 一些新的入侵检测技术, 提供了 一种 有别于传统入侵检测视角的技术层次,如 神经网 络、 免疫系统、 基因算法、 基 于代理的检测、数据挖掘等。 ( 1) 神经网 络121 1 神经网络是一种无参量化的分析技术,使用自 适应学习技术来提取异常行 为的特征,需要对训练数据集进行学习以得出正常的行为模式,并且要求保证 第2 章 入侵检测技术概述 训练数据的 纯洁性, 即不 包含任何入侵或异常的 用户行为。 它的处理分两个阶 段。第一个阶段的目 的是构 造入侵分析模型的检测器,使用代表用户行为的历 史数据进行训练,完成网 络的 构建和组装;第二阶段则是入侵分析模型的实际 运作阶段,网络接收输入的事 件数据,与参考的历史行为相比较,判断出两者 的相似度或偏离度。 神经网 络所具有的优势是:不使用固定的系统属性集来定义用户行为,因 此属 性的 选 择是无关 的; 对 所 选择的 系 统 度量不 要求 满 足某 种统 计分 布条 件, 因此具备了非量化统计分析的优点。但是,在很多情况下,由于系统趋向于形 成不稳定的网络结构,不能从训练数据中学习到特定的知识。另外,神经网络 对判断为异常的事件不会提供任何解释或说明信息。 (2) 免 疫系统1221 免疫系统最基本也是最重要的能力是识别“ 自 勿非自 我” ,它能够识别哪 些组织是属于正常机体的,不属于正常的就认为是异常。与其他异常检测系统 相类似,需要在系统的训练阶段建立起反映正常行为的知识库。定义的模式是 以系统进程为中心,在实际检测过程中,收集各个特权进程所产生的系统调用 序列,与正常的行为模式相比较,偏离了正常模式的系统进程被认为是出现了 异常。 免疫系统具有分层保护、分布式检测、独立性和能够检测未知异常行为的 特性。 “ 自 我” 识别是一项功能强大而且很有发展前途的技术。 尽管如此, 但它 采用技术复杂但性能可靠,同时计算量非常庞大的数据建模技术来建立正常行 为模型,对系统检测性能的提高并不明显。而且,对于某些不涉及到特权进程 的使用的攻击类型不能通过它检测出来。 ( 3 ) 基因算法12 3 1 基因算法是进化算法的一种,引入了 对达尔文在进化论中提出的自 然选择 的概念对系统进行优化。入侵检测的过程可以抽象为:为审计事件记录定义一 种向 量表示形 式,这种向 量或者 对应于攻击行为, 或者代表正常行为。 通过 对 所定义向量进行的测试, 提出改进的向量表示形式,不断重复这个过程,直到 得到令人满意的结果为止。 基因 算法应用到异常检测中, 对实际攻击的平均检测达到了众 9 9 6 , 而误报 率仅为。 加4 , 运行效率同 样可以 接受。 它所存在的不足是: 它对某些入侵检测 系统的规则是无法产生和处理的;它无法检测多 种同时发生的攻击行为:它王 第2 章 入侵检测技术概述 法在审计记录中实现准确的定位,因此审计结果中不包含时间 信息。 (4) 基 于纯e nt的 检测 【2 月 所谓age nt , 实际上可以 看作是在网 络中 执行某项特定监视任务的 软件实 体。它通常以自治的方式在目 标主机上运行,本身只受操作系统的控制,不受 其 他 进 程的 影 响. a g e nt的 独 立 性 和自 治 性为 系 统 提 供了 良 好的 扩展 性 和 发 展 潜力。 一个age nt可以 简单到仅 仅对 一段时间 之内 某条 命 令被 调用的 次 数 进行 计 数,也 可以 复 杂到 利用数学模型 对特定 应用环 境中 的 人 侵做出 判断。 基于a g ent 的检测技术具有的优点: 系统结构的扩展非常方便: 多个a g ent 可以 被设置到一个a g ent 组,每个a g ent 组执行各自 简单的功能,并最终融合 成复杂的a gent组的检测结果。 它的不足是当 它发现入侵之后到监视器收到入 侵报告之间有延时问题。 ( 5) 数据挖掘间 数据挖掘是从大量冗余信息的数据中提取出尽可能多的隐藏的安全信息, 抽象出有利于进行判断和比较的特征模型。根据这些特征模型,可以由计算机 利用相应的算法判断出当前网络行为的性质。 它将入侵检测看成是一种数据分 析过程,着眼与对海量的安全审计数据应用于数据挖掘算法,以一种自 动和系 统的手段建立一套自 适应的、具备良好扩展性的入侵检测系统。 基于以上对入侵检测技术的介绍,我们可以看到,对于任何一种技术都既 有优势也有缺陷,从简单的字符串匹配到复杂的神经网络、 基因算法,都有各 自的适用范围。 经过综合分析比较,本课题将选用数据挖掘技术应用于入侵检测,分析检 测引擎提交的审计数据以识别入侵行为。其原因如下: ( 1)数据挖掘技术发展日 趋成熟, 现阶段有很多的研究成果, 它具备良 好 的自 适应性和实用性。 ( 2 ) 数据挖掘能自 动的从数 据中 提取肉 眼难以 发 现的网 络行为 模式, 减少 了人的参与,减轻了入侵检测分析员的负担,同时也提高了检测的准确性。 ( 3 ) 数据挖掘可以自 动的对数据进行预处理, 抽取数据有用部分, 有效减 少数据处理量, 对于网络环境中海量数据流量的入侵检测,这一点至关重要。 ( 4 ) 应用数据挖掘方法的入侵检测系统不是基于预定义的检测模型, 所以 自 适应能力强,可以有效的检测新攻击和己知攻击的变种. 第3 章聚类分析挖掘技术原 理 第3 章聚类分析挖掘技术原理 3 . 1数据挖掘技术概述 3. l i致据挖掘的定义 从技术角度, 一般可将数据挖掘理解为从大量的、不完全的、有噪声的、 模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、 但 又是潜在有用的信息和知识的过程。从商业角度看,数据挖掘是一种新的商业 信息处理技术, 其主要特点是对商业数据库中的大量业务数据进行抽取、 转换、 分析和其他模型化处理, 从中提取辅助商业决策的关键性数据。因此, 可将数 据 挖 掘描述为 125 1 : 按 企业既定 业目 标, 对大量 的 企业 数 据进行探 索和 分析, 揭 示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方 法。 3. 1 .2数据挖掘的功能 在信息检索和信息处理中,数据挖掘的功能用于指定数据挖掘任务中要找 的 模式类型, 包括发现概念、 类描述、 关联、 分类、预 测、聚类、 趋势分析、 偏差分 析 和 类似性分 析 等。 在实际应用中 , 数据挖掘 任务 模式 分为 哪 气 ( 1)分 类模式: 就是找出 一个类别的概念描述, 它代表了 这类数据的整体 信息,即该 类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模 式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用 于规则描述和预测。 ( 2 )回归模式: 它的函数定义与分类模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论