基于数据挖掘和特征选择的入侵检测模型_第1页
基于数据挖掘和特征选择的入侵检测模型_第2页
基于数据挖掘和特征选择的入侵检测模型_第3页
基于数据挖掘和特征选择的入侵检测模型_第4页
基于数据挖掘和特征选择的入侵检测模型_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、28卷第8期2011年8月微电子学与计算机microelectronics &com pu terv ol. 28 n o. 8a ug ust 2011收稿日期:2011-05-15;修回日期:2011-06-23基于数据挖掘和特征选择的入侵检测模型康世瑜(广西工业职业技术学院,广西南宁530003摘要:提出了一种基于sv m特征选择和c4. 5数据挖掘算法的高效入侵检 测 模型.通过使用该模 型对经过特 征提取后的攻击数据的训练学习,可以有效地识 别各种入侵,并提高检测速度.在经典的k dd 1999入侵检测数据集上的测试 说明:该数据挖掘模型能够高效地对攻 击模式进行训练学习,能够采用选

2、择的特 征正确有效地检测网络攻击.关键词:入侵检测;特征选择;c4. 5算法;支持向量机中图分类号:t p309文献标识码:a文章编号:1000-7180(2011 08-0074-03a network intrusion detection model based on data ming and feature selection schemeska ng shi yu(g uang xi vo cational &t echnical institute of industr y, nanning 530003, chinaabstract:t his paper pr oposes

3、a kind of intrusion detectio n model based on c4. 5data mining alg or ithm and sv m (cor relation based feature selectio n based feature selection mechanism, w hich can effectively detect sever al types o f attacks using the pr ocess o f feature selectio n and att ack feature tr aining. t he ex per

4、iment s on classic k dd 1999in tr usion dataset demo nst rate our mo del is accur ate and effective.key words:int rusion detectio n; feature selectio n; c4. 5alg or ithm; sv m (support vecto r m achines1引言入侵检测系统是当前网络安全领域的研究热点,在保障网络安全方面起着重要的作用1 2.由于传统的入侵检测技术存在着规则库难于管理、统计模型难以建立,以及较高的误报率和漏报率等诸多问题,制约了入侵

5、检测系统在实际应用中 的效果.并且,我们通过研究发现,提取和处理的特征 数目过多是导致当前网络入 侵检测系统速度下降的主要原因之一.特征和检测算法之间并不存在线性关系,当 特征数量超过一定限度时,会导致检测算法 性能变坏.实际上,有些特征没有包含 或者包含极少的系统状态信息,它们对检测结果几乎没有影响.所以使用特征选择 去除冗余特征,保留能够反映系统状态的重要特征是提高检测速度的一个有效方 法.在这种背景下,首先提出并实现了一个基于c4. 5数据挖掘算法的网络入侵检测系统.并且,采用基于svm (suppo rt vector m achines,支持向量 机的特征选择技术对它所使用的特征进行

6、选择和约简,以提高整个系统的性能.2 c4. 5数据挖掘算法quinlan提出的c4. 5算法3是当前的最著名 的分类算法之一,该算法可以分为两个阶段:树的生成和树 的剪枝.自顶向下的决策树的生成算法的关键性决策是对节点特征值的选择,选择不同的属性值会划分出不同的样本子集,从而影响决策树生长的快慢以及决策树结构的好坏,导致找到的规则信 息的优劣差异.c4. 5算法的属性选择的基础是基 于使生成的决策树中节点所含的信息嫡最小 ,所谓嫡在系统学上是表示事物的无 序度.不难理解嫡越小 则样本集合的无序性越小,也就是说样本集合内的第8期康世瑜:基于数据挖掘和特征选择的入侵检测模型属性越有顺序有规律,这

7、也正是分类所追求的目标.集合s的嫡的计算公式如下:info (s =- k j =1j |s |*log 2j |s |(1式中,什eq (c j , s表示集合s中属于类c j (k个可能类中的一个 的样本的数量.|s版示集合s中样本数量.上面的公式仅仅给出了一个子集的嫡的计算,如果按照某个属性进行分区后就涉及到若干个子集,需要对这些子集进行嫡的加权和的计算,公式如下:info f (t = n i=1i |t |*info (t i (2式中,t指按属性f进行分区后的集合,t i指 分区后集合中的某一个集合.|t i |表示在集合t i中样本 数量,|t |表示集合t中样 本数量.为了更加

8、明显 地比较不同集合的嫡的大小,需要计算分区前的集 合的嫡和 分区后的嫡的差(这个差被称做增益,增益大的就是决策树要选取的节点.公式如 下:gain (f =info (s -info f (t (3在第二阶段,算法通过计算信息增益率,对建立 的 树进行剪枝.信息增益率的计算公式如下,其中,v是该节点分枝数,s i是第i个节 点下的记录个数.就建模的计算复杂度而言,c4. 5算法也包含了建树 与剪枝两部 分,其时间复杂度为o(mn log n + o(n(log n 2 , n是训练样本 集中的样本数量, m是特征数量.ratio (a =i (s 1, s 2, , s v(4 3基于sv

9、m的特征选择模型支持向量机是由vapnik博士提出的基于统计 学习理论的一种新的模式识别技 术4.支持向量机 用于特征选择主要基于如下思想5:把已知1组n个d维的独 立同分布的训练样本x =(x i , y i |x i r d , y i -1,1, i =1,2, , n 通过非线性变换 h(映射到一个高维特征空间f .在此高维特征 空间中,构造最优性决策函数y (x =sgn ( h(x +b.是分类超平面的系数向量,b是分类阈值,应用lagrange乘子法,可 以表示为=ni=1i y i h(x i (5式中,i是lagrange乘子.如果y (x是正值,则x属 于正值的类; 如果y

10、 (x是负值,则x属于负值的类.y(,那么第i个特征对正值类的贡献大;如果是一个很 大的负值,则第i个特征 对负值类的贡献大;如果的值在零值左右偏移,则第i个特征没有很好的分类能力.一个对于特征的排序可以通过支持向量机的函数完成.4基于数据挖掘和特征选择的高效入侵检测模型依据本文第2节所述的c4. 5数据挖掘算法模型的特点,我们使用svm特征 选择方法,构建了一个高效的网络入侵检测系统,如图1所示.该系统的工作过程 如下:图1基于特征选择的高效入侵检测模型(1报文捕获引擎捕获所有流经系统监测网段的网络数据流;分析处理,提取出可以完备而准svm选择方法对特征空间进行(2特征选取模块对捕获到的网络

11、数据流进行 确代表该数据流的 特征向量,并采用本文所述的选择和约简,并将该特征向量提交给c4. 5数据挖掘算法分类引擎以作为c4. 5数据挖掘 算法分类引擎的输入向量;(3 c4. 5数据挖掘算法分类引擎对这一特征向量进行分析和处理,从而判别出是否为入侵行为.如果c4. 5数据挖掘算法分类引擎经过分析处理以后认为是一种攻击行为,则向用户发出警告信息;如果报警信息对于攻击样本库的完善和更新有 较大价值,比如发现了未知类型攻击行为,可以在用户参与下将该 次攻击事件加入 到训练数据里,以备c4. 5数据挖掘 算法分类引擎的再学习,这体现了 c4. 5数据挖 掘算法所具备的不断学习以识别更多类型攻击行

12、为的能力,也是c4. 5数据挖掘算法入侵检测系统相比于一 般的基于规则入侵检测系统的突出优势和亮点,对入侵检测系统的实际应用具有很大的价值.特别需要注意的是:c4. 5数据挖掘算法分类引75微电子学与计算机2011年的时间间隔根据攻击数据库的信息进行再训练,以适应不断变化 的攻击方式,能够较好地保证检测效率.5实验结果及分析为了验证我们提出的入侵监测系统的性能和效率,我们采用较为通用的kdd1999数据集6来进行测试.在实验前,我们对该数据集进行了预处理.首先,我们 对其进行了随机采样,得到了 120387条实验数据,这数据当中包含了四类攻击类 型以及正常数据(norm al类型;其次,我们采

13、用sv m的特征选择方法选择了 kdd 数据集中的 6个主要特征(sr c_by tes、dst _host_rerr or _rate、dst_byte、 dst _ ho st_srv_rerr or_rate ho t、 num .compromised 作为 c4. 5数据挖掘算法模型 的输入,并且将采用得来的 数据的其他属性进行了去除处理.在实验中,我们采用了十折交叉验证(ten fo ld cro ss validation的方法,测得该 c4. 5数据挖掘算 法模型检测攻击的正确识别率(true positiv e ,误报率(false positiv e以及漏报率(false

14、negative,并取其十次的平均值进行评价.在经典的weka机器学习框架下7,我们利用预处理后得到的训练样本对 c4. 5数据挖掘算法分类器进行了训练.然后使用训练得到的模型进行攻击识别, 得到如表1所示的实验结果.表1检测率实验结果 类型 正确率误报率 漏报率no rmal 95. 753. 251pr obe 99. 800. 20dos 10000u 2r 95. 893. 750. 36 r 2l 90. 785. 433. 79从表1的测试结果可以看出,对于训练过的攻 击类型,c4. 5数据挖掘算法具 有很高的识别率,而误报率和漏报率都很低.并且,由于kdd 1999数据集中包含

15、的dos和pro be攻击的种类以及 数据量都相对比较大,因而检测正确率较高,因 此c4. 5数据挖掘算法模型对于训练数据量充足的入侵检测下的应用应该是非常适合的.从表2中与传统入侵检测技术的比较结果可以 看出,相对于传统的入侵检测技 术而言,c4. 5数据挖掘算法以决策树的形式实现对攻击模式的记忆,能更好地满足入侵检测系统的实时性要求;在检测,法的检测效果优于传统的入侵检测系统, 具有很低 的漏报率和误报率;对于未知类型的攻击行为,c4. 5数据挖掘算法具备 一定的检测能力,在一定程度上克服了基于规则入侵检测系统只能检测已知攻击 行为的缺陷.表2对比实验结果ids类型检测率误报率神经网络95

16、. 731sv m 98. 280c4. 597. 390c4. 5+特征选择 99. 180. 56结束语本文研究的基于数据挖掘和特征选取的入侵检测模型还有待于在今后相关研 究工作中进行优化和性能提升,目前在实践过程中,还是存在着部分漏报和误报问 题,我们将在下一阶段的工作中针对 c4. 5算法和svm算法进行进一步地针对性 完善和优化.参考文献:1byko va m , ostermann s, t jaden b. detecting netw o rk int rusions via a statistica l analy sis o f netw or k packet char

17、acter istics c /pr oc. of the 33rd southeastern sy mp. on system t heor y. a thens, o h. ieee, 2001.骞丽丽,李卫, 管晓宏,等.一种基于网络的入侵检测系统的研究与实现j.微电子学与计算 机,2004, 21(6 : 63-65.3quinlan j r. c4. 5:p rog rams for machine lea rningm . san f rancisco :m o rg an k aufmann publishers, 1993. 4v apnik v n. t he nature

18、of stat istical learning theo ry r. n ew y or k:spring er-v erlag, 1995.5f ugate m , gattiker j r. a no maly detectio n enhanced classificatio n in computer int rusion detect ionclec ture n otes in co mputer science. ber lin, heidelber g, spr ing er-ver lag , 2002.6univer sity o f califo rnia. know ledge dis

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论