论数据挖掘在计算机入侵检测中的应用.doc_第1页
论数据挖掘在计算机入侵检测中的应用.doc_第2页
论数据挖掘在计算机入侵检测中的应用.doc_第3页
论数据挖掘在计算机入侵检测中的应用.doc_第4页
论数据挖掘在计算机入侵检测中的应用.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论数据挖掘在计算机入侵检测中的应用摘要:随着计算机网络技术的迅速发展,网络在为人们提供服务的同时,也带来了很多负面影响。入侵检测就是用于解决这个问题的。为了提高入侵检测的速度和力度,可将数据挖掘技术应用到入侵检测系统当中。并且也可将数据挖掘技术与其他领域多种先进技术相结合,应用到入侵检测系统中。本文系统地介绍了应用于入侵检测系统的数据挖掘技术及可与数据挖掘相结合的一些先进技术。关键词:入侵检测,数据挖掘(DM)1 引言 在信息时代高速前进的今天,网络安全问题也伴随着信息高速发展变得层出不穷。有许多人学习各种攻击的手法通过丰富的网络资源去攻击别人,通过一个简单的操作去试试自己的破坏行为,所以目前最紧要的就是能够找到有效的检测方法去阻止这些攻击行为,这也是目前计算机行业的一个发展趋势。对于网络安全的保护手段随着攻击的不断变化而变化,这些手段我们大都耳熟能详,像VPN、防火墙等。但是这仅限于静态方法,并不能真正意义上的有效保护。而入侵检测(Intrusion Detection)技术才是时下最有用的对(网络)系统的运行状态进行监视的系统,它的主要作用就是发现层出不穷的攻击企图、攻击行为与攻击结果,通过技术手段去保证系统资源的机密性、完整性与可用性不外泄,最终形成一种动态的有效地防护保护策略,它的优秀就在于能够对网络安全实施全程监控、攻击与反攻击等动态保护,可以说是填补了静态防护策略的空白。滥用检测和异常检测是传统的入侵检测技术。滥用检测的主要作用在于分析不同的网络攻击,通过寻找网络攻击的相同点,及时有效的防范已知攻击,减少防范误差,但是这种方法的弊端在与智能检测到现有的攻击,不能时时起到检测作用;但是对于异常检测通来说,它的工作原理是通过检测,发现当下活动是否与历史正常活动有区别来检测是否有入侵攻击,它的优点在于能够检测到未知攻击,但是它的缺点也能够显而易见发现就是会产生误报以及漏报危险。所以在进行网络入侵检测系统监察时,就必须把查漏工作做得位,需要运用数据挖掘技术直接进行网络入侵的检测,对于这个系统来说,基础的模型是以Snort入侵检测系统为主的,使网络入侵检测系统凌驾于数据挖掘之上。2网络入侵检测系统中针对数据挖掘的应用 在网络入侵检测系统(IDS)中,通过数据挖掘技术的应用,起到时时方法的作用。它的工作原理在于把挖掘审计数据作为防范的依据,在数据中找到入侵行为,简单而有效的这么一种检测规则。需要审计的数据主要是通过预先处理和有时间的审计记录进行监控。通过审计每一条记录找到被攻击的特征。例如,一个标准的审计日志文件需要有连接状态、目的IP地址、源IP地址和服务类型等特征。对于网络入侵检测来说,挖掘审计数据是重中之重,它能够使检测到入侵的精确性和可用性提高。在网络入侵检测中,一般常用关联性分析、分类、序列分析等作为挖掘数据的方法。 (1)关联性分析主要通过网络安全与网络入侵的关联,也就说需要把最小支持度与最小确信度它们之间的关联在数据库中进行分析提取,就需要推侧记录集合和Item之间相接合的运用,重中之重就是需要把Item的关联性找出来。通过把信任度和支持度之间找到关联在推导出关联规则。关联分析主要从以往正常的事务集W中找到数据间的关联规则,也就是说对于审计记录中差异字段的内在关联,需要关联规则的信用度和支持度要比用户已经设定好的支持度和信任度高,比如像用户在购买了电脑后需要在购买杀毒软件。 (2)分类的主要目的在于把数据项与预定义的分类集找到,通过分类器的作用,找到决策树与规则。在网络入侵检测中,分类的应用体现在通过审计数据的集合,在移交到用户和程序进行检测,利用分类法和分类器,找出数据正常或异常之处。规则学习问题是分类算法的首要解决任务。 (3)序列分析主要的作用是构建序列模式,主要的原理要是找到审计事件中经常出现的时间序列。因为找到经常出现的时间序列可以直接运用到入侵检测模型当中来。比如,在进行数据审计的时候,因为网络有了拒绝服务,能够通过该模型迅速检测到,进一步发现攻击DOS行为。所以该模型的工作依据就是在特定的时间段内有针对性检测主机和服务。3 基于数据挖掘的入侵检测系统模型 依据网络入侵检测系统在挖掘数据速度方面与准确度方面的缺点,入侵检测系统模型如果要建立,就必须把数据挖掘技术作为基础。下图1就是该模型结构。31 模块功能简述 (1)数据收集是嗅探器的功能,它的作用就是信息提取的窗口。(2)解码与分析是解码器的功能所在,最终目的是需要提取有用的数据包。最后再把这些个数据包意义储存到数据结构当中去 (3)链接数据和网络数据的转换成为有用的数据格式是数据预处理的基础步骤,数据预处理还需要要对数据进行过滤和噪声的消除以及运用已知手段对检测到的已知攻击进行处理。并且用数据预处理这种检测方法把已知攻击和规则库的攻击手段相对比,直接找到攻击手段并对其产生警报效果。 (4)利用关联分析以及序列分析找到新的攻击是异常分析器的功能,异常分析器的另外一个作用就是把这些个新的攻击行为送往规则库。 (5)日志记录需要进行保存,保存方式有2种,一种是对未知网络能够行日常作业的的数据包信息进行保存,另外一种就是对未知攻击行为的数据包信息进行保存。 (6)保存攻击行为,为网络入侵检测提供依据是规则库的主要功能。 (7)当异常分析器在分析数据时,发现异常攻击行为,就需要报警器通过一个警报装置向网络管理发出警报。而警报装置又是多种多样的,大致有E-mail、控制台报警等。 (8)因为在日志中的有各种数据记录可以进行比对,就需要特征提取器进行提取数据进行关联规则分析。 32 异常分析器 异常分析器是通过聚类分析模型来实现它的实际功能的。K-Means算法又是聚类分析算法的基础,所以说K-means算法是异常分析器的基础也不为过。K-means算法是聚类算法的一种基础算法,它的评价指标在于距离作为相似性作为依据,也就是说对象之间距离越近相似度就越大。 1)把K个文档从N个文档随即提取并作为核心。2)然后对其余的文档进行测量,与核心文档的距离,同时要把文档归类到最近核心的一类。 3)在计算个各类的核心。 4)最后重复计算2,3步直到找到新的核心与原核心相等或小于原值时,即可结束。图2为异常分析的流程。异常分析器在检测步骤如下:(1) 标准化分析网络或主机数据包;(2)把主类链表中聚类中心与计算网络数据包进行对比照相似度;(3)如果对比后发现相似度等于或小于聚类的半径,就表示这个网络数据包是正常的;(4) 如果对比后发现相似度大于聚类的半径,就表示这个网络数据包是异常的;33 特征提取器 特征提取器在日志中的有各种数据记录可以进行比对,需要进行提取数据进行关联规则分析,找到异常数据包进行分析,找到网络异常里的攻击手段,最终产生异常数据包关联规则集,并在规则库中添加。Apriori算法是特征提取器的主要工作流程,其工作流程如图3所示。特征提取器可以划分为数据预处理与关。 (1)数据预处理,因为在特征提取器中会有大量日志记录需要过滤提取,但并不是所用的数据都能在关联分析当中起到作用。数据的选取,是需要提取一些Snort数据进行研究,这些数据大都包括SrcIP、SrcPort、DstIP和DstPort等。(2) 联规则的产生则需要特定的支持度在数据中找到有用的频繁项集。如果把支持度定的较低,就可以找到较多的频繁项集;如果把支持度定的相对较高,就会找到少量的频繁项集。频繁项集才是产生关联规则的最后步骤,如果在检测时,置信度这个定的低了,就会使准确度降低但会产生关联规则的数目变多;相反地把置信度定得越高,准确度高了但是产生的关联规则数目就会减少34 系统模型特点 在对这个模型进行应用时,可以把预先已知的攻击规则存入,来降低在开始运作初期的漏报误报,同时也可以不进行预先存入。对于这个系统模型来讲,它的适应性较强,但也不可避免在使用初期有误报的可能。这个系统模型的长处就在于:(1)攻击行为的检测会运用数据挖掘技术;(2)这种挖掘方法的优点在于能够把数据监测的和真实数据相近;(3)适应性强,在特定的环境下能够快速的更新规则库;(4)对于已知的和未知的攻击行为都可以检测。 4 系统测试Snort这个软件利用好了既省钱又方便,它对于小型TCP/IP网可以直接检测,能够明锐的发现攻击行为。它的运行模式也适用于各种系统上,安装方便使用方法简单。把Snort作为研究对象来看,在关联规则方面能够保持Snort的系统工作原理,在实施与分析是更据代表性,能够快速的分析出数据库与时间之间的关联。 特定的环境下进行试验:19216812是IP地址,PIV18G,内存512 M,操作系统为Windows XP是其主机配置;为了试验方便划分出三个分IP地址,分别为192168123,192168132,192168145作为三个分机。实验的步骤:随即利用Snort的功能把网络数据包的数据挑选出一组来,利用日志记录的方式对数据包进行有效的传输,利用3台分机进行测试不同攻击类型对主机产生的数据包分析。 异常分析器运用聚类分析算法中的K-Means算法。在实施以后可以得出,误检率依据阈值的而改变,他俩是成正比的。但是因为聚类半径也是影响误检率的一个因素,他俩之间的关系也是正比关系。另外,一个新的类型的攻击数据包在数目与阈值相同时,这个模型会自动认为其为正常数据包,所以在实验开始时,阈值确定的越小,误检率会越小。 特征提取器利用关联分析的Apriori算法,把阈值定在1000,支持度定在50,置信度定在100%,最后会形成以下3条攻击检测规则: alert tcp 192168123 2450-19216812 80(msg:”poli-cy:externalnet attempt to access 192.168.1.2”;classtype:at-temptesd-recon;) alert tcp 192168132 1850-19216812 21(msg:”poli-cy:extemalnet attempt to access 19216812”;classtype:at-tempted-recon;) alert tcp 192168145 2678-19216812 1080(msg:”policy:extemalnet attempt to access 192168.1.2”;classtype:at-tempted-reeon;) 最后实验结果表明,特征提取器最后依据异常日志的分析结果,该系统就能够把新类型的攻击规则检测到,同时使该系统具备以后检测该类型攻击的能力。5 结束语 在建造网络入侵检测系统模型中,需要运用到数据挖掘这一技术,因为该技术的最大优点就是能够处理数据包中的大量,使得网络入侵的检测更加快速,并且能够使该系统的效率和准确率大幅度提升。但是依据网络入侵检测系统的快速发展,但要想直接投入生产还不太实际,并且理论方面也不能很完善。所以这个系统的的问题,就要从实时性适应、正确检测率提高、误警率的减少等方面进行入手,并且运用完善的已有理论,最终把网络入侵检测系统进行完善并投入使用。参考文献1 张银奎,廖丽,宋俊等数据挖掘原理M北京:机械工业出版社,2003 : 93-1052 戴英侠,连一峰,王航等系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论