




已阅读5页,还剩63页未读, 继续免费阅读
(通信与信息系统专业论文)基于贝叶斯网络的事后审计技术研究与安全审计系统的实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于贝叶斯网络的事后审计技术研究与安全审计系统的实现摘要1安全审计系统的主要功能是对系统进行实时的安全监控和响应以及在事后对已发生的系统访问行为进行二次审计分析,找出系统受到的攻击和入侵。其中事后审计部分是保证系统安全性和完整性的最后一道防线,是本系统中的核心模块之一。本文最主要的研究内容是对整体安全审计系统进行设计构架以及对审计系统中的事后审计模块设计了一种适合于日志审计的贝叶斯网络算法。首先本文介绍了数据挖掘技术的一些分支,交代了数据挖掘各种技术的特性,然后又通过对安全审计系统的分析,提出了选择分类作为事后审计主要处理技术的原因。之后介绍了贝叶斯分类器的基本概念和背景知识,通过对几种常见的贝叶斯分类器的分析,得出了一种适用于事后审计的贝叶斯信念网络模型和适用于具体场景的贝叶斯信念网络算法。该算法需要先对日志信息进行预处理,分解成常见的系统调用,然后将这一系列日志数据联合成一串系统调用序列,之后1 资助项目:浙江省科技计划面向高可信网络的一体化安全服务系统研制”( n o 2 0 0 9 c 3 1 0 6 6 ) :浙江省科技计划“面向中小企事业单位应用的网络综合管理服务平台”( n o 2 0 0 8 c 2 1 0 9 3 ) 。i再构建一个合适的贝叶斯网络结构,在网络结构的基础上使用打分搜索算法对该序列打分。这种方法可以保证对系统日志分析的完备性,从一定程度上防止出现漏判的情况。之后本文介绍了安全审计系统的整体方案设计和具体实现,安全审计系统的最主要目的是通过收集、汇聚、分析、存储曰志,从而得到网络内部安全性、稳定性,预警黑客攻击、病毒感染以及网络中操作系统、网络设备的异常状态,满足用户对网络服务的安全需求。文中首先介绍了系统的方案设计,然后在方案设计的基础上分为实时审计和事后审计以及数据存储几个部分对系统实现进行了介绍。用关键词:安全审计,事后审计,数据挖掘,贝叶斯网络,系统调i i7 0 0 9 叭0 帆y 2 0p o s t - a u d i tb a s e do nb a y e s i a nn e t w o r kt e c h n o l o g yr e s e a r c ha n di m p l e 删t a t i o no fs e c u i u t yl o ga u d i ts y s t e ma b s t r a c tm a i nf u n c t i o no ft h es e c u r i t yl o ga u d i ts y s t e mi sr e a l - t i m es e c u r i t ym o n i t o r i n ga n ds e l fr e s p o n s ea f t e rt h ee v e n to c c u r r e da n dt h es y s t e ma c c e s sb e h a v i o ra n a l y s i so fas e c o n dt i m ea u d i tt of i n do u tt h ea t t a c k sa n di n v a s i o n so ft h es y s t e m t h ep o s t - a u d i tm o d u l ei st h ec e n t r a lm o d u l eo ft h es y s t e ma n dt h em a i np u r p o s ei st oe n s u r es y s t e ms e c u r i t ya n di n t e g r i t y t h ec o n t e n to ft h i sw o r ki st os t u d yt h eo v e r a l ls y s t e ma r c h i t e c t u r ea n dt h ed e s i g no fap o s t - a u d i ta l g o r i t h mb a s e do nb a y e s i a nn e t w o r k t h ef i r s tp a r td e s c r i b e st h eb r a n c h e so fd a t am i n i n gt e c h n o l o g y ,e x p l a i n e dt h ev a r i o u st e c h n i q u e so fd a t am i n i n gr e s o u r c e s ,a n dt h e nt h r o u g ht h ea n a l y s i so fs e c u r i t yl o ga u d i ts y s t e m ,d e s c r i b et h er e a s o no fw h ys e l e c tt h ec l a s s i f i e ra sm a i nt e c h n i c a lo ft h ep o s t 。a u d i tp r o c e s s t h e ni i ii n t r o d u c e dt h eb a s i cc o n c e p t sa n db a c k g r o u n dk n o w l e d g eo fb a y e s i a nc l a s s i f i e rb ya n a l y s i ss e v e r a lc o m m o nb a y e s i a nc l a s s i f i e r s ,i no r d e rt op r o p o s ea na p p r o p r i a t eb a y e s i a nb e l i e fn e t w o r km o d e la n da l g o r i t h ma p p l i e dt os p e c i f i cs c e n a r i o s t h ea l g o r i t h mn e e dt op r e - p r o c e s st h el o gi n f o r m a t i o n ,d i v i d e di n t oas e q u e n c eo fc o m m o ns y s t e mc a l l s ,a f t e rc o n s t r u c t i n gas u i t a b l eb a y e s i a nn e t w o r ks t r u c t u r ew ec a nu s i n gas e a r c ha l g o r i t h mt os c o r i n gt h es e q u e n c eb a s e do nt h en e t w o r ks t r u c t u r e t h i sm e t h o dc a ne n s u r et h ec o m p l e t e n e s so ft h el o ga n a l y s i ss y s t e ma n dp r e v e n tt h ef a i l u r eo ft h ea u d i t _ t h e l a s tp a r to ft h i sa r t i c l ed e s c r i b e st h ed e s i g na n da c h i e v eo ft h es e c u r i t yl o ga u d i ts y s t e m t h em a i np u r p o s eo fs e c u r i t yl o ga u d i ts y s t e mi st oc o l l e c t i o n ,a g g r e g a t i o n ,a n a l y s i s ,s t o r i n gl o g s ,i no r d e rt oa c h i e v ei n t e r n a ln e t w o r ks e c u r i t ya n ds t a b i l i t y , w a r n i n gh a c k e ra t t a c k s ,v i r u s e sa n dr e p o r tt h ea b n o r m a ls t a t eo fn e t w o r ko p e r a t i n gs y s t e m sa n dn e t w o r ke q u i p m e n t ,t om e e tt h en e e d so fn e t w o r ks e r v i c e ss e c u r i t y t h e nt h ea r t i c l ed e s c r i b e st h es y s t e md e s i g n ,a n db a s e do nt h ed e s i g nt h es y s t e mi m p l e m e n t a t i o no fr e a l t i m ea u d i ta n dp o s t - a u d i t ,a n dd a t as t o r a g ea r ed e s c r i b e d k e y w o r d s :s e c u r i t ya u d i t ;p o s t - a u d i t ;d a t am i n i n g ;b a y e s i a nn e t w o r k ;s y s t e mc a l l s1 1 研究背景和意义1 1 1 研究背景1 绪论现在互联网的网民们在利用互联网提供的资源的同时,互联网安全和个人信息安全问题变得越来越重要,针对网络和计算机系统的各类攻击事件也层出不穷。如何保障用户信息安全和互联网系统安全,防止系统被非法的黑客入侵和攻击等这一类问题是现在急需解决的当务之急。2 0 1 1 年上半年的c n n i c i l 】报告指出,现在国内总网民数为4 8 5 亿,其中2 1 7 亿以上的网民遇到过病毒或木马攻击,受到攻击的网民比率达到了4 4 7 ,其中1 2 1 亿网民有过账号或密码被盗经历,占2 4 9 ,比2 0 1 0 年增加了3 1 ;另外其中有3 8 8 0 万网民遇到过消费欺诈,占总数的8 。由于网络环境本身是复杂多变的,每一次系统升级或者软件升级可能就伴有着一些不为人知的系统漏洞,这些漏洞都可能成为黑客们入侵的后门,所以网络的迅速发展带来的除了方便的使用和更好的用户体验之外,还同时带来了各种各样的网络威胁。互联网的发展速度非常快,在这种快速发展之中电子商务类应用的发展尤为明显,因此很多黑客或者不法分子陆续将牟取不义之财的黑手伸向了互联网领域,这导致了最近几年网络安全威胁和诚信危机事件屡屡发生。虽然这些年来有关部门对网络安全问题的监察和管理力度越来越大,网络诚信进一步加强,但是整体局势依然比较严峻,存在的很多问题都是不容忽视的。在这样的整体发展趋势之下,现有的互联网大环境迫切需要一种能预防和阻止网络入侵,保护内部网络和用户主机安全的整体解决方案,出于对这一需求的考虑,安全审计这一技术发展也是日新月异的。安全审计是指在系统运行的过程中时刻监控系统的运行状态,实时地对被监控系统进行分析判断,主动解决一些在运行中发生的入侵或者其他类型的攻击行为,并且将监控到的状态实时推送给管理员或者系统用户。同时安全审计需要实现对已发生的攻击情况进行事后追求和追查,保证不会有一些隐蔽的未发现的攻l击行为产生。现有的网络服务器或者用户主机上,普遍都有很多日志系统来记录系统日志。日志是对系统上发生的事件进行记录所产生的文件,每一种不同的网络服务可能会产生各种不同的日志内容,但是这些日志内容的共同点就是所有的日志内容都是代表了系统在此时的一个整体状态。由于日志数据的这一些特性,现有的安全审计系统基本上都是从对日志数据内容的分析处理出发,对内部网络进行全面的管理和保护。在日志内容产生的同时对日志内容进行逐条分析,并且对日志中反映的一系列不同的状态产生不同的响应,这样的处理过程一般被称为实时审计;而将日志内容简单分析之后存储在数据库中,定期对日志数据进行整体分析处理,发掘这些日志中单条日志内容安全,但是用户此次访问中产生的日志序列为威胁的日志的过程,一般被称为事后审计。由于日志产生的速度很快,所以当系统运行了一定的时间之后,日志数据库中必然会有非常海量的日志信息。数据收集技术和数据存储技术的快速进步使得各组织机构都积累了海量的数据。然而与此同时,提取这些数据中的有用信息的难度非常高,如何提取这些信息成为了技术人员巨大的挑战。传统的数据分析技术和工具已经没办法处理这些数据,这样就需要开发一种新的方法来进行处理。在这样的需求之下,就产生了数据挖掘( d a t am i n i n g ) 技术【3 1 。数据挖掘技术是一种将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了很好的机会【5 l 。从基本任务角度来说,数据挖掘包含预测任务、描述任务这两大类任务。预测任务的具体目标是根据其他属性的值,预测出特定属性的值。描述任务的目标是导出可以概括数据中潜在的联系的模式【3 1 。1 1 2 安全审计系统研究现状目前随着用户安全市场需求的急剧增加,国内外一些研究机构和企业已经以安全审计为核心技术研制出一些相关产品,比如华为的s i m s 日志审计系统、网2神公司的s e c f o x l a s 日志审计系统、j o y s u c c e s s 的卓益达日志审计系统以及天融信的安全审计系统t o p a u d i t 等。这些日志审计系统的基本审计理念都是从日志内容出发,对网络内各种日志内容进行收集后分析出其中的入侵信息和攻击信息,下面简单的选取两个市场占有率比较高的系统来分析介绍下这些日志审计系统。华为的s i m s 系统通过代理或者s y s l o g 、s n m pt r a p 协议采集主机、应用系统、数据库和网络设备等的日志,进行分类、归并、过滤等处理,进行格式化和统一的存储,并提供日志的查询和分析报表功能。主要功能包括日志采集、日志存储处理、报表分析和系统管理。系统采用高可靠性的设备,能快速可靠地采集多种主机和应用系统、网络设备的日志信息,进行统一的存储、备份管理,可为客户统一收集整个企业网系统的日志信息;系统提供了完善的日志处理功能,能对日志进行过滤、归并、分类和格式化等处理,为客户方便的管理企业网系统的日志信息;系统提供了强大的日志分析报表功能,能为客户提供各种安全对象的日志量分布情况、进行日志的趋势分析等,为客户掌握系统的运行状况提供有力的帮助;系统提供日志监控的功能,能让客户监控关注的日志事件,及时了解系统的安全事件;系统提供强大的日志查询功能,如果出现信息泄密和违规事件,能提供相关日志证据1 2 j 。网神公司的s e c f o x l a s 系统提供统一日志监控、日志归一化与实时关联分析、集中日志存储、灵活的部署方式、可视化日志分析和快速响应等功能。s e c f o x - l a s 将企业以及组织的内部环境中部署的各类网络或安全设备、安全系统、主机操作系统、数据库以及各种应用系统的日志、事件、告警全部汇集起来,使得用户通过单一的管理控制台对i t 计算环境的安全信息( 日志) 进行统一监控。s e c f o x l a s 收集并归一化企业和组织中的所有安全日志和告警信息,然后通过智能事件关联分析引擎,帮助安全管理员实时进行日志分析,迅速识别安全事故,从而及时做出响应。日志归一化和实时关联分析是s e c f o x l a s 的核心,也是该系统区别于传统安全日志审计系统的最关键特征【4 】。这些安全审计系统已经具备了非常完善的实时审计功能,但是在某些方面仍然有待加强,首先这些日志的日志数据在网络中传输的时候多为明文,这样增加了系统被非法分子利用的危险,其次,这些系统对日志的处理都是线性的,也就是说这些系统对日志数据进行处理的时候都是以现有的规则内容为标准进行审计判断的,规则审计虽然审计的效率非常高,但是同时会带来规则数据库过于庞大的问题。这些系统中很少有涉及事后日志数据分析和挖掘的,部分系统虽然有一些简单的日志分析模块,但是分析功能单一,只能进行简单的日志分类和统计或者简单的关联分析,事后审计功能效率相对比较差。1 1 3 事后审计研究现状从上一节内容的分析中,我们知道现在的安全审计系统大多不存在或者只存在简单的事后审计功能,复杂环境下的系统日志审计涉及的面比较广泛,因此市场上没有专用的商业软件。但是一些专用于w e b 服务器系统的日志挖掘系统已经相对比较成熟,并有不断完善,功能不断增加的趋势。目前面向商业应用的w e b 日志挖掘软件主要都是一些国外的软件产品,比如w e bt r e n d s ,s u m m a r y ,a w s t a t s ,a n a l o g 等。国内成熟的w e b 日志挖掘软件相对较少,比如逆火w e b 日志分析工具等。上述这些日志挖掘分析系统专注于w e b 服务器以及访问的日志,通过分析此类日志得出用户使用方式和系统安全状态。但是对于一些系统日志的管理,这些软件就显得无能为力了。造成这一现状的主要原因是对于系统安全的事后审计技术涉及的面非常广泛,同时系统日志的种类繁多,要对这么大量的日志进行系统的分类并产生相应的规则是非常困难的。1 2 论文的主要工作及贡献事后审计技术相对于安全审计技术中的其他技术尚处于一个很不成熟的阶段。论文设计实现了一个基于日志的安全审计系统,基于贝叶斯网络的概念,提出了一种通过挖掘系统日志以发现隐藏的攻击事件进而寻找系统漏洞的事后审计算法。论文所研发的系统支持如下功能:1 系统在实时审计的基础上增加了主动响应规则的功能,当规则匹配后发现该条日志消息的来源不安全,系统会在第一时间将目标加入h o s t s d e n y 列表,等待用户进一步处理。42 系统支持将日志数据转化为c v s 的数据表格形式备份存储。3 系统在实时审计的基础上添加了完备的事后审计模块,用于对数据的进一步再处理,保障安全审计的整体过程误报率低。4 系统支持用户定义自己的规则树,用于实时审计。该项功能在事后审计发现实时审计未发现的安全隐患之后非常实用。5 系统支持自定义解码日志所用的解码器。当有新的日志格式需要系统来审计的时候,用户可以定义自己的解码器,用来对这些新日志进行分段解码。论文主要贡献:1 基于贝叶斯信念网络模型,提出了一种事后审计方法。该方法将数据挖掘技术和安全审计技术结合起来,从系统底层调用角度分析了产生的日志内容,通过对一系列调用序列的数据挖掘处理实现了系统的事后审计。2 设计并实现了一套安全审计系统,并将上述事后审计方法应用其中,实现了很高的审计准确率。1 3 论文的创新点论文原创性地提出将日志数据转化为通用的系统调用,提出了将单用户的操作转化为整个系统调用系列,然后利用贝叶斯信念网络模型对系统调用序列进行数据挖掘,与此同时,整个数据挖掘学习模型在学习的过程中不断地修正模型本身,训练集也将更加完善。1 4 论文的组织结构论文主要分析了安全审计技术中的事后审计技术,一般的事后审计技术都是从日志本身出发,对日志内容结构进行数据挖掘,在本文中提出了一种截然不同的做法。通过对系统底层调用的研究,本文提出了一种以系统调用序列为审计基础,通过贝叶斯网络技术对访问所用到的系统调用进行建模,用此模型对后续日志序列进行打分审计的算法,并将该算法运用到现有的安全审计系统之中。论文主体部分分为五章,五章内容简介如下:第一章是绪论,本章向读者介绍了安全审计系统的技术研究背景和现状,主5要讲述了数据挖掘技术在事后审计中的应用趋势和作用。同时,这一章还介绍了论文的整体研究内容和组织方式,便于读者对论文内容有一个基本了解。第二章的内容简单介绍了事后审计技术并对几种事后审计技术进行一定程度的分析比较。同时这一章还引入了数据挖掘技术的概念,提出了数据挖掘技术在事后审计技术中的应用前景,然后对数据挖掘技术进行了进一步分析,提出了众多数据挖掘技术中较适合事后审计的挖掘算法贝叶斯分类器。之后本章还对贝叶斯分类器进行了分析介绍,简单介绍了贝叶斯分类器的研究现状。第三章提出了本文的核心技术,一种面向事后审计的贝叶斯网络算法。本章内容首先简单介绍贝叶斯网络的工作原理,并分析了几种常用的贝叶斯分类器,然后在此基础上进一步提出了一种适合事后审计系统的日志简化分析方法和贝叶斯网络搜索构造方法,最后提出了算法的实现方法。第四章介绍了整个基于贝叶斯网络的审计系统,从系统需求分析和详细设计入手,介绍了安全审计系的几个主要模块:实时审计模块、事后审计模块、w e b前台和数据存储模块。本章详细描述了审计系统的审计和实现过程,将实时审计模块分部份一一解释其内部实现原理,同时对运用本文中核心技术而工作的事后审计模块也进行了运用性的介绍。其中w e b 前台和数据存储模块部分主要讲述了安全审计系统的冗余备份策略和对后台的配置管理过程,这一部分内容是用户直接可以应用和接触到的部分,同时也是整个安全审计系统健康稳定运行的基础。之后还对系统各项功能进行了简单测试,表明系统的可用性。第五章是总结和展望。本章主要对本文主体部分内容进行简单的总结,并对后续的开发和研究提供了一定的设想。62 事后审计技术和贝叶斯分类器事后审计技术是一种对海量日志数据进行二次处理,发现日志数据中隐藏威胁的一种知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 的过程,而数据挖掘技术正是现阶段在知识发现领域最热门的技术形式。通过将数据挖掘技术运用到事后审计模块中,我们解决了对日志数据进行建模分类的技术难点。2 1 1 事后审计及其目标事后审计的主要目标是发现安全日志中隐含的威胁信息,为了实现这一目标,首先分析一下网络攻击技术和方式。审计系统所审计的日志主要的来源是网络中的服务器及网络设备,对于这些设备来说,它们可以提供一种或者多种网络服务,不同的网络服务产生不同的日志信息。而同样的,不同的网络服务需要对外开放不同的网络端口,这使得网络攻击变成了可能,网络中的各种漏洞和管理失误都可能成为攻击者入侵的途径。对网络服务进行攻击的一般方法是,首先找出该服务器或者设备所开放的服务,然后根据相应的服务进行攻击。由于有些服务器上同时存在多种网络服务,而且这些服务很可能是共享数据区的,所以也不排除通过不同服务协同攻击服务器的可能性。从系统管理的角度来说,一台服务器应该只能提供一种服务,这样可以有效地防止攻击者的入侵。当前对网络进行攻击的主要方法有如下几种:1 ) 拒绝服务攻击拒绝服务攻击即攻击者想办法让目标机器停止提供服务,是黑客常用的攻击手段之一。造成这种攻击的方法主要有两种,一种是像系统或者服务发出大量的请求来严重消耗系统资源,另一种是发送非法的数据包进行攻击,致使系统无法处理或者处理数据包产生错误而崩溃。第一种方法短时间内会有一定的效果,比较常见的攻击方式就是s y n 泛洪,该方法的原理就是利用t c p 三次握手的过程,不停的向服务器发送s y n 包来请求建立连接,服务器接到s y n 包后创建一个t c p 连接并发送a c k + s y n 数据包至客户端,等待客户端的下一个a c k ,如果此时客户端不发送对应的a c k ,服务器将一直等待,攻击者利用这种特性不断7发送s y n 数据包导致服务器资源消耗,从而达到攻击的目的。这类型的攻击方式容易被察觉,并在攻击停止后服务器自动恢复,因此危害相对较小。而后一种攻击方式在使用极少的资源达到攻击的目的,不易被察觉,而且系统无法恢复,所以造成的损失非常大。在b i n d 服务器从9 0 升级到9 2 时曾出现过一个大b u g ,当服务器收到特定的数据包后,服务器会自动关闭服务,攻击者利用该漏洞导致大量域名无法被解析,服务器不能连接,损失惨重。2 ) 信息窃取信息窃取特指利用服务程序的弱点或者配置错误获得服务器上的机密信息。这一类攻击的目标在于计算机中存储的信息。3 ) 内容更改内容更改最常见的例子是网站中网页内容的篡改。黑客可以攻击后台网络服务器,获得权限后更改网页中的内容。这种形式的攻击会导致组织形象严重受损,而且可能进一步的危害登录该网站的用户。4 ) 特权获取特权获取就是获取服务器中的特权,黑客获取特权之后,可以获得服务器中的机密信息和对服务器数据进行更改。为了获得特权,攻击者一般会使用网络服务器的漏洞或者使用蛮力破解密码。比如一种简单的程序欺骗就可以达到获取特权的作用,黑客将修改过的s u 程序放在u s r b i n 中,当用户调用s u 命令修改权限时,实际调用的是有问题的s u ,黑客通过此程序欺骗用户获得特权账号。在常见的安全审计流程中,日志数据经过实时的规则匹配后就被分类成安全日志和不安全日志两种,这个匹配过程主要是通过对预定义的审计规则进行正则匹配。规则匹配的核心就是要构建一个完备的规则树,用于对每一条日志进行匹配分析。在论文安全日志审计系统及其快速匹配机制的研究与实现中有详细介绍规则树的构建和规则匹配的详细技术细节。但是就算构建了完备的规则树,对日志进行了第一轮的实时审计,在这些被标注为安全的日志内容中,我们仍然是存疑的,并不排除存在一些未知的没有定义相应规则的入侵或者误用信息隐藏于其中。为了应对这样的一些隐藏在正常数据中的异常数据,我们引入了事后审计的概念。事后审计的最主要目标是在系统实时处理完毕后,二次处理数据,发现数据8中隐藏的信息,用户得到这些隐藏信息后可以相对应的改良系统的安全性或者防范未来可能产生的安全隐患。本文设计的安全审计系统包括实时审计和事后审计两大模块,其中实时审计主要进行收集到日志后的规则匹配,而事后审计负责处理规则匹配为安全的日志,挖掘出其中的一些信息。事后审计主要包含的模块有:数据挖掘模块、异常处理模块。系统的运行流程如图2 1 安全审计流程所示:图2 - 1 安全审计流程事后审计部分正是流程中右侧当日志实时审计结果为正常时所走的审计过程,通过对日志的事后审计挖掘,可以得出单次用户操作的一系列日志信息所隐含的特殊攻击信息,这些信息可能在一条单条的日志之中无法很好的展现出来,但是通过事后审计技术,安全审计系统可以更好的处理整体的日志信息,使审计获得更高的准确率。92 2 数据挖掘在事后审计中的应用数据挖掘( d a t am i n i n g ,d m ) 有以下这些不同的定义:1 从数据中提取出隐含的过去未知的有价值的潜在信息。2 一门从大量数据或者数据库中提取有用信息的科学。不管从定义的哪个角度去认识数据挖掘,数据挖掘都可以考虑成是一种数据分析,数据提取的核心技术引。2 2 1 数据挖掘基本概念和任务我们称将传统的数据分析和大量数据处理所用的复杂算法相结合的技术为数据挖掘技术,数据挖掘技术在一些大家熟知的行业已经有了很广泛的应用:在商务应用中,商家通过收集用户的一些消费信息和挑选商品的过程中对商品关注时间的长短信息,然后对这些信息进行进一步挖掘,从而更好的理解顾客需求,做出更加明智的商务决策。在医学、科学和工程技术界,研究者通过对往年研究所积累的大量数据的分析和挖掘,发现数据中隐含的信息和关联,对一些新技术的发现至关重要。数据挖掘是数据库内知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 中不可缺少的一部分,而所谓的l d 就是将原始数据转化为有用信息的整个过程【3 l 。k d d 的过程如下图2 2 数据库中知识发现过程所示:图2 _ 2 数据库中知识发现过程从图中可知,数据库知识发现主要分三个过程:( 一) 数据预处理:预处理就是将输入数据转换成适合分析的形式数据的过程,这个过程一般包括特征选择、维归约、规范化、选择数据子集这几个步骤。( 二) 数据挖掘:第二步数据挖掘就是对预处理过的数据进行分析,得出一些隐含信息或者做出决策的过程。这一步是整个k d d 过程的核心。( 三) 后处理:后处理就是讲已经经过数据挖掘的数据进行应用,使用到各个1 0方面的过程。这一过程一般使用的方法有模式过滤、可视化处理、模式表示等。数据挖掘的任务主要分为两大类,一类是预测任务,另一类是描述任务。执行数据挖掘任务的普遍流程如下图:成功获得分析结果上,、(结束3图2 3 数据挖掘流程在这个任务流程中,数据处理过程正是本文要研究的关键,数据处理过程决定了算法的具体实施和最后分析结果的可靠性。数据挖掘根据所要完成的任务不同,主要分为四个大类的技术,分别是分类、聚类分析、关联分析、异常检测。( 一) 分类:分类的任务是确定对象属于哪个预定义的目标类。分类是一种根据输入数据集建立模型的系统方法,建立分类模型的方法如下图:一图2 - 4 建立分类模型的方法训练集是已知的数据记录,验证数据集是分类未知的数据,整个分类过程就是一个归纳、学习、验证的流程。( - - ) 聚类分析:聚类分析的主要目标是发现相关紧密的观测值组群,使得与属于不同组群的观测值相比,属于同一组群的观测值相互之间尽可能类似。聚类分析将数据分组的办法是使用在数据中发现的描述对象和关系的信息将数据分组 9 1 。聚类也是一种分类,但是他和分类最大的区别是聚类的分类目标是未知的,我们通过聚类来找出不属于现有分组的类别。( 三) 关联分析:关联分析主要用来发现隐藏在大型数据集中的有意义的联系。关联可以分为简单关联、时序关联和因果关联等。具体到实际生活中,比如当年沃尔玛发现购买啤酒的用户9 0 也购买了尿布,这个就是简单关联。又比如工商银行股票连续三体上涨而招商银行股票不下跌,那么第三天兴业银行的股票上涨的可能性为8 5 ,这个是时序关联。采用关联发进行数据挖掘,挖掘结果所得的强关联规则可理解性较强,而且挖掘算法较简单。( 四) 异常检测:异常检测的主要任务是识别特征显著不同于别的数据的观测值,这样的观测值被称作离群点。异常检测算法的主要目标是发现真正的异常点,避免错误的将正常的对象标注为异常点。1 2安全审计系统所审计的数据为日志,对于日志数据的审计,本文需要实现的是能够将一次访问产生的所有日志作为一个实体进行审计,得出日志属于什么类型。通过对数据挖掘技术的简单分析,本文选择了分类技术作为日志审计处理的主要技术。2 2 2 数据挖掘中的分类技术在数据挖掘技术中,分类的定义如下:分类任务就是通过学习得到一个目标函数g ,把每个属性集a 映射到一个预先定义的类标号b 。分类知识发现的目的是构造一个能够描述数据概念集的模型,然后运用这个模型对新的数据进行分类。构造分类模型的方法主要有基于统计学的贝叶斯方法、基于范例的推理方法、最近邻接法以及神经网络、粗糙集方法、决策树等。1 ) 贝叶斯学习贝叶斯学习方法基于概率统计理论,具有稳固的数学基础,一直是分类知识发现研究的重要方法。在构造分类模型时,贝叶斯方法以概率表示各种形式的不确定性,基于贝叶斯定理预测分类样本属于某个特定类别的可能性,能够很好地处理不确定性问题。贝叶斯信念网络可以将直观的知识与概率论有机结合,不仅能处理定量信息而且可以处理定性信息,可以处理含有数值型和非数值型信息的数据,具有对不精确数值的鲁棒性【1 4 】。“2 ) 最近邻接法最近邻接分类法是一种消极学习方法,它记住整个训练数据,仅当测试实例的属性和某个训练样例完全匹配时才进行分类,当有些测试记录不能被分类的时候,最近邻接分类器会找出和测试数据属性相对接近的所有训练样集。最近邻接法有很多变化方式,这些变化方式的共同之处是都要先存放全部训练样本或者部分训练样本。3 ) 支持向量机:支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是根据统计学理论提出的,。基于核函数方法和结构风险最小化原则基础的方法。这种方法通过从训练样本中寻找能够构造间隔最大的最优分类超平面以得到用来分类的支持向量。支持向量的优点主要有以下几个方面:1 3 s v m 学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发。现目标函数的全局最小值。s v m 通过最大化决策边界的边缘来控制模型的能力,避免学习过度。 s v m 通过引入核技术和非线性变换,支持向量机将实际问题转换到高维特征空间,巧妙地解决了维数问题,s v m 的算法复杂度与样本维数无关,适合应用于高维数据集。4 ) 决策树决策树是一种以实例为基础的逼近离散值函数的归纳学习方法,其学习过程是一个从一组没有次序和规则的实例中推理出以决策树形式表示的分类规则的过程。决策树中采用自顶向下的递归方式将样本从根节点排序到表示实例所属分类的叶子节点。5 ) 神经网络神经网络方法模拟人脑神经学习技能,建立一组赋权连接的输入输出单元。神经网络的学习阶段就是网络的权值调整过程,其学习方法的类型有:确定性学习、随机学习和模糊学习。神经网络具有良好的对任意函数的准确逼近能力和非线性映射能力。6 ) 粗糙集方法粗糙集理论基于给定训练数据内部的等价类的建立,将其应用于分类可以发现不精确数据或者噪声数据内在的结构联系。粗糙集方法的知识表示是产生式规则,其中一个重要的概念是属性约简,即寻找可以保持原始属性集合相同精度条件下将样本分类的最小属性集合,去除多余属性后可以得到强壮且简洁的分类规则;规则获取是粗糙集方法的另一个主要应用领域,具体方法为删除冗余属性值,使决策表中的每一个实例对应一条更易于被证实和解释的分类规则。每种分类方法都有各自的优缺点:贝叶斯分类的时间复杂度很低,同时,贝叶斯分类器受样本变化的影响较小,学习速度快。贝叶斯分类器初试规则构造比较费力,但是当规则确定之后,添加一新的变量十分容易。而且贝叶斯分类可以对模糊数据有很完备的处理。最近邻接法的存储机制使得在学习过程中需要更大的存储空间,当训练集的样本数量多、维数高时,分类时间将急剧增加。1 4s v m 虽然在样本量比较小型时性能优异,但由于s v m 训练过程本身是求解二次规划问题,所以算法收敛性比较难以实现,虽然现在有很多的优秀的算法来解决这个问题,但是算法的增多同时也增加了s v m 的计算复杂度。决策树学习的优点是对噪声数据有很好的健壮性,但是决策树方法是基于内存的,所以无法有效的解决大型数据集学习的问题。神经网络可以获得很高的分类精确度,同时对噪声也有很好的健壮性,但是神经网络所表示的知识可理解性很差,数据学习训练过程中需要依靠操作者确定大量参数,学习速度很慢。粗糙集方法在处理不精确、不一致、不完整和冗余信息时具备优良的数据推理性能,但由于粗糙集只是简单刻画边界区域,因此不能识别属性间不相容性和概率规则,只能获得精确规则,同时对噪声数据的处理能力较差。综上所述,由于本文中事后审计技术的特殊前提,即数据集庞大,数据集变动频繁,同时需处理数据属于模糊数据,庞大的数据集中同时存在很多噪声数据i 、本文选择贝叶斯分类法中的贝叶斯网络改进模型进行研究。2 3 基于贝叶斯定理的数据挖掘分类技术本节内容首先介绍了数据挖掘技术中的分类器,然后引入贝叶斯定理,介绍了贝叶斯分类器的概念,之后分析了几种常见的贝叶斯分类器技术。2 3 1 贝叶斯定理在分类中的应用在很多应用中,属性级和类变量之间的关系是不确定的。例如在我们的安全审计系统中,尽管有些日志内容从内容本身分类来说是属于安全的,但是在实际应用中很可能隐含着某些安全隐患【1 2 】。例如前段时间危害比较广泛的新浪微博x s s 攻击,攻击者将一段脚本代码注入到服务器上,用户访问新浪微博消息上的某个u r l ,这个u r l 把远端的j s代码注入进来,由于现在很多网站采取了使用c o o k i e 记住用户名密码的登录方式,攻击这可以通过这段j s 代码使用被攻击者的用户名发布一些不安全的信息,欺骗其他用户。从日志角度来说,不管是用户正常点击链接发布消息还是点击通过x s s 攻击产生的链接后自动发布微博信息所产生的日志解码后的内容基本上1 5是一致的,简单的f p 决策树不能确定此操作的安全与否。此次攻击的关键决定性分析因素就是用户发布的信息中存在一个非法的短链接,普通的日志分析过程一般不会审计用户发布的具体信息数据,因此在产生问题的时候问题没有被及时阻止。产生这些问题的原因主要是对于此类操作,影响分类的决定性因素没有包含在分析中。首先介绍下贝叶斯定理,它是一种把类的先验知识和从数据中收集的新证据相结合的统计原理。概率论中对于贝叶斯定理的基本定义如下:假设x ,y 是一对随机变量,他们的联合概率p ( x 玛r ) 是指x 取值x且y 取值y 的概率,条件概率是指一随机变量在另一随机变量取值已知的情况下取某一特定值的概率。贝叶斯定理的公式是:p ( y i x ) = p ( x i i y i ) p 广0 0设x 表示属性集,y 表示类变量。如果类变量和属性之间的关系不确定,那么我们可以把x 和y 看作随机变量,用p ( x i y ) 以概率的方式捕捉二者之间的关系。这个条件概率又称为y 的后验概率,与之相对的,p ( y ) 称为y 的先验概率。在数据训练阶段,我们要根据从训练阶段收集的数据,对x 和y 的每一个组合学习后验概率。在训练集数量很大时,我们根据比较y 值的先验概率p ( ,对数据进行分类【2 5 1 。根据这个理论,在处理类似新浪微博x s s 漏洞之类的情况之时,属性集x是w e b 日志的各个字段,典型的w e b 日志包含的字段有:源i p ,时间,操作,状态码,目的地址,客户端软件等,下面是一条常见的w e b 日志:1 0 2 0 0 1 3 8 一一【0 9 j u 屹0 1 1 :1 7 :2 2 :0 2 + 0 8 0 0 】”g e t p h p s y s i n f o x m l p h ph t t p 1 1 ”2 0 0h t t p :1 0 2 0 0 2 3 3 p h p s y s i n f o i n d e x p h p ? d i s p = d y n a m i c ”m o z i l l a 5 0 ( w i n d o w sn t5 1 ) a p p l e w e b k i t 5 3 4 3 0 ( k h t m l ,l i k eg e c k o )c h r o m e 1 2 0 7 4 2 1 1 2s a f a r i 5 3 4 3 0 而y 就代表是其中目标地址这一字段,我们要处理的问题就是在y 值中包含问题链接的时候,此操作为x s s 攻击的可能( 当包含问题链接的时候,有可能是用户发信息通知其他用户这样的链接是有问题的) 。我们应该通过对日志内容整体的分析来确定用户操作的分类。1 62 3 2 贝叶斯分类器分析和研究现状贝叶斯分类器技术的实现方式主要有两种,分别为朴素贝叶斯分类器和贝叶思信念网络,总的来说这两种分类器都是用于对类条件概率e ( v l x ) 的估计。朴素贝叶斯分类器的前提条件是需要条件独立。设分类标号为y ,条件独立的假设可以表示为如下公式:p c x i y = 力= l - l 一d :le ( x i i y - - ) ,) ,其中每个属性集x - ( x 1 ,x 2 ,x d ) 中有含有d 个属性。有了条件独立的假设,就不必计算x 的每一个组合的类条件概率,只需要对给定的y ,计算每一个x j 的条件概率。这种方法不需要很大的训练集就可以获得较好的概率估计。朴素贝叶斯分类器有如下特点:面对孤立的噪声点,朴素贝叶斯分类器是健壮的。面对无关属性,朴素贝叶斯分类器是健壮的。相关属性会降低朴素贝叶斯分类器的性能,因为面对这些属性,条件独立的假设已经不成立。对于事后审计的应用,朴素贝叶斯分类器的条件独立概念反而阻碍了审计过程的进行。由于事后审计的目标是审计发现日志集中的异常,在进行这个异常检测发现过程中,单条的日志可以理解为正常产生的,只有对多条日志的联合条件概率进行挖掘,才能正确的挖掘出异常的日志,从而进行事后审计,这些日志间的关联性会降低分类器的性能【2 8 l 。贝叶斯信念网络( b a y e s i a nb e l i e fn e t w o r k sb b n ) 与朴素贝叶斯分类器不同的地方是,贝叶斯信念网络不要求给定类的所有属性都条件独立,而是允许指定部分属性条件独立。贝叶斯信念网络的特点如下:b b n 提供了一种用图形模型来捕获特定领域的先验知识的方法。构造信念网络的过程既费时又费力。b b n 适合用于处理不完整的数据。把数据和先验知识以概率的方法结合起来。和朴素贝叶斯分类器相比,贝叶斯信念网络的实现机制更适合用于对日志数据的审计挖掘。1 72 4 小结本章内容简单的介绍了数据挖掘技术的一些分支,交代了数据挖掘各种技术的特性,然后又通过对安全审计系统的分析,提出了选择分类作为事后审计主要处理技术的原因。本章内容承上启下,从整体系统的角度交代了本次研究的目标和重点。1 83 一种面向事后审计的贝叶斯网络算法本章首先介绍了贝叶斯分类器的基本概念和背景知识,然后通过对几种常见的贝叶斯分类器的分析,得出了一种适用于事后审计的贝叶斯信念网络模型和适用于具体场景的贝叶斯信念网络算法。3 1 贝叶斯网络概述本节内容首先介绍了贝叶斯信念网络的基本工作原理,然后提出了一种适合于事后审计系统的贝叶思信念网络算法,运用到实际系统中。3 1 1 贝叶斯信念网络工作原理贝叶斯信念网络简称贝叶斯网b = ( g ,0 ) ,可以用来描述n 个随机变量x 1 ,x 2 x n 的联合概率分布p b ( x l ,x 2 x n ) = i n :l i b ( x i l p a ( x i ) ) 。贝叶斯网络有两个主要成分。1 ) 一个有向无环图( d a g ,d i r e c t e da c y c l i cg r a p h ) ,表示变量之间的依赖关系。2 ) 一个概率表,把各节点和它的直接父节点关联起来。下图3 1 贝叶斯网络模型是一个简单的贝叶斯网络模型【3 0 】,假设该模型中所有变量是二值的。变量集v = x 1 ,x 2 ,x 3 , x 4 )边集e = ( x 1 ,x 4 ) ,( x 2 ,x 3 ) ,( x 2 ,x 4 ) 描述的联合概率分布p ( x 1 ,x 2 ,x 3 ,x 4 ) = p ( x 1 ) p 。( 2 ) p ( x 3i x z ) p ( x 4 i x l ,x 2 )1 9v ( x 2 ) = 0 9 5p ( x 3 1 x 2 1 = o 9 5p ( x 3 1 - x 2 ) =
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年影诊实验考试题及答案
- 2025年历史铁路答题题库及答案
- 安全考试简答题目及答案
- 道具采购合同6篇
- 企业经济指标保证承诺函5篇
- 安徽中考考试试题及答案
- 安徽b级考试试卷真题及答案
- 农村信用社铁岭市西丰县2025秋招小语种岗笔试题及答案
- VE1考试题目及答案
- 卫生主题征文题库及答案
- 丰都县龙兴坝水库工程枢纽及附属工程
- 做更好的自己+学案- 部编版道德与法治七年级上册
- 大化集团搬迁及周边改造项目污染场地调查及风险报告
- 医疗机构特种设备安全管理专业解读
- 智能化公共广播系统
- 马克思列宁主义
- 成人癌性疼痛护理-中华护理学会团体标准2019
- 演示文稿小儿雾化吸入
- 知行合一-王阳明传奇课件
- T-CSAE 204-2021 汽车用中低强度钢与铝自冲铆接 一般技术要求
- 节水灌溉技术总结
评论
0/150
提交评论