




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、山东师范大学硕士学位论文基于日志数据挖掘的网络安全审计技术研究姓名:朱胜奎申请学位级别:硕士专业:计算机软件与理论指导教师:刘培玉20090518山东师范大学硕士学位论文摘要随着计算机网络的飞速发展和普及,网络无所不在的影响着社会的政治、经济、文化、军事和生活等方面,然而,网络在给我们的生活带来便利的同时,也产生了各种安全问题。网络安全审计技术同防病毒、防火墙、入侵检测等安全技术一样成为网络安全技术的重要组成部分。相对与网络外部的入侵行为,网络内部用户的异常操作不易被发现,并能导致更大的损失。利用数据挖掘技术分析网络安全日志,挖掘出用户行为的关联规则,进一步审计出异常行为,确保网络安全。本文主
2、要针对网络安全审计技术的相关问题,在如下几个方面进行了研究和探讨:、介绍了网络安全审计系统的研究背景和意义,并阐述了网络安全审计相关领域国内外的研究现状。网络安全审计技术是网络安全技术的重要组成部分。国外专家首先提出了将数据挖掘技术应用到安全审计的思想,我国对这方面也进行了大量的研究,提出的一些模型,取得了不错的检测效果;但是如何根据用户日志行为记录的特点,在大数据量环境中,找出一种占用内存比较少的高效率数据挖掘算法,以提取出反映用户行为特性的频繁行为模式是要进一步研究的问题。、研究了常见的网络安全审计系统的关键技术,详细阐述了日志获取技术、安全保护技术、关联规则挖掘技术等,并改进了审计系统中
3、挖掘日志记录的量化关联翘则的算法。本文从系统的安全架构层次和技术可操作性上,根据日志记录的可读但不可更凶特性(不可删除且不可修改),提出了日志记录的安全保护模型。该模型是按照从低到高的安全性层次来设计的,其中的每个层次都提出了可行的解决思路。该模型为日志记录的具体安全保护方法提供了参考。在对日志记录的用户行为进行量化关联规则挖掘时,首先要找出满足最小置信废的频繁谓词集。这里一般是采用基于栅格的方法,但是此方法在应用于审计日志的拄掘时,占用了较大的内存空间。本文利用二叉排序树的数据结构来查找频繁谓词集,较好的解决了占用内存空间大的问题。、根据系统的设计目标,描述了一个完整的系统构架,给出了系统各
4、个模块能流程设计,并进行了相应实现。该系统综合利用以上各种技术实现了用户行为的网络安全审计功能;系统能够柿据审计出的用户异常行为的危险等级采取弹出对话框、发送邮件、响警告声音等不匾的报警方式通知审计安全员;系统还支持审计规则的自动添加和手动添加,增加了豸统的灵活性。、最后,将所提出的量化关联规则挖掘算法在网络安全审计系统上进行了实骝测试,并取得了令人满意的效果。山东师范大学硕士学位论文关键词:网络安全审计;量化关联规则;数据挖掘;日志分类号:山东师范大学硕士学位论文,嬲,!,)廿仕:,¥,:,行,(),廿,():(,】瘗寒薅莛太学疆士攀整论文拉,菸霉。,:;:独创声明本人声明所呈交的学位论文是
5、本人在导师指导下进行的研究工作及取得的他人已经发表或撰写过的研究成果,也不包含为获得(注:如研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其没有其他需要特别声明的,本栏可空)或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:珠鞋垄导师签字叫学位论文版权使用授权书本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权争监可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手
6、段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:柒艘垄签字日期:导师签字:)年月矽日签字日期:年月罗日山东师范大学硕士学位论文第一章引言研究背景与意义近几年来,随着全球信息化进程的加速,计算机网络的规模飞速扩大,从组织统计的图可以看出,网络无所不在的影响着社会的政治、经济、文化、军事和生活等方面,然而,网络在给我们的生活带来便利的同时,也产生了各种安全问题,如图所示。尤其是在计算机网络成为社会运行和国家发展的必备基础设施的今天,网络安全问题己成为了网络发展的重要议题。,玑加仉,毛告笔告笔占笔告薯告笔苦宅斋雩暑笔毛芎苦毛毛笔矗笔毛雩毛雩毛峨一;噍。哪图年全球接入互联
7、网的计算机数量调查面对严峻的安全形势,人们不断研发新的技术以保障网络安全,目前采用的主要有加密、认证、防病毒、防火墙、入侵检测等技术,这些方法确实对网络系统的防护起到了一定的作用【。然而建立所谓“绝对安全”系统仅在理论上存在可能性,在实践中几乎无法实现。给出一份有关当今流行的操作系统和应用程序的研究报告指出【:现有的软件设计水平都无法消除安全漏洞的出现;有些加密技术方法本身存在着一定的问题;安全系统易受内部用户滥用特权的攻击;安全访问控制等级和用户的使用效率成反比,而且访问控制和保护模型本身存在一定的问题。山东师范大学硕士学位论文俐撇趋,峨删目盈图网络安全事件调查数量报告瑚蜱年瑚霹而且我们发现
8、防火墙、入侵检测等大部分安全技术是防范外部人员对网络的攻击,但据著名网络安全机构统计,企业数据的泄露,是由于企业内部人员参与,所以来自企业内部的安全问题不容忽视。网络安全审计系统为解决此类问题带来了福音,它是传统安全防护技术的有益补充。网络安全审计系统能够有效的监督内部人员的网络行为,防止企业敏感信息、技术专利、技术资料的流失;通过对系统日志的收集、积累及分析,能够发现网络内部用户的异常行为,并及时提醒审计员确认事故责任人。网络安全审计系统将极大地增强网络安全整体防范和预警能力,广泛应用于电信骨干网络、政府骨干网络、金融、教育网络、大型企业网络等领域。本课题受山东省教育厅科研基金资助,项目全称
9、为网络安全审计与计算机取证技术研究,项目编号为。当前审计技术发展现状随着网络的飞速发展,网络安全问题显得尤为重要。防火墙、对防止系统非法入侵有一定的效果,但是它们只起着防御功能。仅仅有这些手段还是远远不够的,我们还需要对破坏人员进行主动出击、从而打击犯罪。与此同时,来自网络内部的入侵和破坏变得愈发严重,各企业、部门亟需相应的监督体制监督不法员工,保障企业安全。年,首次提出了利用系统日志信息进行安全审计的思想,直到年才发布了第一个具有实用性的网络安全漏洞审计软件,但是的技术要求高,使用非常不方便【】。近年来相继出现了许多关于这方面的工具,但大多数是基于系统用户的审计工具,如()或者下自带的审计工
10、具,对于整个网络中安全事件的审计能力有限。目前国外多家企业和研究机构己推出许多相应工具,例如:德国的分布式网络安全审计系统、大学的山东师范大学硕士学位论文系统等是审计方面的实验性系统。国内外经过多年的网络安全审计技术研究,主要提出了以下几种安全审计分析技术:、基于专家系统的网络安全审计技术:许多早期经典的安全审计模型都是采用专家系统,比如(分布式网络入侵检测系统)和就采用了由美国国家航空和宇宙航行局开发的系统。这种技术的优点是把系统的控制推理从问题解决的描述中分离出去。这个特性允许用户使用类似规则输入异常行为信息,然后输入事实,系统根据输入信息评估这些事实。这个过程不需要用户理解系统内部功能,
11、但需要在审计系统运行之前,编写规则代码,这是一个非常耗时的工作。、基于神经网络的网络安全审计技术【】:神经网络由许多称为单元的简单处理元素组成。一个神经网络知识根据单元和它们权值间连接编码成网络结构。网络通过改变单元状态,改变连接权值,加入一个连接或者移去它们来指示一个事件异常。这种技术的主要不足是神经网络不能为它们找到的任何异常提供解释,导致用户无法确认事故的责任人。、基于免疫系统的网络安全审计技术】这种技术的提出主要由于生物免疫系统和计算机系统保护机制之间有着相似性。免疫系统通过识别异常或者以前未出现的特征来确定入侵,其本质就是“自我非自我”的决定能力。但是这种技术不能处理包括种族条件、身
12、份伪装和策略违背等违规行为。、基于代理的网络安全审计技术:代理可以被看作是在网络中执行某项特定监视任务的软件实体【】。该系统通常分布式的运行在网络的主机上,其中监视器是审计系统的关键功能模块】,一旦出现故障,其它转发器都不能正常提交结果;而且多个监视器的同一问题报告可能产生不同的安全审计结果。、基于数据挖掘的网络安全审计技术:数据挖掘的目的是从海量的数据中提取出有用的信息,非常适合当前网络安全审计的大数据量分析要求。网络安全审计系统中可以使用数据挖掘技术从大量的日志行为记录数据中抽象出有利于进行判断和比较的特征模型,并可以由这些用户行为特征模型判断出当前网络行为的性质【】。目前,国际上在这个方
13、向上的研究很活跃,这些研究多数得到了美国国防部高级计划署、国家自然科学基金的支持。初始阶段,在基于数据挖掘的入侵检测方面做出深入研究的主要有的研究组,和)的研究组。研究组实现的基于数据挖掘的审计分析系统在检测拒绝服务攻击山东师范大学硕士学位论文和扫描方面都明显优于其它系统,但是对检测内部用户异常操作方面的研究不足【。但教授指出可以利用数据挖掘技术对主机的大量审计日志进行特征模式提取,再利用这些规则建立分析器,从而分析出用户的异常活动【钔。研究组使用短序列匹配算法【,】对主机安全事件和用户行为产生的系统调用序列进行了细致的分析,但在检测内部用户的异常操作方面的研究力度不足,对于用户的文件访问行为
14、等行为的审计日志分析还未涉及【,】。与国外相比,国内在这方面的研究还处于初级阶段。这方面的论文有几十篇,其中有一篇文献在年发表于计算机学报上,提出了利用数据挖掘中的关联分析和序列挖掘技术对用户行为进行模式挖掘的分析方法【】。该课题得到国家“九七三”重点基础研究发展规划项目()的资助。小型微型计算机系统在年刊登的一篇文献【】一种序列挖掘模式用于异常检测的研究,利用数据挖掘中典型的关联规则挖掘算法,通过关联规则建立用户的行为模式,对用户命令序列进行分析,但该论文指出,挖掘算法需要大量的内存空间,降低空间开销是进一步研究的问题。该项目得到国家自然科学基金重大研究计划()资助。经过国内外十几年的研究,
15、大量的实验表明,将数据挖掘技术应用到用户行为的日志分析中在理论上是可行的,并在技术上也是可能的【盈。难点在于如何根据用户日志行为记录的特点,在大数量环境中,找出一种占用内存比较少的高效率数据挖掘算法,提取出反映用户行为特性的频繁行为模式。本文的主要工作与内容安排本文共分五章,大致结构如下:第一章介绍了本系统的研究背景和意义,并阐述了网络安全审计技术在国内外的研究现状。第二章研究了常见的网络安全审计系统的关键技术,阐述了行为日志获取技术,关联规则挖掘技术、安全保护技术等,并提出了量化关联规则挖掘算法在审计系统中的优化应用。第三章提出了一个完整的审计系统构架,并对系统各模块的进行了详细流程设计。第
16、四章主要按照上一章技术和功能设计实现了系统,并对所提出的量化关联规则挖掘算法在网络安全审计系统上进行了实验测试,并取得了令人满意的效果第五章进行了全面总结,对于研究和开发过程中的改进技术集中进行了总结,并提出了未来的研究工作方向。山东师范大学硕士学位论文第二章网络安全审计相关技术研究本章探讨了基于日志数据挖掘的网络安全审计系统所涉及到的技术,包括日志格式与获取、安全保护、数据处理与数据挖掘等技术,重点从系统的安全架构层次上提出了日志文件保护模型,而且分析了当前安全审计系统中使用量化关联规则挖掘算法的不足,并对此算法进行了改进。日志格式与获取技术为了维护系统的自身运行并保护合法用户的安全状况,计
17、算机系统一般都会有相应的日志来记录系统有关日常事件、误操作、警报、错误以及用户的各种日常操作的日期时间和各种行为属性信息例。这些日志信息不仅可以协助计算机犯罪调查人员发现犯罪线索,而且可以作为犯罪证据提交给法庭。所谓日志()是指系统所指定对象的某些操作和其操作结果按时间的有序集合【。日志由三个元素组成:主体(、客体()和行为()口。日志中事件表示为主体对客体进行的操作。用户是主体;受保护的系统资源是客体;行为是系统服务和上层的程序应用行为。日志特点日志记录着系统中事件的相关活动信息,从网络安全审计角度看,日志主要有以下特点:【、不易读懂有些不以明码文本记录的系统日志(如操作日志)需要借助专门的
18、分析工具才能读懂,即使大部分系统日志是文本的形式记录,但是各日志之间也存在着格式不统一的问题,不熟悉这些格式的话,很难得到有用的信息。、数据量大通常操作系统日志的数据量都很大,一个日志文件一天产生的容量少则几十兆、几百兆,多则有几个,几十,这就要求审计分析算法尽量占用较少的内存空间。、容易被修改、破坏甚至伪造操作系统通常对日志的保护力度不够,很多日志是文本方式存放,有的甚至没有经过加密。因此入侵者通常会篡改或者删除日志文件,从而在法律意义上来讲,没有保护的日志信息不能被视为有效的证据。因此加强对日志文件的保护也是网络安全审计系统必须解决的问题。山东师范大学硕士学位论文日志格式因目前本文系统主要
19、是在系统下运行,所以下面主要介绍一下系统下的各种日志格式,其他操作系统的日志可以参考文献【】。目前几乎微软公司的服务器主流操作系统中的每一用户操作都有日志记录,这些用户行为日志是由操作系统本身产生的,是系统活动信息的集合,并以时间顺序存放在一起,组成一个或多个日志文件。其中的每一个日志文件又由多条用户记录组成,每一记录描述一个单一的系统事件。只要用户的操作和用户触发的进程进行系统调用和执行命令,就会产生这些记录。理论上,只要安全及时地保存这些日志,任何在该系统上进行的操作都能通过分析系统用户日志如实地反映出来,为打击计算机犯罪提供证据来源。一般来说,系统以三种方式记录日志:应用程序日志、系统日
20、志和安全日志,用户可以通过对这三种日志的访问来详细了解系统的运行情况。在启动系统的同时,事件日志服务会自动启动,所有用户都可以查看应用程序日志和系统日志,但只有管理员才能访问安全日志。在默认情况下,安全日志为空。只有经过如下设置,才能记录安全日志:单击“开始”,打开控制面板,切换到经典视图,打开管理工具,打开域安全策略或者本地安全策略,选择本地策略或者域服务器策略,双击各策略选项,在属性对话框中选择要记录的安全设置类型即可(失败或者成功)。事件日志格式如下表所示:表日志格式表记录头事件描述附加数据日期时间用户名计算机名事件源类型种类可变内容,依赖于事件。问题的文本解释和纠正措施的建议附加域。如
21、果采用的话,以二进制显示的事件记录的源应用所产生的信息。此部分一般无信息。事件记录头由下列域组成:()日期:事件的日期标识。()时间:事件的时间标识。()用户名:标识事件是由谁触发的。这个标识可以是初始用户、某个客户或两者同时具有。()计算机名:事件所在的计算机名。当用户在整个企业范围内集中安全管理时,该信息大大简化了审计信息的回顾。()事件:事件类型的数字标识。在事件记录描述中,这个域通常被映射成一个文本标识(事件名)。()源:用来响应产生事件记录的软件。源可以是一个应用程序、一个系壅东师藏大学硕圭学健论文统服务或一个设备驱动程序。()类型:事传严重性指示器。在系统和应用日志中,类型可以是错
22、误、警告或信息,按重要性降序排列。在安全日志中,类型可能是成功审计或失败审计。()种类:触发事件类型,主要用在安全网志中指示该类事件的成功或失败审诗已经被许可。日志获取很多狡猾的网络入侵者特别是内部用户泄密者会篡改或者删除记录其行为的匿志,以提高追查责任的难度。因此,必须在其篡改霾恚信息之前,把匿志信息及时捕获,并存储在安全的位置。在环境中,利用类捕获日志。方法如下,首先创建一个事件对象,然后用函数来监视指定事件,当有一个事件发生时,将指定事件对象置为发信号状态。函数用来接受事件对象的信号,在没收到信号之前它一直循环等待。安全保护技术系统自我保护进程保护进程保护一般是服务器类程序中用来无限循环
23、等待事件发生豹一个进程,也就是说,它的作用是等待一个事件发生,事件发生后调动另外的进程去完成相应的工作,自己再回去等事件发生。假设某程序(进程)在运行的融候可能挂掉,需要去监控该程序,并在它挂掉的时候重启之,确保该程序能一直运行。要想实现此功能,操作系统下要简单一些:只要在函数中调用()();代码就可以了,这三行代码主要是为了让子进程脱离父进程的关系。最后还要做一些清理工作,将款父进程继承的资源释放捧。在操作系统中,我们保护进程的原理则是全局函数,一旦其它进程对我们的审计程序线程进行攻击如强制关闭的时候,它首先要打开我们的进程,所以我们就这个函数,来实现我们的保护进程的霉的。技术的具体纲繁可以
24、参考其他技术书籍。函数参数是(,希望获得的访问权限,指明是否希望所获得的旬橇可以继承)要访问的进程基东师范大学硕士学位论文进程隐藏只要让程序不以进程内核的形式来运行,如注册为一个服务就可以实现进程隐藏的效果了。下的:、安装,调用函数,;、在函数里注册服务,这里要提供一个入口函数;。、在里面调用注册一个用于处理启动,停止等事件;、接下来中就可以运行自己的代码。这样程序就会从进程管理器的任务列表中消失,因为系统不认为他是一个进程,当使用任务管理器或其他方法查看系统运行的进程的时候,也就看不到这个程序的进程。程序代码保护对程序代码加密时有一个方面是必须要考虑的,那就是防止解密者对程序代码的非法修改和
25、反编译。要实现这种保护,最常用豹方法之一就是给编译好静程序加上一个外壳。壳是软件外部的一件“外衣”,是软件的保护屏障。有了它,恶意攻击者就无法在对软件反汇编盾,直接找到软件的核心代码。壳是一段程痔,它先予程亭运行,壳在运行后就获得了该软件控制权,利用其保护功能对软件进行安全保护。壳的工作原理大致是:先运行壳程序,壳将加密的主程序(主程序即原来的待加壳的程序,下同)代码解密到内存中,运行其中相应功能,并将程序的控制权交还给主程序。加壳具体过程:先将原来的主程序编译成,再编写一个壳程序,编译成,并将程序的运行入口(即函数)移到壳中来,由壳开始执行整个程序。首先,可以用鱼编的加密王具,在软件发布前将
26、所有文件分别进行加密(输入特定的密钥),在壳加载时临时将其解密到内存中,并加载运行。由于解密的结果只存在于内存,所以攻击者无法获得解密后的,除非他能找到的解密密钥。同时,为了避免攻击者分析外壳程序的逻辑,从中寻找解密密钥,还可以将壳编译成文件后,再用第三方软彳睾进行混淆(如:)或加密(如:),这样攻击者将无法了解加密的算法及处理逻辑。从而,更有效地保护主程序。磁盘文件保护从审计角度来看,为了审计出攻击行为,系统必须能够发现攻击的证据,必山东师范大学硕士学位论文须能够获得攻击的“正确”数据,才能保证审计出来的问题是真实的。证据是具有原始性和真实可靠性,具有法律效力的原始记录。因此,对所采集的数据
27、进行相应的数据保护是必需的,而且应该是及时有效的。日志中的用户操作记录作为证据只要保证没有被篡改和删除即可。因本系统主要在微软服务器操作系统下运行,本文从系统的安全架构层次上讨论磁盘文件保护技术。应用层第底层函数骂匪巫巫丑骂匝亟巫圃影分层驱动程序¥文件系统骂匹堕圃骂臣亟巫习骂臣至亟口畲飞罗物理存储介质图系统日志安全保护模型图给出了一个系统日志安全保护模型。应用程序发出访问日志文件请求,此请求通过调用底层函数传递到分层驱动程序,分层驱动验证之后,将请求传递到文件系统层次,请求如果通过文件系统,会向下传递到磁盘等物理层次。当前我们可以在这五个层次上实施日志文件的保护,很显然,保护措施所在的层次越低
28、,安全性越高。下面主要介绍一下上面提到的技术、基于过滤器驱动的保护技术和设计专门的存储硬件保护日志的方法。技术钩子(),是消息处理机制的一个平台,应用程序可以在上面设置子程以监视指定窗口的某种消息,而且所监视的窗口可以是其他进程所创建的。当消息到达后,在目标窗口处理函数之前处理它。钩子机制允许应用程序截获处理消息或特定事件。利用技术除了可以做到上面所述的进程防杀,类似的还可以做到文件的防删除。用户删除文件将产生钩子函数。利用钩子技术钩子函数,当产生此钩子函数时,首先判断用户操作名称是否是我们要保护的目标日志文件,若相同,再判断其路径是否指向目标日志文件,如果还是相同,说明其想删除我们要保护的日
29、志文件,将其操作请求丢弃即可。玉东雾器范大学疆圭学位论文基于过滤器驱动程序的文件保护技术操作系统的内核,它的子系统是由管理器、可扩展的一组驱动程序和其它一些执行体服务组成。管理器采用的是分层驱动程序模型瑟麓如图所示;图分层驱动程序模型设备对象(,)、驱动程序对象都是系统为便于分层管理而创建的数据结构。一个驱动程序可以根据需要创建多个设备对象。每个请求,由管理器渤发,依次从相应的设备栈豹顶部囱下传递。每传递一层,系统就调用与当前设备对象关联的驱动程序例程来对请求进行处理。系统的分层驱动程序模型,允许驱动程序构造一个匿名的设备对象,搿这个匿名的设备附着在另一个设备对象主。管理器酋先把传递给此匿名设
30、备对象,经过对象的过滤设备驱动程序(此过滤驱动程序我们可以进行修改功能)处理之后才发给真正的目标设备对象。这样,我们就实现了在通过文件系统设备对象的上面设置一个过滤驱动程序,此过滤驱动程序对获得的请求进行处理(包括修改、监控和保护),达到对文件保护的目的。设计专用日志存储设备此外,还可以设计一种专用的日志存储设备,仅供系统直接将日志备份到不可修改的介质中去,这种设计要考虑硬件设备豹安全性能,以及与系统本身的配合。由于在硬件上保证了存储介质本身是无法被破坏的,因此可以保证入侵者不能删除、修改系统曰志信息。但要确保日志信息的正确性,还要确保该设备的权限【蚓,以避免入侵者向该设备写入冗余信息。另外,
31、对于存储介质的容量也要有特别的要求。数据处理与数据挖掘技术简介爨前多数企业内部网络的数据状况是分散的,大量的用户操作形成的数据往往被存放在缺乏统一设计和管理的异构环境中,不易综合查询访问,两且还有大山东师范大学硕士学位论文量的历史数据处于脱机状态,不能在线集中存储查询。这就用到了数据挖掘技术。数据挖掘是一种新兴的、并且在很短时间内得到了广泛应用的先进的智能化数据分析方法。简单的说,数据挖掘就是从数据中发现肉眼难以发现的固定模式或异常现象,它遵循基本的归纳过程将数据进行整理分析,并从大量数据中提取出有意义的信息和知识】。在数据挖掘过程中,如何选择输入数据和对应的挖掘方法,取决于具体的数据挖掘目标
32、,即期望从数据中发掘出何种类型的“知识”。数据挖掘的主要任务如下:关联分析关联分析()发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。关联分析广泛的用于购物篮分析或者事物数据分析【】。关联规则的形式一般是等,即”肘或”的规则,其中,(,朋),(歹,刀)是属性值对。关联规则解释为“满足中条件的数据库元组多半也满足中条件”。规则的支持度()和置信度()是规则兴趣度的两种度量。它们分别反映所发现规则的有用性和确定性。形式分别为(】,)(,()(),同时满足最小支持度阈值()和最小置信度阈值(的规则称为强规则。关联分析算法常用的有、等算法。演变分析数据演变分析()描述行为随时间变化
33、的对象的规律或趋势,并对其建模。包括时间序列数据分析、序列或周期模式匹配和机遇类似性的数据分析。序列模式挖掘()是指挖掘相对时间或其他模式出现频率高的模式。序列分析算法如,等。聚类分析聚类分析()通过分析数据对象而不考虑已知的类标记。一般情况下,训练数据中不提供类标记,因为不知道从何开始。通过最大化类内的相似性、最小化类间的相似性形成聚类的对象。聚类分析算法如,在蟹专宇。孤立点分析数据库中可能包含一些数据对象,它们与数据的一般行为或者模式不同。大蠡东筛范大学矮圭学像论文部分数据挖掘方法将这些孤立点视为噪声而丢弃。但是在一些比如欺骗检测等应用中,孤立点事件的如现可能更有趣。关联规则挖掘算法研究与
34、改进关联规则是数据挖掘的一个重要研究方向,也是数据挖掘中最成熟、最活跃的研究领域。关联规则辨别事件之间的相互关系,并用利用这些关系进行分析,以使褥数据的收集变得更加容易。本文简述了关联规则相关的一些概念、分类及相关算法,并利用平衡二叉树的数据结构对应用在安全审计系统中量化关联规则挖掘算法进行了改进,提高了原算法的空间复杂度。关联规则的分类及经典算法介绍关联规则可以分成若干类型,如;()根据规则所处理的值的类型,关联规则可以分为布尔的和量化的。布尔关联规慰表现离散对象之闻的联系。量化关联规则是多维关联规则,涉及动态离散化的数值属性。它也可能涉及分类属性。()根据规则中数据涉及的维,关联规则可以分
35、成单维和多维的。(根据规则涉及的抽象层,关联规则可以分为单层和多层豹。在多层关联规则中,项或谓词的挖掘考虑不同的抽象层,而多层关联规则考虑多个抽象层。()根据对关联挖掘的不同扩充,关联挖掘可以扩充为相关分析、最大频繁模式和频繁闭项集挖掘:相关分析指出相关项的存在与否。最大模式是一个频繁模式,使得的任何真超集都不是频繁的。频繁闭项集是指:若集合是闭的,如果不存在的真超集,使得包含的子模式的每个事务也包含。单维、单层、布尔关联规则挖掘算法以算法和增长算法年,等人首先提出了挖掘顾客交易数据库中项集间的关联规则算法研算法,其核心方法是基于频繁理论的递推方法【】。算法是发现关联规则领域的经典算法。该算法
36、将发现关联规则的过程分为嚣个步骤:第一步通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;第二步利用频繁项集构造出满足用户最小信任度的规则【】。具体徽法就是:首先我出频繁项集,记为;然后利用来产生候选项集,对中的项进行判定挖掘出,即频繁项集;不断如此循环下去直到无法发现更多的频繁项集为止。每挖掘一层就需要扫描整个数据库一遍。在关联规则挖掘阀题中,第二步相对比较容易,可以直接产生出规则。第一步却比较费时,对于大数据库来说计算代价很大,现实生产数据库更是如此。大蠢客簿蔻大学磺士学像论文的生产数据库中,项目记录上百万条,变量(属性)成百上千条,当数据包含有个变量时,大项
37、集的数目则可能会达到了,但实际上数据库中的大项圈集数目会泷较小,所以就要耗费成指数倍的时阀来发现大项圈集。针对算法的固有缺陷,提出了不产生候选挖掘频繁项集的方法增长算法。增长算法采用分而治之的策略,只需两次扫描数据库,而且不用产生大量候选项集,将发现长频繁模式麓阀题转换力递归发现一些短模式,然后连接后缀。在经过第一遍扫描之后,把数据库中的频繁项集压缩进一棵频繁模式树(),同时依然保留其中的关联信息,随后再将分化成一些条件库,每个库和一个长度为的频繁顼集相关,然后再对这些条件库分别进行挖掘。该方法大大降低了搜索开销,大约比算法快一个数量级【”。量化关联规则挖掘算法下面介绍量化关联规则挖掘算法,量
38、化关联规则是多维关联规则,其中数值属性动态离散化,以满足某种挖掘标准,如最大化挖掘规则的置信度或紧凑性。传统的(,关联规则聚类系统)使用的方法,其思想源于图像处理。本旗主,该方法将量化属性对映射到满足给定分类属性条件的栅格上。然后,搜索栅格点的聚类,由此产生关联规则。下面是涉及的步骤:()分箱。量化属性可能具有很宽的定义它们域值的范围。为了使得裰格压缩到可管理的尺寸,我们将量化属性的范围划分为区间。这些区间是动态的,在挖掘期间它们可能进一步合并。这种划分过程称作分箱,即区间被看作“箱”。三种常用的分箱繁略是:等宽分箱:每个箱的区间长度相同;等深分箱:每个箱赋予大致相同个数的元组:基于同质的分箱
39、:籍的大小这样确定,使!孽每个箱中的元组一致分东。在中,使用等宽分箱,每个量化属性的箱尺寸囱用户输入。对于涉及两个量化属性的每种可能的箱组合,创建一个数组。每个数组单元存放规则右部分类属性每个可能类的对应的计数分布。通过创建这种数据结构,任务相关的数据只需要扫描一次。()找频繁谓词集。一照包含每个分类计数分布的数组设置好,就可以扫描它,以找出也满足最小置信度的频繁谓词集(满足最小支持度)。然后,由这些谓词集产生关联规则。()关联规则聚类。上步将会得到很多强关联规烫,其中的某些关联规山东师范大学硕士学位论文则有可能进一步合并成更简单的数量更少的关联规则。使用聚类算法做这件事,首先将上一步褥到的强
40、关联规则映射到橱格上,然居扫描栅格,搜索规则的矩形聚类。用这种方法,出现在规则聚类中的量化属性的箱可能进一步合并,从而对量化属性动态地离散化。关联规则挖掘应用的优点将关联规则挖掘技术应用予网络安全审计与取证领域需要注意“特定应用”【。算法实现必须建立在特定应用的基础之上,并且需要具有足够的先验知识,经研究表明,对系统安全的先验知识往往体现在对原始数据中有价值的变量集的选择上,这既涉及到数据源的选择也涉及到待分析内容的选择蛰刀。与传统的网络安全审计系统相比,将关联规则挖掘技术应用于网络安全审计系统将会有如下几个优点:、准确率高利用关联规煲挖搌技术将训练数据转换成审计规则,既可以避免由于人为先验知识的限制在推导规则过程中所产生的不确定因素,又可以避免由于数据量过大而无法准确得出规则戤。有些成功经过了系统审计的行为实际上可能是不合法的(如系统管理员在深夜登录)。利用关联和序列挖掘技术对合法用户的行为模式加以推导,总结出用户的正常行为模式,从而通过检验用户的当前行为来发现潜在的异常,避免了由单纯的模式匹配方式审计时存在的漏报警闻题。、大数据量下处理速度较快目前,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《汉语阅读教程》课件-教学课件:汉语阅读教程
- 2025标准办公室装修设计合同
- 湖南省长沙市雅礼教育集团2024-2025学年高一下学期期中考试物理试题(原卷版)
- 钝痛的临床护理
- 2025金融服务行业中介居间合同范本
- 2025汽车买卖的合同范文
- 江苏移动2025春季校园招聘笔试参考题库附带答案详解
- 2025房产交易合同样本:个人房屋买卖协议
- 2025年公共营养师之二级营养师题库综合试卷B卷附答案
- 胃出口梗阻的临床护理
- (二模)济宁市2025年4月高考模拟考试地理试卷
- 首都医科大学附属北京安贞医院招聘考试真题2024
- 抽化粪池合同协议
- 中医养生馆运营方案中医养生馆策划书
- (二模)宁波市2024-2025学年第二学期高考模拟考试 英语试卷(含答案)+听力音频+听力原文
- 高考备考:100个高考常考易错的文言实词(翻译+正误辨析)
- 软件项目交付管理制度
- 知识产权现场审核记录表模板
- 机械系统动力学试题及答案
- 食品安全自查、从业人员健康管理、进货查验记录、食品安全事故处置等保证食品安全的规章制度
- 2024年吉林省中考满分作文《情味浸润的时光》4
评论
0/150
提交评论