




已阅读5页,还剩74页未读, 继续免费阅读
(计算机应用技术专业论文)基于少量标记数据约束聚类算法的入侵检测技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
z h a n g j i n h u i a d v i s e d b y a s s o c i a t ep r o f z a n gl i e s u b m i t t e di np a r t i a lf u l f i l l m e n t o ft h er e q u i r e m e n t s f o r t h ed e g r e eo f m a s t e ro fe n g i n e e r i n g d e c e m b e r , 2 0 0 9 。 , 冀 舌 卜 , , 承诺书 本人声明所呈交的硕士学位论文是本人在导师指导下进行 的研究工作及取得的研究成果。除了文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得南京航空航天大学或其他教育机构的学位 或证书而使用过的材料。 本人授权南京航空航天大学可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本承诺书) 作者签名:这丝 日 期:筮缝:三:! 呈 。, 南京航空航天大学硕士学位论文 摘要 随着越来越多的网络经济活动的开展,网络安全受到更多的关注,入侵检测作为一种主 动有效的防御手段得到越来越多的重视和研究。入侵检测方法结合一些智能技术应用到入侵 检测系统中越来越成为当前研究的热点,尤其是机器学习技术的发展,给入侵检测方法的改 进带来了新的思路。 本文对目前的入侵检测系统及基于聚类的入侵检测方法的优缺点进行了分析,结合实际 网络数据的特点和以往入侵检测算法设计的经验,提出一种新的利用少量标记数据指导约束 聚类过程的入侵检测方法。首先,通过介绍当前网络安全存在的隐患以及相关安全防御手段 的弊端引出入侵检测技术,并总结了当前入侵检测技术的发展状况和存在的问题。其次,系 统介绍了聚类入侵检测技术的发展现状,总结了聚类方法的缺陷以及未来的发展方向。然后, 回顾机器学习的技术背景和理论基础,引出了半监督学习方法。针对聚类方法对未知攻击类 型检测的不足,以及当前半监督聚类方法标记手段单一的缺陷,本文提出一种新的半监督聚 类方法s s c i d ( s e m i s u p e r v i s e dc l u s t e r i n gi n t r u s i o nd e t e c t i o n ) ,该算法引入了混合数据属性对 网络数据进行相似度度量,应用投票法和比例划分法依次对未标记数据进行标记。 最后利用k d dc u p 9 9 数据集中的数据对算法进行了仿真实验,实验将检测率、误报率 和未知攻击检测率作为评估算法性能的标准。实验结果表明,s s c i d 算法具有较好的检测 性能并能有效检测未知入侵行为,具有一定的理论意义和实用价值。 关键词:入侵检测,机器学习,半监督学习,聚类,相似度度量,投票法,比例划分法 基于少量标记数据约束聚类算法的入侵检测技术研究 a b s t r a c t a l o n gw i t ht h em o r ea n dm o r en e t w o r ke c o n o m i ca c t i v i t i e sd e v e l o p m e n t ,t h en e t w o r ks e c u r i t y r e c e i v em o r ea t t e n t i o n ,t h ei n t r u s i o nd e t e c t i o nt a k ea so n ei n i t i a t i v ee f f e c t i v ed e f e n s em e a s u r e o b t a i nm o r ea n dm o r ev a l u e sa n dr e s e a r c h t h ei n t r u s i o nd e t e c t i o nm e t h o du n i f y s o m ei n t e l l i g e n t t e c h n o l o g yt oa p p l yi nt h ei n t r u s i o nd e t e c t i o ns y s t e mm o r ea n dm o r eb e c o m et h ec u r r e n th o t r e s e a r c ht o p i c ,p a r t i c u l a r l yt h em a c h i n el e a r n i n gt e c h n o l o g yd e v e l o p m e n tb r i n gn e wm e n t a l i t yf o r t h ei n t r u s i o nd e t e c t i o nm e t h o di m p r o v e m e n t t h i sa r t i c l eh a sc a r r i e do nt h ea n a l y s i st op r e s e n ti n t r u s i o nd e t e c t i o ns y s t e ma n db a s eo nt h e c l u s t e r i n gi n t r u s i o nd e t e c t i o nm e t h o d sa d v a n t a g ea n dd i s a d v a n t a g e ,u n i o na c t u a ln e t w o r kd a t a c h a r a c t e r i s t i ca n dt h ed e s i g n i n ge x p e r i e n c eo ff o r m e r l yi n t r u s i o nd e t e c t i o na l g o r i t h m , p r o p o s e s o n en e wi n t r u s i o nd e t e c t i o nm e t h o dw h i c hu s ef e wl a b e l e dd a t ac o n d u c t i n ga n dr e s t r a i n t i n g c l u s t e r i n gp r o c e s s f i r s t ,i t d r a w so u tt h ei n t r u s i o nd e t e c t i o nt h r o u g hi n t r o d u c i n ge x i s t e n c e s h i d d e nd a n g e ro fc u r r e n tn e t w o r ks e c u r i t ya n dt h es e c u r i t yd e f e n s i v em e a s u r e sm a l p r a c t i c e ,a n d s u m m a r i z e st h ec u r r e n ti n t r u s i o nd e t e c t i o nd e v e l o p m e n tc o n d i t i o na n dt h ee x i s t e n c eq u e s t i o n n e x t ,i tt o t a l l yi n t r o d u c e st h ec l u s t e r i n gd e t e c t i o nt e c h n o l o g y ss i t u a t i o ni np r e s e n td e v e l o p m e n t c o n d i t i o n ,s u m m a r i z et h ec l u s t e r i n gm e t h o df l a wa n dt h ef u t u r ed e v e l o p m e n td i r e c t i o n t h e n ,i t r e v i e wt h et e c h n i c a l b a c k g r o u n da n dr a t i o n a l e o ft h em a c h i n el e a r n i n g ,a n dd r a w so u t s e m i s u p e r v i s e dl e a r n i n gm e t h o d i nv i e wo fc l u s t e r i n gm e t h o dt o d e t e c tu n k n o w na t t a c k i n s u f f i c i e n t l ya n d c u r r e n ts e r n i s u p e r v i s e dc l u s t e r i n gm e t h o d sf l a wi nm a r k i n gu n l a b e l e dd a t a ,t h i s a r t i c l ep r o p o s ean e ws e l i l i s u p e r v i s e dc l u s t e r i n gi n t r u s i o nd e t e c t i o nm e t h o d ,t h i sa l g o r i t h m i n t r o d u c et h em i x t u r ed a t aa t t r i b u t e st oc a r r yo nt h es i m i l a r i t ym e a s u r et ot h en e t w o r kd a t a , a n d m a r kt h ed a t au s i n gt h ev o t i n gm e t h o da n dt h ep r o p o r t i o nd i v i d i n gm e t h o di np r o p e ro r d e r f i n a l l yt h ew r i t e rd e s i g nt h ee x p e r i m e n tf o rt h ea l g o r i t h m , t h ee x p e r i m e n td a t ac a n yo nt h e s a m p l i n gf r o mk d dc u p9 9 sd a t as e t , a n dt a k e si n t r u s i o nd e t e c t i o nr a t e ,t h er a t eo ff a l s ea l a r m a n dt h eu n k n o w na t t a c kd e t e c t i o nr a t ea st h es t a n d a r dt oe x a m i n a t ea l g o r i t h mp e r f o r m a n c e t h e a l g o r i t h ma n a l y s i sa n de x p e r i m e n t a lr e s u l t ss h o wt h a tt h i sa l g o r i t h mc o u l do b t a i ng o o dd e t e c t i o n p e r f o r m a n c ea n dd e t e c tt h en e wu n k r l o w ni n t r u s i o n se f f i c i e n t l y , a n di t h a sc e r t a i n t h e o r y s i g n i f i c a n c ea n dt h ep r a c t i c a lv a l u e k e y w o r d :i n t r u s i o nd e t e c t i o n , m a c h i n el e a r n i n g , s i m i - s u p e r v i s e dl e a r n i n g ,c l u s t e r i n g , s i m i l a r i t ym e a s u r e ,v o t i n g , p r o p o r t i o nd i v i d i n g , 第一章绪论l 1 1 研究背景和意义1 1 1 1 网络与信息安全简介1 1 1 2 信息安全防范机制2 1 1 3 入侵检测研究的意义3 1 1 4 机器学习技术的引入4 1 2 研究现状5 1 3 本文的主要工作7 第二章入侵检测技术8 2 1 入侵检测的定义8 2 2 入侵检测方法9 2 2 1 误用检测9 2 2 2 异常检测。l l 2 2 3 其他检测方法1 2 2 3 入侵检测系统存在的问题。1 3 2 4 本章小结1 4 第三章基于聚类的入侵检测算法1 5 3 1 聚类分析1 5 3 2 聚类分析方法分类1 5 3 3 基于划分的聚类算法17 3 3 1k - m e a n s 聚类算法1 7 3 3 2k - m e d o i d 聚类算法。1 9 3 4 传统聚类算法在入侵检测中存在的问题2 l 3 5 本章小结2 2 第四章基于半监督聚类的入侵检测算法2 3 4 1 机器学习2 3 4 1 1 机器学习方法2 3 4 1 2 机器学习相关原则。2 5 4 2 半监督学习2 6 4 2 1 半监督学习技术介绍。2 7 4 2 2 半监督学习方法的分类2 7 i i i 基于少量标记数据约束聚类算法的入侵检测技术研究 i v 4 3 算法理论分析2 8 4 3 1 基于k - m e a n s 算法的半监督学习2 8 4 3 2 投票标记法2 8 4 3 3 大簇小簇理论3 l 4 3 4 相似度度量3 2 4 4s s c i d 算法描述3 5 4 5s s c i d 算法相关伪代码描述3 7 4 5 1 数据规格化伪代码。3 7 4 5 2 聚类过程伪代码3 8 4 5 3 投票标记算法伪代码。4 0 4 5 4 大簇小簇理论伪代码。4 l 4 6 本章小结。4 2 第五章实验数据选取以及算法评估4 3 5 1 数据集4 3 5 1 1 数据集描述4 3 5 1 2 网络数据的属性特征分析。4 4 5 2 训练数据的选取及规格化4 4 5 3 实验仿真4 5 5 3 1 仿真环境4 5 5 3 2 仿真实验的设计和实现4 5 5 3 3 仿真结果分析4 9 5 4 本章小结5 3 第六章论文总结和工作展望5 4 参考文献5 6 鸳| 【谢6 0 在学期间的研究成果及发表的学术论文6 l f tj 畏6 2 洫- ) 一 一 图4 1 机器学习的基本模型2 3 图4 2 监督学习处理流程2 4 图4 3 强化学习基本模型2 5 图4 4 投票算法流程图3 0 图4 5 大簇小簇理论流程图3 2 图4 6s s c i d 算法流程图3 6 图5 1 仿真实验结果显示。5 0 图5 2 各种攻击检测结果详示图5 1 图5 3s s c 玎9 与s a 玎) 比较,r o c 曲线图5 3 表5 1 常见的攻击类型及其所属的种类4 3 表5 2 实验参数描述4 8 表5 3r 取不同值时各组的实验结果。5 0 表5 4 算法检测各种攻击的情况以及总检测率和未知攻击检测率5 2 表5 5 与s a i d 算法实验结果的对照表5 3 附表1 单个t c p 连接的基本属性6 6 附表2 利用领域知识得到的连接内部特征6 7 附表3 利用两秒的时间窗计算得到的传输特性6 7 v o j m n 悸加加 基于少量标记数据约束聚类算法的入侵检测技术研究 注释表 c n n l cc h i n ai n t e m e tn e t w o r ki n f o r m a n c ec e n t e r i d si n t r u s i o nd e t e c t i o ns y s t e m i d e si n t r u s i o nd e t e c t i o ne x p e r ts y s t e m n s mn e t w o r ks e c u r i t ym o n i t o r g r i d s g r a p h - b a s e di n t r u s i o nd e t e c t i o ns y s t e m n n i dn e u r a ln e t w o r ki n t r u s i o nd e t e c t i o n d b s c a n d e n s i t y - b a s e ds p m i mc l u s t e r i n go fw i t hn o i s e o f s s c i d s a 玎) m b 吣 d o s e e m v i o u t l i e rf a c t o r s e m i s u p e r v i s e dc l u s t e r i n gi n t r u s i o nd e t e c t i o n s e m i - s u p e r v i s e da b n o r m a li n t r u s i o nd e t e c t i o n m e d i aa c c e s sc o n t r o l d e n i a lo fs e r v i c ea t t a c k s i n t e g r a t e dd r i v ee l e c t r o n i c e x p e c t a t i o n - m a x i m i z a t i o n 中国互联网络信息中心 入侵检测系统 入侵检测专家系统 基于网格的安全监视 基于图的入侵检测系统 基于神经网络的入侵检测 基于噪声处理的空间密度聚类 应用 外部因素 半监督聚类入侵检测 半监督异常入侵检测 媒体访问控制 拒绝服务攻击 电子集成驱动器 期望最大化 入侵检测是一种主动保护系统、免受黑客攻击的新型网络安全技术,提供对网络内部攻 击、外部攻击和误操作的实时保护。本章重点阐述课题的研究背景和意义、入侵检测研究的 现状和本文所做的工作。 1 1 研究背景和意义 1 1 1 网络与信息安全简介 中国互联网络发展状况良好,网络基础资源保持快速增长,中国网民人数也在逐年增加。 中国互联网信息中心【1 ( c n n i c ) 于2 0 0 9 年1 月发布了第2 3 次l :中国互联网络发展状况统计 报告,报告显示,截止到2 0 0 8 年底,我国网民数已增至2 9 8 亿人,较2 0 0 7 年增长4 1 9 , 互联网普及率达到2 2 6 略高于全球平均水平( 2 1 9 ) 。继2 0 0 8 年6 月中国网民规模超过 美国,成为全球第一之后,中国的互联网普及再次实现飞跃,赶上并超过了全球平均水平。 与此同时,中国m 地址总数达到1 8 1 2 7 3 3 4 4 个,较去年增长了3 4 。预计将来仍然会保持较 快的增长速度。随着计算机和网络技术的发展,计算机网络已成为社会生活不可或缺的一部 分。 计算机网络技术发展迅速,电子商务、网络社区、网络金融等电子在线服务也呈现快速 的增长趋势,人们对网络的依赖达到前所未有的程度。由于i n t e r n e t 具有的开放性和共享性, 使得人们对信息的获取和交流越来越方便,但同时也带来了更多的安全隐患。由于系统安全 脆弱性的客观存在,操作系统、应用软件、硬件设备不可避免地会存在一些安全漏洞,网络 协议本身的设计也存在一些安全隐患,这些都为黑客采用非正常手段入侵系统提供了可乘之 机。近年来,网络安全问题愈发严重,网络攻击手段也越来越复杂,在世界范围内给从事计 算机网络业务的个人和相关组织机构带来了严重的经济损失。 计算机网络安全已成为一个国际化的严重问题,据统计:信息窃贼在过去几年中每年以 2 5 0 0 , 6 的速度增长,9 9 的大公司都发生过大的入侵事件,如世界著名的商业网站y a h o o 、 e b a y 、a m a z o n 等都曾被黑客入侵,甚至连专门从事网络安全的r s a 网络也受到黑客攻击。 在中国涉及计算机网络的犯罪也是逐年上升,被公安机关立案侦查的计算机违法犯罪数 在1 9 9 9 年至2 0 0 2 年仅三年的时间就从4 0 0 起增加到7 0 0 0 余起,而且绝大部分计算机违法 犯罪案件牵涉网络。随着计算机网络技术在中国的全面普及和应用,各种网络攻击手段层出 不穷,如间谍软件,网络仿冒、网页恶意代码、网络篡改、木马、僵尸程序等,严重影响社 会经济生活。 我国已跨入信息时代,信息已成为社会发展的重要战略资源,社会的信息化已成为当今 世界发展的潮流和核心,而信息安全在信息社会中扮演着极为重要的角色,它直接关系到国 基于少量标记数据约束聚类算法的入侵检测技术研究 家安全、企业经营和人们的日常生活。信息安全已成为国家与国防安全的重要组成部分,同 时也是国家网络经济发展的关键。信息安全问题已经成为国家信息化发展道路上的瓶颈,成 为制约我国经济社会发展的关键问题,因此,对入侵攻击的检测与防范、保障计算机系统、 网络系统及整个信息基础设施的安全已经成为刻不容缓的重要课题。 1 1 2 信息安全防范机制 随着网络与计算机技术的发展,信息安全的内涵在不断地延伸,从最初的信息保密性发 展到信息的完整性、可用性、可控性和不可否认性,进而又发展为攻击、防范、检测、管理 和评估等多方面的基础理论和实施技术。许多信息安全防范机制【2 1 如数据加密、身份认证、 授权与访问控制和防火墙等都是从不同的角度来保障计算机系统和网络系统的保密性、完整 性、可确认性和可用性的。 ( 1 ) 数据加密技术 数据加密技术是一种最基本的安全机制,主要是通过数据加密把需要保护的敏感数据的 敏感性减弱,从而降低其危险性的,它是防止重要数据被外部破坏所采取的主要技术之一。 加密时保证数据安全的基本方法是根据在o s i 七层所处的位置和重要程度而采用不同的加 密算法和加密策略来实现的。数据加密不依赖于网络中数据路径的安全性来实现网络系统的 安全,虽然这样能够保障数据在传送过程中的安全,但不能保障数据在存储位置上的安全, 而且数据加密也存在密钥保管和分发方面的困难。 ( 2 ) 身份认证 数据加密解决了通信双方在通信中数据的安全性,而对于通信双方在建立他们之间的安 全信道之前,则需要鉴别对方的身份以保证通信更加安全可靠。身份认证主要通过标识和鉴 别用户身份,以防止冒充合法用户进行资源访问;当证实用户身份合法时,授予该用户应有 的权力,以使该用户能进行与其身份相符合的有关操作;并将该用户所作的各项操作如实记 录下来,以便核查责任,防止抵赖。 ( 3 ) 授权与访问控制 为了使得合法用户正常使用信息系统,需要给已通过认证的用户授予相应的操作权限以 及访问控制限制,此时就需要对用户进行授权与访问控制方面的处理。在信息系统中,可授 予的权限包括读写文件、运行程序和网络访问等,授权技术就是实施和管理这些权限的。 访问控制机制是用来实施对资源访问加以限制的策略机制,这种策略把对资源的访问只限于 那些被授权用户。通常利用一个包含被控制项与被授权用户的身份的访问控制列表或访问控 制矩阵、口令,以及权力、标记或标志等手段实现访问控制。在使用权力的地方,权力应该 是真实合法的,而且用可靠的方式传递。 ( 4 ) 防火墙技术 防火墙3 1 是组织实施其网络安全策略的主要技术手段,它按照一定的安全策略规则检查 网络数据包或服务请求,以决定网络之间的通信是否被允许。防火墙能够有效地控制内部网 2 , 南京航空航天大学硕士学位论文 络与外部网络之间的访问及数据传送,在内部网络和外部网络之间建立一个安全控制点,从 而实现保护内部网络的信息不受外部非授权用户的访问或限制内部用户所访问的外部信息。 大多数的防火墙主要实现的功能有包过滤、审计和报警机制、远程管理、网络地址转换、 m a c 地址与口地址绑定、流量控制、统计分析和流量分析等。防火墙本身具有较强的抗攻 击能力,它是提供信息安全服务、实现网络和信息安全的基础设施之一。在计算机网络中增 加防火墙设备能够提高内部网络安全性,防止来自被保护区域外部的攻击、防止信息外泄和 屏蔽有害信息、集中安全管理、安全审计和告警、增强保密性和强化私有权以及访问控制等 其他安全作用。 1 1 3 入侵检测研究的意义 传统的安全机, 带l j l 4 j 大多采用基于被动防范的方法以提升系统安全特性,虽然在一定程度 上增强了计算机系统的安全性能,但是仍存在不足之处,它们对网络环境下层出不穷的攻击 手段缺乏主动性,已经不能满足当前网络安全的需求。具体表现如下: 任何系统均存在不同意义上的安全隐患,而系统缺陷的修补和更换都需要一定的时 间。 此类安全措施对于内部用户权限滥用的监控乏力 访问控制机制本身存在一定问题,内部用户可绕过安全屏障访问外部信息,如用户 可通过电话线进行计算机通信而不是通过内部网络来访问外部网络。 软件生命周期缩短,测试强度减弱以及软件复杂性增加等情况造成系统安全隐患增 加。 各类安全机制相对独立运行未能有效集成运作,这些安全机制也成为网络入侵攻击 的重要目标,一旦被入侵反而缺乏有效的监控机制进行干预。 虽然防火墙作为网络安全的一种重要防护手段得到了广泛的应用,已可以起到一定的系 统防护作用。然而,仅仅使用防火墙保障网络安全是远远不够的,其局限性如下: ( 1 ) 入侵者可以寻找防火墙背后可能敞开的后门而绕过防火墙; ( 2 ) 防火墙完全不能阻止内部攻击,对于企业内部心怀不满或缺乏安全培训的员工来说 防火墙形同虚设: ( 3 ) 由于性能的限制,防火墙通常不能提供对实时入侵的检测能力; ( 4 ) 防火墙无法有效解决自身的安全问题; ( 5 ) 防火墙是一种静态安全技术,需要人工来实施和维护,不能主动跟踪入侵者。 因此,仅在i n t e m e t 入口设置防火墙系统不能保证系统足够安全,必须采取新的安全保 护措施配合防火墙系统以共同实现信息网络的安全。在前面对几种常见的安全防范机制研究 分析后,发现这些安全防范机制很大比例上是一种被动式的防御机制,主要是保障数据在传 送过程中的安全,或抵御外部恶意和非授权的请求。对于数据在存放位置上的安全性,或利 用系统的漏洞攻击、木马攻击、拒绝服务攻击等一些较复杂的攻击,这些安全机制并没有很 3 基于少量标记数据约束聚类算法的入侵检测技术研究 好的防御与抵抗能力。 入侵检测作为一种主动防御手段,能够检测计算机网络系统中的入侵行为,它主要通过 监控计算机网络系统的状态、行为以及系统的使用情况,来检测系统用户的越权使用和误用 行为,以及系统外部的入侵者利用系统的安全缺陷所进行的攻击行为,并且针对已发现的攻 击行为做出适当的反应,如告警、终止进程等。入侵检测即使不能阻止某些入侵,它也能帮 助系统管理员在非法入侵者进入网络时或事后侦查到,如果响应设置得当,入侵检测系统就 能帮助系统管理员阻止黑客的进一步攻击,这样就弥补了被动式网络安全技术的不足之处。 入侵检测技术对于复杂多变的网络攻击具有很好的适应性,受到广泛的关注和研究。入侵检 测的作用如图1 1 所示。 图1 1 入侵检测的作用 入侵检测系统的主要功能大致分为: ( 1 ) 监视并分析用户和系统活动。 ( 2 ) 核查系统配置和漏洞。 ( 3 ) 评估系统关键资源和数据文件的完整性。 ( 4 ) 识别已知的攻击行为。 ( 5 ) 统计分析异常行为。 ( 6 ) 对操作系统日志进行管理,并识别违反安全策略的用户活动。 入侵检测不仅提高了计算机信息安全构造的其他部分的完整性,提高了系统的监控性 能,而且从入口点到出口点跟踪用户的活动,识别和汇报数据文件的变化,随时侦测系统配 置错误并纠正它们,并能够识别特殊的攻击类型,向管理人员发送警报,及时进行防御。 1 1 4 机器学习技术的引入 随着入侵检测技术被应用到网络安全防护系统中,入侵检测技术方法的研究受到越来越 多的专家学者的关注,尤其在机器学习技术引入到入侵检测领域之后,更使得入侵检测方法 得到较大程度的改进,并且已经成为当前解决入侵检测领域问题最好的方法。 4 南京航空航天大学硕士学位论文 在入侵检测【5 1 概念被首次提出时,将入侵划分为外部闯入、内部授权用户的越权使用和 误用三种类型。并设想用审计追踪来监视入侵威胁。后来由d e n n i n g 设计了一个抽象通用的 入侵检测模型,首次将入侵检测作为一种计算机网路安全防护措施提出;t e r e s al u n t 等人改 进了d e n n i n g 的入侵检测模型,并创建了入侵检测专家系统i d e s ( i n t r u s i o nd e t e c t i o ne x p e r t s y s t e m ) ,提出了与平台无关的实时检测思想。 随后基于网络的入侵检测n s m ( n e t w o r ks e c u r i t ym o n i t o r ) 作为新的入侵检测概念被提 出,入侵检测就被分为基于主机的和基于网络的,在接下来很长时间内基于网络的入侵检测 得到迅猛发展。s r s n a p p 等人提出了n a d i r ( n e t w o r ka n o m a l yd e t e c t i o na n di n t r u s i o nr e p o r t ) 与d i d s ( d i s t r i b u t ti n t r u s i o nd e t e c t i o ns y s t e m ) ,这两种系统都是对n s m 改进后的系统,他 们将各个主机日志事件进行集中处理提出了收集并处理来自多个主机的审计信息以检测一 系列主机的协同攻击。f o r r e s t 将免疫原理运用到分布式入侵检测的领域,提出了基于计算 机免疫学的入侵检测系统。c h e u n g 等人将容错技术引入入侵检测,提出了入侵容忍的概念, 在不改变现有网络基础设施的前提下,使系统不仅能够检测到可疑行为,还能进行系统诊断, 查知违反安全策略的行为、网络组件的操作错误,并自动阻止攻击行为的扩散,存储操作状 态,在当时引起较大反响。此后,模糊技术和遗传算法也相继出现在有关入侵检测的文献中。 机器学 - - j 6 技术方法应用到入侵检测领域是w l e e 等人首次提出的,运用数据挖掘( d a t a m i n i n g ) 的方法对审计数据进行处理,改善检测系统的准确性和可扩展性,此后基于数据挖 掘的入侵检测技术得到了长足的发展,并对国内入侵检测技术发展产生了积极的作用。首先 是lp o r t n o y 提出了无指导的聚类入侵检测方法,随后,针对现有入侵检测系统触发警报量 大的现状,kj u l i s c h 和0d a i n 等提出识别入侵警报根源的技术,同年又出现了基于文本分 类的入侵检测技术。近年来受到国外先进技术的推动,国内也有许多高校和研究机构从事入 侵检测的应用研究:宋世杰等人对数据挖掘技术在网络型误用入侵检测系统中的应用进行了 研究,王帅等人基于移动a g e n t 的网络入侵免疫系统,向继等人研究了聚类算法在网络入侵 检测中的应用,梁可心等人提出了一种基于人工免疫理论的新型入侵检测模型。 机器学习技术现在已经成为解决入侵检测问题的首选方法,并在众多专家学者的不懈努 力下,新的检测方法层出不穷,检测效果也有了很大程度的改进。聚类作为是一种无指导的 机器学习方法,它不依赖预先定义的类和带标号的训练实例,仅仅依靠数据间的相似度差异 而将数据划分到不同的簇中,在入侵检测领域受到广泛的关注。通过聚类,人们能够识别密 集和稀疏的区域,发现全局的分布模式以及数据属性之间有趣的相互关系,并利用这种关系 解决相关问题。对聚类分析方法的研究改进,对于提高入侵检测系统的整体检测水平,提高 网络应用安全水平有着非常重要的意义。 1 2 研究现状 聚类分析作为机器学习中无监督学习的一个例子,并结合了统计学方面的相关知识,近 几年在入侵检测领域取得了长足的发展,特别是基于距离的聚类分析。通过一定的方式对数 5 基于少量标记数据约束聚类算法的入侵检测技术研究 据进行距离度量,而根据不同的度量方式相同的聚类方法也能产生不同的聚类结果,现在主 要的距离度量方式还集中在欧式距离度量上,通过将网络数据中离散型数据值转化为连续型 数据进行统一计算。 为了使聚类方法的性能得到更大地提高,将其他领域的方法与聚类方法相结合,以弥补 数据挖掘领域中聚类方法的某些缺陷,将聚类方法的优越性能发挥得更加充分。常采用的著 名方法有:遗传算法、免疫算法、蚂蚁算法等。近年来的人工免疫系统的研究是一个崭新的 应用领域,随着免疫计算的发展,给聚类分析领域带来新的活力。免疫算法来自模拟人体的 免疫系统,并从体细胞理论和网络理论中得到启发,实现了类似于免疫系统的自我调节功能 和生成不同抗体的功能。另外,半监督学习也是当前应用到入侵检测领域中的比较成熟的机 器学习技术,通过半监督学习技术同聚类方法的有效结合达到良好的检测效果。 目前聚类算法的研究主要有以下几个方向: o ) 初始值的选择以及输入顺序对聚类结果的影响 在数据挖掘领域中可采取的措施可以用多组不同的初始值并进行多次迭代,最终选取其 中最佳者作为计算结果,但是不能保证一定达到全局最优解。最优解聚类过程的本质是一个 优化的过程,通过一种迭代运算使得系统的目标函数达到一个最优解。然而这个目标函数在 状态空间中是一个非凸函数,它有许多极小值,而其中只有一个是全局最小值,其他都是局 部最小值。优化的目标就是达到全局最优,因此一个非凸函数的优化问题是待解决的研究课 题。 ( 2 ) 算法的效率问题 提高算法的效率问题是当前聚类领域中研究的又一个重要问题。通过改进现有的聚类算 法,使之在处理大型数据库时,也能够较快运行完毕,以至于算法能够满足现实应用中对时 间的要求。 ( 3 ) 参数问题 现在聚类方法中参数过多或者无法确定也是待解决的难题,参数的大小直接影响聚类过 程,能够选择到合适的参数是一个好的聚类算法所必须具备的。传统的聚类算法中,参数往 往是专家根据统计经验主动选取的,网络多样化的加剧,网络数据已经发生了很大的变化, 利用旧的参数区检测新的网络数据样本已经不具有以往的优越性,找到一个好的计算参数的 方法已经成为一个算法研究者首先应该关注的问题。 ( 4 ) 半监督聚类算法的研究 目前有关聚类的研究成果大都是对均值算法、模糊均值算法的推广和改进,这些研究成 果对聚类的性能都有不同程度的提高。然而对基于机器学习中半监督的应用及其作用于聚类 算法的研究文献不多。由于它符合一个好的聚类算法的许多要求,因此对基于半监督学习的 聚类算法的进一步研究与开发将会取得意想不到的成果。 网络中存在与已知类型数据具有不同分布的未知类型的数据,在聚类之后应被划分到不 6 _ 南京航空航天大学硕士学位论文 同的簇中。另外,由于标记数据很少,未知类型数据所在的簇也有可能未被标记。所以,本 文采用了一种新的标记方法对数据进行标记,有效解决了未知攻击类型标记困难的问题。 主动学习策略使用尽可能少的标记数据来提高分类器的性能,从而有效地减少人工标记 数据的代价。目前主动学习有相当多的研究,其基本原理是用少量的标记数据建立初始分类 器,每次学习过程中分类器可以主动在未标记的数据集中选择最有利于分类器性能的数据, 并将这些数据以一定的方式加入到训练集中,来进一步训练分类器。 本文提出的算法就是基于主动学习策略的,针对当前聚类算法检测效果较差,对未知攻 击类型没有很好的检测能力的问题,提出了一种新的半监督聚类算法。该算法通过引入两种 不同的标记方法对未知网络数据进行标记,并根据网络数据的特点采用混合数据属性度量方 式来表征数据间的相似度,无论对于算法的效率还是算法检测性能都取得了较好的效果。 1 3 本文的主要工作 目前,网络环境复杂多变,新的攻击手段、攻击形式层出不穷,使得入侵模式和网络行 为特征发生了改变,入侵检测系统能够对新型攻击行为进行检测已经成为新的需求。因此, 为了改进入侵检测算法。提高检测率,有效检测未知攻击,本文提出一种新的基于半监督聚 类的入侵检测算法并进行了仿真实验以验证其有效性。论文主要内容如下: ( 1 ) 阐述本文研究的背景和意义,系统地介绍入侵检测的基本理论,分析了入侵检测方 法的研究现状和当前入侵检测方法存在的问题;接着介绍了聚类分析的相关知识,并分析基 于聚类的入侵检测算法存在的问题。 ( 2 ) 针对当前聚类入侵检测算法存在的问题,提出一种新的半监督聚类的入侵检测 s s c i d ( s e m i s u p e r v i s e dc l u s t e r i n gi n t r u s i o nd e t e c t i o n ) 算法,分析网络中标记数据的监督信 息是如何并入到划分聚类算法中的,并将两种标记方法应用于半监督聚类过程中。通过查询 网络中未标记数据与标记数据的约束关系,采用投票法和比例划分法对未标记数据进行标 记,这样可以检测出未知攻击,即使少量的标记和约束也能大大改进算法的性能。在数据对 象相似度度量方面引入了混合数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 业务流程管理与系统实施手册
- 送你一轮明月中考作文(10篇)
- 科研助理合同
- 协议推广佣金合同
- 体育部干事申请书
- 小区绿化维护服务合同
- 专业培训服务合同及学员管理规范
- 创作者合作共赢协议
- 2025年仲裁秘书招聘面试专项练习含答案
- 财务管理预算编制标准模板工具
- QGDW11970.1-2023输变电工程水土保持技术规程第1部分水土保持方案
- 丹东市公务车辆管理制度
- 变电站二次设备管理制度
- 2025年七一党课-作风建设永远在路上学习教育党课
- 黄山义警队管理制度
- 2025年全国高考数学真题全国2卷
- T/CGAS 026.1-2023瓶装液化石油气管理规范第1部分:安全管理
- 数字经济下的反垄断策略-洞察阐释
- 《特应性皮炎Atopic Dermatitis》课件
- 自行缴纳社保协议书模板
- 2024年新冀教版七年级上册数学教学课件 1.1 正数和负数 第1课时
评论
0/150
提交评论