




已阅读5页,还剩62页未读, 继续免费阅读
(计算机科学与技术专业论文)基于lssvm的入侵检测模型与实时测试平台研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院学位论文 摘要 作为网络安全领域中的重要技术之一,入侵检测越来越受到广大研究者和政府职能部 门的关注。随着入侵检测技术的不断发展,检测引擎的精度和效率成为了大家关注的主要 问题,其中误报率和漏报率的矛盾尤其突出。数据挖掘是近年来新兴的机器学习研究领域, 在算法和应用方面发展迅速。目前,数据挖掘算法在入侵检测中的应用已成为入侵检测技 术研究的一个新方向,得到了学术界和工业界的广泛研究。 最小二乘支持向量机( l s s v i ) 是数据挖掘和机器学习领域中的重要方法之一,是 著名的支持向量机( s v m ) 学习算法的重要扩展,在面向大规模数据的训练学习速度方面 具有较明显的优势。本文围绕基于l s s v 】的数据挖掘技术及其在入侵检测技术中的应用 展开研究。在深入分析数据挖掘和支持向量机( s v m ) 理论背景的基础上,我们提出了一 种基于l s s v m 的入侵检测模型,并利用d a r p a 入侵检测数据集进行了实验分析和验证: 同时对基于l s s v m 的实时入侵检测系统及测试平台技术进行了研究,实现了一个基于 l s s v m 的实时入侵检测系统原型。本文取得的主要研究成果包括: ( 1 ) 提出了基于l s s v m 的入侵检测模型。针对现有入侵检测技术普遍存在误报率 和漏报率高的特点,我们提出基于l s s v m 学习算法的入侵检测建模方法,以提高入侵检 测系统的性能。针对k d d c u p 9 9 入侵检测数据集合的性能测试结果证明:基于l s - s v m 的入侵检测技术在训练时间和误报率方面和传统的s v m 比较具有一定的优势,在训练样 本的大小和漏报率方面都低于常见的机器学习方法。 ( 2 ) 实现了一个基于数据挖掘的自适应入侵检测系统原型。在文中,我们提出了原 型实现的总体框架、组成结构和数据结构,设计了一种动态的模型训练加载方案,使得该 系统具有根据历史审计数据进行模型优化和自适应的能力:实现了实时报文捕获、重组、 特征提取和l s s v m 模型匹配等功能模块;通过实时的网络数据检测实验研究表明,该原 型系统具有良好的实时性。目前,国内类似相关研究还较少有文献报道,本文工作为进一 步推广应用自适应i d s 技术奠定了基础。 ( 3 ) 设计并实现了一个面向实时入侵检测系统的性能测试平台。性能测试平台研究 是入侵检测研究中的一个重要环节,目前,在i d s 领域存在一个严重问题就是缺乏标准化 的、兼容性良好的性能测试平台,不能很好地支持各种入侵检测系统的性能评测和优化。 本文分析了各类入侵检测系统的技术特点,在d a r p a 入侵检测数据集的基础上,设计和 实现了一个功能较为全面、兼容性良好的入侵检测实时测试平台。 关键词:入侵检测,数据挖掘,机器学习,最小二乘支持向量机,自适应 第1 页 国防科学技术大学研究生院学位论文 a b s t r a c t a so n eo ft 1 1 em o s ti m p o n a n tn e t 、v o r ks e c 谢t yt e c l l n o l o g i e s ,i n 加l s i o nd c t 剃o nb e c o m e s m o r ea i l dm o 糟a _ 晚n t i v eb 由c e nr e s e 砌e r s 趾dd e p a r l m e n t so fg o v e m m 咖s a 1 0 n gw i m 也e c o n t i n u o u sd “e l o p m e n t so fi n l m s i o nd e t e c t i o nt c c l l n o l o g y ,t l l ep r e c i s i o na n de m c i e n c yo f d e t c c t i o n e n g 抽e sb e c o m em o r ea 1 1 d n l o r ci l n p o n a 北e s l ) e c i a l l yt 1 1 et r a 曲- o 仃b e t 、v e e n 僦s e p o s i t i v ea 1 1 d 铆s ca l 糊d a t am “n gi san e wl 【i n do ft e c h n o l o g ) rb 船e do nm a c h m el e 锄i n g a r i s e st 1 1 e s ey e a r s ,i t 掣d w sq u i c k j yi na l g o r i t l l ma n da p p l i c a t i o n s n o w ,t h eu s eo fd a t am i n i n g a l g o r i t h m si ni 曲m i o nd e t 瞅i o ni san e w d i r e c t i o no f 幽e 咖d yo f 也ei n 咖s i o nd 积i c i l ,w l i c h i s 耐d e l ys t u d i e db yc o m p a l l i e s 觚du m v e r s i t i e s l e a s ts q u a r es u p p o f tv e c t o rm a c h i n e ( l s s v m ) i so n eo f l em o s ti m p o n 锄tda _ t am i n i n g 锄dm a c h i n el e 啦i n gm e 廿l o d ,w h i c hi s 麟t e n d e d 丘o m 也ef 锄o u ss v m l e 锄 1 i 1 1 9a l g 鲥t h ma i l d b e t t c ri ns c a l a b l ed a t al e 砒1 i 1 1 9s p e e d i h s 陀s i sm a i l l l yr c a r c h e s 也ea p p l i c “蛐o fl s s v m 洫i n t m s i o nd e t e c t i o n a 舭rs 机d y i n gn i et i l c o r yb a c k g r o u l l do fd a t am i i l i n ga i l ds v m ,w c p r o p o s e 趾i n n m i o nd d c c t i o nm o d e lb a s c d l s s v m w ea l s oh a v ed o m al o to f e x p 喊m 锄t s o nd a r p ai n m l s i o n ( 1 e t e c t i o nd a 乜s e t o nt 1 1 eo t h e fh a i l d ,w eh a v cr e s e a r c h e dt h ei 曲1 l s i o n d c t e 击o ns y s t c ma dp 1 桷咖b a s e do nl s - s v m ,a l l dd c v e l o p e dar e a l - t 皿ei r 曲l s i o nd e t c c t i 呻 s y s t 锄p r o t o t y p eb 解e do nl s s v m 0 1 1 rw o r ki l l c l u d e s : ( 1 ) p m p o s e d 蚰i n t n l s i o nd e t e c t i o nm o d c lb a s e do nl s s v m l s - s v mi sak i l l ds u p p o r t v e c t o rm a c h i i l e nh a sag o o de f f i c i e n c yo f c l 髂s i f i c a t i o n ,a 1 1 di sw i d e l yu s e di nm a c l l i n el c 锄i n g a n dp a t t 钿- e c o 鲥t i o n a i l n i l l ga tm eh i g i l 脚s cp o s i t i v ea n d 脚s ea l a m s ,w e 蚵t oa p p l y l s - s v mi nh 曲嫡o nd e t e c t i o n ,e x p e c t i n gk 曲e rp e 墒m a n c e e x 阳汹e 鹏o nk d d c u p9 9 d a t as e tp r o v e dt h a lj n t m s i o nd e t e c t i o nt c c h i l o l o g yb a s c do nl s - s v mi sb e t t 盯t h a t lt r a d i t i o n a j s v mi nt r a i n i n gt i r n ea n d 脚s ea i a 衄,a l s ot l l i sk i n do f t e c h 舯lo _ g yh 蹈锄a l l 涮帕p l es 溉锄d l o w e r 蜘s ep o s i t i v et l l a i lc o m m o nm a c h i n el e 枷n gm e t h o d s ( 2 ) d e v e l o p e da r ii n m 】s i o nd e t e c t i o ns y s t e mp r o t o 够p eb a s e do nd a t am i 血g i nt h i st l l e s i s , w ep r o p o s e dm em a i l la r c k t e c n l r e ,c o m p o n e n ts m j c t i l r e 强dd a t ag m l c t l l r eo fm ep r o t o 咖e w e d e s i g n e d an e wd y n 棚i cm o d e l 打a i l l i n g 趾di m p o r tm c t h o d w 1 1 i c hm a k e sm es y s t 锄 s e l f a d a p t i v e m e a n w l l i l e ,w ed c v e l o p e dm ep a c k e tc a p t i l r ea n dr e c o i l s t r i l c tm o d u l e s ,f e a t u r c p i c k u p 觚dm o d e lm a t c k n gm o d l l l e s r e l a t e dc x p e r i m e n t sp r o v c dt h a tt 1 1 i sp r o t o t y 】p cl l a sg o o d 删t i m ef e a t u r e ( 3 ) d e s i g i l e da dd c v e l o p e dar c a l m m ei n 1 l s i 咖d e t e c t i o ns y s t e mp 王拍珊p l a t f o 咖 r c a r c hi sa l li m p o r t a m 、o r ki 幽s i d e t e c t i 咖r e s e 舯c h e s n o w ,n l e r ei sa p r o b l e mn l a tw e d o n t h a v e u l l m e da n dc o m p a t i b kp l a 晌m s s o ,i “sh a r dt 0c o m p 眦d i 彘r e n tl 【i n d so f i n t m s i o nd e t e c t i o n 巧s t e m s 趾dt e c h n 0 1 0 9 i e s t 1 1 i st l l e s i s 弛a l y z e sm ef c 砒u r e so fv a r i o l l s 访劬s i o nd e t e c t i o ns y s t e m s ,a j l dd e s i g i l e da n dd e v e l o p e da 伽l 鼬嘶o n e da 1 1 dc o m p 撕b j e r e a l t i i i 圮d l a t f o mo nt l eb a s i so f d a r p ai n t m s i o nd e t e c 廿o nd a t as e t k e y w o r d s :b 舢i o nd e t e c t i o n ,d a t am 蕊n g ,m a c 王l i n el e 锄i n g ,l s s v m ,s e l f 二a d 印t i v e 第1 i 页 , 曼堕型堂垫查查兰型塞生堕主垡笙苎 图1 1 图1 2 图2 1 图2 2 图2 3 图3 1 图4 ,1 图4 2 图4 3 图4 4 图4 5 图4 6 图5 1 图5 2 图5 3 图目录 安全访问监视器。2 籼i n g 的遁用入侵检测模型4 二维训练集的分开超平面( w ,b ) 1 2 可分离情况的线性分离超平面1 3 简化分类任务的特征映射1 5 基于l s s v m 的入侵检测架构2 7 u d s 整体结构框架3 6 u d s 内部数据流向。3 6 t c p 头部结构3 7 u d p 头部结构3 8 i c m p 头部结构3 8 i p 头部结构3 8 实验床系统总体框架图4 8 主控程序流程圉5 0 结果查询部件流程图5 l 第i i i 页 国防科学技术大学研究生院学位论文 表2 1 表3 1 表3 _ 2 表3 3 表3 4 表3 5 表3 6 表3 7 表3 8 表3 9 表3 1 0 表3 1 1 表4 1 表4 2 表4 3 表目录 感知机算法描述1 2 基于n 咖1 a l 豹l s $ 订训练结果2 8 基于p m b e 的l s s 、r 】训练结果2 9 基于r 2 l 的l s s 训练结果。2 9 基于u 2 r 的l s - s v m 训练结果。3 0 基于d o s 的l s s v m 训练结果3 0 l s s v m 混淆矩阵31 l s s v m 模型对数据的识别能力统计3 l s v m 混淆矩砗3 2 s v m 模型对数据的识别能力统计。3 2 l s - s v m 模型与s v m 模型检测精度比较3 2 l s s v m 与s v m 训练时间比较3 2 原型实现环境参数3 4 l s s v m 检测模型随报文速度变化情况4 2 l 孓s v m 与s v m 检测准确度比较4 2 第v 页 重糖科学技术大学研究生院学位论文 簿髯符号对照表 i dh l 乜m s i o nd e t e c t i o n 1 d s 翻扛珏s i d 。t o c t l o n 姆或睨n s vs u p p 嘣 s w s u p p o r tv e c t o rm a c b i n e l s s v ml e a s ls q u a r es 卵p o nv e c t 田m a c h j 砷e n l sn e t 碍o 出1 n f o “矬a j o ns e r v 呈c e b o s d e | l yo f s 露稍e e r 2 lr 哪o t ct 0l o c a l u 2 ru s c r t o r o o t r c p1 1 郴s f hc o n 舶lp 积o e o i e d pu s e fd 越a 躺p 羚船l l c m ph l t e m e tc o n t 嗣m e s s a g ep m t ( i c n l i pi n t e m e tp r o t o o o l v cm i c r o s o rv i s u a lc 十+ v c + +m i c s o 盎v i 鳓甜e + m a t l a bm 抽锄蕊c sl 。抽。嘲 k d d k n o w l e d g ed i s c o 、唧a n dd a t am i t l i n g d a r p ad e f e n s ea d v a n c e dl 沁s e a r c hp 埘e c t sa g e n c y r b fr a d i a 王b 韶i sf 艇o nk e m d 酝l p艇u l t i 毛a y c 愆d 孰猫e 衄nk c f n o l w w ww o r l d w i d e w 曲 i & a i d e n t i f ya i l da u 伽e 【m c a t i o n s r ms t n l 曲m 硒s km i n i “龆t i o n q p殛璩酝c 酗孽掰矬 d ed e t e c t i o ne n g i l a nl o c a l h e an g “v o r k r o cr c c e h e fo p e r 嘶n 譬c h a r a c t c r i s t i c 第v 页 独创性声明 本人声明所星突的学位论文是我本人在导师指导下进行的研究工作及取褥的研 究成果。尽我所知,滁了文中特别加蹦标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的磺笺成暴,也不包含为获褥萤防辩学技术大学或其它教育规擒戆学 位或证毒雨使j l l 遗簿靖辫。与我一陵工停的同志对本研究所镀瓣任何贡献麓已程论文 中作了明确的说明并袭示谢意。 学位论文题尉基士暨型煎氛熊撞到搓型生塞盟测遗垩垒珏壅 一 学位论文俸毒签名:翅垂堕 器霸:磷车f 嚣雄辩 学位论文舨权使用授权书 本人完全了解网防科学技术大学有建保留、使用学位论文的规定。本人授权国 防科学技术大学可以像留芳向国家有关部门或机构送交论文的复印件和电子文档,允 诲论文霰查瓣和僖阗;可淡蒋学位论文鼹全部或部分蠹容缓入有关数据痒避行羧索, 可以采用影印、编印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题簿:羹i 堑垡煎厶爨擅鎏攫塑童塞整黧蕊芏宣堡壅 学位论文作者签名: 作者指导教师签名: 日期:潲年,2 一月研群 日期:o 歹年,2 月乏日 国防科学技术大学研究生院学位论文 第1 章绪论 随着网络规模和网络涉及领域的不断扩大,网络安全问题已经成为了必需解决的问 题。入侵检测作为三大网络安全技术( 入侵检测、防火墙和杀毒软件) 之一,由于其旨在 将安全问题消灭在萌芽阶段的思想,得到了研究者的青睐。机器学习作为人工智能领域的 核心技术,一直以来都是人工智能研究的重点。支持向量机( s v m ) 是机器学习的重要方 法,在模式识别、回归估计与信号处理等方面都有广泛的应用。最小二乘支持向量机 ( l s s v m ) 是由支持向量机( s v m ) 改进而来的一种新的机器学习方法,具有训练速度 快和泛化性能好的优点。本文在国家自然科学基金项目“基于增强学习的自适应入侵检测 方法研究”的资助下,结合智能技术对入侵检测问题展开研究,主要研究基于最小二乘支 持向量机的入侵检测技术。 本章主要分析研究背景和选题依据,探讨了当前网络安全的形势和研究入侵检测的原 因和目的。同时,在本章最后还介绍了论文的组织结构、主要工作和创新点。 1 1 本文研究背景 随着网络应用的普及,网络安全问题越来越突出,网络的不安全性所造成的损失日益 增大。同时,通用的安全模型逐渐成熟,在这种情况下,使得研究开拓新技术来解决网络 安全问题成为了学术发展和社会安全保障的需要。 1 1 1 网络安全的需求 作为上个世纪后半期最重大的发明之一,互联网对整个人类社会产生了重大而深远的 影响。近几年中国互联网的飞速发展,对国内的经济、政治、文化等方面的发展起到了重 大促进作用。个人用户通过互联网获取信息,进行娱乐休闲;企业用户通过网络发布产品 信息,实现电子商务;政府部门也通过互联网进行办公,提倡电子政务。根据中国互联网 信息中心提供的中国互联网络发展状况统计显示,截至2 0 0 2 年1 2 月我国共有上网用户 5 9 1 0 万人,上网计算机2 0 8 3 万台,w w w 站点数3 7 1 6 0 0 个1 2 j 。权威的h o b b c s i i l t c m e t 大 事记也表明,截至2 0 0 2 年7 月全球共有上网计算机1 6 2 ,1 2 8 ,4 9 3 台,w w w 服务器3 7 ,2 3 5 ,4 7 0 台【3 】。 互联网已经成为人们生活中不可缺少的一部分,但其从一开始就是不安全的。这是因 为,互联网最初的设计目的是开放互联,而不是安全性。据中国互联网发展状况统计报告 显示,在2 0 0 2 年中超过六成的中国互联网用户的计算机曾被入侵过;另据2 0 0 2 年的年度 调查显示,2 0 0 2 年网络服务器被攻击的次数比2 0 0 1 年增长了一倍。诸如红色代码 ( r e d c o d e ) 、尼姆达( n i m d a ) 等网络蠕虫病毒在h t e m e t 上肆虐,造成数十亿美元的损 失。 除了计算机病毒外,广大互联网用户还面临黑客( h a c k c r ) 的威胁。黑客行为正在全 世界范围内活动,随处可以下载的黑客工具使得网络攻击更加容易。据c e r t ( 计算机紧 第l 页 国防科学技术大学研究生院学位论文 有一些鉴别模型需要可信的第三方。在这种情况下,两个实体彼此间不需要相互信任, 但应同时相信某个权威的第三方( 一般为认证中心c a ) ,由第三方来验证通信双方。 访问控制 访问控制是安全策略中最重要的部件之一。访问控制分为自主访问控制d a c ( d i s c r c t i o 衄r ya c c e s sc o n 廿0 1 ) 和强制访问控制m a c ( m a l l d a t o r ya c c e 蟠c o n 血d i ) 。 在基于自主访问控制的系统中,主体的拥有者负责设置访问控制权限。自主访问控制 是最常见的类型,大多数i n 和w i n d o w s n t 都使用n a c 。 强制访问控制由系统本身来规定访问权限,而不是让主体的拥有者来控制访问权限, 主体的拥有者在系统中甚至没有对其它主体进行分配的权力。系统根据主体和对象的分类 来控制访问权限。m a c 能够防止特洛伊木马( 1 m j a l l ) 的攻击,对安全高度敏感的计算机 系统通常都使用m a c 技术。 网络通信需要某种形式的访问控制,分为显式与隐式两类。显式的访问控制包括将出 境( 0 u t b o u l l d ) 的网络连接仅限于某一组特定的用户;隐式的访问控制则包括在网络通信 中运用加密技术,如果网络层接收到一个不能通过密码鉴别的数据包则丢弃该数据包。 如果节点或用户没有密码系统凭证,将不能访问任何其他站点。 网络访问控制包括防火墙和路由器数据包过滤等形式,在两个网络的连接点安装特殊 的网络软件或硬件来调整通过网络的数据包的流动。路由器决定是否允许数据包向某个特 定方向流动:防火墙包过滤组件与路由器类似,并在此基础上实现更多的功能,如评估更 加复杂的访问控制规则。网络访问控制一般在网络协议栈的较低层次进行,应用级代理防 火墙则运行在网络协议栈的高层。应用代理能够作出该代理能理解的、用主体及主体属性 的术语描述的访问控制决策。 审计 安全审计是一个被信任的机制,属于可信任计算库t c b 唧( t m s t e dc o m p u t i l l gb 嬲e ) 的一部分。访问监视器使用审计把它的活动记录下来,记录的信息包括主体和对象的标识、 访问权限请求、日期和时间、访问请求结果( 成功或失败) 等。审计记录应该以一种可信 的方式存储。 总的说来,访问控制的成功与否很大程度取决于请求主体。系统假设主体身份在登录 期间由i & a 控制,入侵者通常通过寻找特权程序的缺点来获得系统的超级用户权限。即使 正确地设置了访问控制规则,入侵者仍能够攻击一个系统并获得全部的控制。为了查出问 题,系统至少必须监视用户的行为,最好能够实时检测出攻击并自动做出反应。有效地利 用一个能检测出i & a 漏洞的入侵检测系统( i d s ) ,有助于获得系统安全问题最佳的处理 方案。i d s 被设计用于检查和响应那些闯过访问控制的攻击。 1 2 现状分析 入侵检测技术可以弥补通用安全模型不能实时检测攻击的弱点,已经成为了网络安全 中的一项重要技术。入侵检测通过帮助查找己知的攻击手段、可疑活动的组合和尝试识别 蓄意破坏行为事件的模式,提升了传统意义上的审计概念。近年来,入侵检测技术发展很 快,在此,我们将在了解入侵检测概念和分类问题的基础上,简单了解现阶段所采取的主 要入侵检测方法和思想。 第3 页 里堕型兰垫查查堂型壅生堕堂堡丝奎 事件,异常检测需要建立一个阀值来区分正常事件与入侵事件。 根据检测出入侵之后反应措施i d s 可以分为主动反应型与被动反应型。主动反应可能 包括入侵证据的进一步收集、自动更改系统环境以及对入侵者的反击等。被动反应只是将 检测结果报告出来,由安全管理人员采取相应措施,被动反应措施包括告警、s n m p 报告 等。 根据时间( t i m i n g ) 特性i d s 可以分为间歇方式( 批处理模式) 和实时方式( 连续模 式) 。在间歇模式下,i d s 对数据流的分析处理是间断的,采用类似通信系统中的“存储 一转发”方式。实时i d s 对实时数据流进行连续处理。网络型d s 一般采用实时方式,处 理网络上的数据流。实时i d s 能够在检测出入侵的同时采取相应的反应措施。 1 2 2 入侵检测方法现状分析 选择不同的方法研究入侵检测问题,会取得刁:同的效果。现阶段国际上所采用的方法 很多。下面,我们将根据检测引擎工作原理的不同,简单介绍异常检测和误用检测目前所 采用的各种主要方法: 统计方法 瑚o ,4 l 】 统计方法是异常检测较多采用的分析方法。正常的操作存在内在的统计规律,i d s 监 测主体( 如用户) 的活动并生成相应的活动特征( p r o f i l e ) 。活动特征含有若干指标( m e a s u r e ) 值,每个指标值代表系统安全性某个方面的阀值,这些指标值根据经验值或者一段时问内 的统计得到。如果当前特征指标值比特征阀值大,则表示指标的取值偏离较大,系统行为 可能异常。 统计方法的优点是可以利用成熟的统计理论成果。但统计方法也存在不少闷题:一是 统计方法对事件发生的次序不敏感,只能够检测出事件总数,因此只采用统计方法可能会 忽略掉由若干关联事件构成的入侵行为;二是入侵者通过训练i d s ,能够使得i d s 把异常 逐渐视为正常。三足在构建基于统计方法的i d s 时,很难选取合适的阀值来判断一个异常 模式。阀值过低,就容易造成误报;过高又会导致漏报错误。晟后,并不是所有的行为都 可以用统计方法来建模,统计方法要求i d s 的数据源是一个宽平稳( q u 硒i s t a t i o n a r y ) 分 布的信息源。更高级的建模工具,如马尔可夫链,可以用来对不满足条件的数据源进行建 模,但其时间代价非常高。 神经网络方法1 4 “圳 与统计方法相比,神经网络方法不依赖于数据源的统计假设条件,其基本思想是用一 个信息单元序列来训练神经网络,输入包括当前的信息单元序列和过去的信息单元序列集 合,神经网络由此可作出判断。神经网络由许多神经元组成,在数据噪声环境下能够很好 地工作;可更好地考虑各种变量间的相关性,并且能自动学习和更新。神经网络方法的缺 点是其拓扑结构和网络单元的权重需要经过多次学习才能够确定。 预测模式生成( p r e d i c 娃v ep _ n e mg 蛐e 糟t i 蛐) 【4 ” 预测模式生成方法的一个基本前提假设就是事件序列不是完全随机的,而遵循一定的 可辨别的模式。由于考虑了事件之间的关系和次序,采用该技术的i d s 会取得较好的预测 效果。 预测模式生成使用时间序列规则描述用户的正常行为模式,归纳产生的规则在学习阶 段动态地改变,保留下来的都是具有准确预测和高可信度的规则。一条规则如果在大多数 第5 页 国防科学鼓零大学磅究生豌学位论文 专家系统自动对所涉及的攻击行魏谶行分析工作。由予捺理规煲一般都怒根据已知的 嶷全漏洞进行构造的,因此无法检测来囱未知漏洞的攻击威胁。总的来说,专窳系统对历 史数据的依赖性比熬于统计模型的检测方法要少,因此系统的适应性比较强,可以较灵活 地适应多种安全策赂和检测需求。 状态转移分析 5 x 删 狄态转换努橱方法愁入侵表示受一系列豹获态转换,每一拿获态对应一个系统行受, 簿个状态都必须瀵鬣特定的布尔表达式。状态问用有向弧连接,当弧上酶特征行为发生时, 状态发生转移。如聚到达危险状态,表泳当前可能正在发嫩入侵事件。 i l g 眦等提出的s 1 a t 采用状态转换分析方法,并在u n i x 上实现了一个u s 骱坩系统。 近来也有人尝试用呻i 网来进行入侵检测1 2 6 1 。 毒键( k e y s t 聊妇) 监视 2 5 】 者键整援技泰避i 逢弱户垂孽毒键孬菇寒检测入霞,最基零豹等段是逶过模式骐撼米发臻 代表入侵的击键序列。 如果没有操作系统的支持,击键娃鑫视技- 术很难有一个w 靠途径来截获用户的击键动 作。而且,同一个入侵在击键层次上有莎种表示方法,必须监视所有可能的击键行为才不 会漏过该入侵。击键脏视技术没有对击键行为的语义分析,用户s h e l l 下的别名( 舢i 雒) 麟疆良绕过这种技术。用户登录s h e l l 遥常提供了许多带参数趣速记名来代表命令序列,它 懿藏羧蠡终爱名,类钕予宏定义。 由于这释技术只分析用户击键行为,对于由捷行恶意程序代码而导致的蠡韵坡击这耱 方法就无能为力了。 模型推理【3 3 】 模型推理方法结合使用误用模型和诞据推理来检测误用情形的发生。基于模型的入侵 捻测方法使用一个攻潦想定数据库,每个攻击想定由一组构成一个入侵豹彳亍为缀成。 在强意霹刻逡撵羧毒想定鼗蠢瘴瓣一个子集缓设秀系绞滋在经受戆入侵,l d s 擞攥窜 计数据得到酌信息来核实这些想定,络浆霹能证实或者推翻糖应的怒定,这个j 熏程称作预 期核实。核实过程擞据当前的活跃模型,产生下一个需要张举计记录中核实的行为集合。 总的说来,误用检测方法试图通过融知的入侵模式来捻澳8 入侵行为,它所撼于的攻击 特征库只是入侵行为的一个子集,对于特征库以外的攻击模式,误用检测不能够梭测出来, 戮 | 墩误用捡测方法嚣定存在漏报错误。努常检测方法本质上酆是统计学方法或纛其交神。 这类方法最大鹣簌杰骥跫入爱者麓够簸褊捡溅系统,| d s 零隽容易受蔓| 玫壹。爨薅上漤, 现有入侵检测方法夜下列特性上存在赘鬣的不足1 2 辑: l 、可扩展性不强。一个好的i d s 威该能够根据其应用环境进行灵活配置,检测方法 不应该对检测系统的环境作出假设,磷则将会影响检测系缆的可扩展性。但像錾于神经网 络等方法的检测系统,要么依赖于特定激型操作系统【2 趴,黧么依赖与特定的网络结构。 2 、检测效率较低。实际的i d s 通常缀难检测出具有欺骗性的入侵。异常梭测豹计算 靛徐棼害走,溷荛暴统维护戆活动记录癸遮羞每个事终更耨。误爱检测一簸都浆 簸都浆驳专家系绫s i l e l l 来编 码和嚣辩羧击特征,这些shell需要解释蕊掰集,函蔼运幸亍对剡费耀缀菇,露鼠规则集只允许 间接定义序列事件的相互关系。这种性能不能够适应高速网络发展,特别魑g i g a :b i t 网的应用。 3 、可维护性麓 。维护一个i d s 所需要的技能远远超越专门的安全知识。鼹新规则集褥要7 解专家系统规则语言,并理解系统如何处理这些规则,如此才能够避免焱统中已有 簸爨|l移囊增援曼 里堕型堂垫查奎兰堡茎生堕兰垡笙奎 题。 4 、可移植性差。迄今为止的i d s 都是为某个单一的环境构建的,很难直接应用于其 他环境,即使它们具有类似的安全策略和安全目标。这是因为大部分i d s 都是目标系统特 有的,是为目标系统进行过定制的。这些系统的重用和重新定位都非常困难,除非系统一 开始就设计成一种通用模式。但通用模式下的系统效率较低,且功能受限。 当然,现有的入侵检测方法还有很多,在这里只是讨论了主要文献上常见的方法。不 可否认,各种方法在某些方面都有自己的强项。但是普遍都存在漏报率高和误报率高的问 题。所以,这正是我们希望拓展新的研究方向,也是采用新的机器学习方法来研究入侵检 测问题的重要原因之一。 1 3 机器学习与入侵检测技术 自2 0 世纪8 0 年代以来,机器学习作为实现人工智能的途径,在人工智能界引起了广 泛的兴趣。特别是近几年来,机器学习领域的研究工作发展很快,已成为人工智能的重要 课题之一。除了一些重要的理论和算法之外,目前已开发出了许多成功的机器学习的实用 技术,范围涉及检测信用卡欺诈事件的数据挖掘程序、学习用户阅读喜好的信息过滤系统、 可供在高速公路上行驶的自动车辆等诸多方面【m i 纳d l9 7 】。 入侵检测问题事实上就是挖掘和攻击模式识别的过程。当前,通过与机器学习等人工 智能研究领域的学科交叉,有关自适应入侵检测方法的研究已取得了若干研究成果。已提 出的方法主要包括采用数据挖掘( d a _ t am i n i n g ) 的自适应入侵检测方法【lo ,1 2 l 、基于神经网络 的入侵检测方法【4 3 】、基于时序模式学习的入侵检测方法1 4 7 j 、采用人工免疫系统和进化计算 的自适应入侵检测方法【2 8 】和基于统计学习和支持向量机的入侵检测方法肼柏】等。基于数据 挖掘的i d s 主要采用归纳学习方法进行特征选取和建立具有规则形式的分类器。基于神经 网络的i d s 则直接利用神经网络对用户和系统行为进行建模,如r y 粕等阳舯j 提出的神经 网络入侵检测器( n n l d ) 利用前馈神经网络学习正常的用户行为模式,从而实现异常检测。 l a i l e 等【2 7 】利用基于实例的机器学习( i n s 虹m c e b 舔c dl e 跚血g ) 方法进行了具有时序特征的用 户命令入侵模式学习,显示了机器学习方法在异常检测中的应用潜力。y 咖g 等研究了利 用h m m 学习用户行为的异常检测方法。 统计学习和支持向量机作为一个刚刚兴起不久的机器学习研究领域,在手写体识别等 大规模问题的应用中显示了良好的性能,并且在理论方面也具有比神经网络更加完善的研 究结果。目前基于统计学习和支持向量机的入侵检测方法研究也得到了学术界的关注,例 如m u k k 锄a l a 等提出的采用支持向量机的误用检测方法,获得了优于神经网络的检测性 能。 众多的事实表明,机器学习技术本身已经日趋成熟,机器学习在入侵检测中的应用也 开始受到广泛关注。所以,我们有理由相信采用新的机器学习方法来研究入侵检测问题能 够取得可观的结果。事实上,这也是最初促使我们采用机器学习方法研究入侵检测问题的 另一大重要原因。 1 4 主要研究工作和创新点 本文采用理论分析、仿真实验与原型系统相结合的方法,将机器学习和模式识别的原 第8 页 国防科学技术大学研究生院学位论文 中统计学习和数据挖掘算法使用的特点,构建了一个界面友好,兼容性较好的实验测试床。 第六章总结全文的工作,并提出进一步研究工作的设想。 第l o 页 国防科学技术大学研究生院学位论文 第2 章s v m 理论背景与相关研究工作 支持向量机是机器学习中一个新兴的研究领域,在模式识别、回归估计和信号处理等 问题中展示了优秀的性能。本文主要研究基于支持向量机的入侵检测技术,作为全文研究 的重要理论基础,本章首先介绍s v m 相关的理论背景,然后介绍支持向量机技术应用在 入侵检测方面的相关研究工作,并简单介绍本文研究方案。 2 1s v m 理论基础 + 本节部分结论和证明推导参见文献【1 5 ,3 2 】。 支持向量机的最早研究可以追溯到上个世纪七十年代末期。但是,近年来,支持向量 机在模式识别等领域中的广泛应用引起了研究者越来越多的注意。支持向量机的应用领域 非常广泛。首先是模式识别领域的多种应用,如数字签名识别,对象识别,语音识别,粲 夸克检测,图像识别中的人脸识别,以及文本分类等等。另外在回归估计领域,支持向量 机曾经和时间顺序预测测试平台进行了比较,应用于b o 武o n 住房供给问题,以及p e t 的 操作倒置问题等。同时,支持向量机在信号处理方面也得到了广泛的应用。 在绝大多数情况下,支持向量机的性能( 测试集上的错误率) 都会比其他的方法有所 提高。关于支持向量机在密度估计和a n o v a 分解中应用的相关资料指出,在不考虑泛化 性能的前提下,支持向量机没有任何先验知识,仍然可以做出较为准确的判断。 推动支持向量机发展的根源可能有多种说法,如标准偏差最小化,容量控制,过拟合 等,但是最根本的原因都是一样的。简单地说,就是针对一个学习任务,在有限的训练数 据的情况下,平衡训练数据集上的准确性和支持向量机的“容量”,这种“容量”指的是 在任何训练数据集上学习都不出错的能力,从而获得最佳的泛化性能。支持向量机的“容 量”太大,就好像是一个植物学家具有了一个照相似的记忆,当一棵新的树出现时,他可 能认为这不是一棵树,因为新出现的树和植物学家记忆中的树的树叶在数量上可能是不同 的;支持向量机的“容量”太小,就好像是刚才那位植物学家粗心的弟弟一样,他认为如 果是绿色的,就是树。这也不能保证较好的泛化性能。正是在准确性和泛化性( “容量”) 要求都很高的情况下,支持向量机得到了广泛的应用和青睐。 2 1 1s 简介 线性学习器是支持向量机和神经网络理论的重要基础。对于监督学习来说,学习器会 输入一个带有标记( 或者输出值) 的样例( 或输入) 的训练集。样例通常是以属性向量的 形式给出,因此输入空间是r “的子集。一旦给定输入向量,就可以为问题选择一定数目 的假设函数集。其中,线性函数最容易理解而且应用最简单。传统的统计学和经典神经网 络文献已经阐述了许多利用线性函数区分两类事件的方法,以及利用线性函数插值的方 法,并为有效的迭代方法及其泛化性能的理论分析等在内的技术提供了一个框架。 两类问题的分类通常用一个实值函数f :x 瞅斗r ,按照这样的方式操作:当坟x ) o 第1 l 页 国茨科学技拳大学磷究生院学短论文 2 。2 裙关研究工作 支持向量机的研究取得了丰富的理论成荠酚妊糨档妫霸黼p 。孺翼i 潋侧港瞪凌? 噬划氍剥雾弱蠢书景甜湎 霎霉。型露嚣黼鬻侵检浏;翮髓骶羽最后在原。 茎耋冀:| 酊耄蓁霎婺攀菱 酬驰r 雏鲋骶蠹疆玎上嘲星期弭吱型器璐滥捌;嘤蹦嚯连i 囊癖雾觑砸r u r 现在以 下几个方面: 1 系统地研究了统计学习和支持向量机的相关理论,并通过总结和提炼,初步有效 地将其与入侵检测中的系列问题结合,形成了较为完整和成体系的理论基础,为后续研究 者克服了资料分散和理论欠缺的问题。 2 模型研究。结合数据挖掘和最小二乘支持向量机的特点,设计并分析了基于l s s v m 的入侵检测模型和相关的关键技术,并对基于最小二乘支持向量机的入侵检测模型进行了 可行性和有效性方面的实验验证。 3 设计原型系统。首次结合理论分析与仿真实验对基于最小二乘支持向量机的入侵 检测技术展开研究,将实验结果同支持向量机的判断结果进行比较,从而得出:在训练数 据准确可靠的情况下,基于最小二乘支持向量机的入侵检测技术具有较快的速度和较高的 准确率。 4 对测试平台问题展开研究。针对目前面向数据挖掘的入侵检测方法算法复杂,但 实现方法大体相似的特点,尝试通过实验床的方法来克服这些大量重复性的工作。实验床 的实现,对于今后面向数据挖掘、机器学习和统计学习等类似算法来进行入侵检测研究提 供了一个通用的平台,这对于同行研究具有较大的参考价值,同时也为后续的研究工作打 开了局面。 1 5 论文组织结构 论文共分为六章,分别为: 第一章是绪论,介绍入侵检测研究背景、研究现状与当前检测分析方法的不足,以及 基于支持向量机的入侵检测的研究概况,并简要介绍了论文的研究内容、主要创新点和组 织结构 。 第二章介绍支持向量机理论背景和相关研究工作。作为全文的理论基础,首先介绍支 持向量机基础知识,然后分析支持向量机在入侵检测相关领域的研究现状,并在此基础上 探讨了本文的总体研究方案。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科技论文考试题及答案
- 考评员考试题及答案
- 餐具及厨具制作工标准化作业考核试卷及答案
- 物料输送及烟气净化工技能操作考核试卷及答案
- 酒师考试题及答案
- 冷却筛分工测试考核试卷及答案
- 隧道巡视养护工晋升考核试卷及答案
- 钒铁浸滤工岗位操作技能考核试卷及答案
- 2025年教师招聘之《幼儿教师招聘》通关试题库含答案详解【新】
- 戒毒条例考试题及答案
- 安庆飞凯新材料有限公司6000吨-年光固化树脂及表面处理涂料项目环境影响报告书
- 月子会所运营方案
- 排污单位自行监测方案编制模板
- 工作安全分析JSA杜邦
- YY 1727-2020口腔黏膜渗出液人类免疫缺陷病毒抗体检测试剂盒(胶体金免疫层析法)
- 粘膜免疫系统概述
- 10室外配电线路工程定额套用及项目设置
- 钢板桩及支撑施工方案
- 急救中心急救站点建设标准
- 冷藏车保温箱冰排使用记录
- 精细化学品化学-课件
评论
0/150
提交评论