(计算机应用技术专业论文)基于支撑矢量机的入侵检测.pdf_第1页
(计算机应用技术专业论文)基于支撑矢量机的入侵检测.pdf_第2页
(计算机应用技术专业论文)基于支撑矢量机的入侵检测.pdf_第3页
(计算机应用技术专业论文)基于支撑矢量机的入侵检测.pdf_第4页
(计算机应用技术专业论文)基于支撑矢量机的入侵检测.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)基于支撑矢量机的入侵检测.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着计算机网络的迅速发展和日益普及,有关网络的安全问题也日益突出。入 侵检测是对防火墙、病毒检测、加密等传统计算机安全机制的种有益补充,增 大了对系统与网络安全的保护范围。支持向量机是自上世纪9 0 年代提出的一种基 于统计学习理论的机器学习算法。与其它学习算法相比,支持向量机有许多优点, 其理论基础坚实、推广能力良好、非线性处理能力强大、维数不敏感等,所以受 到了越来越多的关注与重视,并已成功地应用于模式识别、回归估计等领域。 正因为s v m 有这些显著的特点,目前已有诸多的学者探索把支撑矢量机运用 到入侵检测中。针对大规模、高维异构的入侵检测数据,如何应用支持向量机提 高入侵检测系统的性能正是本文工作的核心,论文涉及的主要内容如下: l 各个属性不完全属于同一类型的多维数据我们就称之为异构数据,这种数据 的差异性度量一直是个难点。由此我们引入h v d m 距离函数,并根据信息熵理论原 理对其进行了加权改进,提出w h v d m 距离函数,从而较为合理科学地解决了高维 异构数据间的差异性度量问题。 2 提出了基于w h v d m 核函数和中心距离比值法的入侵检测。在该方法中,首先 针对高维异构数据,引入w h v d m 距离构造了新的r b f 型核函数,并在数学上证明 了该核函数的正定性,从理论上保证了该核函数的可用性。仿真实验也证明了该 核函数的可用性和有效性;其次。通过应用中心距离比值法大大地减少了直接参 与训练的样本数,在入侵检测系统的识别率、检测率和虚警率下降不大的情况下, 有效地降低了训练时间,仿真实验结果证明了本文提出的入侵检测方法是可行的, 有效的。 关键词:入侵检测支捧矢量机信息熵w i i v d m 距离核函数中心距离比值法 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t a n dp o p u l a r i z a t i o no ft h e c o m p u t en e t w o r k ,t h e s e c u r i t yp r o b l e mi sg e tm o r e :a n dm o r ei m p o r t a n t a sak i n do fh e l p f u lr e i n f o r c ef o r f i r e w a l l ,v i r u sd e t e c t i o na n de n c r y p t i o n ,i n t r u s i o nd e t e c t i o ns y s t e m ( i d s ) r e i n f o r c e d p r o t e c t i o ns c o p eo n t h es y s t e ma n dc o m p u t e n e t w o r k s u p p o r tv e c t o rm a c h i n e ( s v m ) w a s p u tf o r w a r d a sak i n do fm a c h i n es t u d ya r i t h m e t i cb a s e do ns t a t i s t i cs t u d yt h e o r y , b e c a u s es v mh a v em u c h a d v a n t a g e o v e ro t h e ra r i t h m e t i c ,i tw a s p a i dm o r ea t t e n t i o nt o a n d g e ts u c c e s si na p p l i c a t i o no f p a t t e r nr e c o g n i t i o na n dr e g r e s s i o n e s t i m a t i o n n o w a d a y s ,m a n y r e s e a r c h e r s a p p l i e ds v m t oi d sf o ri t sm u c h a d v a n t a g e b u ta l o t o f p r o b l e mb r i n go u t t h e r e s e a r c hw o r ko nt h ep a p e ri sb a s e do nt h ep r o b l e m s t h e m a i nr e s e a r c hw o r ka n dr e s u l t sa r ef o l l o w e d : 1t h em u l t i d i m e n s i o nd a t aw h o s ei n d i v i d u a la t t r i b u t ei sd i f f e r e n ti sc a l l e da s h e t e r o g e n e o u sd a t a ,t h eh v d m d i s t a n c ef u n c t i o ni s b r o u g h ti n a n di m p r o v e db y a d d i n g aa p p r o p r i a t e w e i g h t o ni n d i v i d u a l a t t r i b u t e ( w h v d m ) s o t h ed i s t a n c e m e a s u r e m e n t p r o b l e m i sw e l ls o l v e d 2an e wi n t r u s i o nd e t e c t i o nm e t h o di sp r o p o s e db a s e do nw h v d mk e r n e lf u n c t i o n a n dc e n t e rd i s t a n c er a t i o ( c d r ) f i r s t l y , an e wr b fk e r n e lf u n c t i o nb a s e do nw h v d m i sp u tf o r w a r da n dp r o v e dp o s i t i v ea n dd e f i n i t ei nm a t h e m a t i cf o rt h eh i g hd i m e n s i o n a l a n d h e t e r o g e n e o u s d a t a s e t s a c q u i r e d i ni n t r u s i o n d e t e c t i o n ( i d ) t h ec o m p u t e r s i m u l a t i o n e x p e r i m e n t s h a v es h o w e dt h ek e r n e lf u n c t i o n f e a s i b l ea n de f f e c t i v e s e c o n d l y ,t h en u m b e ro fs a m p l e st h a ta r et r a i n e dd i r e c t l yh a sd e c r e a s e dg r e a t l yb y a p p l y i n gc d r t oi d i nt h es i t u a t i o nt h a tt h ep e r f o r m a n c ei sp r e t t ym u c ht h es a m e t h i n g , t h et i m ec o m p l e x i t yo ft h em e t h o di sd e c r e a s e do b v i o u s l y 1 1 1 en e wm e t h o do fi di s p r o v e df e a s i b l ea n de f f e c t i v eb ye x p e r i m e n t r e s u l t k e y w o r d :i n t r u s i o nd e t e c t i o n ,s u p p o r t v e c t o r m a c h i n e ,i n f o r m a t i o n e n t r o p y , w h v d m d i s t a n c e ,k e r n e lf u n c t i o n ,c e n t e rd i s t a n c er a t i o v6 5 5 6 8 7 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本燧名:璋秘日期型彝星基兰8 曰 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权属西安电子科技大学。本人保证毕业离校 后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有 权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部 分内容,可以允许采用影印、缩印或其它复制手段保存论文( 保密的论文在解密 后遵守此规定) 。 本人签名: 导师签名: 第一章绪论 ! 第一章绪论 1 1 研究背景及意义 随着信息化进程的深入和互联网的迅速发展,人们的工作、学习和生活方式正 在发生巨大变化,效率大为提高,信息资源也得到最大程度的共享。据c n n i c 的统 计,截j j :至u 2 0 0 4 年上半年,我国互联网依然保持着快速增长的态势:其中网民数、 上网计算机数分别达到t 8 7 0 0 万、3 6 3 0 万;c n 下注册的域名数、网站数分别达到 了3 8 2 2 1 6 个、6 2 6 6 0 0 个;网络国际出口带宽总数达到5 3 9 4 1 m i 我国大陆的i p v 4 地 址数达到了4 9 4 2 1 8 2 4 个。图卜l 、1 2 分别显示了中国自1 9 9 7 年1 0 月至2 0 0 4 年7 月以 来的共1 4 次对互联网的调查结果中上网用户数及计算机数的变化趋势。由此可以 看出,近几年来互联网在中国乃至全球正以惊人的速度飞速发展。 图卜1 历次调查上网计算机总数( 万台) 伴随着互联网的高速成长与其给我们带来的在工作、生活、学习上的便捷,网 络安全问题也日渐凸出,它不仅影响着互联网的正常应用,显然已成为信息时代 人类共同面临的挑战。病毒肆虐、黑客猖狂、蠕虫遍地、木马横行。而同时我们 的操作系统及应用系统却漏洞百出,安全系统也是有心无力,表现实在差强人意。 据国家计算机网络应急技术协调中心对2 0 0 4 年上半年所作的安全报告称o ,“2 0 0 4 2 基于支撑矢量机的入侵检测 图卜2 历次调查上网用户总数( 乃人) 年上半年,网络安全总体状况仍然不容乐观。上半年我国互联网上多次爆发大范 围蠕虫传播事件,影响最大的当属利用微软视窗l s a s s 漏洞的“震荡波”系列蠕虫, 感染用户数量达到数以百万计。此外,m y d o o m 蠕虫等事件都对网络造成一定规模 的影响。木马程序带来的危害愈加严重,据抽样监测统计,我国有大量计算机中 被放置木马程序,所开放的后门一旦被人恶意利用后果将十分严重。针对网络欺 诈( p h i s h i n g ) 事件投诉显著增加,大多投诉是因为我国境内主机被欺诈者利用 来提供虚假网页。利用i e 测览器的漏洞攻击增加,由于其具有隐蔽性,很难被一 般用户发现,造成的后果难以预料”。 各种安全防范措施也是应运而生,抗病毒、防火墙、入侵检测等一系列的安全 保障技术如雨后春笋般涌现出来。入侵检测系统作为保障网络安全的重要手段, 圭l d e n n i n g “”在1 9 8 6 年提出开始就一直受到研究人员、工商业界和应用者的重视。 十几年来,研究者提出了许多不同种类的入侵检测系统和检测方法,从入侵检测 的目标类型看,既有基于主机的入侵检测系统“1 ,也有基于网络的入侵检测系统”1 , 或是二者的混合系统“1 ;根据入侵检测系统的知识基础看,既有基于行为的异常检 测”1 ,也有基于攻击模式的误用( 滥用) 检测”3 或是二者的混合系统,以及特权程 序执行迹等”:从实现的技术来看,既有应用传统的统计学方法“”,也有使用人 工智能的方法,包括贝叶斯分类“2 ”1 ,数据挖掘“”,专家系统“,神经网络“,人 工免疫系统“”,p e t r i 网“州,m a r k o v 链 “,隐l d a r k o v 模型( h 栅) 1 ,自治a g e n t 1 , 移动a g e n t 。”,机器学习“”等等,也有不少公司和研究机构推出了商业产品和研究 模型。 但是,一个无法回避的现实是,在当前的网络安全产品中,应用最广、最为有 效的措施仍是早期的防火墙系统。甚至是最简单的包过滤方法。对于入侵检测统 第一章绪论 来说,其中一个最大的难点在于无论使用那种方法,需要计算的数据量都十分巨 大,实时检测的要求难于实现。同时,这些大量的数据对于入侵检测的性能要求 来说又是不完备和不充分的,因此无法满足检测率和误检率的要求。从已经发表 的文献来看,目前的算法仍不能得到令研究人员满意的结果。如何寻找一种简单、 有效的检测算法成为当前入侵检测研究的一个重大问题。支持向量机( s u p p o r t v e c t o r c h i n e s ,s ) 是上个世纪9 0 年代由v a p n i k 等人提出的一种基于结构风 险最小化( s t r u c t u r er i s km i n i m i z a t i o n ) 原则和样本本身的统计学习算法。 与传统的统计学相比,它更注重于来自样本本身的信息而非产生样本的规律( 概 率,条件概率) ,对样本的充分性要求并不高,适合于小样本的学习事件:同神 经网络等学习算法相比,它有较为完备的理论基础,在应用中能够控制风险和置 信范围以及收敛速度,有一定的优势。因此我们选择了s v m 作为入侵检测的基本 算法。针对s v m 的优点和不足,为了满足入侵检测系统的要求,我们对s v m 算法 本身及其在入侵检测中的应用做了一些研究工作。 1 2 入侵检测的研究进展及现状 入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,i d s ) 是对防火墙的非常有益 的补充,能够帮助网络系统快速发现网络攻击的发生,扩展了系统管理员的安全 管理能力( 包括安全审计、监视、攻击识别和响应) ,提高了信息安全基础结构的 完整性。它从计算机网络系统中的若干关键点收集信息,并分析这些信息以确定 网络中是否有违反安全策略的行为或遭到攻击的迹象。入侵检测系统被认为是防 火墙之后的第二道安全闸门,在不影响网络性能的情况下能对网络进行监听,从 而提供对内部攻击、外部攻击和误操作的实时保护。入侵检测技术将在第二章进 行详细的描述,在这里我们先简要的介绍一下入侵检测技术的历史发展及研究现 状。 对入侵检测的研究最早可追溯到2 0 世纪8 0 年代,但受到重视和快速发展还是 在i n t e r n e t 兴起之后,按时间顺序,入侵检测技术的研究和发展历史概况如下: 1 9 8 0 年j a m e sa d e r s o n 首先提出了入侵检测的概念。”,他将入侵划分为外部闯 入、内部授权用户的越权使用和滥用三种类型,并提出用审计追踪来监视入侵威 胁。 1 9 8 6 年,为检测用户对数据库的异常访问,在i b m 主机上用c o b o l 开发的 d i s c o v e r y 系统称为最早的基于主机的i d s 雏形之一。 1 9 8 7 年,d e n n i n g 提出了一个抽象且通用的经典入侵检测模型。首次将入侵 检测的概念作为一种计算机系统的安全防御措施提出。 1 9 8 8 年,t e r e s al u n t 等人改进了d e n n i n g 提出的入侵检测模型。并创建了 基于支撑矢量机的入侵检测 i d e s ( i n t r u s i o nd e t e c t i o ne x p e r ts y s t e m ) ,提出了与平台无关的实时检测思想。 同年,美国军方和政府为u n i s y s 大型主机开发了h a y s t a c k 系统,为m u l t i c s 主机 开发了m i d a s 。 1 9 8 9 年,l o sa l a m o s 美国国家实验室开发了w s ( w i s d o ma n ds e n s e ) ,p l a n n i n g r e s e a r c h 公司开发了i d o a ( i n f o r m a t i o ns e c u r i t yo f f i c e r sa s s i s t a n t ) 。 1 9 9 0 年,h e b e r l e i n 等提出新概念:基于网络的入侵检测- - n s m ( n e t w o r k s e c u r i t ym o n i t o t ) “。从此入侵检测被分为两个基本类型:基于主机的和基于 网络的。 1 9 9 1 年n a d i r ( n e t w o r ka n o m a l yd e t e c t i o na n di n t r u s i o nr e p o r t ) 与d i d s ( d i s t r i b u t ei n t r u s i o nd e t e c t i o ns y s t e m ) 提出了收集和合并处理来自多个主 机的审计信息的检测针对系列主机的协同攻击。 1 9 9 4 年,m a r kc r o s b i e 和g e n es p a f f o r d 建议使用自治代理( a u t o n o m o u s a g e n t s ) 来提高i d s 的可伸缩性、效率和容错性。”。 1 9 9 5 年,i d e s 的完善版本n i d e s ( n e x t g e n e r a t i o ni n t r u s i o n d e t e c t i o n s y s t e m ) 实现了可以检测主机上的入侵。 1 9 9 6 年,g r i d s ( g r a p h b a s e di n t r u s i o nd e t e c t i o ns y s t e m ) 的设计和实现 使得对大规模协同攻击的检测更便利。同年,f o r r e s t 将免疫原理运用到分布式 入侵检测的领域。“1 。此后,在i d s 中还出现了遗传算法、遗传编程的运用。 1 9 9 8 年,r o s sa n d e r s o n 和a b i d ak h a t t a k 将信息检索技术引进到了入侵检 测领域。同年,w l e e 提出和实现了在c i d f ( c o m m o ni n t r u s i o nd e t e c t i o n f r a m e w o r k ) 上实现多级i d s ,并在1 9 9 9 年探讨了运用数据挖掘技术对审计数据进 行处理。5 1 。 1 9 9 9 年,c h e u n g 、s t e v e n 等人再一次提出了入侵容忍( i n t r u s i o nt o l e r a n c e ) 的概念,在i d s 中引入容错技术。 2 0 0 0 年g h o s h ”3 利用神经网络来提取特征和分类。 由于上面包括神经网络和数据挖掘方法在内的大多数方法都需要大量或者完 备的审计数据集才能达到比较理想的检测性能,于是针对现实中小样本的情况下, 有些学者将支持向量机( s u p p o r tv e c t o rm a c h i n e 简称s v m ) 引入到入侵检测中, 如2 0 0 2 年,陆光英脚等利用s v m 识别异常t c p 连接,2 0 0 3 年,绕鲜呻等将支撑向 量机用于检测系统调用序列等。 1 3 支撑矢量机的研究进展及现状 与其它学习算法相比,支持向量机( s u p p o r tv e c t o rm a c h i n e s 。s v m ) 有许多 t a ,如它是线性判决函数,解是稀疏的,所以计算简单:最优化同时针对置信 第一章绪论 范围和经验风险,所以收敛速度和推广能力均可控制,能够避免机器学习中常常 出现的“过适应”和“欠适应”;使用m e r c e r 核函数实现了特征空间中内积由输 入空间中的核函数来计算,使得算法的复杂程度取决于样本数目而非样本维数, 避免了维数灾难等。 正因为s v ) 4 对其它学习算法有如此多的优势,从1 9 9 5 年出现到现在,正吸引 着越来越多研究者的兴趣。下面简单列出一些对于支持向量机算法有较大影响的 部分研究成果。支持向量机最早应用在手写体识别上”,取得了不俗的识别效果, 并由此走向一个通用的学习算法。针对支持向量机不包含任何关于具体数据先验 信息的特点,许多学者提出了在支持向量机中融入变化不变性和构造虚拟样本的 方法”。针对支持向量机训练时间长,内存占用大的应用瓶颈,先后提出了 c h u n k i n g “”,o s u n a “”,s m o “”,s v m l i g h t “7 1 等快速训练算法。针对判决时间长的 缺点,提出了简化和近似判决准则的方法”。针对一般支持向量机中的一次损失 函数,提出了最4 , z 乘支持向量机“。也有许多学者研究支持向量机的推广能 力估计方法”。“1 和参数选择方法”。不少文献说明了使用支持向量机构造多类分类 器”和无监督学习方面1 的研究等。随着支持向量机的迅速发展,又出现了比支 持向量机更为普适的核方法研究”7 ,使得凡是使用内积运算的传统方法都能通 过m e r c e r 核推广到复杂的特征空间。至于支持向量机的应用更是不胜枚举,几乎 涉及到模式识别、回归估计的各个领域,典型的如人脸检测1 、语音识别1 、目 标识别”“、文本分类、语义提取、时间序列预测、基因表达“”、雷达图像识 别”1 、入侵检测1 等等。总之,支持向量机已经成为一种被广泛使用的通用学习 算法,正在和即将深入到机器学习的各个领域。 1 4 论文所做工作及内容安排 本文主要研究分析了近年来支撑矢量机运用于入侵检测中所遇到的一些问题, 并针对于这些问题提出了一些解决方案。 全文内容安排如下: 第二章首先对入侵检测进行了较为详尽的介绍。回顾总结了入侵检测的发展历 程及当前入侵检测各种技术的进展现状,进而对入侵检测日后的发展趋势给予了 展望。 第三章对统计学习理论以及由其弓l 出的支撑矢量机进行了较为深入地介绍。 第四章是全文的核心部分,它详细地描述本文所做工作,主要包括: 1 针对入侵检测中的多维异构数据集根据信息熵原理提出了一种w i _ r v d m 距离,更 为科学合理地度量两个样本的差异性。 各个属性不完全属于同一类型的多维数据我们就称之为异构数据。入侵检测中 6 基于支撑矢量机的入侵检测 遇到的都是些高维异构数据,如何准确地度量两个样本之间的差异,确实不是件 容易的事。已提出的h v d m 距离较好的解决了这个问题,但是它却忽略了样本的各 个属性对正确分类的贡献大有差别的事实。由此我们根据信息熵原理来计算衡量 各个属性对于正确分类的贡献大小,从而给不同的属性冠以相应地权值,提出改 进的距离函数w h v d m 。 2 构造了更适合在高维异构数据上运算的新的r b f 形核函数,并把中心距离比值 法运用到入侵检测中,实现支撑矢量机的预提取,从而大大降低训练的时间空间 复杂度。 支撑矢匿机用于入侵检测遇到的一个最为关键的问题就是核函数的选取。核函 数的合适与否直接关系到分类器的分类性能,然而我们常见的各种形式的核函数 难以在入侵检测中的高维异构数据中直接运用,于是我们引入w h v d m 距离,在原 r b f 核函数的基础上构造了新的r b f 核函数,并且在数学上证明了新构造的核函数 的正定性,理论上保证了该核函数的可用性。 支撑矢量机用于入侵检测的瓶颈之一便是训练运算的时闯与空间复杂度过大。 问题的关键在于直接参与训练的样本数过大。支撑矢量机算法本质上是在大量的 训练样本中寻求那些绝大多数情况下都只是占有很小比例的样本,即支撑矢量: 而中心距离比值法在训练前把那些只占有少数的支撑矢量尽可能的找出来,而剔 除那些不可能成为支撑矢量的样本,这样就可以大大减少直接参与训练的样本数, 从而大大地降低训练时间与空间的复杂度。 第五章是本文的结尾部分,主要是对全文作了个总结,并对将来的研究做了展 望。 本论文的工作受到国家“8 6 3 ”计划及国家自然科学基金的资助。 第二章入侵检测概述 第二章入侵检测概述 2 1 引言 - 信息系统安全保障是一种防御体系,包括防护( p r o t e c t ) 、检测( d e t e c t ) 、 反应( r e a c t ) 和恢复( r e c o v e r y ) 4 个层面。入侵检测系统是其中一个重要的组 成部分,扮演着数字空间“预警机”的角色。 本章综述了入侵检测系统的最新研究进展,包括:基本概念与模型;各类入侵 检测技术;入侵检测系统的评估与标准化等。本章也讨论了该领域尚存在的问题 及今后的研究方向。 2 2 入侵检测的基本概念与模型 早在2 0 世纪8 0 年代初期,a n d e r s o n 将入侵定义为:未经授权蓄意尝试访问 信息、篡改信息、使系统不可靠或不能使用1 。h e a d y 认为入侵是指试图破坏资 源的完整性、机密性及可用性的行为集合“。s m a h a 从分类角度指出”。,入侵包 括尝试性闯入、伪装攻击、安全控制系统渗透、泄漏、拒绝服务、恶意使用六种 类型。卡内基一梅隆大学的研究人员将入侵定义为非法进入信息系统,包括违反 信息系统的安全策略或法律保护条例的动作”1 。我们认为,入侵的定义应与受害 目标相关联,该受害目标可以是一个大的系统或单个对象。判断与目标相关的操 作是入侵的依据是:对目标的操作超出了目标的安全策略范围。因此,入侵系指 违背访问目标的安全策略的行为。入侵检测通过收集操作系统、系统程序、应用 程序、网络包等信息发现系统中违背安全策略或危及系统安全的行为。具有入 侵检测功能的系统称为入侵检测系统,简称i d s 。最早的入侵检测模型是由 d e n n i n g 给出的,该模型主要根据主机系统审计记录数据,生成有关系统的若干轮 廓,并监测轮廓的变化差异发现系统的入侵行为,如图2 一l 所示。 图2 - 1i d e s 入侵检测模型 8 基于支撑矢量机的入侵检测 入侵行为的种类不断增多,涉及的范围不断扩大,而且许多攻击是经过长时期 准备,通过网上协作进行的。面对这种情况,入侵检测系统的不同功能组件之间、 不同i d s 之间共享这类攻击信息是十分重要的。为此,c h e n 等提出一种通用的 入侵检测框架模型,简称c i d f 。该模型认为入侵检测系统由事件产生器( e v e n t g e n e r a t o r s ) 、事件分析器( e v e n ta n a l y z e r s ) 、响应单元( r e s p o n s eu n i t s ) 和 事件数据库( e v e n td a t a b a s e s ) 组成,如图2 2 所示。 图2 - 2c i d f 各组件之间的关系图 c i d f 将入侵检测系统需要分析的数据统称为事件,它可以是网络中的数据包, 也可以是从系统曰志等其它途径得到的信息。事件产生器是从整个计算环境中获 得事件,并向系统的其它部分提供事件。事件分析器分析所得到的数据,并产生 分析结果。响应单元对分析结果做出反应,如切断网络连接、改变文件属性、简 单报警等应急响应。事件数据库存放各种中间和最终数据,数据存放的形式既可 以是复杂的数据库,也可以是简单的文本文件。c d f 模型具有很强的扩展性,目 前已经得到广泛认同。 2 3 入侵检测技术 入侵检测技术传统上分为两大类型:异常入侵检测( a n o m a l yd e t e c t i o n ) 和 误用入侵检测( m i s u s ed e t e c t i o n ) 。异常入侵检测系指建立系统的正常模式轮廓, 若实时获得的系统或用户的轮廓值与正常值的差异超出指定的闽值,就进行入侵 报警。异常入侵检测方法的优点是不依赖于攻击特征,立足于受检测的目标发现 入侵行为。但是,如何对检测建立异常指标。如何定义正常模式轮廓,降低误报 率,都是难以解决的课题。误用入侵检测系指根据已知的攻击特征检测入侵,可 以直接检测出入侵行为。误用检测方法的优点是误报率低,可以发现已知的攻击 行为。但是,这种方法检测的效果取决于检测知识库的完备性。为此,特征库必 须及时更新。此外,这种方法无法发现未知的入侵行为。混合型检测方法试图综 合上述两种方法的优点,我们将在2 3 3 节进行介绍。 第二章入侵检测概述 2 3 1 异常入侵检测 异常检测的前提是异常行为包括入侵行为。理想情况下,异常行为集合等同于 入侵行为集合,此时,如果i d s 能够检测所有的异常行为,就表明能够检测所有 的入侵行为。但是在现实中,入侵行为集合通常不等同于异常行为集合。事实上, 行为有以下4 种状况: ( 1 ) 行为是入侵行为,但不表现异常: ( 2 ) 行为不是入侵行为,却表现异常: ( 3 ) 行为既不是入侵行为,也不表现异常; ( 4 ) 行为是入侵行为,且表现异常。 异常检测方法的基本思路是构造异常行为集合,从中发现入侵行为。异常检测依 赖于异常模型的建立,不同模型构成不同的检测方法。异常检测需要获得入侵的 先验概率,如何获得这些入侵先验概率就成为异常检测方法是否成功的关键问题。 下面对不同的异常入侵检测方法进行论述。 2 3 1 1 基于特征选择的异常检测方法 基于特征选择的异常检测方法,系指从一组度量中选择能够检测出入侵的度 量,构成子集,从而预测或分类入侵行为。异常入侵检浸4 方法的关键是,在异常 行为和入侵行为之间做出正确判断。选择合适的度量是困难的,因为选择度量子 集依赖于所检测的入侵类型,一个度量集并不能适应所有的入侵类型。预先确定 特定的度量,可能会漏报入侵行为。理想的入侵检测度量集,必须能够动态地进 行判断和决策。假设与入侵潜在相关的度量有n 个,则n 个度量构成2 n 个子集。 由于搜索空间同度量数之间是指数关系,所以穷尽搜索理想的度量子集,其开销 是无法容忍的。m a c c a b e ”提出应用遗传方法搜索整个度量子空间,以寻找正确的 度量子集。其方法是通过学习分类器方案,生成遗传交叉算子和基因突变算子, 允许搜索的空间大小比其它启发式搜索技术更加有效。 2 3 1 2 基于贝叶斯推理的异常检测方法 基于贝叶斯推理的异常检测方法,系指在任意给定的时刻,测量a ,a 。,a n 变量值,推理判断系统是否发生入侵行为。其中,每个变量a 。表示系统某一方面 的特征,例如磁盘i 0 的活动数量、系统中页面出错的数目等。假定变量a i 可以 取两个值:1 表示异常,0 表示正常。令i 表示系统当前遭受入侵攻击。每个异 常变量a 的异常可靠性和敏感性分别用p a ;= l i ,1 和p a = 1 i j 1 表示。于是, 在给定每个a 值的条件下,由贝叶斯定理得出i 的可信度为 i o基于支撑矢量机的入侵检测 p ( ,1 4 ,一:,4 ,) = 尸( 爿,4 ,4 i ,) 了热( 2 - 1 ) 其中,要求给出,和、,的联合概率分布。假定每个测量a 仅与i 相关,与其它的 测量条件a ,( i j ) 无关,则有 从而得到 p ( a ,爿:,4 ,l ,) = 兀:,p ( a , i i ) p ( a ,爿4 卜,) = 兀:p o , b z ) ( 2 2 ) ( 2 3 ) 型型熊:掣皿坐地( 2 4 ) p ( ,i i a ,a 2 ,尸( ,) 丌:,p o , l - - i ) 因此,根据各种异常测量的值、入侵的先验概率、入侵发生时每种测量得到的异 常概率,能够判断系统入侵的概率。但是为了保证检测的准确性,还需要考查各 测量a i 之间的独立性。一种方法是通过相关性分析,确定各异常变量与入侵的关 系。 2 3 1 3 基于贝叶斯网络的异常检测方法 贝叶斯网络实现了贝叶斯定理揭示的学习功能。用于发现大量变量之间的关 系,是进行预测和数据分类的有力工具。基于贝叶斯网络的异常检测方法,系指 建立异常入侵检测的贝叶斯网络,通过它分析异常测量结果。贝叶斯网络允许以 图形方式表示随机变量之间的相关关系,并通过指定的一个小的与邻接结点相关 的概率集计算随机变量的联接概率分布。按给定全部结点组合,所有根结点的先 验概率和非根结点概率构成这个集。贝叶斯网络是一个有向图d a g ,在d a g 中,弧 表示父结点与子结点之间的依赖关系。这样,当随机变量的值变为已知时,就允 许将它吸收为证据,为其它的剩余随机变量条件值判断提供计算框架。需要解决 的关键课题是,判断根结点的先验概率值与确定每个有向弧的连接矩阵。v a l d e s 和s k i n n e r 提出了一个基于贝叶斯网络的异常检测模型e b a y e st c p ,用于发现网 络中针对t c p 协议的入侵行为。 2 3 1 4 基于模式预测的异常检测方法 基于模式预测的异常检测方法的前提条件是,事件序列不是随机发生的而是服 从某种可辨别的模式。其特点是考虑了事件序列之间的相互联系。t e n g 和c h e n 给出一种基于时间的推理方法,利用时问规则识别用户正常行为模式的特征。通 过归纳学习产生这些规则集,并能动态地修改系统中的这些规则,使之具有较高 第二章入侵检测概述 的预测性、准确性和可信度。如果规则大部分时间是正确的,并能够成功地用于 预测所观察到的数据,那么规则就具有较高的可信度。例如,t i m ( t i m e b a s e d i n d u c t i v em a c h i n e ) 给出下述产生规则 ( e l ! e 21 e 3 ) ( e 4 = 9 5 ,e 5 = 5 ) 其中e l b 5 表示安全事件。上述规则说明,事件发生的顺序是e 1 e 2 ,e 3 ,e 4 , e 5 。事件e 4 发生的概率是9 5 ,事件e 5 发生的概率是5 。通过事件中的临时关 系,t i m 能够产生更多的通用规则。根据观察到的用户行为,归纳产生出一套规 则集,构成用户的行为轮廓框架。如果观测到的事件序列匹配规则的左边,而后 续的事件显著地背离根据规则预测到的事件,那么系统就可以检测出这种偏离, 表明用户操作异常。这种方法的主要优点有: ( 1 ) 能较好地处理变化多样的用户行为,并具有很强的时序模式: ( 2 ) 能够集中考察少数几个相关的安全事件,而不是关注可疑的整个登录会 话过程; ( 3 ) 容易发现针对检测系统的攻击。 2 3 1 - 5 基于贝叶斯聚类的异常检测方法 基于贝叶斯聚类的异常检测方法,系指在数据中发现不同数据类集合。这些类 反映了基本的类属关系,同类成员比其它成员更相似,以此可以区分异常用户类, 进而推断入侵事件发生。c h e e s e m a n 和s t u t z 在1 9 9 5 年提出的自动分类程序 ( a u t o e l a s sp r o g r a m ) ,是一种无监督数据分类技术”。a u t o c l a s s 应用贝叶斯 统计技术,对给定的数据进行搜索分类。其优点是:根据给定的数据,自动判断 并确定类型数目;不要求特剐的枢似测量、停顿规则和聚类准则;可以混合连 续属性与离散属性。 基于统计的异常检测方法对所观测到的行为分类处理,到目前为止,所使用的 技术主要是监督式的分类,即根据观测到的用户行为建立用户行为轮廓。而贝叶 斯分类方法允许理想化的分类数、具有相似轮廓的用户群组以及遵从符合用户特 征集的自然分类。但是。该方法目前只限于理论讨论,还没有实际应用。自动分 类程序怎样处理固有的次序性数据,在分类中如何考虑统计分布特性等问题,还 没有很好地解决。由于统计方法的固有特性,自动分类程序还存在异常阈值的选 择和防止攻击者干扰类型分布等问题。 2 3 1 6 基于机器学习的异常检测方法 基于机器学习的异常检测方法,系指通过机器学习实现入侵检测,其主要方法 有死记硬背、监餐学习、归纳学习、类比学习等。c a r l a 和b r o d l e y 将异常检测 坚 薹王壅堡叁曼垫盟全堡垒型一一 问题归结为,根据离散数据临时序列特征学习获得个体、系统和网络的行为特征; 并提出了一个基于相似度的实例学习方法i b l ( i n s t a n c e b a s e dl e a r n i n g ) ,该 方法通过新的序列相似度计算,将原始数据( 如离散事件流和无序的记录) 转化 成可度量的空间。然后,应用i b l 学习技术和一种新的基于序列的分类方法,发 现异常类型事件,从而检测入侵行为。其中闽值的选取由成员分类的概率决定。 新的序列相似度定义如下: 设,表示长度,序列x ;( ,葺,而一1 ) 和y = ( 儿,m ,一一1 ) w ( x ,y ,r ) = 。+ w ( x 0 ,f y , i - 1 ) i f :兰。t 只 ( z s ) w ( 删,) 2 1 l + w 阢:只 ( 2 - 5 ) s i m ( x ,y ) = w ( x ,y ,i ) ( 2 6 d i s t ( x ,y ) = 研。一s i m ( x ,y ) ( 2 7 ) 令d 表示用户的模式库,由一系列的序列构成,x 表示最新观测到的用户序列, 则 s i m ”x ) = m a x s i m ( y ,x ) ( 2 8 ) 上式用于分类识别。检测异常序列。实验结果表明这种方法检测迅速,而且误报 率低。然而,这种方法对于用户动态行为变化以及单独异常检测还有待改善。总 之,机器学习中许多模式识别技术对于入侵检测都有参考价值,特别是用于发现 新的攻击行为。 2 3 1 7 基于数据挖掘的异常检测方法 计算机联网导致大量审计记录,而且审计记录大多数以文件形式存放( 如u n i x 系统中的s u l o g ) 。因此,单纯依靠人工方法发现记录中的异常现象是困难的。难 以发现审计记录之间的相互关系。l e e 和s t o l f o 将数据挖掘技术引入入侵检测 领域,从审计数据或数据流中提取感兴趣的知识。这些知识是隐含的、事先未知 的潜在有用信息。提取的知识表示为概念、规则、规律、模式等形式”“,并用这 些知识检测异常入侵和已知的入侵。基于数据挖掘的异常检测方法,目前已有k d d 算法可以应用。这种方法的优点是,适于处理大量数据。但是,对于实时入侵检 铡,这种方法还需要加以改进,需要开发出有效的数据挖掘算法和相应的体系。 数据挖掘的优点在于处理大量数据的能力与迸行数据关联分析的能力。因此,基 于数据挖掘的检测算法将会在入侵预警方面发挥优势。 第二章入侵检测概述 2 3 1 8 基于应用模式的异常检测方法 一般来说,入侵行为与应用联系密切。因此,对特定应用行为建模,发现异常 入侵行为是一种可行的方法。k r u g e l 等人m 1 提出一种基于服务相关的网络异常检 测算法,用服务请求类型( t y p eo fr e q u e s t ) 、服务请求长度( 1 e n g t ho fr e q u e s t ) 、 服务请求包大小分布( p a y l o a dd i s t r i b u t i o n ) 计算网络服务的异常值。异常值 的计算公式如下 , 4 s = 0 3 爿s ,雄+ o 3 4 s 肼+ o 4 a s 川 ( 2 9 ) 其中,a s 。,a s ,。和a s 一分别表示服务请求类型、服务请求长度和服务请求包的 异常值。该方法利用已知的攻击方法训练异常阈值,在实际检测中,通过实时计 算出的异常值和所训练出的阈值作比较,分析判断是否有针对某种网络服务的攻 击发生。 2 3 1 9 基于文本分类异常检测方法 基于文本分类的异常检测方法。”由l i a o 和v e m u r i 提出,其基本原理是将 程序的系统调用视为某个文档中的“字”,而进程运行所产生的系统调用集合就产 生一个“文档”。对于每个进程所产生“文档”,利用k 最近邻聚类( k n e a r e s t n e i g h b o r ) 文本分类算法,分析文档的相似性。发现异常的系统调用,从而检测 入侵行为。 2 3 2 误用入侵检测 误用入侵检测的前提是,入侵行为能按某种方式进行特征编码。入侵检测的过 程,主要是模式匹配的过程。入侵特征描述了安全事件或其它误用事件的特征、 条件、排列和关系。特征构造方式有多种,因此误用检测方法也多种多样。下面 列举主要的误用检测方法。 2 3 2 1 基于条件概率的误用检测方法 基于条件概率的误用检测方法,系指将入侵方式对应一个事件序列,然后观测 事件发生序列,应用贝叶斯定理进行推理,推测入侵行为。令e s 表示事件序列。 先验概率为p ( i n t r u s i o n ) ,后验概率为p ( e s i n t r u s i o n ) ,事件出现概率为 p ( e s ) ,则 p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论