(计算机应用技术专业论文)基于支持向量机的网络漏洞分类方法的研究.pdf_第1页
(计算机应用技术专业论文)基于支持向量机的网络漏洞分类方法的研究.pdf_第2页
(计算机应用技术专业论文)基于支持向量机的网络漏洞分类方法的研究.pdf_第3页
(计算机应用技术专业论文)基于支持向量机的网络漏洞分类方法的研究.pdf_第4页
(计算机应用技术专业论文)基于支持向量机的网络漏洞分类方法的研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)基于支持向量机的网络漏洞分类方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士论文基于支持向量机的网络漏洞分类方法的研究 摘要 随着计算机技术的不断发展,网络安全的问题也越来越受到人们的关注,其中网 络漏洞的存在是影响到网络安全的根源之一。对网络安全来说,如何规范、合理的对 漏洞进行分类就显得尤为重要。而支持向量机就是一个解决分类的好工具,它是一种 建立在统计学理论基础上的机器学习方法。 最小化原则,尽量提高学习机的泛化能力, 其最大的特点是根据v a p n i k 的结构风险 即由有限的训练样本集得n 4 , 的误差。因 此,本文通过对网络漏洞和支持向量机( s v m ) 的研究,给出了一种新的基于支持 向量机的网络漏洞分类方法。 本文首先介绍了网络漏洞的一些概念以及统计学理论和支持向量机的基础理论; 其次,全面总结了目前存在的基于支持向量机的多类别分类方法,包括一对多方法、 一对一方法、一次性求解方法和决策有向无环图等方法,比较了它们的优缺点及性能。 并针对它们存在的问题以及缺点,如一对多训练速度慢、一对一分类速度慢,提出了 一种新的基于二叉树的多类s v m 算法。在此算法中,结合了聚类分析中的最短距离 和漏洞的特征来构造二叉树的结构,缩短了分类的时间;接着,为了提高漏洞分类的 精确度,还采用了一种对在漏洞分类过程中起到重要作用的特征进行加权处理的方 法;最后,在建立的小型漏洞库上进行实验,采用建立哈希表的方法进行数据的预处 理。实验结果表明,本文所做的改进在缩短了分类时间的同时,也提高了分类的精确 度。 关键字:网络漏洞,支持向量机,特征加权,二叉树,漏洞分类,哈希 表。 硕士论文基于支持向量机的网络漏洞分类方法的研究 a b s t r a c t w i t ht h e d e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , t h ep r o b l e mo fn e t w o r ks e c u r i t y r e c e i v e dm o r ea n dm o r ea t t e n t i o n t h ee x i s t e n c eo fn e t w o r kv u l n e r a b i l i t yi so r eo ft h e c a u s e sw h i c ha f f e c tt h en e t w o r ks e c u r i t y h o wt oc l a s s i f yf o rv u l n e r a b i l i t yc a n o n i c a la n d r e a s o n a b l ei s v e r yi m p o r t a n t a n dt h a ts u p p o r tv e c t o rm a c h i n ei s ag o o dt o o lf o r c l a s s i f i c a t i o n s u p p o r tv e c t o rm a c h i n ei sam a c h i n el e a r n i n gm e t h o db a s e do ns t a t i s t i c a l l e a r n i n gt h e o r y i t sm o s tm a j o rc h a r a c t e r i s t i ci st oe n h a n c et h el e a r n i n gm a c h i n et oe x u d e t h ea b i l i t ya sf a ra sp o s s i b l ea c c o r d i n gt ot h ev a p n i ks t r u c t u r er i s ks m a l l e s tp r i n c i p l e , n a m e l yt oo b t a i nt h es m a l le r r o rb yt h el i m i t e dt r a i n i n gs a m p l ec o l l e c t i o nt ob ea b l et o g u a r a n t e em a i n t a i n i n gt h es m a l lc n o r t ot h ei n d e p e n d e n tt e s tc o l l e c t i o n m o r e o v e r , s t e m m i n gf r o mw h i c ht h es u p p o r tv e c t o ra l g o r i t h mi sar a i s e do p t i m i z e dq u e s t i o n , t h e p a r t i a lo p t i m a ls o l u t i o na l s oi st h eo v e r a l ls i t u a t i o no p l i m i 2 e ds o l u t i o n , t h i si so t h e rs t u d y a l g o r i t h m s d o e sn o t c o m p a r e t h e r e f o r e ,t h i sp a p e r h a s p r o p o s e d a l l i m p r o v e d c l a s s i f i c a t i o nm e t h o do fn e t w o r kv u l n e r a b i l i t yb a s e do nm u l t i c l a s ss u p p o r tv e c t o r m a c h i n e f i r s to fa l l ,t h i sp a p e ri n t r o d u c e dt h ec o n c e p t i o no fn e t w o r kv u l n e r a b i l i t ya n dt h e b a s e dt h e o r yo fs u p p o r tv e c t o rm a c h i n e s e c o n d l y ,t h em u l t i c l a s sc l a s s i f i c a t i o nm e t h o d s a l es u m m a r i z e di n c l u d i n go n e - a g a i n s t - r e s t , o n e a g a i n s t - o n ea n dd e c i s i o nd i r e c t e da c y c f i c g r a p hs u p p o r tv e c t o rm a c h i n e ,a n dt h e i ra d v a n t a g e 、d i s a d v a n t a g ea n dc a p a b i l i t ya r e c o m p a r e d t h ed i s a d v a n t a g e so ft h ee x i s t i n gm e t h o d sa r ea n a l y z e da n dc o m p a r e di nt h i s p a p e r t os o l v et h e s ep r o b l e m s ,t h i sp a p e rp r o p o s e dan e w a r i t h m e t i co fm u l t i - c l a s ss u p p o r t v e c t o rm a c h i n eb a s e do nb i n a r yt r e e t h i sa r i t h m e t i cc o m b i n et h es h o r t e s td i s t a n c eo f c l u s t e r i n ga n a l y s i sa n dt h ec h a r a c t e ro fn e t w o r kv u l n e r a b i l i t yt oc o n s t r a e tt h eb i n a r yt r e e , s h o r t e n e dt h et i m eo f v u l n e r a b i l i t yt a x o n o m y f o l l o w , f o rt h es a k eo f i n c r e a s et h ep r e c i s i o n o f v u l n e r a b i l i t yt a x o n o m y , t h i sp a p e ru s e dam e t h o do f w e i g h t e df o rt h o s ef e a t u r et h a th a v e i m p o r t a n tf l m c t i o ni nt h ec o u r s eo fv u l n e r a b i l i t yt a x o n o m y f i n a l l y , e x p e r i m e n t sh a v eb e e n m a d eo nv u l n e r a b i l i t yd a t a b a s e ,t h ef e a t u r ed a t aa r ep r e p r o c e s s e db ym e a n so fh a s ht a b l e r e s u l t sf r o me x p e r i m e n ti n d i c a t et h ei m p r o v e dm e t h o d sn o to n l ys h o r t e n e at h et i m e ,b u t a l s oi m p r o v et h ep r e c i s i o n k e yw o r d s :n e t w o r kv u l n e r a b i l i t y , s u p p o r tv e c t o rm a c h i n e ,w e i g h t e d f e a t u r e ,b i n a r yt r e e ,v u l n e r a b i l i t yt a x o n o m y , h a s h t a b l e 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我”一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名:查渔垫。订年月) 日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的全部或部分内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:奎趣拖i2 。 年6 月,7 日 硕士论文基于支持向量机的网络漏洞分类方法的研究 1 绪论 本章简单介绍了课题的研究背景、研究意义和研究现状,并给出了本文的组织结 构和章节安排。 1 1 课题背景 当今已是信息和网络时代,信息的获取和发布很大程度上依赖于i n t e m e t 。交流 和共享某一些信息的同时,另一些信息则需要保护。如果需要保护的信息被窃取、被 查看,就会对个人造成极大的损失,而有些情况下,这种损失对企业和政府而言是致 命的。 近几年网络事件频繁发生,并且有愈演愈烈之势,安全问题得到了广泛的关注。 各种组织、论坛、会议还有论文的主题直指安全问题。探究安全的非技术根源不是本 文的意图,安全的技术根源是软件和系统的漏洞,正是一些别有用心的人利用了这些 漏洞,才造成了安全问题。当前的计算机系统或多或少都存在系统安全漏洞。1 9 9 8 年、1 9 9 9 年和2 0 0 0 年分别发现了2 4 5 、8 6 1 和9 9 0 种漏洞;2 0 0 1 年发现了1 5 0 6 种漏 洞;2 0 0 2 年新发现漏洞1 3 0 7 种之多。2 0 0 2 年是数字攻击事件发生最多的一年,比 2 0 0 1 年增长了5 4 。如此之多的安全事件不仅影响了人们的正常工作及电子商务的 安全,而且从计算机安全衍生出来的计算机信息站更关系到一个国家的安全。所以, 深入研究系统安全漏洞已经成为刻不容缓的工作。 1 2 研究意义 系统安全漏洞,也叫系统脆弱性( v u l n e r a b i l i t y ) ,简称漏洞,是计算机系统在硬 件、软件、协议的设计与实现过程中或系统安全策略上存在的缺陷和不足。非法用户 可以利用漏洞获得计算机系统的额外权限,在未经授权的情况下访问或提高其访问权 限,从而破坏系统的安全性。漏洞是针对系统安全而言的,包括一切可导致威胁、破 坏计算机系统安全性( 完整性、可用性、保密性、可靠性、可控性) 的因素【l 】。任何 一个系统,无论是软件还是硬件都不可避免地存在漏洞,所以从来都没有绝对的安全。 当然漏洞的存在本身并不能对系统安全造成什么损害,关键的问题在于攻击者可以利 用这些漏洞引发安全事件。 对计算机漏洞确切、统一的定义有利于刻画漏洞的根本特征,有助于规范对漏洞 本质的描述,而对漏洞的统一描述有助于各研究团体之间在计算机漏洞研究领域的成 果和学术交流。从某种程度上讲,对计算机漏洞的研究扩展了计算机系统安全研究的 硕士论文 基于支持向量机的网络漏洞分类方法的研究 广度和深度。 安全问题的解决方案已有很多,而对计算机系统安全漏洞进行规范、合理的分类, 研究漏洞的表现和形成原因,这些工作能够增强对计算机软件漏洞本质的进一步理 解,有助于防止程序设计人员在编写程序时产生安全漏洞,可以使计算机管理使用人 员了解其系统中可能存在的漏洞隐患,从而有针对性地消除或阻止安全漏洞的存在; 可以使计算机安全专家更加针对性地寻找、分析、发现未知的漏洞,达到防范于未然 的目的,因此对漏洞进行科学的分类具有重要的理论意义和很高的应用价值。支持向 量机( s u p p o r tv e c t o rm a c h i n e ) 的概念是在统计学习理论的基础上发展起来的一种新 的机器学习方法,是v v a p n i k 等人提出的一种针对分类和回归问题的新型机器学习 方法。它基于结构风险最小化原理,能有效地解决过学习问题,具有良好的推广性和 较好的分类精确性。而漏洞的分类是一个多分类的问题,支持向量机可以从两分类的 问题推广到多类分类的问题,这正是我们对漏洞分类所需要的。 1 3 课题研究现状 支持向量机方法最初是针对二类别的分类而提出的,如何将其有效的推广到多类 别分类仍是当前支持向量机研究的重要内容之一。目前,对于多类分类问题,s v m 的解决途径有两种:一种是通过构造多个s v m 二值分类器并将它们组合起来实现多 类分类,例如o n e a g a i n s t - r e s t ,o i l e a g a i n s t - o n e 和d a g s v m 。虽然这三种方法是当前 最常用且性能较优的,但o n e - a g a i n s t r e s t 和o n e - a g a i n s t - o n e 方法的泛化误差是无界的。 再者,o n e a g a i n s t - o n e 所需构造的子分类器的数量关于类别数k 成超线性增长,共 k ( k 一1 ) 2 个,且在测试阶段,都必须计算所有子分类判决函数。o n e a g a i n s t - o n e 方法 还有一个最明显的缺点就是,每个子分类器必须都要非常仔细地调整,如果某个子分 类器没有规范化,则整个分类系统将趋于过学习。d a g s v m 方法解决了不可分区域 问题,而且不一定要计算所有的子分类判决函数,但各个子分类器在有向无环图中的 位置也会对分类系统产生较大的影响。另一种是直接在一个优化公式中同时考虑所有 子分类器的参数优化。严格的讲,其思想类似于o n e ,a g a i n s t r e s t 方法,只不过是把k 个二值s v m 的优化问题放在一个最优化公式中同时优化,所以它也存在 o n e a g a i n s t r e s t 方法相同的缺点。另外,这种思想尽管看起来简洁,但在最优化问题 求解过程中的变量远远多于第1 种,训练速度不及第1 种,且在分类精度上也不占优 3 1 。当训练样本的数量非常大的时候,这一问题更加突出。 漏洞分类本身就是一个多分类的问题,我们应该如何从计算机漏洞的大量有用信 息中,发现计算机漏洞形成的规律和作用机制,找到已知漏洞的分布特点,从而预测 未知的漏洞。而支持向量机能够在有限样本的信息下,有好的分类效果,但目前,将 支持向量机的多分类算法应用于漏洞分类方面的研究还不是很多。 2 硕士论文基于支持向量机的网络漏洞分类方法的研究 i a 论文研究内容与组织结构 1 4 1 论文研究的内容 支持向量机是一种基于统计学习理论的机器学习算法,它建立在v c 维理论和结 构风险最小化原则的基础上。这种方法根据有限的样本信息,在模型的复杂度和学习 能力之间寻找一种折衷,并在理论上给出了推广误差的界,该推广误差的界分为两个 部分:经验风险和置信区间。经验风险的意义是指学习机器在训练样本集上的误差, 而置信区间是一个基于v c 维理论的概念,它的大小决定着学习机器的复杂性。支持 向量机寻求在二者之间做出权衡,从而达到总的推广误差最小,并得到良好的推广能 力和收敛速度。 支持向量机通过使用内积核函数定义的非线性变换将输入空间变换到一个 h i l b e r t 高维空间,把原空间的非线性可分问题转变为高维空间的线性可分问题,并在 这个空间求最优超平面。只要选择一个适当的核函数,就能将高维空间的内积运算转 化为原始输入空间的核函数的运算,从而避免了在高维空间处理数据可能导致的“维 数灾难”问题。 由于应用了最优化理论,s v m 最终将算法转化为一个二次规划问题,因而从理 论上保证得到的是全局最优解,避免了神经网络等方法可能出现的局部极小点问题。 同时,支持向量机通过最大分类间隔的方法确定最优分类超平面,这种决策函数 的确定方法使得最优超平面仅由离它最近的样本点所决定,而与其它样本无关,这些 样本点即所谓的支持向量。这意味着支持向量机拥有一个简单而固定的结构,它类似 一个三层前馈神经网络,输出是隐含层节点的线性组合,每个隐含层节点对应一个支 持向量,其隐含层能随着所需解决问题的规模和具体形式自动调节,从而使机器学习 的复杂度始终能和实际问题保持一致,因此具有良好的自学习和自适应能力。 本文研究的是支持向量机在网络漏洞分类方面的应用,因为漏洞分类是一个多分 类的问题,所以,本文所做的主要工作包括: l 、深入的分析了支持向量机的理论特点及其与漏洞分类的关联,并构建了基于 支持向量机的漏洞多分类的分类器模型,阐述该模型的处理流程以及其中各个模块的 功能、机制; 2 、根据漏洞的形成原因把漏洞分成八类,并在以往经典多类s v m 分类算法的 基础上提出了一种新的基于支持向量机的多分类算法。该算法结合聚类分析中的最短 距离和漏洞的特征确定二叉树的结构,缩短了分类的时间,提高了分类的效率; 3 、本文采用了特征加权的方法,即对在漏洞分类过程中起到重要作用的特征属 性进行加权处理,期望获得好的分类精确度; 4 、建立了一个含有少量漏洞的漏洞库,采用建立哈希表的方法对漏洞库中的数 3 硕士论文基于支持向量机的网络漏洞分类方法的研究 据进行归一化处理,并对改进的多分类算法进行实验,通过实验来证明改进后的多类 支持向量机分类算法在加快了分类速度的同时,也提高了分类的精确度。 1 4 2 论文的组织结构 本文由七章和参考文献组成。七章的内容是这样安排的: 第一章,主要介绍了课题的研究背景,研究现状,以及本文中所研究的内容和论 文的主要章节安排。 第二章,主要讨论了漏洞的一些基础知识。包括漏洞的概念、漏洞存在的原因和 漏洞的分类。 第三章,论述了统计学习理论的基础知识,并详细论述了在统计学习理论上发展 起来的新型通用机器学习方法一支持向量机,从理论上说明了其在解决高维、非线性、 小样本问题上表现出优异性能的原因。 第四章,对多类支持向量机分类器的研究。介绍了近些年来一些经典的多类支持 向量机算法,并对其进行分析比较,为第五章新的多类算法的提出打下基础。 第五章,总结了以前一些经典多类支持向量机算法的优点及缺点,并在此基础上, 结合聚类分析中的最短距离和漏洞的特征提出了一种新的多类s v m 算法,使之更适 合于漏洞的分类,为了进一步提高漏洞分类的精确度又采用了特征加权的方法,建立 了用支持向量机实现漏洞分类的分类器模型。 第六章,建立一个小型的漏洞数据库,采用建立哈希表来对漏洞库中的数据进行 归一化处理,并对第五章中提出的新的支持向量机多分类算法进行实验。 第七章,对全文进行总结,并对文中未能完成的工作和下一步的研究提出设想和 展望。 4 硕士论文基于支持向量机的网络漏洞分类方法的研究 2 网络漏洞的理论基础 本章节中主要讨论了漏洞的一些基础知识,包括漏洞的定义、漏洞存在的原因和 漏洞的分类。 2 1 漏洞的定义 漏洞也叫脆弱性( v u l n e r a b i l i t y ) ,是计算机系统在硬件、软件、协议的具体实现 或系统安全策略上存在的缺陷和不足。漏洞一旦被发现,就可使用这个漏洞获得计算 机系统的额外权限,使攻击者能够在未授权的情况下访问或破坏系统,从而导致危害 计算机系统安全。由于漏洞的定义体现了对计算机漏洞的分类原则,直接影响分类的 标准和结果的确切性,所以,我们首先看一下国外对漏洞的定义。现在分别给出三种 具有代表性的定义形式:访问控制、状态空间和模糊定义。 2 1 1 基于访问控制的定义 在d e n n i n gd e 的“c r y p t o g r a p ha n dd a t as e c u r i t y ”一文中,从系统状态、访问 控制策略的角度给出了漏洞的定义【i 】。 系统的状态由三大要素集合( s 、0 、a ) 组成,其中: 1 、操作主体集合s :是模型中活动实体( e n t i t y ) 的系列主体( s u b j e c t ) 。主体同 时属于对象。即s 属于o ; 2 、操作客体集合0 :是系统保护的实体的系列对象,每个对象定义有一个唯一 的名字; 3 、规则集合a :是访问矩阵,行对应主体,列对应对象。图形表示如图2 1 1 1 : 访问矩阵实体a s ,o 】列出了主体s 对对象0 的访问权限。改变系统的状态就是通 过改变访问矩阵的基本操作元素,从而改变操作系统的指令模型。访问矩阵的设置描 述了主体能够做什么、不能做什么。这样,一个保护策略或安全策略就把所有可能的 状态划分为授权的和非授权的两个部分。从访问控制角度讲,计算机漏洞就是指导致 操作系统执行的操作和访问控制矩阵所定义的安全策略之间相冲突的所有因素。按照 这一定义,需要清楚的指明一个访问控制矩阵,即指明对系统中的每一个主体和对象 的什么操作是允许的,什么操作是不允许的。这种明确的访问控制矩阵在u n i x 、 m a c i n t o s h o s 、v m s 或者w i n d o w s n t 这样的操作系统中并没有指定。这样就导致了 在操作系统中访问控制规定和用户的希望之间都有明显的冲突。 5 硕士论文基于支持向量机的网络漏洞分类方法的研究 2 1 2 基于状态空间的定义 图2 1 1 1 计算机系统状态的组成 b i s h o p 和b a i l y 在1 9 9 6 年发表的“ac r i t i c a la n a l y s i so f v u l n e r a b i l i t yt a x o n o m i e s ” 一文中提出了对计算机漏洞的状态空间的定义【2 】: 计算机系统是由若干描述实体配置的当前状态所组成的。系统通过应用程序的状 态转变改交系统的状态。同安全策略的定义一样,通过系列授权和非授权的状态转变, 所有的状态都可以从给定的初始状态到达。 容易受到攻击的状态是指通过授权的状态转变从非授权状态可以到达的授权状 态。受损害的状态是指已完成这种转变的状态。攻击就是指到达受损状态的状态转变 过程。 从状态空间角度来讲,漏洞就是指区别于所有非受损状态的容易受攻击的状态特 征。通常地讲,漏洞可以刻画许多容易受攻击的状态。 2 1 3 基于模糊概念的定义 l o n g s t a f f 和s h a i n 在1 9 9 0 年出版的“t h ed a t a & c o m p u t e rs e c u r i t yd i c t i o n a r yo f s t a n d a r d s ,c o n c e p t s ,a n d t e r m s ”中,对漏洞的定义是: 1 、在计算机安全中,漏洞是指自动化系统安全过程、管理控制以及内部控制等 中的缺陷,它能够被威胁利用,从而获得对信息的非授权访问或者破坏关键数据处理。 6 硕士论文基于支持向量机的网络漏洞分类方法的研究 2 、在计算机安全中,漏洞是指在物理层、组织、程序、人员、软件或硬件方面 的缺陷,它能够被利用而导致对自动数据处理系统或行为的损害。漏洞的存在并不能 导致损害,漏洞仅仅是可以被攻击者利用,对自动数据处理系统或行为进行破坏的条 件。 3 、在计算机安全中,灞漏是指系统中存在的任何不足或缺陷。 不同于前面的两个定义,这个定义指出漏洞是在许多不同层次和角度下可以觉察 得到的预期功能。按照这个定义,漏洞是对用户、管理员和设计者意愿的一种违背, 特别是对这种违背是由外部对象触发的。 2 2 存在漏洞的原因 现在仍然在i n t e m e t 上使用的基础协议中,有很多早期的协议在最初设计时并没 有考虑安全方面的需求。另外,无论从物理的拓扑连接还是应用于其上的技术来看, i n t e m e t 都是一个变化相当迅速的动态环境。要在这样一个基础并不安全的、动态的、 分布的环境中保证应用的安全就变得比较困难。 正是由于i n t e m e t 的开放性和i n t e r n e t 协议的原始设计,在i n t e m e t 上实施普通的 电子攻击可以是快速、容易、低成本的,甚至有些攻击很难被检测或者跟踪到。攻击 者无需与被攻击的目标有物理上的接触,他可以通过无所不在的网线将他实施攻击的 电子信号传递到四面八方,而他自己却可以隐藏在世界上任何一个不为人知的地点。 他甚至可以“攻破”( 取得特殊权限) 某一个站点将其作为自己的据点。 即便如此,很多站点仍然在i n t e m e t 上使用没有安全保证的信任策略。也有很多 站点甚至连他们在i n t e m e t 上使用的是什么信任策略都不清楚。这些站点可能认为攻 击者不会将自己作为目标,或者认为自己已经对可能的攻击做好足够的预防。但 i n t e m e t 上应用的技术可以说是瞬息万变的,攻击者的技术和工具也在不断发展,任 何一种安全的解决方案都必须不断更新才能够适应这样的变化。 另外,在i n t e m e t 上传送的很多数据都是没有加密的明文,这不仅威胁到使用明 文传输的各种应用,也威胁到某些认证和授权的方式。因为明文传输使得嗅探( s n i f f e r ) 网络数据成为可能。如果某一个站点被安装了网络嗅探软件,且这个站点允许入侵者 嗅探其他区域的网络数据,它就很可能威胁到其他站点的安全性。 从技术角度而言,漏洞的来源主要有以下几个方面 2 9 1 : 1 1 软件或协议设计时的瑕疵 协议定义了网络上计算机会话和通信的规则,如果在协议设计时存在瑕疵,那么 无论实现该协议的方法多么完美,它都存在漏洞。网络文件系统( n e t w o r k f i l e s y s t e m , n f s ) 便是一个例子。n f s 提供的功能是在网络上共享文件,这个协议本身不包括认 证机制,也就是说无法确定登录到服务器的用户确实是某一个用户,所以n f s 经常 , 硕士论文基于支持向量机的网络漏洞分类方法的研究 成为攻击者的目标。另外,在软件设计之初,通常不会存在不安全的因素。然而当各 种组件不断添加进来的时候,软件可能就不会像当初期望的那样工作,从而可能引入 不可知的漏洞。 2 1 软件或协议实现中的弱点 即使协议设计的很完美,实现协议的方式仍然可能引入漏洞。例如,和e - m a i l 有关的某个协议的某种实现方式能够让攻击者通过与受害主机的邮件端口建立连接, 达到欺骗受害主机执行意想不到的任务的目的。如果入侵者在“t o :”字段填写的不 是正确的e m a i l 地址,而是一段特殊的数据,受害主机就有可能把用户和密码信息 送给入侵者,或者使入侵者具有访问受保护文件和执行服务器上程序的权限。这样的 漏洞使攻击者不需要访问主机的凭证就能够从远端攻击服务器。 3 、软件本身的瑕疵 这类漏洞又可以分为很多子类。例如,没有进行数据内容和大小检查,没有进行 成功失败检查,不能正常处理资源耗尽的情况,对运行环境没有做完整检查,不正 确地使用系统调用,或者重用某个组件时没有考虑到它的应用条件。攻击者通过渗透 这些漏洞,即使不具有特权账号,也可能获得额外的、未授权的访问。 4 1 系统和网络的错误配置 这一类的漏洞并不是由协议或软件本身的问题造成的,而是由服务和软件的不正 确部署和配置造成的。通常这些软件安装时都会有一个默认配置,如果管理员不更改 这些配置,服务器仍然能够提供正常的服务,但是入侵者就能够利用这些配置对服务 器造成威胁。例如,s o ls e r v e r 的默认安装就具有用户名为s a 、密码为空的管理员账 号,这确实是一件十分危险的事情。另外,对f t p 服务器的匿名账号也同样应该注 意权限的管理。 2 3 漏洞的分类 2 3 1 漏洞分类的原则 分类( c l a s s i f i c a t i o n s ) 是按照类别把目标样本进行分离或分组排序。非经验的分 类叫做先验分类,通过观测数据后进行的经验分类叫做后验分类。分类具有解释功能, 通过对样本的分离、排列,可以实现对样本本质特征的概括总结,增强人们对世界的 理解。分类还能够用于预测样本的存在,这些样本在已从已知样本中推断出来之前, 往往是不可知的。元素周期表是分类预言功能最好的例证,人们通过对已知化学元素 的分类研究,预言了未知元素的存在。 成功分类的关键在于对象分类特征的提取,分类特征一般也叫做对象的属性,这 些特征应该是容易、客观地从对象中得到。客观性是指表达和处理事实情况时,不应 8 硕士论文基于支持向量机的网络漏洞分类方法的研究 该带有个人的感觉和偏见,即意味着分类特征的定义必须来自于已知的客观情况,而 不是来自于主观意见。客观、明显的分类属性会简化分类工作,而且是重复分类的基 础。如果分类特征是由推断而不是由观察得到的,其结果中则会含有观察者的偏见, 其他没有这种偏见的分类学者就不能重复这一推断,这种分类是无效的。分类特征必 须满足以下要求: l 、客观性( o b j e c t i v i t y ) :必须从已知的客观对象而不是从主观认识上定义分类 特征,对分类属性的衡量应该是明显可见的。 2 、互斥性( m u t u a l l ye x c l u s i v e ) :分类不能够交叉重叠,即在一个分组中不能包 含其他组的分类。 3 、完备性( e x h a u s t i v e ) :分类方法应该包含所有的可能。 4 、确定性( d e t e r m i n i s m ) :提取分类特征必须是一个明确的、可以遵循的过程。 5 、可重复性( r e p e a t a b i l i t y ) :其他人员独立地对一对象的同一特征进行提取, 必须得到相同的观察结果。 6 、特异性( s p e c i f i c i t y ) :分类特征的值必须是明确、唯一的。 如果这些特征中的任何一条不能满足分类的要求,分类结果都会引起争议或错 误。因此,在漏洞的分类研究中,也必须遵循上述原则。 2 3 2 漏洞的分类 系统安全漏洞类型是描述系统漏洞的特征属性。系统安全漏洞主要概括为以下4 方面特征属性:漏洞被攻击者利用的方式,漏洞形成的主要原因,漏洞对系统安全造 成的危害,漏洞对系统安全造成的直接威胁。以下根据这4 个方面对系统安全漏洞进 行分类,并且通过分析i c “6 1 数据库中的数据信息,对2 0 0 3 年7 9 个漏洞、2 0 0 2 年 1 3 0 7 个、2 0 0 1 年1 5 0 6 个、2 0 0 0 年9 9 0 个系统安全漏洞分类【5 引,统计调查的结果做 了简表,见表2 3 2 1 、表2 3 2 2 、表2 3 2 3 。 1 ) 根据漏洞被攻击者利用的方式分类 ( 1 ) 本地攻击( l o c a l ) = 攻击者是系统本地的合法用户或已经通过其他攻击方法 获得了本地权限的非法用户。 ( 2 ) 远程攻击( r e m o t e ) :攻击者是指通过网络,对连接在网络上的任意一台机 器进行攻击。可分为入侵攻击与破坏攻击两种方式。 表2 3 2 ,l 是针对近几年的系统安全漏洞,分析统计各种攻击方式出现的个数和 百分比。 9 硕士论文 基于支持向量机的网络漏洞分类方法的研究 表2 3 2 1 漏洞被攻击者利用方式的统计数据表 攻击方式 2 0 0 32 0 0 22 0 0 12 0 0 0 本地攻击 5 1 ( 6 5 )1 0 4 6 ( 8 0 )1 0 5 4 ( 7 0 )6 8 3 ( 6 9 ) 远程攻击 2 8 ( 3 5 )2 6 1 ( 2 0 )4 5 2 ( 3 0 )3 0 7 ( 3 1 嗡 2 ) 根据漏洞形成的主要原因分类【5 】 同一系统漏洞,对其不同抽象层次研究,可能会归为不同的形成原因。 ( 1 ) 输入验证错误( i n p u tv a l i d a t i o ne r r o r ) :未对用户输入数据的合法性进行验证, 使攻击者非法进入系统。 ( 2 ) 缓冲区溢出( b u f f e ro v e r f l o w ) :向程序的缓冲区中录入的数据超过其规定长 度,造成缓冲区溢出,破坏程序正常的堆栈,使程序执行其他命令。 ( 3 ) 设计错误( d e s i g ne r r o r ) :程序设计错误而导致的漏洞。其实,大多数的漏 洞都属于设计错误。 ( 4 ) 意外情况处置错误( e x c e p t i o n a lc o n d i t i o nh a n d l i n ge r r o r ) :程序在实现逻辑 中没有考虑到一些意外情况,而导致运行出错。 ( 5 ) 访问验证错误( a c c e s sv a l i d a t i o ne r r o r ) :程序的访问验证部分存在某些逻辑 错误,使攻击者可以绕过访问控制进入系统。 ( 6 ) 配置错误( c o n f i g u r a t i o ne r r o r ) 系统和应用的配置有误,或配置参数、访 问权限、策略安装位置有误。 ( 7 ) 竞争条件( r a c ec o n d i t i o n ) - 程序处理文件等实体在时序和同步方面存在问 题,存在一个机会窗口使攻击者能够施以外来的影响。 ( 8 ) 环境错误( c o n d i t i o ne r r o r ) :一些环境变量的错误或恶意设置造成的漏洞。 ( 9 ) 其他。 表2 3 2 2 是针对近几年的系统安全漏洞,分析统计各种漏洞形成原因出现的个 数和百分比。 3 ) 根据漏洞对系统安全造成的危害分类 根据漏洞对系统安全造成的危害可分为有效性、隐密性、完整性、安全保护。其 中,安全保护还可分为:获得超级用户权限,获得普通用户权限,获得其他用户权限。 表2 3 2 3 是针对近几年的系统安全漏洞,分析统计各种漏洞危害出现的个数和 百分比。 4 ) 根据漏洞对系统安全造成的直接威胁分类 根据漏洞对系统安全造成的直接威胁可分为:普通用户访问权限,权限提升,本 地管理员权限,远程管理员权限,本地拒绝服务,远程拒绝服务,服务器信息泄露, 远程非授权文件存取,读取受限文件,口令恢复,欺骗等。 1 0 硕士论文基于支持向量机的网络漏洞分类方法的研究 表2 3 2 2 漏洞形成主要原因的统计数据表 腻垦矛1 2 0 0 32 0 0 2 2 0 0 1 2 0 0 0 漏涧形成原因、 1 输入验证错误 2 7 ( 3 4 )3 7 9 ( 2 9 )4 6 0 ( 3 1 ) 2 7 7 ( 2 8 ) 缓冲区溢出 1 7 ( 2 2 )3 1 3 ( 2 4 )3 6 0 ( 2 4 ) 2 5 7 ( 2 6 ) 设计错误, 1 4 ( 1 8 12 7 5 ( 2 1 )2 4 0 ( 1 6 )1 6 8 ( 1 7 ) 意外情况处置错误 9 ( 1 1 11 1 8 ( 9 ) 1 5 0 ( 1 0 )1 1 8 ( 1 2 ) 访问验证错误 5 ( 6 )1 1 8 ( 9 )1 2 0 ( 8 )7 0 ( 7 ) 配置错误 5 ( 6 )6 5 ( 5 )8 0 ( 5 呦5 0 ( 5 呦 竞争条件 2 ( 3 、2 6 ( 2 蛳 4 5 ( 3 ) 2 0 ( 2 ) 环境错误, 0 ( 0 )1 3 ( 1 呦3 0 ( 2 )2 0 ( 2 ) 其他 0 ( 0 、0 ( 0 呦1 5 ( 1 5 )1 0 ( 1 0 ) 表2 3 2 3 漏洞对系统安全造成危害的统计数据表 l 危害类型 2 0 0 32 0 0 22 0 0 12 0 0 0 l 有效性 2 0 ( 2 5 )3 1 4 ( 2 4 3 9 2 ( 2 6 )2 5 7 ( 2 6 ) 事实上一个系统漏洞对安全造成的威胁远不限于它的直接可能性,如攻击者获得 了系统的普通用户访问权限,就极有可能利用本地漏洞升级为管理员权限。 2 4 本章小结 本章在总结前人的基础上,提出了自己关于漏洞的理解,包括漏洞的定义、漏洞 产生的原因和漏洞的分类。其实正是由于对漏洞的这种理解,才决定了本章的后续几 章的切入点。在漏洞的分类上,我没有提出新的见解,本章的内容主要是为第五章多 类支持向量机分类算法的提出打下基础。 n 硕士论文基于支持向量机的网络漏洞分类方法的研究 3 统计学理论和支持向量机 统计学习理论七十年代末诞生,九十年代之前都处在初级研究和理论准备阶段, 近几年来才逐渐得到重视,理论本身也趋向完善,在2 0 世纪9 0 年代产生了支持向量 机一实现此理论的有效机器学习方法。 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 方法是统计学习理论中最年轻的 部分,其主要内容在1 9 9 2 年一1 9 9 5 年问才基本完成,目前仍处在不断发展阶段。可 以说,统计学习理论之所以从2 0 世纪9 0 年代以来受到越来越多的重视很大程度上是 因为它发展出了支持向量机这一通用学习方法。因为从某种意义上它可以表示成类 似神经网络的形式,支持向量机在起初也曾被叫做支持向量网络。下面是根据文献 【1 4 1 来介绍统计学理论和支持向量机。 3 1 机器学习 人类智慧中一个很重要的方面是从实例中学习的能力,通过对已知事实的分析 总结出规律,预测出不能直接观测的事实。在这种学习中,重要的是要能举一反三, 即利用学习得到的规律,不但可以较好的解释已知的实例,而且能够对未来的现象 或无法观测的现象做出正确的预测和判断,我们把这种能力叫做推广能力。在人们 对机器智能的研究中,希望能够用计算机来模拟这种学习能力,这就是我们所说的 基于数据的机器学习,或者简单地称作机器学习。迄今为止,机器学习还没有一种 被共同接受的理论框架,其实现方法大致可以分为三种: 第一种是经典的参数统计估计方法。现有机器学习方法共同的重要理论基础之 一是统计学。参数方法正是基于传统统计学的。在这种方法中,参数的相关形式是 己知的,训练样本用来估计参数的值。这种方法有很大的局限性。首先,它需要已 知样本分布形式,这需要花费很大代价;另外,传统统计学研究的是样本数目趋于 无穷大时的渐近理论,现有学习方法也多是基于这种假设。但在实际问题中,样本 数往往是有限的,因此一些理论上很优秀的学习方法在实际中表现却可能不尽人意。 第二种方法是经验非线性方法,如人工神经网络。这种方法利用已知样本建立 非线性模型,克服了传统参数估计方法的困难。但是,这种方法缺乏一种统一的数 学理论。 第三种是统计学习理论( s l t ) 。与传统的统计学相比,统计学习理论是一种 专门研究有限样本情况下机器学习规律的理论。该理论针对有限样本统计问题建立 了一套新的理论体系,在这种体系下的统计推理规则不仅考虑了对推广能力的要求, 而且追求在现有有限信息的条件下得到最优结果。v a p n i k 等人从六、七十年代开始 硕士论文基于支持向量机的网络漾洞分类方法的研究 致力于此方面的研究,到九十年代中期,随着其理论的不断发展和成熟,统计学习 理论开始受到越来越广泛的重视。 1 9 9 2 年一1 9 9 5 年,在统计学习理论的基础上发展出了一种新的模式识别方法一 支持向量机( s v m ) ,在解决有限样本、非线性及高维模式识别问题中表现出许多 特有的优势,并能推广应用到函数拟合等其他机器学习问题中。 虽然统计学习理论和支持向量机方法中尚有很多问题需要进一步研究,但很多 学者认为,它们正在成为继模式识别与神经网络研究之后机器学习领域新的研究熟 点,并将推动机器学习理论和技术取得重大的发展。 3 2 机器学习的基本问题和方法 3 2 1 机器学习问题的表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论