已阅读5页,还剩72页未读, 继续免费阅读
(计算机应用技术专业论文)基于支持向量机的协同入侵检测.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ad i s s e r t a t i o ns u b m i t t e dt og u a n g d o n gu n i v e r s i t yo f t e c h n o l o g yf o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n gs c i e n c e c o o p e r a t i v ein t r u s i o nd e t e c t i o ns y s t e mb a s e do n s u p p o r tv e c t o rm a c h in e s c a n d i d a t e :d uh o n g l e s u p e r v i s o r :p r o f t e n gs h a o h u a m a y2 0 1 0 f a c u l t yo fc o m p u t e r g u a n g d o n gu n i v e r s i t yo ft e c h n o l o g y g u a n g z h o u ,g u a n g d o n g ,p r c h i n a ,5 10 0 9 0 摘要 摘要 随着网络技术的发展及网络应用的普及,入侵检测作为网络安全的主动防御 工具,也面临着更多新的挑战,尤其是在大量的网络数据、在线学习以及噪声数 据等情况下,无法准确识别网络行为。作为分类问题的入侵检测,是根据提取到 的用户特征数据把用户行为分为j 下常行为和异常行为,因此入侵检测可转化为模 式识别问题。 支持向量机是基于统计学习理论的一种新的机器学习方法,特别是在高维数 据空间下,能够有效克服维数灾难、过学习等问题,已经在模式识别、回归计算 等领域得到广泛的应用。因为支持向量机具有非线性、小样本、全局最优等优势, 把支持向量机应用到入侵检测中,可以在先验知识不足、高维数据、非线性等情 况下,仍然具有较高的检测准确率,提高入侵检测系统的整体性能。 本文分析了支持向量机应用到入侵检测中的优点和不足,结合网络入侵检测 应对大规模网络的丢包率高、噪声数据多、在线学习难等问题,给出相应的解决 方法,主要工作包括: ( 1 ) 提出了一个协同入侵检测模型,该模型包括数据采集器、数据预处理、 检测代理和决策相应四部分。多个检测代理协同工作有效减少检测系 统由于负载过大而导致丢包率,从而更准确的获得网络行为特征,提 高检测系统的检测准确率; ( 2 ) 构建了三类检测代理:t c p 检测代理、u d p 检测代理和i c m p 检测代理, 并根据不同的协议类型对检测代理进行相应的特征提取,分别用3 2 、 2 1 和1 8 个特征代替k d d c u p 数据集中的4 1 维特征,因此大大减少了检 测代理处理数据的时问; ( 3 ) 将模糊隶属度函数引入到检测代理的构建中。消除或者减少噪声数据 对构建分类超平面的影响,从而更准确的构建支持向量机决策函数, 提高支持向量机的分类准确率; ( 4 ) 采用支持向量机并行算法构建检测代理。支持向量机训练的时间复杂 度是o ( n 3 ) ,随着训练数掘集的增加,训练时间也急剧增加,并行算法 可以有效的减少训练时问; l 广东工业大学硕士学位论文 ( 5 )引入自适应机制到检测代理的构建中。针对准支持向量的特点,并结 合k k t 条件和无监督聚类算法,对支持向量机的增量学习算法进行改 进;并将改进的增量学习算法应用到入侵检测中,使得检测系统具有 较好的自适应性。 最后,使用l i b s v m 平台对k d d 9 9 数据集进行仿真,仿真结果表明协同入侵检 测系统提高了检测代理处理网络数据的能力、减少噪声数据的影响、缩短训练时 间以及增强了检测系统的自适应性。 关键字:入侵检测;支持向量机;网络安全;协同;k d d c u p 数据集 i l a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fn e t w o r kt e c h n o l o g ya n dt h ep o p u l a r i z a t i o no fn e t w o r k a p p l i c a t i o n ,i n t r u s i o nd e t e c t i o na st h ea c t i v ed e f e n s et o o l so ft h en e t w o r ks e c u r i t yi s h c m gm o r en e wc h a l l e n g e s e s p e c i a l l y , i tf a c e st h ep r o b l e ms u c ha sal a r g en u m b e ro f n e t w o r kd a t a s e t ,n o i s ed a t a ,o n l i n el e a r n i n ga n do t h e ri s s u e s i n t r u s i o nd e t e c t i o ni s e s s e n t i a l l y ac l a s s i f i c a t i o n p r o b l e m a c c o r d i n gt o t h ed a t af r o mt h en e t w o r k i n f o r m a t i o n ,t h en e t w o r kb e h a v i o rc a t e g o r i e sa r ec l a s s i f i e dn o r m a la n da b n o r m a l b e h a v i o r a n dt h ei n t r u s i o nd e t e c t i o np r o b l e mc h a n g e si n t oap a t t e r nr e c o g n i t i o n p r o b l e m s u p p o r tv e c t o rm a c h i n eb a s e do ns t a t i s t i c a ll e a r n i n gt h e o r yi san e wm a c h i n e l e a r n i n gm e t h o d i nh i g hd i m e n s i o n a ld a t as p a c e ,i to v e r c o m e st h ep r o b l e m so ft h e d i m e n s i o nd i s a s t e r , e x c e s s i v el e a r n i n ga n dl o c a lo p t i m u m s oi nt h ep a t t e r nr e c o g n i t i o n a n do t h e rf i e l d s ,i th a sb e e nw i d e l yu s e d a st h es u p p o r tv e c t o rm a c h i n ew i t hl i n e a r , s m a l ls a m p l e s ,t h e 哲o b a lo p t i m u ma n do t h e ra d v a n t a g e s ,i ti sa p p l i e di n t ot h en e t w o r k i n t r u s i o nd e t e c t i o n i nt h ec a s eo fl a c ko fp r i o r - k n o w l e d g e ,h i g h - d i m e n s i o n a ld a t aa n d n o n l i n e a r , i ts t i l lh a sh i g h e rd e t e c t i o na c c u r a c ya n di m p r o v e st h ep e r f o r m a n c eo ft h e i n t r u s i o nd e t e c t i o ns y s t e m t h i sp a p e ra n a l y z e st h es t r e n g t h sa n dw e a k n e s s e so ft h es u p p o r tv e c t o rm a c h i n e a p p l i e dt oi n t r u s i o nd e t e c t i o n a n dc o m b i n e dt h ep r o b l e m so fi n t r u s i o nd e t e c t i o n f a c i n go nt h el a r g e - s c a l en e t w o r ks t r e a ms u c ha sh i g h e rn e t w o r kp a c k e tl o s sr a t e ,m o r e n o i s ed a t a , t h ed i f f i c u l t yo fo n l i n el e a r n i n ga n do t h e ri s s u e s ,t h i sp a p e rp r e s e n t st h e c o r r e s p o n d i n gs o l u t i o n i nt h i sp a p e r , t h ef o l l o w i n gw o r k sa r ed o n e : 1 ) t h i sp a p e rp r o p o s e sam o d e lo fc o o p e r a t i v en e t w o r ki n t r u s i o nd e t e c t i o n 2 ) s y s t e m i tc o n t a i n sd a t ac o l l e c t o r ,d a t ap r e p r o c e s s o r , d e t e c t i o na g e n t , a n d d e c i s i o nr e s p o n s e c o o p e r a t i v ei n t r u s i o nd e t e c t i o nc a nr e d u c e st h ep a c k e t l o s er a t eb e c a u s eo ft h el a r g e s c a l en e t w o r kd a t a t h e r e f o r e ,w ec a l lo b t a i n t h ef e a t u r eo ft h ei n t e r a c tb e h a v i o r , a n di m p r o v et h ed e t e c t i o na c c u r a c yr a t e c o n s t r u c t e dt h et h r e et y p e so fd e t e c t i o na g e n t :t c pd e t e c t i o na g e n t ,u d p i i i 广东工业大学硕士学位论文 d e t e c t i o na g e n ta n di c m pd e t e c t i o na g e n t a c c o r d i n gt ot h en e t w o r k p r o t o c o l ,d e t e c t i o na g e n t s e x t r a c td i f f e r e n t f e a t u r e s 3 2 ,2 1 a n d1 8 d i m e n s i o n a lf e a t u r c si n s t e a d4 1d i m e n s i o n a lf e a t u r e so ft h ek d d c u p d a t a s e t t h e r e f o r e ,e v e r y d e t e c t i o n a g e n t c a ns i g n i f i c a n t l yr e d u c et h e 3 ) i n t r o d u c et h ef u z z ym e m b e r s h i pf u n c t i o nt oc o n s t r u c tt h ed e t e c t i o na g e n t t h i sc a ne l i m i n a t eo rr e d u c et h ei m p a c to fn o i s ed a t ao nb u i l d i n gt h e c l a s s i f i c a t i o nh y p e r p l a n e s ow ec a ng e tam o r ea c c u r a t ed e c i s i o n - m a k i n g f u n c t i o no fs u p p o r tv e c t o rm a c h i n e a n dt h i si m p r o v e ss u p p o r tv e c t o r m a c h i n ec l a s s i f i c a t i o na c c u r a c y t oc o n s t r u c t d e t e c t i o n a g e n t w i t h p a r a l l e la l g o r i t h m o fs v m t i m e c o m p l e x i t yo fs v m i so ( n 3 ) w i t ht h ei n c r e a s eo ft h et r a i n i n gd a t a s e t , t r a i n i n gt i m es h a r p l y i n c r e a s e a n dp a r a l l e l a l g o r i t h m o fs v mc a n e f f e c t i v e l yr e d u c et h et r a i n i n gt i m e 5 ) i n t r o d u c et h ea d a p t i v em e c h a n i s mt oc o n s t r u c tt h ed e t e c t i o na g e n t c o m b i n e dt h eu ca l g o r i t h ma n dk k tc o n d i t i o n s ,i m p r o v et h ei n c r e m e n t a l l e a r n i n g o fs v m a n dt h ei m p r o v e da l g o r i t h mi su s e di n t oi n t r u s i o n d e t e c t i o nt od e t e c tn e wi n t r u s i o n f i n a l l y , s i m u l a t i o ne x p e r i m e n t sa t ed o n eb yu s i n gk d d c u p1 9 9 9d a t as e t a n d e x p e r i m e n t a l r e s u l t ss h o wt h a tc o o p e r a t i v ei n t r u s i o nd e t e c t i o nc a ni m p r o v et h e p e r f o r m a n c eo ft h ei n t r u s i o nd e t e c t i o ns u c ha si m p r o v et h ea b i l i t yo fd e a l i n gw i t h n e t w o r kd a t a ,r e d u c et h ei m p a c to fn o i s ed a t a ,c u td o w nt h et r a i n i n gt i m ea n de n h a n c e t h es e l f - a d a p t i v eo fd e t e c t i o na g e n t k e y w o r d s :i n t r u s i o nd e t e c t i o n ;s u p p o r t v e c t o rm a c h i n e s ;n e t w o r k s e c u r i t y ; c o o p e r a t i o n ;k d d c u p 9 9d a t a s e t i v 日录 目录 摘要i a b s t r a c t i i i 第一章绪论1 1 1 引言1 1 2 当前研究现状2 1 3 论文主要内容及章节安排3 第二章基础知识介绍5 2 1 统计学习理论5 2 1 1v c 维5 2 1 2 经验风险最小化原则6 2 1 3 结构风险最小化原则7 2 2 支持向量机8 2 2 1 最优分类面和支持向量8 2 2 2 线性可分问题1 0 2 2 3 线性不可分问题1 2 2 2 4 多类支持向量机1 4 2 2 5 支持向量机的增量学习1 6 2 3 入侵检测1 8 2 3 1 入侵检测模型1 8 2 3 2 入侵检测分类1 9 2 3 3 入侵检测方法2 1 2 3 4 入侵检测系统结构2 3 2 4 小结2 5 第三章协同入侵检测模型2 6 3 1 协同入侵检测体系结构2 6 3 2 各单元模块介绍2 7 3 2 1 数据采集器2 7 v 广东工业大学硕士学位论文 暑皇詈昌鲁皇暑昌暑詈暑皇詈皇詈暑=詈穹皇毫詈詈毫皇搴詈詈葛詈詈皇皇皇詈毫詈ill一| 3 2 2 数据预处理2 7 3 2 3 检测代理2 8 3 2 4 决策响应2 8 3 3 小结2 8 第四章数据集及预处理2 9 4 1 数据集2 9 4 2 预处理2 9 4 2 1 数据清洗3 0 4 2 2 特征提取3 0 4 2 3 格式转换3 4 4 2 4 归一化3 4 4 3 小结3 5 第五章s v m 检测代理3 6 5 1s 检测代理模型3 6 5 2s 检测代理的模糊化3 7 5 2 1 引入模糊成员函数的v s v m 3 7 5 2 2 隶属度计算3 9 5 3s v m 检测代理的并行处理4 0 5 3 1 $ v m 并行算法4 0 5 3 2 并行s 改进4 1 5 3 3 算法描述4 2 5 4 $ v m 检测代理的自适应机制4 2 5 4 1u c 算法4 3 5 4 2s v m 与u c 算法相结合4 4 5 4 3s v m 增量学习4 4 5 5 小结4 6 第六章实验及数据分析4 7 6 1 实验环境4 7 6 2 实验结果及分析4 7 6 2 1 检测代理的模糊化4 7 v l h 录 6 2 2 基于增量学习的入侵检测4 8 6 2 3 基于支持向量机的协同入侵检测5 0 6 3 小结5 2 总结与展望5 3 参考文献5 5 攻读学位期间发表论文6 0 独创性声明6 2 致谢6 3 i 广东工业大学硕士学位论文 c o n t e n t s c n e s ea b s t r a c t i e n g l is ha b s t r a c t i i i c h a p t e r1p e r f a c e 1 1 1f o r w a r d 】【 1 2c u r r e n tr e s e a r c h :1 1 3m a i nw o r ka n do r g a n i z a t i o no ft h i sa r t i c l e 3 c h a p t e r2t h e o r e ti c a ib a sis 5 2 1s t a t i s t i c a ll e a r n i n gt h e o r y 5 2 1 1v cd i m e n s i o n 5 2 1 2e m p i r i c a lr i s km i n i m i z a t i o np r i n c i p l e 6 2 1 3s t r u c t u r a l r i s km i n i m i z a t i o np r i n c i p l e 7 2 2s u p p o r tv e c t o rm a c h i n e 8 t i o n 1 9 2 1 2 3 2 5 2 6 o nd e t e c t i o n 2 6 2 6 2 7 c o n t e n t s 3 2 2d a t ap r e p r o c e s s i n g 2 7 3 2 3d e t e c i o na g e n t 2 8 3 2 4d e c i s i o na n dr e s p o n s e 2 8 3 3s u m m a r y 2 8 c h a p t e r4d a t a s e ta n dp r e p r o c e s s in g 2 9 4 1d a t a s e t 2 9 4 2p r e p r o c e s s i n g 2 9 4 2 1d a t ac l e a n i n g 2 9 4 2 2f e a t u r ee x t r a c t i o n 3 0 4 2 3f o r m a tc o n v e r s i o n 3 4 4 2 4n o r m a l i z e d 3 4 4 3 s u m m a r y 3 5 c h a p t e r5s v md e t e c tio na g e n t 3 6 5 1s v md e t e c t i o na g e n tm o d e l 3 6 5 2s v mf u z z yd e t e c t i o na g e n t 3 7 5 2 1v - s v mw i t hf u z z ym e m b e r s h i pf u n c t i o n 3 7 5 2 2m e m b e r s h i pc a l c u l a t i o n 3 9 5 3p a r a l l e la l g o r i t h mo fs v md e t e c t i o na g e n t 3 9 5 3 1s v mp a r a l l e la l g o r i t h m 4 0 5 3 2i m p r o v e ds v mp a r a l l e la l g o r i t h m 4 l 5 3 3a l g o r i t h md e s c r i p t i o n 【1 5 4a d a p t i v em e c h a n i s mf o rs v md e t e c t i n ga g e n t s 4 2 5 4 1u ca l g o r i t h m 4 3 5 4 2c o m b i n es v ma n du ca l g o r i t h m 4 4 5 4 3i n c r e m e n t a ll e a r n i n gs v m 4 4 5 5s u m m a r y 4 5 c h a p t e r6e x p e ri m e n t ai 4 7 6 1e x p e r i m e n t a le n v i r o n m e n t 4 7 6 2e x p e r i m e n t a lr e s u l t sa n da n a l y s i s 4 7 6 2 1f u z z yd e t e c t i o na g e n t 4 7 i x 广东工业大学硕士学位论文 6 2 2i n t r u s i o nd e t e c t i o nb a s e do ni n c r e m e n t a ls v m 4 8 6 2 3c o o p e r a t i v ei n t r u s i o nd e t e c t i o nb a s e do ns v m 5 0 6 3s u m m a r y 5 2 c o n c iu sio na n dp r o s p e c t 5 3 r e f e r e n c e 5 5 p a p e r sp u b iis h e dd u rin gt h em a s t e rd e g r e e ,6 0 o rig in ais t a t e m e n t 6 2 a c k n o w ie d g e m e n t 6 3 x 第一章绪论 1 1 引言 第一章绪论 随着互联网技术的发展及计算机应用的普及,计算机网络通过信息共 享在人们的工作、学习、生活中起到不可或缺的作用。然而,由于计算机 网络的信息共享性、终端分布性、网络开放性、互连性等特点,使得私有 信息及机密数据受到严重威胁,为计算机网络提出新的挑战。 网络安全主要包括通信线路上的安全、计算机系统安全及所存放数据 的安全,针对通信线路安全主要采用安全协议、安全策略及加密等方法; 针对计算机系统安全主要有防火墙、用户口令认证、访问控制等方法;针 对信息安全主要有加密认证、数据隐藏、备份回复等方法,然而这些方法 都是被动的防御,入侵检测从安全的另外一个角度考虑,是一种主动的防 御工具,对所保护的对象进行实时的监控,另外入侵检测是对记录系统活 动轨迹的审计数据进行分析,因而即可以检测外部入侵也可以防范内部的 非法行为,并适用于任何计算机系统,因此得到有关专家学者的重视。 入侵检测通过对用户行为进行监听并对其特征进行分析,判断用户行 为正常与否,当计算机网络或者计算机系统受到威胁时进行报警、拦截并 做出响应。入侵检测的实质可以看作是分类,即根据用户行为特征对用户 行为进行分类,判断用户行为是正常行为还是异常行为( 也就是入侵行 为) 。但现行的入侵检测系统都存在误警率和漏警率高、实时性差及训练 时间较长等问题,主要原因在于:一、面对复杂的网络结构和大量的网络 数据,无法收集到纯净的训练数据集,即训练数据集包含有大量的噪声数 据;二、面对行行色色的网络入侵行为,无法一次收集到完备的训练数据 集;三、随着网络速度的提高,产生大规模的网络数据,检测点容易产生 丢包现象,收集不到完整的用户行为信息。因此,如何减少噪声数据的影 响、如何提高入侵检测系统的在线学习机制、如何提高入侵检测系统的检 测时问,解决这些问题将会减少入侵检测系统的误警率和漏警率,提高实 时性。 1 广东工业大学硕士学位论丈 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 基于v c 维理论和结 构风险最小化原则,在很大程度上克服了传统机器学习中的维数灾难以及 局部最优等问题。s v m 可以自动寻找那些对分类有较好区分能力的支持向 量,由此构造出的分类器可以最大化分类间隔、最小化分类错误率,因而 具有较好的泛化能力和较高的分类准确率。s v m 在解决小样本、非线性及 高维数问题中表现出独特的优势和良好的应用前景,特别是在高维数据空 间下,有效的克服了维数灾难和过学习问题,已经在很多领域得到广泛的 应用,例如在回归学习、文本分类、手写识别、图像分类、生物信息学等 领域中获得较好的应用。作为模式识别的入侵检测问题,也是支持向量机 的另外一个重要应用领域,得到许多专家学者的探讨研究。 1 2 当前研究现状 入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,简称i d s ) 是通过用户 行为特征对企图入侵、正在进行的入侵或己经发生的入侵进行识别并做出 相应处理的过程心,。入侵检测是计算机网络安全的第二道防线,是一种积 极主动的安全防御工具,可以对内部攻击、外部攻击进行实时保护。入侵 检测系统根据保护对象可以分为三大类:基于网络的入侵检测系统、基于 主机的入侵检测系统和混合式入侵检测系统,基于网络的入侵检测系统保 护整个网段,监听网络中的数据包,从中发现有攻击特征的数据包并对它 做出相应的处理,比如中断连接、发出报警信号等;基于主机的入侵检测 系统保护重要主机,从被保护主机获取系统内部的数据、同志、系统状态、 应用程序等信息,从中发现攻击迹象,并做出相应的响应。根据采用的方 法可以分为:误用检测和异常检测。误用检测需要建立入侵者的行为模式, 采用模式匹配法进行检测,该方法适用于已知攻击类型;异常检测需要建 立用户的正常行为模式,判断是否偏离正常模式为依据进行入侵检测,该 方法适用于未知入侵检测。作为计算机网络安全领域的一个主要研究课 题,自d e n n i n g 1 在1 9 8 6 年提出以来受到研究人员、工商业界及广大应用 者的重视,二十多年来,吸引大批国内外学者专家进行深入研究,目前常 用的入侵检测方法包括基于马尔可夫链的入侵检测,基于贝叶斯推理的 入侵检测h ,基于模式匹配的入侵检测“,基于粗糙集理论的入侵检测 2 第一章绪论 9 , 1 0 - ,基于免疫算法的入侵检测,基于状态迁移分析的入侵检测2 1 3 1 ,基 于数据挖掘的入侵检测,1 ”,基于神经网络的入侵检测i j 6 , 17 1 ,基于支持向量 机等模式识别技术的入侵检测剖等,笔者也对入侵检测做了相关的工作 【2 - 3 i l 。 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是一种基于统计学习理论 的机器学习方法m ,该方法在解决小样本、非线性及高维数问题中表现出 独特的优势和良好的应用前景,特别是在高维数据空间下,有效的克服了 维数灾难和过学习问题e 3 s - 3 6 ,已经在很多领域得到广泛的应用,例如在回 归学习1 3 e l 、文本分类1 3 ”、图像分类扭“、生物信息学h ”、入侵检测等领域l - ”引 中获得较好的应用。然而支持向量机对噪声的处理、大规模数据集的训练、 在线学习等问题有其固有的不足。 在入侵检测问题中,数据的先验知识难以获得、数据维数较高、非 线性分类等特点,结合s v m 自身的优势,将s v m 应用于入侵检测,可以提高 入侵检测准确度,降低漏报率和误报率。然而,当前的入侵检测在收集训 练集的时候无法收集纯净的数据集;网络规模的扩大导致网络流量急剧增 加,训练数据规模也越来越大;入侵者技术的不断提高,导致一次无法收 集的完备的训练数据集等问题,据此,本文给出了基于支持向量机的协同 入侵检测模型,多检测代理协同工作可以克服网络数据流大的问题;各个 检测代理的模糊化处理可以在一定程度上解决噪声数据的问题;各个检测 代理的增量学习可以使得检测代理识别新的入侵行为。 1 3 论文主要内容及章节安排 本文的研究是在导师的悉心指导下进行的,主要包括以下几部分:第 一部分是给出了基于支持向量机的协同入侵检测模型,该模型按照网络协 议实现多个支持向量机的协同工作,从而实现协同入侵检测;第二部分是 关于噪声数据,在v - s v m 中引入模糊隶属度,实现加权支持向量机的入侵 检测。第三部分是为解决大规模数据集训练时间过长及在线学习问题,对 支持向量机的并行训练算法及增量学习算法进行相应的改进,并将改进的 算法应用到入侵检测中,提高各个检测代理的自适应性; 3 广东工业大学硕士学位论文 本文的其余章节的安排如下: 第二章:介绍本文的理论基础一一支持向量机和入侵检测,介绍统计 学习理论、核函数及支持向量机的构造原理和训练算法;介绍了网络入侵 检测的概念及当前常用的算法,并详细介绍了支持向量机在入侵检测中应 用的优势以及存在的问题。 第三章:根据当前入侵检系统应对高速网络流量的不足,给处基于网 络协议分流的协同网络入侵检测系统模型,并详细介绍了各个单元模块的 主要功能。 第四章:数据预处理直接影响到检测代理的检测性能,本章根据三章 的模型,对数据预处理过程进行了详细介绍, 第五章:结合支持向量机在模式识别上的优势,对本文所做工作进行 详细介绍,主要包括:检测代理的模糊化,为了减少噪声数据的影响,引 入模糊v s v m 算法:检测代理的并行处理,为了减少支持向量的数量,提高 测试速度,提出结合聚类的支持向量机算法:为了提高网络入侵检测系统 的自适应性,改进了支持向量机的增量学习算法:为了提高对大规模网络 数据的检测能力,给出了基于支持向量机的协同入侵检测系统 第六章:对第五章中提出的算法进行相应的实验,并对实验结果进行 相应的分析。 最后针对本文的研究,结合实验结果的分析,提出下阶段的主要研究内 容 4 第二章基础知识介绍 第二章基础知识介绍 机器学习是根据观测数据或以往的经验寻找规律,并利用这些规律对 未来数据进行预测,从而优化计算机程序的性能。机器学习是研究计算机 怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有 的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机 具有智能的根本途径,代表新一代计算机的发展方向,在计算机领域中得 到广泛应用。神经网络、贝叶斯推理等基于统计学的传统机器学习方法都 是样本数目趋于无穷大时的渐进理论,但是在实际问题中,样本往往是有 限的,因此一些理论上很优秀的学习方法在实际应用中表现的不尽人意。 与传统统计学相比,统计学习理论 ( s t a t is t i c a ll e a r n i n g t h e o r y ,s l t ) 是一种专门研究小样本情况下的机器学习规律的理论。v v a p n i k 等人从上世纪六十年代开始该方面的研究,到九十年代中期,随着 该理论的不断发展和成熟,再加上该理论的独特有点,统计学习理论开始 受到越来越多的专家学者的重视。 2 1 统计学习理论 统计学习理论是针对小样本情况研究统计学习规律的理论,是对传统 统计学的重要发展和补充,为研究在有限样本情况下机器学习的理论和方 法提供了理论依据,其核心思想是通过控制学习机器的容量实现对推广能 力的控制。从这一理论中发展出的支持向量机是一种新的通用学习机器, 较以往方法表现出很多理论和实践上的优势,统计学习理论是研究小样本 估计和预测的理论,主要包括n 屯 1 ) 经验风险最小化原则一致性条件; 2 ) 学习机器推广能力的界( v c 维) ; 3 ) 小样本归纳推理原则 4 ) 实现新准则的实际方法 2 1 1v c 维 5 广东工业大学硕士学位论文 统计学习理论定义一系列有关学习性能指标的函数,其中v c 维 ( v a p n i k c h e r v o n e n k isd i m e n s i o n ) 为了描述学习过程一致收敛的速度和 推广性“,它的定义是: 对于分类算法,其假设函数集合h 的v c 维是指能够被h “打散 的样 本集合可能具有的最大样本数( 或称作样本集合的最大基数) ,记作 v c d i m ( h ) 。样本集合瓴,i :,矗 被h “打散 是指对该集合中的样本 任意赋予类别标记0 或1 使之成为 瓴山, :,o ) ,瓴,1 ) ) ,h 中总存在一个 分类函数h i ,能够对0 类和l 类样本完全正确地分类。若对任意数目的样 本都有函数能将它们打散,则函数集的v c 维是无穷大有界实函数的v c 维可以通过用一定的阚值将它转化成指示函数来定义 对于连续取值的实函数集,其v c 维可以表示如下: 设as a ( z ,口) sb ,a a 是一个以常数a 和b 为界的实函数集合( a 可以 是一,b 可以是) 。与实函数集a ( z ,口) ,a a 一起考虑其两分类函数集合 l ( z ,a ,) = a q ( z ,口) 一卢】,a ,卢( 彳,b ) ( 2 1 1 1 ) 其中o ( z ) 是阶跃函数 晔) 一仁 实函数集q ( z ,口) ,a a 的v c 维即为在函数集合2 1 1 1 式的v c 维。 v c 维反映了函数集的学习能力,v c 维越大则学习机器越复杂( 容量越 大) ,然而,目前尚没有通用的关于任意函数集v c 维计算的理论,只对一 些特殊的函数集知道其v c 维。比如在n 维实数空间中线性分离器和线性 实函数的v
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江国企招聘2025绍兴嵊州市水利建设发展有限公司招聘5名项目经理笔试历年常考点试题专练附带答案详解试卷2套
- 2025陕西金泰氯碱化工有限公司招聘笔试历年常考点试题专练附带答案详解试卷2套
- 2025贵州六盘水市水城区裕丰储备粮管理有限公司临聘驾驶人员拟聘用人员笔试历年常考点试题专练附带答案详解2卷
- 2025福建莆田市城市建设投资开发集团有限公司招聘企业员工总及笔试历年典型考点题库附带答案详解2套试卷
- 2025湖南邵阳洞口县自来水公司招聘劳动合同制员工人员及笔试历年典型考点题库附带答案详解试卷2套
- 小学生创新设计能力培养方案
- 污水处理厂管道与设备综合施工方案
- 医院急诊科人流量管理方案
- 中职中药专业人才培养方案与教学设计
- 信用卡风险控制与欺诈防范方案
- 2024-2025学年江苏省苏州市七年级上学期期中地理试卷(含详解)
- 山西省晋中市榆次区2024-2025学年上学期期中测试八年级数学试卷
- 人民医院附属楼康养公寓装修设计任务书
- 小学音乐教学心得体会
- 2024年陕西榆林市神木市公共服务辅助人员招聘775人历年高频难、易错点500题模拟试题附带答案详解
- 2024-2025学年人教版英语七年级上册课文翻译
- 挡土墙施工合同
- 课件:《中华民族共同体概论》第十一讲 中华一家与中华民族格局底定(清前中期)
- 毓璜顶医院出院记录
- 客服经理资质考前练习题库(327道)
- 中国历史地理智慧树知到期末考试答案章节答案2024年泰山学院
评论
0/150
提交评论