




已阅读5页,还剩60页未读, 继续免费阅读
(计算机科学与技术专业论文)基于netflow的异常流量检测研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院硕士学位论文 摘要 随着i n t e r n e t 技术的发展,网络结构越来越复杂,网络环境交叉渗透,网络应 用越发多样化。由于各种原因引起的网络流量异常现象,不仅会降低网络性能, 耗费网络资源,更有甚者可能导致服务提供商不能正常运转,引发业务流失,网 络硬件设施瘫痪,造成巨大经济损失。所以准确、快速的定位网络异常流量的时 空位置,找出网络异常流量出现的原因对网络运营商、网络用户都具有重要意义。 网络异常流量检测算法是快速定位网络异常流量的关键。论文根据是否需要 历史检测数据进行学习过程,将网络异常流量检测算法分为先验算法和后验算法 两类,并设计实现了k m e a n s 、p c a 、信息熵决策树、朴素贝叶斯和基于流量特征 等五种典型异常流量检测算法。 基于现有典型算法实验分析的基础上,论文提出了基于先验触发的改进型b p 神经网络算法( p r i o r it r i g g e r e db pn e u r a ln e t w o r ka l g o r i t h m ,简称p b p ) 和基于贝 叶斯决策论的算法( n a f v eb a y e sd e c i s i o nt h e o r y ,简称n b d ) 。针对后验算法不 能自适应学习,先验算法检测精度低,误差大的问题,p b p 算法使用k m e a n s 和 p c a 算法触发自适应的学习过程,使用历史各层神经元参数平均值初始化神经网 络,利用学习好的网络进行异常流量检测。实验结果表明,p b p 算法可以获得比 先验算法高的检测精度、而且可以根据网络环境自适应学习。针对p b p 算法学习 时间长,收敛速度慢的问题,n b d 算法使用风险评估和误差分析触发自适应学习 过程,用学习好的贝叶斯概率网络进行异常流量检测,加快了异常检测的反应时 间、保证了高精度、低误报率和低漏报率。实验结果表明,n b d 算法可以获得比 先验算法高的检测精度,且不依赖于网络结构,学习时间短,收敛速度快,适用 于大多数网络环境下的异常流量检测。 论文在基于n e t f l o w 流量数据的基础上,实现了异常流量检测系统。该系统获 取n e t f l o w 的实时流量数据,经过预处理形成流量初始向量集,然后使用五种经典 算法和我们提出的p b p 、n b d 算法进行异常检测。最后在校园网上对系统进行了 实验测试。测试结果表明,该系统有较好的实时性和检测效果,有一定的实际应 用价值。 主题词:先验算法,后验算法,p b p 算法,n b d 算法,异常检测 第i 页 国防科学技术大学研究生院硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e tt e c h n o l o g y ,n e t w o r ks t r u c t u r eb e c o m e sm o r ea n d m o r ec o m p l e x ,n e t w o r ke n v i r o n m e n tc r o s s p e n e t r a t e s ,n e t w o r ka p p l i c a t i o n sb e c o m e m o r ed i v e r s e t h ea n o m a l i e si nn e t w o r kt r a f f i c ,n o to n l yw o u l dr e d u c en e t w o r k p e r f o r m a n c e ,b u ta l s oc o n s u m en e t w o r kr e s o u r c e s ,l e a dt ol o s so fb u s i n e s s ,n e t w o r k e q u i p m e n tm a y b ep a r a l y s i s ,a n dt h e r ew o u l db eah u g ee c o n o m i cl o s s e s s ot h e r ei s i m p o r t a n tp r a c t i c a ls i g n i f i c a n c ef o rn e t w o r ku s e r sa n dm a n a g e r st ol o c a t et h es p a c e t i m e p o s i t i o n so fn e t w o r ka n o m a l yf l o wa c c u r a t e l ya n df a s t l y t h en e t w o r kt r a f f i ca n o m a l yd e t e c t i o na l g o r i t h m sa r et h ek e yp o i n to fp o s i t i o n i n g t h en e t w o r kt r a f f i ca n o m a l yd e t e c t i o n i nt h i sp a p e r ,w ed i v i d e dt h en e t w o r kt r a f f i c a n o m a l yd e t e c t i o na l g o r i t h m si n t ot w oc a t e g o r i e sb a s e do nt h en e e do fh i s t o r i c a lt e s t d a t a :o n ei sc a l l e dp r i o r ia l g o r i t h m , t h eo t h e ri sc a l l e dp o s t e r i o r ia l g o r i t h m a n dw e d e s i g n e da n di m p l e m e n t e df i v ek i n d so ft y p i c a lt r a f f i ca n o m a l yd e t e c t i o na l g o r i t h m : k - m e a n s ,p c a ,i n f o r m a t i o ne n t r o p yd e c i s i o nt r e e ,n a i v eb a y e s ,a n dt h ea l g o r i t h m b a s e do nf l o wc h a r a c t e r i s t i c s i nt h i sp a p e r ,w ep r o p o s et w oa l g o r i t h m sb a s e do nc o m p r e h e n s i v ec o n s i d e r a t i o n t h ea d v a n t a g e sa n dd i s a d v a n t a g e so fe x i s t i n ga l g o r i t h m s o n ea l g o r i t h mi si m p r o v e db p n e u r a ln e t w o r ka l g o r i t h m ( p r i o r it r i g g e r e db pn e u r a ln e t w o r ka l g o r i t h m ,r e f e r r e dt oa s p b p lt h a ti st r i g g e r e db yp r i o r ia l g o r i t h m s t h eo t h e ra l g o r i t h mi sb a s e do ns h e l l b a y e s i a nd e c i s i o nt h e o r ya l g o r i t h m s ( n a f v eb a y e sd e c i s i o nt h e o r y ,r e f e r r e dt oa s n b d ) c o n s i d e r i n gt h es h o r t c o m e so ft h ep r i o r ia l g o r i t h m st h a tc a nn o tb es e l f - a d a p t i v e a n dh a sl o wp r e c i s i o ne r r o ro fb i ge lr o r s p b pa l g o r i t h mu s e sk - m e a n sa n dp c a a l g o r i t h mt ot r i g g e rs e l f - a d a p t i v el e a r n i n gp r o c e s sa n du s e st h ea v e r a g eh i s t o r i c a l p a r a m e t e r so fn e u r o n sl a y e r st oi n i t i a l i z en e u r a ln e t w o r k s e x p e r i m e n t a lr e s u l t ss h o w t h a tp b pc a nw o r kb e t t e rt h a nm o s tp r i o r ia l g o r i t h m sa n ds t u d yb yi t s e l f c o n s i d e r i n g p b pa l g o r i t h m sl o n gt i m es t u d yp r o c e s sa n ds l o wc o n v e r g e n c e ,n b da l g o r i t h mu s e s r i s ka s s e s s m e n ta n de r r o ra n a l y s i sf o ra d a p t i v el e a r n i n gp r o c e s st r i g g e r e d i ts h o r t e n e d t h es t u d yp r o c e s sa n dr e a c t i o nt i m eb u te n s u r eh i g ha c c u r a c y e x p e r i m e n t a lr e s u l t ss h o w n b d a l g o r i t h mc a nw o r ki nm o s tn e t w o r ke n v i r o n m e n ta n dg e tg o o dd e t e c t i o nr e s u l t i nt h i sp a p e r , w er e a l i z e da na b n o r m a lt r a f f i cd e t e c t i o ns y s t e mb a s e do nn e t f l o w d a t a 1 1 1 es y s t e mi n v o l v e sp b p n b da n o m a l yd e t e c t i o na l g o r i t h m st h a tw ep r o p o s e d a n dt h eo n t e rf i v ek i n d so fc l a s s i c a la l g o r i t h m s w et e s tt h es y s t e mo nt h ec a m p u s n e t w o r ks y s t e ma n dg e tab e t t e rr e a l t i m ep e r f o r m a n c ea n dt e s t i n gr e s u l t s w ef i n dt h a t t h es y s t e mh a ss o m ep r a c t i c a lv a l u e k e yw o r d s :p r i o r ia l g o r i t h m ,p o s t e r i o r ia l g o r i t h m ,p b pa l g o r i t h m ,n b d a l g o r i t h m ,a n o m a l yd e t e c t i o n 第i i 页 国防科学技术大学研究生院硕士学位论文 表目录 表1 1f l o w d a t a 数据库r a wv 5 表内容。3 表1 2f l o w d a t a 数据库d s t i n t 表内容4 表2 1 典型先验算法特性比较1 6 表2 2 后验算法特性比较2 0 表3 1k m e a n s 算法的对不同维度输入向量的分类效果2 2 表3 2 用p c a 结果作为k m e a n s 算法输入向量地分类结果2 3 表3 3 各层神经元数对神经网络结果的影响2 5 表3 4p b p 算法触发偏离值2 6 表5 1 系统模块功能表4 3 第1 i i 页 国防科学技术大学研究生院硕士学位论文 图 图 图 图 图3 4 图3 5 图3 6 图3 7 图4 1 图4 2 图4 3 图4 4 图4 5 图4 6 图5 1 图5 2 图5 3 图5 4 图5 5 图5 6 图5 7 图5 8 图5 9 图5 1 0 图5 1 l 图5 1 2 图5 1 3 图5 1 4 图5 1 5 图5 1 6 图目录 不同时间密度检测对异常检测结果的影响9 p c a 算法结果2 1 k m e a n s 算法结果。2 2 p b p 基于先验触发的改进型b p 神经网络算法2 5 系统的模拟实验结构图2 7 p b p 和经典先验算法的反应时间比较2 9 p b p 和先验算法性能比较2 9 p b p 和后验算法性能比较3 0 n b d 算法3 5 二维离散化单元图示3 7 连续向量的离散化分类过程3 8 n b d 算法和先验算法的反应时间比较3 9 n b d 算法和先验算法性能比较4 0 n b d 算法与后验算法性能比较4 0 原型系统的三层结构图示。4 2 异常检测模块结构4 4 系统数据库联系图4 5 系统类关系图4 6 流量变化频率4 7 数据包变化频率4 8 实时协议流量变化4 8 源端口流量分布4 9 系统初始化输出。4 9 单独k 。m e a n s 触发条件计算结果5 0 系统自运行过程中的检测结果5 0 各层神经元变化后的结果5 1 贝叶斯决策论学习检测结果5 2 基于历史数据的贝叶斯实时检测结果5 2 不同学习时间的系统性能变化( 1 0 3u = 0 1 ) 5 3 不同误差阀值的系统效能图( 学习时间为3 0 m i nk 3 ) 5 3 第1 v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贸献均已在论文 中作了明确的说明并表示谢意。 学位论文作者娩啦慨声7 年舢搿日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留,使用学位论文的规定。本人授枉固 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印侔和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目: 基王! ! 鲣煎是堂速量拴趔煎窥复塞理 学位论文作者签名:一塑物 作者指导教师签名:醴童壹 日期:巧年,夕月衫日 日期:砂7 年月刀日 国防科学技术大学研究生院硕士学何论文 第一章前言 1 1 课题背景 互联网快速而广泛的发展,给人类的生产生活带来巨大变化的同时,也给网 络自身的发展提出了更高的要求。随着网络规模的不断扩大,网络流量的多种多 样对网络运行环境的影响逐渐加剧。特别是由于各种原因引起的网络流量异常现 象,不仅会降低网络的性能,耗费网络资源,更有甚者可能导致服务提供商不能 正常运转,引发业务流失,网络硬件设施瘫痪,造成巨大经济损失。所以准确, 实时、快速的定位网络异常流量的时空位置,找出网络异常流量出现的原因对于 网络运营商、网络用户都具有重要的意义。 准确定位网络异常流量出现的空间位置,网络管理员可以据此考察网络设施 的配置情况,发现网络性能瓶颈,改善网络环境,更好的满足用户的需求。特别 是如果网络异常流量的出现可能威胁到网络安全和稳定的时候,管理员及时发现 和预测网络异常流量出现的位置,对引起异常的源主机进行屏蔽或其他处理措施 就可能挽回巨大的经济损失。从而保证嘲络环境健壮、平稳地运行下去,而用户 也可以享受高质量的安全稳定的服务。 准确发现异常流量出现的时间坐标对网络管理员也有重要意义。因为异常流 量在时间分布上和正常量相比存在时间较短的特性,所以当异常流量出现时,尽 早采取相应措施,可以避免造成更大的损失。特别是对于网络应用服务提供商来 说,及时发现对网络应用服务器进行的网络攻击行为,就可在未造成服务关闭的 时候断开异常连接,恢复网络正常运行状态,确保应用服务正常工作。 针对异常流量引起的问题,出现越来越多的流量检测和预测技术。如各种各 样的i d s 检测可对系统网络、系统的运行状况进行监视,尽可能发现各种攻击企 图、攻击行为或者攻击结果,以保证网络系统资源的机密性、完整性和可用性。 此外网络管理员可通过网络环境监测系统分析网络流量特征,根据经验判断网络 异常。随着网络设备提供商对异常流量监测技术的关注,越来越多的网络硬件设 备提供了网络流量数据采集和分析技术。如c i s c o 的n e t f l o w 网络流量采样数据, 不仅为设备使用商提供了网络监管方面的便利,也使得基于特定流量数据协议的 异常检测技术有了新的出发点。 网络异常流量检测技术可以解决网络故障、性能以及安全问题,已成为检测 网络故障、性能和安全问题的有效方法,对提高网络的安全性、可用性、可靠性、 保证网络的服务质量具有重要的意义。 第1 页 国防科学技术大学研究生院硕士学位论文 1 2n e t f l o w 流量数据介绍 n e t f l o w 是由c i s c o 公司1 9 9 6 年研发并取得专利技术的一种流量统计协议,由 c i s e o 路由器支持,是c i s c oi o s 软件内嵌的一种功能。n e t f l o w 将网络流量记录到 设备的高速缓存中,从而提供非常精确的流量测量。由于网络通信具有流动性, 所以高速缓存中记录的n e t f l o w 统计资料通常包含转发的i p 信息。 n e t f l o w 协议中,一个流定义为:源i p 地址和目的i p 地址间传输的单向数据 包流,所有数据包具有共同的传输层源、目的端口号。它具有源i p 地址、目标i p 地址、源通信端口号、目标通信端e 1 号、第三层协议类型、t o s 字节( d s c p ) 、 网络设备输入( 或输出) 的逻辑网络端口这7 个关键字段标识。n e t f l o w 技术主要 由c i s e o 路由器支持,它通过分析上述7 个属性,快速区分网络中传送的各种不 同业务类型的流。对区分出的每个流,n e f l o w 可以进行单独的跟踪和准确的计量, 记录其传送方向和目的地等流量特性,统计其起始和结束时间,服务类型,包含 的数据包数量和字节数量等流量信息。 n e f l o w 采用了主动式数据推送机制,当缓存表项超时后,网元设备中的n e f l o w 代理将通过规范的报文格式将超时表项数据送往指定主机( 须事前指定i p 地址、 协议和端口) 。n e f l o w 缓存是所有活跃流统计信息的存储位置,所有具备相同关 键字段的数据包都将在该缓存相应表项中进行数据累计,如数据包数量、字节数 等。除了被称为主缓存( m a i nc a c h e ) 的缓存之外,部分支持聚合机制的网元设备还 需提供相应的聚合缓存( a g g r e g a t i o nc a c h e ) 。最终的输出报文将包含该聚合缓存的 汇总结果,从而能够有效降低n e f l o w 流量对网络带宽的占用。 n e t f l o w 可同时向n e t f l o w 数据采集服务器输出采集到的网络流量统计信息, 它支持三种传输协议: l ,采用简单高效的u d p 传输协议。它的特点是传送速度快,数据量小,但 传送的可靠性是不保证的。 2 ,采用传统的s n m pm i b 方式。n e t f l o w 数据采集服务器可通过s n m p 协议 访问网络设备n e t f l o wm i b 库中数据流统计信息。 3 ,采用可靠的s c t p ( s t r e a mc o n t r o lt r a n s m i s s i o np r o t o c 0 1 ) 传输协议。该协议 支持拥塞识别,重传和排队机制,确保n e t f l o w 统计结果正确发送给n e t f l o w 数据 采集服务器。一般的实现中通常采用u d p 作为缺省传送协议。 因为流量数据是多维信息的表示,全面的信息内容包括在原始流量数据表 l a wv 5 中,见表1 1 ,它的内容包括:采集n e t f l o w 数据的路由器i p 地址,源i p 地址,目的i p 地址,下跳路由的i p 地址,输入端口,输出端口,流的数据包数, 流的字节数,源端口号,目的端口号,协议类型、时间戳等共2 6 项内容,这些内 第2 页 国防科学技术大学研究生院硕士学位论文 容包括+ r 流的洋细属性信息,u 丁以用来统计计算流的特征属性信息,包括流的流 量的大小,流的数据包数,协议流量大小,端口流量大小,端口流量分布等等可 用来构成初始流向量的统计特征值,这些值都是在一定时问内的统计结果。 表1 1f l o w d a t a 数据库r a wv 5 表内容 r o u t e r l pl0 12 8 2 5 4 2 5 4l0 12 8 2 5 4 2 5 410 12 8 2 5 4 2 5 4 s y s u p t i m e 2 8 5 7 5 7 8 4 9 2 2 8 5 7 5 7 7 4 9 2 2 8 5 7 5 7 8 4 9 2 s e c s1 2 3 5 01 2 4 9 51 2 3 5 0 1 2 4 9 41 2 3 5 0 1 2 4 9 5 n s e c s8 5 5 0 1 2 5 4 68 5 5 0 1 2 5 4 68 5 5 0 1 2 5 4 6 f l o w _ s e q u e n c e 2 3 31 7 2 2 8 92 3 31 7 2 2 5 92 3 31 7 2 2 8 9 e n g i n e t y p e o0o s r c a d d r2 6 8 8 3 2 3 22 5 1 0 0 2 01 0 1 3 1 2 3 3 d s t a d d r2 7 1 3 2 2 2 3 12 7 13 2 4 2 2 22 7 4 2 3 2 1 6 n e x t h o p 10 12 8 2 5 4 2 5 310 12 8 2 5 4 2 5 32 7 1 2 9 1 1 0 6 i n p u t 1 0 1 0 9 o u t p u t 990 d p k t sl2 1 73 d o c t e t s4 03 1 9 1 1 31 5 6 a f i r s t2 8 5 7 5 6 2 1 8 82 8 5 7 5 4 9 0 7 22 8 5 7 5 6 2 2 6 8 a l a s t2 8 5 7 5 6 2 1 8 82 8 5 7 5 6 1 5 7 22 8 5 7 5 6 3 2 5 2 s r c p o r t 8 0 8 0 3 1 5 3 d s t p o r t2 6 8 42 1 2 22 1 t c p _ f l a g s 1 62 42 p r o t666 t o soo0 s r ca so00 d s ta s00o s r cm a s k0o1 6 d s tm a s k1 61 6 0 s t a m p 2 0 0 9 0 2 1 9 11 0 7 5 22 0 0 9 0 2 1 9 11 0 7 5 22 0 0 9 0 2 1 9 1 1 0 7 5 2 除了原始流量数据外,n e t f l o w 还包括了其他统计数据的表格,这些表格分别 由不同的统计属性构成,描述了流的统计属性信息。这些表包括a s m a t r i x ,d s t a s , d s t i n t ,d s t n o d e ,d s t p r e f i x ,h o s t m a t r i x ,i n t m a t r i x ,p r e f i x m a t r i x ,p r o t o c o l ,s r c a s , s r c i n t ,s r c n o d e , s r c p r e f i x 。例如表1 2 给出的就是目的接口的属性信息表d s t i n t , 这个表主要包括了c i s c o 路由器不同接口的流信息,包括接口编号,通过接口的 字节数,通过接口的数据包数,通过接口的流数,统计的起始时间日期,结束时 间日期,时间戳等等。这些信息可用于分析路由器不同接口的流量负载信息。 第3 页 国防科学技术大学研究生院硕士学位论文 表1 2f l o w d a t a 数据库d s t i n t 衷内容 s t a r t t i m ee n d t i m e f l o w sd p k t sd o c t e t s d s t i n t s t a m p 1 1 :0 7 :5 2l l :0 7 :5 51 98 24 3 6 9o2 0 0 9 0 2 1 9 1 1 0 7 5 5 1 1 :0 7 :5 21 1 :0 7 :5 51 56 3 5 23 1 1 9 1 7 1 0 2 0 0 9 0 2 1 9 11 0 7 5 5 1 1 :0 7 :5 21 l :0 7 :5 52 62 8 2 34 1 0 3 2 5 292 0 0 9 0 2 1 9 11 0 7 5 5 1 1 :0 7 :5 8l l :0 8 :0 14 02 3 51 2 5 2 2o2 0 0 9 0 2 1 9 11 0 8 0 1 11 :0 7 :5 81 1 :0 8 :0 13 78 2 01 5 1 21 02 0 0 9 0 2 1 9 11 0 8 0 1 1 3 异常流量产生的原因 引起网络流量异常的原因主要可以分为三大类:一种是因为网络操作导致的 异常,一种是闪现拥挤异常,还有一种就是需要网络管理人员引起高度注意的网 络滥用异常。因为这种异常都伴随着对网络环境进行的安全攻击,会影响网络性 能,造成业务、资源流失和经济损失。 网络操作异常一般是因为网络配置发生变化,如网络环境中配置了新的高性 能的路由器,造成流量集中向此路由器流动。如果网络环境中的网络硬件出现故 障,如服务器死机,路由器瘫痪等,也可能造成流量的显著变化。有的时候网络 管理人员对网络的配置操作也可能引起流量变化,特别是错误配置,如路由端口 配置错误,将所有流经路由的信息重定向到新的同一个端口等。 闪现拥挤异常一般属于合理异常,这种可能被归类于正常流量,其实深入的 研究和解决这种异常对合理的分配和利用网络资源很有意义。这种异常主要表现 为空间和时间上的流量凸现。在空间上,一个知名的i p 地址或者一个新开通的很 受欢迎的网络服务都可能引起通向此i p 地址的流量突然增加。如大量网络用户在 一个新的网络游戏服务器上的登陆会造成此服务器的访问量大增,引起流量显著 变化。在时间上,由于网络用户使用网络的频率随着时间的不同而具有分布差异。 例如在校园网络中,中午和晚上网络用户数量突增,造成出口网络路由器流量短 时间内出现流量大幅增加。这种异常的出现可能会影响网络性能,使用户的应用 层受到影响,据此网络管理人员可以合理的配置网络环境,提高资源利用率、给 用户提供良好的应用。 网络安全攻击引起的流量异常是最难以防范的,这种异常通常是由于网络攻 击者使用各种网络安全攻击手段对单个主机或局部网络进行攻击时引起的,在网 络流量上有显著变化。这种网络滥用异常主要是由以下几种网络攻击行为引起的。 如典型的d o s 和d d o s 攻击,这种攻击行为是攻击者自己或者遥控系列主机向 被攻击者发送大量非法连接请求,造成被攻击者的资源消耗殆尽,不能响应正常 连接请求,拒绝对合法用户提供服务。网络流量的显著特点是网络中出现流向同 第4 页 国防科学技术大学研究生院硕士学位论文 一主机同一端口的流量大幅增加。蠕虫的病毒和传播是也会引起流量的异常,蠕 虫和病毒从一点到多点的传送造成从一个主机流出的网络流量出现大幅增加。此 外,使用木马的攻击者在前期进行端口扫描寻找目标机时,也可能造成流量异常 的发生。显然这些异常流量的出现都是因为发生了影响网络安全的问题,不及时 发现和遏制这种行为就可能造成巨大的资源浪费和经济损失。 1 4 异常流量的表现特征 异常流量由于包含不同于正常流量的流量特征而容易被检测出来。这些不同 主要表现在网络流的属性信息如流量大小,平均数据包长度,平均数据包传送频 率,每条流中的端口地址对数目,不同协议类型的数据包长度,不同协议流量分 布、端口流量分布等等。 n e t f l o w 原始数据是基于流的统计信息采集的,但是由于它的采集频率高,一 个流可能在一个很短的时间内出现多次。如果我们用n e t f l o w 的原始数据计算流量 属性,然后用这些属性进行异常检测会出现两个问题:一是短时间内频繁出现的 同一个流的属性信息可能相同,这就会造成重复计算;二是由于流属性信息采集 频率高,流的特征信息存在时间短,可能造成异常流量检测算法的漏报。 针对n e t f l o w 原始数据的这个特点,可以将一小段时间内的原始数据进行统计 计算,将计算的结果作为此流在这段时间内的特征属性。这样做不仅可以丰富流 的属性信息的内容,而且避免了异常检测时出现的流信息存在的瞬时现象。 所以要分析异常流量的表现特征,要先对从n e t f l o w 采集器获得的初始数据进 行预处理,经过预处理后得到用户需要的流属性信息的统计值。然后用这些属性 信息统计值构成各种流量向量。 论文根据流属性信息的定义,由n e t f l o w 原始数据统计的流量属性信息值来表 示异常流量的特点。下面我们列举几个常用的流属性信息的计算方法以及异常流 量在这些属性上的表现特征。 假设t 为用于统计计算的时间长度;t 为统计计算的时间间隔;n = t t 为统 计计算的次数,1 1 1 为时间点t 处的同一流出现的次数;b ,为n e t f l o w 数据库中一 条流纪录的字节数;c ,为n e t f l o w 数据库中一条流纪录的数据包个数;d i 为时间 点t 处的不同地址和端口对数。根据流属性的定义可得以下公式: 平均发送频率 e - e :。d i t 平均流量大小 ,= :。二。b j t 平均数据包长度 ,- - e :。乏:7 - - 。勺:;。:。c j 公式( 1 ) 公式( 2 ) 公式( 3 ) 第5 页 国防科学技术大学研究生院硕士学位论文 每个地址端口对上的平均数据包长度p l = y ? ,y :7 吐 公式( 4 ) 流量大小的变化是网络流的属性变化中应用最广泛的一个。这一属性信息是 统计先计算一个固定时间内流的数据大小,然后除与这一固定时间的大小就是平 均流量了,通常采用每秒多少字节或数据位的形式表示。异常流量的出现大多数 情况下都会伴随着网络链路中流量的瞬时变化,如泛洪攻击,带宽攻击等等。这 一变化在异常流量出现和消失的这时间段内发生,时间很短,据此可以实时地 统计流量大小,根据给出的流量变化范围,对超出流量变化范围的流量给出分析 和预警。 流的数据包变化也是其区别正常流和异常流的一个统计属性。一般情况下异 常流量的出现都是伴随着网络链路中出现的数据包传送频率的变化,特别是由于 带宽网络攻击,d d o s 网络攻击,端口扫描等引起的据包传送频率的瞬时变化。用 流中每秒钟传送的数据包个数来表示数据包传送频率,据此可以根据用户设定, 给出数据包传送频率的特征。 由于攻击行为引起的异常流量在流量大小上还体现在不同协议之间流量的不 同。特别是利用不同协议的安全级别的高低而进行有针对性地网络入侵行为会使 流量在协议上的分布出现显而易见的变化。比如属于t c p 协议中的s y n 攻击就是 一种典型的d o s 攻击行为,这一攻击行为可以明显引起t c p 流量的变化:而 u d pp o r t s c a n 是一种基于u d p 协议的端口扫描攻击,由于u d p 协议的安全性要 低于t c p ,所以针对u d p 的攻击行为就更加容易了,很多木马都是基于u d p 协 议种下的,所以u d pp o r t s c a n 会使来自攻击主机的u d p 协议的流量明显增加; i c m p 攻击是通过p i n g 大量的数据包使得计算机的c p u 使用率居高不下而崩溃, 一般情况下黑客通常在一个时段内连续向计算机发出大量请求而导致c p u 占用率 太高而死机,这又会引起i c m p 协议流量的显著变化。除了上述针对不同协议的 网络攻击行为外还有其他一些攻击行为会引起以上或其他协议的流量变化,所以 实时地考察网络流量的协议分布情况对区别网络攻击行为具有重要意义。 由于端口扫描引起的异常流量会在端口分布上体现出和正常流量不同的特 征,可能会出现来自源地址和源端口的流量增加,而目的地址和目的端口的流量 分布较小而且平均。这些都是由于攻击主机要寻找可利用的目标主机的可用端口, 对扫描范围内的主机群进行顺序端口访问引起的。这个流量特征在确定入侵种类 和入侵者地址时有很大意义。 除了上述可以描述异常流量特征的统计属性外,从n e t f l o w 的原始流量数据统 计分析,还可以得到很多可以描述异常流量特征的统计属性,如:流出现次数, 平均端口数据包数,平均端口流量,最大端口流量,协议流量分布比例等等。这 些属性之间有的存在很强的相关性,如平均流量大小就等于平均数据包长度和数 第6 页 国防科学技术大学研究生院硕士学位论文 据包传送频率之间的乘积。只要知道其中的两个属性特征就可以推断另外一个属 性特征,所以为了不重复使用数据,增强算法计算的执行效率,一般情况下都选 择相关性小的属性构成流量向量。除此之外由于有的属性表现特征不甚明显,对 异常流量检测的贡献率低,所以也不被选为流量向量的元素。如端口变化频率对 于稳定的t c p 连接来说变化很少,长时间内的统计值不会有太大变化,在流量分 析时可以忽略。所以合理恰当的选择流量属性特征对异常流量分析十分重要。 1 5 论文主要工作 论文首先从分析网络流量异常出现的原因和表现特征出发,详细介绍了几种 主流检测算法,根据这些算法是否需要历史数据的学习过程将其分为后验算法和 先验算法。 然后,论文分别提出p b p ( p r i o r i - t r i g g e r e db pn e u r a ln e t w o r k ) 算法和n b d f n a t r u e b a y e s i a nd e c i s i o nt h e o r y ) 算法。p b p 算法是基于先验触发的b p 神经网络异常流量 检测算法。该算法基于改进型的b p 神经网络,使用网络参数平均值初始化b p 神 经网络,利用先验结果的误差触发学习过程,根据用户要求检测异常流量。n b d 算法是基于贝叶斯决策论的异常流量检测算法,使用连续概率密度函数和离散概 率进行类别概率计算,经过风险评估和类别判定来检测异常流量。这两种算法都 是使用不需要学习过程的先验算法触发其自身的学习过程,根据历史检测结果构 成的训练集进行网络学习,最后收敛于满足用户检测精度的网络参数,以后就可 以使用这些算法的网络参数进行异常流量检测。实验结果表明p b p 和n b d 算法的 检测精度不仅明显高于先验算法的精度,也略高于典型后验算法,而反应时间不 仅好于后验算法,而且好于大多数先验算法。 最后,论文在基于n e t f l o v l ,流量数据的基础上,实现了异常流量检测系统。该 系统获取n e t f l o w 的实时流量数据,经过预处理模块形成流量初始向量集,然后使 用五种经典算法和我们提出的p b p 、n b d 算法进行异常检测。最后在校园网上对 系统进行了测试,结果表明该系统有较好实时性和检测效果,有一定的实际应用 价值。 1 6 论文的组织结构 论文共分六章,各章节的内容概述如下: 第一章为前言。论述了本课题的研究背景、介绍了异常流量的特性和原因, 概述论文主要工作和篇章结构。 第二章为相关技术的研究与分析。主要介绍当前网络监测和异常流量检测技 第7 页 国防科学技术大学研究生院硕士学位论文 术的研究和发展现状;根据论文对异常流量检测技术的分类,按先验算法和后验 算法分析了一些当前主流算法的思想,以及这些算法的优缺点。 第三章提出p b p 算法:基于先验触发的改进型b p 神经网络算法。主要阐述 了p b p 算法的提出,算法的详细描述,算法实现中的关键技术,最后对该算法和 典型先验、后验算法相比进行了性能评价。 第四章提出n b d 算法:基于贝叶斯决策论的算法。首先阐述了n b d 算法的 主要思想,然后给出算法的详细描述和实现步骤。并给出了概率计算中的连续概 率密度和离散概率的计算方法,最后对该算法和典型先验、后验算法相比进行了 性能评价。 第五章为异常流量检测系统的设计与实现。主要介绍了实时检测系统的总体 架构,算法模块,描述了系统中的数据关系和类关系,最后给出了系统中实现的 p b p 和n b d 算法的实验测试结果。 第六章为结束语。对论文的工作进行了总结,并提出下一步的研究方向。 最后是致谢和参考文献。 第8 页 国防科学技术大学研究生院硕士学位论文 第二章相关技术研究与分析 本章主要介绍流量检测技术的研究现状和发展。详细描述了主流的异常流量 检测算法的细想,分析了这些算法的优缺点。 2 1 流量检测面临问题 网络流量在时间和空间上有不同的的分布特性,时间上流量大小的分布随时 间不同,空间上网络各节点的流量负载不同。异常流量相对正常流量而言,时间 上的表现可能是瞬间的流量增加和减少,空间上的表现可能是网络某节点的流量 负载出现变化。由于时间和空间特性的分布不是绝对的,所以某一时间某一节点, 某一类型的异常定位更有实际意义。大规模网络环境下,定时、定点、定类的异 常检测几乎是不可能的。 首先讨论异常流量检测中的时间问题。大多数异常流量都是突发性的,这种 突发性使得它不易于被一般的历史数据分析系统检测出来。如果异常流量只存在 于一小段时间内,而这段时间内正好是流量检测系统的检测间歇期,这时候就会 有部分异常流量不能被检测出来。图2 1 是按不同时间密度检测分析对异常检测结 果的影响,当检测周期为2 t 时,由于大于部分异常流量的活动时间小于2 t ,而 统计时间又远小于2 t ,这时就会有明显的两个异常流量没有被检测到。当检测周 期减半为t 时,所有异常流量都可以被检测系统检测到。 薹 芝 :鍪 褒 il 1 lij 刀 v , 1 j t j f 0 t 避 莹 唰 蜒 时间t 检测周期为t柱测周期为2 n 图2 1不同时间密度检测对异常检测结果的影响 单节点上流量数据的瞬时性变化可以通过预测模型和抽样技术等克服,但是 对于大规模网络来说,对单一节点的网络流量的检测并不能很好的发现网络拓扑 结构中的异常流量。特别是大多数异常流量在全网络的流量中变现的不明显,因 为它们和正常流量混合在起在网络中传输。观
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国龙眼干行业市场全景调研及投资规划建议报告
- 基础强化四川省峨眉山市7年级上册期中测试卷章节测试试题(含答案解析)
- 2025至2030年中国手工纸制造行业市场发展现状及投资方向研究报告
- 押题宝典高校教师资格证之《高等教育心理学》通关考试题库及答案详解(名师系列)
- 解析卷-人教版(五四制)6年级数学下册期末试题带答案详解(黄金题型)
- 押题宝典执业药师资格证之《西药学专业二》模考模拟试题附参考答案详解(突破训练)
- 2025版消防安全应急预案编制及演练合同
- 2025版瓶装水进口业务代理合同
- 2025年茶叶品牌全国连锁经营授权合同
- 2025版培训场地租用协议-舞蹈音乐培训场地租赁
- 《癫痫持续状态》课件
- 2025-2030在线语言教育行业发展分析及前景趋势与投资研究报告
- 骨干教师培训讲座内容
- 软件售后季度工作总结
- toc培训课件教学课件
- 菌毒种或样本等感染性材料管理制度
- 基于人工智能的智能投顾系统研究
- 汽车抵押借款合同协议范文样本
- 废气处理方案
- 《华为存储产品介绍》课件
- 2025年天翼云解决方案架构师认证考试指导题库-上(单选题)
评论
0/150
提交评论