




已阅读5页,还剩72页未读, 继续免费阅读
(计算机应用技术专业论文)netflow的网络异常流量的分离与分类.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
江苏大学硕士学位论文 摘要 随着互联网的不断普及,网络已经跟人们的日常生活密不可分,作为网络管 理者,如何在迅速有效地检测网络异常情况的同时,准确地判断和控制整个网络 的异常流量,供有关部门作决策分析,已成为一项重要的课题。 本文系统分析了现有主要异常检测方法,针对这些检测方法只能在宏观上发 现异常,但无法在实际应用中控制和摒除异常流量的不足,在现有协议分析手段 的基础上提出了基于n e t f l o w 的网络异常流量分离及分类方法。该方法从微观和 宏观相结合的角度考察整个校园网络的流量,能在宏观上发现异常后,从微观的 角度分离和分类异常流量,将网络突发流量控制在有效的时间和空间范围内。 首先,依托n e t f l o w 流采集系统,通过对关键主机历史行为数据建模预测的 方法刻画出网络的j 下常模型,利用正常流量比和异常流量比的比值将主机划分为 正常主机、异常主机和可疑主机,将异常主机流量从总流量中分离出来,对于可 疑主机仍需对其主要流量进行流分析进而判别。 其次,本文在总结了现有流分类基础上,针对他们的缺点提出了一种按 n e t f l o w 关键项目、行为模式、和扩展项目三层逐层分类的流分类方法,并详细 描述了如何利用b p 神经网络来实现对扩展项目的分类,通过该方法可以将主机应 用流分类为p 2 p 流、正常应用流和异常流,并对其性能作出了评估。 最后通过实际环境来对异常流量的分离和分类系统进行了测试。通过真实实 验数据表明,该异常流量分离和分类方法能有效的将异常流量分离出来并加以控 制,效果显著。 关键词:n e t f l o w ,流量分离,指数平滑,流分类,逐层分类方法,b p 神经网络 江苏大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e t ,n e t w o r kh a sb e e ni n e x t r i c a b l yl i n k e d 、析t l l p e o p l e sd a i l yl i f e a san e t w o r ka d m i n i s t r a t o r , h o wt om o n i t o rn e t w o r ka b n o m a l i e s q u i c k l ya n de f f e c t i v e l y , a c c u r a t eg r a s po ft h ew h o l en e t w o r kt r a f f i cm o d e lf o rr e l e v a n t d e p a r t m e n t sf o rd e c i s i o n - m a k i n ga n a l y s i sh a sb e c o m ea ni m p o r t a n ti s s u e t h i sp a p e rs y s t e m a t i ca n a l y s i st h ee x i s t i n gm a i na b n o m a l yd e t e c t i o nm e t h o d s a n dp r o p o s ea na b n o r m a lt r a f f i ce x t r a c t i o na n dc l a s s i c f i c a t i o nm e t h o db a s e do n n e t f l o wi nr e s p o n s et ot h e s ed e t e c t i o nm e t h o d sc a no n l yd e t e c ta n o m a l i e so nm a c r o , b u tc a nn o tc o n t r o la n de l i m i n a t ea b n o r m a lf l o w si np r a c t i c a l t h i sm e t h o di su n d e ra c o m b i n a t i o no fm i c r oa n dm a c r op o i n to fv i e wo ft h ee n t i r ei n s p e c t i o nt o u ro ft h e c a m p u sn e t w o r kt r a f f i c w h e nf m da n o m a l i e so nm a y o ,e x t r a c ta n dc l a s s i f ya b n o r m a l t r a f f i co nm i c r o n e t w o r km u t a t i o nw i l lb ec o n t r o l l e di nt i m ea n ds p a c ee f f e c t i v l y f i r s t ,p o r t r a y t h en o r m a ln e t w o r km o d e lw i t ht h eh i s t o r i c a ld a t am o d e l i n g b e h a v i o rp r e d i c t i o nm e t h o do fe a c hk e yh o s tb a s e do nn e t f l o ws y s t e m d i v i d et h e h o s t si n t on o r m a lh o s t s ,a b n o r m a lh o s t sa n ds u s p i c i o u sh o s t sb yt h er a t i oo fn o r m a l a n da b n o r m a lf l o wr a t i o e x t r a c ta b n o r m a lt r a f f i cf r o mt o t a lt r a f f i c d i s c r i m i n a n tt h e m a i nt r a f f i co ft h es u s p i c i o u sh o s t sb yf l o wa n a l y s i s s e c o n d a r yb r i n g 叩at h r e e - l a y e r - b y - l a y e rf l o wc l a s s i f i c a t i o nb yn e t f l o wk e y i t e m s ,b e h a v i o rp a t t e r n s ,e x p a n s i o ni t e m sf o rt h es h o r t c o m i n g so ft h ev a r i o u se x i s t i n g f l o wc l a s s i f i c a t i o nm e t h o d sa n dm a i n l yd e s c r i b e dh o wt oc l a s s i f ye x p a n s i o ni t e m sb y b pn e u r a ln e t w o r k w h i c hd e v i d et h ea p p l i c a t i o nf l o w si n t op 2 p , a b n o r m a lf l o w sa n d n o r m a lf l o w s ,a n dd ot h ep e r f o r m a n c ee v a l u a t i o na tl a s t f i n a l l yt e s tt h es y s t e mo fe x t r a c t i o na n dc l a s s i f i c a t i o no fa b n o r m a lt r a f f i cu n d e ra r e a le n v i r o n m e n t t h e e x p e r i m e n t a l d a t as h o wt h a tt h ea b n o r m a lt r a f f i ce x t r a c t i o na n d c l a s s i f i c a t i o ns y s t e mi sr e a la n dr e l i a b l e ,c a ne x t r a c ta n dc o n t r o la b n o r m a lt r a f f i c e f f e c t i v e l ya n dt h ec o n s e q u e n ti so b v i o u s k e yw o r d s :n e t f l o w ,t r a f f i ce x t r a c t i o n ,e x p o n e n t i a ls m o o t h i n g ,f l o wc l a s s i f i c a t i o n , t h r e e l a y e v b y - l a y e rc l a s s i f i c a t i o n , b pn e u r a ln e t w o r k 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本 学位论文。 本学位论文属于 保密口,在年解密后适用本授权书。 不保密。 学位论文作者签名: 卞朋为 签字r 期:矽哆年占月j 7r 日 乡阳 乏 年 罗 $ 名 期 签 r 师 字 导 签 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行 研究工作所取得的成果。除文中己注明引用的内容以外,本论文不包含任何 其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律 结果由本人承担。 学位敝作者签名:卞鹕 日期:侧夕年衫月f 7 日 江苏大学硕士学位论文 第一章绪论弟一早殖 下匕 i n t e r n e t 的进步推动计算机技术进入了“以网络为中心计算 的新时代, h t m l 、h t t p 、j a v a 等新技术、新标准的出现继续推动了计算机网络技术的发展。 支持i n t e r n e t 联网和服务的网络产品越来越完善。网络电话、网络电视会议、 三维视频信息等应用技术正在不断推出激动人心的产品。更多的新型通信和网络 设备将要加入到i n t e r n e t 中,i n t e r n e t 已经进入高速率骨干网和高速率接入网 的阶段。 随着b i t t o r r e n t 、e m u l e 、p p l i v e 等应用的兴起,p 2 p 流量占用了大量的带 宽,使传统的h t t p ,f f p 等应用受到了很大程度上的影响,有关调查表明,p 2 p 业务已经悄然占据了互联网业务总量的6 0 一8 0 ,成为杀手级的宽带互联网应 用。伴随着正常应用流量,各种形式的异常流量也随之而来,恶意流量攻击,如 d o s ( 拒绝服务) 、d d o s ( 分布式拒绝服务) 、i c m p 洪水攻击、蠕虫病毒等,都有 可能影响到网络的正常运行,威胁用户主机的安全,网络中有大量知名并可自动 繁殖的恶意代码存在,它们定期或不定期的滋扰网络主机或用户。甚至最近有越 来越多的复合式攻击出现,它们使用不止一种的攻击手段,具有自我修改、加密 等能力,这使得它们的攻击更加难以防范和阻击。这些都要求网络管理人员对网 络流量有深入的了解,并能够在网络层面对异常流量采取隔离措施。 在大规模高速网络环境中,我们需要实时的监控网络流量并检测出有攻击意 向的异常,及时采取适当的行动来遏制它进一步的繁殖和传播。实验证明流一级 的异常检测比包一级更有效。在协议层将具有相同特征的包汇聚成流,不仅可以 降低采样系统的负担,保证流量监控的实时性,而且还提供了整个网络的宏观视 角。 1 2 国内外研究现状 如何保证用户在享受高速网络和丰富的网络服务的时候,免受病毒和黑客的 江苏大学硕士学位论文 攻击,异常检测系统正是为了解决此问题而出现的。传统的异常检测工具依赖于 操作系统的同志、用户的行为轨迹和防火墙日志等来监控网络流量。异常检测方 法n 1 主要包括:统计异常检测法、基于机器学习的异常检测方法、基于数据挖掘 的异常检测法和基于神经网络的异常检测法等。其中基于统计的异常检测由于其 适用范围广、实现简单而被大量研究使用。d e n n i n g 乜1 提出了用于异常检测的5 种统计模型: ( i ) 操作模型:该模型假设异常可通过测量结果和指标的比较而得到,指标 可以根据经验或一段时间的统计平均得到。 ( 2 ) 方差:计算参数的方差,设定其置信区间,当测量值超出了置信区间的 范围时表明可能存在异常。 ( 3 ) 多元模型:操作模型的扩展,通过同时分析多个参数实现检测。 ( 4 ) 马尔可夫过程模型:将每种类型事件定义为系统状态,用状态转移矩阵 来表示状态的变化,若对应于发生事件的状态转移矩阵概率较小,则该事件可能 是异常事件。 ( 5 ) 时间序列模型:将测度按时间排序,如一新事件在该时间发生的概率较 低,则该事件可能是异常事件。 d e n n i n g 提出的这5 种模型归结起来就是先对正常网络流量进行建模,然后 分析它的各种特性参数,并将其作为基线数据。如果某段流量的特性参数与基线 数据相差很多,超过某个预定的阈值,则此流量含有异常。最近几年随着对网络 流量的认识的不断深入以及其它学科理论的交叉渗透,流量模型的研究有了长足 的发展。可以通过建立成熟的流量模型来预测未来流量,并将现实流量与之比较 来进行异常的检测,因此在上述5 个方法还应添加第6 个方法,即预测检测。 j b r u t l a g 3 提出的基于h o l t - w i n t e r s 指数平滑方法的异常检测就是这一类中目 前最常用的。 p o l l yh u a n h l ,b a r f o r dp 5 3 等人,将小波分析用于网络异常分析,通过小波 对网络流量信号进行时域一频域分解,能够检测到不同时域一频域特征的网络流 量异常。 m e d h in a s s e h i 哺1 等利用马尔可夫链模型来检测流量异常行为。 a n u k o o ll a k h i n a 口8 1 等人,首次使用了主成分分析方法来研究网络流量性质, 2 江苏大学硕士学位论文 使用主成分分析研究宏观网络流之间的相关性,并将其应用在异常检测中。 2 0 0 5 年武汉大学的顾荣杰旧1 等人提出了基于流量统计的网络异常检测。 以上各种异常检测方法均基于宏观网络环境来对进行异常流量监测和检测 研究,在不同的场合,不同的应用中利用不同的手段均能够在宏观上较精确,实 时地找出异常发生的时间,然而在实际网络监测和管理中,我们需要对微观上异 常发生的原因进行了解,以及对异常发生后采取措施以保持网络的健壮性,以往 的宏观异常流量检测方法对此无能为力,有待进一步的研究。 1 3 本文研究内容及组织结构 本文将在宏观异常流量检测的基础上,提出了基于n e t f l o w 的异常流分离和 分类方法,通过该方法,找出当前时刻的异常主机,并对其判别、定性,根据其 危害级别进行相应处理,以遏止异常流量,保障正常业务流,将网络流量控制在 有限的时间和空间范围内。 第二章首先详细介绍了当前网络流量以及协议的分析方法,并系统地叙述了 几种方法的优缺点,做出了比较。其次在分析了现有基于n e t f l o w 的流分析方法 基础上,提出了基于n e t f l o w 的异常流量分离与分类方法。 第三章介绍了如何通过对每个单体口预测建立正常网络流量模型,分离异 常流量,包括了以下内容:1 、通过小波和h o l t w i n t e r s 检测方法来检测网络发 生的异常点;2 、通过对单体口历史行为数据进行网络正常流量模型的建立; 3 ,验证模型的正确性,并通过测试来计算参数;4 、当网络中出现流量异常时, 通过一些准则来判断出现问题的主机,并表明了进一步流分类的必要性。 第四章介绍了现有流分类技术以及他们的缺点以及不足,提出了逐层流分类 方案,并阐述了该方案的优势。 第五章在第四章的基础上侧重于逐层流分类方案的设计与性能评估。包含以 下内容:1 、通过实验来描述按n e t f l o w 关键项目、行为模式、和扩展项目三层逐 层分类的流分类方法。2 ,详细描述了如何利用b p 神经网络来实现对扩展项目的 分类,通过该方法可以将主机应用流分类为p 2 p 流、正常应用流和异常流。3 、 通过混合流的测试来对该流分类方案进行性能评估。并在真实实验环境中对异常 流量的分离和分类进行了实验分析。通过对不同类型的异常流量使用对应的防火 3 江苏大学硕士学位论丈 墙策略,从而将网络异常流量有效的控制和摒除。 作。 第六章总结了本文所提方法的优缺点以及算法的不足,以及今后要做的工 4 江苏大学硕士学位论文 第二章网络流量异常分析现状及问题 2 1 网络流量异常分析的目的 随着i t 、网络技术的迅猛发展和企业信息化程度的不断提高,各种网络应 用越来越丰富,各种应用时时刻刻都在争夺有限的网络带宽,从而导致网络管理 的难度不断增大。因此,如何保证网络的可用性和关键业务的畅通运行,对网络 正常健康的发展将起到至关重要的作用。 做为一个校园网管理者,要维持j 下常网络运转,就需要有相应的技术手段, 明确了解网络上各种应用的带宽占用情况,分析用户流量行为,以便合理的规划 和分配网络带宽,有效地保障关键业务应用的正常运行。尤其是在宏观发现流量 异常的同时,如何迅速有效的分离和抑制异常流量,对非法业务实行遏止,使网 络流量能保持其健壮性,就成为我们迫切想要解决的问题。 2 2 现有网络异常分析方法 网络流量分析是指捕捉网络中流动的数据包,并通过查看包内部数据以及进 行相关的协议、流量分析、统计等来发现网络运行过程中出现的问题,它是网络 和系统管理人员进行网络故障和性能诊断的有效工具。常用的网络流量和协议分 析有四种方法。 ( 1 ) 基于s n m p : m r t g n 们是最常使用并且最典型的一种基于s n m p 的产品。其安装过程非常简 便,其结果输出采用w e b 页面方式,因此需要在相应的平台上安装发布系统,如 n t 上需要安装i i s ,u n i x 则需要安装a p a c h e 。m r t g 通常被网络管理人员用来收 集网络节点端口流量统计信息,是典型的监视网络链路流量负荷的工具。m r t g 的定制非常方便,一般可以在网络的重要节点端口和故障发生频繁的网络设备处 利用m r t g 进行监视,这些监视包括: ( a ) 关键链路流量 可以对关键链路的流量进行监视,提供各种统计时间的统计图表,短时间统 5 江苏大学硕士学位论文 计可以用来帮助维护和分析网络故障,长时问统计可以为规划设计提供科学可靠 的数据。 ( b ) 关键节点性能状况 监控包括网络设备c p u 利用率、空余内存等可以反应网络节点状况的信息。 同样,关键节点性能状况的监视也包括小时f 1 n 月的系统性能统计。 优缺点: m r t g 的优点是安装、定制简单,结果采用w e b 方式输出方便实用,而且是 免费产品,在世界各地有很多的开发人员不断对其升级和改进。m r t g 的缺点是 功能较单一,分析功能不强,其收集到的流量信息是端口的统计信息,不能用于 复杂的分析。 ( 2 ) 基于网络探针( p r o b e ) : 流量探针是一种用来获取网络流量的硬件设备,使用时将它串接在需要捕捉 流量的链路中,通过分流链路上的数字信号而获取流量信息,分析的结果存储在 探针的内存或磁盘之中,具体的前端展现依赖于与之对应的专门软件。因此具有 效率高、可靠性高、高速运行不丢包的特点。流量探针价格昂贵,不适合大面积 安装,因此流量探针比较适合在汇聚层或接入层的某些重要节点内部实施。流量 探针安装非常方便,可以实时将r m o nii 的流量信息完全记录下来,这对分析网 络的性能和故障很有价值。如果将流量探针串接到c a t a l y s t 系列交换机端口, 开启端口映射( s p a np o r t ) 功能,将各个端口的流量映射到安装了流量探针的 端口,则仅通过对一个端口的监测就可以收集到多个端口的流量信息。端口映射 是由c i s c o 公司提出的概念,在其c a t a l y s t 系列设备上都可以实现。其它厂商 如f o u n d r y ,n e t s c o u t 1 1 l 的交换机也提供端口映射的功能,但现在还不支持跨交 换机的映射。 流量探针的安装很简单,可以用于高速( 千兆) 的网络而不影响网络性能, 流量探针可以实时捕捉包,但其成本高,不同的物理链路,因其采样方法不同, 则需使用不同种探针。 ( 3 ) 基于实时抓包分析: 基于实时抓包的分析技术提供详细的从物理层到应用层的数据分析。但该方 法主要侧重于协议分析,而非用户流量访问统计和趋势分析,仅能在短时间内对 6 江苏大学硕士学位论文 流经接口的数据包进行分析,无法满足大流量、长期的抓包和趋势分析的要求。 常见的产品有n a i 的s n i f f e rp r o ,免费的t c p d u m p 、e m e r e a l 等。 s n i f f e r p o r t a b l e t l 2 1 : 通过s n i f f e rp o r t a b l e 可以实时采集多种数据并保存到数据库中,同时可以通 过其分析模块实时监视和显示这些数据的统计信息。利用s n i f f e rp o r t a b l e 的数据 捕捉功能可以在短时间内对网络流量进行实时采集,这些采集到的流量数据可以 包含整个包的信息,也可以只是包的一部分。利用捕获到的包可以进行协议分析、 数据重组( 如重组e m a i l ) 等工作。对包的解码和分析是s n i f f e r 工具的一个最 有特色的,也是最强大的功能。 当不采用厂家的特殊硬件系统,s n i f f e rp o r t a b l e 只能用于1 0 0 m b i t s 及以下 速率链路,网络中可以安装多个s n i f f e rp o r t a b l e ,但它们都是相互独立的,分别 有各自的数据库,收集到的数据独立存放,这对于整个网络的分析带来一定难度, 因此它特别适合小范围内的性能维护和分析;s n i f f e rp o r t a b l e 分析能力特别强大, 可以解析近3 7 0 种协议。当要求对更高速( g e 或p o s2 5 g b i t s ) 的链路采集流 量,或者是全面收集大型网络的流量时,可以采用s n i f f e r 的硬件产品及其分布 式系统,但其价格昂贵。 ( 4 ) 基于流( f l o w ) 的流量分析: 目前基于流的分析技术主要有两种:s f i o w 和n e t f l o w 。s n o w 是由i n m o n 、 肿和f o u n d r yn e t w o r k s 联合开发的一种网络监测技术,它采用数据流随机采样 技术,可以适应超大网络流量( 如大于2 5 g b p s ) 环境下的流量分析,让用户详 细地分析网络传输流的性能、趋势和存在的问题。目前,仅有l i p 、f o u n d r y 和 e x t r e m en e t w o r k s 等厂商的部分型号交换机支持s h o w 。n e t f l o w 1 3 1 是c i s c o 公司 开发的技术,它既是一种流量分析技术,同时也是业界主流的计费技术之一。它 可以解决有关口流量的如下问题:谁在什么时间、在什么地方、使用何种协议、 访问谁、具体的流量是多少等问题pn e t f l o w 因为其技术和c i s c o 网络产品的市 场占有率优势而成为当今主流的流量分析技术之一。n e t f l o w 的配置非常方便、 安装简单,除了需要在路由器上配置之外,只需要一台u n i x 工作站作为流的收 集工作站,所有路由器或交换机上发送的n e t f l o w 流都将送到此工作站集中,方 便处理和分析。n e t f l o w 流信息量特别丰富,可以为流量分布、业务分伟等性能 7 江苏大学硕士学位论文 分析提供最充足的数据,但需要消耗一定的路由器资源( c p u 和内存) 且不能 实时捕捉数据包。根据n e t f l o w 的特点可知,其非常适用于大型的网络,和流量 探针、s n i f f e r 等比较,n e t f l o w 成本最低,实施最方便,而且不受速率的限制, 是数据流量采集的发展方向。最近,i e t f 的技术人员j 下在指定i p f i x ( r pf l o w i n f o r m a t i o ne x p o r t ) 规范,使得网络中流量统计信息的格式趋于标准化。i p f i x 基于c i s c o 的n e t f l o w v 9 设计,是一种针对数据输出的,基于模板的格式,具 有很强的可扩展性。 在上面所提到的四种方法中,基于f l o w 的分析方法应该是网络流量分析技 术的趋势。这是它的技术实现理论所决定的。 下表2 1 是几种流量分析的对照表。 表2 1四种流量分析方法对照表 加t i s n i f f e r 流鼍探针 n e t f l o w 采集完整用户业 否是,短时间 是,短时间 否 务流量 消耗路由器或交 否否否 是 换机资源 i :程规模最简单较简单 较简单最简单 数据存放 集中 分布式集中集中 适 j 链路各种速率1 0 1 0 0 m b it s1 0 0 0 m b i t s以2 5 g b i t s 及以 f下 适用业务维护性能分析性能分析性能分析计费 一 费用免费呙 , 很高低 本文的实验环境为大学校园网,基于s n m p 的m r t g 分析方法数据粒度太 低,根本无法在微观上进行流量分析,基于流量探针的分析方法只能实现局部网 络监控,与我们想在全网监控的目的不相符合,基于s n i f f e r 的实时包采集分析 方法,越在靠近接入层的地方使用效果越好,但是如果在骨干网交换机端口进行 采集,会造成数据量过大,为此计算所要付出的代价太高,而且效果不好,因为 我们并不一定需求了解数据包的内容。基于流的流量分析手段能有效的进行全网 监控,而且在性能和设备负载上可以适合较大网络流量环境下的流量分析,因此 本文采用n e t f l o w 数据流环境。 8 江苏大学硕士学位论文 2 3 现有基于n e t f l o w 流的分析方法 2 3 1t o p n 技术 t o p - n 技术【1 4 1 是目前最通用和最基本的基于流的分析方法。通过这种方法, 可以将注意力集中在那些占网络带宽较高的流记录。 有两种方式用于t o pn :t o pn 会话与t o pn 数据。 ( 1 ) t o pn 会话 t o pn 会话是指一个主机发出大量的连接请求到一个或多个目的主机,连接 请求数已远远超过了已建立的基线,一般出现这种情况是由于新的蠕虫、 d o s d d o s 攻击、网络扫描或其他网络滥用。 ( 2 ) t o pn 数据 t o pn 数据定义了一段时期内两个网络节点或一个节点到一个地址段的连续 大量网络数据传输的排名。将网络中上传或下载数据量t o pn 的主机归类到固定 的组中。 2 3 2 模式匹配技术 模式匹配n 4 3 是基于流分析的另一种可以检测网络异常行为的方法,它通过搜 索流记录,找出与病毒特征匹配的流,最终可以定位到受感染的主机。 ( 1 ) 端口匹配 一般来说,为了发起一次攻击,大多数的攻击会有一个特定的端口。比如说, s q ls l a m e r 蠕虫工作在1 4 3 4 端口,n e t b u st r o j a n 是1 2 3 4 5 端口。通过对流记 录的目的端口进行过滤,可以发现相应的攻击。 ( 2 ) i p 地址匹配法 ( a ) 匹配i a n a 保留地址 i a n a 保留了大量的i n t e r n e t 地址段,这些地址不会被外部路由。 ( b ) 匹配特定的i p 或i p 列表 外出流量( o u t b o u n dt r a f f i c ) :任何流记录的源i p 地址不是自己网络的外 出流量都应被认为是异常。 进入流量( i n b o u n dt r a f f i c ) :任何流记录的源地址是自己网络的进入流量 都应被认为是异常。 9 江苏大学硕士学位论文 固定地址( f i x e da d d r e s s ) :一些异常行为会有一个或多个固定i p 地址。 比如说在w 3 2 n e ts k yc 蠕虫爆发时,蠕虫会发送d n s 查询到以下9 n s 服务器: 1 4 5 2 5 3217 1 ,1 5 11 8 91 3 3 5 ,1 9 31 4 14 0 4 2 1 9 31 8 9 2 4 42 0 5 , 1 9 31 9 31 4 41 2 ,1 9 31 9 31 5 81 0 ,1 9 42 521 2 9 ,1 9 42 5 21 2 9 1 9 4 2 52 1 3 0 , 1 9 42 521 3 1 ,1 9 4 2 521 3 2 ,1 9 4 ,2 5 2 1 3 3 ,1 9 4 2 521 3 4 ,1 9 5 1 8 5 1 8 5 1 9 5 , 1 9 52 02 2 4 2 3 4 ,2 1 2 1 8 52 5 21 3 6 ,2 1 21 8 52 5 2 7 3 ,2 1 21 8 5 2 5 37 0 , 2 1 24 41 6 08 ,2 1 271 2 81 6 2 ,2 1 27i 2 81 6 5 ,2 i 31 9 17 4 1 9 2 1 7 5 9 71 3 7 , 6 21 5 52 5 51 6 因此,当流记录中的目的地址足以上地址且目的端口为u d p5 3 时,此流中 含有异常的置信度较高。 2 3 3 协议分布分析 通过f l o ws c a n 的报表可以详细统计出每种基于i a n a 端口号的协议分布 图,协议分布图可以提供图形化界面,如图2 1 所示。方便网络管理员能清楚知 道网络中的协议带宽分布,当协议分布出现大幅度改变的时候,可以帮助网络管 理者判断是否出现流量异常。 e 5 t t p du _ 口e ie p r 口t o c o t ;,s e f v l c e e e 二t s + o u t t n :鞑。奠 2 34 缺点以及不足 t o pn 技术足网络管理者最常用的也足最普遍的流分析方法,嘲络管理者通 过查看流晕或古会话排私,可以知道”1 前州封c 一流量最人的王机有哪些,但是 江苏大学硕士学位论丈 t o p - n 技术最大的缺点是不能提供这些主机的具体应用有哪些,如果只凭流量大 或者会话多就对该主机进行限制的话,难免对大业务流量的主机产生影响,效果 差强人意。 模式匹配技术主要用于定义网络中的蠕虫攻击( 已知模式) ,当网络出现流 量异常的时候,通过模式匹配技术可以寻找出网络中出现的已知蠕虫,但是对于 网络其他异常流量,无能为力。 协议分布分析是建立在i a n a 端口号的基础上来对已知端口的协议进行分布 分析。图形化的界面能很容易让网络管理者知道当前网络上各种协议的分布。但 是由于目前网络上很多协议( 例如p 2 p 流量) 并没有固定的端口号,或者端口号 并没有在i a n a 注册过,所以此方法不能e , 很z 好的支持所有协议,在精确度上尚欠 缺乏。 2 4 基于n e t f l o w 的异常流量分离及分类设计方法 为了解决实际应用中,发现异常流量,但是通过前述流分析方法无法准确的 分离异常流量的问题,本文提出了一种基于n e t f l o w 的异常流量分离与分类方 法。其结构图如图2 2 所示。 一r 数据的预处理、数据的预处理 数据采集 数据提取 数据合并 一一、 陲= = = 爿 烃壁堕些夕 、 异常流最的分离 正常流量模型的建立 主机类型的判断 对可疑主机流最分类 可疑主机的主要成分 分析 二二二二二= 二二二二二二二二二二二二爿 图2 2 基于n e t f1 0 w 的异常流量分离于分类方法 第一步:数据预处理过程 对江苏大学n e t f l o w 流系统2 4 h x1 4 d 不间断采集,通过数据提取、合并,来 完成数据库的建立。 一 防火墙处理阶段 一 江苏大学硕士学位论文 第二步:宏观监测异常流量 当部署的网络流量监测系统发现网络流量异常时,确定奇异点。 第三步:异常流量的分离 在经过2 4 h x1 4 d 的数据采集后,通过单体i p 历史行为数据建立网络正常流 量模型,通过主机类型判断准则将主机分为正常主机,异常主机和可疑主机。对可 疑主机需要进一步的通过流分类确定其主要流量成分。 第四步:防火墙处理阶段 为了限制不正常主机对网络流量的影响,在确定异常主机以后需要对他们进 行限制或者封锁流量,才能将网络总体流量处于可控的范围之内。 2 5 对比以往流分析方法的优势 基于n e t f l o w 的异常流量分离与分类主要解决了以往流分析方法的弱点或 者缺点,其优势如表2 2 。 表2 2 基于n e t f l o w 的异常流量分离与分类方法的优势 对比 基于n e t f l o w 的异常流量分离与分类 t o p - n 技术对比t o p n 技术,解决了其对人流量主机不能判别的缺点,通过单体i p 历史行为数据模型的建立,能在人流量主机中有效的区分异常主机和正 常土机。 模式匹配技模式匹配技术在蠕虫检测中有一定的应用,但其针对性较强,基于n e t f l o w 术 的异常流量分离与分类方法能全面的判别异常流量,包括蠕虫、扫描、d d o s 等攻击流、正常业务流和p 2 p 流。 协议分布技很人程度上解决了新协议不使用固定端口不能检测的缺点,通过扩展项目 术 的分类,能对协议分布技术难以检测的流鼍进行分类。 江苏大学硕士学位论文 第三章网络异常流量分析 3 1 宏观上利用流量监测系统检测异常点 ¥生e 信i 千兆i i - 6 i 2 5 斟31 校园学生区电信线路一用流量图 如罔31 所示,刚络【 常时刻流蛀处 周期性的波动状态,当网络发牛异常 的时 啶流龟突增,此时我们首先要通过流景监测系统发现异常,锁定异常发生的 时间,常丌 的流量监测方法有很多种,比如基r 统方法的异常峨测,小波异常 临测方法等等。 2 0 0 5 年,f r 苏大学网络叶j 心建 了网络流量异常监测系统,通过 i l o l 卜w 1n z e r s “3 方法和小波异常检测方法”能很立的检测到网络流付发小片 常时的异常点。某大的测量值超出既定网络流量预测值时,随即发牛报警时叫。 如图32 所示,罔中一悟线部分印足某酬络片常点。 t ;t d 口l i ,r t t ,r - l c n t s_ t m ,了三:。:。“” 图32 利用h o l 卜w l n a rs 万法检测异善 * * * ;l_6 江苏大学硕士学位论丈 3 2 基于流的网络正常流量模型建立 “j 系统榆测到网络中发生异常的时候,如罔33 所小,做以r 州个假设 r 1 、正常期间的流量= 正常流量 ( 2 、异常期q 的流最= i f 常流墨+ 突变流鞋 那么我们i l i 要分离的就是以 :两个期删的增疑做为突变流鞋。 li 。 图33 网络中出现突变流量 】叫络t | 的流量是山众多i p 土机流睦叠加而成的。为此,流酷发电突变时, 只要找到引起流量突变的人流量 :机找到其发生异常的原凼,并根摒其原凼 对其做出相脯的措施,就能很好将流艟控制冉- 稳定的范嘲之内。如幽34 所示。 ,_ 一1 图34 接【p 地址分解流量 江苏大学硕士学位论文 网络中的主机i p 是繁乱众多的,将所有i p 纳入正常网络流量模型的建立很 显然计算量相当庞大,尤其我们采集到的数据是校园网中骨干交换机中流出的数 据,经过我们长期的发现,真正造成网络大流量的主机只占实际注册主机的一部 。分,8 0 9 6 的流量其实是由3 0 - 4 0 的主机所产生的,而我们关心的是能影响到骨干 网流量波动的大流量i p ,所以只对占总流量8 0 的主机进行流量建模,能在很大 程度上减少计算量,减少数据的存储量,在不影响分离的情况下,在空间和时间 上有一定的优势。 由于网络用户最终个体是人,而人的行为是复杂的,某一段时刻他的流量是 否稳定,以及多长时间能够保持稳定的流量,则是我们首先要解决的问题,经过 1 个月的流量观察,我们发现,8 0 的用户在2 个礼拜也就是1 4 个工作日里面的 流量是处于稳态的,在这1 4 天内产生的流量是围绕一个水平线进行范围波动, 不会产生数量级的变化。这就为我们进行单体i p 历史行为数据建模提供了理论 支持。正常网络流量模型的建立需要网络在正常,没有发生突发流量的环境下进 行采集。 单体i p 历史行为数据建模过程如下: ( 1 ) n e t f l o w 中采集下来的数据是按时间发生的前后顺序记录的,而我们是 对每个小时内的每个口流量进行分析,所以首先要对一小时内的单个i p 的所有产 生流量进行相加统计 由于m 地址众多,按照顺序查找的统计算法执行效率太低,明显不适合。本 文通过对基于四次哈希散列的统计算法,对每个源m 地址四个字节1 0 进制黼 别进行函数为厮k 的散列,散列系数k 可由用户自己指定,这四个散列系数也正 是四维数组的四个下标,在最后一维采用链地址法连接具有相同哈希值的不同口 地址统计节点,若下次读取的p 地址从未出现过,则算法重新申请相应的内存空 间,由于校园网中同一口前缀的口地址大量存在,参数取 8 ,8 ,1 6 ,3 2 1 拘时候 能大大的减少散列冲突。 ( 2 ) 每天的数据按照1 个小时分割出来,并将占据总流量8 0 9 6 的i p 分离出 来。如表3 1 所示。 江苏大学硕士学位论文 表31 某时剥的i p 流量袁 ( 3 ) 对j 1 4 人相同时刻的数执壤,按照i p 地址为索日,建市成个新的 数蝌岸,此数掘库中包含r 甲体口任1 4 凡内某时刻的流景。当浚时刻此i p 不 产生流睛的时候,陵值缺省为o 。如表32 所不。 表32 14 t 数据表 1 02 l 0 1o 0 一o ”0 1 022 口t lo 4 1 1 3 1 o o0o m 1 022 们l l 凇5 哺l 1 3 3 3 0“1 0 l o 1 02 l 0ot 甄0d 弼娜0 d0 1 0211日000 0 d0 2 1 1 02 口8 40 000口00 蚴儿it 1 02 “0 0口d0 l 一0 0 1 0 1 0 1 _ 啪00 000i d 1 02q 3 l 000 1327酬瞄0 0o 1 022 - 1 md口0 0o00 m t o2 00o 0 000 0 1 07 2 0 5000 00 00 1 02 00000d0 l 1 02 1 1 0b 2 啦日0 b01l000 0 1 023 38 76 7 2 q000d 1 自 008 1 4 40 1 口2 l 1 0 1 4 9l 00000 ( 4 ) 计算啡个ip 征l 常州料r 的顾测值: 设x 为第r 个周期刘】p 流量的测量值,。为笫,十1 个侧期对此i p 流量的预 测值,利用指数、r _ 滑坝测模型“,y 一,- 以表示为: y + l = ”+ a o4 彤 ( ;1 ) 可以看出,f + 1 期的预测值是堋的实际值与溯的预测值的加权f 均其 中,口称为 u 权常数。刖此,c u 以通过口的墩值米控制下期预测值的误差。一般 江苏大学硕士学位论文 时间数列越平稳,口取值越小,时间数列波动越大,如呈阶梯式或按某种比率上 升或下降,口取值越大,使预测值能够敏感地跟踪实际值的变化。如果对式( 3 1 ) 推导,即 - - - a ( 1 一砒+ 砸一科咒- 1 + 一口) 2y i _ 2 + + 衅一矽只,+ 雄一力州咒。q ( 3 2 ) 由于0 口 1 _ 等 ( 3 5 ) 如果在给定d 的情况下,x 。h 满足上述契比雪夫不等式,则说明此预测值 与前面数据属于统一分布,这里,可以设定用户自己预测行为值与正常的偏差大 于d 的概率为p ( p 的值为试验数据,需要不断修正,通常情况下样本容量越大该 概率值应越小,也就越准确) 。不妨将1 - p 称为该用户的置信度,若要证明x 。h 与 前n 个数据属于同一分布,就要看邑h 是否落在如下区间 似垆孵坝咖雳,。 如果落在区间内,则 兑明预测值是可信的,也就验证了模型的正确性。 而对于落在区间外的值,和真实值可能偏差比较大,为此我们要把落在区间 外的个数减少到最小。 a 的取值对流量预测的准确性至关重要,所以我们通过数据实验反复测试, 来取得最合理的取值。 为评价预测的效果或准确性,可计算均方误差( m s e ) ,它是预测误差平方和 的平均数。计算公式为 m s e = 误差平方和误差个数 ( 3 6 ) 对于a ( 0 a 1 ) ,我们通过计算,当a 等于0 6 的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 压力安全阀校验员培训课件
- 古县2025山西临汾市古县招聘事业单位人员31人笔试历年参考题库附带答案详解
- 南京市2025南京医科大学卫生分析检测中心招聘56人笔试历年参考题库附带答案详解
- 商品收纳师培训课件
- 2025长三角(宣城)产业投资有限公司招聘4人(安徽)笔试参考题库附带答案详解
- 卸车安全培训课件
- 2025河北唐山政务服务外包有限公司为服务项目招聘66人笔试参考题库附带答案详解
- 2025昆明渝润水务有限公司招聘15人笔试参考题库附带答案详解
- 2025年数字安徽有限责任公司所属企业社会招聘13人笔试参考题库附带答案详解
- 2025山东济南二机床集团(平阴)产业园有限公司招聘9人笔试参考题库附带答案详解
- 人工造林项目投标方案(技术方案)
- 自动扶梯维护培训课件
- 铁丝镀锌工操作规程培训
- 严防管制刀具 对自己和他人负责-校园安全教育主题班会课件
- 医院培训课件:《护患沟通技巧》
- 公路技术状况检测与评定-公路技术状况评定
- 正式员工正规劳动合同范本
- 人工搬运风险与控制培训课件
- 新能源材料与器件PPT完整全套教学课件
- 肺癌中医护理常规(整理)
- 住宅专项维修资金管理系统方案
评论
0/150
提交评论