




已阅读5页,还剩47页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘的网络流量异常检测系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 随着计算机网络规模和应用领域的目益增大,网络复杂性和异构性也不断增 加,通过网络传播的病毒和人为破坏越来越多,严重干扰了正常的网络运行秩序。 在这种情况下,准确、快速地检测溺络流量鹩异常,并骸邂合理的确应戚必保证 网络有效运行的关键问题之一。为了解决上述问题,本文设计了一个能够实时分 析网络流量的异常检测系统。 为了保证有较高的检测率和较低的误报率,文中采用数据挖掘技术,从网络 历史审计数据里分别得到正常与异常行为规则库,用实时网络流量数据与其比 对,从而翔别网络流量数据的异常行为。当发现有不能识别的数据出现时,采用 人为干预的方式,更新规则库,增强对未知数据的识别能力。为了避免因主机之 闻行为存在较大差异焉弓 起的误判,文审戬鬻络历史审计数据为数据源,统计霹 络中各主机单位时间内访问量,依据聚类算法将主机按访问量聚类建立i p 群, 以指导网络审计数据的分流,用分流后的审计数据分别建立规则库。文中就整个 检测系统架构、系统各组成部分功能及实现做了详细描述。 最后,我们将实现的系统原型置于校园网络的出口节点,实时监控出入校园 网的网络流量。通过进行模拟弱络攻击,我们发现原型系统能够有效地识别己知 攻击类型数据并对未知数据有良好的识别能力,实现了对网络流量异常地实时检 测。 关键词:异常检测数据挖掘决策树聚类分析礴络安全 a b s t r a c t w i t ht h es c a l eo ft h ec o m p u t e rn e t w o r ka n da p p l i c a t i o nf i e l d sg r o w i n g ,n e t w o r k h a sb e c o m ea ni m p o r t a n tp a r to ft h ed a i l yl i f ea n dw o r k h o w e v e r , d u et oi n c r e a s i n g t h en e t w o r kc o m p l e x i t ya n dh e t e r o g e n e i t y , t h en u m b e ro ft h ei n t e m e tv i r u sa n d v a r i o u sh u m a nf a c t o r sb e c o m em o r ea n dm o r et h r o u g ht r a n s m i t t i n g ,w h i c hp r o b a b l y i n f l u e n c et h ef u n c t i o n ,o ft h ei n t e m e ta n ds e r i o u s l yd i s t u r bt h en o r m a lo p e r a t i o no ft h e n e t w o r ko r d e r u n d e rs u c hc i r c u m s t a n c e s ,a c c u r a t ea n dr a p i dd e t e c t i o no fa b n o r m a l n e t w o r kt r a f f i ca n dr a t i o n a lr e s p o n s ei so n eo ft h ek e yi s s u e st oe n s u r et h ee f f e c t i v e f u n c t i o n i n go f t h en e t w o r k 。i no r d e rt os o l v et h ea b o v ep r o b l e m ,t h i sp a p e rd e s i g n sa n a b n o r m a ld e t e c t i o ns y s t e mt oa n a l y s i so fn e t w o r kt r a f f i cc o r r e c t l y i no r d e rt og u a r a n t e eah i g h e rd e t e c t i o nr a t ea n dl o w e rf a l s ea l a r mr a t e ,w eu s e d a t am i n i n gt e c h n o l o g y f r o mt h eh i s t o r i c a ld a t an e t w o r kl a n e ,w ec a ng e ta s t o r e h o u s eo fn o r m a la n da b n o r m a lb e h a v i o r c o m p a r e dw i t ht h eu s er e a l - t i m e n e t w o r kd a t af l o w , w ec a nd i s c r i m i n a t et 1 1 ea b n o r m a lb e h a v i o rn e t w o r kt r a 箍cd a t a i f i t i sf o u n dt h a tt h ed a t af a i lt ob er e c o g n i z e dw ec a nu s ea r t i f i c i a li n t e r v e n t i o nb yt h e w a y , u p d a t et h er u l es t o r e h o u s ea n de n h a n c et h ea b i l i 哆t oi d e n t i f yt h eu n k n o w n d a t a t oa v o i da c t i o n sb e t w e e nh o s t st h e r ei sab i gd i f f e r e n c ec a u s e db yt h em i s j u d g m e n t , t h ep a p e ri sb a s e do nt h eh i s t o r i c a ln e t w o r kd a t aa st h ea u d i td a t as o u r c e s w ec o u n t t h en u m b e ro fv i s i t i n gb e t w e e nt h en e t w o r km a i n f r a m e sa c c o r d i n gt o c l u s t e r i n g a l g o r i t h ma n dw ew i l lb u i l du pc l u s t e r i n gi pg r o u pi no r d e rt og u i d et h en e t w o r ka u d i t d a t as t r e a m i n g ,a f t e rt h ea u d i td a t as e p a r a t e l yf o rt h e e s t a b l i s h m e n to fr u l e s t h ep a p e r m a k ead e t a i l e dd e s c r i p t i o no ft h ew h o l ed e t e c t i o ns y s t e m ,t h ev a r i o u sc o m p o n e n t so f t h es y s t e mf u n c t i o n sa n dr e a l i z a t i o n 。 i nt h ee x p e r i m e n t ,w ei n s t a l lt h ei m p l e m e n t e dp r o t o t y p es y s t e mi nt h eo u t l e to f c a m p u sn e t w o r k ,a n dr e a l - t i m ea c c e s st ot h ec a m p u sn e t w o r km o n i t o r i n gn e t w o r k t r a f f i c t h e n ,w em a k es e v e r a in e t w o r ka t t a c k st oas e r v e ri nt h ec a m p u sn e t w o r k a n d f o u n dt h a tt h ep r o t o t y p es y s t e mc a nb ee f f e c t i v ei ni d e n t i f y i n gk n o w na t t a c kt y p e so f d a t aa sw e l la sd a t au n k n o w ng o o dr e c o g n i t i o na b i l i 移a n dt h ei m p l e m e n t a t i o no ft h e n e t w o r ki r a 炳ci nt e a lt i m ea b n o r m a ld e t e c t i o n k e yw o r d s :a b n o r m a ld e t e c t i o n ,d a t am i n i n g ,d e s c i o nt r e e ,c l u s t e ra n a l y s i s , n e t w o r ks e c u r i t y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的硒究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得基鲞基茎或其他教育机构的学位或证 书丽使用过的材料。与我圊工作的同志对本研究所撒的任何羹献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:刁多善延势 签字嗣期: 支邮7 年月驴目 i + 学位论文舨衩使用授权书 本学位论文作者完全了解鑫连盘堂有关保留、使用学位论文的规定。 特授权基鎏塞皇可以将学位论文的全部或部分蠹窑编入有关数据瘁进行捡 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向溺家有关部门或机构送交论文的复印件帮磁盘。 ( 保密的学位论文在解密后适用本授权说晴) 学彼论文裕者签名:苘面3 参 签字日期:寂鲫7 年劳o 自 导师签名;卷塌、 签字醴期:2 埘7 年占用,- 日 第一章绪论 1 1 研究目的和意义 第一章绪论 当前,基于t c p i p 技术的互联网( i n t e r n e t ) 正向纵深方向发展:一方面,互 联网也在飞速发展的过程审,向我们提出了一系列的挑战。另方面,新一代的 基础设施已经或者正在部署;新的技术不断涌现,新的应用模式和应用需求不断 涌现。作为信息社会的一个重要基础,互联网正在影响着越来越多的人,成为他 们学习工作生活的重要组成部分。一个关键的问题在于,我们如何来认识、管理、 优化各种网络资源。 与互联鼹的飞速发震桷跑,对鼷络行为麴研究相对较少。作为计算枫互联看 成的庞然大物,豆联网具有多变、异质、动态等特点他儿5 1 。与一般的自然系统相 比,互联网又具有很强的社会性,广大用户的行为对于互联网具有重要盼影响。 如何认识这样一个系统的统计特性和动力学性质,认识互联网使用者的行为特 征,正日益引起人们的兴趣。另一方面,对互联网及其用户行为的研究,也是网 络的规划、设 和管理酌重要依据。互联网的飞速发展以及社会对其依赖的加深, 对网络管理也提出了更高的要求。与网络应用类型的发展相比,网络管理技术的 提高似乎总是滞恁于应用的发展口3 。如何给广大的互联网使用者提供一个安全、 可靠和高效的使用环境,是网络管理需要解决的问题。与网络应用类型的发展相 比,网络资源的增长似乎总是不能满足需求的增长。站在网络资源拥有者的角度, 如何优化现有的各种嘲络资源,如何根据嘲络的发展趋势,做出合理的规划和设 计,也是一个重耍的问题。 网络流量分析是为解决上述阍题应运面生鲍。凡乎所有与阙络穗关的活动都 是和网络流量联系在一起的,网络流量是记录和反映网络及其用户活动的重要载 体。网络流量分析是认识网络的一瑟镜子。网络流量的行为是踺络行为的藿要缓 成部分,通过对网络流量的统计分析,我们可以间接掌握网络的统计行为。网络 流量分析也是管理和优化各种网络资源的重要依据。网络流量的统计情况,反映 了用户健用网络资源的请凝,是制定和执行网络计费的重要依据;对异常嬲络流 量的检测结果,是入侵检测的重要组成部分:根据对网络流量的预测结果进行带 宽的动态分配,可以在保i 菱q o s 的前提下,实现对网络带宽利麓率的最大纯;对 流量分析预测结果,也可以用来指导网络流量的拥塞控制和路e l j 选择机制h 3 。 第1 章续论 1 2 网络流量异常检测研究现状 网络流量异常是指当前流量情况与正常嗍络流量偏差太大,从而造成网络性 能下降。造成异常的流量包括网络蠕虫造成的占用大量带宽的无用流量、用户对 网络资源的使用不当造成的流蕈以及用户恶意攻击别人造成的网络拥塞流量等。 网络设备和链路的异常也能造成网络流量的异常。 传统的网络流量异常检测系统都是采集网络中的捆关数据,通过预先设定盼 监测阈值进行比较,在网络中出现异常网络流量或异于平时的系统资源使用量 时,相关数据就会超出阈馕范囝,则可以判定整个系统窭现异常晦】。系统将异常 情况通知系统管理人员或者自动采取有效的动作,阻止流量异常的蔓延。 这些阂值一般是通过经验得来的,能在一定程度上反映网络正常流量情况。 但是只根据几个阙值不能全面反映网络正常行为,而髓这些阈值不能根揲网络行 为的变化自动调整。另外,传统的检测系统只关心整个网络的检测,对网络中各 主视的行为关注不够。事实上霹络主机的流量异常往往造成了主干网络流量豹异 常。随潜计算机网络的日益发展,网络规模越来越大,网络技术越来越复杂,直 接导致网络发生问题的可能性增大,而且这些问题将会传播得更为广泛,解决闻 题的难度加大。传统的网络流量异常检测系统己经不能适应当前的网络发展状 况。 为了合理利用网络资源,最大限度缝发挥网络的作用,必须尽可能地阻止网 络中出现异常流最。因此,在综合网络管理中,网络流量异常检测变的非常重要。 鼹络流量异常检溅系统可以监视整个网络的瓷澡使用状态,再与防火墙、入侵检 测系统等整合在一起,就可以形成一道严密的防护网,可以主动的防御各种网络 蠕虫病毒的恶意入侵或是人为因素所引起的流量异常情况。异常检测还需要通过 定时的采集网络设备的相关数据,或者通过监测网络流量的变化,分析网络设备 和链路的可能变化。 凳蓊露络流量异常检测研究以统计方法失主。瑟对正常网络数据进行建摸, 根据历史数据建立一个正常的参数基线,在一个容许范围内( 这个容许范围是两 个或三个标准差) 表示流量正常,一旦超出此范围就判定为异常。 s t a n f o r d 大学提出的针对网络业务量数据的数据流管理系统,能够在线的 对多种类型的网络数据进行实时查询,其中的技术特点偏重在对数据流的管理, 内存管理以及查询近似优化等。 b r u t l a g 等使用h o l t - w i n t e r s 预测增量模型对正常的网络流量数据进行建 第章绪论 模,检测时间序列中的异常盯1 。l a k h i n a 等使用主成份分析的方法,对网络流量 进行正常帮异常的划分。利霜了多个时闻序捌数据中的关联性,可对多令连接中 的异常进行检测。j o n c k h e e r e 等检澳i j u d pf l o o d i n g 攻击,集中在建模的动态性方 蕊,强调了交互信怠的重要性。 b a r f o r d 等首先使用小波分析的方法,从网络流量中过滤掉可预测的部分, 然后再对剩下的进行统计分析,若其出现尖峰增长,则检测出异常m 1 。使用的实 验数据包括i pf l o w 以及s n m p 。k i m l 等在出翻路由器上分析网络流量,对校园网 络流量根据i p 地址进行过滤,假定目的i p 地址具有较高程度的关联,利用这种关 联作为输入信号,使焉小波分析统计并检测舅常,接羲在动态过滤器中持续搜索 合适的时间尺度层次,以准确定位攻击发生的层次。当有多个层次均出现报警时 才判断为异常,以降低误报率。 1 3 本文主要研究内容及组织结构 本文讨论的异常检测系统为7 适应大流量药高速网络,采耀了基于w i n p c a p 的流量采集工具,能够实时地将整个网络中的数据包进行采集,把系统的丢包率 减到最低。在系统中,我们定义了一个完整的数据挖掘知识库,描述网络流量正 常和异常行为规则,并以此为参照,对网络流量异常情况进行检测。 网络流量异常包括主干流量异常和某台网络主机的流量异常,因此在流量异 常检测系统中,研究异常流量的监测、定位造成异常的主杌,迸褥对异常主机进 行处理,对于避免网络拥塞、保证网络性能、避免网络资源的滥用,具有重要意 义。在系统中,陌时对网络主机的异常行为也规定了一定的检溅策略,并盈在检 测出主机异常后对其采取了警告处理。这样就能全面地检测整个网络中的异常, 使网络能够正常平稳地运行。 本文剩余内容组织如下: 第二章总结网络流量异常检测技术 第三章数据挖掘技术在霹络流量异常检测中静应爝 第四章基于数据挖掘的网络流量异常检测原型系统的设计 第五章实验与结果分析 第六章总结 第_ 拳鼹终滤繁异耄分攒与数据挖攮技本 , 第二章网络流量异常分析与数据挖掘技术 2 1 网络流量异常检测 2 1 1 基本概念 异常是在数据集中与众不同的数据,使入怀疑这些数据并非随机偏差,而是 产生于完全不同的机制旧1 。异常检测是数据处理中一个重要方面,用来发现“小 的模式”( 稿对于聚类) ,鞠数据集巾显著不阏于其它数据的对象。异常检测的关 键问题在于正常使用模式的建立以及如何利用该模式对当前的系统或用户行为 进行比较,从而判断出与正常模式的偏离程度。模式通常使用一组系统的度量来 定义。所谓“度量”,是系统或用户行为在特定方面的衡量标准,每个度量都对 应一个阀值或相关的变动范围。对于异常检测系统来说,因为我们不能保证使用 当前所定义的度量可以表示毒所有於异常行为模式,所以系统或焉产的正常模式 应该是不断修正和更新的。网络流量异常指的是网络的流量行为偏离其正常的行 力的情形。网络流量异常检测是先对霹络流量的正常行药做出插述,再监测霹络 的当前行为是否偏离正常行为的过程。 2 1 2 常见异常流量的种类 网络异常流量会严重影响网络性能,造成网络拥塞,严重的甚至会造成阚络 中断,网络设备利用率达到1 0 0 ,从而无法响应进一步的指令。造成网络异常 流量的缀因可能有:网络搦摧、d d o s 攻击、阏络蠕虫病毒、恶意下载、用户对瘸 络资源的不当使用以及物理链路损坏或者网络设备不能正常运转等。 1 、网络扫描 网络扫描是一种常见的网络异常流量,通常它是实施网络攻击的前奏n 翻。扫 描的方法一般是主动地对所有打开的端口进行刺探,以找到有用的突破口。它表 现为在单位时闻内,阕一个源王p 访闯大量不阋的基标至p 或同一露标l p 豹不同瑞 口,目标i p 通常是连续的。这种扫描一般是人为的,持续时间短,数据包数量大, 长度小,消耗路豳器的c p u 。 2 、d d o s 攻击 这种攻击企图通过使你的计算机崩溃或把它压垮来阻止服务器继续提供服 第_ 搴霹终浚甓异常分羲与数据挖撼技寒 务。它表现为大蹙不同的源i p 对同一目标i p 发送数据包。单位时间内数据包的 量大,数据包长度长,占用大量的带宽资源,对交换槐影响大。使用的协议包括 u d p ,i c m p 和t c p 等。 3 、隧络蠕虫病毒 随着i n t e r n e t 的应辟j 领域和应用规模的快速增长,通过网络传播的计算机病 毒的种类越来越多,传播速度越来越快,感染面积也越来越广,全球的信息安全 受到了普遍而严重的威胁。其中,网络蠕虫病毒,其传播速度快、传播面积广、 破坏性强,大量占用路由器和交换机的带宽,导致网络阻塞甚至瘫痪】。 蠕虫病毒利用操诈系绕的漏漏主动传攒,并且可以在局域鼷或者广域阚志以 多种方式传播。般来说,都有很多变种,从而使杀毒软件难以有效的主动防范。 这种网络蠕虫病毒的攻击方式,除了造成大量的网络流量外,也会消耗大量 的系统资源。其实通过适潞的管理软件,可以在网络蠕虫病毒爆发时,对涌入的 异常网络流量或异于平时的系统资源使用量,通过所预先设定的监测阈值,在整 个系统剐出现异常时,即霹通知系统管理人员或者自动采取有效的动作,阻止流 量异常对整个网络的影响。而且流量异常检测系统可以监视整个网络的资源使用 状态,再与防火墙、入侵检测整合在一起,就可形成一道有效的防护网,可以更 加主动的预防各种网络流最异常情况。 4 、恶意下载、对网络资源的不当使用 有些用户使用b t 等下载工具,对下载的流量没法控制,就会有意或无意的 造成下载流量超标,导致网络带宽浪费。所以需要建立适当的阂值,检测对网络 资源的滥用。如果有用户超过一定的流量,就需要对其进行稠骧兹处理。 2 2 自由软件与商业软件的选择 2 1 1 翻由软件m r t g m r t g 是一个流行的监测网络链路流量负载的软件驰瓤。几年来我们一直使用 m r t g 作为我们网络流量监测的网管工具。m r t g 是基于s n m p 开发的,它提供了形象 的图形化监测界面供管理员查看。 m r t g 的工作原理如- f :首先,m r t g 安装在一台管理站上,缺省每s 分镩运行 一次。它通过s n m p 协议采集被管理系统的各个代理器上m i b 库里的对象值。数 据采集压被加工。数据加工的关键是一个压缩算法,它把数据分莲类生成: 日数据( 每5 分钟采样一次) 、周数据( 每3 0 分钟采样一次) 、月数据( 每 第二謦霹络浚攫异零分辑与数据挖粼技寒 2 小时采样一次) 、年数据( 每2 天采样一次) 。加工膳的数据被存放剑一个固定 大小的文本文件里。这个文本文件虢是m r t g 使耀的数据库。然后m r t g 生成每个被 测路由器端口的四幅图:最近一日流量图、最近一周流量图、最近一月流量图和 最近一年漉量图。经过这一系列数据采集一 数据存储一 图像生成的工作后, m r t g 完成了一次执行过程卜墙3 。 m r t g 提供了网管人员方便、简单、直接的网管方式。在使用过程中,我们充 分体会到了它的好处。首先,它提供了一种形象的流量数据显示方式:即图形化 流量数据显示剀。m r t g 把一段时问内的流量数据以曲线i ! 篷i 的方式绘制成p n g 图像。 这样,不仅能爱映塞当前流量,恧越能反应魏后流量的对比。其次,它穰方便嚼 管人员的使用。网管人员需要时,只需要点击查看一个w e b 页面就可以了。再次, 它提供了实时监测路由器端口流量状态的有效途径。耄于m r t g 是每5 分钟运行一 次的,所以它提供了实时的网络动态运行情况报告。在使用m r t g 的同时,我们思 考什么是m r t g 不能满足的。随着网络规模的豳益庞大,我们的网络需要监测的端 口数也在增加。虽然m r t g 为网络管理提供了方便实用的监测功能,但是在实践中, 我们也发现了一些不足之处。迫切需要解决以下问题: m r t g 的性熊瓶颈: 首先,需要监测的路由器数目网益增多,数据量越来越大。庞大的数据量与 实时监测之间存在着矛盾。流量采集的时间间隔假定是5 分钟,那么5 分钟之内 必须保证能够采集到所有路由器的流量数据。否则就不能实现有效、实时的流量 监测。而目前m r t g 在5 分钟内最多只能完成1 2 0 0 个路由器端口的数据处理。这 个闳题的产生有多方蘧的原因:一个原因是纛予m r t g 的数据存储方法。m r t g 的 数据存储在固定大小的文本文件里。每次插入数据需要对整个文本文件的数据进 行重新整合。另一个原因是由于m r t g 的数据采集方法。m r t g 采用单线程采集数 据,大部分时间耗费在路嘲器的延迟等待上了。第三个原因是嘲于m r t g 的系统 结构。m r t g 缺省每5 分钟完成一次数据采集、数据压缩、图像生成的工作。这 耗费了大量多余劳动。在没有用户查看的时候,图像没毖要5 分钟生成一次。因 此,m r t g 主要适用于规模较小的网络。当然,这个问题可以通过启动多个m r t g 进程来完成,可是这样又会带来其缝一系列管理闻题。 历史数据查询: 其次,网络的运行需要一个长期、动态的趋势分析,以分析用户行为,为系 统的扩容做好准备。很多情况下两管人员希塑能看到路由器的历史数据,实现数 据之间的比较,从而掌握网络负载的动态变化趋势,为网络优化提供第一手的资 瓣。存储并处理这样大的数据量需簧高性能酌数据存取及计算。m r t g 只缝提供 一个大体的趋势图,无法实现详细的数据比较。 第二睾鼹络流攫异翥分辑与数据挖糍技术 监测范围限制: 髯次,m r t g 的适雳范围有很大的限制。系统在设计时规定了它只能监测两 个数据源的整型数据。联系到应用上一般就是进出字节数 ( i n o c t e t s ,o u t o c t e t s ) ,这就限制了它的应用。很多情况下我们需要多数摆源 的监测,比如有时候我们想监测网络的d e l a y ,l o s s ,l a t e n c y 等性能。 动态配置问题: 由于网络的动态性,需要经常性的添加、删除和修改端翻。m r t g 是使用一 个文本配置文件来确定要监测对象的。当网络设置改变时,管理员不得不手工重 毅生成该配置文件。这是个很大的王作量。生成配置文件也是一髂缀繁琐的事情, 它涉及许多的选项,对于刚使用m r t g 的管理员来说很困难。这些都不符合程序 设计的实用性和灵活性。 缺乏权限管理: 校园网的每个用户都希望能够了解自己的带宽使用情况。我们的系统应该可 班同时提供给用产一个接嗣,使得每个焉户能够实时监测自己的网络流量。 基于我们在应用中遇到的以上问题,迫切需要开发一套新的检测工具,它应 该在速度和可扩展缝上突破m r t g 的限制。 2 2 2 商业软件 目前网络异常流量监测技术呈现迅猛发展的态势,技术和产品不断推陈出 新,涌现了许多有代表性的产品。疆前电信缀王p 两网络异常流量监测技术,主 要以基于n e t f l o w 的监测技术为主,如中国电信等电信网络运营商均部署了基于 n e t f l o w 监测技术的网络异常流量监测产品和系统。扶这些产品的发展掰程看, 不难得出以下结论:网络异常流量监测技术和产品正朝着越来越智能化的方向发 展。异常流量监测系统的智能化主要体现在以下三个方面。 ( 1 ) 流量留学习能力。通过对网络流量的监测掌握网络正常流量模型。 此类产品和系统通过监测一段时间的网络流量,建立起一个基于时间的正常流量 模型。该模型会在系统内数据库串,对监测隧络的各个时阖段逡的各种协议流量 建立一个动态流量基线。当某个时段,某个协议流量与当前基线不符时,会给出 一个异常告警,并随着时闯积累,会将告警逐步舞级。因此,这秘智能优的流量 学习能力可以更加精确地掌握网络中实际的正常流量的情况,为判断异常流量提 供有力的依据。 ( 2 ) 蠕虫攻击特征捡测。网络蠕虫攻击一般在流量、协议、攻击端口以及 攻击行为方面会具有一定的特征。因此,在对这类网络蠕虫攻击进行监测时可以 筹_ 窜露终浚繁异翥分辑与数据挖掘技术 根据其特征进行判断。此类产品一方面可以根据流量自学习功能掌握正常流量的 基穑,分析判断凼一些算常流量,并提取这些流量特征,还为今后的分析判断提 供参考和借鉴;另一方面,此类产品和系统,建立有套蠕虫攻击特征的分发和 收集系统,不断扶其他监测点收集额的异常特征,又不断将这些特堑分发到域内 的监测系统中。因此,这种智能化的蠕虫攻击特征检测可以提高已知蠕虫特征的 攻击监测准确性,也可以提高监测未知蠕虫攻击的能力。 ( 3 ) 攻击源的自动追溯轴引。攻击源的自动追溯在发现攻击时,对攻击流量 的源头进行反向信息跟踪,并将相关的流量信息进行关联分析,以判断攻击源的 位置。诧类产品在发现攻击时,根据接收a s 、b g p 路凌等信息,最终将定位毒最 靠近攻击源的接口信息。因此,这种智能化的攻击源的自动追溯能力可以提高攻 击源的定位效率,从箍大大提高应急响应的速度。随着网络流量监测技术的基益 成熟,异常流量的判断准确性曰益提高,它也逐步与异常流量控制的技术紧密地 结合在一起了。因前,a r b o r 等流量监测系统已经可以与流量过滤系统( 如c i s c o g u a r d ) 进彳亍联动,也可以通过宣告黑漏路由,提供a c l 过滤策略等方式与路由设 备进行交互,来有效地处理异常流量。 鹭前市场上肖缀多有关网络监测的商业软件可供选择,比如f l u k e 公司开发 的o p t i v i e w 链路分析仪、d r a g o n f l o w 公司的d r a g o n w a t c h 等。既然我们在使用 m r t g 的过程中遇到了种种问题,就可以考虑用这些商业软件来代替它。但是实 践表鹳,这些商业软件在解决问题的同时也带来了很多的问题,并不能完全适用 于我们的应用。首先就是一个价格问题。购买这样一套商业软件的花销要远远大 予鸯行开发一套管理软件。丽且购罴的软件功麓并不完全适合你的需要。商韭软 件开发的主要目的是市场用户量,不同的用户有不同的需求。为了满足用户的需 要,她们往往做成“普遍适用”型。同时商业软件需要你花费大量的时阚稷耐心 去学习它的使用。 其次,商业软件的数据库格式、内容通常是保密的。它在提供给你网络监测 的同时,却不能提供绘你对于运营祷网络串现有网络管理系统( n m s ) 的更进一 步的详细信息。同样,当n m s 升级或者发生变化时,又必须等待软件提供商有相 应的升级版本。这些都会带来一系列的麻颊和阆题。 因此,本着自由软件的思想,开发适合自己使用的网络流量检测软件,才是 最合适的方案。而且,开发这样的软件,可以面向有同样应用的i s p 服务提供商, 同样有广阔的市场前景。 第一章网络流餮异翥分轿与数攥挖缀技术 2 3 数据挖掘技术 由于网络技术、数据库技术、硬件实现技术的进步,使得大量信息能够置于 计算枫孛进行高效检索和褒询。w e b 技术的凄现促进了利用超文本格式将文字、 图像等信息汇子一体,丰富了信息资源,增强了信息产生和数据搜集能力。因此, 成于上万的数据库应用于商业管理、行政办公、科学磷究和工穰开发,褥系统存 储的海量历史数据又引发了新问题,例如,美国零售商w a l - m a r t 公司每天要处理 二千万个事务,n a s a 于1 9 9 9 年发射的地球观测系统每小时要产生5 0 g b 的图像数 据,m o b il 石油公司正开发能存储i o o t b 与石油勘探相关数据的数据仓库系统等, 这些庞大数据库和海量数据是极其丰富的信息源,数据的丰富带来了对强有力的 数据分析工具的需求,因为“数据事富,僵信息缺乏。抉速增长的海量数据收 集、存放在大量大型数据库中,没有强大有力的工具,理解它们已经远远超出了 人的能力。结果,收集在大型数据麾中的数据变成了“数据坟墓”一难以再访问 的数箔档案。这样,重要的决定常常不是基予数据库中信息丰富的数据,而是基 于决策者的直觉,因为决策者缺乏从海量数据中提取有价值知识的工具。此外, 考虑当前的专家系统技术,通常,这种系统依赖用户或领域专家人工地将知识输 入知识库。不幸的是,这一过程常常有偏差和错误,并且耗时、费用高。因而, 从数据库中发现知识( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 的核心技术一 数据挖掘( d a t am i n i n g ) 应运而生豫眈刳。 数据挖掘技术出现于2 0 世纪8 0 年代后期,9 0 年代有了突飞猛进的发展。 数据挖掘技术是入们长期对数据库技术进行研究和开发的结果。起初各种商业数 据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而 发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段, 它不仅熊对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联 系,从谣促进信息的传递。 数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智 能机器学习瞳3 。2 5 3 。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广 泛的数据集成,诖数据挖撅技术在当前的数据仓库环境中进入了实用的阶段。 数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检 索查询调用,恧鼠要对这些数据进行微观、中观乃至宏观的统计、分析、综合和 推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数 据对未来的活动进行预测。 数据挖掘是从大量的数据中抽取出潜在的、有价值的知识的过程,是一个新 兴的数据分析技术,在商业、生物、决策等方面有很多的应用,并且起到了很大 第_ 二牵霹终浚燮异常分橱与数据挖撼技术 的作用。 2 3 1 数据挖掘概念和分类 数据挖掘是源于大型零售商面对决策支撵问题而提出的,是从大量的、不完 全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道 的、但又是潜在有用的信息和知识的过程轻剐。 从不同的角度出发,数据挖掘可按照以下方式进行分类娩 。 1 根据挖掘的对象数据库分类 由于不同数据库中的数据描述、组织和存储方式不同,而数据挖掘的数据库 分为关系型、事务型、面向对象型、主动型、空间型、时闻型、文本型、多媒体 和异构型等数据库; 2 根据挖掘的知识类型分类 数据挖掘的知识类型包含多种形式:关联规则、分类规则、时序规则、特征 规则、聚类规则、总结规则和趋势分析等。同时,由于知识表达层面的不同,数 据挖掘叉可分为原始层次挖掘、高层次挖掘和多层次挖掘等类型; 3 根据挖掘的技术分类,常用的挖掘技术包括: ( 1 ) 人工神经网络方法,如自组织特征映射聚类; ( 2 ) 决策树方法,如分类回归树用于分类; ( 3 ) 规则归纳方法,如关联规则; ( 4 ) 模糊和粗糙集方法,如鬻粗糙集理论进行信息约减; ( 5 ) 可视化技术。 2 3 2 数据挖掘要素 数据挖掘必须具备以下几个方面的要素,才能获得满意的结果嘲。 1 、规模:要从数据中挖掘出规律,则数据源的规模必须非常海量。如何从 如此巨塞的数据中有效遗提取有用的信息,需要各方面技术的协调; 2 、历史数据:数据挖掘必须对数据进行长期趋势的分析,但数据在时间轴 上大的纵深性是数据挖掘的一个新难点; 3 、数据集成和综合性:数据挖掘可能要面对的是关系非常复杂的全局模式 的知识发现,但注意力可以更集中予数据挖掘算法; 数据挖掘算法包括三个元素: ( 1 ) 模型:包括模型功能( 分类或关联等) 和基函数( 如线性函数或高斯概率 第二牵网络溅嫠异翥分掇与数据挖撼技术 分布函数等) ,当参数确定后即可形成挖掘模型。 2 ) 优先准剃:壶予数据的不精确性,将浮致模颦的多样性与小完全性,因此 需要具有确定模型或参数的优先机制,通常表示为某种形式的模型对问题的符合 度函数。 ( 3 ) 搜索算法:包括对模型、参数或优先准则的各种算法。 4 、查询支持:一般由用户提出的及时随机查询,往往不能形成精确的查询 要求,需要靠数据挖掘技术进行实时交互,馒决策者的思维保持连续,才有可能 挖掘出更深入,更有价值的知识; 5 、模式的适用性:数据挖掘模式的发现主要基于大样本的统计规律,发现 的模式不必适用于所有数据,达到某阈值就可以为有效。 2 3 3 数据挖掘的任务 数据挖掘的任务是从数据中发现模式疆引。模式有很多种,按功能可分为两大 类:预测型( p r e d i c t i v e ) 模式和描述型( d e s c r i p t i v e ) 模式p 啪3 。预测型模式 是可以根据数据颂酶值精确确定某种结果的模式。挖掘预测型模式所使爝的数据 也都是可以明确知道结果的。例如,根据各种动物的资料,可以建立这样的模式: 凡是胎生的动物都是嚆孚l 类动物。当有新的动物资料时,就可以根据这个模式判 别此动物是否是哺乳动物。描述型模式是对数据中存在的规则做一种描述,或者 根据数据的相似性把数据分组。描述型模式不能直接用于预测。 在实际应用中,往往根据模式的实际作用细分为以下6 种: ( 1 ) 分类模式 ( 2 ) 回归模式 ( 3 ) 时间序列模式 ( 4 ) 聚类模式 ( 5 ) 关联模式 ( 6 ) 序列模式 在瓣络流量异常检测系统中,主要应用了聚类模式和分类模式。 2 3 4 数据挖掘的步骤 数据挖掘的处理对象是大量的数据,这些数据一般存储在数据库系统中,是 长期积累的结果,但往往不适合直接在这些数据上面进行知识挖掘,需要做数据 准备工作,一般包括数据的选择( 选择相关的数据) 、净化( 消除噪音、冗余数 筹鬻网络流赘异卷分撬与数据挖掘技术 据) 、摊测( 推算缺失数据) 、转换( 离散值数据与连续值数据之间的相互转换, 数嚣值的分组分类,数据项之问的计算组合等) 、数据缩减( 减少数据量) 疆“。 如果数据挖掘的对象是数据仓库,那么这些工作往往在生成数据仓库时已经准备 妥当。数据准备足数据挖掇的第一个步骤,也是比较重要的一个步骤。数据准备 是否做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。 通常把数据挖掘认为是数据库知识发现的一个基本步骤2 1 。 数据挖掘是一个完整的过程,该过程从大型数据霹中挖掘先前未知的、有效 的、可实用的信息,并使用这些信息做出决策或丰富知识。 2 3 s 数据挖掘方法分析 1 、关联分析 关联分析的目的就是为了挖掘出隐藏在数据间的相互关系。关联分析就是给 定一组i t e m 和一个记录集合,通过分析记录集合,推导出i t e m 间的相关性。用 于关联规则发现的主要对象是事务数据库( t r a n s a c t i o n a ld a t a b a s e s ) 。一般用 西个参数来描述关联规则的藩性:可信度( c o n f i d e n c e ) ,支持度( s u p p o r t ) 、 期望可信度( e x p e c t e dc o n f i d e n c e ) 、作用度( l i f t ) 。 2 、序列分析 序列模式分析和关联分析法相似,其目的也是为了挖掘出数据之间的联系。 但序列模式分析的侧重点在于分析数据间的前后( 因果) 关系。序列模式数据分 析有以下几种形式:霰设数据由系统性模式( 可辨识的成分集含) 和使模式难以 辨识的随机噪声构成。序列模式分析技术通常包括某种形式的噪声滤波以使模式 更突盘。趋势分析通常包括某种形式的局部平均运算( l o c a la v e r a g i n g ) ,最常 用的是移动平均值平滑,用相邻的n 个值的简单或加权平均值代替均值,目的是 减少奇异点的影响。奇异点存在时,对于相同宽度平滑窗口,可以得到更光滑和 更可靠的曲线。主要缺点是不存在明显的奇异点时曲线更锯齿化,另外中位数不 能加权运算。 3 、聚类分析 聚类分析是数据挖掘中的一类重要技术,是分析数据并从中发现有用信息的 一种有效手段。它将数据对象分组成为多个类或簇,使得在同个簇中的对象之 间具有较高的相似度,而不同簇中的对象差别很大。聚类算法大体可以划分为以 下几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的 方法。丽基于模型的方法主要包括统计聚类法和神经网络法。神经网络法近年研 究较多,发展较快,成为聚类领域的一研究热点。人们试图通过人工神经网络系 第二意鼹络漉繁舅豢分拆与数据挖撤按泰 统模拟人脑的功能和结构,使计算机能像人脑那样进行信息处理。可以用于聚类 分析的神经隧络的研究主要集中在静阚络,构造犁神经阏络,囱适应谐振网络, 自组织映射网络等。而和b p 网络等一类有监督学习的方法相比较,自组织特征 映射网络算法更接近予入脑的认知过程。自缝织特征映冀童隧络冀法提出之后,立 即引起了人们的注意,其理论及应用发展很快,已经成为继b p 网络之后得到研 究最多、应用最广泛的一种神经网络模型。自组织映射网络聚类的方面的算法研 究主要是针对权值调整和学习函数的改进,以取得较好的收敛效果。 聚类分析是分类分析的逆过程,是指根据一定的规则,合理地划分一组未标 记的记录集合,按照裾似性赌成若于类别,并惩显式或隐式的方法描述这些类别。 其目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体 闻的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经嬲终方法和 面向数据库的方法等珏引。 传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、 有序样品聚类、有重叠聚类和模糊聚类等。这军中聚类方法是一种基于全局比较的 聚类,它需要考察所有的个体才能决定类的划分,因此它要求所有的数据必须预 先给定,瑟不熊动态增加薪的数据对象。聚类分析方法不具有线性的计算复杂度, 难以适用于数据库非常大的情况。 4 、分类分析 分类分析就是将数据库中的数据项映射到给定类别中的一个。一个理想的分 类算法必须收集足够的“正常”或“异常”审计数据来判定一个用户或者程序是 否菲法,然后焉这些数据来指导一个分类器学习,学习后的分类器可以用来预测 一些未知的数据是否非法。 数据分类分为蘸个过程,首先选择一个训练数据集,谶练数据集的每个元组 ( 训练样本) 的类标号己知,其次通过分析韵属性描述的训练数据库元组来建立 一个模型。由于提供了每个训练样本的类标号,所以该步也称有指导的学习过程。 分类的效果一般和数据的特点有关,有的数据噪声大,有的有缺值,有的分布稀 疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混和式的。 虽蔫普遍谈走不存在某种方法能适合于各种特点的数据。分类分析时首先为每一 个记录赋予一个标记,所谓标记是指一组具有不同特征的类别。然后按标记分类 记录,然后检查这些标定的记录,描述出这些记录的特征。这种撼述可熊是显式 的,例如,一组规则定义:或者是隐式的,例如一个数学模型或公式,利用它可 以分类新记录,实际上它就是一种模式。 第二赘网络浚麓异豢分析专数据挖搬技术 2 4 数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 3810.18-2025陶瓷砖试验方法第18部分:光反射值(LRV)的测定
- JJF 2281-2025热量表通信技术协议计量技术规范
- 2025年河北地质大学选聘工作人员85人考前自测高频考点模拟试题附答案详解(突破训练)
- 2025年河北邢台威县招聘卫生专业技术人员133人考前自测高频考点模拟试题含答案详解
- 2025贵州安顺市参加“第十三届贵州人才博览会”引才271人考前自测高频考点模拟试题附答案详解(典型题)
- 安全培训教师与复杂性课件
- 安全培训教学课件内容
- 2025年长城钻探工程公司春季招聘(20人)模拟试卷附答案详解(黄金题型)
- 2025年烟台市蓬莱区卫健系统事业单位公开招聘工作人员(23人)考前自测高频考点模拟试题及参考答案详解
- 2025春季四川泸州市合江县卫生医疗机构编外人才招聘20人模拟试卷有答案详解
- 2025届大学生就业供需洞察报告
- 养老机构法律风险课件
- 小学课堂常规礼仪
- 肿瘤病人血管通路的选择
- 2025年 北京门头沟大峪街道社区储备人才招募考试试题附答案
- 科技安全课件
- 2025年重庆市中考英语试卷真题(含标准答案及解析)
- 档案公司借阅管理制度
- 药店医保考试试题及答案
- 酒质量安全管理制度
- 化工企业工艺联锁、报警管理制度
评论
0/150
提交评论