(计算机软件与理论专业论文)数据挖掘和融合技术在安全事件管理中的研究.pdf_第1页
(计算机软件与理论专业论文)数据挖掘和融合技术在安全事件管理中的研究.pdf_第2页
(计算机软件与理论专业论文)数据挖掘和融合技术在安全事件管理中的研究.pdf_第3页
(计算机软件与理论专业论文)数据挖掘和融合技术在安全事件管理中的研究.pdf_第4页
(计算机软件与理论专业论文)数据挖掘和融合技术在安全事件管理中的研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机软件与理论专业论文)数据挖掘和融合技术在安全事件管理中的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研究 成果。其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表 示了谢意。 储张裼饬嗍夕3 - - y 乡 论文使用授权声明 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此 规定。 作者签名:裼裼导师签名:辨滗日期: 力泸7 5 - 、 , 数据挖掘和融合技术在安全事件管理中豹研究上海师范大学颈士学位论文 摘要 如今,网络安全问题层出不穷,面对这些安全问题,出现了各种各样的安全产品,如 入侵检测系统、防火墙、安全漏洞扫描、防病毒软件等,它们分剐从不同的侧面保护着网 络系统的安全。对网络安全起着重要作用与此同时,部署在网络中的各种安全产品,每 天都会产生大量的安全事件( 日志文件) ,这些事件对于检测、分析、评估、监控、预 测和关联各种网络安全事件和威胁有非常重要的价值;然而,如何从浩如烟海的海量安 全事件数据中提取出有价值的信息呢? 因此,本论文根据以上问题提出了基于数据挖掘 和信息融合技术的解决方法。 本文首先介绍了国内外对安全事件管理的研究状况,然后提出了数据挖掘和信息融 合技术,并对这些技术在安全事件数据中的应用作了详细的叙述并给出了具体的算法。 这些技术包括:关联规则、统计、预测分析、数据融合等。关联规则能发现数据中的属 性字段之间的相关性,利用数据挖掘中的统计技术我们可以从纷繁杂乱的海量数据中得 出条理清晰的统计数据报表。利用预测分析技术,我们可以从已发生的事件中预测将来 有可能会发生的事件,利用融合技术可以从整体上对安全形势进行深入地分析。 紧接着,本文给出了一个详细的基于数据挖掘和融合技术的系统实现模型,系统的 主要框架包括以下几个部分:安全事件数据的收集、处理与入库、数据的分析与挖掘, 以及挖掘结果的可视化 最后,本文在数据挖掘技术的系统实现模型的基础上,给以总结,说明了数据挖掘 和信息融合技术在安全事件管理中的实用价值和前景。 关键词:数据挖掘;关联规则;数据融合;安全事件;统计;预测;代理;格式统一; 正则表达式 数据挖掘和融合技术在安全事件管理牛的研究 上海师范大学颈士学位论文 a b s t r a c t t o d a y ,n e t w o r ks e c u r i t yi s s u e sa r ee m e r g i n g ,i nt h ef a c eo ft h e s es e c u r i t y i s s u e s ,aw i d er a n g eo fs e c u r i t y p r o d u c t sh a v e b e e no n s u c ha si n t r u s i o n d e t e c t i o ns y s t e m , f i r e w a l l ,s e c u r i t ys c a n n i n ga n da n t i v i r u ss o f t w a r e t h e yw e r e f r o md i f f e r e n ta s p e c t so fs e c u r i t yt op r o t e c tt h en e t w o r ks y s t e m , a n dp l a ya n i m p o r t a n tr o l ei nn e t w o r ks e c u r i t y m e a n w h i i e ,t h e s es e c u r i t yp r o d u c t st h a t d e p l o y e d i n t h en e t w o r kw o u l d p r o d u c tm a s s i v es e c u r i t y i n c i d e n t s e v e r y d a y h o w e v e r 。h o wt oe x t r a c tv a l u e di n f o r m a t i o nf r o f l lt h em u l t i t u d eo fm a s s i v e s e c u r i t yi n c i d e n t s ? t h e r e f o r e , t h i sp a p e rr a i s e das o l u t i o nw h i c hb a s e do nt h e d a t am i n i n ga n di n f o r m a t i o na m a l g a m a t i o nt e c h n o l o g y f i r s t ,t h i sp a p e ri n t r o d u c e st h ec u r r e n ts t a t u st h a td o m e s t i ca n do v e r s e a s r e s e a r c hf i n d i n g sa b o u tm a n a g e m e n to ft h es e c u r i t y i n c i d e n t s ,a n dt h e np u t f o r w a r dt h ed a t am i n i n ga n di n f o r m a t i o na m a l g a m a t i o nt e c h n o l o g i e s ,t h e ng i v i n g d e t a i l e dd e p i c t i o na n ds p e c i f i ca l g o r i t h mo ft h o s et e c h n o l o g ya p p l i e di nt h e s e c u r i t y e v e n t l o gd a t a t h e s et e c h n o l o g i e si n c l u d e :a s s o c i a t i o nr u l e s , s t a t i s t i c s ,f o r e c a s ta n da n a l y s i s a s s o c i a t i o nr u l e sc a nf i n ds o m ec o r r e l a t i o n i n f ob e t w e e nt h e s ef i e l d s b yu s eo fs t a t i s t i ct e c h n i q u e so fd a t am i n i n gw ec a n d r a we x a c ta n dp l a i ns t a t i s t i c sr e p o r t i n gf r o mt h ec h a o t i ca n dm a s s i v ed a t a b y u s eo fp r e d i c t i v ea n a l y s i st e c h n i q u e s ,w ec a l lp r e d i c tt h ec o m i n gi n c i d e n t s s h o r t l ya f t e r ,t h ep a p e rp r e s e n t sad e t a i l e dm o d e l b a s e do nd a t am i n i n g t e c h n o l o g i e sa n da m a l g a m a t i o nt e c h n o l o g i e s t h i sf r a m e w o r ko fs e c u r i t yi n c i d e n t s m a i n l yi n c l u d et h ef o l l o w i n gp a r t s :d a t ac o l l e c t i o n ,p r o c e s s i n ga n ds t o r a g e ,d a t a a n a l y s i sa n dd a t am i n i n g ,v i s u a l i z a t i o no ft h ep r o c e s sr e s u l t f i n a l l y ,b a s e do nt h i sm o d e lm e n t i o n e da b o v e ,i nt h el a s to ft h i sp a p e r p r e s e n t e dt h a td a t am i n i n gt e c h n o l o g ya n di n f o r m a t i o na m a l g a m a t i o nt e c h n o l o g y s p r o s p e c t sa n dp r a c t i c a lv a l u ei ni n f o r m a t i o ns e c u r i t yi n c i d e n t sm a n a g e m e n t k e yw o r d s :d a t am i n i n g ,a s s o c i a t i o nr u l e s ,i n f o r m a t i o na m a l g a m a t i o n , s e c u r i t ye v e n t ,s t a t i s t i c ,f o r e c a s t ,a g e n t ,f o r m a tu n i f y ,r e g u l a re x p r e s s i o n 2 数据挖掘和融合技术在安全事件管理中的研究 上海师范大学硕士学位论文 第一章绪论 1 1 选题的背景和研究的意义 伴随着全球信息化技术的蓬勃发展,越来越多的企事业单位都实现了内部网络 ( i n t r a n e t ) 与外网( 比如,i n t e m e t ) 的互连互通。网络信息化如同一把双刃剑,在它带 给我们工作和生活便利的同时,也给我们带来了大量的网络安全问题。面对这些安全问 题,出现了各种各样的安全产品,如入侵检测系统、防火墙、防病毒软件等,它们分别从不 同的侧面保护着网络系统的安全,对网络安全起着重要作用。与此同时,部署在网络中的 各种安全产品,每天都会产生大量的安全事件,这些数据对于检测、分析、评估、监控、 预测和关联各种网络安全事件和威胁有着非常重要的价值;于是人们希望通过对这些数 据进行深层次的分析,从中发现有价值的信息。现有的数据库技术,可以高效的实现数 据的录入、查询、初步统计等功能,但无法发现数据中存在的关系和规则,无法根据现 有的数据预测未来的发展趋势,无法从海量的安全数据中发现潜在的安全威胁和攻击。 近年来,数据挖掘技术引起了信息产业界的极大关注。其主要原因是存在大量的可以 广泛使用的数据,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知 识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索 等。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅可以对过去的数据进行查 询和遍历,而且能够找出过去数据之间的潜在联系。由于对数据挖掘技术进行支持的几种 基础技术“】:海量数据搜集,强大的多处理器计算机,数据挖掘算法等,已经发展成熟, 数据挖掘技术在商业应用中已经投入使用 从而,一种基于数据挖掘和信息融合技术的安全事件管理便应运而生i ”。利用数据挖 掘和融合技术,我们可以弥补传统的基于审计技术的安全事件管理的不足;利用挖掘和 融合技术,可以更高效地从海量的安全事件数据中提取对用户有价值的信息,利用这些 信息我们可以更准确的预测、分析和评估网络中的各种安全事件和威胁。 1 2 国内外研究的概况 1 2 1 国外研究概况 利用已知的安全事件数据进行安全管理与审计分析的思想,最早是1 9 8 0 年a n d e r s o n 的论文中正式提出的,经历了2 0 多年的研究和发展,已形成了较为完备的理论和实际应 用系统。在国外,很多公司和研究人员对安全事件日志做了大量的研究工作,目前国外 研究开发的安全事件管理工具有很多,主要体现在对已知的数据进行统计分析和实时监 控以及安全集中管理方面,例如,n e t i q 公司的w e bt r e n d s 日志分析工具系列,主要对 5 鍪塑垫塑塑壁垒苎查垄塞全皇竺篁里箜翌窒 圭塑堡堕盔兰堕主兰丝堡苎 w e b 、防火墙产生的事件数据进行统计分析,并能给出详细的统计报表和图表:g f i 软件 公司开发的l a ng u a r ds e c u r i t ye v e n tl o gm o n i t o r 可完成基于所有w i n d o w s 操作系统 的安全事件臼志的入侵检测;n f r 安全公司的s l r ( s e c u r el o gr e p o s i t o r y ) 和i s s 公司 的s l m ( s e c u r el o gm a n a g e r ) 可将w i n d o w s 、u n i x 、l i n u x 等多种操作系统下的日志文 件进行统一存储和管理,n f r 、s l r 可以对这些日志进行查询、分析、排序、报告和告警, i s s 、s l m 提供日志管理,确保收集的系统日志数据的完整性和连续性。安全传送目标系 统日志到日志存储器,用作以后的分析或取证调查,它可查看、归档日志,并可将日志 导入o d b c 数据库来分析。另外,国外的许多公司开发的安全产品中也提供对所产生的安 全事件日志的审计,分析和管理功能。 1 2 2 国内研究概况 在国内,很多从事信息安全的公司开发的防火墙、入侵检测系统和反病毒等产品中都 提供了功能强大的安全事件日志管理功能,比如北京清华得实科技股份有限公司开发的 n e t s c 日志审计系统可以与他们资助研发的防火墙和入侵检测系统进行无缝集成,提供 了完善的日志审计功能。启明星辰公司“天明”网络安全审计系统,天融信公司的综合 安全审计系统t a ( t o p s e ca u d i t o r ) ,汉邦信息安全综合强审计系统,中软h u a t e c h 安全审计预警系统,上海交大开发了基于防火墙安全事件的网络安全审计系统。西安交 大捷普公司的j u m p 安全审计系统等。 1 2 3 小结 通过对国内外研究概况的介绍和分析,我们发现大多数产品都是通过对己存在的安全 事件日志进行分析和管理。他们中有很多优秀的研究成果和产品,但是在错综复杂的海 量数据面前,仅仅利用传统的审计技术去分析和管理已知的安全数据已力不从心。于是, 国内外的很多研究机构和公司都在积极地研究和开发基于数据挖掘技术的各种安全审计 管理产品。 1 3 论文研究的内容和思路 本论文在面对海量级别的安全事件数据,如何从中发掘出有价值的安全信息这一背景 下,提出了基于数据挖掘和信息融合技术的安全事件管理思想,并根据这一思想设计了 一个简单的分布式的安全事件管理系统。 系统实现的主要过程包括以下几个部分: 首先,收集部署在网络中的防火墙、入侵检测、反病毒等安全产品产生的安全事件, 安全事件的收集通过部署在系统中的a g e m 来完成。a g e n t 负责数据的预处理( 预处理的 目的是为了节省网络带宽资源) ,然后把初步处理后的数据传送给安全事件控制台。 其次,安全事件控制台把a g e n t 端传送来的数据进行二次处理并导入安全事件数据库 6 墼塑垫塑塑壁全垫垄垄塞全皇堡篁里! 竺里塞圭塑墅蔓查兰堡圭兰垡堡苎 中;这个过程主要包括:数据清理、基本分类、和数据融合等数据清理的目的是去除 与挖掘无关的数据或者无效的数据,比如去除含有多个n u l l 值的记录。基本分类是为了 明确挖掘对象,避免对已知信息的重复挖掘。数据融合是为了把各种彼此孤立的安全产 品产生的事件信息加以关联和组合,以便对整个网络情况、态势和威胁进行全面的评估。 信息安全技术发展到今天,已经不再局限于某一环节上了,已经发展成一个动态的、立 体的、全面的体系结构。 在安全事件管理中引入数据挖掘和融合技术进行安全审计和管理,能从整体上对安全 态势清醒深入的分析,得到更深一层的分析结果,摆脱目前仅能对安全事件实行简单孤 立地分析与管理的现状。 1 4 论文的内容组织结构 本论文共包括七章内容,组织结构如下: 第一章简要介绍了数据挖掘和信息融合技术在安全事件管理中的意义和价值,国内外 对安全事件管理的研究与应用现状,以及本论文的研究内容和思路。 第二章介绍了数据挖掘技术的概念、现状、任务和分类以及挖掘的原理与过程等;并 随后提出了信息融合的概念及其应用价值。 第三章对安全事件从概念、分类、和研究现状三个层面上做了详细的介绍。 第四章介绍了数据挖掘和信息融合在安全事件管理中的应用技术,主要包括:统计、 关联规则、预测、数据的融合与统一等方法,以及实现这些技术的主要算法与策略,尤 其是对关联规则算法的改进与应用。 第五章首先对基于数据挖掘和信息融合技术的安全事件管理系统的设计中所用到的 相关技术做了介绍,然后给出了此系统的详细的体系结构,紧接着具体分析了各个模块: 数据预处理、挖掘算法、结果可视化等模块的设计。 第六章展示了系统各功能的实验结果。 第七章对全文进行总结,并在此基础上提出进一步的研究目标。 7 数据挖掘和融合技术在安全事件管理中的研究上海j i f j 范大学硕士学位论文 第二章数据挖掘及融合技术介绍 2 1 数据挖掘技术介绍 本节主要介绍数据挖掘的相关知识,包括数据挖掘的定义、数据挖掘的研究现状和发 展趋势,以及数据挖掘的过程和数据挖掘技术的分类。 2 1 1 数据挖掘的兴起 近年来,以数据库和信息技术的发展为技术保障,以网络技术的迅速普及为发展通道, 以计算机硬件、数据收集设备和存储介质的大量供应为物质基础,人们的数据收集能力 得到了大幅的提高,社会各行业都存储了大量有关生产、管理和科研的各种信息,全球 范围内数据存储量正急剧增加。然而与此形成鲜明对比的是,人们对大规模数据的理解 能力并没有得到有效的提高,仅仅依靠传统的数据检索和统计分析等方法已远远不能满 足需要,以致出现了“数据丰富,但信息贫乏( d a t ar i c hb u ti n f o r m a t i o np o o r ) “” 的局面 为了从海量的数据存储中抽取模式、找出数据变化的规律和数据之问的相互关系,充 分发掘数据的潜力,以指导决策和科学发现等各项工作,人们对数据分析并使之转化为 易于理解的知识的需求越来越迫切。数据挖掘和知识发现( 叫l ( d d ) 技术迎合了人们的 需求,为自动和智能地把海量的数据转化为有用的信息知识提供了有力的手段,给数据 和知识之闻的鸿沟架设了方便之桥“。 k 叻一词是1 9 8 9 年8 月在第1 l 届国际联合人工智能学术会议上首次提出的。随着k d d 的 影响越来越大,国际k d d 组委会于1 9 9 5 年把专题讨论会更名为国际会议,并在加拿大蒙特 利尔市召开了第届k d d 国际学术会议。同年在美国计算机年会( a c m ) 上,提出了数据挖 掘( d m ) 的概念 数据挖掘作为一种可以从海量数据中自动、高效地提取有价值的信息和知识以有效地 支持决策的新技术,具有十分重要的理论及现实意义和广泛的应用前景。数据挖掘理论 的提出引起了许多领域研究者的兴趣,因此数据挖掘既是信息科学前沿课题,更是一个 融合了机器学习、模式识别、统计学、智能数据库、知识获取、专家系统等多个研究领 域的理论和实践问题。目前数据挖掘技术在商业、金融、农业等多方面得到初步应用, 取得了较好的效果。 2 1 2 数据挖掘的基本概念 数据挖掘( d a t am i n i n g ,简记d m ) ,又称为数据采掘,数据开采等。一般认为数据挖 掘是数据库中知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,简记k d d ) 的一个环节,是 k d d 中采用具体的数据挖掘算法从数据中自动高效地提取有用模式的最重要的步骤。然 8 数据挖掘和融合技术在安全事件管理中的研究上海师范大学硕士学位论文 而,在产业界、媒体和数据库研究界,“数据挖掘”比“数据库中知识发现”更流行, 由于d m 的广泛使用,我们也对d m 和k 叻不作严格区分,而认为是等价的概念,在这种意义 下它们的定义是致的。 从1 9 8 9 年到现在,数据挖掘的定义随着人们研究的不断深入也在不断完善,目前比较 公认的定义是f a y y a d 等给出的”:k d d ( d m ) 是从数据集中识别出有效的、新颖的、潜在 有用的并最终易于被人们理解的模式的非平凡处理过程。大规模数据集合是数据挖掘的 研究对象,被人们形象地描述为“知识的源泉”,它可以是结构化的,如关系数据库中 的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构 数据。数据挖掘技术是始于面向应用的,它是对特定的数据进行微观或宏观的统计、分 析、综合和推理,以指导实际问题的求解,企图发现事件问的相互关系,甚至利用己有 的数据对未来的活动进行预测。这样,它就把人们对数据的应用,从低层次的末端查询 操作提高到为各级经营决策者提供决策支持。需要指出的是,这里所说的知识是相对的, 它应是在特定的前提和约束条件下,面向特定领域、有实际应用价值的,同时还要易于 被用户理解,甚至可以用自然语言表达和描述。 2 1 3 数据挖掘的方法和过程 数据挖掘是多种学科理论和技术成果交叉、融合的产物,主要包括数据库技术、统计 学,机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信 号处理和空间数据分析等因此,数据挖掘的方法可以是数学的,也可以是非数学的, 可以是演绎的,也可以是归纳的。现有的数据挖掘方法主要有:决策树方法、神经网络 方法、模糊论方法、公式发现、关联等。 数据挖掘过程一般需要经历数据准备、数据挖掘、结果评价与知识表达三个主要步骤 ( 图2 1 3 ) ,这些环节在具体挖掘实施中可能需要重复进行,整体上呈现为一种螺旋式 上升过程。 9 数据挖掘和融合技术在安全事件管理中的研究 上海师范大学硕士学位论文 图2 1 3 l :确定业务对象 定义清晰的挖掘对象,认清数据挖掘的目标是数据挖掘的第一步。数据挖掘的最后 往往是不可预测的,但要探索的问题应是有预见性的、有目标的。为了数据挖掘而 挖掘数据具有盲目性,往往是不会成功的。 2 数据准备 1 ) 数据清理 用于数据挖掘的数据源往往不同程度地含有不完全不一致和噪声数据蜘,数据清 理就是通过填写空缺值、识别孤立点等方法消除噪声和纠正数据中的不致。 2 ) 数据集成 将多个与挖掘任务相关的数据源中的数据结合起来存放在一个一致的数据存储 中。信息产业赛的一个流行趋势是将数据清理和集成作为数据预处理步骤执行,结果存 放在数据仓库中 3 ) 数据选择 从经过预处理的数据源中确定与分析任务相关的数据,如在关系数据库中选择与 挖掘任务相关的属性或元组。 4 ) 数据变换 利用数据平滑、聚集、数据概化、规范化、属性构造等技术,将数据转换成适合 进行挖掘的形式。 数据清理与集成是数据准备阶段的核心,在这些步骤中所花费的时间或精力往往会比 其他步骤的总和还多。般而言,在数据准备阶段中可能花费整个数据挖掘过程5 0 5 9 0 9 6 的时间和精力慨 3 数据挖掘 1 0 数据挖掘和融合技术在安全事件管理中的研究上海师范大学硕士学位论文 本阶段是知识发现过程中的核心它是采用若干智能的方法去提取数据模式,其中主 要包括: 1 )决定如何产生假设,由数据挖掘系统为用户产生假设称为发现型数据挖掘,用户 自己对数据库中可能包含的知识提出假设称为验证型数据挖。 2 )选择合适的工具模块。 3 ) 发掘知识的操作。 4 )证实发现的知识。 4 结果评价和表示 挖掘得到的模式有可能是没有实际意义或没有实用价值的,也有可能不能准确反映数 据的真实意义,因此需要对数据挖掘所发现的模式进行修剪和评估,去除冗余的、用户 不感兴趣的模式,并将最终的挖掘结果转换成用户容易理解的形式或用各种可视化方法 加以显示( 如各种图表方式、图文方式、图形方式、自然语言方式等) 啪 2 1 4 数据挖掘技术分类 因为数据挖掘的研究融合了来自不同学科领域的技术和成果,从而数据挖掘技术和系 统表现出多种多样的形式。对数据挖橱技术迸行明确的分类,可以帮助潜在的用户区分 不同的种类,以便选择适合自己需求的系统从不同的视角出发,数据挖掘技术的分类 方法主要有:根据发现知识的种类划分;根据作对挖掘对象的数据库种类划分和根据采用 的技术划分。 目前普遍采用的标准是根据发现的知识类型( 或数据挖掘所产生的模式类型) 的分类, 主要有下列几种: 1 概念类描述:特征化和区分 数据可以与类或概念相关联。例如,电子市场里销售的商品类包括计算机和打印机。 用汇总的、简洁的、精确的方式描述每个类和概念很重要。这种概念或类的描述称为概 念类描述( c o n c e p t c l a s sd e s c r i p t i o n ) ,它可以通过以下方法得到: 1 )数据特征化( d a t ac h a r a c t e r i z a t i o n ) ,一般地汇总所研究类( 通常称为目标类 ( t a r g e tc l a s s ) ) 的数据。通常。用户指定类的数据可通过数据库查询来收集。 2 ) 数据区分( d a t ad i s c r i m i n a t i o n ) ,将目标类对象的一般特性与一个或多个对比 类对象的一般特性进行比较。一般地,目标类和对比类由用户指定,对应的数据通 过查询数据库来检索。 2 关联分析 关联分析( a s s o c i a t i o na n a l y s i s ) 的目的是发现关联规则,这些规则展示了属性一 值频繁地在给定数据集中一起出现的条件。 更直观地,关联规则是形如x y ,即“a 。 凡 b i a 八既”的规则,其中, a 。( i e 1 、m ”,b j ( j l 、n ) 是属性一值对。关联规则x y 解释为“满 足x 中条件的数据库元组多半也满足y 中条件”。关联规则反映一个事件和其它事件之间 依赖或关联的知识,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以 l l 数据挖掘和融合技术在安全事件管理中的研究上海师范大学硕士学位论文 依据其它属性值进行预侧。 利用s q l 语言实现较高效的挖掘算法,从关系数据库中挖掘多值、多维型关联规则是 本文的创新点。 3 分类和预测 分类在数据挖掘中是一项非常重要的任务,目前在商业上应用较多。分类的目的是学 会一个分类函数或分类模型( 也常称作分类器) ,该模型麓把数据库中的数据项映射到给 定类别中的某一个分类和回归都可用于预测。预测的目的是从历史数据记录中自动推 导出给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的 输出是离散的类别值,而回归的输出则是连续数值。要构造分类器,需要有一个训练样 本数据集作为输入训练集由一组数据库记录或元组构成,每个元组是一个由有关字段 ( 属性或特征值) 组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的 形式可为:( v l 、v 2 、v 。:c ) ;其中v ;表示字段值,c 表示类别。 4 聚类 聚类与分类和预测不同,在分类和预测中,对于目标数据库中存在哪些类这一信息我 们是知道的,在那里我们要做的就是将每一条记录分别属于哪一类标记出来:然而,聚 类是在预先不知道目标数据库包含多少类的情况下,力求将所有的纪录归并不周的类。 通常,对数据进行聚类或分组要根据最大化类内相似性,最小化类间相似性的原则 进行。 5 孤立点分析 数据库可能包含这样一些数据对象,它们与数据的一般行为或模型不一致,通常被称 为孤立点( o u t l i e r ) 大部分数据挖掘的方法是将孤立点视为噪声或异常而简单丢弃然 而,在一些应用中( 如欺骗检测) ,罕见的事件可能比正常出现的那些更有价值。 6 演变分析 数据演变分析( e v o l u t i o na n a l y s i s ) 是描述行为随时问变化的对象的规律或趋势,并 对其建模。这种分析除包括时间相关数据的特征化、区分、关联、分类或聚类,还包括 时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。 2 1 5 数据挖掘的发展趋势 当前,数据挖掘研究正方兴未艾,随着需求的不断扩大和研究的深入,今后势必还会 形成更大的高潮。而以下几方面问题可能会成为研究的焦点: 1 )专门用于知识发现的数据挖掘语言的研究,也许会象s o l 语言一样走向形式化和 标准化。目前己提出的d m ql f 语言朗是着眼于上述思想研究开发的。 2 )数据挖掘过程可视化方法的研究,一方面使知识发现的过程能够或者易于用户理 解,另一方面也能提高知识发现过程中的人机交互水平。 3 )网络环境下的数据挖掘方法的研究,一方面可以借助网络研究分布式数据挖掘算 法,以提高挖掘效率;另一方面可以在网络上建立数据挖掘服务器,与数据库服务器配合, 实现数据挖掘。 1 2 数据挖掘和融合技术在安全事件管理中的研究上海师范大学硕士学位论文 4 )对各种半结构化甚至是非结构化数据源进行挖掘的深入研究,如文本数据、图形 图像数据、多媒体数据等。 目前有很多通用的数据挖掘系统趋向于提供适用于各种商业应用的横向解决方案 ( h o r i z o n t a ls o l u t i o n ) ,而不是针对某个特定的应用的解决方案。对某个特定领域的一 些数据或应用可能需要特定的算法来查找,而通用的数据挖掘系统对这些特定领域的数 据有其固有的局限性,有可能不能满足要求。因此,研制基于某个特定领域的数据挖掘 工具将显得尤为重要。专用的数据挖掘系统能够提供纵向解决方案( v e r t i c a l s o l u t i o n ) ,把特殊领域的业务逻辑和数据挖掘系统集成起来,将数据分析技术与特定领 域知识结合以完成特定的任务现在数据挖掘的应用领域多集中于生物医学,d n a 分析, 金融,零售业和电信部门等。 2 2 数据融合技术介绍 2 2 1 融合技术相关概念 “信息融合”一词出现在2 0 世纪7 0 年代初期并于8 0 年代发展成为- r 专门技术m 1 。信 息融合比较确切的定义可概括为:充分利用不同时间与空间的多传感器信息资源,利用 计算机技术对按时序获得的多传感器观测信息在一定准则下加以自动分析、综合、支配 和使用,获得对被测对象的一致性解释与描述,以完成所需的决策和估计任务,使系统 获得比它的各组成部分更优越的性能。 1 信息融合的基本元素 近几年信息融合逐渐被引入信息安全领域“4 。信怠融合研究的关键问题就是提出一种 理论和方法对具有相似或不同特征的多源信息进行处理,以获得融合信息。信息融合系 统的四个基本元素如下图所示:一是信息元素( 含传感器元素) 它向系统提供原始的信 息;二是信息转换,传递、交换元素,完成信息的预处理、特征提取;三是信息互补、 综合处理元素,完成信息的升华识别分析;四是信息融合处理报告元素,即输出融合处 理结果。 信息 信息 信息 i 转换、互补、融合 , f p 传递、 一 融合处理 交换 处理报告 信息流:信息获取信息顼处理信息融合融合决策 图2 - 2 - l 2 一信息融合的功能模型 根据信息融合的功能,信息融合可分为5 个层次“”,分别为: 数据挖掘和磁合技术在安全事件管理中的研究上海师范大学硕士学位论文 ( 1 ) 检测判决融合,利用多个传感器检测目标,判断其是否存在。 ( 2 ) 位置融合,主要是对目标进行跟踪得到全方位的信息,然后把信息送到融合节点, 完成数据格式的统一;然后进行关联处理,最后对来自同一目标的信息进行融合。 ( 3 ) 属性融合,属性融合的目的是确定目标的身份,即类型识别。 ( 4 ) 态势评估,包括态势的提取和评估说明并表示所处周围环境的形势状态,是一个 动态的,按时序处理的过程,其结果水平将会随着时间的增长而提高。 ( 5 ) 威胁度估计判定对方的威胁能力,对危险度进行估计。 2 2 2 数据融合的方法 我们目前所研究的信息融合是一种多源的信息融合,主要是指利用计算机进行多传感 信息处理从而得到可综合利用信息的理论和方法。最早应用于军事当中的信息融合技术 主要是针对于电磁波、声音、红外射线、噪声等信号源的处理。而在计算机网络中,网 络传感器观测的是网络信息流及各种日志信息,网络安全中的信息融合研究的是恶意入 侵者或犯罪分子的身分识别、攻击目标、攻击率以及网络安全态势的估计等。 信息源预处理信息融合 l 防火墙 i 安 全 事 然i 1 i d s i。 件 il 7 数 i 系统日志 据 库 信息关联 目标识别 l 其它信息 图2 2 2 l 安全事件信息处理过程 如上图所示。在传统的审计系统中引入信息融合技术,可以得到更为全面的分析结果, 可以使管理员非常方便地分析出当前及未来一段时间内网络安全所存在的安全隐患和发 展趋势,以便及时采取措施。其信息处理过程为“”: 1 ) 从各种信息源中采集信息,信息输入安全事件数据库进行预处理。去除无用 信息,统一数据格式。按照一定规则存储以便进行统一的数据调用。 2 ) 各种信息经过预处理后,对其进行简单的关联分析识别出各种信息来源,以 及攻击者的身份,得出日志分析报告。这种报告一般是针对不同信息源得出 的单一的日志分析报告。 3 ) 对各个信息源的数据进行融合分析,分析当前一段时间内各个系统的工作状 况整个网络系统的安全状况,对网络系统的安全状况进行整体评估。 4 ) 对数据进行更进一步的融合,从整体上分析出安全威胁的真正所在,并对其 1 4 数据挖掘和融合技术在安全事件管理中的研究 上海师范大学硕士学位论文 发展趋势进行估计为管理员提供方便直观的系统安全信息。 总之基于信息融合技术的安全管理和审计就是对各种安全产品的日志信息进行收集、 处理,提供统一的统计分析平台,实现全面、完整的审计分析,使用户全面了解网络和 应用的安全状况及风险评估。 2 关键技术 1 ) 数据格式兼容 一般情况下,不同厂商的设备或系统所产生的日志格式互不兼容,这为网络安全事件 的集中分析带来了巨大难度。可以将日志按不同来源分别统一日志格式。例如:将i d s 日志格式定义为入侵检测消息交换格式( i d m e f ) 。 2 ) 数据管理 日志数据量非常大,并且不断地增长,因此需要一套完整的备份、恢复、处理机制。 因此,对于日志的存储系统采用的是分布集中式相结合的方法。在每个代理上都进行本 地缓存,然后根据管理中心的设置在网络空闲时将日志发送给汇总数据库进行预处理。 3 ) 数据的集中分析 如何将多个安全设备的日志关联起来,发现攻击的行为,进一步分析出系统的安全态 势,是安全事件管理系统面l 临的重要问题。目前市场上的安全审计管理产品都没有真正 地分析出网络系统的安全状态和安全趋势,因此采用信息融合技术来进行这方面的研究 有一定的实用价值“目 总之,就目前市场上的产品而言,对数据的分析大多停留在表面上,仅仅能对单个安全 设备进行简单的信息统计。如果将信息融合技术引入到安全事件管理审计中,就能从整 体上对安全形势进行深入地分析,得到更深一层的分析结果。 2 2 3 小结 针对当前的安全审计产品所存在的对数据分析不够全面、深入的缺点,本文提出采用 信息融合技术对数据进行融合处理,以得到全面的安全态势和威胁估计这减少了人为 的判断和经验参与,能更好地帮助系统管理员及时采取相应措施,提高系统的安全性能。 但将信息融合技术用于安全领域还处于初级研究阶段,将其产品化也需要一定的过程。 因此还需要在这方面做出更进一步的理论研究和工程实验 数据挖掘和融合技术在安全事件管理中的研究 上海师范大学硕士学位论文 第三章安全事件概述 本章介绍了什么是安全事件,从安全审计与管理的角度看安全事件有哪些特点。全面 削析了各类常见安全产品事件,比如:防火墙事件、入侵检测系统事件、反病毒事件等。 3 1 安全事件的概念及特点 3 1 1 安全事件的概念 为了维护自身系统资源的运行状况,计算机系统一般都会有相应的事件日志,记录系 统日常事件或者误操作警报的事件信息。这些事件信息对于安全审计与管理非常有用。 所谓日志( l o g ) 是指系统所指定对象的某些操作和其操作结果按时间有序的集合。每 个日志文件由事件记录组成,每条事件记录描述了一次单独的系统事件。通常情况下, 系统日志是用户可以直接阅读的文本文件,其中包含了一个时间戳和一个消息或者子系 统所特有的其他信息。日志文件为各种操作系统、服务器、防火墙、入侵检测系统、漏 洞扫描系统、反病毒等安全产品和一些应用软件记录必要的、有价值的信息,这对系统 监控、查询、报表、安全审计和管理是十分重要的。日志文件中记录的各种事件可提供 以下用途:监控系统资源,为打击计算机犯罪提供证据来源;对可疑行为进行告警,确定 入侵行为的范围;为恢复系统提供帮助,生成调查报告,审计用户行为等。 3 1 2 安全事件的特点 安全事件记录系统中特定事件的相关活动信息,从安全审计和管理角度看,安全事件 主要有以下特点: 1 不容易读懂 虽然大部分的安全事件都以文本的形式记录,但由于各种安全产品所产生的事件日志 格式不一致,不熟悉各类日志格式就很难获取有用的信息。 2 数据量大 部署在中大型网络中的安全产品,比如:反病毒、防火墙、入侵检测系统他们时刻都 在产生大量的安全事件数据,一个安全产品一天产生的事件日志容量少则几十兆、几百 兆,多则有几个g 、几十g ,这使得获取和分析安全事件信息变得很困难。 3 。不易获取 由于网络中不同的安全产品、操作系统、应用软件、网络设备和服务产生不同的事件 文件,即使相同的服务器如i i s 也可采用不同格式的日志文件记录事件信息。目前国际上 还没有形成标准的日志格式,各系统开发商和网络安全设备生产商往往根据各自的需要 制定自己的安全事件格式,使得不同生产商和不同产品所产生的事件记录格式和存储方 式有所差别。如何获取不同厂商和产品产生的安全事件文件作为安全审计和管理的数据 1 6 数据挖掘和融合技术在安全事件管理中的研究上海师范大学硕士学位论文 来源变得尤为困难。 4 不同事件之间存在某种必然的联系 一个安全产品的事件数据是对本产品所涉及的运行状况信息按时问顺序进行简单的 记录,这些记录仅反映与本产品相关的某些特定事件的操作情况,而不能完全反映某一 事件的整个活动情况。比如:一个非法用户在网络活动的过程中会在很多的系统安全事 件日志中留下痕迹,如防火墙日志、i d s 日志、操作系统日志等,这些不同的安全事件之 间存在某种必然的联系来反映该用户的活动情况。因此,如果将多个系统的事件数据关 联融合起来分析,才能更准确地反映用户的活动情况。 3 2 计算机常见安全事件 3 2 1i d s 安全事件 目前国内市场比较流行的入侵检测既有国内安全厂商的产品也有国外厂商的产品,国 内产品有上海金诺k i d s 入侵检测系统、复旦光华s - a u d i t 入侵检测与审计系统、中联绿盟 “冰之眼”入侵检测系统、福建海峡“黑盾”入侵检测系统、中科网威“天眼”网络侦 测系统、西安交大捷普( j u m p ) 网络入侵检测系统、海信“眼镜蛇”入侵检测系统、东 软n e t e y e 入侵检测系统等;国外产品有安氏( i ss ) r e a l s e c u r e 、美国网络联盟n a i 的 c y b e r c o p s ,c a 的e t r u s t 入侵检测系统、赛门铁克的n e t p r o w l e r 入侵检测系统等。由于不 能全部获取这些入侵检测系统进行测试,这里简单介绍几款入侵检测系统的日志记录。 1 光华s a u d i t 入侵检测与审计系统 上海复旦光华信息科技股份有限公司研制的s - a u d i t 入侵检测与安全审计系统的日志 主要记录发生时间、事件类型、目的i p 地址、目的端口、源i p 地址、源端口、事件内容 等信息。 2 东软n e t e y e 入侵检测系统 东软n e t e y e 入侵检测系统对事件的响应主要记录信息有:序列号、事件名称、源i p , 源端口、目标i p 、目标端口、次数、开始时间、结束时间、协议、数据大小和事件信息 等 3 金诺网安入侵检测系统k i d s 金诺网安入侵检测系统k i d s 是上海金诺网络安全技术发展股份有限公司开发的产品, 它提供强劲分析功能的事件分析器,可查看分析所有相关的具体信息,分别以事件、事 件类型、源地址或目标地址为条件对报警事件进行归并和统计,提供的事件基本信息包 括源端口、源地址、目标端口、目标地址、报警时间、报警次数和产生该事件的传感器d 等信息提供事件详细信息包括事件的详细描 述、受影响平台、解决方案及参考资源等内容。 4 i s sr e a l s e c u r e i s sr e a l s e c u r e 是安氏公司的入侵检测系统,它的日志记录包括s e n s o r , e v e n t ,s o u r c ei p a d d r e s s ,d e s t i n a t i o ni p a d d r e s s ,s o u r c ee t h e r n e ta d d r e s s , 1 7 鍪塑丝塑塑壁鱼垫垄垄室全! 竺堂里! 塑堡壅 圭塑堕翌奎兰堡主兰堡堡兰 d e s t i n a t i o n ,e t h e r n e ta d d r e s s ,s o u r c ep o r t ,s o u r c ep o r tn a m e ,d e s t i n a t i o np o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论