已阅读5页,还剩56页未读, 继续免费阅读
(计算机软件与理论专业论文)基于信息过滤的网络安全审计系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着互联网的普及,信息安全问题越来越受到人们的关注,尤其是可信网络内部的 安全问题。因此,安全审计系统应运而生。本文将信息过滤技术应用到安全审计的内容 审计中,对于完善安全审计系统具有很高的理论指导作用。 本文首先通过对当前成熟的安全审计系统的功能进行分析,总结出当前安全审计系 统缺乏对信息内容进行审计的不足,提出了一个基于信息过滤的安全审计的解决方案。 在方案中采用基于k 最近邻法的变形方法对网络中传输的数据内容进行审计,扩展了安 全审计的审计范围,提高了安全审计的准确率。 其次,通过对a g e n t 技术、网络数据捕获技术以及信息过滤中的中文分词技术、特 征提取技术和文本分类技术的研究,并针对目前安全审计系统存在的问题,结合本课题 的实际应用场合,设计了一个基于信息过滤的分布式网络安全审计系统。 最后,根据系统设计,实现了系统中的行为审计a g e n t 主程序及数据捕获模块,实 现了内容审计a g e n t 组件。并且,在实际的环境中对安全审计系统进行测试,对测试结 果进行分析,以实际的运行结果对本文所提出的解决方案的可行性加以验证。 关键词:网络安全,安全审计,a g e n t ,信息过滤 a b s t r a c t w i t hp o p u l a r i t yo ft h ei n t e r n e t ,p e o p l ep a y sm o r ea n dm o r ea t t e n t i o nt ot h ei n f o r m a t i o n s a f e t yi s s u e ,e s p e c i a l l y t h es a f e t yc o n c e r nf o r t h et r u s t e di n t e m a ln e t w o r k s t h e r e f o r , s e c u r i t y a u d i tp r o d u c t sa p p e a r e d i nt h i sp a p e r , t h ei n f o r m a t i o nf i l t e r i n gt e c h n o l o g yi sa p p l i e di n c o n t e n ta u d i t i n g ,w h i c hw i l lp l a yav e r yi m p o r t a n tr o l eo nc o n s u m m a t i n gt h e o r e t i c a ld i r e c t i o n o ft h es a f e t ya u d i ts y s t e m i nt h i sp a p e r ,a n a l y s i so nt h ec u r r e n tm a t u r es e c u r i t ya u d i ts y s t e mf u n c t i o ns h o w e dt h a t t h ec u r r e n ts e c u r i t ya u d i ts y s t e mc a nn o ta u d i ta l lt h ei n f o r m a t i o n ,s ow ep r o v i d es o l u t i o n s b a s e do ni n f o r m a t i o nf i l t e r i n gs e c u r i t ya u d i t i nt h i ss o l u t i o n ,b a s e do nt h ek - n e a r e s tn e i g h b o r t r a n s f o r m a t i v em e t h o d ,t h ei n t e m e tt r a n s f e r r e dd a t aw i l lb ea u d i t e d ,t h es a m et i m e ,t h e a u d i t i n ga r e ai se x t e n d e d ,a n dt h es a f e t ya u d i t i n ga c c u r a c y r a t ei si m p r o v e d s e c o n d l y ,w er e s e a r c ht h ea g e n tt e c h n o l o g y ;n e t w o r kd a t ac a p t u r et e c h n o l o g y , a n d c h i n e s ew o r ds e g m e n t a t i o nt e c h n i q u e ,f e a t u r ee x t r a c t i o nt e c h n o l o g ya n dt e x tc l a s s i f i c a t i o n t e c h n o l o g yo fi n f o r m a t i o nf i l t e r i n g a n dw ed e s i g nas e c u r i t ya u d i ts y s t e mo f d i s t r i b u t e d n e t w o r kb a s e do ni n f o r m a t i o nf i l t e r i n g f i n a l l y ,i na c c o r d a n c ew i t hs y s t e md e s i g n ,w er e a l i z et h eb e h a v i o ra u d i ti nt h ea g e n t m a i np r o g r a ma n dd a t ac a p t u r em o d u l ei nt h es y s t e m w er e a l i z et h ea g e n tc o m p o n e n to f c o n t e n ta u d i t i na d d i t i o n ,w et e s tt h es e c u r i t ya u d i ts y s t e mi nt h ea c t u a le n v i r o n m e n ta n d a n a l y s i st h et e s tr e s u l t a n dw e t e s tt h ef e a s i b i l i t yo ft h ep r o p o s e ds o l u t i o n so ft h et e x tw i t h t h ep r a c t i c a lo p e r a t i o nr e s u l t k e y w o r d s :n e t w o r ks e c u r i t y , s e c u r i t ya u d i t ,a g e n t ,i n f o r m a t i o nf i l t e r i i 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许 论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论 文收录到中国学位论文全文数据库或其它相关数据库。 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外, 本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西 北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 = 出 思。 学位论文作者签名:否杉缝玄 卅年多月7 日 西北人学硕十学位论文 1 1 研究的背景与意义 第一章引言 计算机与通信技术相结合推动了计算机网络的快速发展。截至2 0 0 8 年6 月底,我 国网民数量达2 5 3 亿,首次大幅超过美国跃居世界第一【1 1 。计算机网络的普及为我们的 工作和生活带来了根本性变化,如今,人们不仅可以通过互联网来浏览新闻、获取资料、 进行通讯、存储信息;足不出户就可以进行网络购物、股票交易、利用网上银行进行转 账;而且电子政务的推广也使得政府部门和企业的网上办公成为可能。不可否认,计算 机网络已经渗透到了社会生活包括教育、文化、经济、政治、军事等各个方面。可以说, 今日的互联网已经成为了人们工作和生活中必不可少的一部分。 网络信息共享的日益广泛和深入给我们的工作和生活带来了极大便利,但是,由于 互联网的开放性以及网络立法的严重滞后,网络信息的安全性受到了很大挑战,网上欺 诈、勒索、盗窃、窃取和泄露企业及国家机密等犯罪情况屡屡发生。经统计资料显示, 金融领域网络犯罪案件的发案率占整个计算机犯罪比例的6 1 【2 】,而计算机网络泄密案 件也占到了总泄密案件的三分之一【3 1 ,这对经济安全和国家安全造成了严重威胁。因此, 保证网络信息安全成为了目前亟待解决的重大问题。 由于信息安全威胁的8 0 来自于系统内部【4 】,而防火墙、入侵检测等传统技术主要 针对于信息系统外部攻击行为的防御和检测,这使得它们很难全面地保护信息系统的安 全。 安全审计是对系统记录和过程的检查和审查,审计系统可以通过记录可疑数据、入 侵信息、敏感信息等,对网络进行动态实时监控;通过寻找入侵和违规行为,记录网络 上发生的一切,作为取证和跟踪使用。也就是说,安全审计系统不但能够监视和控制来 自于信息系统外部的入侵,还能够监视来自于内部人员的违规和破坏行动,能够事前控制 人员或设备的访问行为,并能事后获得直接的电子证据,防止行为抵赖( 5 1 。这对于那些 要求信息的保密性极高、防止内部人员泄密的机构诸如银行、证券、军工企业、研究所 和国家政府部门等显得尤为重要。因此,对于网络安全审计系统的研制对于企事业单位 的经济安全乃至国家的国防安全都十分重要。 第一章一j i 言 1 2 国内外发展现状 安全审计技术目前还是一个新生事物,国内外对于网络安全审计领域的研究才刚刚 起步,市场上的安全审计产品也还比较少。 在上世纪8 0 年代,美国的j a m e sp a n d e r s o n 公司在一份名为( ( c o m p u t e rs e c u r i t y t h r e a tm o n i t o r i n ga n ds u r v e i l l a n c e ) ) 的报告中最早提出了“安全审计跟踪【6 】,的概念,但 是直到1 9 9 5 年,才发布了第一个具有实用性的网络安全漏洞审计软件“s a t a n 7 】”。近 年来,国外出现了一些优秀的安全审计产品,但是国外专注于网络安全审计的公司,大 都基于国际上的标准化应用,而由于网络安全审计的特殊性,要求安全厂商必须对本地 应用进行支持,例如对i m ( i n s t a n tm e s s a g i n g ) 软件的限制,国外的安全审计系统关注 的是i c q 、m s n 、雅虎m e s s e n g e r 、s k y p e 等,而国内的用户关注的是腾讯q q 、网易泡 泡、淘宝旺旺等,因此,国外的安全审计系统并不适用于国内的实际情况。 国内,汉邦软科集团在2 0 0 0 年研制出了“信息安全综合强审计监控系纠8 】。这个 系统是一个基于信息流的数据采集、分析、识别和目标行为分析软件,其采用分布式结 构、模块化的设计思想,整个系统由审计中心、主机传感器、网络引擎三部分组成。其 主要功能有:违规内外联监管、网络行为审计、移动存储介质管理、主机授权管理、数 据库操作审计、智能报表系统等等。 2 0 0 2 年8 月,启明星辰信息技术有限公司研制出了“天弱网络安全审计系统【9 】,。 天碉在设计上采用审计中心、数据管理中心和网络探测引擎三级结构,它可以对网络数 据流进行采集、分析和识别,实时监视网络系统的运行状态,记录网络事件、发现安全 隐患,并对网络活动的相关信息进行存储、分析和审计回放。“天珥网络安全审计系统 的亮点在于可以对内容进行审计,其审计方法是采用关键词匹配方法。 2 0 0 3 年6 月,天融信公司宣布推出全新的综合安全审计系统t a t l 0 1 ( t o p s e c a u d i t o r ) ,它可以对安全产品( 如防火墙、i d s 、a v 等) 、网络产品( 如r o u t e r 、s w i t c h ) 、 应用系统( 如w e b 、m a i l ) 、操作系统( 如w i n d o w s 、l i n u x 、u n i x ) 等多种产品和系统 的同志信息进行收集,提供统一的集中管理平台,实现网络和系统的审计分析。 除了以上几种产品,还有如复旦光华、西安交大捷普、中科网新等也推出了各自研 制的安全审计系统,其功能与前几种产品基本类似。 以上这些安全审计系统都是目前成熟的产品,功能上对于各种常用的网络应用都具 有很好的审计效果。但是,目前这些系统中绝大多数都只是针对网络应用的行为进行审 2 两北人学硕十学位论文 计,即对各种网络活动进行记录与分析,而忽略了对网络活动中所涉及的信息内容进行 审计。因此,目前成熟的安全审计产品基本上都存在缺乏内容审计的缺陷。 另一方面,国内对于内容审计方法的学术研究也取得了很大的成果。主流的方法是 利用字符串模式匹配的方法解决内容审计的信息过滤问题,其代表方法是b m 算法或其 改进形式。这种采用字符串匹配的方法仅仅是对关键词进行比对。该方法虽然能够很好 的过滤出含有关键词的内容,但是,过滤出的内容不一定是满足用户需求的内容。例如, 一篇讲述医学研究的文章中出现了个词“计算机 ,而用户想过滤与计算机相关的内 容,根据关键词匹配方法,用户会过滤出该篇文章,但是,该文章的主题内容却不是有 关计算机方面的内容。因此,关键词匹配方法的正确率并不理想。针对字符串匹配方法 的不足,另一种采用信息过滤技术来设计内容审计方法的研究方向也开始起步。 本文针对目前成熟的安全审计产品在内容审计方面的不足,提出了一个基于信息过 滤的安全审计的解决方案。 1 3 本论文主要的研究内容 本论文主要的研究内容包括: 1 、分析和总结了当前信息安全的主要威胁和常用的技术; 2 、根据对当前国内外成熟的安全审计产品的功能的分析,总结出目前的安全审计 系统在信息安全保护方面存在的不足,提出了自己的解决方案; 3 、对信息过滤中的中文分词技术、特征提取技术、文本表示模型以及文本分类方 法等进行详细的研究和分析,总结出最适合本文所设计的安全审计系统的方法, 并根据本课题的实际情况对所选取的文本分类的方法进行修改; 4 、根据本文提出的解决方案,设计了一个基于信息过滤的分布式安全审计系统; 5 、根据系统的设计,实现了安全审计系统中的行为审计a g e n t 主程序、数据采集 模块以及内容审计a g e n t 子系统; 6 、通过在实际的环境中运行测试,对本文提出的解决方案的可行性进行了验证, 并且对实验结果进行了分析。 1 4 本论文的组织结构 本文主要包括六个章节的内容。 3 第一章r j f 言 第一章主要介绍了本课题的研究背景、意义、国内外发展现状和研究内容。 第二章主要介绍了安全审计的一些基础知识并提出了设计目标。 第三章对信息过滤技术进行了研究。包括信息过滤模型以及常用的信息过滤算法 等。 第四章详细介绍了本课题中的安全审计系统的设计。包括系统结构设计、功能设计、 数据通信协议设计、数据库设计等内容。 第五章详细介绍了本课题中系统的关键组件的实现。包括行为审计a g e n t 组件和内 容审计a g e n t 组件。 第六章对本文所设计的系统进行测试,并对实验结果进行了分析。 第七章对所作的工作进行了总结,概括了系统的特点与不足,并展望了进一步的研 究工作。 4 两北大学硕l 学位论文 2 1 信息安全 第二章网络安全审计系统的研究 2 1 1 信息安全定义与特点 一直以来,对于信息安全有很多种不同的称谓和定义,而人们从不同角度对于信息 安全的理解也各不相同。 1 9 9 4 年,国务院颁布了我国第一部针对计算机信息系统安全保护的专门法规 中华人民共和国计算机系统安全保护条例,条例中指出:信息安全是指“保障计算 机及其相关和配套设备、设施( 含网络) 的安全以及运行环境的安全,保障信息的安全, 保障计算机功能的正常发挥,以维护计算机信息系统的安全运行【1 1 】。 从以上的内容可以看出,信息安全应该是指整个计算机信息系统包括硬件、软件、 数据均要受到保护,不应该因任何原因( 包括偶然因素和人为故意) 而遭到破坏、丢失、 更改、泄露,保证整个系统能够连续可靠正常地运行。 信息安全不仅包括信息系统的设施、环境安全,也包括信息系统中数据及数据的传 输安全,因此,信息安全应具有以下特征【1 2 】: l 、保密性 保密性是指信息不被泄露给非授权的用户、实体或过程,或供其利用的特性,即防 止信息泄漏给非授权个人或实体,信息只为授权用户使用的特性。 2 、完整性 完整性是指信息未经授权不能进行改变的特性,即信息在存储或传输过程中保持不 被偶然或蓄意地删除、修改、伪造、乱序、重放、插入等破坏和丢失的特性。完整性是 一种面向信息的安全性,它要求保持信息的原样,即信息的正确生成、正确存储和传输。 3 、真实性 真实性也称作不可否认性。在信息系统的信息交互过程中,确信参与者的真实同一 性,即所有参与者都不可能否认或抵赖曾经完成的操作和承诺。利用信息源证据可以防 止发信方不真实地否认己发送信息,利用递交接收证据可以防止收信方事后否认已经接 收到信息。 4 、可用性 5 第二章网络安伞审计系统的研究 可用性是指信息可被授权实体访问并按需求使用的特性,即信息服务在需要时,允 许授权用户或实体使用的特性,或者是信息系统( 包括网络) 部分受损或需要降级使用 时,仍能为授权用户提供有效服务的特性。 5 、可控性 可控性是对信息的传播及内容具有控制能力的特性,即指授权机构可以随时控制信 息的机密性。 从信息安全的特点可以看出,一个安全的信息系统应该具有以下功能: 1 ) 、对信息的来源进行判断,能对伪造来源的信息予以鉴别。 2 ) 、保证机密信息不被窃听,或窃听者不能了解信息的真实含义。 3 ) 、保证数据的一致性,防止数据被非法用户篡改。 4 ) 、保证合法用户对信息和资源的使用不会被不正当地拒绝。 5 ) 、建立有效的机制,防止用户否认其行为。 6 ) 、对信息的传播及内容具有控制能力。 7 ) 、对出现的网络安全问题能够提供调查的依据和手段。 2 1 2 信息安全威胁 威胁信息安全的因素有很多,除去自然灾害和物理因素之外,还包括以下几个方面 【1 3 】: 1 、人为差错和设计缺陷 据统计,造成信息系统在经费和生产力方面损失的5 0 是由于人为的差错。这些人 为差错包括不适当地安装和管理设备、软件,不小心地删除文件,升级错误的文件,将 不正确的信息放入文件,忽视口令更换或做硬盘后备等行为,从而引起信息的丢失、系 统的中断等事故。 2 、内部人员 很多信息保护设施的侵犯是由一些试图进行非授权行动或越权行动的可信人员执 行的。其动机有些是出于好奇,有些是恶意的,有些则是为了获利。内部人员的入侵行 为包括复制、窃取或破坏信息,然而这些行为又难以检测。这些个体持有许可或其他的 授权,或者通过那些毋需专门授权的行为使网络运行失效或侵犯保护设施。根据统计, 内部人员的侵犯占所有严重安全侵犯事件的7 0 8 0 。 3 、黑客和其他入侵者 6 西北大学硕i j 学位论文 非授权的黑客往往为了获得钱财、产业秘密或纯粹是破坏系统等原因入侵攻击,造 成破坏。 4 、病毒和其他恶意软件 病毒、蠕虫、特洛伊木马以及其他恶意软件通过磁盘、预包装的软件、电子邮件和 连接到其他网络进入信息系统内部。 从以上威胁到信息安全的因素可以看出,虽然大部分的安全问题是从内部产生的, 但仅从制定严格的制度、加强管理、以及提高人员的素质方面是无法保证信息系统安全 的,我们还需要依靠技术手段去解决。 2 1 3 信息安全主要技术 在众多的安全措施中,信息安全技术具有较高的可操作性和实用性,它们往往可以 直接嵌入到信息的存储、处理和传输过程中。目前主要的网络信息安全技术有:防火墙 技术、身份认证技术、入侵检测技术、数据加密技术和安全审计技术等1 4 】。 1 、防火墙技术 防火墙是位于可以信赖的内部网络和不可信赖的外部网络之间的屏障,是一种允许 接入外部网络,但同时又能够识别和抵抗非授权访问的网络安全技术。防火墙按照系统 管理员预先定义好的安全策略和规则隔离内部和外部网络,以阻挡外部网络的侵入。 2 、身份认证技术 身份认证是计算机网络系统的用户在进入系统或访问不同保护级别的系统资源时, 系统确认该用户的身份是否真实、合法和唯一的过程。其作用是防止非法人员进入系统, 通过违法操作获取不正当利益、访问受控信息、恶意破坏系统数据完整性的情况发生。 身份认证技术主要包括数字签名、身份验证和数字证明。 3 、入侵检测 入侵检测是对入侵行为的检测,是一种试图通过观察行为、安全日志来检查网络或 系统中是否存在违反安全策略的行为和被攻击的迹象。入侵检测是一种积极主动地安全 防护技术,提供了对内部攻击、外部攻击和误操作的实时保护,在网络系统受到危害之 前拦截和响应入侵。 4 、数据加密技术 数据加密技术是通过对信息的重新组合,使得只有通信双方才能解码还原信息,是 保障信息安全的最基本的技术措施。数据加密过程由形形色色的加密算法来具体实施, 7 第二章网络安伞审计系统的研究 它以很小的代价提供很大的安全保护。 5 、安全审计技术 安全审计是采用数据挖掘和数据仓库技术,实现在不同网络环境中终端对终端的监 控和管理,在必要时通过多种途径向管理员发出警告或自动采取排错措施,并能对历史数 据进行分析、处理和追踪。 从以上的内容可以看出,信息安全技术虽然很多,但是各自的侧重点不同。防火墙 和入侵检测主要针对外部网络的攻击行为,侧重于“事前”保护;数据加密则主要应用 于数据传输方面;安全审计技术更注重于通过记录行为来对系统进行监控,并能“事后 获得电子证据。 2 2 安全审计 2 2 1 安全审计简介 “审计 的概念来源于经济学,指的是一项具有独立性的经济监督活动,其准确的 定义是“为了查明有关经济活动和经济现象的认定与所制定标准之间的一致程度,而客 观地收集和评估证据,并将结果传递给有利害关系的使用者的系统过程【”】。”审计的本 质是对计算行为及所有的经济活动进行实地考察、调查、分析、检验,含有审核稽查计 算之意。 信息系统中的安全审计,是指通过一定的策略,利用记录和分析系统活动和用户活 动的历史操作事件,按照顺序检查、审查和检验每个事件的环境及活动;其中系统活动 包括操作系统和应用程序进程的活动,用户活动包括用户在操作系统和应用程序中的活 动,如用户使用何种资源、使用的时间、执行何种操作。它不仅能够识别谁访问了系统, 还能指出系统正被怎样地使用;能够及时确定是否有网络攻击的情况,并对其进行跟踪; 另外,通过对安全事件的不断收集和积累并且加以分析,能够发现破坏性行为的证据。 安全审计是网络安全系统中一个重要的环节,安全审计的目的是对潜在的攻击者起 到震慑和警告的作用;对于已经发生的系统破坏行为,提供有效的追究责任的证据,评 估损失,提供有效的灾难恢复依据:为系统管理员提供有价值的系统使用日志,帮助系 统管理员及时发现系统入侵行为或潜在的系统漏洞。 安全审计的类型有三种,分别为系统级审计、应用级审计和用户级审训1 6 】。 1 、系统级审计。 8 西北人学硕l :学位论文 系统级审计的内容主要包括登录( 成功和失败) 、登录识别号、每次登录尝试的日 期和时间、每次退出的日期和时间、所使用的设备、登录后运行的内容( 如用户启动应 用的尝试,无论成功或失败) 。典型的系统级同志还包括与安全无关的信息,如系统操 作、费用记账和网络性能。 2 、应用级审计。 系统级审计可能无法跟踪和记录应用中的事件,也可能无法提供数据拥有者所需要 的足够的细节信息。通常,应用级审计的内容包括打开和关闭数据文件,读取、编辑和 删除记录或字段的特定操作以及打印报告之类的用户活动。 3 、用户级审计。 用户级审计的内容通常包括用户直接启动的所有命令、用户所有的鉴别和认证尝 试、用户所访问的文件和资源等方面。 2 2 2 安全审计系统结构 早期的安全审计系统主要是针对主机中的系统日志进行审计,由于当时的计算机网 络环境的限制,不会出现复杂的、大规模的网络结构,因此,都是采用集中式的系统结 构。在早期的安全审计系统中,有一个审计中心和若干个数据捕获节点构成,数据捕获 节点仅仅对审计数据进行捕获,然后交给审计中心进行审计处理。但是,随着计算机网 络的飞速发展,计算机网络的结构变得越来越复杂,规模也越来越大,因此,早期的集 中式系统结构中审计中心的压力不断增大,此时,分布式的系统结构应运而生。这种系 统结构不但等够适应各种网络环境,同样可以将审计工作的压力降低。在分布式系统结 构中,审计任务被分担到多个审计组件中,各个组件协同工作。而且,分布式系统结构 的组成更加灵活,可以对单独一个局域网配置审计组件,完成审计;也可以对多个局域 网都配置审计组件,然后将各个审计组件逐级分层设计,将最后的审计结果汇总到一起。 由于这种结构的灵活性和高效性,目前的安全审计系统多采用分布式结构进行设计,本 文所设计的系统就是采用a g e n t 技术实现的一个分布式网络安全审计系统。 2 2 3 安全审计数据源 安全审计的数据源可以分为基于主机的数据源和基于网络的数据源【17 1 。数据源的选 择取决于用户想要审计的内容。 l 、基于主机的数据源 9 第一二章网络安伞审计系统的研究 基于主机的数据源主要包括操作系统审计记录和系统日志。 操作系统审计记录是指由专门的操作系统机制产生的系统事件记录,这些审计记录 是用于反映系统活动的信息集合,按照时间顺序组织成一个或多个审计文件,每个审计 文件由审计记录组成,每条审计记录描述了次单独的系统事件。 系统日志是指由系统程序产生的用于记录系统或应用程序事件的文件,通常以文本 文件的方式存放。尽管可以采用各种格式和定义来产生系统日志,但是系统日志的安全 性要比操作系统审计记录差。主要原因有两点,一是产生系统日志的软件通常是应用程 序而不是操作系统的子系统,相对于由操作系统产生的审计记录来说,更容易遭受恶意 的破坏和修改;二是系统日志通常存储在系统未保护的目录,并且以文本文件的方式存 储,而操作系统审计记录则经过加密等保护机制处理。相比操作系统审计记录,系统日 志更加直观,而且在某些无法获得或j 下确解释操作系统审计记录的情况下,系统日志是 系统安全管理中不可或缺的信息源。 2 、基于网络的数据源 基于网络的数据源主要是指计算机的操作系统或计算机中安装的应用软件对网络 进行操作的行为以及通过网络传输的各种数据信息,这里说的网络包括局域网和国际互 联网。由于人们对互联网的依赖性越来越大,基于网络的数据源越来越多的被安全审计 系统使用,本文所设计的安全审计系统就是个基于网络数据源的审计系统。 2 3a g e n t 简介 目前,a g e n t 还没有一个明确的定义,但是,在分布式计算领域,人们通常把在分 布式系统中持续自主发挥作用的、具有以下特征的计算实体称为a g e n t t l 8 】: l 、自主性 a g e n t 具有属于其自身的计算资源和属于其自身的行为控制机制,能够在没有外界 直接操纵的情况下,根据其内部状态和感知到的环境信息,决定和控制自身的行为。 2 、交互性 各个a g e n t 之间能够用a g e n t 通信语言实旌灵活多样的交互,能够有效地与其他 a g e n t 协同工作。 3 、反应性 a g e n t 能够感知所处的环境,并对相关事件作出适时反应。例如:一个模拟分布式 计算的a g e n t 能够对用户的操纵作出适时反应。 1 n 两北大学坝i :学位论文 4 、主动性 a g e n t 能够遵循规则采取主动行动,表现出面向目标的行为。例如:一个i n t e r n e t 上的主动服务a g e n t ,在获得新的信息之后能够按照约定主动将其提交给需要的用户。 具有以上四个特征的计算实体是目前主流的分布式计算领域中人们广泛认同的 a g e n t 概念。但是,并不是说必须具备以上全部特征的计算实体才被称为a g e n t ,由于 用户的计算实体的要求及目的不同,使得计算实体所表现出的特征也不同,总体来说, 只要具备以上几个特征中的一个或多个的计算实体都可以称为是一个a g e n t 。 a g e n t 技术被认为是软件领域中一个意义深远的突破,其重要原因之一在于,该技 术在基于网络的分布式计算这一当今计算机主流技术领域中,正发挥着越来越重要的作 用。一方面,a g e n t 技术为解决新的分布式应用问题提供了有效途径;另一方面,a g e n t 技术为全面准确地研究分布计算系统的特点提供了合理的概念模型。 a g e n t 按照功能和特性可以分为硬件a g e n t 、软件a g e n t 和移动a g e n t 三大类,本文 在没有特别说明的情况下所涉及的a g e n t 均属于软件a g e n t 。 2 4 设计目标 本课题对安全审计系统提出的设计目标为: 1 、能够审计多种网络行为( 浏览网站、收发邮件、即时通信、f t p 、远程登录、网 络游戏以及其它) ; 2 、能够对网络中传输的明文信息进行内容审计,及时发现非法信息的传输,如网 站发布的信息、即时通信或电子邮件传输的信息等; 3 、能够对不同的网络行为设置不同的审计策略; 4 、能够为每一个被审计的用户设置不同的审计策略; 5 、能够实时的反映每个被审计用户的在线状态; 6 、能够统计每个用户的流量信息; 7 、能够灵活便利的查询审计报告; 8 、能够方便的查看内容审计中数据包传输的内容; 9 、能够对网络中传输的文件进行审计,如w o r d 文件、e x c e l 文件、p o w e r p o i n t 文 件、p d f 文件、文本文件等; 1 0 、能够对压缩包文件中的文件进行内容审计,如r a r 文件、z i p 文件等; 1 1 、对于不同种类的审计任务,采用不同审计a g e n t 实现; 1 l 第二章网络安全审计系统的研究 1 2 、能够阻断网络数据包的传输; 1 2 西北人学硕i :学位论文 3 1 信息过滤概述 第三章信息过滤技术的研究 信息的组成形式有很多,如文本、图像、视频等,而目前信息的主要载体是文本形 式,对于信息处理领域的研究也主要集中在文本信息上,因此,信息过滤又称为文本过 滤。 信息过滤的概念最早是由d e n n i n g 于1 9 8 2 年提出的【2 0 1 ,他的目的是为了拓宽信息 收集的讨论范围。而在1 9 8 9 年,由美国d a r p a 资助的“m e s s a g eu n d e r s t a n d i n g c o n f e r e n c e ”会议的举办才极大地推动了文本过滤技术的研究和发展,在本次会议中, 首次将自然语言处理技术引入到文本过滤技术的研究中,推动了人们对文本过滤技术的 研究探索。直到1 9 9 2 年,由美国国家标准和技术局( n i s t ) 与d a r p a 联合举办了首 届t r e c ( t e x tr e t r i e v ac o n f e r e n c e 文本检索会议) 后,才真正为政府部门和学术界提 供了一个交流与合作的平台,从此,文本过滤技术的研究步入了一个飞速发展的阶段。 文本过滤在不同的发展阶段有不同的定义,直到1 9 9 7 年的第六届国际文本检索会 议( t r e c 一6 ) 上才对文本过滤的任务有了清晰的说吲2 1 1 ,而从第九届国际文本检索会 议( t r e c 9 ) 开始,文本过滤的定义才被明确下来。会议中对文本过滤的定义为:从 事先给定用户需求中建立一个能够从文本流中自动选择最相关文本的过滤模板,并且, 通过对不断增加的文本流的过滤,过滤系统能够自动的拒绝或接受文本,然后给出文本 相关与否的反馈信息,并能够根据反馈信息自动的修正过滤模板【2 2 2 4 , 2 5 。定义中的核 心思想是从动态的信息流中将满足用户需求的信息挑选出来,用户的需求一般在较长一 段时间内比较稳定不会改变。 信息处理领域中还有另外两个研究方向,分别为文本检索和文本分类,而文本过滤 与这两个研究方向相互之间既有联系又有区别。 文本检索是指从一个文本信息集合中找出满足用户需求的文本的过程。这里指的文 本信息集合是一个相对固定不会变化的文本集合,而用户的需求是多变的,这与文本过 滤刚好相反【1 9 】。文本分类是指在给定的分类体系下,根据文本的内容自动地确定文本关 联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射 到已有的类别中,该映射可以是一对一或者是一对多的映射。这与文本过滤的定义很相 似,如果把文本过滤看成是一个二元分类问题,即属于用户需求的类和不属于用户需求 1 3 第三章信息过滤技术的研究 的类,则文本过滤完全可以作为文本分类的问题来研究,而实际上,在解决文本过滤的 问题时人们一般都是采用文本分类的方法来处理的。 文本分类的一般步骤如下: 1 、用户定义分类体系; 2 、把预先分类过的文本作为训练集; 3 、通过对训练集的学习,从训练集中获取分类模型( 需要不断测试、不断细化) ; 4 、用训练获得的分类模型对待分类文本进行分类; 5 、将分类结果反馈给训练集的学习过程,修正训练集的学习方法。 一个典型的文本过滤过程如图l 所示: 卜需竺 用户需求模板学习 图1 典型的文本过滤过程 在典型的文本过滤系统中,首先用户要提供一个需求文本集合,然后,采用一种用 户需求模板学习机制从需求文本集合中提取出用户需求模板,然后将这个需求模板与待 过滤文本放入文本过滤系统中进行过滤,过滤后,将过滤结果提供给用户,最后,用户 将过滤结果的满意程度反馈给需求模板学习模块,需求模板学习模块根据用户的反馈信 息,对学习机制进行调整,然后重新对用户需求文本集合进行学习。 文本过滤所涉及到的技术很多,具体包括文本分词技术、特征提取技术、文本表示 模型、文本分类算法等等,以下就几项关键技术进行研究并加以分析。 3 2 文本表示模型 文本表示模型是指用一个数学上可以度量和计算的结构来表示一个由自然语言所 构成的无结构的文本内容。常用的文本表示模型有布尔模型、概率模型和向量空问模型。 3 2 1 布尔模型 布尔模型( b o o l e a nl o g i cm o d e l ) 【2 6 1 是基于集合理论和布尔代数的一种简单的文本 表示模型。布尔模型假定每一个特征词在一篇文档中只有两种状态:出现或不出现,而 1 4 两北大学硕:l 学位论文 特征词对应的权值为1 或0 。布尔模型是一种相对简单的文本表示模型,基于布尔模型 的文本过滤方法是通过逻辑运算符“a n d ”、“o r 、“n o t ”把表示文本内容的特征词组织成一 个特征词表达式,以此来构成用户需求,然后在目标文本中查询。如果目标文本中有满 足这个特征词表达式的组合,则认为目标文本符合用户需求,否则就不符合用户的需求。 布尔模型的主要优点在于形式简洁、结构简单、用户操作方便,但是,其不足之处 在于准确的匹配可能导致检出的文档过多或过少。 3 2 2 概率模型 概率模型( p r o b a b i l i t y m o d e l ) t 2 7 1 是假设用户根据一个检索串q ( q 是索引词集合的 子集) ,将一个文本集合分成两类,一类是与用户检索串q 相关的集合r ,另一类是与 检索串q 不相关的文本集合瓦,然后用p ( rd ) 表示文本d 与查询串q 相关的概率, 用p ( 瓦ld ) 表示文本d 与查询串q 不相关的概率,而且,概率模型中假设所有的索引 词都是独立的。那么,文本d 对于检索串q 的相关度定义为:s 砌( d ,q ) = ;簇摆,根 据贝叶斯定律得:s 砌( d ,g ) = 丢豁,其中p ( d lr ) 表示从相关文本集合r 中随机选取文档d 的概率,p ( r ) 表示从整个文本集合中随机选取一篇文本为相关文本 的概率。p ( dl 瓦) 表示从不相关文本集合瓦中随机选取文档d 的概率,p ( 瓦) 表示 从整个文本集合中随机选取一篇文本为不相关文本的概率。又因为对于整个集合中所有 的文本有r ) 和p ( 夏) 是相同的,因此,相关度的公式可以写成:j f 聊( d ,g ) = 嚣手篙。 再有在概率模型中假设所有的索引词是相互独立的,最后将相关度计算公式简化为: s 加( d ,g ) = w r 宰( 1 。g 器+ 1 0 9 器) ,其中k i 表示检索串q 中第i 个索引 词,w i 表示检索词k i 是否在文本d 中出现,如果出现值为1 ,不出现值为0 ,p ( k ijr ) 表示索引词k j 在相关集合r 中出现的概率,p ( k l 瓦) 表示索引词k i 在不相关集合瓦中 出现的概率。 概率模型的优点是考虑了索引词与文本之间的内在联系,其缺点是对所处理的文本 集合的依赖性较大。 1 5 第三章信息过滤技术的研究 3 2 3 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ) 2 8 2 9 , 3 0 是由s a l t o n 等人于2 0 世纪6 0 年代提出 的一种文本表示模型。向量空间模型的基本思想是将文本表示成一个矢量,看作是向量 空间中的一个点,该向量空间的维数是文本中的特征项的总数,而该点在向量空间中的 坐标值是文本中的特征项的权值。向量空间模型的具体定义为:用一个向量d ( w l , w 2 ,w i ,w 。) 来表示一个文本,其中,w i 为第i 个特征项的权值( 1 i n ) , 该值根据具体的特征项权值计算方法确定,n 为文档中特征项的总数。另外,把用户需 求也用一个向量t ( u 1 ,u 2 ,u i ,u n ) 表示。这时,将计算目标本文与用户 需求的匹配程度就转化为计算两个向量之间的相似度问题。而相似度一般用两个向量的 夹角的余弦值来判断,此时,相似度的计算公式为: 删叩= 尚= w i 宰“, ,= l 。相似度的值越大,说明两个向量的夹角越小, 也就是说两个向量的相似程度越高。 向量空间模型的优点有: 1 、它把文本用一个向量表示,把文本分类问题转化成向量空间中两个向量的计算 问题,大大降低了问题的复杂度。 2 、它把两个文本的匹配程度用一个相似度来表示,不再是一种精确匹配问题,提 高了匹配的准确度。 3 、向量空间模型的实现简单,很多文本分类方法都是基于这种文本表示方法实现 的。 但是,向量空间也存在缺点,这种模型认为特征项之间是相互独立、互不相关的, 这就忽略的词之间的语义信息。而且,在向量空间模型中对每个特征项的权重计算采用 的是相同的计算公式,没有考虑特征项在文本不同位置时的重要程度也不相同。向量空 间模型的缺点可以概括为没有描述语义关系,而事实上文本的语义关系的描述是一个非 常复杂的问题。因此,不考虑文本的语义关系的情况下,向量空间模型是一个非常好的 文本表示模型,本课题所研究的系统就是采用向量空间模型来表示文本。 1 6 西北人学硕l 学位论文 3 3 文本分类方法 文本分类实际上是一个自我不断学习的过程。在分类过程中,根据已有类别中的文 本集合,总结出分类的规则,然后,当有新的文本到来时,按照已有类别的分类规则对 其进行分类。文本分类的算法很多,而常用于文本分类的算法有朴素贝叶斯法、支持向 量机法和k 最邻近法( k n n ) 3 1 3 2 1 。 3 3 1 朴素贝叶斯法 朴素贝叶斯法是一种基于概率模型的分类方法,它是一种基于贝叶斯假设的方法, 假设文本中的特征词在确定文本类别的作用上是相互独立的。它首先计算特征词属于每 个类别的先验概率,在待分类文本到达时,根据特征词的先验概率计算该文本属于每一 个类别的后验概率,最后取后验概率最大的类别作为待分类文本的分类结果。后验概率 公式为:p ( gix ) = 兰竺1 掣,其中,x 表示待分类文本,c i 表示第i 个已知的 类别。由于p ( x ) 对所有类别为常数,因此,只需要知道p ( xlc i ) 宰p ( c j ) 最大即 可。如果类的先验概率未知,则通常假设这些类是等概率的,即p ( c 1 ) = p ( c 2 ) = = p ( c n ) ,并根据这个假设对p ( xc j ) 最大化。否则,最大化p ( xjc i ) p ( c i ) 。 注意,类的先验概率可以使用尸( g ) = 萌善量怒来计算。 经过长期的研究,朴素贝叶斯分类方法在理论上论证得比较充分,在应用上也是非 常广泛的。但是,朴素贝叶斯分类方法的薄弱环节在于实际情况下,类别总体的概率分 布和各类样本的概率分布函数( 或密度函数) 常常是不知道的。为了获得它们,就要求样 本足够大。另外,朴素贝叶斯分类方法要求表达文本的主题词相互独立,这样的条件在 实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。 3 3 2 支持向量机法 支持向量机法( s u p p o r tv e c t o rm a c h i n e ) 是由v a p n i k 等人于1 9 9 5 年提出,其原理 是在给定的训练文本集上作一个超平面的线性划分,将分类问题转化为一个寻找空间最 优平面的问题,再次转化成一个m 次规划问题。原因是如果所有的向量都能够被某个 超平面正确划分,并且各类向量与超平面的最小距离最大化,则该平面为最优超平面, 1 7 第三章信息过滤技术的研究 距离平面最近的异类向量为支持向量,一组支持向量可以惟一确定一个超平面。 支持向量机法具
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年智慧医疗体系构建可行性研究报告及总结分析
- 2025年乡村振兴示范基地建设项目可行性研究报告及总结分析
- 2025年人工智能健康助手项目可行性研究报告及总结分析
- 2025年教培行业线上线下融合项目可行性研究报告及总结分析
- 2025年智能物流行业技术应用与运营效率研究报告及未来发展趋势
- 2025年楼宇广告位投放合同
- 2025年社区绿化改造项目可行性研究报告及总结分析
- 2025年共享办公空间落地项目可行性研究报告及总结分析
- 2025年量子计算技术研发合作合同
- 2025年工业机器人应用编程理论考试复习题库 含答案
- 合同包死价补充协议
- 山东省青岛超银中学2025-2026学年九年级上学期11月期中语文试题(含答案及解析)
- 食品企业标准模板
- 2026年中国固体制剂行业发展展望及投资策略报告
- (2025年)仪表工仪表技能考试试题附答案
- 2025 年高职供用电技术(供用电管理)试题及答案
- 2025至2030复合中间合金行业项目调研及市场前景预测评估报告
- 银行普惠金融2025年冲刺模拟试卷(含答案)
- 2025高一英语单词默写本
- 高中思政课课堂活动方案
- 压力管道操作安全培训课件
评论
0/150
提交评论