




已阅读5页,还剩77页未读, 继续免费阅读
(计算机软件与理论专业论文)高速网络的内容监控过滤技术的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电子科技大学硕士学位论文高速网络的内容监控过滤技术的研究与实现 摘要 随着互联网应用的普及,网络中共享信息资源也以惊人的速度增长,网络成 为了全球范围内重要的信息载体和传播信息的最主要渠道之一。但随之而来也产 生了一些日益突出的问题。一是大量的信息资源给检索带来困难。二是网络信息 安全的问题,恶意病毒的破坏,反动、色情、暴力等不良内容在互联网上的传播 已经成为日益突出有待解决的问题。三是垃圾邮件问题。因此研究网络内容的监 控过滤技术,对于促进互联网应用的良性发展具有重要的理论和现实意义。 本文根据当前的现实需求,对高速超高速骨干网络上的网络内容过滤的各项 关键技术进行了针对性研究,实现了个分布式网络内容监控过滤系统。该系统 能够在不影响主流业务开展的情况下,对所属管理域内的网络上的用户使用网络 的行为和在网上传输的信息内容进行完全监控。 本文针对省级和国家级骨干网络的特点,对海量网络数据的实时分析采用了 多处理机并行计算体系结构,通过业务分流和负载平衡合理地分流网络数据流, 把海量计算均匀地分解到各处理机,减小了系统实现的复杂度,提高了系统的整 体性能。 在网络数据采集和协议解析方面,针对网络协议的多样性,吸收了基于中间 件的软件构件技术具有良好的可扩展性的优点,把协议解析和信息采集等设计成 独立的构件,提供统一的接口,新增的协议解析和信息采集模块可以无缝地加载 到本系统中,系统通过配置不同的协议分析模块和网络信息采集设备,既可以实 现对t c p i p 网络各种应用层协议数据包( s m t p 、p o p 3 、h t t p f t p ,t e l n e t ) 的监控,也能够实现对移动业务短消息的监控。 在网络内容过滤技术方面,本文提出了基于特征码关键字匹配的实时过滤模 型,在模型中,本文提出了直接对i p 数据包内容直接进行内容过滤的分包过滤 设计方式,实现了一个高性能多关键字匹配算法( 基于有限自动机理论的 a h o - c o r a s i c k 算法) ,能够快速实时地对海量数据进行关键字匹配,同时解决了 分包过滤中的漏报问题。 关键字:协议解析;过滤;监控;有限自动机;模式匹配; 电子科技大学硕士学位论文高速网络的内容监控过滤技术的研究与实现 a b s t r a c t w i t h p o p u l a r i z a t i o no f i n t e r n e ta p p l i c a t i o n ,i n f o r m a t i o nr e s o u r c e st h a ts h a r e di n n e t w o r ki s i n c r e a s i n g w i 廿1 s u r p r i s i n gs p e e d n e t w o r kh a s b e c o m ea ni m p o r t a n t i n f o r m a t i o nc a r r i e ri nt h eg l o b a lr a n g ea n do n eo ft h em a i nc h a n n e l st o p r o p a g a t e i n f o r m a t i o nb u ti tp r o d u c e ss o m eo u t s t a n d i n gp r o b l e l l i sa tt h es a m et i m e f i r s t ,a l a r g ea m o u n to f i n f o r m a t i o nr e s o u r c e sa r ed i f f i c u l t yt os e a r c h s e c o n d ,t h eq u e s t i o n o ft h es a f e t yo fi n f o r m a t i o no ft h en e t w o r k , s u c ha st h ed e s t r u c t i o no ft h ev i r u s , r e a c t i o n a r y ,p o r n o g r a p h y ,v i o l e n c ei n f o r m a t i o ns p r e a dt h r o u g hi n t e r u e t ,e t c a l lo f t h e s eh a v eb e c o m et h es e r i o u s p r o b l e m s t o r e s o l v e t h i r d l y ,t h ef l o o d i n g o f j u n k m a i l t os o l v et h ep r o b l e m sa b o v e ,t h es t u d y o fn e t w o r kc o n t e n t m o n i t o r i n ga n d f i l t e r i n gt e c h n o l o g y h a ss i g n i f i c a n te f f e c ti np r o m o t i n gi n t e r n e ta p p l i c a t i o n a c c o r d i n g t ot h ec u r r e n tr e q u i r e m e n t , w es t u d yt h e k e yt e c h n o l o g yo f n e t w o r k c o n t e n tm o n i t o r i n ga n d f i l t e r i n ga n d r e a l i z ead i s t r i b u t e dn e t w o r kc o n t e n t m o n i t o r i n g a n df i l t e r i n gs y s t e m t h i ss y s t e mc a nm o n i t o rt h en e t w o r k o p e r a t i o n sa n dd a t a o fa l l u s e r so nt h en e t w o r k so f t h ei n t r a - a r e a ,w i t h o u ti n f l u e n c i n gt h em a j o rn e t w o r k b u s i n e s st ol a u n c h a c c o r d i n gp r o v i n c i a la n dn a t i o n a l l e v e lm a i n b o d yn e t w o r k t l l i ss y s t e mh a s a d o p t e dm a n yp r o c e s s o rp a r a l l e lc o m p u t a t i o ns y s t e m s t r u c t u r et op a r s e rm a g n a n i m i t y n e t w o r kd a t u mr e a lt i m e i th a sr e d u c e dt h ec o m p l e x i t yo fs y s t e mr e a l i z a t i o na n d i m p r o v e st h ep e r f o r m a n c eo fs y s t e mb yd i s t r i b u t i n gt h ed a t af l o wo f t h en e t w o r kt o e v e r yp r o c e s s o re v e n l yt h r o u g h b u s i n e s sd i s t r i b u t i o na n db e a rb a l a n c e , a c c o r d i n g n e t w o r kd a t ag a t h e r i n ga n d p r o t o c o la n a l y z i n g ,b e c a u s eo f t h ev a r i e t y k i n do ft h ep r o t o c o l ,w eh a v ea b s o r b e dt h ea d v a n t a g ew i t hg o o de x p a n s i b i l i t yo ft h e m i d d l ec o m p o n e n tt e c h n o l o g yo fs o f t w a r e ,t h em o d u l eo fd a t ag a t h e r i n gm o d u l ea n d p r o t o c o l a n a l y z i n g i s d e s i g n e d a s i n d e p e n d e n tc o m p o n e n t 。t h r o u g hd i s p o s i n g d i f f e r e n tm o d u l ei nt h i s s y s t e m i tc a nd e a lw i t l lv a r i o u sk i n d so fa p p l i c a t i o nd a t a ( h t t p , f t p ,t e l n e t , s m t p ,e t c ) i nt c p i pn e t w o r k s ,a tt h es a m et i m ei tc a nd e a lw i t h t h ed a t ao f t h es h o r tm e s s a g eb u s i n e s st o o w h i l et h en e t w o r kd a t aa r ee n o r m o u si nq u a n t i t y t h i sp a p e rh a sp r o p o s e da nt e x t f i l t e r i n gm o d e l w i t hh i g hp e r f o r m a n c e i tc a nm a t c ht h ek e y w o r di nt h em a g n a n i m i t y d a t ar a p i d l yb yt h em u l t i m o d ec h a r a c t e rm a t c h i n gt e c h n o l o g yi nt h et h e o r yo ff i n i t e a u t o m a t o n ,b a s eo nt h ei d e ao fa h o c o r a s i c ka r i t h m e t i c k e y w o r d s :p r o t o c o l d a t a p a r s i n g ;f i l t e r i n g ;w a t c h ;i n t e r c e p t i o n ;l i m i t e d a u t o m a t i cm a c h i n e ;p a t t e m m a t c h i n g ; 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机 构的学位或证书而使用过的资料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 签名: 装涪 日期:e 。4 年f 2 月6 只 。1 。j 。一 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进 行查阅,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名: 鍪盘 导师签名 日期:例y 年l 硼 电子科技火学硕士学位论文高速网络的内容监控过滤技术的研究与实现 第1 章绪论 1 1 课题背景 近十年来,由于网络技术( 尤其是w w w 技术) 的不断进步,互联网得到了 的飞速的发展,美国著名信息市场研究公司国际数据公司l2 日发表的一项报告 预测【l l ,预计到今年年底全球网民人数将超过6 亿,全球电子商务规模将超过l 万亿美元,同时这项报告显示,使用因特网的人群越来越多样化,网民的身份 已经超越了年龄、教育水平和地理位置的限制。 随着互联网的迅猛发展,网络中共享信息资源也以惊人的速度增长,网络成 为了全球范围内重要的信息载体和传播信息的最主要渠道之一,人们能够通过网 络方便地发布、获取信息。如今互联网已经成为一个海量的、异质的、非结构的 信息中心,成为人们生活中不可或缺的一部份。同时网络中的信息呈现出数量巨 大、内容广泛、形式多样、增长迅速等特点。 但在互联网不断发展的同时,也存在着一些日益突出的问题。一是大量的信 息资源给检索带来困难。二是网络信息安全的问题,恶意病毒的破坏,反动、色 情、暴力等不良内容在互联网上的传播已经成为日益突出有待解决的问题。特别 是上网人数中2 4 岁以下的网民占4 6 ,4 ,不良内容的传播有害于他们的健康成长。 三是垃圾邮件问题,第十一次c n n i c 调查结果显示【2 】,2 0 0 2 年中国网民平均每 周收到7 ,7 封电子邮件( 不包括垃圾邮件) ,收到垃圾邮件8 3 封,而且其中不 乏反动、色情的邮件在内。 在网络蓬勃发展的同时,i n t e m e t i n t r a n e t 模式的电子商务、电子政务的广泛 应用,网络信息的安全性受到越来越广泛的关注。家长希望对孩子使用网络的行 为进行管理,避免他们通过网络接触有害和不健康的信息;企业的管理者希望能 够对员工使用网络的行为进行有效的控制,避免工作时问内的i ,吲络冲浪、电子购 物等;国家有关部门希望能够对在网络上传输的信息进行有效监控,避免反动的、 对国家安全和稳定不利的信息通过网络广泛传播。我国政府对网络信息安全十分 重视,“十五计划”将它放在了很重要的地位,“8 6 3 计划”单列“信息安全技 术”主题。从信息安全的市场需求来看,由于个人、企业和国家对信息安全的越 第l 斑共7 9 页 电子科技人学硕士学位论文高速网络的内容监控过滤技术的研究与实现 来越重视,在未来的若干年中,信息安全产品必将有十分广阔的市场前景。因此 发展网络内容监控技术,开发网络内容监控过滤系统已经成为当前的迫在眉睫的 任务。 网络内容的蛲控过滤相对于其它类型的网络安全系统( 诸如入侵监测系统、 软件防火墙、电子邮件监控系统,这些系统得到了广泛的应用) 发展相对比较滞 后,导致这一结果的原因是多方面的,其中最重要的原因是t c p i p 协议带来的 平台的分布性、开放性以及网络信息内容、表现形式的多样性。与传统的媒体( 报 纸、电视) 相比,网络具有了自身鲜明的特点:首先,从内容的构成上看,网络 的信息更加丰富,网页的内容通常是由文字、图像、语音等综合而成的。其次, 从信息的载体看,其特点是分布、异质异构、海量的。大量的共享数据信息存放 在世界各地的各个网站上。随着时间的推移,网站积累的信息越来越多,技术的 进步导致存储器性价比的提高,为存储这些信息提供了可能。第三,网络协议的 多样性,网页内容、电子邮件、文件、聊天信息等网络数据通过s m t p 、p o p 3 、 i m a p 、h t t p 、f t p 、t e l n e t 和s m p p 4 - 等协议进行在网络中传送。 由于计算机难以理解信息的语义,阻碍了搜索、采集、维护、信息生成等技 术的发展,同时自然语言理解和机器学习技术进展缓慢,无法为机器自动理解网 络内容提供更多的支持。由于缺乏成熟的网络内容监控系统的支持,对网络内容 的检查都是通过人来完成的。人类具有高度的智能,对于能够理解的语言文字会 从语法、语义上进行分析和评价,因而这种啦控是精确的,但是效率却是低下的, 无法适应网络发展的需要,人们迫切需要计算机提供辅助来进行网络内容的监控 过滤。 1 2 网络内容监控过滤的主要技术 网络内容监控过滤目前主要是对文本类型的网绍信息进行检索过滤,主要涉 及两类关键技术:文本聚类技术和多模式匹配技术。前者用于将新出现的具有相 同特征的文本信息挑拣出来;后者又称多关键字匹配技术,能够根据已知的特征 码对的文本信息进行分析,以便及时实施拦截。 1 2 1 文本聚类技术 主流的文本聚类技术 a - 6 可分为两大类:顺序聚类算法和层次聚类算法。 第2 页菇7 9 页 电子科技火学硕士学位论文高速网络的内窬监控过滤技术的趣玎究与实现 1 2 1 1 顺序聚类( s e q u e n t i a lc l u s t e r i n g ) 算法 顺序聚类( s e q u e n t i a lc l u s t e r i n g ) 算法的基本思想是: 首先由第一个数据项形成第一个类c l a s s l ,然后对于每一个新的数据项 d a t a i : 找到与d a t a i 最接近的类c l a s s ,; 。 如果d i s t a n c e ( c l a s s l ,d a t a i ) d i s s i m ( 且n u m c l u s t e r s m a x c l u s t e r s ) , 那么,将d a t a 加入到一个新的类中,否则将d a t a i 加入到这个最接 近的类c l a s s 。中。 d i s t a n c e ( ) 函数用来计算一个数据项和一个类的距离,d i s s i m 是一个预先 给定的闽值,如果d i s t a n c e ( ) 函数的计算结果超过d i s s i m 则意味着该数据项 与该类不相似。n u m c l u s t e r s 是当前类别总数,m a x c l u s t e r s 是最大类别数。 很明显,在这种方法中,d i s t a u c e 的值对聚类会产生很大的影响,d i s s i m 也影响着聚类的数量,如果m a x c l u s t e r s 的值设置得很小的话,会导致聚类 的类别数目很少。 1 2 1 2 层次聚类( h i e r a r c h i c a lc l u s t e r i n g ) 算法 层次聚类( h i e r a r c h i c a lc l u s t e r i n g ) 算法的基本思想是: 在s e q u e m i a lc l u s t e r i n g 方法中,聚类的结果使每一个数据项相对应一个 类。而在h i e r a r c h i c a lc l u s t e r i n g 方法中,会生成内嵌聚类的层次结构。在 h i e r a r c h i c a lc l u s t e r i n g 中,又分为两种方法: 1 ,a g g l o m e r a t i v ea l g o r i t h m s 从n 个类开始,首先定义n 个类,每个类中有一个数据项 f o rc l u s t e r n u l t i = n 一1t o1 检查每对类别,将最相似的类合并到起。 在这种算法中,数据结构通常采用相似度矩阵或图。根掘采用的数据结 构的不同,可以再分为两类: m a t r i xm e t h o d s 这种方法中使用的数据结构是相似度矩阵,在聚类的过程中,每当 两个类别相似的时候,就将这两个类别合并在一起,生成新的类。这个 时候,就要将这两个相似的类从矩阵中删除,同时将新的类添加到矩阵 中。所以在算法的执行过程中,对该矩阵要随时进行更新、使矩阵始终 第3 页共7 9 页 电子科技大学硕士学位论文高速网络的内容监控过滤技术的研究与实现 表示当前所有类别的相似度。该算法的时间复杂性为0 ( n 2 ) - o ( n 3 ) 。在 采用相似度矩阵进行聚类的各种算法中,主要的区别在于采用的不同的 矩阵更新函数来指出新的类别的相似度。通常采用如下方式计算: s i m ( c n e w ,c o l d ) = a l + s i m ( c n e w l ,c o l d ) + a 2 。s i m ( c h e w 2 ,c o l d ) + b4 s i m ( c n e w l ,c n e w 2 ) + c + i s i m ( c n e w l ,c o l d ) s i m ( c n e w 2 ,c o l d ) i c n e w 是由c n e w l 和c n e w 2 合并形成的新的类别,c o l d 是任 意一个类别, a 1 ,a 2 ,b ,c 的取值根据不同的方法取不同的值: i s i n g l el i n k :如果两个数据项之间相似度最大,而且还没有聚 到一类,这时将它们聚为一类。这种方法中,a l = a 2 = 1 2 ,b = o ,c = 一1 2 。s i m ( c n e w ,c o l d ) 为s i m ( c n e w l ,c o l d ) ,i m ( c n e w 2 ,c o l d ) 中最小 的一个。 i i c o m p l e t el i n k :使用最不相似的两个类别来确定新的类别的 相似度。这时a l = a 2 = 1 2 ,b = 0 ,c = 1 2 。s i m ( c n e w ,c o l d ) 为 s i m ( c n e w l ,c o l d ) ,s i m ( c n e w 2 ,c o l d ) 中最大的一个。 i i i u n w e i g h t e dp a i rg r o u pa v e r a g e :使用平均值的方法来确定相 似度值。这种方法中,a l = a 2 = 1 1 2 ,b = c = 0 ,s i m ( c n e w ,c o l d ) 为l 2 ( s i m ( c n e w l ,c o l d ) + s i m ( c n e w 2 ,c o l d ) ) g r a p h m e n t h o d s 采用图论的思想来选择该数据项所属的类别。图中的每一个节点表 示一个数据项,两个节点之间用边来连接,每条边的权值表示两个数据 项之间的相似度。如果我们选择一个阈值,权值低于该值的边从图中删 掉,那么这个加权的完全图可以简化为未加权的“阈值图”。那么,就 可以根据最大相似度来聚类,但是需要一些附加条件,由新的类别形成 的图需要具有图的属性。 2 d i v i s i v e a l g o r i t l _ 1 1 n 与前一种方法相反,在一个聚类中包含n 个数据项,让后对其进行分割, 直到最终生成n 个聚类结果。每一步我们都要检查n 个类别的所有可能的 划分,以找到两个最不相似的类别( 因为我们要将那个和其它的类最不相似 电子科技大学硕士学位论文高速网络的内容监控过滤技术的研究与实现 的分离出来形成新的类别) 。这样就会是计算量变得很庞大。因此,通常使 用一些算法来检查那些合理的划分。 其它的聚类方法还包括f u z z yc l u s t e r i n g 7 j ,v e c t o rq u m a t i z a t i o n 【8 】c o m p e t i t i v e l e a r n i n g t 9 1 等等。 1 。2 2 多模式匹配技术 多模式匹配问题在生物计算、信息检索及信号处理领域有着非常广泛的应 用。快速高效的多模式匹配算法,具有如下优点:实时处理、处理中英文混合字 符串、大规模多关键字( 千级以上,可能达到十万级) 。比较著名的算法包括: 基于d f a 的a h o c o r a s i c k 算法,简称为a c 或者a c 7 5 ,是最早的一 种多模式匹配的线性算法,该算法应用有限自动机巧妙地将字符比较转化 为了状态转移,使得时间复杂度在o ( n ) ,并且与具体模式的长度和模式 集的大小无关。其主要缺点是,关键字较大时可能产生空间膨胀问题。 c o m m e n t z w a l t e r i t ,简称为c w ,1 9 7 9 年提出,是a c 和b m 的一种 结合,可以认为是b m 类算法在多模式问题上推广,实现了跳跃式处理 文本。 a c 和q s 结合的反向自动机” ,王永成等人提出的结合q s 的反向自动 杌多模式匹配算法,而且是针对纯中文的处理算法。该算法的时间复杂度 在最优情况下,0 【r d ( m i n l e n + 1 ) ,最差情况下o n 4 m a x t e n 】,预处理时 问复杂度:o i p i 。 w u s u m 和u d i m a n b e r 的a g r e p ( n j ,是多模式中最为著名的快速匹配算法 ,之一,对处理大规模的多关键字匹配问题有很好的效果。 d a w g m a t c h f l 4 ,d a w g 是一种后缀自动机( s u f f i xa u t o m a t o n ) ,是 建立在模式集p 上,能够辨认出模式集p 中所有关键字后缀的确定型自 动机。这种思想主要是a c 和r f 的结合结果。 r a f f i n o t 的m u l t i b d m l ” ,在上述的a c 和d a w g 两种自动机扫描思想 上产生的多模匹配算法。根据匹配过程中使用时刻的不同,作者提出了两 种改进。在作者的实验中,处理大规模的多关键字匹配问题中有较好的优 势。 1 3 相关领域的进展 1 9 8 2 年,d e n n i n g 提出了信息过滤( i n f o m a t i o nf i l t e r i n g ) 的概念,他的目的 第5 撕共7 9 贸。 电子科技大学硕士学位论文高速网络的内容监控过滤技术的研究与实现 在于拓宽传统的信息生成与信息收集的讨论范围他描述了一个信息过滤的需求 例子,对于实时的电子邮件,利用过滤机制,识别出紧急的邮件和一般例行邮件, 他采用了一个“内容过滤器”来实现过滤。其中采用的主要技术有层次组织的 邮箱、独立的私人邮箱、特殊的传输机制、闽值接收、资格认证等“们。 1 9 9 2 年,n i s t ( 美国国家标准和技术研究所) 与d a r p a 联合赞助了每年 一次的t r e c ( t e x t r e t r i e v a lc o n f e r e n c e 文本检索会议) ,对于文本检索和文本 过滤倾注了极大的热忱。t r e c 会议上两个传统的任务是路由寻径( r o u t i n g t a s k ) 和专项检索( a dh o ct a s k ) ,而过滤( f i l t e r i n gt r a c k ) 是路由寻径任务的重要 予项目。在t r e c 一7 之前,过滤项目都是以大规模语料作为训练集,使每一个主 题( t o p i c ) 都有相应的相关文档集,然后在新语料中进行测试。从t r e c 一7 开 始过滤项目再度细分,可以通过三种方式进行文本过滤,即适应性过滤( a d a p t i v e f i l t e r i n g ) 、批过滤( b a t c hf i l t e r i n g ) 和路由寻径( r o u t i n g ) 。t r e c 在最近的 几次会议中,着重于文本过滤的理论和技术研究以及系统测试评价方面,对文本 过滤的形成和发展提供了强有力的支持,目前t r e c 的过滤任务要求对用户的 信息需求自适应、实时地从具有时序的文本流判断每篇文本是否相关,主要是模 拟时间要求很高的文本过滤应用。 s t a n f o r d 大学的t a k ,w y a n 和h e c t o rg a r c i a - m o l i n a 开发了基于内容的过 滤系统s i f t ( s t a n f o r di n f o m a t i o nf i l t e r i n gt 0 0 1 ) 。该系统用于因特网上新闻组 的过滤,它使用向量空间模型来实现用户信息需求与新间资料之间的匹配,它的 用户信息需求,即用户模型( u s e r p r o f i l e ) ,是由用户通过提交喜欢的词汇和想 要避免的词汇手工建立的,井且可以自我更新,s i f t 每天为每个用户模型提供 2 0 个排序输出的文本,用户利用w w w 浏览器来选择自己感兴趣的文本。s i f t 对于建立用户模型提供了非常便利的机制。初始时依据当天的文本,让用户确定 哪些文本可以接收,哪些可以拒绝,允许用户在文本集合中调整文本的位置,感 兴趣的文本在上方,通过反复调整,构成用户模型为了维护用户模型,在使用 w w w 浏览器处理文本时,那些对文本排列顺序起作用的词汇给予加亮显示。通 过检查那些建立模型时所未能预见词的上下文环境,用户可以选择附加的词汇, 将其加入不感兴趣的词汇列表中。s i e t 提供了一个高效的过滤算法。由于将大 量的用户模型与中心服务器上的因特网上的每条新闻相比较,工作量很大,有效 的方法是将用户模型分组,分组处理模型比起单个处理显然效率要高,这样可以 箱6 砸共7 9 页 电子科技大学硕士学位论文高速网络的内容监控过滤技术的研究与实现 将一组文本分配给一组兴趣相同的用户。 s t e v e n s 研制的i n f o s c o p e 系统采用自动用户兴趣模型学习机制,降低通过上 下文环境构造用户模型的复杂度。它是基于精确匹配规则的系统,通过观察用户 阅读行为,如阅读花费的时间、是否选择保存等,提出相应的过滤规则。i n f o s c o p e 为了减轻用户认知负担,极力避免用户对于每个文本的明确取舍判断,由于受当 时计算机处理能力的限制,它仅能处理每个文本的头部信息,如主题、作者、新 闻组名等信息。此外,处于探讨用户和机器之问合作潜能的目的,它采用了基于 规则的严格匹配机制。因为用户可以经常地描述所使用的选择规则,s t e v e n s 认 为规则改变的可视化比起通常依据排序输出来改变模型的难度要小。i n f o s c o p e 的机器辅助用户模型学习机制、用户可控的提取机制、隐式的用户反馈使它成 为基于内容过滤的典型例子。 a t t 实验室的w i l l i a mw c o h e n 在文献1 中提出一种用于邮件分类的规 则学习方法。针对邮件信息的特殊性,提出基于r i p p e r 的规则学习算法的新 的用于学习关键词规则的方法。 w e b s i f t 是m i n n e s o t a 州立大学计算机系的r o b e r tc o o l e y 等人,于发的w e b 站点信息过滤系统( w e bs i t el n f o m a t i o nf i l t e rs y s t e m ) j 8 】。他们指出,在w e b 挖掘中有三种重要的信息用户行为、网页内容与结构。该系统使用站点的内容和 结构信息来自动生成信念集,利用信念集确定潜在兴趣。系统采用w e b m i n e r 原型方法将w e b 挖掘过程分为三个主要部分预处理、挖握算法和模式分析。文 中假设内容与结构数据是w e b 站点主要知识的载体,并且网页之间的连接说明 网页之间是有关的。结果用支持度表示。实验结果表明,在过滤发现规则中,即 使最简单的结构信息在表示主要信息时的效率也是很高的。 此外,路易斯安娜州立大学的s a l v a d o rn i e t o s a n c h e z 等人将o c a t 挖掘算法 用于文本分类 1 9 - 2 1 ,根据正反例集合训练得到规则集合,每条规则均接受所有正 例集同时拒绝所有反例集,并根据规则判断新文档。该方法用布尔模型表示文本, 忽略了词的权重信息,优点是对新文档的判别速度高于其他方法。 在国内,清华大学的曾春等人提出的基于内容的个性化搜索算法2 2 1 利用领域 分类模型上的概率分布表达用户的兴趣模型,给出相似性计算和用户兴趣模型更 新的方法。在文档和用用户模型的表达上,首先建立一个领域分类模型,然后计 算所有文档和用户兴趣在此分类模型上的概率分布,用该概率分布表达文档和用 第7 页共7 9 页 电子科技大学硕士学位论文高速网络的| j = | 容监控过滤技术的研究与实现 户兴趣,很好地体现了用户兴趣的多样性。用户模型建立之后,根据用户的当前 动作如添加书签、下载文档、忽略文档等调整特征权重及概率矢量,从而更新用 户兴趣模型。 清华大学的田范江等人提出进化式信息过滤方法l ,从多个角度描述用户的 信息要求,通过类似自然选择的过程,达到系统整体过滤的优化,并参照面向对 象程序设计语言的设计思想引入了继承、类捌的概念,增加过滤系统的易用性。 对互联网中信息安全的智能过滤,大都还在系统结构框架级的研究层次上。 主要有: 西安交通大学的n i f s ( n e t w o r ki n f o r m a t i o nf i l t e rs y s t e m ) 系统3 ,该系统 将信息过滤模型分为获取、处理、匹配和表示四个部分,对于文本信息采用三级 过滤模型:内核过滤、特定信息域过滤和文本特征向量过滤。在文献 2 4 中分 别对系统的各个模块的功能与实现进行了阐述,对信息内容的过滤基本采用了传 统的v s m 方法进行分析。 上海交通大学的刘琪、李建华在文献 2 5 中提出了一种内容安全过滤系统的 框架,将系统分为内容检查与结果处理两部分,其中内容检查包括关键字检索、 模糊检索和自然语义分析三个层次。 北京图形研究所的孙春来等针对网络信息的保密要求在文献 2 6 3 中阐述了 基于内容过滤的网络内容监控系统( o f n m s ) 的总体设计框架以及各个摸块的主 要功能。文中指出,网络安全应该包括:保证信息处理和传输的运行系统安全; 网络上系统信息的安全包括用户口令鉴别、用户存取权限控制、数据存取权限和 方式控制等;网络上信息传播的安全包括防止和控制非法、有害的信息传播;网 络上信息内容的安全侧重于保护信息的保密性、真实性和完整性。并指出基于内 容过滤的网络监控技术是在防火嫱上的进一步发展,它实时监视所有进出网络的 数据包,对指定协议的数据包拆包检查,利用智能信息检索技术判断,对泄密文 件或非法文档进行扣留。 电子科技大学的卢军等人使用代理服务器方案构架了一个实时信息检测和 过滤系统( r i f s ) 2 7 1 ,信息数据进入代理腋务器后,通过过滤器的过滤之后转 发,过滤器依据规则集含库中的规则对信息进行过滤,过滤后的合法信息通过代 理服务器转发到用户,非法信息则被抛弃,同时通过反馈机制进行反馈跟踪,动 态地调整规则集合库中的规则。采用新型的关键词集合匹配方法( s k p s m m ) 第8 页共7 9 页 电子科技人学硕士学位论文高速网络的内容监控过滤技术的研究与实现 对信息进行检测和过滤,该方法首先构造一个关键词集,之后判断字符流中是否 出现了关键词集中的一个或一个以上的关键词,若出现判定该字符流为非法流。 目前,已有一些用于内容安全过滤的产品,如n e t m a t r o n 网络保姆、 s c a n m a i lf o rm i c r o s o f te x c h a n g ee m a n g e r 电子邮件内容安全过滤系统、i n t e r s c a n e m a n a g e r 电子邮件内容安全过滤系统、针对末成年人设计的“网络爸爸反黄软 件”等。但这些己有软件内容安全的实现是利用目的地址与已有的不良网站网址 厍的匹配来禁止对该网站的访问,或将网页内容进行关键字匹配从而禁止列该网 页的浏览。由于非法内容的多样性与动态性的特点,单使用静态的地址库和固定 的关键宇是不能满足过滤要求的。 s u c f c o n t r o i 公司的内容过摅器是专门针对用户不想看到的网络内容进行过 滤的软件产品,它对网页、邮件的内容的过滤依然是基于用户录入的分类的关键 宇及其权重的简单过滤。 目前的国内的网络内容监控过滤系统都是针对家庭用户或者企业网络的,目 前还未见有针对省级和国家级骨干网络的信息监控系统,并且大多只支持u r l 过滤、t c p 端口过滤以及上网行为记录功能,对于应用层数据内容的分析功能十 分有限。 1 4 本文主要工作及论文结构安排 本文主要研究了针对高速超高速的省级和国家级骨干网络,面向各种应用层 数据的网络内容过滤算法和监控系统的实现。该系统的目标是能够在不影响主流 业务开展的情况下,对所属管理域内的网络上的用户使用网络的行为和在网上传 输的信息内容进行完全监控。配置不同的协议分析模块和网络信息采集设备,既 可以实现对t c p i p 网络的监控,也能够实现对移动业务短消息的监控, 本文所实现的网络内容盔控系统的基本工作原理是根据设置的安全策略,采 用关键字匹配或者语义分析等技术手段,对经过被监控点的数据报文进行检查, 如果满足安全性要求就进行正常的路由转发,否则根据安全策略的规定进行相应 处理。但是,由于通信带宽的增长远远超过了计算机处理能力的增长速度,要对 满负荷运行的高速网络进行实时监控,涉及一系列的关键技术,包括计算分解、 状态检测、关键字匹配算法等。 本文一共分为7 章,结构安排如下: 第1 章主要论述了课题背景,国内外相关技术的发展; 第9 页共7 9 页 电子科技火学硕士学位论文高速网络的内容监控过滤技术的研究与实现 第2 章主要介绍了网络内容监控系统的系统结构,应用模式和系统业务处理 流程; 第3 章主要介绍了信息监控过滤子系统得系统结构和信息监控过滤的处理流 程; 第4 章主要对信息监控过滤中的报文分拣重组的设计和实现进行了论述,主 要涉及到报文分拣、各种协议的t c p 连接管理和数据流的排序; 第5 章主要论述了针对s m t p 和p o p 3 的协议解析的设计和实现,主要涉及 协议命令的识别和处理、协议数据数据提取和处理; 第6 章主要论述了对数据内容进行扫描过滤的内容过滤模块的设计和实现, 其重点是讲述q s 单模式匹配算法的实现和基于有限自动机的思想的高性能多关 键字匹配算法( a h o c o r a s i c k 算法) 的设计和实现以及分包过滤算法的漏报问题 的解决; 最后第7 章总结了全文的研究工作,指出了需要进一步研究的问题。 第1 0 页共7 9 页 电子科技大学硕士学位论文高速网络f 勺内容监控过滤技术的研究与实现 第2 章网络内容监控系统的体系结构 2 1 监控系统体系结构概述 网络内容监控系统是纯软件系统,它在l i n u x 和w i n d o w s 平台上开发, 部分模块可以方便地移植到其它专用系统( 包括用户自行研发的嵌入式系统) 中。 网络内容监控系统可以部署在局域网出口处,对网络内访问外部资源的数据 包进行监控和过滤;也可以连接在局域网内部,监控和过滤网络内部的通讯。如 果把监控软件移植到处理能力比较强的专用系统上;还可以接在运营商的骨干刷 或者局域网络的出入口处,以监控该运营商网络内用户的通讯数据。此外,除了 整个网络内容监控系统和受控系统的整合之外,系统的一部分也可以和受控系统 合作,完成本系统的部分功能。如:只监控,不采集;只监控,不处理等等。 图2 1 给出了网络内容监控系统的种应用方式。 图2 1网络内容监控系统纽阿示意图 网络内容监控系统采用多业务处理机集群的方式,每台业务处理机可以处理 一种或多种业务。各个业务处理机独立、并行处理数据包,可以根掘网络流量大 小动态地增加或减少业务处理机数量。 第1 1 页共7 9 页 电子科技大学硕士学位论文高速网络的内容监控过滤技术的研究与实现 一般来说,网络内容监控系统不仅可以监控和过滤其所辖系统的邮件数据、 f t p t f t p 、t e l n e t 、h t t p h t t p s 、c h a t 、i c q 、0 s p f b g p r i p 、n e t m e e t i n g 等协议的内容,还可咀作为互联网短消息监测中心使用,对来自互联网的短信进 行监控和过滤。 当网络内容监控系统检测到网络安全管理员设定的需要监控的目标数据包 时,将根据设定的处理方式进行处理,处理方式包括:存储、丢弃、伪造和上报 等等。 通过对需求进行系统地分析,我们把网络内容监控系统分为管理中心子系 统、信息采集子系统、信息监控过滤子系统、信息处理子系统和存储备份子系 统。系统结构如图2 2 所示。 外部接口 外部接口 外部接口 需 网络内容 监控系统 酉。2 2 网络内容监控系统的组成 管理中心子系统:包括系统配置软件模块、监控台软件模块和s p d m p 软 件模块。其中,系统配置软件模块完成用户和组管理、系统设置、策略 配置管理、配置更新管理、系统设备管理和数据管理六大功能;监控台 软件模块完成实时监控数据的显示、监控数据的查询、统计和各种报表 的生成等功能;s p d m p 软件模块完成各种配置策略的分发和各个子系统 之间的通信支撑功能。系统配置软件模块、监控台软件模块和s m d m p 软 件模块的w i n d o w s 侧在普通p c 机上开发,使用w i n d o w s 操作系统,s p d m p 软件模块的l i n u x 侧在专用服务器上开发,采用目前比较流行的l i n u x 操作系统。 第1 2 页共
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高项成本补偿合同模板(3篇)
- 高速公路护坡施工合同(3篇)
- 高速服务区施工合同(3篇)
- 安福县协管员招聘面试题及答案
- 无人机展览现场搭建与无人机飞行表演培训合同
- 产业链上下游企业股权整合及供应链优化合同
- 餐饮店铺转租与经营许可捆绑合同
- 房地产公司挂靠合作项目转让合同范本
- 人教部编版八年级道德与法治-下册-第三单元-人民当家作主-单元练习
- 经贸专业的面试题及答案
- 疼痛介入治疗的护理
- DB44-T 2542-2024 自然教育基地建设规范
- 《拒绝努力羞耻症》学习动力主题班会课件
- 2025AICon全球人工智能开发与应用大会-上海站:昇腾推理技术的优化实践
- 第2课 信息技术伴成长教学设计-2025-2026学年小学信息技术(信息科技)第八册(2019)电子工业版(安徽)
- 2025年中国酒店行业白皮书-
- 2025年市场运营专员资格考试试题及答案解析
- 煤矿井下爆破培训课件
- 2025年老年病康复护理技巧应用考核试卷答案及解析
- 2025年医疗卫生信息化系统操作考核答案及解析
- 2025年 七年级上册语文第一单元测试卷含答案
评论
0/150
提交评论