已阅读5页,还剩144页未读, 继续免费阅读
(计算机应用技术专业论文)基于dht的分布式垃圾邮件处理系统关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着网络的普及,电子邮件与人们的工作生活联系日趋紧密,随之而来的 垃圾邮件问题日益严重。在分布式垃圾邮件处理领域,基于n i l s i m s a 摘要的垃 圾邮件识别技术和基于信誉机制的垃圾邮件阻截技术占有重要的研究地位。但 是,由于n i l s i m s a 摘要生成方式和比较方式的特殊性,目前的垃圾邮件处理系 统基本上采取集中方式处理邮件n i l s i m s a 摘要,这严重影响了系统的查询效率 和可扩展性。同时,由于现有的原始信誉值计算方法不能精确地反映目标结点 的当前状态,信誉值的计算结果难以满足垃圾邮件控制策略的要求,因此,高 效的、比较适用于垃圾邮件阻截的结点信誉度生成算法也需要进行认真地研究。 针对这些问题,本文对基于d h t 网络的n i l s i m s a 摘要发布和查询方法、邮件服 务器信誉度生成算法以及垃圾邮件服务器阻截方法进行研究。论文的主要贡献 如下: ( 1 ) 针对邮件n i l s i m s a 摘要不易分布式处理的问题,本文提出了基于c h o r d 的邮件n i l s i m s a 摘要发布和查询方法c h o r d n i l 。c h o r d n i l 以n i l s i m s a 向量长度 为键值,能够将相似邮件的n i l s i m s a 摘要发布到相同或相邻的结点上。论文讨 论了c h o r d n i l 方法的理论依据,分析了c h o r d n i l 的查询效率,并利用折叠发布 模式解决负载均衡问题。利用互联网采集的邮件样本,论文进行了多项仿真实 验,证实了c h o r d n i l 方法的有效性。实验结果显示,查询2 5 的结点,c h o r d n i l 就可以保证8 0 的查全率。c h o r d n i l 充分利用了c h o r d n i l 网络的拓扑结构特点, 相似n i l s i m s a 摘要的查询限制在相邻结点之间,查询效率相对较高。 ( 2 ) c h o r d n i l 主要问题是会将文本体重复的相似邮件发布到不相关的结点上。 针对这个问题,论文提出了另一种邮件n i l s i m s a 摘要发布和查询方法d h t n i l 。 d h t n i l 利用v o r o n o i 空间划分方法将n i l s i m s a 所在的二值化刀维q 空间划分成 多个互不重叠的子空间,并通过将子空间映射到d h t 网络结点的方法将相同或 相似文档的n i l s i m s a 摘要发布到少数几个结点上。论文对d h t n i l 的n i l s i m s a 摘 要发布和查询方法进行了详细地介绍和分析,并通过仿真实验证实了d h t n i l 方 法的有效性。从实验结果可以看到,d h t n i l 查询3 5 的子空间就能够保证8 0 以上的查全率。同时,d h t n i l 能使子空间上及d h t 网络结点上的负载基本保持 均衡,其结点负载方差与c h o r d n i l 中的折叠循环模式相当。 i 摘要 ( 3 ) 针对比值评价方法不能准确反映目标结点当前运行状态以及得到的信 誉值难以满足垃圾邮件控制策略的问题,论文提出了一种基于信誉机制的垃圾 邮件阻截方法m s r e p 。在信誉值的生成算法中,m s r e p 利用基于邮件汇总的方 法使计算出的原始信誉值更接近于目标结点的实际行为。同时,m s r e p 将模糊 控制方法引入m s r e p 信誉值计算,使得到的计算结果能够较好地满足系统阻截 垃圾邮件的要求。m s r e p 方法使用基于概率的阻截技术过滤垃圾邮件,它控制 简单,能够较大幅度地提高系统中正常邮件率。 ( 4 ) 利用论文提出基于信誉机制的垃圾邮件阻截方法m s r e p 和邮件n i l s i m s a 摘要发布查询方法d h t n i l ,论文设计了一个基于d h t 的分布式垃圾邮件处理系 统d h t f i l t e r ,并对其进行了原型实现。论文讨论了d h t f i l t e r 系统的可靠性保证、 共享信息的存储结构等关键问题,并通过仿真实验研究了垃圾邮件的生存周期、 目标结点的评价信息数量对信誉值计算的影响等问题。同时,论文给出了系统 中n i l s i m s a 摘要的淘汰方法和目标结点评价信息的选择和更新方法。 关键词:垃圾邮件n i l s i m s av o r o n o i 图信誉机制模糊控制 i i a b s t r a c t a b s t r a c t w i t ht h ep o p u l a r i t yo fi n t e m e t ,e m a i lh a sa g r e a ti m p a c to np e o p l e sw o r ka n d l i f e m e a n w h i l e ,t h ep r o l i f e r a t i o no fs p a mh a sb e c o m ea ni n c r e a s i n g l y s e r i o u s p r o b l e mi nt h es c o p eo fw o r l d i nt h er e s e a r c ho fd i s t r i b u t e da n t i s p a mf i l t e r i n gf i e l d , b o t ho ft h es p a mi d e n t i f i c a t i o na p p r o a c hb a s e do nn i l s i m s ad i g e s ta n dt h eb l o c k i n g a p p r o a c hb a s e do nm a i lr e p u t a t i o nm e c h a n i s mp l a yt h ei m p o r t a n tr o l e s h o w e v e r , d u e t ot h ec h a r a c t e r i s t i c so fn i l s i m s a ,n i l s i m s ad i g e s t sa r em a i n l ys t o r e da n ds e a r c h e di n t h ec e n t r a l i z e dm a n n e r s i n c et h en u m b e ro fd i g e s t si na n t i s p a ma p p l i c a t i o n si s u s u a l l yv e r yl a r g e ,t h ea p p r o a c hw h i c hp r o c e s s e sn i l s i m s ad i g e s t si nc e n t r a l i z e d m a n n e rh a sp o o rs c a l a b i l i t y m e a n w h i l e ,b e c a u s et h ee x i s t i n ge v a l u a t i o nm e t h o d s c a n n o tr e f l e c tt h es i t u a t i o no ft h et a r g e tn o d ea c c u r a t e l ya n dt h er e p u t a t i o nv a l u ei s d i f f i c u l tt oa p p l yt ob l o c kt h es p a mn o d e s ,t h ee x t e n s i v es t u d yo ne f f e c t i v er e p u t a t i o n g e n e r a t i o na l g o r i t h m w h i c hi ss u i t a b l ef o rb l o c k i n gs p a m a p p l i c a t i o n s i sa l s o n e c e s s a r y t oa d d r e s st h e s ei s s u e s ,t h ea p p r o a c h e st op u b l i s ha n dl o o k u pn i l s i m s a d i g e s t si nd h t , t h ea l g o r i t h mt og e n e r a t em a i ls e r v e r r e p u t a t i o na n dt h ea p p r o a c h e s t ob l o c kt h es p a mn o d e sa r es t u d i e di nt h i sp a p e r t h em a i nc o n t r i b u t i o n sa r el i s t e da s f o l l o w i n g : ( 1 ) t os o l v et h ep r o b l e m sw h i c ht h en i l s i m s ad i g e s t sa r ed i f f i c u l tt op r o c e s si n d i s t r i b u t e dm a n n e r , w ep r o p o s ea na p p r o a c ht op u b l i s ha n dp e r f o r ml o o k u pf o r n i l s i m s ad i g e s ti nc h o r d :c h o r d n i l b yt a k i n gt h el e n g t ho fn i l s i m s av e c t o ra st h e k e y , c h o r d n i lc a np u b l i s ht h ed i g e s t so fs i m i l a rd o c u m e n t s t ot h es a m eo r n e i g h b o r i n gn o d e si nc h o r d w ea n a l y z et h el o o k u pe f f i c i e n c ya n dl o a db a l a n c i n g i s s u ei nc h o r d n i l ,a n di n t r o d u c e ds e v e r a le x p e r i m e n t si nt h i sp a p e r t h ee x p e r i m e n t r e s u l t sd e m o n s t r a t et h a tc h o r d n i li se f f e c t i v e n e s s t h es i m u l a t i o ne x p e r i m e n tr e s u l t s s h o wt h a tc h o r d n i lc a ng u a r a n t e ear e c a l lr a t eo fm o r et h e n8 0 w h e ns e a r c h i n g o n l y2 5 o fa l ln o d e s ( 2 ) s i n c et h en i l s i m s av e c t o ri sn o tn o r m a l i z e d ,i ti sv u l n e r a b l ef o rt h em a i l b o d yr e p e a ta t t a c k t os o l v et h i sp r o b l e m ,w ei n t r o d u c ea n o t h e ra p p r o a c ht op u b l i s h a n dp e r f o r ml o o k u pf o rn i l s i m s ad i g e s ti nd h t :d h t n i l d h t n i ld i v i d e st h e i i i a b s t r a c t n i l s i m s ad i g e s tv e c t o rs p a c ei n t oan u m b e ro fs u b s p a c e sa c c o r d i n gt ov o r o n o i m e t h o d , a n dp u b l i s h e st h es i m i l a rd i g e s t st oo n eo raf e wk n o w nn o d e sb ym a p p i n gt h e s u b s p a c e st od h t n o d e s i nt h i sp a p e r , w ed i s c u s sd h t n i l sp u b l i c a t i o na n dl o o k u p a l g o r i t h mi nd e t a i l ,a n de v a l u a t et h ee f f e c t i v e n e s so fd h t n i lt h r o u g hs i m u l a t i o n e x p e r i m e n t s t h ee x p e r i m e n tr e s u l t sd e m o n s t r a t et h a td h t n i lc a ng u a r a n t e ear e c a l l r a t eo fm o r et h e n8 0 w h e ns e a r c h i n go n l y3 5 o fa l ls u b s p a c e s m e a n w h i l e , d h t n i lc a na c h i e v et h e1 0 a db a l a n c e t h eo v e r a l ll o a dd e v i a t i o ni nd h t n i li sa l m o s t s a m ew i t hc h o r d n i l sf a n f o l dm o d e ( 3 ) t oa d d r e s st h ep r o b l e m sw h i c ht h er a t i o b a s e de v a l u a t i o n sc a n n o tr e f l e c tt h e s i t u a t i o no ft h et a r g e tn o d ea c c u r a t e l ya n dt h er e p u t a t i o nv a l u ei sd i f f i c u l tt oa p p l yt o b l o c kt h es p a mn o d e s ,w ep r e s e n ta 1 1a p p r o a c ht ob l o c ks p a mn o d eb a s e do n r e p u t a t i o nm e c h a n i s m :m s r e p i n s t e a do fc o l l e c t i n gt h er a t i o - b a s e de v a l u a t i o n s , m s r e pc a l c u l a t e st h et a r g e t sr a wt r u s tv a l u eb ya g g r e g a t i o n b a s e ds t r a t e g y , w h i c h c a nm a k et h er a wt r u s tv a l u ei sc l o s e rt ot h ea c t u a lb e h a v i o ro ft h et a r g e tn o d e a tt h e s a m et i m e ,f u z z yc o n t r o lt e c h n o l o g yi si n t r o d u c e dt og e n e r a t et h er e p u t a t i o n b y m s r e p t h es i m u l a t i o ne x p e r i m e n t sv e r i f yt h a tm s r e pc a nr e d u c es p a mr a t i oi n s y s t e m ,a n dt h er e p u t a t i o nt h a tg e n e r a t e db ym s r e pc a l lm e e tt h er e q u i r e m e n t so 。f b l o c k i n gt h es p a r en o d e s ( 4 ) d h t f i l t e r , ad i s t r i b u t e da n t i s p a ms y s t e mi sd e s i g n e db a s e do nt h em s r e p a n dd h t n i li nt h i sp a p e r w ep r e s e n tt h ed h t f i l t e r sa r c h i t e c t u r ei nd e t a i l ,a n a l y z e t h ei n f l u e n c eo ft h en u m b e ro fe v a l u a t i o n so nt h er e p u t a t i o ng e n e r a t i n g ,a n dg i v ea s t u d yo fs p a m sl i f ec y c l eb a s e do ns i m u l a t i o ne x p e r i m e n t s t h ed h t f i l t e r s r e l i a b i l i t y , t h ed a t as t r u c t u r eo ft h es h a r e di n f o r m a t i o n ,t h ed i s c a r d i n gm e t h o do f n i l s i m s ad i g e s t ,t h es e l e c t i n ga n du p d a t i n gm e t h o do ft a r g e t se v a l u a t i o na r ea l s o d i s c u s s e di nt h ep a p e r k e y w o r d :s p a r e ;n i l s i m s a ;v o r o n o id i a g r a m ;r e p u t a t i o nm e c h a n i s m ;f u z z yc o n t r o l i v 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本; 学校目录检索以及提供本学位论文全文或者部分的阅览服务;学校有 权按有关规定向国家有关部门或者机构送交论文的复印件和电子版; 在不以赢利为目的的前提下有权保存学位论文的印刷本和电子版,并 采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供, 学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:歹拐星芝一 山d 寥年i1 月2 d 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年 月日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体, 均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本 人承担。 学位论文作者签名:弓髟莲兄一 山。占年l1 月山日 第一章概述 第一章概述 第一节现代社会与垃圾邮件 电子邮件在现代社会中扮演着越来越重要的角色,它成为继书信、电报、 电话之后的又一主要通讯方式,并大有取代前者之势。据统计,截止2 0 0 7 年1 2 月,中国活跃的邮箱账号为6 5 9 亿,与2 0 0 6 年同期数据相比增长了5 3 3 【l 】。 但是,随着互联网中电子邮件的数量指数型的增长,垃圾邮件( s p a m ) 所占的 比例越来越大,从1 9 9 8 的1 0 上升到目前的8 0 左右【2 】。大量垃圾邮件充斥网 络用户的电子邮箱,严重影响人们的正常生活与工作。 垃圾邮件是发送者在没有获得允许的情况下,向众多不特定的、与自己没 有直接关系的接收者发送的广告、电子刊物等类的电子邮件【3 】【4 】【5 】。在垃圾邮件 中,发送者常常隐藏自己的真实身份和真实地址,并且不向接收者提供拒收该 类邮件的方法| 6 1 。同时,对于一类垃圾邮件而言,众多接收者收到邮件的内容完 全相同或基本相似【_ 7 1 ,其中的不同是发送者为了使垃圾邮件绕过反垃圾邮件系统 的阻截而特意制造的。 在垃圾邮件出现初期,收件人能够通过人工方式删除垃圾邮件。随着垃圾 邮件的逐渐增多,出现了一些客户端的垃圾邮件处理工具。但为了保证正常邮 件没有被误分为垃圾邮件,用户仍需要花费时间浏览系统分出的所有垃圾邮件。 为此,一些政府部门开始着手反垃圾邮件立法【8 1 的研究,一些厂商也开始提供可 以部署在邮件服务运营商和i s p 端的垃圾邮件过滤系统。尽管这些系统都声称能 够过滤9 5 以上的垃圾邮件【9 j ,但用户的邮箱仍然充斥着越来越多的垃圾邮件。 这一方面是由于巨大的垃圾邮件数量和以指数增长的速度【2 】【l o 】,另一方面是由于 垃圾邮件制造技术的智能化和复杂化【l 。这表明人们对垃圾邮件的理解和对反 垃圾邮件技术的研究仍然不足。 根据中国互联网协会反垃圾邮件中心公布的( 2 0 0 7 年第四次反垃圾邮件报 告1 1 2 1 ,2 0 0 7 年中国网络用户收到的垃圾邮件总量为6 9 4 亿封,与2 0 0 6 年的 5 0 0 亿封相比增长率为3 8 8 。个人邮箱平均每周收到垃圾邮件的数量为1 6 7 1 封,占全部邮件的比例为5 5 6 5 。2 0 0 7 年垃圾邮件给中国造成的损失达18 8 4 亿人民币,与2 0 0 6 年的1 0 4 3 1 5 亿相比增长了8 0 6 。m i k k os i p o n e n 等在文献 第一章概述 【1 3 】中对5 0 0 家大企业的邮件系统进行了研究,研究结果表明垃圾邮件的流量占 总邮件流量的8 1 6 ,用户平均每天需要使用1 3 分钟的时间处理垃圾邮件。 垃圾邮件的泛滥危害巨大【1 3 1 1 1 4 】【1 5 】【1 6 】。网络中大量的垃圾邮件不但占用宝 贵的网络带宽,而且会消耗大量中途转发设备和服务器的存储和运算资源,造 成邮件服务器拥塞,降低网络的运行效率,严重影响正常的邮件服务。同时, 过多的垃圾邮件也会侵占用户信箱空间,耗费用户的时间和精力,影响用户的 工作效率。有些恶意的、带有欺骗性的垃圾邮件【1 7 】常常以银行、网管、服务提 供者等名义骗取用户的密码、银行账号等机密信息,危害用户的隐私。如果垃 圾邮件被黑客利用,那么可以成为传播病毒、蠕虫等助纣为虐的工具。一些传 播反动、暴力、色情等内容的垃圾邮件对现代社会危害巨大。 我国是最严重的垃圾邮件受害国之一【l2 1 ,如何有效解决垃圾邮件造成的危 害已经成为中国信息化建设的当务之急。因此,深入研究反垃圾邮件技术,提 升垃圾邮件过滤准确率,缩短垃圾邮件处理系统的响应时间,阻止垃圾邮件的 传播具有重要的理论研究意义和实际应用价值。 第二节研究动机和内容 目前的反垃圾邮件技术主要包括常规垃圾邮件过滤技术和基于多机协作方 式的分布式垃圾邮件过滤技术。在常规垃圾邮件过滤技术中,基于邮件特征的 处理技术( 包括黑白名单、发送者身份认证、关键词匹配等) 和基于机器学习 的处理技术( 包括贝叶斯、支持向量机、k 近邻等) 已经被广泛应用于现有的垃 圾邮件处理系统中。由于垃圾邮件的分布具有地域上的发散性和时间上的突发 性等特点,因此,能够充分利用垃圾邮件全局特性的分布式垃圾邮件处理技术 越来越受到研究人员的重视。 在分布式垃圾邮件处理领域,基于摘要的垃圾邮件识别技术和基于信誉机 制的垃圾邮件阻截技术占有重要的研究地位。其中,基于摘要的垃圾邮件识别 技术利用一类垃圾邮件内容相同或相似的特点,通过邮件之间的相互比较判定 和识别垃圾邮件。而基于信誉机制的垃圾邮件阻截技术利用邮件系统各结点具 有“社会性的特点,通过跟踪发送结点的行为对其进行信誉评价,进而阻止 垃圾邮件结点发送垃圾邮件。 由于垃圾邮件系统之间传递完整邮件涉及到用户隐私及占用带宽的问题, 2 第一章概述 因此,分布式垃圾邮件处理系统之间邮件信息的传递、邮件信息的比对、邮件 信息的存储等通常采用摘要方式进行。n i l s i m s a 摘要生成算法在基于多机协作的 分布式垃圾邮件处理系统中占有重要地位,相关的研究9 】【1 8 1 和实践【1 9 】已经证 明了n i l s i m s a 算法在垃圾邮件处理中的有效性。由于n i l s i m s a 摘要的特殊性, 相似邮件的摘要在数值的大小上没有必然的关系,因此,n i l s i m s a 摘要的分布式 存储和查询一直都存在一定的问题。目前人们提出的方法和应用的系统基本都 采用了集中方式对n i l s i m s a 摘要进行处理。尽管文献 9 提出的方法可以将 n i l s i m s a 摘要分布存储于系统的超级结点上,但由于摘要的分布没有规律,查询 过程需要遍历所有的超级结点。n i l s i m s a 摘要的集中式处理使得摘要存储结点的 负担很重,这不但阻碍了系统的可扩展性,而且会带来系统的单点失效问题。 同时,采用洪泛方式的n i l s i m s a 摘要查询还会占用大量的网络带宽。按照我们 现有的知识,如果直接利用原始d h t 网络的发布与查询功能发布和查询n i l s i m s a 摘要,那么相似邮件的查询和比对可能需要遍历d h t 网络中的所有结点。 在反垃圾邮件技术领域,基于信誉机制的垃圾邮件阻截方法相对较新。由 于信誉机制引入垃圾邮件处理领域的时间不长,因此关于这方面的研究并不多, 很多问题亟待解决。其中,设计高效的邮件系统信誉度生成算法是基于信誉机 制垃圾邮件阻截技术中最重要的研究内容之一。在现有的信誉生成算法中,评 价结点通常将目标结点发送的正常邮件数和邮件总数的比值作为对目标结点的 直接经验评价【2 l 】【2 2 1 ,但通过分析可以看到( 见6 2 节) ,在一些情况下,这种评 价方法得到的结果与目标结点的实际行为有一定的偏差。同时,由于目前的系 统通常采用集中方式2 3 】【2 4 1 1 2 5 】【2 6 】或无结构对等网络方式2 1 1 1 2 2 1 存储和处理信誉信 息,因此,它们的可扩展性比较差。 针对以上问题,本文对d h t 网络上n i l s i m s a 摘要的发布和查询方法、邮件 服务器信誉度生成算法、以及基于d h t 的分布式垃圾邮件处理系统设计等相关 问题进行了研究和探讨。具体研究内容如下: 1 基于d h t 的n i l s i m s a 摘要发布和查询方法研究 针对n i l s i m s a 摘要分布式存储和查询比较困难的问题,本文在深入研究 n i l s i m s a 摘要生成算法和d h t 网络技术上,提出了两种基于d h t 网络的n i l s i m s a 摘要发布和查询方法:c h o r d n i l 和d h t n i l 。其中,c h o r d n i l 利用论文提出的 n i l s i m s a 向量使相似文档的n i l s i m s a 摘要发布到c h o r d 网络相同或相邻的结点上, 从而将相似邮件的搜索工作限制在少数几个相邻的结点上;d h t n i l 将n i l s i m s a 3 第一章概述 摘要空间划分成多个子空间,通过将子空间映射到d h t 网络的相应结点,使相 似的邮件摘要存储于少数几个已知的结点上。由于相似文档的摘要分布在少数 几个结点上,因此,在查询相似文档摘要时没有必要遍历d h t 网络中的所有结 点,查询过程也可以限制在少数几个结点上进行。利用互联网上捕获的邮件数 据和系统自动生成的数据,论文对c h o r d n i l 和d h t n i l 的查询效率、负载平衡等 进行了仿真实验,证实了c h o r d n i l 和d h t n i l 的有效性。仿真实验表明c h o r d n i l 和d h t n i l 基本上可以满足了n i l s i m s a 摘要分布式存储和查询的要求。 2 邮件服务器信誉度生成算法和分布式邮件信誉系统研究 针对现有的邮件信誉系统存在的问题,本文在借鉴d h t 网络信誉机制的基 础上,提出了一种基于邮件服务器的信誉度生成算法m s r e p 。m s r e p 改进了原 始信誉值的生成方法,使其更接近于目标结点的实际发送行为。同时,通过引 入模糊控制技术,m s r e p 能比较精确、有效地控制原始信誉值、历史信誉值和 信誉变化率三部分的权重,使生成的邮件服务器的信誉度更能符合阻截垃圾邮 件的要求。论文讨论了利用m s r e p 阻截垃圾邮件发送结点的方法并通过仿真实 验验证了该方法的有效性。 3 基于d h t 的分布式垃圾邮件处理系统设计及相关问题研究 基于d h t n i l 和m s r e p ,论文设计了一个基于d h t 的分布式垃圾邮件处理 系统d h t f i l t e r 。d h t f i l t e r 由一些邮件服务器结点通过d h t 覆盖网络互联而成, 它利用d h t n i l 发布和查询邮件的n i l s i m s a 摘要从而进行垃圾邮件识别。同时, d h t f i l t e r 利用m s r e p 对信誉度较低、经常发送垃圾邮件的结点进行阻截。论文 对d h t f i l t e r 系统的可靠性问题、n i l s i m s a 摘要的存储和淘汰问题、评价信息的 存储和选择问题等进行了详细的讨论。在d h t f i l t e r 分布式垃圾邮件处理系统中, n i l s i m s a 摘要和评价信息的存储是完全分布式的,垃圾邮件的判定和信誉度的计 算也是分布式的。d h t f i l t e r 克服了集中处理方式的缺陷,使系统的可扩展性大 大增强。 第三节论文结构 本文共分8 部分,具体结构如下: 本章介绍垃圾邮件的现状,分析了基于摘要的垃圾邮件识别技术和基于信 誉机制的垃圾邮件阻截技术存在的主要问题,阐述了论文研究动机和主要的研 4 第一章概述 究内容。 第二章介绍了垃圾邮件阻截与过滤技术的研究现状,探讨了垃圾邮件过滤 技术中常用的摘要生成算法、基于摘要的分布式垃圾邮件处理系统和基于信誉 机制的垃圾邮件阻截系统采用的主要技术路线及存在的问题。 第三章在介绍了d h t 网络的发展现状的基础上,讨论了d h t 网络中信息 发布与查询技术,探讨了d h t 网络的信誉机制。同时,该章较为详细地描述c h o r d 、 c a n 、p a s t r y 等d h t 网络路由协议。 第四章和第五章分别介绍了论文提出的n i l s i m s a 摘要发布与查询方法: c h o r d n i l 和d h t n i l ,给出了这两种发布和查询方法的理论依据,对算法的有效 性和负载均衡等问题进行了深入的分析和探讨。 第六章将d h t 网络信誉机制和模糊控制技术引入基于信誉机制的垃圾邮件 阻截领域,提出了基于邮件服务器的信誉度生成算法m s r e p 。论文对原始信誉 值的生成、参数的模糊控制以及利用m s r e p 阻截垃圾邮件的方法进行了讨论。 第七章设计了一个基于d h t n i l 和m s r e p 的垃圾邮件处理系统d h t f i l t e r , 探讨了系统的可靠性问题、信息的发布和存储问题等。 第八章总结了c h o r d n i l 、d h t n i l 、m s r e p 和d h t f i l t e r 的特点和存在的问题, 给出了进一步研究的方向。 5 第二章研究现状 第二章研究现状 针对垃圾邮件问题日益严重的现状,人们开始从多方面寻找解决方案,涌 现出大量的学术论文和应用系统。其中,过滤和阻截技术是目前反垃圾邮件技 术中最常用、最有效的技术。现有的垃圾邮件过滤和阻截技术可以分为两类, 一类为传统的基于单机处理的垃圾邮件过滤和阻截技术,另一类为基于多机协 作方式的分布式垃圾邮件过滤和阻截技术。本章简单介绍垃圾邮件过滤和阻截 技术的研究现状。 第一节传统的垃圾邮件过滤和阻截技术 传统的垃圾邮件过滤和阻截技术包括两种,一种是基于邮件协议特征的过 滤和阻截技术,另一种是基于概率统计的垃圾邮件过滤和阻截技术。 2 1 1 基于邮件协议特征的过滤和阻截技术 基于邮件协议特征的过滤和阻截技术是一种最基本的垃圾邮件过滤和阻截 技术,它从电子邮件的结构和传输协议出发,利用垃圾邮件在发件人、收件人、 主题等域的特征和传输协议特征对邮件实施过滤和阻截。 ( 1 ) 黑白名单技术:黑白名单技术【2 6 】【2 8 】【2 9 】是一种粗粒度的邮件过滤和阻 截技术,它通过使用邮件的源i p 地址列表对垃圾邮件实施过滤和阻截。但是, 由于白名单技术限制了电子邮件系统的开放性,黑名单技术很容易被使用动态 地址的垃圾邮件绕过,因此黑8 名单技术并不是非常有效,一般作为辅助手段 与其他过滤和阻截技术联合使用。 ( 2 ) 发送者身份认证技术:s p f 技术【3 、d m p 技术【3 2 1 、t e o s 技术【3 3 】、s e n d e r i d 技术【3 4 】【”】等都属于发送者身份认证和识别技术范畴。它们通过验证每个邮件 的源地址是否是发送者所声称的源地址阻截垃圾邮件。其中,s e n d e ri d 技术是 微软向i e t f 提交的一种发送者身份认证技术,目前已被近5 0 合法的邮件服务 器采用。在s e n d e ri d 技术中,邮件的发送者首先需要在d n s 系统中发布哪些 邮件服务器可以发送邮件以及发送邮件的策略。在邮件发送过程中,接收者检 查发送者的i p 是否已经登记并且符合发送服务器的发送策略,如果符合则接收 6 第二章研究现状 邮件,否则拒绝。但是,由于涉及到部分或整个邮件系统基础设施的修改,因 此,所有邮件系统都采用发送者身份认证技术也不是一件易事。 ( 3 ) 基于规则的过滤技术:基于规则的过滤技术【l9 】【3 6 l 将垃圾邮件的各种特征 总结成多条规则,并按照重要程度对每条规则分配分值。接收邮件时,通过逐 一匹配每条规则计算总分。如果超过一定的阈值,那么系统阻截邮件。但是, 过滤规则需要不断的发现和总结,没有经验的用户很难为系统提供有效的规则。 同时,每条规则在总体规则中占有的权值、过滤邮件使用的阈值都很难确定。 随着时间的变化,垃圾邮件的特征也在不断变化,过时的规则使系统的过滤性 能大打折扣。 2 1 2 基于概率统计的过滤和阻截技术 基于概率统计的过滤和阻截技术是目前应用最广泛的过滤和阻截技术之一, 它通过文本分类技术对邮件内容进行分析识别,进而过滤和阻截垃圾邮件。 s e b a s t i a n i 在文献 3 7 】中给出了邮件过滤器的定义:给定文本集合d = d l , 冼,弓,d l d i 和分类集合c = c i = s p a m ,c 2 = l e g i t i m a t e ) ,其中磅为集合d 中 的第,个邮件,c 为可分为类的标识符集合。垃圾邮件自动过滤器的任务就是建 立一个布尔型的分类函数西( 蟊c i ) :d c - - * t r u e ,f a l s e 。当西( 磊c f ) 为t r u e 时,文 本西属于c ,类;当( 西c ,) 为而跆e 时,文本西不属于c f 类。在经过训练之后, 基于概率的分类器即可对邮件进行分类,进而过滤垃圾邮件。 目前,基于概率的邮件分类算法主要有贝叶斯、支持向量机、k 近邻方法等。 ( 1 ) 贝叶斯:贝叶斯分类方法是以贝叶斯定理为基础的统计学分类方法。 19 9 8 年,p a n t e l 等1 3 8 】和s a h a m i 等【3 9 1 成功将贝叶斯理论应用于垃圾邮件分类后, 基于贝叶斯的垃圾邮件处理技术便成了学术界研究和改进的热点 4 0 1 4 1 】【4 2 】【4 3 】【“】【4 5 】m 】。根据贝叶斯定理,一个事件会不会发生取决于这个事件之前 发生的概率,因此这种分类器首先从训练集中学习得知给定类中各属性的条件 概率值,然后再用贝叶斯规则计算某个新文档属于各个类的条件概率值,并用 最高后验概率做出预测。贝叶斯分类方法准确率高、分类速度快,是目前垃圾 邮件过滤系统应用最广泛的分类方法之一。 ( 2 ) 支持向量机:支持向量机s v m 是一种非常有潜力的分类技术【4 7 】【4 引,其 核心思想是寻找一个最优分类超平面,该超平面可以将训练集中的文档按类别 分开,且使类别之间的分隔最大。d r u c k e r 在文献【4 9 】中提出将s v m 应用于垃圾 7 第二章研究现状 邮件分类后,研究人员开始对s v m 在邮件分类中的准确率、速度等进行研究并 提出了很多改进方法【5 0 】【5 l 】【5 2 1 。z h a n g 等在文献 1 0 中对支持向量机和贝叶斯进行 性能对比,认为支持向量机在分类准确率、速度、资源占用等方面优于贝叶斯 方法。 ( 3 ) k 近邻:k 近邻算法是一种基于类比学习的分类方法。其主要思想是计 算文档与所有训练样本之间的距离,根据最接近的k 个训练样本的类别判断文 档所属类别。k 近邻需要存放所有的训练样本,直到新文档分类时才建立分类。 其优点是无需训练、实现简单,缺点是在分类阶段空间和时间复杂度高。 a n d r o u t s o p o u l o s 在文献 5 3 中将k 近邻引入垃圾邮件分类系统中并与贝叶斯方 法进行对比,得到了与贝叶斯方法相当的准确率和效率。 通过实验评估,l a i 等在文献 5 4 q h 认为基于概率统计的过滤技术识别垃圾 邮件的准确率基本在9 0 以上。但是,随着时间的变化,垃圾邮件的分布概率 和涉及内容都在变化,同时,垃圾邮件的制造者为了绕过过滤系统的阻截也会 在邮件内容用词、格式等方面进行变化【55 】【5 6 1 。由于基于概率统计的分类技术需 要首先收集垃圾邮件样本和正常邮件样本,并通过样本集对过滤器进行训练, 然后过滤器才能对目标邮件进行分类,因此,这种方法具有滞后性,新的垃圾 邮件很容易突破过滤规则的阻截。如果不进行再次的样本收集和训练,过滤器 的分类准确率会逐渐下降。 第二节分布式垃圾邮件过滤和阻截技术 由于垃圾邮件发送者总是在短时间内向大量的邮件用户密集地发送同一种 垃圾邮件1 6 】【5 7 1 ,因此不难想象垃圾邮件具有地域上的发散性和时间上的突发 性。同时,电子邮件系统具有社会属性,邮件系统中的用户、结点等相互协作 完成电子邮件的传递任务。当一个用户或结点发现一封垃圾邮件或发现一个制 造垃圾邮件的结点时,如果能够与团体中的其他成员共享,那么,整个系统识 别和阻截垃圾邮件的能力就会大大增强。 单机反垃圾邮件系统各自为政,无法利用垃圾邮件的这些全局特性。为了 充分利用垃圾邮件地域上的发散性和时间上的突发性这些全局特点,人们开始 研究多机( 或多用户) 协作方式的分布式垃圾邮件处理方法。k o n g 等在文献 5 8 的研究表明,协作方式的分布式处理技术阻截垃圾邮件非常有效且具有巨大的 8 第二章研究现状 潜力。但是,与单机反垃圾邮件方式相比,分布式垃圾邮件处理方法的研究处 于起步阶段,相关的研究成果和论文也与单机系统相差很多。 多机协作方式的分布式垃圾邮件处理方法并不是单机处理方法的简单组合, 分布式垃圾邮件处理方法需要解决垃圾邮件信息及信誉评价信息的存储、交换 等诸多新的问题。本节对分布式垃圾邮件处理技术中邮件摘要生成算法、基于 摘要的垃圾邮件识别技术、基于信誉机制的垃圾邮件阻截技术的研究现状进行 较为详细的讨论,探讨其工作机理和存在的主要问题。 2 2 1 邮件摘要生成算法 为了判定一封邮件是否为垃圾邮件,分布式垃圾邮件系统需要交换邮件信 息。出于隐私和占用网络带宽的考虑,系统之间交换完整的邮件内容并不是一 种很好的方式。因此,多机协作方式的分布式垃圾邮件处理系统通常采用基于 邮件摘要的处理技术,即将收到的邮件形成摘要,分布式系统之间通过邮件摘 要的传递判定邮件是否属于垃圾邮件。 邮件摘要生成算法应该使相同或相似的邮件产生相同或相似的摘要,因此 邮件摘要生成算法应该是本地敏感的。因为相容性哈希函数会使相似的邮件产 生完全不同的邮件摘要,所以,s h a - 1 、m d 5 等相容性哈希函数无法在基于摘 要的反垃圾邮件系统中直接使用。生成邮件摘要的本地敏感哈希函数应具备如 下特性【l8 】:邮件内
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年工业元宇宙数据迁移工具应用实践
- 新生儿黄疸的护理
- 城市轨道交通运营管理电子教案7-5 突发事件及应急处置-大客流、火灾
- 广西玉林市陆川县2026年第二学期期中阶段性练习九年级历史
- 美容手术术后护理健康教育
- 糖尿病患者的健康教育与生活方式干预
- 新生儿社交行为观察与引导
- 一级质控特殊科室病房管理检查评分标准
- 癫痫护理中的沟通技巧与患者教育
- 普外科疼痛护理
- 再生资源绿色回收分拣中心项目投资计划书
- 2026智能物流仓储自动化升级与REITs融资模式研究
- 2026年第37届“中国学生营养日”校园营养餐健康助成长课件
- 2026年内部审计师考试试卷及答案
- 四川省自然资源投资集团有限责任公司2026年上半年公开招聘考试备考试题及答案解析
- 粮食贸易企业制度规范
- 2026年阜阳卷烟材料有限责任公司新员工招聘4人笔试参考试题及答案详解
- 超声科产前筛查异常应急预案演练脚本
- CC2530技术与应用 教案全套
- (2026版)铁路货物运输规则课件
- 智慧树 创造性思维与创新方法 章节测试答案
评论
0/150
提交评论