(计算机应用技术专业论文)分布式垃圾邮件防范体系与技术研究.pdf_第1页
(计算机应用技术专业论文)分布式垃圾邮件防范体系与技术研究.pdf_第2页
(计算机应用技术专业论文)分布式垃圾邮件防范体系与技术研究.pdf_第3页
(计算机应用技术专业论文)分布式垃圾邮件防范体系与技术研究.pdf_第4页
(计算机应用技术专业论文)分布式垃圾邮件防范体系与技术研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)分布式垃圾邮件防范体系与技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 近年来,垃圾邮件的传播形式和内容已经出现了新的变化,其危害日益严重,而现有的 垃圾邮件过滤技术却不能很好地应对这种形势。为了进一步提高互联网抵御垃圾邮件风险的 能力,更好地满足用户对防范垃圾邮件的需求,本论文旨在基于垃圾邮件行为特征提出一种 协作式垃圾邮件防范体系;研究基于蜜罐原理的邮件帐户评价选择机制,实现垃圾邮件样本 的实时采集;研究规则共享与更新机制,实现规则联合推理与垃圾邮件协同防范。 本文具体的研究工作包括: 1 介绍现有的垃圾邮件过滤技术,主要对基于黑白名单的技术,基于统计的技术,基 于规则的技术以及基于关键字的技术进行分析。总结其中存在的主要不足。 2 针对现有的分布式垃圾邮件过滤系统的不足,提出新的分布式垃圾邮件防范体系并 给出其体系模型和丁作机理,对体系结构中的功能模块及其主要功能进行描述和定义,在此 基础上,对该系统的主要特点,即其协同性,快速免疫性和适应性进行了分析。 3 提出基于蜜罐原理的垃圾邮件样本采集方法,利用垃圾邮件的群发行为特征以及邮 件帐户统计特点进行“疑似”垃圾邮件样本采集。引入蜜罐帐户评价公式,实现蜜罐帐户选 择算法,动态地在电子邮件服务器中生成蜜罐集合,定期从蜜罐集合中采集“疑似”垃圾邮 件样本并用特征集合的形式表示样本集,从而实现样本的实时采集,提高垃圾邮件过滤的实 时性。 4 提出两级判断机制( 一级判断和二级判断) 。为了减少样本集的冗余,提高特征向 量的准确度,本论文提出一级判断机制,利用特征向量在样本集中的重复度对其进行第一次 判断,筛选出最新的“疑似”垃圾邮件的特征向量集。此外,二级判断是根据各邮件服务器 识别垃圾邮件的准确度,以及特征向量在各邮件服务中的重复度,实现联合判断,计算出垃 圾邮件特征的置信度,并淘汰掉置信度较低的特征向量,从而提高过滤规则的准确度,体现 系统的协作性。 本论文最后完成了原型系统的设计与实现,对系统的主要功能模块及相关算法进行了测 试和分析。 关键词:垃圾邮件,过滤,协作式,蜜罐,样本采集 东南大学硕士学位论文 a b s t r a c t w i t ht h ea d v e no fg r e a tc h a n g e si nt h ef o r ma n dc o n t e n to fs p a m ,t h eh a r m f u l n e s sh a s b e c o m i n gm o r ea n dm o r es e r i o u s e h o w e v e r , t h ee x i s t i n gt e c h n o l o g yo fs p a i nf i l t e r i n gc o u l dn o t c o p ew i t ht h i sp r o b l e m i nab e t t e rw a y i no r d e rt oi m p r o v et h ei n t e r u e t sr e s i s t i b i l i t ya g a i n s ts p a r e a n dm e e tt h eu s e r sd e m a n d so fh i g he - m a i ls a f e t y , ac o l l a b o r a t i v ea n t i - s p a ma r c h i t e c t u r ei s p r o p o s e db a s e do nt h es p a mb e h a v i o rc h a r a c t e r i s t i c s b e s i d e s ,am e c h a n i s mf o re v a l u a t i n ga n d s e l e c t i n gm a i lb o xi si n t r o d u c e df o rs p a r es a m p l e c o l l e c t i o n 。i no r d e rt oi n t r o d u c et h ec o l l a b o r a t i v e i n d u c t i o no ff i l t e r i n gr u l e sa n di m p l e m e n tac o l l a b o r a t i v ea n t i - s p a r es y s t e m ,t h ei s s u eo fs h a r i n g a n du p d a t i n go fr u l e si si n v e s t i g a t e di nt h i sp a p e r t h er e s e a r c hm a i n l yi n c l u d e s : 1 i n t r o d u c et h ee x i s t i n ga n t i - s p a mt e c h n o l o g yw i d e l yu s e d d i s c u s st h eb l a c kl i s t ,s t a t i s t i c s b a s e dt e c h n o l o g y , r u l eb a s e dt e c h n o l o g ya n dk e yw o r db a s e dt e c h n o l o g y s u m m a r i z et h e i rm a i n l y d e f i c i e n c i e so ff i l t e r i n gs p a m 2 。p r o p o s ean e wd i s t r i b u t e d - b a s e da n t i - s p a ma r c h i t e c t u r ea g a i n s tt h ed e f i c i e n c i e so ft h e e x i s t i n gt e c h n o l o g y t h em o d e l ,w o r k i n gm e c h a n i s ma n dm o d u l e so ft h i sa r c h i t e c t u r ea r e d i s c u s s e d f u r t h e r m o r e ,t h ef e a t u r e so ft h ea r c h i t e c t u r e ,n a m e l yc o o p e r a t i v i t y , q u i c ki m m u n i t ya n d a d j u s t a b i l i t y , a r ed e t a i l e d 3 d e s i g na l la p p r o a c hb a s e do nh o n e y - p o tt e c h n o l o g yf o rs p a r es a m p l ec o l l e c t i o n u s et h e s p a mb e h a v i o rc h a r a c t e r i s t i c sa n dm a i lu s e r ss t a t i s t i cf e a t u r et oc o l l e c tt h es u s p e c t e ds p a ms a m p l e ah o n e y p o t - a c c o u n te v a l u a t i o nf o r m u l ai si n t r o d u c e dt oi m p l e m e n tt h es e l e c t i o na l g o r i t h mt o d y n a m i c a l l yp r o d u c et h eh o n e y - p o ts e tf r o mw h i c ht h es a m p l ec a nb ec o l l e c t e dp e r i o d i c a u y i n o r d e rt od e c r e a s et h es p a c ec o m p l e x i t y , t h es u s p e c t e ds p a mi sr e p r e s e n t e db yf e a t u r ev e c t o r r e a l t i m ep r o p e r t yc a 纛b eo b t a i n e du s i n gt h i sa p p r o a c ha n dh e l pi m p r o v et h ep e r f o r m a n c eo fs p a m f i l t e r i n g 4 p r e s e n tad o u b l e - j u g d em e c h a n i s m ( p r i m a r y - j u d g ea n ds e c o n d a r y - j u d g e ) ,p r i m a r y - j u d g e u s e st h er e p e t i t i o nd e g r e eo ft h ef e a t u r ev e c t o ri nt h es a m p l es e t o f 稍c ht h er e d u n d a n c yc a nb e r e d u c e d i ta l s oi m p r o v e st h ea c c u r a c yo ft h ef e a t u r ev e c t o ra n dh e l p st os e l e c to u tt h en e w e s t f e a t u r ev e c t o ro ft h es u s p e c t e ds p a m ,b e s i d e s ,s e c o n d a r y - j u d g ef u l f i l st h ec o l l a b o r a t i v ei n d u c t i o n o ff i l t e r i n gr u l e s i tw o r k so nt h eb a s i so fm a i ls e r v e r sj u d g ea c c u r a c ya n dt h ef e a t u r ev e c t o r s r e p e t i t i o nd e g r e ei n s i d et h em a i ls e r v e r i tc a np r o d u c eac o n f i d e n c em a t r i xo ft h ef e a t u r ev e c t o r a n dw e e do u tt h o s e 旗凌l o w e rc o n f i d e n c e , w h i c hh e l p si m p r o v et h ea c c u r a c yo ft h ef i l t e r i n gr u l e s a n di m p l e m e n tc o o p e r a t i v i t ya m o n gm a i ls e l v e l 8 f i n a l l y , ap r o t o t y p es y s t e mo ft h ea r c h i t e c t u r ei sd e s i g n e da n dd e v e l o p e d , r e l e v a n tm o d u l e s a n da l g o r i t h m sa l ea l s ot e s t e da n da n a l y s e di nt h i ss y s t e m k e yw o r d s :s p a m ,f i l t e r i n g ,c o l l a b o r a t i v e ,h o n e y - p o t ,s a m p l ec o l l e c t i o n i i 图豳浸 图目录 图1 1 用户处理邮件的时间2 圈1 - 2 中国网民使用e - m a il 的频率2 圈1 - 3 使糖垃圾羹器件避滤软转的情凝3 图2 - 1s m t p 传输模裂7 图2 - 2 垃圾邮件层次特征1 0 圈2 - 3 基予统计的过滤过程1 2 图3 - 1s p a m n e t 模型1 6 圈3 - 2d a s s 体系模型1 7 图3 - 3d a s s 垃圾豁件防范过程1 9 图4 一l 电子邮件系统中的蜜罐帐户2 4 图4 - 2 蜜罐帐户选择流程2 6 图4 - 3 蜜罐帐户选择算法伪代码2 7 图4 - 4n il s i m s a 上作原理2 9 图4 - 5 特征向量数据结构3 0 图4 - 6 特征囱鼙集合数据结构3 0 图4 7 集合中元素数据结构3 0 圈4 _ 8 特征提取流程31 圈4 9 一级刿断算法伪代码3 3 图5 - 1 邮件服务器提交的特征向量矩阵3 5 图5 屯特征向量提交3 6 图5 - 3 二缀翔断算法伪代码3 9 图5 - 4 数据结构。4 0 图5 - 5 规则生成流程4 l 图5 - 6 过滤飙萸l 4 l 图5 - 7 规则发布4 2 图5 - 8 垃圾邮件过滤流程4 3 圈5 - 9r u 算法装入瓣剃过程。4 5 图6 - 1 帐户评价4 8 图6 - 2 覆盖率曲线4 9 圈6 3 过滤规则生成时各函数灞粥关系5 0 图6 - 4 过滤规则中的指纹信息5 2 圈6 - 5 过滤规则中的照名单列表5 3 圈6 - 6 垃圾邮件过滤模块溺试界面5 3 图6 - 7 指纹提取算法源代码5 4 图6 _ 8 导入一封垃圾邮件5 4 图6 - 9 测试的垃圾邮件样本5 5 图6 - 1 0 过滤结果5 6 v 东南大学硕上学位论文 表目录 表格4 1 特征尚量各分景的意义描述2 8 表格4 - 2 特征向量3 2 表格5 1 史葬件服务器i 历次提交的特征囱鼙3 6 表格5 - 2 规捌淘汰序硝变化情况4 5 表格6 1 帐户评分表u s e rs c o r e 。4 7 表格6 - 2 邮件统计信息表m 采l 琢f o 4 8 表格6 3 权馕与蜜罐集合大小关系4 9 表格6 - 4r u l e p r o d u c t 参数说明5 0 表格6 5s e c o n d a r y j u d g e 参数说明5l 表格6 6c o n f m a t r i x c o m p u t e 参数说明5l 表格6 7 服务器提交的特征向量5 l 表格6 堪重复度矩阵5 2 v i 东南大学学位论文独创性声明 本人声明:所里交的学位论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含势获得东南大学或其它教育机构的学位或证书焉使用 过的材料。与我一同工作的同志对本研究所做的任何贡献,均已在论文中作了明确的说 雳,并表示了谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中豳科学技术信息研究所、黧家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其它复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生签名:她导烬签名:坶 。培,石a 第1 章绪论 第1 章绪论 作为互联网熏要业务的电子邮件,已经受到广大网络用户的青睐,并且翻益成为人们的 通信方式之一。与此同时,垃圾邮件随题也越来越严重,豳扰着每个电子蠡器件用户,其危害 程度日黼加深。近年来,反垃圾邮件技术已经成为国内外网络信息安全领域里的研究熏点, 其孛大零份研究簧重子如何识别垃圾羹器件以及如何过滤垃毅郏件。霹翦主要豹垃圾垂器件过滤 技术采用的是基于规则和基于内容的文本分类算法,这两种方法的应用对减轻垃圾邮件的危 害起到了定作用。但随着互联网上垃圾邮件内容和形式的墨益多样和数量的墨益巨大,传 统的过滤方法已经笔现出明显的不足。为了更有效地防范垃圾邮侔,提高垃圾邮件过滤系统 的性能,本文提出了分布式垃圾邮件防范体系,在此过程中对相关的技术问题进行了研究。 本章主要对反垃圾邮件的相关研究背景进行了介绍,提出了论文的研究瞬标和内容,最 后给出论文的组织结构。 1 1 研究背景 1 1 1 垃圾邮件的危害及现状 榫为互联网的基础应用之一电子掷件一直受列广大网民的青昧。健是,近年来,电子邮 件已成为一个滥用的目标,垃圾邮件问题日益严重。主要表现在以下几个方丽: l 。占用大爨瓣络资源,降低网络的运行效率,严重影响邮件服务器的滋常工作。中匿 互联网协会反垃圾邮件中心2 0 0 7 第一次反垃圾邮件状况调查结果【l 】显示,2 0 0 7 年第一季度, 孛匡互联网震产乎均每周收剜垃圾鑫瑟饽数量隽2 2 ,1 3 羹,较2 0 0 6 年调查增加4 。7 8 封。据美 国b r i g h t m a i l 公司研究,目前全球垃圾邮件流越约占全球邮件流量的6 5 。哟此可见垃圾邮 件在刚土传播的现状令人堪忱。 2 网络上垃圾邮件的肆虐,浪费邮件用户大量的时间,给邮件用户的生活和工作造成 巨大的不便。据中国互联网协会反垃圾妻器件中心最薪发布的2 0 0 7 年第三次反垃圾邮件状况 调查报告显示【l 】,从2 0 0 7 年第一季度到第三季度,电予邮件用户每天处理蛾圾邮件的时间 在逐渐延长,第三季度企业用户平均每天处理垃圾邮件的时间最长达到0 6 小时。越来越多 的垃圾邮件已经占用了用户更多的嚣于澜,问接影响了邮稃粥户的秘箍和工作效率( 如图1 1 ) 。 东南大学硕士学位论文 圈1 - 1 用户处瑗雌件的时阍 3 成为病毒,木马和网络钓鱼麴主要传播途径,严重威胁网络安全。瘸毒和木马常常 通过垃圾邮件避行肆意传播,很多垃圾邮件都带有病毒文件或是下载病毒、术马等恶意程序 的网络服务器链接地址,一旦计算机用户点击打开这些垃圾邮件,操作系统就会受到瘸毒感 染,造成系统无法正常工作,给邮 牛用户带来甄大危害,诧外,不少网络钧鱼阙站也通过邮 件进行诈骗,非法获取用户的个人信息,造成了严重的经济损失。 辱。 传播不馥信惠,对社会造成严重豹负面影嚷。垃圾蠡器律数量巨大,般包含虚假、 色情、反动等内容,污染网络环境,危害人的身心健康,误导社会舆论,给社会带来不稳定 因素。 在我国,反垃圾邮件领域现状不容乐观,面临的形势也相当严峻。据中圈互联网络信息 中心( c n n i c ) 中国互联网络发浸状况统计报告【2 】显示,孛国网民每周使嗣电子委器肄的眈 例已经占到“左右( 如图1 2 ) ,但是没有使用垃圾邮件过滤软件的网民约占6 3 ( 如图 1 - 3 ) 。 j j 7 0 3 1 3 0 瓣 鬻 2 7 2 5 糍 7 弼 2 0 l 笋晦 l o 6 5 f一1 r 1 卜 v f q 每天几次 每天 每周 每月少于每月从不 图1 - 2 中国网民使用e - m a i l 的频率 2 第1 章绪论 图1 - 3 使用垃圾邮件过滤软件的情况 中国互联网协会反垃圾邮件中心最新发布的2 0 0 7 年第三次反垃圾邮件状况调查报告【1 】 显示,有4 5 2 9 企业用户不购买反垃圾邮件产品的原因是由于试用后防范效果不明显, 2 1 2 0 企业用户认为反垃圾邮件产品的功能不能满足他们的使用需求。同时调查数据还显 示,效益高的反垃圾邮件产品依旧是大多企业用户的首选。 由此可见,虽然目前垃圾邮件问题日益严重,但是反垃圾邮件产品尚未能达到应用的需 求,因此亟需加强在反垃圾邮件领域的研究。另一方面,随着垃圾邮件发送技术的不断改变 以及互联网的日益普及,垃圾邮件在传播形式和内容上已经出现了新的变化趋势,传统的垃 圾邮件过滤方法已经无法满足用户的安全需要,因此亟需提出一种新的垃圾邮件防范措施, 满足用户需求,进一步提高互联网抵御垃圾邮件风险的能力。 1 1 2 垃圾邮件防范现状介绍 目前,解决垃圾邮件问题有法律,技术等多种手段。一般来说,垃圾邮件防范措施主要 有以下几个方面: 一、立法手段 通过制订相关法律防范垃圾邮件是一种有效的垃圾邮件防范手段。由于法律在一段时期 内具有相对稳定性,因此无论垃圾邮件发送者所撑握的技术多先进,法律都可以予以制裁, 能起到“以不变应万变”的作用。通过立法手段防范垃圾邮件,主要是利用法律规范i s p 提 供商,邮件服务器以及其他网络管理者的行为,并对恶意发送垃圾邮件的行为给予制裁,从 而在源头上遏制垃圾邮件的传播。我国通过的互联网电子邮件服务管理办法【3 】于2 0 0 6 年3 月3 0 日正式施行。在该管理办法中给出了垃圾邮件的定义,同时宣布电子邮件服务将 实行市场准入制度,并通过实施邮件发送方不能匿名发送邮件,对违规邮件运营者处以最高 三万元罚款等一系列措施,这在一定程度上遏制了垃圾邮件的产生。 现阶段,通过立法手段防范垃圾邮件已经起到了一定效果,但是相关法律法规在具体的 3 东南大学硕士学位论文 执行过程中仍然存在不少困难,因此在可操作性上还需要继续研究。 二、技术手段 通过技术手段防范垃圾邮件是目前最为有效的方法,这些方法主要包括: l 。 垃圾郏件过滤技术。謇前普遍采焉的垃圾邮律过滤技术有基于黑自名单静方法,基 于关键字的方法,基于规则的方法以及基于统计的方法。这类过滤技术以垃圾邮件的来源或 者文本内容特征为翔剐依据,剩瘸机器学嚣和爨动文本分类算法,对已存在鹣垃圾邮件进行 过滤。利用这种技术进行过滤,首先要建立垃圾邮件的特征模型,然后通过对大量的样本进 行学习秘归类,抽取出垃圾邮件的各种特征,并且以这种特征为依据,构造相应的分类器对 邮件进行过滤。由于这种过滤方法依赖于机器学习和文本分类算法,其漏判率和误判率取决 于算法性能。 2 。 挑战一响成技术。与一般的过滤技术不阕,挑战响应技术怒基于发件方认证的垃圾 邮件防范手段。满邮件服务器接收到封陌生人的邮件,或者怀疑是垃圾邮件时,先保留此 邮件,并商邮律发送者返圈封| l l 器件,要求发送者回答某个闷题( c h a l l e n g e ) ,或者以其他方 式对发送者进行认证,只有回答( r e s p o n s e ) e 确,通过认诋后,才将此邮件投递到用户邮箱 中。m a i l b l o c k s 、s p a m a r r e s t 等公司都采用了这技术。2 0 0 3 年5 冀,e a r t h l i n k 公司宣布将 对其用户采用挑战响应的系统,推动了这一技术的发展。但是这种方法的主要缺陷是过于 繁琐,系统负荷大,晌癍速度慢,也无法识别那些合法发送大量邮件的情况,比如邮件列表 用户等。 3 d o m a i n k e y s 技术。这种方法的基本原理是,每个域都拥有自己的对公私钥,当 发送邮件时,在该邮件头部包含发送方私钥的某个信息,接收方通过查询d n s 得至发送方 的公钥,并用这个公钥验证包含在邮件头部的信息,如聚验证通过,则可以将该邮件投递给 用户;如果验证失败,英| l 把该邮件标识为垃圾郏件。2 0 0 3 年,y a h o o 畿布开发蠢了d o m a i n k e y s 系统并首先将其应用于y a h o o 邮件系统中。但是,该技术的成功在很大程度上依赖于藏个互 联网对它的采用程度。此外,d o m a i n k e y s 缀难防止重放攻击,合法的数字然名容易被盗。 如果d o m a i n k e y s 广泛实施,由于每个消息都需要额外处理,因此将导致传输速度犬幅度降 低,影响服务器性能。由予d o m a i n k e y s 存在上述缺陷,使得该项技术不能得到广泛应用。 4 “c a l l e r l d ”技术。2 0 0 4 年2 月,微软提出的“c a l l e r l d ”计划也是一种对发送方 进行认诞的技术。该技术的基本原理楚:在d n s 上发布每个域内所有发送电子邮件的服务 器的l p 地址,供其它邮件服务器查询。当接收方郑件服务器收到新邮件时,资诲d n s 记录, 比较邮件中的源i p 地址是否与该域公布的某个发送服务器地址相匹配,以保证该邮件确实 是麸该邮件服务器发毒魏,从两防止缓鹭发件人郏件缀务器地址的垃圾郝件。这种过滤技术 的成功在很大程度上也依赖于整个甄联网对它的采用程度。而且微软公司声称拥有与 “c a l l e r l d ”相关的专剩,嚣霆不是将它提交给家互联网标准组织,因此这种方法缀难得到 4 第1 章绪论 进一步的普及应用。 娶游在垃圾邮件防范的诸多措施枣,垃圾郎件过滤技术是其中最蔻成熟有效麓,这种方 法在反垃圾邮件领域中占主流地位。然而,随着垃圾邮件发送技术的不断改变以及互联网的 日益普及,垃圾邮俘在传播形式和内容上已经如现了新的变化趋势,传统的垃圾邮件过滤技 术已经无法满足用户的安全需要,因此亟需提出一种新的垃圾邮件防范措施,满足用户需求, 进一步提高互联网抵御垃圾邮件风险的能力。 1 2 论文的研究目标与主要内容 为了应对目前垃圾邮件传播的严重性,提高邮件服务器过滤娩圾邮件的能力,建立快速 高效的垃圾邮件防范体系,本论文设定以下研究目标:针对现有垃圾邮件过滤技术的不足之 处,基予垃圾邮件的行为特征和电子嘲器件帐户的统计特点,提出一种协作式垃圾邮俘防范体 系;研究基于蜜罐技术的邮件帐户评价选择机制,实现垃圾邮件样本的实时采集;研究规则 共享与更薪祝铡,实瑗垃圾邮件协嗣防范。 围绕以上研究目标,本论文提出以下主要研究内容; 1 垃圾邮件防范体系结构研究。本论文拟通过深入研究垃圾邮件的传播祝理和行为特 征,结合蜜罐技术,提出一种新的基于分布式的垃圾邮件防范体系结构,设计并实现体系结 构豹各功麓模块。 2 关键技术研究 1 )样本采集方法研究。为了提离垃圾邮件样本的覆盖率( 所采集的不蓬复样本数与服 务器中不重复的垃圾邮件总量之比) 和实时性,本文拟通过分析垃圾邮件的行为特征和帐户 豹统计特点,设诸并实现基于蜜罐原瑾的蜜罐帐户选择算法,提出种新的垃圾垂器律样本采 集方法。 筠规剩生成与发布枫籍研究。研究一种新的援剃生成帮发布机制,实现各蠢器件服务器 本地规则库的快速更新和信息共享,以整合各邮件服务器的垃圾邮件过滤规则,实现对垃圾 邮件熬协作式防范。 3 )快速过滤机制研究。在实现以上关键技术的基础上,提出种垃圾邮件快速过滤机 制,降低系统的谤算复杂度,满足系统过滤垃圾| l l 器件的适应性彝安孵性要求。 1 3 论文的组织结构 本论文共分为七章,第一章是论文的绪论部分,首先对垃圾邮件的危害和及其防范现状 进行分缀,然螽扶多方面分析现有垃圾| l l 器终防范措施及舞鑫翡技术特点,最焉绘凄本论文的 5 窳南大学硕士学位论文 研究目标和内容;第二章对垃圾邮件过滤技术及其研究现状进行了介绍并总结了现有释种主 要的过滤技术所存在的不足之处;第三章给出一个新的基于分布式的垃圾邮件防范体系模 型,并对体系结构的工作机理及其各功能子模块作深入的讨论,最薏给出该模型的特点;第 四章研究基于蜜罐的垃圾邮件样本采集方法,设计蜜罐帐户选择算法和二级判断机制,定义 邮俸样本的特征向量著采嬲向量集豹形式表示采集到豹样本集;第赢章研究秘录服务器中过 滤规则的生成方法与邮件服务器的过滤机制,主要包括二级判断机制,过滤规则的生成与发 布以及塞器件服务器豹过滤撬铡;第六章进行系统瓣设计与实现,势对实验结果进行分析验证; 第七章总结本论文的主要研究成果,并展望未来的研究方向。 6 第2 章垃圾邮件过滤技术 第2 章垃圾邮件过滤技术 垃圾邮件危害日益严熏的同时,反垃圾邮件技术也随之得到发展,在众多反垃圾邮件方 法当中,垃圾邮件过滤技术已经成为其中的主要方法,是保证邮件安全的重要手段。本章将 对垃圾邮件及其过滤技术作较为全面的介绍,对各种技术的原理及其优缺点进行讨论和总 结。 2 1 电子邮件协议概述 电子邮件是互联网最为广泛的应用之一,它改变着网络用户的交流方式,给人们的生活 和工俸带来穰大的方便。与电子鸯嚣 孛服务相关的协议和起容格式,是由r f c ( r e q u e s tf o r c o m m e n t s ) 的儿个文档规定的。r f c 8 2 1 规定ys m t p 协议( s i m p l em a i lt r a n s f e rp r o t o c o l , 篱尊邮件传输协议) ,其中定义了电子郏待发送祝制和传输模型( 如图2 1 ) ,并觏定了电子 邮件发送与接收的基本命令格式。 用户 屋八, 厂 发送撩囊m t p 删晌父接收端 文件系统 ,以j 、 s m t p 嗽予邮件 s m 弹 八卜 文件系统 厂 f _ 、 躁2 1s g t p 传输模型 此外,r f c 8 2 2 对邮件头部和邮件体格式进行了定义。r f c l 7 2 5 定义了p o p 3 协议( ( p o s t o f f i c ep r o t o c o l3 ,邮局协议舨本3 ) ,p o p 3 规定怎样将个人计算机连接到互联网的邮件服务 器并下载电子邮件,它是曩联网电予邮件的第一个离线协议标准。利用p o p 3 ,邮件用户可 以把邮件箱中的邮件下载到本地计算机进行离线阅读。随着电子邮件的广泛使用,邮件系统 不仅需要传输各种字符集瓣文本内容,焉且还需要传送备种菲文本形式豹文俘( 例如翻像、 w o r d 文件、p d f 文件、z i p 文件等) 。根据这个需求,人们定义了m i m e 协议( m u l t i p u r p o s e i n t e r n e tm a i le x t e n s i o n s ,多用途互联网邮件扩展协议) 。m i m e 协议国r f c 2 0 4 5 翱l c 2 0 4 6 这两个文档构成,目前儿乎所有的邮件服务系统都支持m i m e 协议。 7 东南大学硕士学位论文 2 2 垃圾邮件概述 2 2 1 垃圾邮件的定义及类型 垃圾邮俘( 翱鼬、j u n km a i l ) 通常是指未经主动请求或计可的犬量电子部件。域圾邮 件的基本特征是“不请自来”。由于大部分垃圾邮件都带有商业或者其它宣传目的,因此也 被称诈未经许可的商业电予邮件( u c e - - u n s o l i c i t e dc o m m e r c i a le m a i t ) 或来经许露的大量 电子邮件( u b e u n s o l i c i t e db u l ke m a i l ) 。 中国互联耀协会反缝圾郯静规范p 】对垃圾郏件佟了磐下定义: 1 收件人枣先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣 传性的电子部馋; 2 收件人无法拒收的电子邮件; 3 隐藏发件人身份、地址、标题等信意的电子垂器件; 4 。 含有虚假的信息来源、发件入、路由等信息的电子邮件。 这关于垃圾邮件的定义,为垃圾邮件的判断提供了定性标准。然而,垃圾邮件的定义 一直非常困难,缀难用一个公用的标准进行攒述,因为内容的判定带有主观性,因此豳际上 对垃圾邮件的定义还是个统计学上的概念。目前技术性的简单定义是:通过非标准的客户端, 在未经用户同意的情况下大规模发送的电子邮件。 2 2 2 垃圾邮件的产生原因 垃圾鸯器件的产生原因有如下蔻个方面: 1 s m t p 协议的先天缺陷。s m t p 协议本身是一个简化的邮件递交协议,缺少对发送 者必要的身份认诞机铡,这是造成垃圾交器俘泛滥於原因之一。由于s m t p 协议允许发信入 伪造绝大多数的发信人特征信息,如:发信人、信件路e l j 等。甚至通过匿名转发、开放转发 和开放代理等手段,可瓿遥乎完全地拣去垃圾郏镗豹发蘩入特征,这对予发现势制止垃圾邮 件传播造成了很大的困难。此外,s m t p 协议还缺少一贱必要的行为控制,不能有效地甄别 正常的邮件发送和垃圾邮件发送行为。虽然s m t p 的这些缺陷在氨联网发展初期并不是一 个严重鹃闷题,甚至是符合当时的实际情况的,但是随着互联网的发展,其先天不足却越发 凸显出来,成为垃圾邮件产生的根源。 2 。 技术使用失误。我国垃圾邮件的产生,很大一部分是由于邮件服务器缺省设鬣开放 转发功能( o p c nr e l a y ) ,该功能对于普通用户可有可无,却成了滥发垃圾邮件的依托,作为 发送犬爱垃圾邮锋豹中转站,导致国内许多郝搏服务器被菇入“罴名单”。磐显,我黧许多 8 第2 章垃圾邮件过滤技术 企业防范意薄弱,未采取有效措施,致使企业的邮件服务器充当了垃圾邮件的“转发者”和 “帮凶”的角色。 3 利益驱动。当前,利用电予邮件进行广告宣传,投入少,回报丰厚。越米越多的商 业需求以及电子邮件低藏的发送成本为垃圾郏件的滋生提供了土壤。 2 2 3 垃圾邮件的特征模型 为r 给垃圾邮件判别提供依据,更有效地过滤垃圾邮件,必须对其特征模型加以研究。 综合垃圾邮件的连接、发送以及垃圾邮件内容,可以将其特征用分类的方法加以描述。 在网络层,垃圾邮件发送者的i p 地址可信度、口连接次数和连接频率,都可以为垃圾 邮件判别提供依据。如果豫地址不真实,表明发件人故意隐瞒身份,因此该邮件是垃圾邮 件的可能性就迸较大。另一方面,如架强连接次数和频率异常,剡表明邮件发送者为了大 面积传播该邮件而采用群发的手段,因此也可作为垃圾邮件判别的依据之一。 在应用层,可以通过对冉器件头部信意和鑫器件肉容进行分析,铁箍判断该邮件是否必垃圾 邮件。根据s m t p 协议的规定,邮件头部信息中给出的各字段包含了大量的邮件信息,从 邮件头郄孛可跃分析出邮件的转播途径以及发送端等重要信惠。两蠹嚣件内容的大小,附俘, 关键词,语义等信息,也可以作为垃圾邮件的特征,成为垃圾邮件过滤的重要依据。图2 - 2 是垃圾邮件层次特缝模型【5 】。 9 东南大学硕上学位论文 2 3 垃圾邮件过滤技术 h e l l ,m a i lf r o m 字段不相同或反 向解析与真实l p 不符或包含键词 r e c e i v e d :时间有误,传送时间长,其中标识的i p 地址有误,有3 个以上的r e c e i v e d 或包含关键词 d a t e :时间在 当前时问之前 s u b j e c t :包含关 键词 c c :抄送人字 段包含关键词 图2 - 2 垃圾邮件层次特征 目前普遍采用的垃圾邮件过滤技术主要有基于黑白名单的过滤技术,基于统计的过滤技 术,基于规则的过滤技术以及基于关键字的技术。 l o i 一瓣一 一一一 。,。l。l 第2 章垃圾邮件过滤技术 2 3 1 黑白名单过滤技术 黑内名单是一种传统的垃圾邮件过滤技术。这种技术需要震户手动维护一个黑自名单列 表,并以此为依据进行垃圾邮件过滤。目前最流行的黑白名单技术是实时黑名单( r b l ) 技 术圈,r b l 服务器维护一个瑶供查谗的疆地簸列表,用户糕耀d n s 方式粪谗邮锋的来源 i p 是否被列入黑名单中,如果是,则判断为垃圾邮件,否则为正常邮件。 孛豳反垃圾邮彳牟联盟( c a s a ) 楚鎏内一个专门关注反垃圾郑件的蘸营剩性组织,该组 织主要针对国内的垃圾邮件情况,在技术层面上提供解决方案,其推出的主要服务是黑名单 服务【7 】,其中包括:中国垃圾邮佟黑名单( c b l ) ,中阑动态地址歹| j 表( c d l ) ,黑名单和 动态地址列表合集( c b l + ) ,实时自名单( c m l ) 以及c b l + 中去掉全部实时白名单后的集 合。相对于国外的黑名单服务来说,这些服务更适合中国国情,在豳内的反垃圾邮件领域起 到重要的作用。 基于黑臼名单的垃圾邮件过滤技术配置简单,计算复杂度较低,但由于黑名单的判断存 在主观馁,容易导致正常臻被封杀,诧外,当r b l 服务器繁忙时,容易造成查询响应迟缓, 影响过滤性能。 2 3 2 基于统计的过滤技术 现有的基于统计靛技术对样本的统计规律遴行学习翻翔纳,著戮此为依据对妻瑟季孛遴行判 别分类。主要有支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 方法 8 】以及b a y e s 方法【9 】【1 0 】。 s v m 是在二十煎纪粥年代戬来发展起来酶一种统计学哥方法,它通过梅造最优线性分 类面来指导分类。s v m 在解决小样本学习、非线性及高维模式识别问题中表现较好。s v m 可以直接惩予线性可分问题,琵对予线性不可分的情形,则需要通过构造变换,将阚题转换 到一个新的空问,使之在这个新空间中线性可分。d r u c k e r 1 l 】将s v m 用于垃圾邮件过滤, 并得到一个结纶:采用二值表示的s v m 的性能稍高于采用多值表示的s v m 。 a n d r o u t s o p o u l o s 1 2 也在实验中弓l 入ts v m 方法。k o l c z 1 3 剡采用了多种s v m 方法的变形 进行垃圾邮件过滤。实验结果表明,利用s v m 方法能够有效地过滤垃圾邮件。 b a y e s 方法怒透过计算文本d 属予每个类舅| lc i ( i 一1 , 2 m ,m 为类别个数) 的概率 p ( c i l d ) 并将它们排序取其最大值来得到d 所属的类别。根据b a y e s 公式,最后归结于求每个 类羽豹概率p ( c i ) 和麸类别a 生成文本d 的概窭p ( d l c i ) 。这两个概率都可以邋过诩练谗辩得 到。n a i v eb a y c s 是b a y e s 方法中使用最广泛的种。在这种方法中,假设d 由互相独立的 多个特征w j 0 = 1 ,2 ,赵,n 是d 中不同特征数) 生成,于楚p ( d j c i ) 幽可以归结成求p d e l t a ) d o b e g i n s u r n l = s u m 2 # 集合扩大之前的样本数 a c c o u n t = g e t a c c o u n t ( ) ;# j k s c o r e 表中按分数高低获取帐户 s a d d ( a c c o u n t ) :把帐户添加到蜜罐集合中 s l i m 2 = c o l l e c t s a m p l e ( s ) ;统计集合扩大后的样本数 i n c r e m e n t = s u m 2 一s u m l ;计算样本增量 e n d e n d 图4 - 3 蜜罐帐户选择算法伪代码 算法在开始阶段,设定样本最小增最d e l t a ,把蜜罐集合s 初始化为空集,然后利用 s e t l a m d a 0 进行权值设定。在对每个帐户进行评价的过程中,算法调用g e t d a t a 0 获得相应帐 户的邮件信息,即公式4 1 中的s l 、s 2 、h l 、h 2 值,e v a l u a t e ( ) 利用公式4 1 进行计算得出 帐户的分数。r e f f e s h s c o r e t a b l e o 把对帐户的评价结果按得分高低顺序记录在数据库s c o r e 表 中。算法在更新蜜罐集合时,调用g e t a c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论