（计算机应用技术专业论文）中文垃圾邮件过滤技术研究及应用.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：69 大小：2.01MB 积分：0 举报 版权申诉

已阅读5页，还剩64页未读，继续免费阅读

（计算机应用技术专业论文）中文垃圾邮件过滤技术研究及应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文垃圾邮件过滤技术研究及应用摘要随着互联网的迅速发展，电子邮件已经成为人们日常生活中通信、交流的重要手段之一，但是近年来大量的商业、色情和反动垃圾邮件和邮件病毒的泛滥给互联网用户带来很多烦恼和侵害，也给社会带来了极大的负面影响，邮件系统的安全问题引起业界的重点关注。本文针对u n i “l i n u ) 【系统环境，对s m t p 协议和邮件格式特征进行了详细的分析，指出了s m t p 协议的缺陷，并介绍了追踪垃圾邮件来源的方法；在对各种反垃圾邮件技术进行研究及分析的基础上，重点研究中文垃圾邮件过滤技术，提出了一种基于规则方法和基于统计方法相结合的中文垃圾邮件过滤方案，并将自然语言处理中的中文分词技术应用到中文垃圾邮件过滤中，通过机器学习解决了邮件训i 练集和中文过滤规则的自动更新问题。由于中文邮件和英文邮件在语言上的差异，中文邮件在信息处理上采取的技术和英文邮件有很大差别。本文研究了中文邮件过滤的邮件预处理、中文分词、特征选取等问题，对该过滤方案进行了测评，并设计与实现了一个中文垃圾邮件过滤系统。关键词：垃圾邮件过滤文本分类中文分词特征选取 t h es t u d ya n da p p l i c a t i o no f c h i n e s e s p a mf i l t e r i n g7 i b c h n o l o g y a b s t r a c t w i t ht 【er a p i dd e v e l o p m e n to fi n t e m e ta n di t s 印p l i c a t i o n ，e m a i lh a sb e c o m e o n eo fm ef a s t e s ta 1 1 dt h em o s te c o n o m i c a lw a y si nd a i l yc o m m u n i c a t i o n a t 也e s 锄et i m e ，t h en o o d i n go fa i lk i n d so fs p a mh a sb e c o m eah e a d a c h cp r o b l e mf o r h 啪a na n ds o c i e t y m a i ls y s t e ms e c u r i t y 眦a c t e dw i d ea t t e m i o n sa 1 1 db e c a m ea r e s e a r c hf o c u si ni n d u s t 哆 a r e ra n a l y z i n g 协es m t pp r o t o c o la n dt h ef b a t u r eo fe - m a i lf o r m a ti n u n i ) ( l i n u xs y s t e m ，t h i s 也e s i sp o i m so u tt 1 1 eb u g so fs m t pp m t o c o la r l di n 仃o d u c e s m em e n l o d so f 订a c i n gt h es o u r c eo f s p 姗o nt h eb a s i so f r e s e a r c hi nm ea r n i s p 锄 t e c l u l o l o 鼢t h ea u m o rp m f o n a r da p r o j e c to fc h i n e s e s p 锄f i l t e r i n g b yc o m b i i l i n g m em e t h o d so nt h eb a s i so fm er u l ea n dt h es t a t i s t i c s ，a n d 印p l i e dt 1 1 ec h i n e s ew o r d s e g m e n t a t i o nt e c l l i l o i o g y t oc h i n e s e s p 啪f i h e r i n a n ds o l v e dm ea u t ou p d a t e t e c h n o l o g yi nm a i l 恬a i n i n gs e ta n da 瞳n e s ec h a r a c t e r s i l t e r i n gr eb ym a c h i n e l e a m i n g b e c a u s eo ft h e 铲e a td i r e n c ei nl a n g u a g eb e t w e e ne n 醇i s hm a i la l l dc h i n e s e m a i l ，c h i n e s em a i lh a si t so w nc h a r a c t e r i s t i c si nc h i n e s ei n f b r n l a t i o np r o c e s s i n g t h i sm e s i sd i s c u s s e st h et e c h n o l o g yo fm a i lp r e p r o c e s s ，c 1 1 i n e s ew o r ds e g m e n t a t i o n a n df e a t u r es e l e c t i o n a tl a s t ，o nt h eb a s i so fr e s e a r c h e sm e m i o n e da b o v e ，t l l ea m h o r d e s i g n e dak i n d o fc h i n e s e s p a mf i l t e r i n gs y s t e ma n dr e a l i z e di t k e yw o r d s ：s p a 工n ，f i n e r i n 岛t e x tc a t e g o r i z a t i o n ，c h i n e s e w o r ds e g m e n t a t i o n ， f b a t i l r es e l e c t i o n 插图清单图1 1 我国垃圾邮件数量所占比例3 图2 1u n i x 环境卜电子邮件系统功能模块划分6 图2 2 邮件传输过程7 图2 3s m t p 模型。8 图2 4s m t p 工作过程9 图2 5r f c 8 2 2 邮件格式1 l 图2 6m i m e 邮件格式1 3 图3 一l文本分类一般模型1 9 图3 2 一棵最简单的决策树2 2 图4 1中文垃圾邮件过滤流程图2 9 图图图一2 3 4 图5 1 图5 2 图5 3 图5 4 图5 5 邮件过滤模块3 0 g b 2 3 1 2 编码图3 7 特征选取流程图4 6 系统总体结构图5 4 邮件过滤模块5 4 s p a m a s s a s s i n 和s e n d m a i l 集成框架图5 7 用户邮箱5 9 用户的垃圾邮件箱5 9 表4 6 表4 7 表4 8 表4 9 表格清单实际邮件中的信头字段信息 m i m e 信头字段邮件中的r e c e i v e d 字段示例 b a s e 6 4 编码的邮件原始信息 b a s e 6 4 字母表- 解码后邮件明文邮件表数据结构词典数据表一特征项表垃圾邮件特征词表和贝叶斯特征词库变量定义表使用s p a r i l a s s a s s i n 缺省英文规则过滤的实验结果使用s p a m a s s s i n 中文规则过滤的实验结果贝叶斯决策表中文垃圾邮件过滤方案实验结果幢 h ” 弛 n 拍四帖盯牾柏如钉让表表表表表表表表 o 2 扣扣卜表表表独创性声明本人声明所呈交的学位论文是本人在导师指导r 进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得垒王些丕堂或其他教育机构的学位或证书而使用过的材料。与我一同t 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。黼繇芋净一期：训咿学位论文版权使用授权书本学位论文作者完全了解盒世工些盍堂有关保留、使用学位论文的规定，有权保留并向国家有关部fj 或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权盒魍王、业厶堂可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名孝孚签字日期：厂年f 月巧日，学位论文作者毕业后去向工作单位：通讯地址：导师签名：fl 凯签字日期：卅牵月四日电话邮编致谢本论文的研究工作是在导师侯整风教授的悉心指导下完成的。侯老师以他在计算机网络安全领域深厚的理论基础和对研究方向良好的把握，给予了我意义深刻的指引。本人在硕士研究生课程学习和撰写学位论文的过程中，自始至终得到了侯老师的指导和鼓励，无论从课程学习、论文选题、还是到收集资料、论文成稿，都倾注了侯老师的心血。导师渊博的学识、严谨的治学风范、诲人不倦的教育情怀和对学生的严格要求，必将使我终生受益，并激励我勇往直前。非常感谢清华大学网络中心陈光英博士，陈老师耐心地在电话和电子邮件中给我解答一个又一个的问题，并给我提出了许多非常宝贵的建议。感谢加拿大s u b m e r s i o n 公司的王中先生，通过与他在m s n 的交流中，我理清了许多思路。感谢中国反垃圾联盟的王兴宇先生，在去年中国反垃圾联盟与c c e r t 联合主办的反垃圾邮件技术研讨会上，结识了一批有志于与垃圾邮件做斗争的专业人士，与他们的每一次探讨都有很大的收获。感谢网络中心的同事们在论文研究期间给我提供的帮助，没有他们提供的硬件条件，我的论文无法完成。同时，真诚感谢计算机学院所有给我授课的老师和班主任束老师，他们热情地关怀和帮助让我感觉无比的温暖，他们严谨的治学和教学态度给我留下深刻的印象。感谢我的父母、妻子和儿子，他们对我的生活给予了无微不至的关怀，让我能全心全意地去工作和学习。感谢所有同学给予的帮助。朱军 2 0 0 5 年1 0 月2 8 日中文垃圾邮件过滤技术研究及应用第一章绪论电子邮件系统是互联网的一个成功典范，随着互联网的进一步发展，电子邮件己成为i m e r n e t 用户最常用的通信方式之一，其作用也越来越重要。然而，由于早期在设计邮件系统是建立在完全开放和信任基础上，这就给广告商和恶意的黑客钻了空子，近年来大量垃圾邮件的泛滥给互联网用户带来很多的烦恼和侵害，它不仅增加了用户对邮件的处理时间，而且被利用来传播计算机病毒和大量色情、反动的信息，给社会带来了极大的负面影响。垃圾邮件就像瘟疫一样蔓延，严重污染了我们的网络环境，占用了大量的传输、存储和运算资源。目前，邮件系统的安全问题引起业界的重点关注，本文主要探讨反垃圾邮件技术研究及应用，其中重点研究中文垃圾邮件过滤技术，提出了一种基于规则方法和基于统计方法相结合的中文垃圾邮件解决方案，并将自然语言处理中的中文分词技术应用到中文垃圾邮件过滤中，通过机器学习解决了邮件训l 练集和中文过滤规则的自动更新问题。 1 1 电子邮件系统安全概述邮件系统安全问题包括很多方面，是一个综合性很强的问题，它涉及多方面的因素，一般的邮件服务器必须确保具有以下三种重要的安全措施【l 】： ( 1 ) 避免开放式转发( 0 p e n r e l a y ) ( 2 ) 阻挡垃圾邮件 ( 3 ) 防范邮件病毒 1 1 1 避免开放式转发( o p e nr e l a y ) 互联网出现的早期，接收发往邮件服务器的所有邮件被认为是一种礼貌的行为。如果某一封邮件不是发往本地用户的，邮件服务器将会按照它的地址进行转发。这一行为给邮件管理员带来了巨大的便利，因为他们不需要总是连接到每一个可能的远程邮件服务器来传送邮件，这些工作由一些远程邮件服务器来完成了。这种远程邮件服务器自动将远程客户发来的邮件向正确的目的邮件服务器( 而不是它本身) 发送的过程，称为转发( r e l a y ) 。如果某个邮件服务器对所有的邮件都进行转发，就称之为开放式转发( o p e nr e l a y ) 。开放式转发在互联网的早期很有用，但是后来成为被人们弃用的互联网部件之一。原因是通过这种开放式转发来转发邮件，邮件的来源很容易被隐藏。利用这一特性，各种商业营销人员向用户发送大量的非索要商业邮件 ( u n s o l i c i t c dc o m m e r c i a le m a i l ，u c e ) ，当人们收到这类邮件后，很难追查到邮件的来源。因此，为了确保邮件的安全，绝大多数开源邮件系统都限制了邮件的开放式转发，不再转发所有客户的邮件，而只是转发经过邮件服务器认证后的客户的邮件，其他用户如果尝试进行转发则将会被拒绝。 1 1 2 阻挡垃圾邮件非索要商业邮件( u c e ) 和各种色情不健康的邮件以及反动邮件都属于垃圾邮件。对垃圾邮件的过滤是保护电子邮件安全的一个十分重要的方式，尽管目前对垃圾邮件的过滤采用了多种技术，但是由于垃圾邮件形式多种多样，给邮件过滤带来了较大的困难。同时，在过滤邮件时如何避免将正常邮件当作垃圾邮件过滤掉，也是防止垃圾邮件过程中要考虑的一个重要问题。另外，在邮件过滤时必须要考虑使用邮件的环境，如一个内部公司的邮件服务器也许会拒收来自所有已知垃圾站点的邮件，但是如果i s p 这样做就可能会招致一些用户的投诉，因为这些用户确实需要接收来自某个垃圾站点的用户邮件。比如说，如果邮件管理员从雅虎的某个用户收到了垃圾邮件，然后决定拒收所有来自雅虎的邮件，这显然会遭到用户的抗议。仅接收来自已知主机的邮件是一种很苛刻的垃圾邮件解决方案，但是却很适合于私人邮件网络环境。 1 1 3 防范邮件病毒随着国际互联网的发展，邮件病毒目前成为互联网用户的大敌，人们形象地将垃圾邮件与邮件病毒称为互联网时代的“两大杀手”。由于电子邮件可以携带二进制代码的附件，这给病毒的传播提供了很好的方式，邮件病毒一般隐藏在邮件的二进制附件之中，一旦用户在不知道的情况之下打开邮件，邮件病毒感染用户的本地计算机，甚至产生大量垃圾邮件，阻塞网络。近几年爆发的各种类型病毒中，公认危害最大的几乎都是邮件病毒，如欢乐时光( h 印p ) r t i m e ) 、尼姆达( n i m d a ) 、求职信( w m t j o b ) 、网络天空( n e t s k y ) 等。邮件病毒凭借其危害性强、变形种类繁多、传播速度快、影响范围广的特点，造成病毒泛滥和信息泄密。虽然邮件服务器本身一般不会感染病毒，但是它却是病毒传播的载体，因此为了防范邮件病毒散播最有效的方式就是在邮件服务器上架设过滤机制，如同控制垃圾邮件一样，常用如下的方法来隔离携带病毒的邮件： ( 1 ) 拒收具有已知病毒主题的邮件； ( 2 ) 对所有邮件附件进行病毒扫描； ( 3 ) 拒收带有附件的邮件： ( 4 ) 拒收带有某种特定类型附件的邮件，如c o m ，e x e 等等。通过对邮件主题进行简单地扫描，一般就能防止己知病毒进入邮件系统， 2 但是必需知道病毒邮件的主题。在邮件服务器上对邮件的附件利用杀毒引擎进行扫描，是目前普遍采用的一种方式。其他两种方式一般在特定的邮件环境中才会使用。 1 2 垃圾邮件简介 1 2 1 垃圾邮件定义迄今为止，垃圾邮件( s p 锄、i u n km a i l ) 在国际上没有统一的定义。普通意义上的垃圾邮件指的是未经主动请求的大量的电子邮件，在中国互联网协会反垃圾邮件规范中垃圾邮件被界定为f 2 】： ( 1 ) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件。 ( 2 ) 收件人无法拒收的电子邮件。 ( 3 ) 隐藏发件人身份、地址、标题等信息的电子邮件。 ( 4 ) 含有虚假的信息源、发件人、路由等信息的电子邮件。 1 2 2 垃圾邮件的现状据统计，2 0 0 1 年垃圾邮件仅占电子邮件总量的7 ，到2 0 0 2 年即达到2 9 ，至2 0 0 3 年7 月就超过了5 1 ，2 0 0 4 年1 月高达6 0 。2 0 0 5 年7 月，中国互联网络信息中心( c n n i c ) 发布的第十六次中国互联网络发展状况统计报告显示，我国网民平均每周收到1 4 5 封电子邮件，其中正常电子邮件为5 2 封，垃圾邮件却达到9 3 封。网民每周收到的垃圾邮件数是非垃圾邮件数的近两倍! 如图卜l 所示。：竺。 2 9 * ! 二| 行。当有限的网络资源和网络带宽上充斥大量的垃圾邮件时，就降低了网络的使用效率。对邮件服务器而言，收到的垃圾邮件占用了它的磁盘空间。另外，当一些用户利用邮件服务器对外发送垃圾邮件时，该服务器会被列入黑名单而遭外部封杀。仅2 0 0 4 年1 1 月至2 0 0 5 年4 月中旬，我国就有7 5 0 多个i p 地址段被国外反垃圾邮件组织列入黑名单，导致我国大量用户无法与国外进行正常通信。 ( 2 ) 增加用户对邮件的处理时间。如果我们每天都要花费一段时间来处理垃圾邮件，工作效率就要降低，对整个社会来说，被浪费的时间更是一大笔宝贵的财富。 ( 3 ) 对网络安全形成威胁。黑客们利用电子邮件系统发送数以万计的垃圾邮件风暴攻击目标，使之瘫痪、拒绝服务。垃圾邮件还可以被病毒利用，成为它们的传播途径。 ( 4 ) 大量反动政治和色情邮件传播反动、色情等各式各样的有害信息给社会带来了极大的负面影响和危害。 1 3 垃圾邮件的解决方案垃圾邮件的猖獗让广大用户深恶痛绝，引起了全球热切关注，面临垃圾邮件问题日益严重的现状，人们开始从多方面寻找解决方案。目前解决、缓解垃圾邮件问题的方法和手段一般有： ( 1 ) 保障邮件服务器的安全。目前已经有很多邮件服务器的升级版本支持对o p e n r - e l a y 的关闭，但由于系统管理员的疏忽，这一漏洞经常没有得到及时修补。另外，有很大一部分垃圾邮件是垃圾邮件发送者利用黑客技术，控制一些安全设置不完善的邮件服务器所发出的。所以保障邮件服务器的安全是防范垃圾邮件的首要前提。 ( 2 ) 反垃圾邮件立法。针对目前垃圾邮件泛滥的现状，反垃圾邮件立法的呼声f 1 益渐高，中国互联网协会2 0 0 4 年2 月在北京发出关于加快“反垃圾邮件立法”进程的倡议，得到了众多组织机构和邮件用户的响应。但立法面临着一系列的问题，如：垃圾邮件的概念之争、法律的执行问题和缺少国际合作等。如果规定发送邮件都需要一定的额外代价，在现阶段显然很难得到广大邮件用户的认可。 ( 3 ) 利用反垃圾邮件技术。近年来，有关反垃圾邮件技术的研究开始逐步兴起，相关的投入也越来越大，涌现了一大批相关产品，如：亿邮反垃圾邮件网关、趋势反垃圾邮件网关、美讯智s m g 、梭子鱼、e q m a n a g e r 等。从技术上解决或缓解垃圾邮件问题，是最理想的解决方案。 1 4 本文研究内容与章节安排本文在对各种反垃圾邮件技术进行研究的基础上，结合电子邮件系统的特性和电子邮件系统相关协议，重点研究中文垃圾邮件过滤技术，并将自然语言处理中的中文分词技术应用到中文垃圾邮件过滤中，提出了一种基于规则方法和基于统计方法相结合的中文垃圾邮件解决方案。各章的内容安排如下：第一章：绪论。概括介绍了电子邮件系统的安全、垃圾邮件的现状、危害和解决方案。第二章：u n i x 邮件系统概述及安全分析。介绍u n i x 邮件系统，并对s m t p 协议、邮件格式特征等进行了安全分析。第三章：反垃圾邮件技术研究及分析。概括介绍了垃圾邮件技术和反垃圾邮件技术，重点研究分析了基于规则的和基于统计的文本分类技术在邮件过滤中的应用，并对邮件过滤的过程进行了详细分析。第四章：中文垃圾邮件过滤研究。在基于规则方法的中文垃圾邮件过滤技术的基础上，采用基于规则方法和基于统计方法相结合的的思想，提出了一种中文垃圾邮件过滤方案，并将自然语言处理中的中文分词技术应用到中文垃圾邮件过滤中，通过机器学习解决了邮件训练集和中文过滤规则的自动更新问题。第五章：中文垃圾邮件过滤系统的设计与实现。在中文垃圾邮件过滤方案的基础上，结合其他反垃圾邮件技术，设计并实现了一种中文垃圾邮件过滤系统。第六章：结束语。总结全文，提出了进一步的工作。第二章u n l x 邮件系统概述及安全分析 2 1电子邮件基础知识 2 1 1u n i x 邮件系统自2 0 世纪7 0 年代末以来，u n i x 操作系统已经成为一种主流的多用户应用平台，目前互联网上三分之二以上的邮件服务器都使用u n 操作系统及其变种l i n u x 和f r e e b s d 作为邮件服务的系统平台。 u n i x 操作系统改变了电子邮件软件的实现方式，其主要革新之一是使软件模块化。系统不再使用一个大程序处理所有的功能请求，而是由若干协同工作的小程序所组成，每个小程序只处理整体系统功能的一部分。这种思想也被用来实现u n i x 邮件系统，邮件系统的功能也被分成若干部分，分别由相对独立的程序来实现，并且这些邮件系统基本都是开放源码软件。图2 一l 显示了 u n i x 环境下开放源码邮件系统功能的模块划分。图2 1u n i x 环境r 电子邮件系统功能模块划分邮件服务器通常被分为三个模块： ( 1 ) 邮件传输代理m t a ( m a i lt r a l l s p o r ta g e n t ) ：负责发送和接收邮件，把外发的邮件传到远程m 1 1 a ，将收到的本地邮件发送到本地用户邮箱，或交给本地m d a 进行投递。 ( 2 ) 邮件投递代理m d a ( m a i ld e l i v e r ya g e n t ) ：把邮件投递到用户的邮箱里： ( 3 ) 邮件用户代理m u a ( m a i lu s e r a g e m ) ：帮助用户读写邮件。需要说明的是，这三部分之间的界限并不十分明确，有时候一个程序模块可能既包含了m d a 的功能同时又实现了m t a 的功能，而另外一些时候又有可能是m t a 和m u a 的功能被组合在一起。整个邮件传输过程如下：邮件通过一系列的服务器发送到最终目的地。服务器在一个队列中存储到达的邮件，等待发送到下一个目的地。下一个目的地可以是本地用户，或者是另一个邮件服务器，如图2 2 所示。m t a 在整个邮件系统系统中发挥着重要的作用。幽2 2 邮件传输过程 2 1 2m t a 的功能和特性 1 、m t a 的功能 m t a 软件负责处理所有接收和发送的邮件。对于每一个外发的邮件，m t a 决定接收方的目的地。如果目的主机就是本机，那么m t a 将把邮件直接发送到本地的邮箱，或者交给本地m d a 进行投递。但是，如果目的主机是远程邮件服务器，则m 1 a 必须通过同这个远程主机建立一条通信链路来传递邮件。对于接收端的m t a 必须能够响应远程邮件服务器的连接请求，并为本地用户接收邮件。 2 、m t a 的特性 u n i x 环境下有许多开放源码m t a 程序，每种m 1 a 程序通常都有如下的特性： ( 1 ) 安全性从计算机网络安全的角度来看，任何同远程主机进行交互的软件都应该被仔细审查以防止被黑客所利用，m t a 软件也是一样。有多种手段来保证m t a 软件免受来自远程主机的攻击，如m t a 程序使用一个普通用户而不是超级用户 ( r o o t ) 运行，以帮助保护邮件服务器。 ( 2 ) 配置简便尽管这些安全措施使m i a 软件变得复杂，但是绝大多数的m 1 i a 程序都提供了较为方便的安装配置文件它可以通过一些安装配置的程序包来对m 1 a 的各种功能特性进行配置。 ( 3 ) 处理迅速对于使用大型邮件系统的公司和i s p 来说，性能是非常重要的。绝大多数的客户都希望他们的收件人能够迅速地收到邮件。那种使邮件信息在邮件队列中滞留几小时的服务在当今的信息社会是无法被接受的。因此，绝大多说的 m t a 程序都要求高效地处理邮件。 2 2 简单邮件传输协议( s m t p ) 分析 s m t p 基于r f c 5 2 4 发展而来，r f c 5 2 4 是在1 9 7 3 年提出的，它不是一个安全的命令集，这使得s m t p 缺乏安全性保障。s m t p 由1 9 8 2 年公布的r f c 8 2 l 7 定义，近年来对s m t p 有一些修订，但是其基本协议命令仍然在使用。 2 2 1s m t p 的基本结构模型 s m t p 提供了一种邮件传输的机制，是m t a 之间发送邮件要遵守的一种规则。s m t p 首先由发件方提出申请，要求与接收方s m t p 建立双向的通信渠道，收件方可以是最终收件人也可以是中间转发的服务器。收件方服务器确认可以建立连接后，双发就可以开始通信【“，如图2 3 所示。一+ 一+ + 一+ iii l u 8 e rl i i s h t p l + + s e n d e r lc o 础n a n d s r e p l i e s lr e c e i v e r l + + l s h t p l l s h t p+ + l f i l ei i i a n dm a i l il l f i l e s y s t e m iiills y s t e 瑚l - 一一一一一一+ - 卜一一一一一一一一一十+ 一一一一一一一一一一+ - 一一一一一一+ 图2 3s m t p 模型 2 2 2s m t p 的基本命令和工作过程 1 、s m t p 的基本命令 s m t p 定义了1 4 个命令，其中基本命令有7 个，格式分别是： h e l o m a i l f r o m ： r c p t 1 o ： r l f d a t a r s e t n o o p q u i t 这些基本命令的功能如下： ( 1 ) h e l o 命令：发件方问候收件方，后面是发件人的服务器地址或标识。收件方回答o k 时标识自己的身份。问候和确认过程表明两台机器可以进行通信，同时状态参量被复位，缓冲区被清空。 ( 2 ) m a i l 命令：用来开始传送邮件，它的后面跟随发件方邮件地址( 返回邮件地址) 。它也用来当邮件无法送达时，发送失败通知。为保证邮件的成功发送，发件方的地址应是被对方或中间转发方同意接受的。这个命令会清空有关的缓冲区，为新的邮件做准备。 ( 3 ) r c p t 命令：告诉收件方收件人的邮箱。当有多个收件人时，需要多次使用该命令，每次只能指明一个人。如果接收方服务器不同意转发这个地址的邮件，它必须报5 5 0 错误代码通知发件方。如果服务器同意转发，它要更改邮件发送路径，把最开始的目的地( 该服务器) 换成下一个服务器。 ( 4 ) d a l 、a 命令：收件方把该命令之后的数据作为发送的数据。数据被加入数据缓冲区中，以单独行是” ”的行结束数据。结束行对于接收方同时意味立即开始缓冲区内的数据传送，传送结束后清空缓冲区。如果传送接受，接收方回复o k 。 ( 5 ) i 也s t 命令：用来通知收件方复位，所有已存入缓冲区的收件人数据，发件人数据和待传送的数据都必须清除，接收放必须回答o k 。 ( 6 ) n o o p 命令：用来在开始邮件传输前检测连接是否能建立。 ( 7 ) o u i t 命令：中断连接。 2 、s m t p 工作过程发件方s m t p 向收件方发出m a i l 命令，告知发件方的身份：如果收件方接受，就会回答o k 。发件方再发出r c p t 命令，告知收件人的身份，收件方 s m t p 确认是否接收或转发，如果同意就回答o k ；接下来就可以进行数据传输了。通信过程中，发件方s m t p 与收件方s m t p 采用对话式的交互方式，发件方提出要求，收件方进行确认，确认后才进行下一步的动作。整个过程由发件方控制，有时需要确认几个来回，如图2 4 所示。盘送心审卜、一处瑶啼令 f 处理回蒸j 一j 一1 越迸回蔓挂隧舌l 审卜一处理曲令 t 理目蔓【一1 挺进隧 l 麓透万s m 阡收件方铷口图2 4s m t p 工作过程为了保证回复命令的有效，s m t p 要求发件方必须提供接收方的服务器及邮箱。邮件的命令和答复有严格的语法定义，并且回复具有相应的数字代码。所有的命令由a s c i i 码组成。 3 、s m t p 服务器应答代码和含义 s m t p 服务器对于每一条由客户机发来的命令都必须返回应答信息。应答信息由两部分组成，第一部分是3 位数的应答码，s m t p 使用应答码来确定命令执行是否成功，以及如果不成功时原因时什么；第二部分是一条字符串，说明应答的含义。例如： 2 2 0 s e r v i c er e a d y 2 21 s e r v i c ec l o s i n gt r a l l s m i s s i o nc h 啪e l 2 5 0r e q u e s t e dm a i la c t i o no k a y ，c o m p l e t e d 2 51u s e rn o tl o c a l ；w i l lf o n v a r dt o 4 5 0r e q u e s t e dm a i la c t i o nn o tt a k e n ：m a j l b o xu n a v a l l a b l e 5 5 0r e q u e s t e da c t i o nn o tt a k e n ：m a i l b o x 吼a v a i l a b l e 5 5 2r e q u e s t e dm a j la c t i o na b o m d ：e x c e e d e ds t o r a g ea 1 1 0 c a t i o n 5 5 3r e q u e s t e da c t i o nn o tt a k e n ：m a i l b o xn a m en o ta l l o w e d 5 5 41 l a n s a c t i o nf 甜l e d 下面是r f c 8 2 1 中给出的一个例子，这封信是s m i 恤在主机a l p h a a r p a 发给主机b e t a a r p a 上的j o n e s ，g r e e n 和b m w n ，并且假定两台主机在同一个网络上。 s ：m a i lf r o m ：s m i t h a l p h a a 脚狐 r ：2 5 0 0 k s ：r c p t1 1 0 ：j o n e s b e t a a r p a r ：2 5 0 0 k s ：i 犯p tt o ：g r e e n b e t a a r p a r ：5 5 0 n os u c h u s e r h e r e s ：r c p tt o ：b r o 、v 1 1 b e 诅a r p a r ：2 5 0 0 k s ：d a t a r ：3 5 4s t a nm a i li n p u t ；e n dw i t h s ：b 1 a hb l a h b l a l l s ：e t c e t c e t c s ： r ：2 5 0 0 k 邮件最后被对方接受。这些应答码是s m t p 服务器执行客户端发出的命令( 例如m a i l 、r c p t 和d a l i a 等) 的结果。它们返回所请求操作执行的状态，以便客户机知道下一步s m t p 处理执行什么操作。 2 2 3s m t p 的缺陷 s m t p 协议的建立是基于信任的基础上发展而来，假定人们的身份和他们所声称一致。s m t p 协议本身是一个简化的邮件传输协议，缺乏很多必要的身份认证。由于s m t p 协议中没有包含要求用户进行身份认证的指令，所以即使不是合法用户也可以使用服务器发送邮件。更糟糕的是，m a i l 指令所声明的发送者邮件地址也不要求是合法的、可以验证的邮件地址，这样就导致垃圾邮件发送者大量发送匿名和冒名邮件，而且无据可查，这是造成垃圾邮件泛滥的原因之一。由于s m t p 协议允许发信人伪造绝大多数的发信人特征信息，如：发信人、信件路由等，甚至在通过匿名转发、开放转发和开放代理等手段后，可以几乎 1 0 完全抹去垃圾邮件的发信人特征。目前，绝大多数的垃圾邮件都伪造了其真实的发信来源，这给发现和制止垃圾邮件的传播造成了很大的困难。在2 5 节中将结合邮件格式特征做更详细的分析。 2 2 4 扩展s m t p 尽管s m t p 的缺陷已众所周知，但是人们没有打算替换全球都在使用的 s m t p 协议，而是对它进行了改进，对s m t p 协议进行了一部分扩充，扩充后的协议被称为扩展简单邮件传输协议( e s m t p ) 。 e s m t p ( e x t e n d e ds i m p l em a i lt r a n s f c rp r o t o c 0 1 ) 比s m t p 更健壮，它实现的一个最重要的功能就是提供对m t a 主机的登陆认证。e s m t p 引入了a u t h 命令，客户主机通过使用a u t h 命令向邮件服务器提供身份认证，只有验证通过后，客户机才能使用邮件服务。这对遏制匿名发送垃圾邮件有很大作用。 2 3 标准邮件格式特征分析 2 3 1 邮件的结构 r f c 8 2 2 定义了一种标准的邮件报文格式 5 1 ，明确地将邮件划分成两部分：信头( h e a d e r ) 和信体( b o d y ) 。信头在信体之前，两部分之间使用一个空行分隔，如图2 5 所示。空行信体图2 5r f c 8 2 2 邮件格式 2 3 2 邮件的信头分析对普通用户来说，邮件的内容通常是电子邮件最重要的部分，但是对于邮件管理员来说，信头更加重要。信头中包含若干顺序不限的数据字段，这些字段里含有我们查询垃圾邮件来源及路径的重要线索。下面用一封实际的邮件( 见表2 1 ) 来对信头进行分析。表2 一l 实际邮件中的信头字段信息 r e c e i v e d ：疳d m m a g i c m a i l a h a u e d u c n ( h e l o m a i l i n t e r a c t i v e c o m ) ( 2 18 1 0 6 8 5 1 0 8 ) b y1 0 c a i h o s tw i t hs m t p ；m o n ，1 3j u n2 0 0 50 7 ：3 8 ：4 5 0 0 0 0 r e c e i v e d ：f r o mz h a oc o m c n ( 2 2 1 1 3 0 7 9 6 ) b ya i m c c o m ( a i m c2 9 5 4 ) w 砧s m t pi da i s pa c 廿o n ：m o n 1 3j u i l2 0 0 50 6 ：3 7 ：2 2 + 0 8 0 0 f r o m ：”b s v 3 3 ” s u b j e c t ：= ? g b 2 31 2 7 b ? u e 0 4 5 s d 7 x v e h q q g q t s z q x c i 6 t 6 k h o k u t b w f p b m i 6 t 6 l = ? = t b ：z h u j u n 国a h a ue d uc n c o n t e n t - b p e ：t e x t p l a i n ；c h a r s e t = ”g b 2 3 1 2 ” r e p l y t b ：b s v 3 3 z h a o c o m c n d a t e ：m o n 1 3j u n2 0 0 50 6 ：3 0 ：3 8 + 0 8 0 0 m e s s a g e - i d ：除此之外，恐怕很难找到这样廉价高效的广告利器了：短信群发、e - m a i l 群发、供求网站集群发布! 感兴趣么，我会根据你所在的行业为你提出一个实实在在的方案供你选择! 请和我联系吧：电话：0 5 2 3 5 1 5 6 0 0 7 短信：1 3 8 5 2 8 5 6 0 0 7 ( 1 ) r e c e i v e d ：字段 r e c e i v e d ：字段用来标识将邮件从最初发送者到目的地过程中进行中间转发的s m t p 服务器。每台服务器都会在信头中增加一个r e c e i v e d ：字段，并填充关于自己的详细信息。如：r e c e i v e d = f r o mz h a o c o m c n ( 2 2 1 1 3 0 7 9 6 】) b ya i m c c o m ( a i m c2 9 5 4 ) ；m o n ，13j u n2 0 0 50 6 ：3 7 ：2 2 + 0 8 0 0 ( 2 ) o r i g i n a t o r 字段 0 r 罾n a t o r 字段显示邮件发出的地址，如：r e p l y - t o ：b s v 3 3 z 1 1 a o c o m c n ( 3 ) a u t h e n t i c 字段 a u t i l e n t i c 字段标识邮件的发送者，如：f r o m ：”b s v 3 3 ( 4 ) d a t e ：字段 d a t e ：字段用来在客户机向服务器发送邮件时，给邮件加上时间戳。如：d a t e ： m o n 1 3j u n2 0 0 50 6 ：3 0 ：3 8 + 0 8 0 0 ( 5 ) d e s t i n a t i o n 字段 d e s t i n a t i o n 字段用来标识邮件接收方的地址。如：t o ：z h u u i l a h a u e d u 加。除了t 0 ：字段外，还有c c ：字段和b c c ：字段。t o ：字段标识邮件的主要接收者； c c ：字段标识被“抄送”的接收者：b c c ：字段又称暗拷贝，该地址对于其他收件人是不可见的。 ( 6 ) o p t i o n a l 字段 0 p t i o n a l 字段进一步标识发往服务器的邮件，不是必需的。这些字段提供一些便利功能。例如最常用的s u b j e c t ：字段，用来标识邮件的主题；m e s s a g e i d ：字段提供一个惟一的邮件i d ，传输时被包含进日志文件，退信时也参考它。在2 5 节将分析如何利用信头中的相关字段来追踪垃圾邮件的来源。 2 4 m e 邮件格式特征分析由于s m t p 中的d a r a 命令只能传输a s c i i 码文本信息，所以非a s c i i 文本信息，如图片、程序以及中文文档等在邮件处理过程中将被转换成a s c i i 文本，然后通过s m t p 发往远程的主机，在那里再还原为二进制数据。互联网中对二进制进行编码的方法是u u e n c o d e 和多用途互联网邮件扩展( m u l t i p u r p o s e i n t e m e tm a i le x t e n s i o n s ，m i m e ) 格式。 2 4 1u u e n c o d e u u e n c o d e 是u n 系统管理员将二进制数据转换成a s c i i 文本数据的方法，其中u u 表示u n i x 系统之间( u n 一t o 坷x ) 。早期的s m t p 使用u u e n c o d e 老发送二进制数据，但是新的邮件系统都不再使用它了，而是使用m i m e 。 2 4 2m i m e 邮件格式 m i m e 是在u u e n c o d e 后出现的一种对二进制进行编码的互联网标准， m i m e 的报文格式由i u c 2 0 4 5 和r f c 2 0 4

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）中文垃圾邮件过滤技术研究及应用.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）中文垃圾邮件过滤技术研究及应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档