（计算机科学与技术专业论文）中文垃圾邮件过滤技术研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-17 格式：PDF 页数：62 大小：2.44MB 积分：0 举报 版权申诉

已阅读5页，还剩57页未读，继续免费阅读

（计算机科学与技术专业论文）中文垃圾邮件过滤技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

独创性声明 y l i l l l l l l l l l l l l 8 1 1 1 1 | 8 j l l l l o l l l l l 2 1 1 1 1 1 7 l l l l l 5 本人声明，所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定，即学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索，可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文，并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) ：豸盔导师( 签名) 武汉理工大学硕+ 学位论文摘要随着因特网的高速发展，互联网用户不断增加，电子邮件也成为了日常生活中最普遍、最经济的通讯方式之一。由于其快捷、经济的特点，很多大型企业也将其作为内部的主要交流形式。但一些人士为了自己的利益，也利用电子邮件的这个特点来传播垃圾邮件，不但占据带宽、耗费网络资源，浪费用户时间和精力，甚至还可能给用户的计算机造成威胁，泄露用户隐私。因此反垃圾邮件技术就应运而生，从反垃圾邮件技术诞生的那一刻起，国内外的研究者都在探讨切实有效的垃圾邮件的过滤技术。本文在前人研究的基础上，深入研究了目前国内外主流的反垃圾邮件技术，选取了基于内容的垃圾邮件过滤作为本文的研究重点。分析了常用的几种基于内容的过滤方法，由于贝叶斯算法的分类效果好于其他的分类算法，因此本文着重分析和探讨了贝叶斯分类算法，针对该算法的不足进行了改进：提出了一种基于权重的贝叶斯分类模型，并在传统的权重计算的基础上引入信息增益的概念，优化了权重计算公式；另外本文从实际应用出发，对于垃圾邮件的判断方法进行改进，由单纯地比较概率的大小提升到比较概率的倍数；并考虑了训练邮件样本集中合法邮件和垃圾邮件的比例，根据最近发布的中国反垃圾邮件状况调查报告中统计的电子邮箱用户所收到的垃圾邮件占用户邮件的百分比，在训练邮件样本集中尽量模拟真实的邮件比例。并通过实验证明了改进后的贝叶斯算法相较于传统算法的分类精度得到提高。本文还研究了邮件过滤相关的技术：中文分词技术、文本表示模型、特征项选择等，为分类模块的设计奠定基础。最后本文设计了一个完整的多层邮件过滤系统的模型，该系统结合了多种邮件过滤技术：黑白名单过滤、基于规则的过滤、贝叶斯过滤；并运用改进的算法实现了贝叶斯分类模块。关键词：中文邮件、邮件过滤、贝叶斯分类、中文分词、权重武汉理工大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e m e t i n t e r n e tu s e r sa r ei n c r e a s i n g , s o ，e - m a i l h a sb e c o m eo n eo fm o s tc o m m o na n de c o n o m i c a ls e r v i c eo fi n t e r n e ti nt h em o d e r n s o c i e t y b e c a u s eo fi t s e f f i c i e n ta n de c o n o m i c a l c h a r a c t e r i s t i c s ，m a n yl a r g e e n t e r p r i s e su s ei ta st h em a i ni n n e rc o m m u n i c a t i o n b u ti ti sh a sd r a w b a c ko ft l l a t s o m ep e o p l eu s et h i sf e a t u r et os p r e a ds p a mf o rt h e i ro w nb e n e f i t s t h a ti sn o to n l y o c c u p y i n gb a n d w i d t h ，c o n s u m i n gn e t w o r kr e s o u r c e s ，w a s t i n gu s e r st i m e ，b u ta l s o p o s i n gat h r e a tt ot h eu s e r sc o m p u t e ra n dd i s c l o s i n gu s e r sp r i v a c y t h e nt h e a n t i s p a mt e c h n o l o g yc a m ei n t ob e i n g i n t e r n a t i o n a la n dd o m e s t i cr e s e a r c h e r sa r e l o o k i n g f o re f f e c t i v es p a m f i l t e r i n gt e c h n o l o g yf r o mt h e b o r no fa n t i s p a m t e c h n o l o g y b a s e do n p r e d e c e s s o r s s t u d i e s ，t h i st h e s i si n - d e p t hs t u d yo ft h ec u r r e n t m a i n s t r e a ma n t i - s p a mt e c h n o l o g ya th o m ea n da b r o a d ，a n df o c u so nc o n t e n t - b a s e d s p a mf i l t e r i n gt e c h n o l o g yt oa v o i dt h ei n f l u e n c eo fs p a m t h o u g h tc o m p a r e ds e v e r a l c o m m o n l y u s e dc o n t e n t - b a s e d f i l t e r i n gm e t h o d s ，w ed e s i g n t h e b a y e s i a n c l a s s i f i c a t i o na l g o r i t h mt os o l v et h ep r o b l e m f i r s t l y , w ep r e s e n taw e i g h t - b a s e d b a y e s i a nc l a s s i f i c a t i o nm o d e l a ni m p o r t a n tf e a t u r eo fo u rm o d e li st h a tw ee x p l i c i t l y c o n s i d e rt h ec o n c e p to ft h et e x ti n f o r m a t i o ng a i nt ot h et r a d i t i o n a lw e i g h tc a l c u l a t i o n , o p t i m i z et h ew e i g h tf o r m u l a t i o n s e c o n d l y , c o n s i d e r i n gt h ep r a c t i c a la p p l i c a t i o n , t h i s t h e s i si m p r o v e st h ej u d g m e n to fs p a mf r o mc o m p a r i s o no fp r o b a b i l i t ys i z e t o p r o b a b i l i t yq u o t i e n t t h i r d l y , w ec o n s i d e rt h ep r o p o r t i o no ft h el e g i t i m a t ee - m a i l sa n d j u n ke - m a i l si n t h et r a i n i n gs a m p l es e to fe - m a i l s a c c o r d i n gt ot h e ”c h i n a a n t i - s p a ms u r v e yr e p o r t r e c e n t l yr e l e a s e d ，i nw h i c hs t a t i s t i c st h ep r o p o r t i o no f s p a mi na l le - m a i l st h a tu s e rr e c e i v e d ，w et r yt os i m u l a t et h er e a lp r o p o r t i o ni nt h e t r a i n i n gs a m p l es e to fe - m a i l s t h e n , t h ee x p e r i m e n tp r o v e dt h a tt h ea c c u r a c yo ft h e i m p r o v e db a y e s i a na l g o r i t h mi si m p r o v e d ，c o m p a r e dt ot h et r a d i t i o n a la l g o r i t h m ， i no r d e rt ol a yt h ef o u n d a t i o nf o rt h ed e s i g no ft h ec l a s s i f i c a t i o nm o d u l e ，w e a l s o s t u d ys o m et e c h n o l o g i e sr e l a t e de - m a i lf i l t e r i n g , s u c ha s c h i n e s ew o r d s e g m e n t a t i o n , t e x tr e p r e s e n t a t i o nm o d e l ，f e a t u r es e l e c t i o na n ds oo n 武汉理t 大学硕士学位论文 f i n a l l y , w ed e s i g nac o m p l e t em o d e lo fm u l t i l a y e rs p a mf i l t e r i n gs y s t e m t h e s y s t e mc o m b i n e sav a r i e t yo fs p a mf i l t e r i n gt e c h n i q u e s ，i n c l u d i n gb l a c ka n dw h i t el i s t f i l t e r i n g , r u l e b a s e df i l t e r i n ga n db a y e s i a nf i l t e r i n g a n du s i n gi m p r o v e da l g o r i t h mt o i m p l e m e n tt h eb a y e s i a nc l a s s i f i c a t i o nm o d u l e k e yw o r d s ：c h i n e s ee - m a i l ，e - m a i lf i l t e r i n g , b a y e s i a nc l a s s i f i c a t i o n , c h i n e s ew o r d s e g m e n t a t i o n ，w e i g h t u l 武汉理工大学硕士学位论文目录第1 章绪论1 1 1 研究背景1 1 2 研究现状和发展趋势2 1 3 论文的主要工作及创新4 1 4 论文的内容和结构5 第2 章垃圾邮件过滤相关技术概述6 2 1 电子邮件的工作原理6 2 2 电子邮件的结构。7 2 3 电子邮件协议8 2 3 1 简单邮件传输协议8 2 3 2 邮局协议8 2 3 3 多用途网际邮件扩充协议。9 2 3 4 网际消息访问协议l o 2 4 邮件预处理1 1 2 4 1 中文文本分词技术l l 2 4 2 邮件文本的表示模型l3 2 4 3 特征项选择15 2 4 4 特征权重计算16 2 5 文本分类的技术17 2 5 1 文本分类的过程1 7 2 5 2 文本分类算法l8 2 6 本章小结2 3 第3 章贝叶斯邮件分类模型2 4 3 1 贝叶斯定理2 4 3 2 贝叶斯推理模型2 4 3 2 1 一般贝叶斯模型2 4 3 2 2 朴素贝叶斯模型2 6 3 3 贝叶斯过滤模型的估计模型2 6 i v 武汉理工大学硕士学位论文 3 3 1 多变量伯努利模型2 6 3 3 2 基于词频的多项式模型2 8 3 4 贝叶斯分类在邮件过滤中的应用2 9 3 4 1 贝叶斯分类方法的优势2 9 3 4 2 贝叶斯分类方法的局限性2 9 3 5 本章小结3 0 第4 章朴素贝叶斯分类算法改进研究3 1 4 1 贝叶斯分类算法分析3 1 4 2 贝叶斯分类算法的改进3 2 4 3 实验分析_ 3 5 4 3 1 分类评价方法3 5 4 3 2 邮件测试语料3 7 4 3 3 实验方法3 7 4 3 4 实验结果和分析3 7 4 4 本章小结4 1 第5 章邮件过滤系统设计4 2 5 1 邮件过滤系统总体结构4 2 5 2 贝叶斯分类模块4 3 5 2 1 邮件预处理4 3 5 2 2 分词模块4 4 5 2 3 贝叶斯分类模块设计4 5 5 3 贝叶斯分类模块的实现4 7 5 4 本章小结4 9 第6 章总结与展望5 0 6 1 总结5 0 6 2 进一步的工作51 致谢5 2 参考文献。5 3 攻读硕士学位期间发表的论文和参加科研项目情况5 6 v 武汉理工大学硕士学位论文 1 1 研究背景第1 章绪论随着互联网用户数量的不断增长，电子邮件( e l e c t r o n i cm a i l ) 正在迅速成为当今社会最快捷，最经济的通讯形式之一【l 】。中国互联网络信息中心( c h i n a i n t c m c tn e t w o r ki n f o r m a t i o nc e n t e r , c n n i c ) 于2 0 1 1 年1 月发布的第2 7 次中国互联网络发展状况统计报告【2 】中显示，我国网民规模继续稳步增长，网民总数达到了4 5 7 亿，其中电子邮件的使用率占5 4 6 ，达到了2 亿5 千万人。正因为电子邮件发送简便，成本低廉，所以它不但被作为一种交换信息的工具，还被一些组织或个人用于传播垃圾邮件。中国互联网协会最近发布的中国反垃圾邮件状况调查报告【3 j 中显示，电子邮箱用户平均每周收到的垃圾邮件数量为1 5 9 封，占用户收到邮件比例的3 7 6 。而这些垃圾邮件，给用户的工作和生活带来了极大的困扰。垃圾邮件在英文中被称作j u n km a i l 或s p a r e ，顾名思义是指用户不希望接收的电子邮件。在2 0 0 3 年发布的中国互联网协会反垃圾邮件规范 4 q a 对于垃圾邮件有明确的定义： ( 1 ) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件； ( 2 ) 收件人无法拒收的电子邮件； ( 3 ) 隐藏发件人身份、地址、标题等信息的电子邮件； ( 4 ) 含有虚假的信息源、发件人、路由等信息的电子邮件。对于垃圾邮件的发送者而言，其成本无疑是极其低廉的；然而对于用户和电子邮件服务的提供商而言，垃圾邮件带来的危害和损失却是不容小觑的。其危害主要表现在以下几方面【5 】： ( 1 ) 占据大量网络带宽以及邮箱的空间，造成网络拥堵，致使邮件服务器崩溃，影响邮件的正常传递，为用户的交流带来不便； ( 2 ) 用户收到垃圾邮件必须去阅读，这就浪费了用户的时间及精力，还会影响心情； ( 3 ) 部分垃圾邮件还包含病毒，会使用户的系统在读取邮件时染上病毒或者武汉理- t 大学硕士学位论文窃取用户的个人信息，如网上银行、网上支付的密码等，造成用户的经济损失。 1 2 研究现状和发展趋势几乎是从垃圾邮件诞生的那一刻起，就有了反垃圾邮件的概念，垃圾邮件的迅猛发展也使反垃圾邮件成为了刻不容缓的问题。目前国内外主流的反垃圾邮件技术主要包括三个方面：基于口层的过滤，基于s m t p 协议的过滤以及基于内容的过滤。 ( 1 ) 基于p 层的过滤基于口层的过滤主要有黑名单、白名单、实时黑名单( r e a l t i m eb l a c k h o l el i s t , r b l ) 等技术。通常的邮件器通常都具有黑名单过滤功能，这是一种最早的垃圾邮件过滤技术。其原理是通过确定已有的垃圾邮件发送者以及i s p 的m 地址或者域名，将其整理为黑名单，并在处理网关处部署黑名单，这样就可以拒绝任一在黑名单上的垃圾邮件制造者所发送的邮件。这种方法的原理比较简单，且实现起来比较方便，对于过滤已知的垃圾邮件制造者发送的垃圾邮件是极为有效的，但是这种方法也存在明显的缺陷，那就是对于从新地址或者伪造源地址的发送的垃圾邮件起不到过滤的作用，并且有可能还会妨碍用户间的正常邮件往来。在实际的垃圾邮件过滤中，黑名单技术往往跟其他的过滤技术结合使用【6 】。白名单技术的原理与黑名单技术相反，白名单上的邮件地址是用户允许接收的地址，除非发送邮件的地址在白名单上，否则拒绝接收任何邮件。这种方法可以绝对过滤掉垃圾邮件，但是用户在使用时就会比较麻烦，比如用户希望接受到来自某个地址的电子邮件时，必须先将邮件地址添加进白名单；如果以前允许接收的邮件地址发生改变时，用户又必须在白名单中做出修改，否则无法正常接受邮件。实时黑名单技术是黑名单技术的扩展，它是借助于第三方机构为用户提供一个可供查询的m 地址列表，当有新邮件到达时，通过d n s 在此列表中查询地址是否被列入该实时黑名单列表中。这项技术的时效性较强，但是由于实时黑名单服务的提供者大多是国外的组织和机构，因此并不能够充分反映出国内的垃圾邮件情况，目前国内提供实时黑名单服务的组织只有中国反垃圾邮件联盟。 ( 2 ) 基于s m t p 协议的过滤 2 武汉理工大学硕士学位论文基于s m t p 协议的过滤主要技术包括：域名反向解析和s m t p 交互行为的检测川。域名反向解析技术是对邮件发送者的口地址进行逆向解析，通过d n s 查询来判断发送者的口与其声称的名字是否一致【| 刀。比如声称的名字是a a s i n a c o m ，而其连接的地址为1 0 1 0 0 1 0 0 1 0 0 ，与d s n 不符，就予以拒收。来自动态口的垃圾邮件都可以使用这种方法过滤掉。但是在做逆向解析时需要大量的d n s 查询，会耗费大量的网络资源。 s m t p 交互行为的检测主要是针对垃圾邮件服务器的特点来设定的，常见的检测手段有：发送账号限制、发送无效账号、使用特殊命令等【8 】。 ( 3 ) 基于内容的过滤目前反垃圾邮件的主流技术是基于内容的过滤技术，又分为基于规则的过滤和基于统计的过滤两种技术。基于规则的过滤【9 】其原理是在分类时，按照预先设定好的规则，在邮件内容中寻找特定的模式，比如内容包含“发票。这种方法是通过考查训练样本，然后形成规则，实际上是归纳总结的过程。基于规则的过滤可以对邮件主题和邮件内容进行多项过滤，但是也存在缺陷：首先，这种方法是通过学习从前的垃圾邮件来得到的过滤规则，一旦出现新的规则中不包含的垃圾词汇时就不能进行准确过滤，影响过滤精度；其次，规则库需要用户自己来定制，那么这就需要用户投入大量的时间，并且一旦用户的兴趣发生变化，那么之前制定的规则将不再适用；最后，如果一味地追求过滤的精度，那规则库里的规则只能尽可能多，势必会影响速度。目前，中国教育科研网络中心计算机紧急响应小组 ( c c e r t ) 的反垃圾邮件研究小组利用丰富的样本数据，公开了基于 s p a m a s s a s s i n 的中文垃圾邮件过滤规则集c h i n e s er u l e s c f o 常用的规则生成方法有：决策树方法( d e c i s i o nt r e e ) ，b o o s t i n g 方法，粗糙集( r o u t hs e t ) ，r i p p e r 方法等。基于统计的过滤的原理实际上是基于统计的自动文本分类，其分类模型如图1 1 所示，首先利用训练样本来进行特征选择和分类训练，得到特征库中的特征项，在接收到新的邮件后，对于文本进行特征提取，然后再输入到训练得到的分类器进行分类。该方法的优点是分类是由系统自动训练完成的，如果需要更新分类器，只需要更新样本训练集即可，这样一旦有新的垃圾邮件出现，我们都可以将其添加到训练样本集中，训练出新的分类器。目前常用的基于统计的邮件分类算法有k n n 方法，b a y e s 方法，s v m 方法，r o c c h i o 方法。 3 武汉理工大学硕士学位论文图1 - 1 基于统计的自动文本分类模型 1 3 论文的主要工作及创新本文主要研究了基于贝叶斯的邮件过滤算法，对比了几种贝叶斯模型，选取朴素贝叶斯模型为本文的重点研究对象。分析了传统的朴素贝叶斯分类存在的缺陷，结合邮件过滤的特定要求，提出了三个改进方面。并以此为基础，设计了一个结合了多种邮件过滤技术的多层邮件过滤系统，最终实现了本文重点研究的贝叶斯邮件过滤模块。本文还研究了邮件过滤过程中会涉及到的各项技术，如电子邮件的结构和工作原理、邮件协议和编码方式、邮件解码、中文分词、文本表示模型、特征选取、文本分类的过程和原理。分析了基于内容的几种分类方法，最后选取相较与其他分类算法而言分类效果要好的贝叶斯分类为文本的重点方法。结合中文垃圾邮件的特性，对传统的朴素贝叶斯分类算法做出如下改进： ( 1 ) 考虑了训练邮件样本集中合法邮件和垃圾邮件的比例，根据最近发布的中国反垃圾邮件状况调查报告中统计的电子邮箱用户所收到的垃圾邮件占用户邮件的百分比，在训练邮件样本集选取时参照真实的比例进行选取； ( 2 ) 从实际应用出发，对于垃圾邮件的判断方法提出改进，由单纯地比较概率的大小提升到比较概率的倍数； ( 3 ) 提出了一种基于权重的贝叶斯分类模型，并在传统的权重计算的基础上引入信息增益的概念，优化了权重计算公式；最后通过实验证明了改进后的算法相较于传统的朴素贝叶斯分类算法，其分类精度得到提高，并对实验结果进行了分析。 4 武汉理工大学硕士学位论文 1 4 论文的内容和结构本文包含六章内容，各章节的内容安排如下：第1 章：绪论。主要介绍了垃圾邮件的定义、研究背景以及目前主流的反垃圾邮件技术。第2 章：垃圾邮件过滤相关技术概述。首先介绍了电子邮件的工作原理、结构及传输过程，重点分析了电子邮件的主要协议以及编码方式；阐述了电子邮件预处理的方法和过程，包括中文分词技术，文本的表示模型，以及特征项的选择算法；重点描述了文本分类的过程，分析了几种文本分类算法，对比其利弊并为本文选择合适的分类算法。第3 章：贝叶斯邮件分类模型。主要阐述了贝叶斯基本定理和贝叶斯的推理模型，分析了贝叶斯过滤模型的两种估计模型以及贝叶斯分类在邮件过滤中的应用的优势和局限性。第4 章：朴素贝叶斯分类算法改进研究。本章重点讨论了贝叶斯邮件分类算法中待改进的几个方面，并做出了相应的改进：提出了一种基于权重的贝叶斯分类模型，并在传统的权重计算的基础上引入信息增益的概率，优化了权重计算公式；还从实际应用出发，对于垃圾邮件的判断方法提出改进，由单纯地比较概率的大小提升到比较概率的倍数；还考虑了训练邮件样本集中合法邮件和垃圾邮件的比例，根据最近发布的中国反垃圾邮件状况调查报告中指出的电子邮箱用户所收到的垃圾邮件占用户邮件的百分比，在训练邮件样本集中尽量模拟真实的比例。最后通过实验证明了改进的贝叶斯算法改善了分类的精度。第5 章：邮件过滤系统设计。设计了一个完整的多层邮件过滤系统的结构，分析了各层的过滤方法；重点介绍了贝叶斯过滤模块的设计，并给出了训练以及分类的具体流程和步骤。最终实现了贝叶斯分类模块，给出了分类的结果。第6 章：总结与展望。对本文的内容进行了总结，对下一步需要进行的工作进行了展望。 5 武汉理工大学硕士学位论文第2 章垃圾邮件过滤相关技术概述 2 1 电子邮件的工作原理电子邮件传送时主要有三个模块，邮件用户代理模块m u a ( m a i lu s e r a g e n t ) 、邮件传输代理模块m t a ( m a i lt r a n s f e ra g e n t ) 和邮件投递代理模块 m d a ( m a i ld e l i v e r ya g e n t ) 1 0 】。 m u a 是用户在整个邮件系统中唯一接触到的模块，用户在传送电子邮件时不需要了解其内部的传送结构，而是使用此代理来查看和编写邮件，所有的邮件都是由m u a 发出的。 m t a 用于代理邮件在网络上的传输，能够在邮件服务器之间或者用户与服务器间传送电子邮件，并能够选择传送邮件的最佳路径。 m d a 用于将邮件投递到用户的邮箱，在投递时能根据接收方的邮箱地址找到相应邮箱。电子邮件的传输过程如图2 1 所示：用户在传输电子邮件时，先通过m u a 编辑好邮件，然后通过发送方m t a 将电子邮件传送到接收方的m t a ，或者发送方的m t a 通过几个中继m t a 把电子邮件传送给m t a ，邮件在m t a 之间是通过s m t p 协议来存储转发的( 关于s m t p 协议在后文有详细描述) ，接收方的邮件服务器收到邮件后，通过m d a 将邮件根据收件人地址投递到收件人的邮箱，收件人通过收件方的m u a 就可以查看到邮件信息了。图2 - 1 电子邮件传输原理图 6 武汉理工大学硕士学位论文 2 2 电子邮件的结构电子邮件的结构包括三个部分： ( 1 ) 信封，信封上标明了发件人和收件人的地址这两个信息，其功能与我们实际生活中的信封相似，m t a 就是根据这一信息来进行电子邮件的传送，其形式如下： m a i lf r o m ： r c p tt o ： ( 2 ) 邮件头，邮件头包括了发件方地址、收件方地址、邮件发送时间、邮件主题、邮件i d 、邮件中转服务器等信息，因为每封邮件都有不同的邮件d ，可以通过这个信息来识别是否为同一封邮件。邮件头的格式是：字段名：字段值。常用的一些字段和含义如表2 1 所示：表2 - 1 邮件头常用字段字段含义添加者 r e c e i v e d 传输路径各级邮件服务器 r e t u r n p a t h 回复地址目标邮件服务器 d e l i v e r e d - t o 发送地址目标邮件服务器 r e p l y - t o 回复地址邮件的创建者 f r o m 发件人地址邮件的创建者 t o 收件人地址邮件的创建者 c c 抄送地址邮件的创建者 b c c 暗送地址邮件的创建者 d a t e 日期和时间邮件的创建者 s u b j e c t 主题邮件的创建者 m e s s a g e i d消息d 邮件的创建者 m 蛐- v e r s i o n m i m e 版本邮件的创建者 c o n t e n t - t y p e内容的类型邮件的创建者 c o n t e n t - t r a n s f e r - e n c o d i n g 内容的传输编码方式邮件的创建者 ( 3 ) 邮件体，邮件体是邮件的主要内容，是发件人想要传达给收件人的信息。邮件体主要包含段头和段体信息，段头主要描述段体中存在的格式和编码信息，常见字段如表2 2 所示 1 1 】： 7 武汉理工大学硕十学位论文表2 - 2 邮件体常用字段字段含义 c o n t e n t - t y p e 段体的类型 c o n t e n t - t r a n s f e r - e n c o d i n g 段体的传输编码方式 c o n t e n t - d i s p o s i t i o n段体的安排方式 c o n t e n t - i d 段体的i d c o n t g l l t l o c a t i o n 段体的位置( 路径) c o n t e n t b f l s e 段体的基位置 2 3 电子邮件协议 2 3 1 简单邮件传输协议简单邮件传输协议( s i m p l em a i lt r a n s f e rp r o t o c o l ，s m t p ) 是最早出现的邮件服务协议，现在也被普遍使用，是最基本的邮件服务协议。它提供了一种邮件传送机制，有发送s m t p 和接收s m t p 两种工作模式。进行邮件传输时，用户的邮件请求被发送s m t p 接收到时，会先判断发送方和收件方是是否在同一个网络，如果有同一个网络，那么直接把邮件发送到收件人的邮箱；如果不在一个网络，就需要通过中间服务器来转发。这个过程是这样实现的：发送s m t p 首先身接收方s m t p 提出建立双向通信道路的申请，这里的接收方是最终收件人或者用于中转的服务器，接收方服务器确认建立连接后，双方就可以进行通信了。通信过程是由发送方来控制的，通过发送s m t p 和接收s m t p 的交互式对话来实现，发送方先提出要求，接收方给予确认或拒绝来决定是否进行下一步操作：发送s m t p 首先向接收s m t p 发出“m a i l ”指令，通知发送方的身份；接收方确认接收时会回答“o k ；接下来发送方再发出“r c p t 指令，通知接收方的身份，这时由接收方s m t p 判断是否进行接收或者转发，如果同意接收或者转发就回答“o k ”；接着就能进行数据传送了。 2 3 2 邮局协议邮局协议( p o s to f f i c ep r o t o c o l ，p o p ) 协议用于在客户端接收、管理服务器上的电子邮件。一般使用1 1 0 端口进行监听。在使用客户端接收邮件时，一般会在账号属性上配置一个p o p 服务器的 8 武汉理工大学硕士学位论文 u r l ( 比如p o p 1 2 6 t o m ) ，以及邮箱的账号和密码。在电子邮件客户端下点击收信键时，d n s 协议会被调用来对p o p 服务器进行i p 地址解析，得到i p 地址后就用t c p 协议连接邮件服务器上的1 1 0 端口。邮件程序与p o p 服务器连接成功后，先将邮件账号通过“u s e r ”命令传递给p o p 服务器，再将邮箱的账号密码通过“p a s s 命令传递给服务器。完成了这个认证过程后，邮件程序再通过 “s t a t 命令向服务器发出返回邮箱统计资料( 比如邮件数量，大小等) 的请求，接着“l i s t ”命令会列出服务器上邮件的数量。然后客户端的邮件程序会使用“r e t r ”命令来接收邮件，每接收一封邮件就使用“d e l e 命令将此邮件在邮件服务器中置为删除状态。使用“q u i t ”命令后，邮件服务器会自动将被置为删除状态的邮件删除。从服务器上接收邮件，实际上就是邮件程序与邮件服务器的对话过程，而p o p 协议就是支持这一过程的一门语言。 1 9 8 4 年发表的r f c 9 1 8 是第一个p o p 协议的r f c 文档，描述了p o p 的基本实现，后来经过几次修改更新，1 9 9 6 年发表的第三版是当前的通用标准，简称为p o p 3 。p o p 采用的是c s ( c l i e n t s e r v e r ) 的工作模式，c l i e n t 是客户端，我们平常使用的p c 机都是作为客户端的；而s e r v e r 作为服务器是由邮件服务的提供商进行管理的。当然p o p 协议也存在一些缺陷：用户在客户端接收电子邮件时，所有的信件都被下载到客户端，而服务器上的邮件被清除，在收信过程当中，用户无法事先预知邮件的各种信息，只能够全部接收并存入本地硬盘后才能进行浏览和操作，那么这就使得用户对于邮件的接收基本没有控制权，一旦遭遇到邮箱被轰炸或者接收到较大的邮件，用户不能够根据自己的需要来决定是否下载或删除，造成系统资源的浪费。 2 3 3 多用途网际邮件扩充协议 s m t p 协议的传输原理是以7 b i t 的a s c i i 码为基础的，这种编码仅适合于传送文本邮件，而对于8 b i t 的电子邮件如包括声音、图像、中文等的邮件采用 s m t p 协议是无法传输的，必须要进行a s c i i 编码才能正常传输，而m i m e 的诞生正是为了解决这一问题。m i m e 编码技术能够将使用8 b i t 编码格式的数据转换成使用7 b i t 的a s c i i 码格式。多用途网际邮件扩充协议( m u l t i p u r p o s ei n t e r n e tm a i le x t e n s i o n s ，m i m e ) 并不是替代了s m t p 和p o p ，只是允许a s c i i 码对任何数据都能进行编码，以保 9 武汉理工大学硕士学位论文证数据能够在标准的电子邮件中传输。其基本思想是：在发送端进行编码，将 8 b i t 的内码转化为7 b i t 的a s c i i 码，在接收端解码，8 b i t 的原码还原，这样保证收件人接收到的邮件格式仍然与发送人发送的邮件格式相当。 m i m e 也是邮件的编码格式，主要包含两种编码方式b a s e 6 4 和q p ( q u o t e p r i n t a b l e ) 两种编码方式。 ( 1 ) b a s e 6 4 编码 b a s e 6 4 编码是目前使用最广泛的一种编码规则，由于其操作简便，容易理解，已成为主流的电子邮件编码方法。其实现方法【1 2 】是：将一组连续的字节数据按6 个b i t 位进行分组，然后对每组数据用一个a s c i i 码来表示。6 个b i t 位最多能表示2 。= 6 4 个数值，这6 4 个是可以使用a s c i i 字符来对应这6 4 个数值，这“个字符包括a z 、a - z 、 0 - 9 、+ 和。如果原来的8 位字节数据的字节个数不能被3 整除，而余下1 或2 个8 b i t 字符时，仍然按6 个b i t 位对剩余的字节进行分组，在最后不够 6 个b i t 位的内容后加几个为0 的b i t 位来凑成6 个b i t 位。如果编码后的整个结果文本的字符不是4 的整数倍，就需要在最后填充= 字符来凑成4 的倍数。这就是b a s e 6 4 编码的整个过程。 ( 2 ) q p 编码 q p 编码也是一种将二进制数据转换成可打印的a s c i i 字符的编码方式，它对a s c i i 不进行转换，只对非a s c i i 字符的数据进行编码转化。每个非a s c i i 字符的字节数据，都被转换成一个_ 号后跟这个字节的十六进制数据，例如 “a b 中国的q p 编码为“a b = d 6 = d 0 = b 9 = f a 。特别的原始数据中的= 号字符也需要进行编码转换，用“= 3 d 表示。 2 3 4 网际消息访问协议网际消息访问协议( i n t e r n e tm e s s a g e a c c e s sp r o t o c o l ，脚) 协议跟p o p 协议一样，是采用的c s 的工作模式，但是针对p o p 协议的缺陷，i m a p 协议在此基础上做出了一些改进。首先，i m a p 提供了“摘要浏览的方式，用户可以通过查看邮件头的信息决定是否阅读或操作邮件，有效地节省了时间和精力。此功能对于那些希望阻止垃圾邮件或经常接收大量电子邮件的用户来说是非常实用的。其次，用户还能够通过邮件客户端在服务器上新建、删除、修改文件夹，可以指定显示或者隐藏文件夹。再次，在接收到邮件后用户可以有选择地 1 0 武汉理工大学硕士学位论文下载附件，避免了p o p 方式下收信时需要将邮件下载到本地后才能进行判断的被动。最后，采用p o p 方式时，当用户将邮件通过客户端从服务器上下载到本地后，该邮件在服务器端将被删除，那么当同一用户在不同的计算机上通过客户端接收邮件后，该用户邮件将被分成几个部分，在用户需要查看以前的邮件时会造成不便，而i m a p 很好地解决了这一问题，当用户在客户端下载服务器上的邮件后，该邮件仍然在服务器上，不会被清除。 2 4 邮件预处理电子邮件是一种特殊的文本结构，它是一种半结构化的文本，包含邮件头和邮件体，有的邮件还包括附件。因此在对电子邮件进行分类之前，我们需要对邮件进行预处理，将邮件格式统一化，进而提取都邮件正文，然后对正文进行分词处理，特征选择等工作。后文要介绍的垃圾邮件的过滤办法都是在邮件预处理的基础上进行的，下面介绍邮件预处理的方法和技术。 2 4 1 中文文本分词技术计算机处理语言，需要语言以合适的形式表示。对于英文文本的分句和分词，根据英文的语法，每个单词和单词之间用空格分开，计算机很容易区分。但是对于中文文本，是连续的字串，词语和词语之间没有空格区分，不像英文各词之间那么容易区分，使得中文分词技术成为一个难题，一度成为学者的研究热点。中文需要根据语义语法来分析语句，从而完成分词的工作。中文分词( c h i n e s ew o r ds e g m e n t a t i o n ) ，也常被称之为汉语切词，是指按照一定的分词算法将中文文本的字串自动切分为词串的过程。中文分词是中文邮件文本预处理中的一项很重要的工作，也是中文邮件分类的基础。精确度高的中文分词使中文文本的表示更加准确，对邮件分类的后续工作打下了良好的基础。常用的中文分词方法有： ( 1 ) 最大匹配分词法【1 3 】最大匹配分词法是基于分词词典的一种分词算法，思路简单，易于实现。分词过程不考虑词性、语义、语境等因素，分为正向最大匹配法和逆向最大匹配法，两种方法的思

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机科学与技术专业论文）中文垃圾邮件过滤技术研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机科学与技术专业论文）中文垃圾邮件过滤技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档