




已阅读5页,还剩57页未读, 继续免费阅读
(计算机科学与技术专业论文)中文垃圾邮件过滤技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 y l i l l l l l l l l l l l l 8 1 1 1 1 | 8 j l l l l o l l l l l 2 1 1 1 1 1 7 l l l l l 5 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :豸盔导师( 签名) 武汉理工大学硕+ 学位论文 摘要 随着因特网的高速发展,互联网用户不断增加,电子邮件也成为了日常生 活中最普遍、最经济的通讯方式之一。由于其快捷、经济的特点,很多大型企 业也将其作为内部的主要交流形式。但一些人士为了自己的利益,也利用电子 邮件的这个特点来传播垃圾邮件,不但占据带宽、耗费网络资源,浪费用户时 间和精力,甚至还可能给用户的计算机造成威胁,泄露用户隐私。因此反垃圾 邮件技术就应运而生,从反垃圾邮件技术诞生的那一刻起,国内外的研究者都 在探讨切实有效的垃圾邮件的过滤技术。 本文在前人研究的基础上,深入研究了目前国内外主流的反垃圾邮件技术, 选取了基于内容的垃圾邮件过滤作为本文的研究重点。分析了常用的几种基于 内容的过滤方法,由于贝叶斯算法的分类效果好于其他的分类算法,因此本文 着重分析和探讨了贝叶斯分类算法,针对该算法的不足进行了改进:提出了一 种基于权重的贝叶斯分类模型,并在传统的权重计算的基础上引入信息增益的 概念,优化了权重计算公式;另外本文从实际应用出发,对于垃圾邮件的判断 方法进行改进,由单纯地比较概率的大小提升到比较概率的倍数;并考虑了训 练邮件样本集中合法邮件和垃圾邮件的比例,根据最近发布的中国反垃圾邮 件状况调查报告中统计的电子邮箱用户所收到的垃圾邮件占用户邮件的百分 比,在训练邮件样本集中尽量模拟真实的邮件比例。并通过实验证明了改进后 的贝叶斯算法相较于传统算法的分类精度得到提高。 本文还研究了邮件过滤相关的技术:中文分词技术、文本表示模型、特征 项选择等,为分类模块的设计奠定基础。 最后本文设计了一个完整的多层邮件过滤系统的模型,该系统结合了多种 邮件过滤技术:黑白名单过滤、基于规则的过滤、贝叶斯过滤;并运用改进的 算法实现了贝叶斯分类模块。 关键词:中文邮件、邮件过滤、贝叶斯分类、中文分词、权重 武汉理工大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e m e t i n t e r n e tu s e r sa r ei n c r e a s i n g , s o ,e - m a i l h a sb e c o m eo n eo fm o s tc o m m o na n de c o n o m i c a ls e r v i c eo fi n t e r n e ti nt h em o d e r n s o c i e t y b e c a u s eo fi t s e f f i c i e n ta n de c o n o m i c a l c h a r a c t e r i s t i c s ,m a n yl a r g e e n t e r p r i s e su s ei ta st h em a i ni n n e rc o m m u n i c a t i o n b u ti ti sh a sd r a w b a c ko ft l l a t s o m ep e o p l eu s et h i sf e a t u r et os p r e a ds p a mf o rt h e i ro w nb e n e f i t s t h a ti sn o to n l y o c c u p y i n gb a n d w i d t h ,c o n s u m i n gn e t w o r kr e s o u r c e s ,w a s t i n gu s e r st i m e ,b u ta l s o p o s i n gat h r e a tt ot h eu s e r sc o m p u t e ra n dd i s c l o s i n gu s e r sp r i v a c y t h e nt h e a n t i s p a mt e c h n o l o g yc a m ei n t ob e i n g i n t e r n a t i o n a la n dd o m e s t i cr e s e a r c h e r sa r e l o o k i n g f o re f f e c t i v es p a m f i l t e r i n gt e c h n o l o g yf r o mt h e b o r no fa n t i s p a m t e c h n o l o g y b a s e do n p r e d e c e s s o r s s t u d i e s ,t h i st h e s i si n - d e p t hs t u d yo ft h ec u r r e n t m a i n s t r e a ma n t i - s p a mt e c h n o l o g ya th o m ea n da b r o a d ,a n df o c u so nc o n t e n t - b a s e d s p a mf i l t e r i n gt e c h n o l o g yt oa v o i dt h ei n f l u e n c eo fs p a m t h o u g h tc o m p a r e ds e v e r a l c o m m o n l y u s e dc o n t e n t - b a s e d f i l t e r i n gm e t h o d s ,w ed e s i g n t h e b a y e s i a n c l a s s i f i c a t i o na l g o r i t h mt os o l v et h ep r o b l e m f i r s t l y , w ep r e s e n taw e i g h t - b a s e d b a y e s i a nc l a s s i f i c a t i o nm o d e l a ni m p o r t a n tf e a t u r eo fo u rm o d e li st h a tw ee x p l i c i t l y c o n s i d e rt h ec o n c e p to ft h et e x ti n f o r m a t i o ng a i nt ot h et r a d i t i o n a lw e i g h tc a l c u l a t i o n , o p t i m i z et h ew e i g h tf o r m u l a t i o n s e c o n d l y , c o n s i d e r i n gt h ep r a c t i c a la p p l i c a t i o n , t h i s t h e s i si m p r o v e st h ej u d g m e n to fs p a mf r o mc o m p a r i s o no fp r o b a b i l i t ys i z e t o p r o b a b i l i t yq u o t i e n t t h i r d l y , w ec o n s i d e rt h ep r o p o r t i o no ft h el e g i t i m a t ee - m a i l sa n d j u n ke - m a i l si n t h et r a i n i n gs a m p l es e to fe - m a i l s a c c o r d i n gt ot h e ”c h i n a a n t i - s p a ms u r v e yr e p o r t r e c e n t l yr e l e a s e d ,i nw h i c hs t a t i s t i c st h ep r o p o r t i o no f s p a mi na l le - m a i l st h a tu s e rr e c e i v e d ,w et r yt os i m u l a t et h er e a lp r o p o r t i o ni nt h e t r a i n i n gs a m p l es e to fe - m a i l s t h e n , t h ee x p e r i m e n tp r o v e dt h a tt h ea c c u r a c yo ft h e i m p r o v e db a y e s i a na l g o r i t h mi si m p r o v e d ,c o m p a r e dt ot h et r a d i t i o n a la l g o r i t h m , i no r d e rt ol a yt h ef o u n d a t i o nf o rt h ed e s i g no ft h ec l a s s i f i c a t i o nm o d u l e ,w e a l s o s t u d ys o m et e c h n o l o g i e sr e l a t e de - m a i lf i l t e r i n g , s u c ha s c h i n e s ew o r d s e g m e n t a t i o n , t e x tr e p r e s e n t a t i o nm o d e l ,f e a t u r es e l e c t i o na n ds oo n 武汉理t 大学硕士学位论文 f i n a l l y , w ed e s i g nac o m p l e t em o d e lo fm u l t i l a y e rs p a mf i l t e r i n gs y s t e m t h e s y s t e mc o m b i n e sav a r i e t yo fs p a mf i l t e r i n gt e c h n i q u e s ,i n c l u d i n gb l a c ka n dw h i t el i s t f i l t e r i n g , r u l e b a s e df i l t e r i n ga n db a y e s i a nf i l t e r i n g a n du s i n gi m p r o v e da l g o r i t h mt o i m p l e m e n tt h eb a y e s i a nc l a s s i f i c a t i o nm o d u l e k e yw o r d s :c h i n e s ee - m a i l ,e - m a i lf i l t e r i n g , b a y e s i a nc l a s s i f i c a t i o n , c h i n e s ew o r d s e g m e n t a t i o n ,w e i g h t u l 武汉理工大学硕士学位论文 目录 第1 章绪论1 1 1 研究背景1 1 2 研究现状和发展趋势2 1 3 论文的主要工作及创新4 1 4 论文的内容和结构5 第2 章垃圾邮件过滤相关技术概述6 2 1 电子邮件的工作原理6 2 2 电子邮件的结构。7 2 3 电子邮件协议8 2 3 1 简单邮件传输协议8 2 3 2 邮局协议8 2 3 3 多用途网际邮件扩充协议。9 2 3 4 网际消息访问协议l o 2 4 邮件预处理1 1 2 4 1 中文文本分词技术l l 2 4 2 邮件文本的表示模型l3 2 4 3 特征项选择15 2 4 4 特征权重计算16 2 5 文本分类的技术17 2 5 1 文本分类的过程1 7 2 5 2 文本分类算法l8 2 6 本章小结2 3 第3 章贝叶斯邮件分类模型2 4 3 1 贝叶斯定理2 4 3 2 贝叶斯推理模型2 4 3 2 1 一般贝叶斯模型2 4 3 2 2 朴素贝叶斯模型2 6 3 3 贝叶斯过滤模型的估计模型2 6 i v 武汉理工大学硕士学位论文 3 3 1 多变量伯努利模型2 6 3 3 2 基于词频的多项式模型2 8 3 4 贝叶斯分类在邮件过滤中的应用2 9 3 4 1 贝叶斯分类方法的优势2 9 3 4 2 贝叶斯分类方法的局限性2 9 3 5 本章小结3 0 第4 章朴素贝叶斯分类算法改进研究3 1 4 1 贝叶斯分类算法分析3 1 4 2 贝叶斯分类算法的改进3 2 4 3 实验分析_ 3 5 4 3 1 分类评价方法3 5 4 3 2 邮件测试语料3 7 4 3 3 实验方法3 7 4 3 4 实验结果和分析3 7 4 4 本章小结4 1 第5 章邮件过滤系统设计4 2 5 1 邮件过滤系统总体结构4 2 5 2 贝叶斯分类模块4 3 5 2 1 邮件预处理4 3 5 2 2 分词模块4 4 5 2 3 贝叶斯分类模块设计4 5 5 3 贝叶斯分类模块的实现4 7 5 4 本章小结4 9 第6 章总结与展望5 0 6 1 总结5 0 6 2 进一步的工作51 致谢5 2 参考文献。5 3 攻读硕士学位期间发表的论文和参加科研项目情况5 6 v 武汉理工大学硕士学位论文 1 1 研究背景 第1 章绪论 随着互联网用户数量的不断增长,电子邮件( e l e c t r o n i cm a i l ) 正在迅速成 为当今社会最快捷,最经济的通讯形式之一【l 】。中国互联网络信息中心( c h i n a i n t c m c tn e t w o r ki n f o r m a t i o nc e n t e r , c n n i c ) 于2 0 1 1 年1 月发布的第2 7 次中 国互联网络发展状况统计报告【2 】中显示,我国网民规模继续稳步增长,网民 总数达到了4 5 7 亿,其中电子邮件的使用率占5 4 6 ,达到了2 亿5 千万人。 正因为电子邮件发送简便,成本低廉,所以它不但被作为一种交换信息的工具, 还被一些组织或个人用于传播垃圾邮件。中国互联网协会最近发布的中国反 垃圾邮件状况调查报告【3 j 中显示,电子邮箱用户平均每周收到的垃圾邮件数量 为1 5 9 封,占用户收到邮件比例的3 7 6 。而这些垃圾邮件,给用户的工作和 生活带来了极大的困扰。 垃圾邮件在英文中被称作j u n km a i l 或s p a r e ,顾名思义是指用户不希望接 收的电子邮件。在2 0 0 3 年发布的中国互联网协会反垃圾邮件规范 4 q a 对于 垃圾邮件有明确的定义: ( 1 ) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的 宣传品等宣传性的电子邮件; ( 2 ) 收件人无法拒收的电子邮件; ( 3 ) 隐藏发件人身份、地址、标题等信息的电子邮件; ( 4 ) 含有虚假的信息源、发件人、路由等信息的电子邮件。 对于垃圾邮件的发送者而言,其成本无疑是极其低廉的;然而对于用户和 电子邮件服务的提供商而言,垃圾邮件带来的危害和损失却是不容小觑的。其 危害主要表现在以下几方面【5 】: ( 1 ) 占据大量网络带宽以及邮箱的空间,造成网络拥堵,致使邮件服务器崩 溃,影响邮件的正常传递,为用户的交流带来不便; ( 2 ) 用户收到垃圾邮件必须去阅读,这就浪费了用户的时间及精力,还会影 响心情; ( 3 ) 部分垃圾邮件还包含病毒,会使用户的系统在读取邮件时染上病毒或者 武汉理- t 大学硕士学位论文 窃取用户的个人信息,如网上银行、网上支付的密码等,造成用户的经济损失。 1 2 研究现状和发展趋势 几乎是从垃圾邮件诞生的那一刻起,就有了反垃圾邮件的概念,垃圾邮件 的迅猛发展也使反垃圾邮件成为了刻不容缓的问题。目前国内外主流的反垃圾 邮件技术主要包括三个方面:基于口层的过滤,基于s m t p 协议的过滤以及基 于内容的过滤。 ( 1 ) 基于p 层的过滤 基于口层的过滤主要有黑名单、白名单、实时黑名单( r e a l t i m eb l a c k h o l el i s t , r b l ) 等技术。 通常的邮件器通常都具有黑名单过滤功能,这是一种最早的垃圾邮件过滤 技术。其原理是通过确定已有的垃圾邮件发送者以及i s p 的m 地址或者域名, 将其整理为黑名单,并在处理网关处部署黑名单,这样就可以拒绝任一在黑名 单上的垃圾邮件制造者所发送的邮件。这种方法的原理比较简单,且实现起来 比较方便,对于过滤已知的垃圾邮件制造者发送的垃圾邮件是极为有效的,但 是这种方法也存在明显的缺陷,那就是对于从新地址或者伪造源地址的发送的 垃圾邮件起不到过滤的作用,并且有可能还会妨碍用户间的正常邮件往来。在 实际的垃圾邮件过滤中,黑名单技术往往跟其他的过滤技术结合使用【6 】。 白名单技术的原理与黑名单技术相反,白名单上的邮件地址是用户允许接 收的地址,除非发送邮件的地址在白名单上,否则拒绝接收任何邮件。这种方 法可以绝对过滤掉垃圾邮件,但是用户在使用时就会比较麻烦,比如用户希望 接受到来自某个地址的电子邮件时,必须先将邮件地址添加进白名单;如果以 前允许接收的邮件地址发生改变时,用户又必须在白名单中做出修改,否则无 法正常接受邮件。 实时黑名单技术是黑名单技术的扩展,它是借助于第三方机构为用户提供 一个可供查询的m 地址列表,当有新邮件到达时,通过d n s 在此列表中查询 地址是否被列入该实时黑名单列表中。这项技术的时效性较强,但是由于实时 黑名单服务的提供者大多是国外的组织和机构,因此并不能够充分反映出国内 的垃圾邮件情况,目前国内提供实时黑名单服务的组织只有中国反垃圾邮件联 盟。 ( 2 ) 基于s m t p 协议的过滤 2 武汉理工大学硕士学位论文 基于s m t p 协议的过滤主要技术包括:域名反向解析和s m t p 交互行为的 检测川。 域名反向解析技术是对邮件发送者的口地址进行逆向解析,通过d n s 查询 来判断发送者的口与其声称的名字是否一致【| 刀。比如声称的名字是a a s i n a c o m , 而其连接的地址为1 0 1 0 0 1 0 0 1 0 0 ,与d s n 不符,就予以拒收。来自动态口的 垃圾邮件都可以使用这种方法过滤掉。但是在做逆向解析时需要大量的d n s 查 询,会耗费大量的网络资源。 s m t p 交互行为的检测主要是针对垃圾邮件服务器的特点来设定的,常见的 检测手段有:发送账号限制、发送无效账号、使用特殊命令等【8 】。 ( 3 ) 基于内容的过滤 目前反垃圾邮件的主流技术是基于内容的过滤技术,又分为基于规则的过 滤和基于统计的过滤两种技术。 基于规则的过滤【9 】其原理是在分类时,按照预先设定好的规则,在邮件内 容中寻找特定的模式,比如内容包含“发票 。这种方法是通过考查训练样本, 然后形成规则,实际上是归纳总结的过程。基于规则的过滤可以对邮件主题和 邮件内容进行多项过滤,但是也存在缺陷:首先,这种方法是通过学习从前的 垃圾邮件来得到的过滤规则,一旦出现新的规则中不包含的垃圾词汇时就不能 进行准确过滤,影响过滤精度;其次,规则库需要用户自己来定制,那么这就 需要用户投入大量的时间,并且一旦用户的兴趣发生变化,那么之前制定的规 则将不再适用;最后,如果一味地追求过滤的精度,那规则库里的规则只能尽 可能多,势必会影响速度。目前,中国教育科研网络中心计算机紧急响应小组 ( c c e r t ) 的反垃圾邮件研究小组利用丰富的样本数据,公开了基于 s p a m a s s a s s i n 的中文垃圾邮件过滤规则集c h i n e s er u l e s c f o 常用的规则生成方法 有:决策树方法( d e c i s i o nt r e e ) ,b o o s t i n g 方法,粗糙集( r o u t hs e t ) ,r i p p e r 方法等。 基于统计的过滤的原理实际上是基于统计的自动文本分类,其分类模型如 图1 1 所示,首先利用训练样本来进行特征选择和分类训练,得到特征库中的特 征项,在接收到新的邮件后,对于文本进行特征提取,然后再输入到训练得到 的分类器进行分类。该方法的优点是分类是由系统自动训练完成的,如果需要 更新分类器,只需要更新样本训练集即可,这样一旦有新的垃圾邮件出现,我 们都可以将其添加到训练样本集中,训练出新的分类器。目前常用的基于统计 的邮件分类算法有k n n 方法,b a y e s 方法,s v m 方法,r o c c h i o 方法。 3 武汉理工大学硕士学位论文 图1 - 1 基于统计的自动文本分类模型 1 3 论文的主要工作及创新 本文主要研究了基于贝叶斯的邮件过滤算法,对比了几种贝叶斯模型,选 取朴素贝叶斯模型为本文的重点研究对象。分析了传统的朴素贝叶斯分类存在 的缺陷,结合邮件过滤的特定要求,提出了三个改进方面。并以此为基础,设 计了一个结合了多种邮件过滤技术的多层邮件过滤系统,最终实现了本文重点 研究的贝叶斯邮件过滤模块。 本文还研究了邮件过滤过程中会涉及到的各项技术,如电子邮件的结构和 工作原理、邮件协议和编码方式、邮件解码、中文分词、文本表示模型、特征 选取、文本分类的过程和原理。分析了基于内容的几种分类方法,最后选取相 较与其他分类算法而言分类效果要好的贝叶斯分类为文本的重点方法。结合中 文垃圾邮件的特性,对传统的朴素贝叶斯分类算法做出如下改进: ( 1 ) 考虑了训练邮件样本集中合法邮件和垃圾邮件的比例,根据最近发布的 中国反垃圾邮件状况调查报告中统计的电子邮箱用户所收到的垃圾邮件占 用户邮件的百分比,在训练邮件样本集选取时参照真实的比例进行选取; ( 2 ) 从实际应用出发,对于垃圾邮件的判断方法提出改进,由单纯地比较概 率的大小提升到比较概率的倍数; ( 3 ) 提出了一种基于权重的贝叶斯分类模型,并在传统的权重计算的基础上 引入信息增益的概念,优化了权重计算公式; 最后通过实验证明了改进后的算法相较于传统的朴素贝叶斯分类算法,其 分类精度得到提高,并对实验结果进行了分析。 4 武汉理工大学硕士学位论文 1 4 论文的内容和结构 本文包含六章内容,各章节的内容安排如下: 第1 章:绪论。主要介绍了垃圾邮件的定义、研究背景以及目前主流的反 垃圾邮件技术。 第2 章:垃圾邮件过滤相关技术概述。首先介绍了电子邮件的工作原理、 结构及传输过程,重点分析了电子邮件的主要协议以及编码方式;阐述了电子 邮件预处理的方法和过程,包括中文分词技术,文本的表示模型,以及特征项 的选择算法;重点描述了文本分类的过程,分析了几种文本分类算法,对比其 利弊并为本文选择合适的分类算法。 第3 章:贝叶斯邮件分类模型。主要阐述了贝叶斯基本定理和贝叶斯的推 理模型,分析了贝叶斯过滤模型的两种估计模型以及贝叶斯分类在邮件过滤中 的应用的优势和局限性。 第4 章:朴素贝叶斯分类算法改进研究。本章重点讨论了贝叶斯邮件分类 算法中待改进的几个方面,并做出了相应的改进:提出了一种基于权重的贝叶 斯分类模型,并在传统的权重计算的基础上引入信息增益的概率,优化了权重 计算公式;还从实际应用出发,对于垃圾邮件的判断方法提出改进,由单纯地 比较概率的大小提升到比较概率的倍数;还考虑了训练邮件样本集中合法邮件 和垃圾邮件的比例,根据最近发布的中国反垃圾邮件状况调查报告中指出 的电子邮箱用户所收到的垃圾邮件占用户邮件的百分比,在训练邮件样本集中 尽量模拟真实的比例。最后通过实验证明了改进的贝叶斯算法改善了分类的精 度。 第5 章:邮件过滤系统设计。设计了一个完整的多层邮件过滤系统的结构, 分析了各层的过滤方法;重点介绍了贝叶斯过滤模块的设计,并给出了训练以 及分类的具体流程和步骤。最终实现了贝叶斯分类模块,给出了分类的结果。 第6 章:总结与展望。对本文的内容进行了总结,对下一步需要进行的工 作进行了展望。 5 武汉理工大学硕士学位论文 第2 章垃圾邮件过滤相关技术概述 2 1 电子邮件的工作原理 电子邮件传送时主要有三个模块,邮件用户代理模块m u a ( m a i lu s e r a g e n t ) 、邮件传输代理模块m t a ( m a i lt r a n s f e ra g e n t ) 和邮件投递代理模块 m d a ( m a i ld e l i v e r ya g e n t ) 1 0 】。 m u a 是用户在整个邮件系统中唯一接触到的模块,用户在传送电子邮件时 不需要了解其内部的传送结构,而是使用此代理来查看和编写邮件,所有的邮 件都是由m u a 发出的。 m t a 用于代理邮件在网络上的传输,能够在邮件服务器之间或者用户与服 务器间传送电子邮件,并能够选择传送邮件的最佳路径。 m d a 用于将邮件投递到用户的邮箱,在投递时能根据接收方的邮箱地址找 到相应邮箱。 电子邮件的传输过程如图2 1 所示:用户在传输电子邮件时,先通过m u a 编辑好邮件,然后通过发送方m t a 将电子邮件传送到接收方的m t a ,或者发 送方的m t a 通过几个中继m t a 把电子邮件传送给m t a ,邮件在m t a 之间是 通过s m t p 协议来存储转发的( 关于s m t p 协议在后文有详细描述) ,接收方的 邮件服务器收到邮件后,通过m d a 将邮件根据收件人地址投递到收件人的邮 箱,收件人通过收件方的m u a 就可以查看到邮件信息了。 图2 - 1 电子邮件传输原理图 6 武汉理工大学硕士学位论文 2 2 电子邮件的结构 电子邮件的结构包括三个部分: ( 1 ) 信封,信封上标明了发件人和收件人的地址这两个信息,其功能与我们 实际生活中的信封相似,m t a 就是根据这一信息来进行电子邮件的传送,其形 式如下: m a i lf r o m : r c p tt o : ( 2 ) 邮件头,邮件头包括了发件方地址、收件方地址、邮件发送时间、邮件 主题、邮件i d 、邮件中转服务器等信息,因为每封邮件都有不同的邮件d ,可 以通过这个信息来识别是否为同一封邮件。 邮件头的格式是:字段名:字段值。常用的一些字段和含义如表2 1 所示: 表2 - 1 邮件头常用字段 字段含义添加者 r e c e i v e d 传输路径各级邮件服务器 r e t u r n p a t h 回复地址目标邮件服务器 d e l i v e r e d - t o 发送地址 目标邮件服务器 r e p l y - t o 回复地址邮件的创建者 f r o m 发件人地址邮件的创建者 t o 收件人地址邮件的创建者 c c 抄送地址邮件的创建者 b c c 暗送地址 邮件的创建者 d a t e 日期和时间邮件的创建者 s u b j e c t 主题邮件的创建者 m e s s a g e i d消息d 邮件的创建者 m 蛐- v e r s i o n m i m e 版本邮件的创建者 c o n t e n t - t y p e内容的类型邮件的创建者 c o n t e n t - t r a n s f e r - e n c o d i n g 内容的传输编码方式邮件的创建者 ( 3 ) 邮件体,邮件体是邮件的主要内容,是发件人想要传达给收件人的信息。 邮件体主要包含段头和段体信息,段头主要描述段体中存在的格式和编码信息, 常见字段如表2 2 所示 1 1 】: 7 武汉理工大学硕十学位论文 表2 - 2 邮件体常用字段 字段含义 c o n t e n t - t y p e 段体的类型 c o n t e n t - t r a n s f e r - e n c o d i n g 段体的传输编码方式 c o n t e n t - d i s p o s i t i o n段体的安排方式 c o n t e n t - i d 段体的i d c o n t g l l t l o c a t i o n 段体的位置( 路径) c o n t e n t b f l s e 段体的基位置 2 3 电子邮件协议 2 3 1 简单邮件传输协议 简单邮件传输协议( s i m p l em a i lt r a n s f e rp r o t o c o l ,s m t p ) 是最早出现的邮 件服务协议,现在也被普遍使用,是最基本的邮件服务协议。它提供了一种邮 件传送机制,有发送s m t p 和接收s m t p 两种工作模式。进行邮件传输时,用 户的邮件请求被发送s m t p 接收到时,会先判断发送方和收件方是是否在同一 个网络,如果有同一个网络,那么直接把邮件发送到收件人的邮箱;如果不在 一个网络,就需要通过中间服务器来转发。这个过程是这样实现的:发送s m t p 首先身接收方s m t p 提出建立双向通信道路的申请,这里的接收方是最终收件 人或者用于中转的服务器,接收方服务器确认建立连接后,双方就可以进行通 信了。 通信过程是由发送方来控制的,通过发送s m t p 和接收s m t p 的交互式对 话来实现,发送方先提出要求,接收方给予确认或拒绝来决定是否进行下一步 操作:发送s m t p 首先向接收s m t p 发出“m a i l ”指令,通知发送方的身份; 接收方确认接收时会回答“o k ;接下来发送方再发出“r c p t 指令,通知接 收方的身份,这时由接收方s m t p 判断是否进行接收或者转发,如果同意接收 或者转发就回答“o k ”;接着就能进行数据传送了。 2 3 2 邮局协议 邮局协议( p o s to f f i c ep r o t o c o l ,p o p ) 协议用于在客户端接收、管理服务器 上的电子邮件。一般使用1 1 0 端口进行监听。 在使用客户端接收邮件时,一般会在账号属性上配置一个p o p 服务器的 8 武汉理工大学硕士学位论文 u r l ( 比如p o p 1 2 6 t o m ) ,以及邮箱的账号和密码。在电子邮件客户端下点击收 信键时,d n s 协议会被调用来对p o p 服务器进行i p 地址解析,得到i p 地址后 就用t c p 协议连接邮件服务器上的1 1 0 端口。邮件程序与p o p 服务器连接成功 后,先将邮件账号通过“u s e r ”命令传递给p o p 服务器,再将邮箱的账号密码 通过“p a s s 命令传递给服务器。完成了这个认证过程后,邮件程序再通过 “s t a t 命令向服务器发出返回邮箱统计资料( 比如邮件数量,大小等) 的请 求,接着“l i s t ”命令会列出服务器上邮件的数量。然后客户端的邮件程序会 使用“r e t r ”命令来接收邮件,每接收一封邮件就使用“d e l e 命令将此邮 件在邮件服务器中置为删除状态。使用“q u i t ”命令后,邮件服务器会自动将 被置为删除状态的邮件删除。从服务器上接收邮件,实际上就是邮件程序与邮 件服务器的对话过程,而p o p 协议就是支持这一过程的一门语言。 1 9 8 4 年发表的r f c 9 1 8 是第一个p o p 协议的r f c 文档,描述了p o p 的基 本实现,后来经过几次修改更新,1 9 9 6 年发表的第三版是当前的通用标准,简 称为p o p 3 。p o p 采用的是c s ( c l i e n t s e r v e r ) 的工作模式,c l i e n t 是客户端,我 们平常使用的p c 机都是作为客户端的;而s e r v e r 作为服务器是由邮件服务的提 供商进行管理的。 当然p o p 协议也存在一些缺陷:用户在客户端接收电子邮件时,所有的信 件都被下载到客户端,而服务器上的邮件被清除,在收信过程当中,用户无法 事先预知邮件的各种信息,只能够全部接收并存入本地硬盘后才能进行浏览和 操作,那么这就使得用户对于邮件的接收基本没有控制权,一旦遭遇到邮箱被 轰炸或者接收到较大的邮件,用户不能够根据自己的需要来决定是否下载或删 除,造成系统资源的浪费。 2 3 3 多用途网际邮件扩充协议 s m t p 协议的传输原理是以7 b i t 的a s c i i 码为基础的,这种编码仅适合于 传送文本邮件,而对于8 b i t 的电子邮件如包括声音、图像、中文等的邮件采用 s m t p 协议是无法传输的,必须要进行a s c i i 编码才能正常传输,而m i m e 的 诞生正是为了解决这一问题。m i m e 编码技术能够将使用8 b i t 编码格式的数据 转换成使用7 b i t 的a s c i i 码格式。 多用途网际邮件扩充协议( m u l t i p u r p o s ei n t e r n e tm a i le x t e n s i o n s ,m i m e ) 并 不是替代了s m t p 和p o p ,只是允许a s c i i 码对任何数据都能进行编码,以保 9 武汉理工大学硕士学位论文 证数据能够在标准的电子邮件中传输。其基本思想是:在发送端进行编码,将 8 b i t 的内码转化为7 b i t 的a s c i i 码,在接收端解码,8 b i t 的原码还原,这样保证 收件人接收到的邮件格式仍然与发送人发送的邮件格式相当。 m i m e 也是邮件的编码格式,主要包含两种编码方式b a s e 6 4 和q p ( q u o t e p r i n t a b l e ) 两种编码方式。 ( 1 ) b a s e 6 4 编码 b a s e 6 4 编码是目前使用最广泛的一种编码规则,由于其操作简便,容易理 解,已成为主流的电子邮件编码方法。 其实现方法【1 2 】是:将一组连续的字节数据按6 个b i t 位进行分组,然后对每 组数据用一个a s c i i 码来表示。6 个b i t 位最多能表示2 。= 6 4 个数值,这6 4 个 是可以使用a s c i i 字符来对应这6 4 个数值,这“个字符包括a z 、a - z 、 0 - 9 、+ 和。如果原来的8 位字节数据的字节个数不能被3 整除,而余 下1 或2 个8 b i t 字符时,仍然按6 个b i t 位对剩余的字节进行分组,在最后不够 6 个b i t 位的内容后加几个为0 的b i t 位来凑成6 个b i t 位。如果编码后的整个结 果文本的字符不是4 的整数倍,就需要在最后填充= 字符来凑成4 的倍数。 这就是b a s e 6 4 编码的整个过程。 ( 2 ) q p 编码 q p 编码也是一种将二进制数据转换成可打印的a s c i i 字符的编码方式,它 对a s c i i 不进行转换,只对非a s c i i 字符的数据进行编码转化。每个非a s c i i 字符的字节数据,都被转换成一个_ 号后跟这个字节的十六进制数据,例如 “a b 中国 的q p 编码为“a b = d 6 = d 0 = b 9 = f a 。特别的原始数据中的= 号字 符也需要进行编码转换,用“= 3 d 表示。 2 3 4 网际消息访问协议 网际消息访问协议( i n t e r n e tm e s s a g e a c c e s sp r o t o c o l ,脚) 协议跟p o p 协 议一样,是采用的c s 的工作模式,但是针对p o p 协议的缺陷,i m a p 协议在 此基础上做出了一些改进。首先,i m a p 提供了“摘要浏览的方式,用户可以 通过查看邮件头的信息决定是否阅读或操作邮件,有效地节省了时间和精力。 此功能对于那些希望阻止垃圾邮件或经常接收大量电子邮件的用户来说是非常 实用的。其次,用户还能够通过邮件客户端在服务器上新建、删除、修改文件 夹,可以指定显示或者隐藏文件夹。再次,在接收到邮件后用户可以有选择地 1 0 武汉理工大学硕士学位论文 下载附件,避免了p o p 方式下收信时需要将邮件下载到本地后才能进行判断的 被动。最后,采用p o p 方式时,当用户将邮件通过客户端从服务器上下载到本 地后,该邮件在服务器端将被删除,那么当同一用户在不同的计算机上通过客 户端接收邮件后,该用户邮件将被分成几个部分,在用户需要查看以前的邮件 时会造成不便,而i m a p 很好地解决了这一问题,当用户在客户端下载服务器 上的邮件后,该邮件仍然在服务器上,不会被清除。 2 4 邮件预处理 电子邮件是一种特殊的文本结构,它是一种半结构化的文本,包含邮件头 和邮件体,有的邮件还包括附件。因此在对电子邮件进行分类之前,我们需要 对邮件进行预处理,将邮件格式统一化,进而提取都邮件正文,然后对正文进 行分词处理,特征选择等工作。 后文要介绍的垃圾邮件的过滤办法都是在邮件预处理的基础上进行的,下 面介绍邮件预处理的方法和技术。 2 4 1 中文文本分词技术 计算机处理语言,需要语言以合适的形式表示。对于英文文本的分句和分 词,根据英文的语法,每个单词和单词之间用空格分开,计算机很容易区分。 但是对于中文文本,是连续的字串,词语和词语之间没有空格区分,不像英文 各词之间那么容易区分,使得中文分词技术成为一个难题,一度成为学者的研 究热点。中文需要根据语义语法来分析语句,从而完成分词的工作。 中文分词( c h i n e s ew o r ds e g m e n t a t i o n ) ,也常被称之为汉语切词,是指按照 一定的分词算法将中文文本的字串自动切分为词串的过程。中文分词是中文邮 件文本预处理中的一项很重要的工作,也是中文邮件分类的基础。精确度高的 中文分词使中文文本的表示更加准确,对邮件分类的后续工作打下了良好的基 础。 常用的中文分词方法有: ( 1 ) 最大匹配分词法【1 3 】 最大匹配分词法是基于分词词典的一种分词算法,思路简单,易于实现。 分词过程不考虑词性、语义、语境等因素,分为正向最大匹配法和逆向最大匹 配法,两种方法的思
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农发行攀枝花市东区2025秋招笔试EPI能力测试题专练及答案
- 2025年首都医科大学宣武医院招聘(二)(36人)考前自测高频考点模拟试题含答案详解(黄金题型)
- 浦发银行潍坊市青州市2025秋招笔试价值观测评题专练及答案
- 浦发银行常州市溧阳市2025秋招金融科技岗笔试题及答案
- 平安银行北京市昌平区2025秋招小语种岗笔试题及答案
- 检测核酸考试题目及答案
- 光大银行沈阳市铁西区2025秋招面试典型题目及参考答案
- 嘉兴网格员考试题及答案
- 农发行眉山市青神县2025秋招半结构化面试15问及话术
- 中信银行十堰市茅箭区2025秋招笔试行测高频题及答案
- 第一单元第1课《小小科学家》教学课件一年级上册科学
- 大学创意写作(第二版)课件 第七章 微短剧剧本与短视频脚本
- 生涯彩虹图完整版本
- DB11∕T 1773-2022 分布式光伏发电工程技术规范
- 第二单元《万以内的加减法(一)》单元作业设计 三年级数学上册
- 输血科岗前培训课件
- 个人述职报告范文汇总参考模板
- 间质性肺炎护理查房内容课件
- 剑桥Think第一级Unit+1+Welcome课件
- 横河CS3000工程师培训资料
- LY/T 3355-2023油茶
评论
0/150
提交评论