已阅读5页,还剩62页未读, 继续免费阅读
(计算机系统结构专业论文)垃圾邮件过滤技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 随着国际互联网的迅猛发展和日益普及,电子邮件以其通信的方便、快捷、 成本低廉成为了人们日常生活中通信、交流的重要手段之一。但是近些年来,垃 圾邮件问题日益严重。面对肆虐的垃圾邮件,人们采用了各种手段来对抗,垃圾 邮件过滤技术是目前最主要的反垃圾邮件手段。本文研究垃圾邮件过滤技术中的 一些关键问题。 由于垃圾邮件往往有其用词、行文等内容上的明显特征,而且垃圾邮件所包 含的话题一般不存在于正常邮件中,这使得应用文本分类的方法进行基于内容分 析的垃圾邮件过滤变得非常有效,目前这已成为垃圾邮件过滤中一个新的研究热 点。本文将其称为基于内容的垃圾邮件过滤技术。 本文概述了现有的基于内容的垃圾邮件过滤技术,指出了其中的三个关键问 题:分类算法,特征选择方法和中文词串切分算法。我们分别对这三个问题进行 了对比实验并给出了实验的结果。实验结果显示,支持向量机分类模型以及基于 信息增益的特征选择方法能取得比较好的结果。我们实现了单字切分、二元切分 和基于字典的正向最大匹配三种中文词串切分算法,实验结果显示简单的二元切 分能取得和正向最大匹配算法相当的效果,而单字切分出人意料地比这两者都要 更好。另外,由于垃圾邮件过滤的特性,停用词和标点符号对正确过滤有帮助, 不应去除。 基于内容的垃圾邮件过滤器容易受到反过滤手段的欺骗。基于垃圾邮件发送 者绝大多数情况下会在邮件中添加一个供读者点击访问的链接的事实,我们提出 了一种新颖的基于邮件内含链接特征分析的垃圾邮件过滤技术。该技术提取邮件 中与链接有关的特征,用支持向量机进行训练分类。实验结果显示这是一种快速 有效的过滤技术。 垃圾邮件过滤的一个重要趋势是综合各种单独的技术进行判断。本文最后在 前文工作的基础上,研究并实现基于改进的a d a b o o s t 算法的多过滤技术组合策略。 这是综合各种技术实现实用的垃圾邮件过滤系统的关键问题。我们运用该策略取 得了很好的实验结果,在相同的数据集上,超过了s e w m 2 0 0 8 垃圾邮件评测竞赛 第一阶段任务的最好成绩。 山东大学硕士学位论文 关键词:垃圾邮件过滤;文本分类;支持向量机;链接;a d a b o o s t i i 山东大学硕士学位论文 a b s t r a c t n o w a d a y sw i t ht h er a p i dd e v e l o p m e n ta n dp o p u l a r i z a t i o no ft h ei n t e m e t , e l e c t r o n i cm a i lf e - m a i l ) h a sb e c o m eo n eo ft h em o s ti m p o r t a n tc o m m u n i c a t i o nm e t h o d s i no u rd a i l yl i f eo w i n gt oi t sc o n v e n i e n c ea n d c h e a p n e s s t h ep r o b l e mo f ju n km a i l ( a l s o r e f e r r e dt oa s “s p a m ”) ,h o w e v e r ,b e c o m em o r ea n dm o r es e r i o u si nr e c e n ty e a r s f a c i n g u n s c r u p u l o u sj u n km a i l s ,p e o p l ea d o p tm a n yt e c h n i q u et of i g h ta g a i n s ti t c u r r e n t l y , s p a r ef i l t e r i n gi sm o s tc o m m o n l yu s e dm e t h o do fa n t i s p a r e i nt h i sp a p e r , w ef o c u so n s o m ec r i t i c a li s s u e so fs p a mf i l t e r i n g s i n c et h e r ea r ed i s t i n c tc h a r a c t e r i s t i c so fw o r d sa n ds w l e si nt h ec o n t e n t so f s p a m , a n dt h e t o p i cc o n t a i n e di ns p a ms e ld o me x i s t si nl e g a le m a i l ,i ti sae f f e c t i v ew a yt o f i l t e rs p a mb ya d o p t i n gt h et e c h n o l o g i e so fa u t o m a t i ct e x tc a t e g o r i z a t i o n i th a sb e c o m e ah o tr e s e a r c ht o p i ci na n t i - s p a mf i l t e r i n ga tp r e s e n t w er e f e ri ta s “c o n t e n t b a s e ds p a m f i l t e r i n g i nt h i sp a p e r a f t e ras u m m a r yo ft h ee x i s t i n gc o n t e n t b a s e ds p a m f i l t e r i n gi sg i v e n ,w ep o i n to u t t h r e ec r i t i c a li s s u e si n t h i st o p i c :c l a s s i f i c a t i o na l g o r i t h m , f e a t u r es e l e c t i o nm e t h o d , c h i n e s et o k e n c u t t i n ga l g o r i t h m s o m ec o m p a r a t i v ee x p e r i m e n t sr e s u l t sa r eg i v e na n d s h o wt h a ts v mc l a s s i f i c a t i o nm o d e la n di g - b a s e df e a t u r es e l e c t i o nm e t h o dh a v e s u p e r i o r i t i e so v e ro t h e r s w ea l s oi m p l e m e n tt h r e ec h i n e s et o k e n c u t t i n ga l g o r i t h m s a n da d o p tt h e mi ns p a mf i l t e r i n g t h er e s u l ts h o ws i m p l e2 - g r a mc u t t i n gd ow e l la s m a x i m u mm a t c hw o r ds e g m e n t a t i o na l g o r i t h m ,a n d ,t oo u rs u r p r i s e ,t h e s i m p l e s t 1 - g r a mc u t t i n gc a no u t p e r f o r mo v e rt h eb o t h i na d d i t i o n ,o w n i n gt ot h ep a r t i c u l a r i t yo f s p a mf i l t e r i n g ,k e e p i n gt h es t o pw o r d sa n dp u n c t u a t i o n sc a nb e n e f i tt oc l a s s i f y i n gt h e e m a i lc o r r e c t l y c o n t e n t - b a s e ds p a mf i l t e ri sp r o n et ob eh o o d w i n k e db ya n t i - f i l t e r i n gt r i c k s o nt h e o b s e r v a t i o n st h a ts p a ms e n d e rw i l la d dau r li nt h e i rm a i l si nm o s tc a s e ,w ep r o p o s ea n o v e ls p a mf i l t e r i n gm e t h o db a s e do na n a l y s i so fi n - b o d yu r l sc h a r a c t e r i s t i c s w e e x t r a c tt h ef e a t u r e sa s s o c i a t e dw i t hu r l a n da d o p tm a c h i n el e a r n i n gt e c h n o l o g yt ot r a i n m o d e la n dp r e d i c tt h en e wi n c o m i n gm a i l s t h ee x p e r i m e n t ss h o wi t i saf a s ta n d e f f e c t i v es p a mf i l t e r i n gt e c h n i q u e a ni m p o r t a n tt r e n di nt h i sf i e l di sc o m b i n i n g m a n ys o l et e c h n i q u e st of i l t e rs p a r n 。 o nt h ef o u n d a t i o no fp r e v i o u sw o r k s ,w ea tl a s t s t u d ya n di m p l e m e n tac o m b i n i n g i 山东大学硕士学位论文 s t r a t e g yb a s e do na l li m p r o v e da d a b o o s ta l g o r i t h m c o m b i n i n gs t r a t e g yi st h ec r i t i c a l i s s u eo fi n t e g r a t i n ga l lk i n do ft e c h n i q u e st oi m p l e m e n tp r a c t i c a ls p a mf i l t e r i n gs y s t e m w ea p p l yt h i ss t r a t e g ya n dg e tg o o dr e s u l t si no u re x p e r i m e n t s i nt h es a m ec o r p u s ,o u r r e s u l to u t p e r f o r m st h eb e s tr e s u l to ff i r s ts t a g et a s ko fs e w m 2 0 0 8s p a mt r a c k k e yw o r d s :s p a mf i l t e r i n g ;t e x tc a t e g o r i z a t i o n ;s v m ;u r l ;a d a b o o s t i v 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名: 隆造玺 日 期:诬3 。丝堇 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) :蝉新签名距咝 山东大学硕士学位论文 1 1 研究背景 第1 章绪论 从上世纪八九十年代开始,i n t e m e t 一直保持着飞速发展,作为i n t e m e t 的一 个重要应用,电子邮件因其方便、快捷、成本低廉等特点,逐步取代了传统的邮 件方式,成为网络用户间发布和交流信息的最重要手段之一。然而,人们在享受 电子邮件带来的便利的同时,也不得不同时面对其衍生的令人烦恼的副产品,那 就是,垃圾邮件。 首次关于垃圾邮件的记录是1 9 8 5 年8 月一封通过电子邮件发送的连锁信, 该邮件一直持续到1 9 9 3 年。1 9 9 3 年6 月,在i n t e m e t 上出现了“发财之道( m a k e m o n e yf a s t ) ”的电子邮件。历史上比较著名的事件是在1 9 9 4 年4 月份,c a n t e r 和s i e g e l 的法律事务所把一封信发到6 0 0 多个新闻组,宣传获得美国国内绿卡的 法律支持。这是人们第一次使用s p a m ( 垃圾邮件) 一词,用来描述新闻或电子邮件 的主动性发布。从此,垃圾邮件开始引起人们的注意和反感。随着后来垃圾邮件 越来越多与商业联系起来,1 9 9 6 年的4 月份,人们开始使用u c e ( u n s o l i c i t e d c o m m e r c i a le m a i l ) 来称呼垃圾邮件,并开始积极想办法阻止垃圾邮件在i n t e m e t 上泛滥【1 1 。 2 0 0 2 年1 1 月1 日,中国互联网协会公布了对“垃圾邮件”的正式定义2 】: 1 收件人事先没有提出要求或者同意接收的广告、电子刊物,各种形式的 宣传品等宣传性质的电子邮件; 2 收件人无法拒收的电子邮件; 3 隐藏发件人身份、地址、标题等信息的电子邮件; 4 含有虚假的信息源、发件人、路由等信息的电子邮件。 国际上对垃圾邮件的通用定义【3 1 是:未经请求的群发邮件( u n s o l i c i t e db u l k e m a i l ,u b e ) 。该定义指出,仅当“未经请求”和“群发 的特性同时满足时, 邮件被认为是垃圾邮件。 1 9 9 8 年,全世界只有约1 0 的邮件是垃圾邮件,到了2 0 0 7 年初,这一比例 上升到了8 0 ,而到了2 0 0 7 年底,更是上升到了8 5 。全球每年因垃圾邮件造 1 2 反垃圾邮件的相关工作 1 2 1 反垃圾邮件相关技术和系统 垃圾邮件过滤技术是目前最主要的反垃圾邮件技术,这是一种“存在发现” 的技术。下表1 1 给出了垃圾邮件过滤技术发展历史1 1 的一个概要,在本文的第 二章,我们将对其中的部分技术作简要介绍。 第一代第二代第三代第四代 基础m t a 控制实时黑名单贝叶斯过滤多技术整合 白名单和黑名单电子签名人工智能 关键字过滤机器学习 信头测试 标题过滤 简单的d n s 测试 表1 1 反垃圾邮件的技术发展历程 目前业界研究的重点是上表中第三代技术的研究,也即基于邮件内容的过滤 技术。业界也认识到单一的过滤技术很难有效地对抗垃圾邮件,所以在实际的工 程应用中,主流的技术趋势是综合各种单独的技术进行邮件过滤。目前已有许多 成熟的垃圾邮件过滤系统,! t l :l b o g o f i l t e r ”1 、s p a m p r o b e l 6 】、s p a m b a y e s t 7 1 和 s p a m a s s a s s i n 8 】等。这些过滤系统大多包含有基于朴素贝叶斯分类器的统计学习 模块,且综合了多种技术。 1 2 。2 反垃圾邮件组织、会议和评测 世界各地成立了很多反垃圾邮件组织,如位于加利福尼亚的m a p s t 9 1 ,新西 兰的o r b s 以及s p 锄c o p 【1 1 1 等。在我国,2 0 0 2 年1 1 月,中国互联网协会联合 国内网络运营商、邮件服务提供商在北京成立了“中国互联网协会反垃圾邮件协 调小组”,建立了反垃圾邮件举报平台,并提出了中国互联网协会反垃圾邮件 规范。2 0 0 5 年1 2 月9 日,中国互联网协会在“中国互联网协会反垃圾邮件协 调小组”的基础上正式成立中国第一个在行业内具有代表性的反垃圾邮件组织 “中国互联网协会反垃圾邮件工作委员会”,该工作委员会的成立意味着中国反 2 山东大学硕士学位论文 垃圾邮件事业迈上了新的台阶。 垃圾邮件过滤方面的国际会议和评测有:邮件及反垃圾邮件会议( c o n f e r e n c e o ne m a i la n da n t i s p a m ,c e a s ) 、垃圾邮件会议( s p a mc o n f e r e n c e ) 和文本检索会 议( t e x tr e e v i lc o n f e r e n c e ,t r e c ) 的s p a mt r a c k 评测等。 邮件及反垃圾邮件会议是关于电子邮件的使用以及滥用( 垃圾邮件问题) 研 究的国际会议1 。该会议每年7 月份召开,自2 0 0 4 年起已召开了五届。 垃圾邮件会议是由麻省理工学院组织召开的有关反垃圾邮件技术的年会2 。 评测是促进研究的驱动力之一。有关垃圾邮件过滤任务的国际评测最有影响 的当数t r e c 的s p a mt r a c k 评测3 。该评测2 0 0 5 年首次举行,2 0 0 9 年仍将继续。 在历届评测中,世界上知名的垃圾邮件过滤系统以及知名研究机构都有参与,为 垃圾邮件过滤系统提供了标准的评测环境。 国内的搜索引擎和网上信息挖掘学术研讨会( s e w m ) 会议从2 0 0 7 年开始 举办了垃圾邮件过滤的评测竞赛1 2 】,s e w m2 0 0 8 该项目共有5 个来自不同院校 的队伍参赛。s e w m2 0 0 9 仍将继续该评测。 1 2 3 相关数据集 在邮件过滤领域,比较有名的数据集包括p u 系列语料,l i n g s p 锄语料4 , s p a l l 认s s a s s i n 语料5 并1 s p a mb a s e 6 语料,以及t r e c 垃圾邮件过滤评测的公开数据 集。中文邮件公开语料比较少,在本文中我们使用s e w m2 0 0 8 垃圾邮件过滤评 测的公开数据集作为中文邮件的主要实验数据。 1 3 本文工作 本文的重点是研究垃圾邮件过滤技术中的一些关键问题,主要工作包括: 1 ) 将三种通用的文本分类技术( 贝叶斯方法,s v m ,决策树算法) 与两种 通用的特征选择的方法( 信息增益和c ) 交叉组合,应用于基于内容 的垃圾邮件过滤,比较其性能。 :w w w c e a s o r s :w w w s p a m c o n f e r e n e e o r s :p i g u w a t e r l o o c a g v c o r m a c s p a m :w v g 、= v i i t d e m o k r i t o s g r s k e l i - c o n f i g d o w n l o a d s :w w w s p a m a s s a s s i n o r s :w w w i c s u c i e d u m l e a m m l r e p o s i t o r y h t m l 山东大学硕士学位论文 2 ) 研究中文词串切分算法以及是否去停用词对基于内容的邮件过滤的影 响。我们实现了三种词串切分算法,与是否去停用词进行交叉组合,通 过实验结果比较其对过滤效果的影响。 3 ) 提出并实现了一种新颖的基于邮件内含链接特征分析的邮件过滤技术。 4 ) 研究并实现了一种基于改进的a d a b o o s t 算法的多过滤技术的组合策略。 1 4 本文组织 本文内容按如下方式组织: 第1 章:介绍了本文的研究背景,反垃圾邮件的相关工作,包括相关技术和 系统,相关的组织、会议和评测,以及该领域中相关的数据集。 第2 章:介绍了与电子邮件相关的基础知识,并对当前通用的反垃圾邮件技 术进行了介绍。 第3 章:介绍了文本分类的相关知识,这是基于内容的垃圾邮件过滤技术的 基础。给出了基于内容的垃圾邮件过滤技术的基本框架,指出了其中的关键问题。 在介绍了本文的硬件和软件环境、使用的数据集以及结果评价体系之后,就这些 关键问题进行了对比实验。 第4 章:提出了一种基于邮件内含链接特征分析的垃圾邮件过滤技术。我们 详细分析讨论了该技术的可行性,列出了我们使用的各维特征,并给出了相应的 实验结果。 第5 章:研究并实现了一种基于改进的a d a b o o s t 算法的多过滤技术的组合 策略。给出了详细的算法及分析,以及弱规则的学习方法。最后通过实验验证了 这种策略的有效性。 4 山东大学硕士学位论文 第2 章电子邮件基础和反垃圾邮件技术介绍 为了准确地理解各类反垃圾邮件技术,有必要首先了解与电子邮件相关的基 础知识。本章接下来首先介绍电子邮件发送的原理,包括电子邮件发送的基本过 程,系统结构以及发送接收过程中的相关协议,然后以之为基础,介绍现有的主 要反垃圾邮件技术。 2 1 电子邮件的原理 2 1 1 体系结构 电子邮件体系结构中有三个重要的组件,邮件用户代理m u a ( m a i lu s e r a g e n t ) 、邮件转发代理m t a ( m a i lt r a n s f e ra g e n t ) 和邮件分发代理m d a ( m a i l d e l i v e r ya g e n t ) 。 ( 1 ) m u a ( m a i l u s e ra g e n t ,邮件用户代理) 是用户平常所使用的信件阅读 与撰写的程序,如o u t l o o ke x p r e s s 。它接收用户的命令,为用户提供一 个方便的界面来收发信件。在邮件系统中用户只与m u a 打交道,m u a 将邮件系统的复杂性与用户隔离开。 ( 2 ) m t a ( m a i l t r a n s f e ra g e n t ,邮件传输代理) 是一个专用程序,其作用 类似于邮局,用于在两个机器之间发送邮件。m t a 决定了邮件到达目的 地的路径。 ( 3 ) m d a ( m a i ld e l i v e r a g e n t ,邮件递交代理) 程序负责将邮件分发到服务 器上的本地用户。在m t a 收到一封信件后,会先判断该信件的目的地是 不是自己,如果不是则会继续帮忙转发,如果是自己,m t a 则会把信件 交给m d a 来处理,由瑚a 真正地把信件送到主机上收件人的信箱中。 因此m t a 自己并不完成最终的邮件发送,它要调用m d a 来完成最后的投 递服务。 2 1 2 电子邮件发送的基本过程 一封邮件从发送方到接收方的流程如图2 1 所示。 山东大学硕士学位论文 图2 1 电子邮件的发送流程 首先,发信者利用m u a 从写好邮件,交给发送m t a 。然后,发送m t a 再 通过中继m t a 将邮件传送到接收m t a 。中继m t a 可以没有,也可以有多个。 m t a 与m t a 之间的通信协议是s m t p 。接着,接收m t a 调用m d a 将邮件递 交给收信者的邮箱。最后,收信者可以通过三种方式( p o p 3 、i m a p 和w e b m a i l ) 与邮箱交互,来读取或者下载邮件。 s m t p 是存储转发协议,允许邮件通过一系列服务器发送到最终的目的地。 邮件到达一个服务器后,存储在队列中,等待发送到下一个目的地。下一个目的 地可以是本地用户或另一个邮件服务器。当下游服务器暂时不可用时,邮件暂存 在相应的m t a 队列中,m t a 会尝试以后发送。 2 1 3s m t p s m t p ( 简单邮件传输协议,s i m p l em a i lt r a n s f e rp r o t o c 0 1 ) 协议是为了保 证电子邮件的可靠和高效传送。t c p i p 协议的应用层中包含有s m t p 协议,但 事实上它与传输系统和机制无关,仅要求一个可靠的数据流通道。它可以工作在 t c p 上,也可以工作在n c p , n i t s 等协议上。在t c p 上,它使用端口2 5 进行 传输。s m t p 的一个重要特点是可以在可交互的通信系统中转发邮件。 s m t p 提供了一种邮件传输的机制,当收件方和发件方都在一个网络上时, 可以把邮件直传给对方;当双方不在同一个网络上时,需要通过一个或几个中间 服务器转发。s m t p 首先由发件方提出申请,要求与接收方s m t p 建立双向的通 信渠道,收件方可以是最终收件人也可以是中间转发的服务器。收件方服务器确 认可以建立连接后,双发就可以开始通信。图2 2 是s m t p 的模型示意图。 6 山东大学硕士学位论文 s m t p 中定义了1 4 个命令,h e l d ,m a i l ,r c p t , d a t a , r s e t , s e n d ,s o m l , s a m l ,v r f y $ e x p n ,h e l p , n o o p , q u i t 和t u r n 。 i 耸; t p 扭 笈送商 l ,如铨人 接收方 s m t p i 龆竹 s m t p :文事l :系统 一 h 爿竺竺 、少 、 ! 图2 2s m t p 协议的工作原理 s m t p 协议产生于2 0 年前,当时的网络处于一个研究环境,由三百多台计 算机构成一个a r p a n e t 网络,供研究机构和政府使用。接入到网络中的站点都 是非常令人信赖的,因此当时协议起草时是基于信任的基础上的,假定人们的身 份与他自我声称的是一致的,没有对邮件传送者的身份进行有效全面的认证。因 此它允许发信人伪造绝大多数发信人的特征信息,j z l - 发信人、信件路由等,甚 至通过匿名转发、开放转发和开放代理等手段,近乎完全地抹去发信人的特征, 这对于发现并制止垃圾邮件的传播造成了很大的困难。正是这一点被垃圾邮件发 送者所利用,造成垃圾邮件的泛滥。 2 1 4o p e nr eia y 另外一个与垃圾邮件密切相关的概念是o p e nr e l a y 。邮件在收件方和发件方 之间会经过毫不相干的第三方服务器,这就是邮件转发( r e l a y ) 。s m t p 协议中 明确指出当邮件在不同的网络间传送时,需要借助中间服务器的r e l a y 。如图2 3 所示。 图2 3o p e nr e l a y 的原理 7 山东大学硕士学位论文 图中的邮件服务器是可以对要求转发的邮件进行限制的,如只转发来自某个 域的邮件或来自于某些i p 得邮件。如果转发没有任何限制,就被称为o p e nr e l a y 或t h i r dp a 啊r e l a y 。 由于技术的原因,在8 0 年代前,网络还不是很健全,机器之间很少能直接 对话发送邮件,因此o p e nr e l a y 曾经发挥过重要作用。时至今日,随着网络的 逐步健全完善,正常邮件转发己经不再必要,相反,o p e nr e l a y 常常被发送垃圾 邮件的人利用,隐藏真实的邮件来源,让别人以为是从另外的i s p 发出的信件。 同时,也把大量的处理工作转移到别人机器上。 目前,大部分邮件服务器升级版本已经在缺省设置中关闭了o p e nr e l a y ,但 由于很多服务器管理员的疏忽而没能及时的修补这些安全漏洞,被利用来转发垃 圾邮件。 2 1 5p o p 3 与im a p 一旦s m t p 把发信人发给收信人的邮件从发信人的邮件服务器传送到收信 人的邮件服务器,该邮件消息就存放在收信人的邮箱中。然后,通过引入用于从 自己的邮件服务器到本地p c 机上的用户代理传送邮件消息的邮件访问协议,收 信人可以获取已到达自己的邮件服务器的邮件消息。目前流行的邮件访问协议有 两个:邮局协议版本3 ( p o s to f f i c ep r o t o c o lv e r s i o n3 ,简称p o p 3 ) 和因特网邮件访 问协议( i n t e m e tm a i la c c e s sp r o t o c o l ,简称i m p ) 。 p o p 3 是规定怎样将个人计算机连接到i n t e m e t 的邮件服务器和下载电子邮 件的电子协议,它是因特网电子邮件上第一个离线协议标准。p o p 3 允许用户将 电子邮件下载到本地主机( 即个人计算机) ,同时删除保存在邮件服务器上的电 子邮件,从而可以使用户不必长时间地与邮件服务器连接,很大程度上减少了邮 件服务器和网络的开销。 但是p o p 3 有其天生的缺陷:即当用户接收电子邮件时,所有的信件都从服 务器上清除并下载到客户机上。在整个收信过程中,用户无法知道信件的具体信 息,只有全部接收到硬盘后,才能慢慢浏览和删除。这使用户几乎没有对邮件接 收的决定控制权,一旦碰上邮箱被轰炸或者有比较大的信件,用户不能通过分析 邮件的内容或者发信人地址来决定是否下载或者删除。从而造成系统资源的浪 费。 8 山东大学硕士学位论文 i m a p 是与p o p 3 对应的另一种协议,为美国斯坦福大学在1 9 8 6 年开始研发 的多重邮箱电子邮件系统。该协议定义在r f c 2 0 6 0 中。它能够从邮件服务器上 获取邮件的信息或者直接收取邮件,具有高性能和可扩展性的优点。它可以决定 客户机程序请求邮件服务器提交所收到邮件的方式,请求邮件服务器只下载所选 中的邮件而不是全部邮件,客户机可先阅读邮件信息的标题和发送者的名字再决 定是否下载这个邮件。i m a p 通过客户机的电子邮件程序可在服务器上创建并管 理邮件文件夹或邮箱、删除邮件、查询某一封信的一部分或全部内容,完成所有 这些工作时都不需要把邮件从服务器下载到个人计算机上。 i m a p 提供操作的三种模式: 1 在线方式:邮件保留在m a i l 服务器端,客户端可以对其进行管理,其使 用方式与w 曲m a i l 相类似。 2 离线方式:邮件保留在m a i l 服务器端,客户端可以对其进行管理,这与 p o p 协议一样。 3 分离方式:邮件的一部分在m a l l 服务器端,一部分在客户端,这与一些 成熟的组件包应用( 如l o t u sn o t e s d o m i n o ) 的方式类似。 但是i m a p 自身也有一些不足:i m a p 服务器需要保持旧的邮件,从而占用 了额外的空间,而且需要定时删除旧邮件;同时,用户查阅信息标题和决定下载 那些附件,也需要一些时间,因此链接时间比p o p 方式长。 2 1 6 电子邮件的格式 r f c 2 8 2 2 7 定义了i n t e m e t 邮件报文格式。最基本的,一封邮件是由字符串组 成的。字符是u s a s c i i 字符码1 到1 2 7 中的字符。 一封邮件也可被看作许多的行。一“行 是由“回车”( c a r r i a g e r e t u r n ,c r ) 和“换行”( 1 i n e f e e d ,l f ) 作为界限的字符串。 一封邮件由报头域( h e a d e rf i e l d s ) 和正文( b o d y ) 组成。报头必须存在,而正文 则是可选的。报头是由一系列由特殊语法构成的行组成的。正文则仅仅由字符串 组成。正文和报头由一空行分隔开。 报头域是由域名( f i e l d n a m e ) $ 1 :l 域体( f i e l d b o a y l 组成,二者以一个冒号分开。 域名必须是可打印的u s a s c i i 字符( 例如从代码3 3 到1 2 6 中的字符) 。域体可以 9 山东大学硕士学位论文 是任意的u s a s c i i 字符。 本节将介绍r f c 2 8 2 2 中定义的一些常用的且与垃圾邮件密切相关的报头域 的域名及其含义,这对我们了解和使用反垃圾邮件技术有着重要的意义。在邮件 报头域中只有起始日期域和发件人地址域是必需的,其他的域是可选的。 1 起始日期域( t h eo r i g i n a t i o nd a t ef i e l d ) o r i g - d a t e = ”d a t e :”d a t e t i m ec r l f 起始日期域由域名”d a t e ”以及日期和时间构成。 起始日期代表的邮件创建者完成邮件并且将邮件送交至递送系统的时间。这 个时间并不代表邮件在网络上被实际发出的时间,仅仅代表当邮件创建者完成邮 件的时刻。 2 发件人地址域( o r i g i n a t o rf i e l d s ) f r o m = ”f r o m :”m m l b o x 1 i s tc r l f s e n d e r = ”s e n d e r :”m m l b o xc r l f r e p l y - t o = ”r e p l y - t o :”a d d r e s s l i s tc r l f 发件人地址域包括f r o m 域,可选的s e n d e r 域和r e p l y t o 域,它们指明了邮 件的来源。 f r o m 域由域名”f r o m ”以及一个或者多个邮箱名构成,每个邮箱名由逗号分 开,构成一个邮箱列表。s e n d e r 域由域名”s e n d e r ”以及一个邮箱名构成。r e p l y - t o 域由域名”r e p l y - t o ”以及地址列表构成。 f r o m 域代表邮件的作者( 可能不止一个) 的邮箱,“作者”是指实际书写邮件 的人。s e n d e r 域代表的是负责实际发出该邮件的人的邮箱地址。例如,当一位秘 书代他人发送一封邮件,f r o m 域中应书写邮件实际作者的邮箱,而s e n d e r 则为 这位秘书的邮箱地址。如果邮件实际作者和邮件的发出人是同一个人,那么 s e n d e r 域可以省略。当r e p l y - t o 域存在时,它代表邮件作者建议的回复邮件的地 址。如果并没有r e p l y t o 这个域,那么邮件默认的回复地址为f r o m 域中邮箱地址。 3 目的地址域( d e s t i n a t i o na d d r e s sf i e l d s ) t o = ”t o :”a d d r e s s 1 i s tc r l f c c = ”c c :”a d d r e s s 1 i s tc r l f b c c = ”b c c :”a d d r e s s 1 i s tc r l f 1 0 山东大学硕士学位论文 目的地址域由三个可选的域构成:t o 域,c c 域和b c c 域。它们域名分别是”t 0 ”, ”c c ”和”b c c ”,域体则都是一个地址列表。这些域指明了邮件的收件人。t 0 域包 含主要收件人的地址。c c ( c a r b o nc o p y ) 域指明邮件将要抄送给某些地址。 b e e ( b l i n dc a r b o nc o p y ) 域指明邮件将要匿名抄送给某些地址,这些地址将不会显 示在其他收件人收到的邮件中。 4 邮件标识域( i d e n t i f i c a t i o nf i e l d s ) m e s s a g e i d = ”m e s s a g e - i d :”m s g i dc r l f i n - r e p l y t o = ”i n - r e p l y t o :”l * m s g i dc r l f r e f e r e n c e s = ”r e f e r e n c e s :”l * m s g i dc r l f 虽然上述三个域都是可选域,但是每封电子邮件都应该包含一个m e s s a g e i d 域。并且,每一封回复邮件也应该包含i n r e p l y t o 域和r e f e r e n c e s 域。 m e s s a g e i d 域包含一个唯一的消息识别符,这个消息识别符指代一封特定的 消息的一个特定的版本,消息识别符的唯一性是由产生这封消息的主机所保证 的。消息识别符是机器可读的,它对于人们来说并没有什么特殊意义。更改或修 正某一封消息都将会产生新的消息识别符。i n r e p l y t o 域和r e f e r e n c e s 域分别包 含一个或多个唯一的消息识别符。它们指明源邮件以及其他邮件的消息识别符。 i n r e p l y t o 域指明要回复给那一封( 或多封) 邮件。r e f e r e n c e s 域则可用来指明 某一次讨论的“线索”。 5 邮件信息域( i n f o r m a t i o nf i e l d s ) s u b je c t = ”s u b je c t :”u n s t r u c t u r e dc r l f c o m m e n t s = ”c o m m e n t s :”u n s t r u c t u r e dc r l f k e y w o r d s 一k e y w o r d s :”p h r a s e 木( ”,”p h r a s e ) c r l f 邮件信息域均为可选,它们包含关于该邮件的信息。s u b j e c t 域指明邮件的 主题。当我们回复一封邮件时,邮件主题则以”r e :”开始,后面接上被回复邮件 的主题。c o m m e n t s 域包含对邮件正文的评论和意见。k e y w o r d s 域包含一些由逗 号分隔开的单词或短语,这些关键字对收件人可能有一定的帮助。 2 1 7mim e 协议 如上文所述,在s m t p 协议中传输的是a s c i i 数据,为了能通过电子邮件发 送q a s c i i 数据,正t f 定义了多用途i n t e m e t 由g 件扩充m i m e ( m u l t i p u r p o s ei n t e m e t 山东大学硕士学位论文 m a i le x t e n s i o n ) 妣x t l 3 j 。m i m e 没有改动s m t p 或p o p 3 ,也没有代替它们,而是 允许用a s c u 码对任意数据进行编码,然后在标准电子邮件中传输。m i m e 信息 位于邮件的报头,指明了m i m e 的版本、发送数据的类型以及将数据转换为a s c i i 码所使用的编码格式。m i m e 信息头主要有一下三个部分: 1 m i m e v e r s i o n : 指明所用m i m e 的版本号,一般为1 0 2 c o n t e n t t y p e : 定义了数据的类型,以便数据能被适当的处理。m i m e 协议规定c o n t e n t t y p e 声明中必须含有两个标识符,一个是内容类型( c o n t e n tt y p e ) ,一个是子类型 ( s u b t y p e ) ,中间用“”分开。内容类型含有7 种基本的数据类型:t e x t 文本文件, i m a g e 图像文件,a u d i o 声音文件,v i d e o 视频文件,a p p l i c a t i o n 应用文件,m u h i p a r t 复合文件和m e s s a g e 报文文件。子类型是进一步对文件类型说明,如i m a g e j p g 代表格式为j p g 的图像文件,a p p l i c a t i o n o c t e t - s t r e a m 代表二进制的附件。 其中m u l t i p a r t 类型表示邮件由多个邮件部分组成,每个都有单独的内容类 型和编码格式,不同的部分被b o u n d a r y 给出的字符串分开。它包含4 个子类型: m i x e d 允许单个邮件含有多个独立部分,每个有独立的类型和编码; a l t e r n a t i v e 允许单个邮件含有同一数据的多种表示; p a r a l l e l 允许单个邮件含有必须一同查看的各个子部分; d i g e s t 允许单个邮件含有一系列其他邮件。 在c o n t e n t t y p e 字段后,有时会跟c h a r s e t 字段,指明邮件使用的字符集默 认的是u s a s c i i 集。 夕 3 c o n t e n t - t r a n s f e r - e n c o d i n g : 说明嵌在邮件中的二进制数据是如何编码的,该字段取值有7 种情况: 7 - b i t ( 默认编码方式) 、8 一b i t 、b i n a r y 、q u o t e d - p r i n t a b l e 、b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【语文】福建省福州市福州教育学院附属第一小学小学一年级上册期末试卷(含答案)
- 买房前订房合同
- 西平钢管扣件租赁合同
- 旧设各居间合同
- 经营性购销合同
- 惠东餐饮公司合同
- 2025秋学期小学三年级上册劳动技术(苏科版)期末测试卷含答案
- 购车指标判定无效合同
- 建筑施工技术考题及答案1
- 2026年管道工(中级)(操作技能)自测试题及答案
- 某村互助老人幸福院建设方案老人互助养老
- 道德与法治四年级上册:一课一练(含答案)
- 大国外交演讲与辩论智慧树知到期末考试答案章节答案2024年中国石油大学(华东)
- (高清版)JTG 5612-2020 公路桥梁养护工程预算定额
- JB-T 8881-2020 滚动轴承 渗碳轴承钢零件 热处理技术条件
- 急性中毒的诊断与治疗专家共识
- 加油站安全隐患
- 智能医疗装备技术职业生涯规划
- 当水墨邂逅油彩智慧树知到期末考试答案2024年
- 盐城市基本医疗保险特定门诊慢性病特殊病认定申请表
- 我的家乡河北保定城市介绍课件
评论
0/150
提交评论