已阅读5页,还剩65页未读, 继续免费阅读
(计算机科学与技术专业论文)基于贝叶斯算法的垃圾邮件过滤系统的分析与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学软件学院工学硕士论文 基于贝叶斯算法的垃圾邮件过滤系统的分析与实现 摘要 随着互联网的发展,电子邮件在给用户带来很大的方便的同时, 也产生了一个新的问题,即出现了大量的垃圾邮件,而这些垃圾邮件 造成了极大的经济损失。如何过滤掉电子邮件中的垃圾邮件,已经成 为电子邮件服务提供商和广大的电子邮件用户共同关心的问题,这就 是所谓的“反垃圾邮件 问题。 垃圾邮件过滤类似于文本分类,但又不能简单的等同于文本分 类,把合法的邮件判断为垃圾邮件的危害性要远大于把垃圾邮件判断 为合法邮件。本文主要使用贝叶斯算法来过滤垃圾邮件,实现了基于 贝叶斯算法的垃圾邮件过滤系统s p a m f i l t e r 。 本文首先介绍了电子邮件系统的工作原理、常用的邮件传输协议 和邮件的内容格式。分析和实现了基于贝叶斯算法的垃圾邮件过滤系 统,该系统能够支持m i m e 格式的邮件正文,使用大量的己分类为 垃圾邮件和合法邮件的样本集作为训练集,获得各类邮件的特征模 式,再以该特征模式作为基础进行机器学习,实现对邮件的过滤,从 而将邮件分为“垃圾和“合法”两类。该系统能够作为p r o c m a i l 的一个插件使用,主要是在邮件系统的客户端来处理新收到的邮件。 在本系统的开发中,本的主要工作有: ( 1 ) 熟悉了电子邮件内容的格式r f c 8 2 2 定义的格式和支持 二进制数据的m i m e 格式。 北京邮电大学软件学院工学硕士论文 ( 2 ) 熟悉了垃圾邮件的过滤技术的现状。 ( 3 ) 熟悉了应用贝叶斯算法过滤垃圾邮件的基本原理。 ( 4 ) 设计实现了系统的邮件采集模块,命令解析模块,邮件处理 模块,分类模块的部分和训练模块的部分。 最后通过实验,证明了该系统具有不错的过滤能力。 关键词:电子邮件文本分类垃圾邮件贝叶斯算法 北京邮电大学软件学院工学硕士论文 t h ea n s l y s i sa n dm l e 匝n 1 a t i o no f s p i a m 。f 肛r i n gs y s t e mb a s e do nb a 忱s i a n a l g o r i t h m a b s t r a c t a si n t e m e td e v e l o p s ,w h i c hb r i n g su pg r e a tc o n v e n i e n c et ou s e r s ,an e wi s s u e a r i s e s ,w h i c hi sm a s s i v es p a mt h a th a sd o n ee n o t i i i o u sd a m a g et oe c o n o m y t h e r e f o r e , h o wt of i l t e rs p a m sf r o me m a i l sh a sb e c o m eau n i v e r s a lc o n o f f h if o re m a i ls e r v i c e p r o v i d e r sa n dl a r g ea m o u n t so fe m a i lu s e a s ,w h i c hi ss o - e a u e d a n t io fs p a r e s - t h ef i l t e r i n go fs p a r e si s 锄a l o 西ct ot h ec a t e g o r i z a t i o no ft e x t st oc e r t a i nd e g r e e b u ti tc r n ts i m p l yb ed r a w na ne q u a ll i n eb e t w e e nt h e mb e c a u s et h ep o t e n t i a ld a m a g e o fm i s t a k i n gl e g a le m a i l sf o rs p a m si sg r e a t e rt h a nt h a to fm i s t a k i n gs p a r e sf o rl e g a l o n e s t h e r e f o r ei nt h i st h e s i s ,i tm a i n l yu s e sb a y e s i a na l g o r i t h mt of i l t e rs p a r e sa n d c o n s t r u c t ss p a m f i l t e rs p a mf i l t e r i n gs y s t e mb a s e do ni t i nt h eo p e n i n g , t h i st h e s i si n t r o d u c e st h ep r i n c i p l e so ft h ee m a i ls y s t e m , c o m m o n e m a i lt r a n s f e r r i n gp r o t o c o l sa n dt h ef o r m a t so ft h ee m a i l t h e ni t a n a l y z e st h e s p a m - f i l t e r i n gs y s t e mb a s e do nb a y e s i a na l g o r i t h m , w h i c hs u p p o r t st h ee m a i lt e x t w i t hm i m ef o r m a t , u s e sq u a n t i t i e so f c a t e g o r i z e ds e t sa st h et r a i n i n gs e t sf o rt h e s p a c e m a no fs p a r e sa n dl e g a le m a i l s ,o b t a i n st h ec h a r a c t e r i s t i cm o d eo fv a r i o u se m a i l s , p r o c e e d sw i t hm a c h i n el e a r n i n gb a s e do nt h eo b t a i n e dm o d e ,f i l t e r se m a i l sw h i c ha r e c a t e g o r i z e da ss p a r e sa n dt h el e g a l t h i ss y s t e mc a l lb eu s e da st h ep l u g - i nf o rp r o m a i l a n dc a n p r o c e s st h en e w l y - r e c e i v e de m a i l sf r o mc l i e n t - e n do fe m a i ls y s t e m m yr e s p o n s i b i l i t i e sf o rt h ed e v e l o p m e n to ft h es y s t e ma r ea sf o l l o w s : ( 1 ) b ef a m i l i a rw i t ht h ef o r m a to fe m a i l ,i n c l u d i n gt h ef o r m a td e f i n e db y r f c 8 2 2a n dt h em i m ef o r m a tw h i c hs u p p o r t sb i n a r yd a t a ( 2 ) b ef a m i l i a rw i t ht h ec u r r e n ts t a t u so ft h ef i l t e r i n gt e c h n o l o g i e sf o rj u n km a i l s ( 3 ) u n d e r s t a n dt h eb a s i cp r i n c i p l e so fb a y ea l g o r i t h ma p p l i e di nf i l t e r i n gj u n k 北京邮电大学软件学院工学硕士论文 m a i l s ( 4 ) d e s i g na n di m p l e m e n ts e v e r a lm o d u l e so ft h es y s t e mi n c l u d i n gg a t h e r i n g m o d u l e ,c o m m a n da n a l y z i n gm o d u l e , m a i lp r o c e s s i n gm o d u l e , s o r t i n gm o d u l ea n d t r a i n i n gm o d u l e a n de v e n t u a l l y , i ti sp r o v e nt ob eac o m p a r a b l ye x c e l l e n tf i l t e r i n gs y s t e m t h r o u g he x p e r i m e n t s k e y w o r d s :e - m a i l ,t e x tc a t e g o r i z a t i o n , s p a m , b a y e s i a na l g o r i t h m 2 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:日期:型要。主:! 墨 关于论文使用授权的说明 本人完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在 校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校 可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段 保存、汇编学位论文。 本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名:宣垄塑 日期2 乞:至:! 兰 北京邮电大学软件学院工学硕士论文 第一章绪论 随着国际互联网i n t e m e t 的发展和普及,电子邮件以其方便、快捷、低成本 的独特魅力成为人们日常生活中不可缺少的通信手段之一,同时电子邮件也是互 联网三大基础应用之一。它在给人们带来极大便利的同时,也日益显示出其负面 影响,那就是我们每天收到的邮件中有很大一部分是那种“不请自来的邮件, 它们或者是推销广告,或者是一些有害的不良信息,甚至还有病毒。垃圾邮件问 题已成为全球普遍关注的一个问题。 1 1 研究背景 1 9 7 1 年一个叫做r a yt o m l i n s o n 的工程师通过a r p a n e t 中的两台p d p 1 0 节点给自己发送了一条信息。这是第一封电子邮件,标志着一个新的电子通讯时 代的开始。随后因特网的不断普及,电子邮件得到了越来越广泛的应用,已经成 为网络交流沟通的重要途径。根据2 0 0 8 年7 月的中国互联网络发展状况统计 报告显示,截至2 0 0 8 年6 月底,中国网民数量达到2 5 3 亿,网民规模跃居世 界第一位,电子邮件的使用率为6 2 6 ,在网络应用中排名高居第六位。2 0 0 8 年上半年用户增长量较高,半年增长了3 9 7 3 万人。某些网络应用的发展,如电 子商务等,对电子邮件的使用有着极大的促进作用。另外,电子邮件的使用率也 与网民的学历密切相关。网民学历越高,电子邮件使用率越高。大学本科及以上 学历的网民中,电子邮件使用率超过8 7 。而在美国电子邮件是第一大互联网应 用,使用率达到9 2 ,韩国网民的电子邮件使用率为8 0 8 。而根据由中国互联 网协会组织的中国反垃圾邮件状况调查报告显示,在目前中国用户使用的电子邮 箱账号中,免费邮箱账号所占整体邮箱账号的9 4 1 4 ,没有使用过电子邮箱的 用户仅占0 6 8 ,中国网民平均每周收到的垃圾邮件比例为5 6 7 0 ,与2 0 0 7 年 第四季度相比有较大的上升,而垃圾邮件的数量高达1 7 6 4 封,与2 0 0 7 年第三、 四季度相比数据出现了持续增多的迹象;在针对普通用户是否收到垃圾邮件的调 查中,有高达9 4 8 3 的用户都收到过垃圾邮件,只有5 1 7 的用户表示没有收 到过垃圾邮件,而在垃圾邮件正文的形式上文本格式占了8 0 8 6 。 另外在内容上,现在普通用户收到的垃圾邮件的内容主要包括以下几种类 型:普通用户收到的垃圾邮件的内容主要有网上购物、欺骗诈骗、教育培训,其 所占比例分别为:1 6 1 5 、1 1 0 7 、1 0 6 4 。其它依次为:网上赚钱、情趣用 品、代开发票、政治敏感信息等。 但是目前没有关于垃圾邮件的统一定义,不同的公司组织和机构对垃圾邮件 北京邮电大学软件学院工学硕士论文 有着不同的定义,但是有几个基本不变的核心要素包括:未经用户许可发送;同 时发送给大量用户,影响正常网络通信;含有恶意的、虚假的、伪装的邮件发信 人等信息。如2 0 0 0 年8 月,中国电信制订了适用于中国电信口网络所有用户包 括拨号用户、专线用户及其它有业务流经中国电信p 网的用户的垃圾邮件处理 办法。中国电信将垃圾邮件的定义为:“向未主动请求的用户发送的电子邮件广 告、刊物或其他资料;没有明确的退信方法、发信人、回信地址等的邮件;利用 中国电信的网络从事违反其他i s p 的安全策略或服务条款的行为;其它预计会导 致投诉的邮件。一2 0 0 2 年1 1 月1 日,由中国互联网协会、2 6 3 网络集团和新浪网 共同发起,中国互联网协会反垃圾邮件协调小组即日在北京正式成立,国内2 0 多家邮件服务商首批参加了反垃圾邮件协调小组。媒体称此举是向垃圾邮件打响 了第一枪,但枪声响过之后,是否能将目标给予严重打击,目前还看不出任何明 显效果。中国互联网协会在 中国互联网协会反垃圾邮件报告中是这样定义垃 圾邮件的。 本规范所称垃圾邮件,是包括下述属性的电子邮件: ( 1 ) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的 宣传品等宣传性的电子邮件。 ( 2 ) 收件人无法拒收的电子邮件。 ( 3 ) 隐藏发件人身份、地址、标题等信息的电子邮件。 ( 4 ) 含有虚假的信息源、发件人、路由等信息的电子邮件。 ( 5 ) 含有病毒、恶意代码、色情、反动等不良信息或有害信息的邮件。 1 2 垃圾邮件的危害 垃圾邮件的危害性具体体现在以下几个方面: ( 1 ) 收发送垃圾邮件用了大量网络带宽,使得邮件服务器的c p u 时间大量 消耗在接收垃圾邮件方面,甚至还有可能造成邮件服务器拥塞,因此大大降低了 整个网络的运行效率。同时由于垃圾邮件的大量传播,人们对其所产生的信息麻 木,也影响了正常网络营销的进行,对网络空间的发展有很大的危害性。 ( 2 ) 垃圾信息导致电子邮件使用率大降。最新统计显示,超过6 0 的人由于 垃圾信息的泛滥而减少了电子邮件的使用。据估计,因特网上每天的垃圾信息数 量达3 0 0 亿。用户担心日益增长的垃圾信息可能会使他们对接收电子邮件失去信 心。另外统计显示,部分电子邮件用户也是垃圾邮件的帮凶,有7 的用户曾通 过电子邮件订购产品或者服务;虽然这些用户中的7 0 也认为垃圾邮件令人讨 厌,但这一数字已经对垃圾邮件制造者极具诱惑力。 ( 3 ) 滥发的垃圾邮件侵犯了收件人的隐私权和占用收件人有限的邮箱空间, 2 北京邮电大学软件学院工学硕士论文 同时在删除垃圾邮件方面消耗了收件人的宝贵时间、精力和金钱。而且还有些垃 圾邮件盗用他人的电子邮件地址作为发信地址,这样就严重损害了他人的信誉。 ( 4 ) 垃圾邮件还能成为病毒、木马程序的载体,影响计算机的正常使用。通 过在电子邮件中携带病毒程序,或者在信件中内嵌恶意攻击代码都会对计算机产 生不良影响,轻则导致系统无法正常运行,重则计算机被别人控制。更有甚者还 会利用垃圾邮件来扩散蠕虫病毒、木马程序,让更多的人成为受害者。 ( 5 ) 垃圾邮件能被黑客利用发动网络攻击。几年前,黑客曾经先入侵并且控 制了一些高带宽的网站,然后利用这些服务器的高带宽能力在短时间内向雅虎等 网站发送了数以亿万计的垃圾邮件,瞬间造成了雅虎等被攻击网站的网络堵塞, 最终瘫痪,无法提供正常的服务。 ( 6 ) 垃圾邮件严重影响公司的服务形象。如果别人频繁的利用一个邮件地址 给你发送大量的垃圾邮件,那么你肯定不会对提供这个邮件服务的公司有好感 吧。同样,现在频繁转发垃圾邮件的邮件服务器会被列入垃圾邮件数据库,从而 导致该主机不能访问许多网络,这样就损坏了公司的形象,而且还会影响其他人 邮件的正常发送。 ( 7 ) 垃圾邮件宣传的多半是各种广告以及非法言论,轻信这些虚假广告会给 我们带来经济损失,而且色情、反动等内容的垃圾邮件已经对现实社会造成了极 大的危害。 而在国际上众多权威调查机构和公司的调查情况表明全球互联网上的垃圾 邮件数量已经远远超过了正常邮件的数量而且仍在增加中,联合国贸易与发展会 议援引英国权威的邮件安全公司m e s s a g el a b s 的数据称现在垃圾邮件给全球企 业一年带来的损失约为2 0 5 亿美元。而赛门铁克的报告称,垃圾邮件占2 0 0 7 年 1 0 月份全部电子邮件数量的7 0 5 ,而中国的垃圾邮件的比例为6 8 。垃圾邮 件不仅耗费了大量的网络资源和用户时间,而且给网络安全带来了隐患。而且现 在的垃圾邮件发送者变得更加狡猾,采用静态反垃圾邮件技术很难防范。垃圾邮 件发送者只要简单的研究一下现在采用了哪些静态反垃圾邮件,然后相应的改变 一下邮件的内容或发送方式,就可以逃避检查了。 1 3 论文的主要工作 本文通过对邮件服务器、电子邮件的内容格式、垃圾邮件过滤技术的现状以 及基于贝叶斯算法过滤垃圾邮件的原理进行分析和讨论,设计和实现了一个基于 贝叶斯算法的垃圾邮件过滤系统,具体说本论文的主要研究内容和贡献包括: 垃圾邮件过滤系统由几个部分组成:邮件采集模块,数据库模块,命令解析 模块,邮件处理模块,训练模块,分类模块和更新模块。其中最主要的三部分是 北京邮电大学软件学院工学硕士论文 邮件处理模块、训练模块和分类模块,邮件处理模块主要是将邮件头和邮件体分 割开来,同时去除其中的h t m l 标记和一些特殊的符号。训练模块主要负责训 练,分类模块主要是判断邮件是属于垃圾邮件还是合法邮件,所谓训练就是在已 分类好的邮件中提取邮件的特征计算出现该特征时邮件为垃圾邮件的概率。 本文作者在课题中做的一些工作: ( 1 ) 熟悉了电子邮件内容的格式叫f c 8 2 2 定义的格式和支持二进制数据 的m i m e 格式。 ( 2 ) 熟悉了垃圾邮件的过滤技术的现状。 ( 3 ) 了解了应用贝叶斯算法过滤垃圾邮件的基本原理。 ( 4 ) 设计实现了系统的邮件采集模块,命令解析模块,邮件处理模块,分类 模块的部分和训练模块的部分。 该系统是我和同学合作的一个项目,由于本人在使用电子邮箱的过程中发现 了很多的问题,比如y a h o o 邮箱经常把合法邮件当成垃圾邮件。这让我产生了做 一个能过滤垃圾邮件的系统的想法,该系统主要专注于对文本的分析。 1 4 论文结构 本文内容安排如下: 第一章绪论,介绍了反垃圾邮件课题的研究背景,分析了反垃圾邮件的必 要性,给出了垃圾邮件的定义,还介绍了本课题的课题任务。 第二章电子邮件的结构,主要介绍了电子邮件的体系结构,介绍了和电子 邮件相关的一些协议,如s m t p ,p o p 3 ,i m a p ,另外还介绍了标准电子邮件 的格式和m i m e 邮件的格式。 第三章分析垃圾邮件过滤技术研究现状,主要介绍了国内外流行的一些垃 圾邮件过滤的技术,同时分析他们的优缺点,最后给出了总结。对于商用的垃圾 邮件过滤器,我们不能只用其中的一种技术,而应该是多种技术联合使用。 第四章基于贝叶斯算法的垃圾邮件过滤器的分析与设计,详细解释了贝叶 斯垃圾邮件过滤的原理,过滤的过程,给出了系统的分析和设计。 第五章基于贝叶斯算法的垃圾邮件过滤器的实现,详细的介绍了基于贝叶 斯算法的垃圾邮件过滤器的主要模块的实现过程。 第六章总结和建议,主要是对论文进行总结,提出对未来工作的展望,还 有给出了建议如何防止垃圾邮件,对于垃圾邮件的防治我们不能光靠技术手段, 关键是我们自己要增强这个意识。 4 北京邮电大学软件学院工学硕士论文 第二章电子邮件的结构 电子邮件又称电子信箱、电子邮政,它是一种提供信息交换的通信方式。是 i n t e m e t 应用最广的服务,通过互联网的电子邮件系统,用户可以非常快速的把 信息发送到指定的目的地,电子邮件的内容可以是文字、图象、声音等各种信息 载体。同时,通过电子邮件系统用户可以得到大量免费的新闻、专题信息,并实 现轻松的信息搜集。这是任何传统的方式也无法相比的。正是由于电子邮件使用 简单、投递迅速、收费低廉,易于保存、全球畅通无阻,使得电子邮件被广泛地 应用,它使人们的交流方式得到了极大的改变。另外,电子邮件还支持一对多的 邮件传递,即同一邮件可以一次发送给许多人。最重要的是,电子邮件系统是整 个网间网以至所有其他网络系统中直接面向人与人之间信息交流的系统,它的数 据发送方和接收方都是人,为人与人之间的通信提供了一种便利。 电子邮件有自身的结构特点。电子邮件的协议和内容格式也是由r f c 的几 个文档规定的。r f c 8 21 规定了s m t p 协议( s i m p l em a i lt r a n s f e rp r o t o c o l ,简单邮 件传输协议_ ) ,定义了发送邮件的机制。r p c i 7 2 5 规定了p o p 3 协议( p o s to 伍 p r o t o c o l3 ,邮局协议版本3 ) ,定义了从p o p 3 服务器获取邮件的机制。r f c 8 2 2 定义了邮件格式。随着邮件系统的广泛使用,邮件系统不仅需要传输各种字符集 的文本内容,而且还需要传送各种非文本文件,例如图像文件、w o r d 文件、p d f 文件、z i p 文件等等。根据这个需求,人们又定义了m i m e 标准,作为r f c 8 2 2 的补充。m i m e 协议( m u l t i p u r p o s ei n t e r n e tm a i le x t e n s i o n ,多用途互联网邮件扩 展协议) e hr f c 2 0 4 5 和r f c 2 0 4 6 这两个文档定义。目前几乎所有的邮件服务系 统都支持m i m e 标准。 2 1 邮件传输方式 在介绍邮件传输方式之前,先对几个概念进行解释: ( 1 ) m u a 是m a i lu s e ra g e n t 的简写,它是用户平常所使用的信件阅读与撰 写的程序,它负责接收用户的命令,为用户提供一个方便的图形化的界面来收发 邮件。在邮件系统中用户只与m u a 打交道,m u a 将邮件系统的复杂性与用户 隔离开,它负责将用户的邮件发送至m t a 或者通过p o p 3 、i m a p 协议将邮件从 m t a 取到本地,常见的m u a 有f o x m a i l ,o u t l o o ke x p r e s s 等邮件客户端程序。 极大的方便用户使用电子邮件系统来收发邮件。 ( 2 ) m t a 是m a i lt r a n s f e ra g e n t 的简写,它是一个专门的程序,其作用类似 于邮局。在l i n u x u n i x 系统上,最著名的m t a 有s e n d a m i l 、q m a i l 等程序。当用 北京邮电大学软件学院工学硕士论文 户从m u a 中发送一份邮件时,该邮件会被送到m t a ,然后m t a 再把这份邮 件发送给一系列中继m t a ,直到它到达最终发送目标为止。 ( 3 ) m d a 是m a i ld e l i v e ra g e n t 的简写,它是将邮件传送到邮箱的程序。在 m t a 收到一封信件后,会先判断该信件的目的地是不是自己。如果不是则会继 续帮忙转发,如果是自己,则m t a 会把信件交给m d a 来处理,由m d a 真正 的把信件送到主机上收件人的信箱中。因此m t a 自己并不完成最终的邮件发送, 它要调用m d a 来完成最后的投递任务。 图2 - 1 电子邮件传输过程 图2 1 是电子邮件传输过程的示意图。首先,邮件的发送者利用m u a 写好 邮件,交给发送m t a 。然后,发送m t a 再通过中继m t a 将邮件传送到接收 m t a 。中继m t a 可以没有,也可以有多个。m u a 与m t a 、m t a 与m t a 之间 的通信协议是s m t p 。接着,接收m t a 调用m d a 将邮件递交给收信者的邮箱。 最后,邮件接收者可以通过p o p 3 、i m a p 和w e b m a i l 中的一种方式与邮箱交互, 来读取或者下载邮件。 2 2 邮件传输协议 2 2 1s l i t p 协议 s m t p 协议是s i m p l em a i lt r a n s f e rp r o t o c o l 的简写,它是一组用于由源地址 到目的地址传送邮件的规则,由它来控制邮件的中转方式。s m t p 协议属于 t c p i p 协议族,它帮助每台计算机在发送或中转信件时找到下一个目的地。 通过s m t p 协议所指定的服务器,我们就可以把e m a i l 寄到收信人的服务 器上了,整个过程只要几分钟。s m t p 服务器则是遵循s m t p 协议的发送邮 件服务器,用来发送或中转你发出的电子邮件。 s m t p 是一种提供可靠且有效电子邮件传输的协议。s m t p 是建模在f t p 6 北京邮电大学软件学院工学硕士论文 文件传输服务上的一种邮件服务,主要用于传输系统之间的邮件信息并提供来信 有关的通知。s m t p 独立于特定的传输子系统,且只需要可靠有序的数据流信道 支持。s m t p 重要特性之一是其能跨越网络传输邮件,即“s m t p 邮件中继。 使用s m t p ,可实现相同网络上的机器之间的邮件传输,也可通过中继器或网关 实现不同网络机器之间的邮件传输。 在这种方式下,邮件的发送可能经过从发送端到接收端路径上的大量中 间中继器或网关主机。域名服务系统( d n s ) 的邮件交换服务器可以用来识别 出传输邮件的下一跳i p 地址。s m t p 在传输文件过程中使用2 5 号端口。常 用的s m t p 命令如表2 1 所示: 表2 1s m t p 命令 命令 描述 d j 钢a 开始信息写作 e x p n 在指定邮件表中返回名称 h e l o 返回邮件服务器身份 h e l p 返回指定命令中的信息 m a ,n 的m h o s 伊 在主机上初始化一个邮件会话 n o o p 除服务器响应确认以外,没有引起任何反应 q u i t 终止邮件会话 r c i 呵t o 1 】s 髓 指明谁收到邮件 r s e t 重设邮件连接 s a m lf r o m 发送邮件到用户终端和邮箱 s e n dm m 发送邮件到用户终端 s o m l 黜m 发送邮件到用户终端或邮箱 n 瓜n 接收端和发送端交换角色 v r f y 校验用户身份 s m t p 工作模式有两种:发送s m t p 和接收s m t p 。具体工作方式为:发送 s m t p 在接到用户的邮件请求后,判断此邮件是否为本地邮件,若是直接投送到 用户的邮箱,否则向d n s 查询远端邮件服务器的m a i le x c h a n g e 纪录,并建立 与远端接收s m t p 之间的一个双向传送通道,此后s m t p 命令由发送s m t p 发 出,由接收s m t p 接收,而应答则反向传送。一旦传送通道建立,s m t p 发送者 发送m a i l 命令指明邮件发送者。如果s m t p 接收者可以接收邮件则返回o k 应答。s m t p 发送者再发出r c p t 命令确认邮件是否接收到。如果s m t p 接收者 接收,则返回o k 应答;如果不能接收,则发出拒绝接收应答( 但不中止整个邮 件操作) ,双方将如此重复多次,直到全部邮件发送完成为止。当接收者收到全 部邮件后,如果接收者成功处理了邮件,则返回o k 应答。发送者收到o k 应答 7 北京邮电大学软件学院工学硕士论文 之后,断开连接。这样一次s m t p 传输的全过程完成。具体的过程如图2 - 2 所示: 2 2 2p o p 8 协议 街 * 厶厶l j觫搠奈套l i 承蜷丽 犍理胃9 智 | 处理回复发送回复 , 发送命令 处理命令 y 处理回复发送回复 发送s m t p 图2 - 2s f r p 会话过程 p o p 3 协议是p o s to f f i c ep r o t o c o l3 的简写,p o p 3 规定怎样将个人计算机连 接到互联网的邮件服务器并下载电子邮件的电子协议。它是互联网电子邮件的第 一个离线协议标准,p o p 3 提供了快捷的邮件下载服务,用户可以利用p o p 3 把 邮箱里的邮件下载到本地主机即自己的计算机上进行离线阅读。一旦邮件进入本 地主机的本地硬盘,就可以选择把邮件从服务器上删除,然后脱离与互联网的连 接并选择在任何时候阅读己经下载的邮件。而p o p 3 服务器是遵循p o p 3 协议的 接收邮件服务器,用来接收电子邮件的,使用的端口是1 1 0 。 p o p 3 仍采用c l i e n t e s r v e r 工作模式。当客户端需要服务时,客户端的软件如: o u t l o o ke x p r e s s 、f o x m a i l 将与p o p 3 服务器建立t c p 连接,此后要经过p o p 3 协议的三种工作状态:首先是认证过程,确认客户端提供的用户名和密码;在认证 通过后便转入处理状态,在此状态下用户可收取自己的邮件或对邮件进行删除, 在完成响应的操作后客户端便发出q u i t 命令;此后便进入更新状态,将有可删 除标记的邮件从服务器端删除掉。到此为止整个p o p 3 过程完成。 图2 - 3p 0 p 3 状态转换图 北京邮电大学软件学院工学硕士论文 另外p o p 3 有其天生的缺陷,即当用户接收电子邮件时,所有的信件都从服 务器上清除并下载到客户机。在整个收信过程中,用户无法知道邮件的具体信息, 只有照单全收入硬盘后,才能慢慢测览和删除。这使用户几乎没有对邮件接收的 控制决定权。一旦碰上邮箱被轰炸,或有比较大的邮件,用户不能通过分析邮件 的内容及发信人地址来决定是否下载或删除,从而造成系统资源的浪费。 2 2 3i 姒p 协议 i m a p 协议是i n t e r n e tm e s s a g ea c c e s sp r o t o c o l 的简写,它是与p o p 3 相类似 的另一种协议,是美国斯坦福大学在1 9 8 6 年开始研发的多重邮箱电子邮件系统。 它能够从邮件服务器上获取有关e m a i l 的信息或直接收取邮件,具有高性能和 可扩展性的优点。i m a p 为很多客户端电子邮件软件所采用,如o u t l o o ke x p r e s s 、 n e t s c a p em e s s e n g e r 等,支持i m a p 的服务器端的软件也越来越多,如c r i t i c a l p a t h 、 e u d o m 、i p l a n e t 、s e n d m a i l 等。另外i m a p 提供了三种操作模式,分别是: ( 1 ) 在线方式:邮件保留在m a i l 服务器端,客户端可以对其进行管理。其使 用方式与w e b m a i l 相类似。 ( 2 ) 离线方式:邮件保留在m a i l 客户端,客户端可以对其进行管理。这与 p o p 3 协议一样。 ( 3 ) 分离方式:邮件的一部分在m a i l 服务器端,一部分在客户端。这与一些 成熟的组件包应用( 如l o t u s n o t e s d o m i n o ) 的方式类似。 在在线方式下,i m a p 允许用户像访问和操纵本地信息一样来访问和操纵邮 件服务器上的信息。i m a p 软件支持邮件在本地文件夹间和服务器文件夹间地随 意拖动,以把本地硬盘上的文件存放到服务器上,或将服务器上的文件取回本地, 所有的功能仅需要一次鼠标拖放的操作来实现。在用户端可对服务器上的邮箱建 立任意层次结构的文件夹,并可灵活地在文件夹间移动邮件,标出那些读过或回 复过的邮件,删除对你来说无用的文件。 i m a p 提供的摘要浏览功能可以让你在阅读完所有的邮件到达时间、主题、 发件人、大小等信息,同时还可以享受选择性下载附件的服务。比如一封邮件里 含有3 个附件,而其中只有1 个附件是您需要的,则可以选择只下载这1 个附件。 你可以充分了解后才做出是否下载,是全部下载还是仅下载一部分的决定,用户 不会因下载垃圾信息而占用宝贵的空间和浪费网费。 i m a p 还提供基于服务器的邮件处理以及共享邮件信箱等功能。邮件( 包括 已下载邮件的副本) 在手动删除前保留在服务器中,这有助于邮件档案的生成和 共享。用户可在任何客户机上都可查看服务器上的邮件。这让那些漫游用户感到 很方便。 9 北京邮电大学软件学院工学硕士论文 同时i m a p 也像p o p 3 一样,允许用户从服务器上下载信息到他们的电脑上, 这意味着他们仍然可以在离线方式下阅读邮件。 在分离状态下,本地系统上的邮件状态和服务器上的邮件状态,可能和以后 再连接时不一样。此时,i m a p 的同步机制解决了这个问题。i m a p 邮件的客户 端软件能够记录用户在本地的操作,当他们连上网络后会把这些操作传送给服务 器,服务器也会告诉客户端软件,当用户离线的时候服务器端发生的事件,比如 有新邮件到达等,以保持服务器和客户端的同步。 在i m a p 下可定义供其他拥有特别访问权利的用户使用的共享文件夹,而使 用p o p 3 不能实现共享邮件信箱和共享邮件,仅能通过抄送给或用手工传送邮件。 共享信箱将以使用i n t e r n e t 邮件为主的工作组的工作变得更为容易。 另外i m a p 还提供许多特别的功能比如建立子目录和通过i m a p 访问 u s e n e t 。在系统管理员方面,i m a p 也提供了一整套可用的特性。 2 2 4w e b l l a ii 方式 w 曲m a i l 是指利用浏览器通过w e b 方式来收发电子邮件的服务或技术,不 需借助邮件客户端,可以说只要能上网就能使用w e b m a i l ,极大地方便了用户对 邮件地收发。对于不能熟练使用邮件客户端,或者在网吧不便使用邮件客户端的 用户来说,w 曲m a i l 更是必不可少的选择。e m a i l 能够成为当今i n t e r n e t 上应用 最广泛的网络服务,w e b m a i l 可谓功不可没。通俗地讲,w e b m a i l 就是能登陆服 务商的站点收发邮件。我们上网使用这些邮箱发送邮件,就是在使用w 曲m a i l 。 w e b m a i l 界面直观、友好,免除了用户用一般的电子邮件客户软件收发电子 邮件时需对这些客户软件进行配置所带来的不便,也是当今许多免费邮箱供应商 对其用户提供的收发电子邮件的方式。w e b m a i l 只是简单地读取用户邮箱服务器 上的邮件,而不会将这些邮件下载到用户主机上除非用户使用w 曲m a i l 系统中 的删除邮件功能,否则邮件不会从用户的邮箱主机中消失。而且用户可以把他的 邮件都留在服务器上,并且通过w 曲m a i l 服务建立多个文件夹,然后分类归档 地管理自己的邮件。这样,w e b m a i l 的用户就可以不分时间地点,只要有一个浏 览器就可以马上从服务器上获得自己的邮件,不管是刚收到的还是己经存放了很 久,也不必担心客户端的p c 重新安装了操作系统或换了一台电脑以后邮件全部 丢失了的问题。其优点:用户可以在任何有互联网络和有网页浏览器的地方使用 它的电子邮件;用户可以不必下载;很多公司提供匿名服务。 当然w 曲m a i l 也有很多的缺点: ( 1 ) 用户必须在网上才能使用w 曲m a i l 查看邮件。 ( 2 ) 一般w e b m a i l 的存储量有限或者用户必须接受一些广告邮件。 l o 北京邮电大学软件学院工学硕士论文 ( 3 ) 假如网络速度变慢的话,w e b m a i l 很难使用。 ( 4 ) 一般的电子邮件都比较的短,但是使用w e b m a i l 会在原有的邮件周围还 要加上一些h t m l 的指令和结构,使得每个邮件都变得非常大。 2 3 邮件内容格式 电子邮件内容的格式是由r f c 8 2 2 协议定义的。整个邮件分为基本的两部 分:信头( h e a d e r ) 和信体( b o d y ) 。信头有一系列的字段组成。信体就是你发送给 收件者的数据包括文本、其它文件。一个空字符串即回车换行符将信体和信头分 开,换句话说一个空字符串行表示信头的结束。以下是标准的r f c 8 2 2 定义的邮 件格式: r e t u r n - p a t h : d e l i v e r e d :t e s t t e s t c o m r e c e i v e d :向m a i l2 1 9 2i n v o k e d f r o mn e t w o r k ) ;2o c t2 0 0 80 1 :17 :3 4 - 0 0 0 0 r e c e i v e d :f r o mu n k o w n ( h e l oh a w k ) ( 1 9 2 1 6 8 0 0b ya n a l y s y s c o m c bw i t h s m t p :2o c t2 0 0 80 1 :1 7 :3 4 - 0 0 0 0 s u b j e c t :j u s t at e s t ! 乃妇at e s t m a i l ! 信头部分的字段可分为两类。一类是由你的电子邮件程序产生的,另一类是 邮件通过s m t p 服务器时被s m t p 服务器加上的。在所有被s m t p 服务器加上 的字段中,对我们而言最重要的是m e s s a g e - i d 字段。这个字段是一个在s m t p 服务器上唯一的d 号。你可用这个号码作为邮件的编号。 在信头中包含了很多头字段,表2 2 是一些经常出现在信头的字段: 表2 - 2 信头字段 信头字段 字段说明 r e t u l m p a t h 标识连接到目的服务器所采用的路由。一般 只是一个发送者地址,表明邮件直接传送给 目的服务器。 d e l i v e r e d 1 0 说明邮件被传送到那个邮箱 r e c e i v e d 说明该邮件何时从何主机被何主机收到,使 用的是什么协议,要发往何主机。每一个邮 件服务器都向每一条收到的消息添加一个自 己新的r e c e i v e d 字段。 s u b j e c t 邮件主题 r e p l y - t o 回信应送达的电子邮件地址 d a t e 时间戳 北京邮电大学软件学院工学硕士论文 f r o m 原始邮件作者 t d 消息的主要接收者 c c抄送地址 b c c 暗送地址 m e s s a g e - i d 消息唯一的识别d c o m m e n t s 备注信息 在所有的信头之后有一个空行,将信头和信体分开。在信体的末尾,一个只 有一个“一的行标识邮件的结束。但是在一般的m u a 中,并不会显示这个“一。 使用s m t p 中的d a t a 指令发送数据时,就是用以只有一个。 的行来标识邮 件的结束。 在r f c8 2 2 中定义的邮件消息由7 位a s c i i 文本构成,而没有定义如何传 送其它类型的数据如:我们经常使用的中文、图片、视频等二迸制数据等。那么 要怎样才能通过只能传送a s c i i 字符的s m t p 来传送二进制文件呢? 使用m i m e 协议。 2 4m l m e 协议 m i m e 协议是m u l t i - p u r p o s ei n t e r n e tm a i le x t e n s i o n 的简写,在r f c 2 0 4 5 和 r f c 2 0 4 6 中定义了m i m e 格式。m i m e 使得二进制数据能够直接合并到一个标 准的r f c 8 2 2 消息中,为此增加了五种新的信头字段。在m i m e 协议中,邮件 头和邮件体之间有空行来分隔,而邮件头内部不能有任何空行。域的首行必须“顶 头 写,即左边不能有空白字符( 空格和制表符) ;续行则必须以空白字符打头, 且第一个空白字符不是信息本身固有的,解码时要过滤掉。 我们先看一个m i m e 消息的例子: d a t e s a t ,0 7d e c2 0 0 71 6 :5 0 :2 1 + 0 8 0 0 f r o m :t e s t m l m e v e r s i o n - 1 0 t o :t e s t l t e s t c o m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 旅行社旅游产品策划与管理方案
- 泥面塑工岗前进度管理考核试卷含答案
- 兴趣点地理信息采集员安全文明竞赛考核试卷含答案
- 有色挤压工岗前安全技能考核试卷含答案
- 自行车装配工操作评估考核试卷含答案
- 轻烃装置操作工复试评优考核试卷含答案
- 脱酚工操作管理水平考核试卷含答案
- 储能电站模组测试方案
- 硅树脂生产工安全应急考核试卷含答案
- 产品上市推广计划商洽函5篇范本
- 暖通可行性研究报告
- (国网)社会单位一般作业人-网络信息安全准入考试复习题及答案
- 员工异地办公管理制度
- sm指数测试试题及答案
- 医疗机构内部管理问题及整改措施
- 广东省中考英语听说信息提问句子
- 《铁路技术管理规程》(普速铁路部分)
- 房颤患者围术期麻醉管理
- 2024年新高考生物湖南卷试题真题及答案详解(精校打印版)
- QCT 242-2024《汽车车轮静不平衡量要求及检测方法》
- 加强业财融合 提升财务管理水平
评论
0/150
提交评论