(计算机应用技术专业论文)基于cbdf过滤高可用反垃圾邮件系统的设计与实现.pdf_第1页
(计算机应用技术专业论文)基于cbdf过滤高可用反垃圾邮件系统的设计与实现.pdf_第2页
(计算机应用技术专业论文)基于cbdf过滤高可用反垃圾邮件系统的设计与实现.pdf_第3页
(计算机应用技术专业论文)基于cbdf过滤高可用反垃圾邮件系统的设计与实现.pdf_第4页
(计算机应用技术专业论文)基于cbdf过滤高可用反垃圾邮件系统的设计与实现.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)基于cbdf过滤高可用反垃圾邮件系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着电子邮件的不断发展,垃圾邮件问题也日益突出。如果垃圾邮件问题得 不到妥善解决,电子邮件的进一步发展势必会受到影响。 本论文以科技攻关项目( 项目编号:0 3 g g 一0 0 6 0 2 1 ) 为研究基础,主要介绍了 过滤技术和高可用技术在邮件系统的应用。首先分析了当前国内外的垃圾邮件形 势和电子邮件的工作原理。然后,在对p o s t f i x 邮件传输服务的结构体系研究的 基础上,设计了一种基于s m t p 代理连接的外部过滤系统,并详细阐明了该系统 的工作原理和主要功能模块的功能。外部过滤器使用c b d f 算法来实现文本内容 的过滤,通过s m t p 代理与p o s t f i x 通讯,使整个系统能够相互协作协同完成垃 圾邮件过滤的邮件传输任务。 , 本文还详细介绍和分析了z 文本检验算法和c b d f 算法,c b d f 算法能直 接得出两个文本相似度的分数,根据相似度分数就能推断此邮件是“垃圾邮件” 还是“合法邮件”。因此,我采用c b d f 算法来实现垃圾邮件的分类识别,并描 述了如何应用于此邮件系统中。 此外,邮件服务的中断和暂时停机会导致关键性数据丢失和灾难性的后果。 并且,要求它足以处理几十万个用户的请求而不能宕机,很少有措施能达到这个 程度。从实际方面的因素考虑,系统需要用“廉价”的p c 硬件来建造相对简单、 容易升级、容错的邮件系统。因此,文章还详细论述了高可用集群的设计,着重 介绍了高可用集群技术在邮件服务代理中的应用,实现了主机出现问题从机自动 接管的功能。 最后,对邮件系统的主要功能,设计相应的测试方案。 , l y e 键词】p o s t f i x ,垃圾邮件,z 文本检验,c b d f ,高可用 a b s t r a c t w i t ht h ec o n t i n u o u s l yd e v e l o p m e n to fe - m a i l ,t h ep r o b l e mo fs p a mi s a l s o i n c r e a s i n g l yo u t s t a n d i n gd a yb yd a y i f t h ep r o b l e mo f s p a mc a l ln o tg e ta p p r o p r i a t e r e s o l v e d ,t h ef n r t h e rd e v e l o p m e n t o fe - m a i lc e r t a i n l yw i l lb ei n f l u e n c e d b a s i n go n t h es c i e n t i f i ca n dt e c h n o l o g i c a lp r o j e c t ( s e r i a ln u m b e ro ft h ep r o j e c t : 0 3 g g 。0 0 6 0 2 1 ) f o rt h ef o u n d a t i o n o fr e s e a r c h ,t h i st h e s i sm a i n l yi n t r o d u c e st h e a p p l i c a t i o n o f f i l t e rt e c h n o l o g ya n d h i 曲a v a i l a b i l i t yt e c h n o l o g y i nt h em a i ls y s t e m a t f i r s t ,i ta n a l y z e st h ep r e s e n td o m e s t i ca n di n t e r n a t i o n a la n s p a ms i t u a t i o n a n dt h e w o r k i n gt h e o r yo fe m a i l t h e n ,o nt h eb a s i so f t h er e s e a r c ho ft h i sa r c h i t e c t u r eo f p o s t f i xm t a ,a s y s t e m a t i cs t r u c t u r eu s i n ge x t e r n a lf i l t e r sb y s m t p p r o x yi sd e s i g n e d , a n dt h ew o r k i n g p r i n c i p l eo f t h i ss y s t e m a n df u n c t i o no f m a i n f u n c t i o n a l i t ym o d u l e s i s e x p l a i n e di nd e t a i l e x t e r n a l f i l t e rc a r r yo u tt e x tc o n t e n tf i l t e ra c c o r d i n gt oc b d f a l g o r i t h ma n d c o m m u n i c a t ew i t hp o s t f i xb yas m t p p r o x y w h i c hm a k e sw h o l es y s t e m i m p l e m e n t m a i l t r a n s p o r t o f s p a m f i l t e ri nc o o r d i n a t i o nt oc o o p e r a t ee a c ho t h e r t h i s p a p e r a l s oi n t r o d u c e sa n d a n a l y z ec h i s q u a r e d o c u m e n tc l a s s i f i c a t i o n a l g o r i t h ma n dc b d fa l g o r i t h mi nd e t a i l ,c b d fa l g o r i t h mc a nd i r e c t l yr e t u mt h e s i m i l a r i t ys c o r e so f e a c ho ft h ec o r p u sp a i r s ,w h e n c ei tm a yb ed e d u c e dw h e t h e rt h e e m a l li st ob ec l a s s i f i e da s s p a m o r l e g i t i m a t e a c c o r d i n gt ot h i ss i m i l a r i t ys c o r e s t h e r e f o r e ,c b d fa l g o r i t h mw h i c h c a r r i e so u tt h ec l a s s i f i c a t i o na n di d e n t i f i c a t i o no f s p a r ei sa d o p t e d a n di sd e s c r i b e dt h a th o w a p p l y i nt h i sm a i ls y s t e m i na d d i t i o n ,t h ec u t t i n go f fa n dt e m p o r a r i l ys h u t t i n gd o w no fm a i ls e r v i c ew i l l c a u s et h ek e yd a t at ol o s ea n dc a l a m i t o u sc o n s e q u e n c e h o w e v e r , w h e no n en e e d st o s e t u p m a i ls y s t e m b i ge n o u g h t oh a n d l ef e wh u n d r e dt h o u s a n d so f u s e r s ,t h e r ea r ef e w w a y s t od oi t f o rm o r ep o p u l a t e da n da c t u a ls i d e ,o n ec a nb u i l da ( f a i r l y ) s i m p l e , e a s y t ou p g r a d e ,f a i l o v e rm a i ls y s t e m 嘶t h ”c h e a p ”p ch a r d w a r e t h u s ,t h i st h e s i se x p o u n d s t h et h e o r ya n d d e s i g n o f h ac l u s t e ri nd e t a i l ,e m p h a s i z et oi n 订o d u c et h ea p p l i c a t i o no f h ac l u s t e ri nm t aa n dc a r r yo u tt h ef u n c t i o nt h a tn o d e 2t a k e so v e rf r o mt h eh o s t ( n o d e l ) a u t o m a t i c a l l y w h e nt h eh o s tg o e s w r o n g f i n a l l y , t h et e s ts c e n a r i oi sr e s p e c t i v e l yd e s i g n e df o rt h em a i nf u n c t i o n si nt h i s m a i ls y s t e m k e y w o r d lp o s t f i x ,s p a m ,c h i - s q u a r ed o c u m e n tc l a s s i f i c a t i o n ,c b d f ,h a i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:出因 日期:莎幺年f 二月8 曰 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 日期:o 垆年协月j 歹日 电子科技大学硕士论文:基于c b d f 过滤高可用反垃圾邮件系统的设计与实现 1 1 垃圾邮件及其危害 1 1 1 什么是垃圾邮件 第一章引言 经常使用电子邮件的用户可能都曾经收到过不认识的人发来的广告邮件或 者其他一些毫无关系的邮件。有的甚至是不断地收到,挥之不去。这些就是所谓 的“垃圾邮件”。它通常是指与内容无关,发送给多个收件人的电子邮件,而收 件人并没有明确要求接受该邮件。也可以是发送给与信件主题不相关的新闻组或 者列表服务器的同一信件的重复邮件。这些电子邮件虽然每一封的信息量不定 很大,但是邮件内容不是大多数用户需要、甚至是令大多数用户讨厌的,这不仅 侵犯了用户的私人空间,而且干扰了大多数用户正常使用电子邮件功能,同时给 用户带来了上网时间和上网资金上的浪费。 垃圾邮件一般具有批量发送的特征,在i n t e m e t 上同时传送多个副本;从内 容上看,它们通常是商业广告、宣传资料或者其他一些无关的内容。垃圾邮件是 i n t e m e t 发展的副产品,最早起源于美国。在英文中有三个称呼:u c e ( u n s o l i c i t e d c o m m e r c i a le m a i l ) ,u b e ( u n s o l i c i t e db u l k e m a i l ) 和s p a m ,但更常用的是s p a m 。 u c e 是专指以商业广告为内容的垃圾邮件,u b e 则还包含其他一些无关的内容。 垃圾邮件和那些强行塞入用户门缝或信箱中的传单又有本质的区别。这些传 单的印刷和分发的成本由生产该产品的厂家来承担。而这些垃圾邮件的成本却是 由收件人来支付的。这些垃圾邮件通常是盗用他人的服务器、使用别人的带宽来 传送的。这也就是为什么垃圾邮件比那些散发的传单遭到了更为强烈谴责的原 因。 与商业有关的内容占了垃圾邮件的大部分,其他少量的包括某些团体组织的 宣传等。另外,近年来由于病毒引发的、毫无目的的邮件从数量上甚至超出了前 面的邮件,它基本符合垃圾邮件的特征,我们也把它归入垃圾邮件。 这里关于垃圾邮件的定义是被广泛接受的种讲法,并不是严格的法律意义 上的界定,要想从法律上区分垃圾邮件和正常邮件并不是一件容易的事情,目前 我国还没有专门针对垃圾邮件的法律。这不但使对国内垃圾邮件制造者的处理无 法可依,也使国外垃圾邮件制造者有机可乘。 1 1 2 垃圾邮件的历史 第1 页 电子科技大学硕士论文:基于c b d f 过滤高可用反垃圾邮件系统的设计与实现 垃圾邮件是i n t e r n e t 技术发展的产物,与其它先进技术一样,在为人类服务 的同时,不可避免的被另外一些人用作相反目的。首次关于垃圾邮件的记录是 1 9 8 5 年8 月一封通过电子邮件发送的连锁信,一直持续到1 9 9 3 年。 1 9 9 3 年6 月份,在i n t e m e t 上出现了名为”m a k e m o n e y f a s t ”的电子邮件。历 史上比较著名的s p a m 事件是1 9 9 4 年4 月份,c a n t e r 和s i e g e l 的法律事务所把 一封信发到6 0 0 0 多个新闻组,宣传获得美国国内绿卡的法律支持。这是第一次 使用s p a m 一词来称呼垃圾邮件,用来描述新闻或电子邮件的主动性发布。 同时,垃圾邮件也开始引起了人们的注意。一些触觉敏锐的商人立刻意识到 了电子邮件带来的商机,许多人开始利用电子邮件作商业广告,9 5 年5 月有人 写出了第一个专门的应用程序f l o o d g a t e ,可以自动把邮件发给大批的人。紧接 着在8 月份,就有人拿两百万个邮件地址来出售。垃圾邮件越来越多与商业联系 起来,并引起人们的反感。9 6 年的4 月,人们开始使用u c e ( u n s o l i c i t e d c o m m e r c i a le m a i l ) 来称呼垃圾邮件,并开始积极想办法阻止垃圾邮件在i n t e m e t 上泛滥。 9 6 年3 月,有人提出了s p a m b l o c k 的方法,例如使用r e m o v e t o r e p l y 的工具来过滤邮件地址。随着过滤垃圾邮件技术的发展以及人们对发送垃圾邮件 者的谴责,垃圾邮件制造者们采取了更隐蔽的技术,比如伪造信头中的发件人, 域名,邮件地址,然而这些方法还是逃不出d 地址的过滤。于是,垃圾邮件的 制造者又开始寻找更为安全的做法,9 7 年3 月,他们开始把目光转向o p e n r e l a y 。o p e n r e l a y 是当时解决i n t e m e t 邮件路由的一种很好的方法,但存在 可被垃圾邮件制造者们利用的安全漏洞。很快,大部分商业垃圾邮件就开始利用 别人的邮件服务器使用转发的办法来发送垃圾邮件。这样做的另一个原因是可以 盗用别人的资源,节省邮件发送者的钱。 在过去的几年里,人们已经越来越多的意识到控制i n t e m e t 上垃圾邮件的重 要性,世界各地成立了很多组织来反垃圾邮件,如m a p s ,o r b s ,s p a m c o r p , j u n c k e m a i l o r g 等,从技术上和法律上不断努力着。 1 1 3 垃圾邮件的危害 垃圾邮件可以说是因特网带给人类最具争议性的副产品,它的泛滥已经使整 个因特网不堪重负。 第一,垃圾邮件严重影响用户的工作与生活。随着用户使用邮箱时间的增长, 垃圾邮件会越来越多,用户每天将要花费大量的时间来判断垃圾邮件并对其进行 处理,而且垃圾邮件还会大量吞食用户宝贵的邮箱空间,如果用户不及时清理邮 第2 页 电子科技大学硕士论文:基于c b d f 过滤高可用反垃圾邮件系统的设计与实现 箱则会造成正常信件无法正常收到,使用户遭受损失。 第二,它严重影响网络的正常运行。对于公司和网络服务商来讲,邮件服务 器是最繁忙的服务器之一,每天都要处理海量的邮件发送与接收请求,因此网络 资源非常重要,而垃圾邮件会占用网络的大量带宽,严重影响工作效率,甚至还 会造成阻塞网络,便服务器瘫痪等后果,严重影响网络的正常运行。 第三,垃圾邮件携带病毒感染网络。一些网络病毒往往会利用邮件技术将自 己伪装成一个正常的、颇具诱惑力的邮件,然后自动发送给网络上的所有用户, 不但造成了网络的负担和用户的烦恼,如果病毒邮件不小心被用户点击的话,还 会造成病毒运行、泛滥、使系统崩溃等后果。 1 2 国内垃圾邮件状况分析 目前,垃圾邮件泛滥于互联网,影响极坏。亟待政府有关部门制订出相关的 法律和管理规定,健全管理机制,形成政府、企业、行业组织和社会共同参与、 共同防治的局面,才能有效遏制垃圾邮件的泛滥。 在我国的互联网上,垃圾邮件也已经是泛滥成灾,不容忽视。c n n i c ( 中国 互联网络信息中心) 日前公布的一份报告说,3 3 的我国e m a i l 用户收到的5 0 以上的电邮是垃圾邮件。c n n i c 在今年1 1 月1 6 日公布的中国互联网络热点调 查报告说,2 2 的e - m a i l 用户收到的电子邮件中垃圾邮件占5 1 到8 0 ;1 1 的 用户收到的垃圾邮件超过8 0 。收费邮箱用户收到的垃圾邮件要比免费邮箱少, 但是仍有近一半的用户收到的垃圾邮件占总数的2 0 以上。公安部在今年l o 月 份公布了首届全国信息网络安全状况暨计算机病毒疫情调查结果:中国计算机用 户计算机病毒的感染率为8 7 9 ,因大规模垃圾邮件传播造成的安全事件占3 6 。而根据s o p h o s 软件公司公布的最新数据,中国己成为世界上第三大垃圾邮 件生产国,所产生的垃圾邮件在全球垃圾邮件中占到1 1 6 2 ,仅次于美国和韩 国。 而且,近年来,我国电子邮件遭到海外封杀也成为一个热点话题。起因是源 自我国的大量垃圾邮件令国外网络服务商不得不采取屏蔽我国邮件服务器的极 端措施。有报道称,由于通过中国一些i p 地址发出的垃圾邮件泛滥,中国电子 邮件面临被欧美全面封杀。目前全球大约有数万家公司、组织或者私人网络已经 全面封锁中国的i p 地址,在被宣布拒绝接受的电子邮件网站名单中,新浪、网 易、搜狐、1 6 3 邮局、2 6 3 、2 1 c n 等国内主要邮件服务商赫然在列。在经济贸易 日益全球化的今天,i p 被封锁,意味着切断了中国人与外界之间最经济也最周全 第3 页 电子科技大学硕士论文:基于c b d f 过滤高可用反垃圾邮件系统的设计与实现 的交流通路。中国邮件遭受欧美等国家的封杀虽然不像一些媒体炒作的那样严 重,但也并非无中生有,在接受记者采访时,信息产业部官员虽然表示,中国的 1 p 地址被全面封杀是不可能的,但目前的确有一些中国的邮件被屏蔽的现象。 由此看来,虽然报道夸大了事实,但日益泛滥的垃圾邮件的确为中国互联网 的发展带来了大麻烦。在舆论的压力下,如何解决垃圾邮件这一长期被忽视的问 题终于被摆上了台面。 1 3 本课题的特点和意义 本课题来源于四川省科技厅科技攻关重点资助项目( 项目编号: 0 3 g g 0 0 6 0 2 1 ) 。该课题在导师黄迪明教授的指导下,以s m t p 为研究对象,研 究p o s t f i xs m t p s e r v e r 的体系结构、高可用技术在邮件服务器中的应用以及内容 过滤算法,依照此体系结构设计和实现了一个反垃圾邮件系统。 1 3 1 本课题的特点 我们在对邮件协议和邮件系统、透明网桥和相关主要算法进行的大量研究 基础上提出了全新的反垃圾邮件解决方案。实现了: 1 流量监控 流量监控是监控邮件服务商大批量发送的垃圾邮件,以检测垃圾邮件的匹配 情况。 2 规则管理 由用户设定自己的检测规则。相应的规则完成一定的规则动作,如抛弃、弹 回、等待、转发等。 3 连接管理 连接管理是指系统通过特定的规则判断是否对该地址请求的连接提供服务, 系统维护一个记录各个频繁发信的1 p 地址连接情况的历史日志,用于进行基于 特定口或特定i p 段的连接控制。根据并发连接数、垃圾邮件比例、重复邮件比 例、发信频率来对用户连接情况进行管理。 4 系统日志管理 日志包括连接日志、规则日志、匹配日志、流量日志,系统日志详细记录系 统运行信息、拦截信息,同时具有相应的报表打印等。 5 黑自名单管理 第4 页 电子科技大学硕士论文:基于c b d f 过滤高可用反垃圾邮件系统的设计与实现 可靠的用户为白名单,不可靠用户为黑名单。黑名单可以动态形成。根据邮 件性质和设定的规则来设定黑名单的生存期。 1 3 2 本课题的理论意义和实用价值 我们在对国内垃圾邮件形势的深入分析与理解的基础上,研究开发了通用反 垃圾电子邮件系统,它具有灵活的垃圾信件过滤和防止信件中继功能,使管理员 可以在系统级上设置邮件过滤、重定向和防中继政策。对于普通邮件用户,则可 以设置系统为其提供过滤功能,拒收不希望接收的信件。为提高邮件系统的安全 性、稳定性、高可用性、可扩展性等技术要求提供支持。 第一,内外网物理隔离 通过服务器两块网卡分别与内网、外网相连,内外网邮件数据由应用程序通 过服务器的文件系统实现交换。同时,通过内部网卡( e t l l 0 ) 和外部网卡( e t h l ) 构成网络软开关,邮件通过服务器时,由邮件系统提供邮件过滤。 第二,采用主从高可用设计 集群邮件服务器能够自动检测服务器故障,并且具备会话保护技术,保证主 服务器一旦发生问题后,其上的网络流量负载可以迅速切换到从服务器上,而用 户丝毫不会察觉到瞬间的服务暂停和延迟。可以使系统功能受到的影响减到最 小。 第三,控制台监控 控制台是系统与管理员交互的界面,它是运行在w i n d o w s 平台上的,利 用客户端界面对系统进行查询和操作。主要功能是使管理员能够查阅各服务器的 统计信息,完成相应的管理和相关操作。 第四,过滤算法 主要研究了四个过滤算法:b a y e s 、c b d f 、遗传算法、免疫算法。前两种基 于统计过滤,通过从已分类消息的语言资料库中自动生成过滤器;后两神基于神 经网络学习,通过对近期历史数据的学习来进行预测。 综上所述,本课题具有较高的理论意义和实用价值。 1 3 3 本人在课题研究中的主要工作 反垃圾邮件系统涉及到很多的研究领域,本课题作为科技攻关项目,主要对 以上四点进行了深入研究和应用开发。本人作为课题主要研究开发人员之一,主 要专注于外部过滤器在邮件服务器系统中的应用和高可用服务的应用,负责完成 第5 页 电子科技大学硕士论文:基于c b d f 过滤高可用反垃圾邮件系统的设计与实现 了以下几方面的工作: 基于外部过滤器的邮件服务器系统的设计与实现,分析了p o s t f i x 邮件系 统的队列管理,结合该软件的体系结构,加入自己设计的外部内容过滤 器; 邮件系统的曰志分析和记录,实现实时的记录邮件状态信息; 高可用服务的设计与实现,监测服务程序的状态,当服务程序故障时, 能自动进行主机与备份机的切换。 c b d f 算法研究,它收集两个培训集垃圾邮件和非垃圾邮件集,根据检 验e t g r a m s 的显著性,新邮件分别与培训集( 垃圾邮件集和非垃圾邮件 集) 比较得出最终的相似度分数,由此判定新邮件的归属性。 第6 页 电子科技大学硕士论文:基于c b d f 过滤高可用反垃圾邮件系统的设计与实现 第二章电子邮件的工作原理 2 1 电子邮件的发展简介 电子邮件翻译自英文的e m a i l 或e - m a i l ,它表示通过电子通讯系统进行信件 的书写、发送和接收。今天使用的最多的通讯系统是互联网,同时电子邮件也是 互联网上最受欢迎的功能之一。通过电子邮件系统,您可以用非常低廉的价格, 以非常快速的方式,与世界上任何一个角落的网络用户联络,这些电子邮件可以 是文字、图像、声音等各种方式。同时,您可以得到大量免费的新闻、专题邮件, 并实现轻松的信息搜索。这是任何传统的方式也无法相比的。正是由于电子邮件 的使用简易、投递迅速、收费低廉、易于保存、全球畅通无阻,使得电子邮件被 广泛地应用,它使人们的交流方式得到了极大的改变。 在i n t e m e t 电子邮件流行之前已经有几种形式的电子邮件存在了。从2 0 世纪 6 0 年代后期人们就开始使用计算机共享文件的方式来传递信息。到了7 0 年代开 始出现基于a p a r n e t 传输的电子邮件,大多数人认为1 9 7 1 年使用a p a r n e t 发出 的电子文本信息是第一封i n t e m e t 电子邮件。1 9 7 2 年r a yt o m l i n s o n 写了第个 电子邮件程序,日q 做s n d m s g ,在a p a r n e t 上使用。为了创建个世界范围的 电子邮件系统,在1 9 8 4 年i s o ( 国际标准化组织) 和i t u ( 国际电信联盟) 发 布了一组新的信件传递标准,这就是x 4 0 0 。在1 9 8 8 年和1 9 9 3 年又做两次更新。 在欧洲,这个标准在较为广泛的范围内被接受,但由于它的规模和复杂性,并没 在全球范围内流行。相反,基于t c p i p 的电子邮件从一开始就显示出了强大的 生命力。1 9 8 2 年i n t e m e t 协会发布了基于t c p i p 的s m t p ( 简单邮件传输协议) , 即r f c 8 2 1 ( r e q u e s t f o r c o m m e n t s ,t n t e m e t 的标准文档) 。稍后发布的r f c 8 2 2 定义了a s c i i 代码的纯文本的信件结构。由于i n t e m e t 的快速发展和巨大成功, 这种i n t e m e t 邮件也迅速被广为接受,特别是在i n t e r n e t 发源地美国。在开始的 时候这些纯文本的格式就可以满足当时的需要了。但很快人们希望使用更复杂的 功能,如多媒体文件格式,于是i n t e m e t 协会1 9 9 6 年又发表了一系列的关于m i m e ( m u l t i p u r p o s e n t e m e tm a i le x t e n s i o n s ) 格式的定义,支持用户的这种需求。今天 人们使用的大部分邮件是i n t e m e t 邮件,其他一些形式的邮件要么采用了i n t e r n e t 的标准,要么就被i n t e r n e t 邮件系统替代。虽然x 4 0 0 在欧洲还在使用,但已经 可以与i n t e r n e t 邮件系统比较好地对接了。 现在,电子邮件已成为许多商家和组织机构的生命血脉。用户可以通过电子 邮件的讨论会进行项目管理,并且有时要根据快速或洲际的电子邮件信息交换进 第7 页 电子科技大学硕士论文:基于c b d f 过滤高可用反垃圾邮件系统的设计与实现 行重要的决策行动。但毫无疑问的是,互联网扩展了其应用的范围。过去只能在 其局域网上进行交谈的公司现在可以通过网络与他们的客户、竞争伙伴和世界上 的任何人进行通信和交流。一旦某个组织的电子邮件系统运行在支持t c p i p 协 议的网络上或具有支持两个互联网邮件服务协议s m t p ( 简单邮件传输协议) 和 p o p ( 邮局协议) 之一的互联网网关,不论其电子邮件帐户在何处,它的邮件用户 就能够连接到任何具有相似连接的电子邮件地址上了。 2 2 电子邮件的工作原理 2 2 1 电子邮件的格式 为了让邮件能够顺利地在i m e m e t 上传送,能够被不同的邮件服务器正确识 别,并且在各种各样的终端上显示出来,就需要遵循一定的格式。邮件的格式在 r f c8 2 2 中加以定义,r f c8 2 2 定义了用于电子邮件报文的格式。即r f c8 2 2 定 义了s m t p 、p o p 3 、i m a p 以及其它电子邮件传输协议所提交、传输的内容。 与邮件系统相关的主要国际标准协议包括: r f c8 2 1 定义了收发电子邮件的相关指令。 r f c8 2 2 则制定了邮件内容的格式。 r f c2 0 4 5 - 2 0 4 8 制定了多媒体邮件内容的格式。 r f c1 1 1 3 ,1 4 2 2 - 1 4 2 4 则是讨论如何增进电子邮件的保密性。 r f c 8 2 2 定义的邮件由两部分组成:信封和邮件内容。信封包括与传输、投 递邮件有关的信息。邮件内容包括标题和正文。标准虽然规定了邮件头的格式与 语义,但没有限定邮件体的格式,邮件体的格式由发送者规定。个典型的邮件 如下: f r o m :a d m m u e s t c e d u c n 信头部分 t o :x x x u e s t c e d u c n s u b j e c t :am a i l d a t e :2 0 0 4 1 1 7 信头和信件体之间的空行 x x x x x 信件体 r f c 8 2 2 为信头定义了2 0 多个标准的字段,包括d a m 、f r o m 、t o 、c c 等一 些必须的字段和一些非必须的字段。另外,在信件的传输过程中,m u a 和m t a 第8 页 电子科技大学硕士论文:基于c b d f 过滤高可用反垃圾邮件系统的设计与实现 还会在信头上加入一些路径信息,它们合在一起构成了收到的邮件的信头部分。 r f c8 2 2 的缺点之是仅适用于a s c i i 文本,不支持别的字符集和别的信息 形式( 如语音、图像等) 。另外,电子邮件头也是邮件的一部分( 与之区别,o s i m o t i s 邮件头与邮件体是分开的) ,而且是可读文本形式,很容易用编辑器进行 修改。 随着i n t e m e t 的迅猛发展,现有的电子邮件标准已不能满足人们的需要,为 了支持多媒体文档的传输,1 9 9 6 年发表了一系列的关于m i m e ( m u l t i p u r p o s e i n t e r a c t m a i l e x t e n s i o n s ,多用途的网际邮件扩展) 格式的定义。m i m e 增强了在 r f c 8 2 2 中定义的电子邮件报文的能力,允许传输二进制数据,提供了一种可以 在邮件中附加多种不同编码文件的方法,弥补了原来的信息格式的不足。实际上 不仅仅是邮件编码,现在m i m e 已经成为h t t p 协议标准的一个部分。 在邮件头中,m i m e 沿用了很多r f c8 2 2 域名,同时也增加了一些新定义的 域名。常见的标准域名和含义如下 表2 - 1m i m e 常见的标准域名 域名含义添加者 r e c e i v e d 传输路径各级邮件服务器 r 科啪- p a t l l回复地址 目标邮件服务器 d e l i v e r e d t o发送地址 目标邮件服务器 r e p l y t o回复地址邮件的创建者 f r o m发件人地址 邮件的创建者 t o 收件人地址邮件的创建者 c c抄送地址 邮件的创建者 b 暗送地址邮件的创建者 i d a t e日期和时间 f 邮件的创建者 s u b j e c t主题邮件的创建者 m e s s a g e 一1 d消息1 d 0 邮件的创建者 m n v v e r s i o nm i m e 版本 | i邮件的创建者 l c o n t e n t - t y p e 内容的类型邮件的创建者 i c 。n t e n t t r a n s 凫r - e n c 。d i n g内容的传输编码方式邮件的创建者 第9 页 皇王型垫查堂堡主笙奎! 董三曼呈望垫鲨塞里旦垦垄墨! ! 堡至堑堕堡堕量窭翌 通常在接收和发送邮件的是同一程序时才能理解它们的意义。 下面是包含纯文本正文、超文本正文的m i m e 邮件的信头。 r e t u r n p a t h : d e l i v e r e d t o :b h w 9 8 s i n a c o i n r e c e i v e d :( q m a i l7 5 5 1 3i n v o k e db ya l i a s ) :2 0m a y2 0 0 4 0 2 :1 9 :5 3 0 0 0 0 r e c e i v e d :f r o mu n k n o w n ( h e l ob l u e s k y ) ( 6 1 1 5 5 i 1 8 1 3 5 ) b y2 0 2 1 0 6 1 8 7 1 4 3w i t hs m t p :2 0m a y 2 0 0 40 2 :1 9 :5 3 0 0 0 0 m e s s a g e i d : f r o m :”= ? g b 2 3 1 2 7 b ? w l b a t r x e z o w n c g = = ? = ” r o :”b h w 9 8 ” c c : s u b j e c t := ? g b 2 3 1 2 7 b ? z t k l x l b g t k 6 2 r p m o p l 2 7 2 d a t e :s a t ,2 0m a y2 0 0 41 0 :0 3 :3 6 + 0 8 0 0 m i m e v e r s i o n :1 0 c o n t e n t t y p e :m u t i p a r t m i x e d : b o u n d a r y = t = _ n e x t p a r t 一0 0 0 0 0 7 a _ o i c 3 1 1 5 f 8 0 d f c 5 e 0 ” x - p r i o r i t y :3 x - m s m a i l p r i o r i t y :n o r m a l x m a i 】e r :m i c r o s o f to u t l o o ke x p r e s s5 0 0 2 9 1 9 6 7 0 0 x - m i m e o l e :p r o d u c e db ym i c r o s o f tm i m e o l ev 5 0 0 2 9 1 9 6 7 0 0 2 2 ,2 邮件的传递 电子邮件与普通邮件有类似的地方,发信者注明收件人的姓名与地址( 即邮 件地址) ,发送方服务器把邮件传到收件方服务器,收件方服务器再把邮件发到 收件人的邮箱中。如下图所示: 图2 - 1 高层s m t p 接口模型 第1 0 页 电子科技大学硕士论文:基于c b d f 过滤高可用反垃圾邮件系统的设计与实现 在邮件传送中涉及到如下几个概念: m u a m a i l u s e r a g e m ,邮件用户代理,帮助用户读写邮件。 m t a m a i l t r a n s p o r ta g e n t ,邮件传输代理,负责把邮件由一个服务器传到 另一个服务器或邮件投递代理。 m d a m a i l d e l i v e r y a g e n t ,邮件投递代理,把邮件放到用户的邮箱里。 整个邮件传输过程如下: l m s m t p 鬟 发件方 in a 图2 七邮件传输中的代理 目前使用的s m t p 协议是存储转发协议,意味着它允许邮件通过一系列的服 务器发送到最终目的地。服务器在一个队列中存储到达的邮件,等待发送到下一 个目的地。下一个目的地可以是本地用户,或者是另一个邮件服务器,如下图所 示: 图2 - 3 存储转发 如果下游的服务器暂时不可用,m t a 就暂时在队列中保存信件,并在以后 尝试发送。 2 3s m t p 结构及原理 s m t p ( s i m p l e m a i l t r a n s f e r p r o t o c 0 1 ) 协议是为了保证电子邮件的可靠和高 效传送。t c p i p 协议的应用层中包含有s m t p 协议,但事实上它与传输系统和 机制无关,仅要求个可靠的数据流通道。它可以工作在t c p 上,也可以工作 在n c p 、n i t s 等协议上。在t c p 上,它使用端口2 5 进行传输。s m t p 的一个 重要特点是可以在可交互的通信系统中转发邮件。 第1 l 页 皇三型垫茎堂堡主篓奎! 至王兰堡坚望塑壹里璺墨垫墨塑笪墨堕堕垦立翌 ,黑髦嚣嚣霈二苯篙夥篙嚣篇篇二 ! 詈警竺冀絮煞耄翼篡星嚣冀鬻毒篙鼍蒿羔篓岛晶羞 黧桀,然嚣意蒿豢茹茹淼茹恭 熏:鉴裂鬟躲掣茹蒜篡1 ”。 认可以建立连接后:憩就夏以开始通信。f 咖等丝世盟罕生“、屈、“ 一星小p 发送方 瓣黧黟、 接收川一一r i 一再08 泅r 一一尹 一警一斗紊裴l 图2 - 5 s i 口t p 命令过程 第1 2 页 电子科技大学硕士论文:基于c b d f 过滤高可用反垃圾邮件系统的设计与实现 2 3 2s m t p 基本命令集 s m t p 定义了1 4 个命令,其中常用命令描述如下: h e l o :向服务器标识用户身份,发送者能欺骗、说谎,但一般情况下服务 器都能检测到; m a i l :初始化邮件传输”m a i lf r o m :”; r c p t :标识单个的邮件接收人,常在m a i l 命令后面,可有多个”r c p t t o :”; d a t a :在单个或多个r c p t 命令后,表示所有的邮件接收人已标识,并初 始化数据传输,以“ , ”行结束数据: v r f y :用于验证指定的用户邮箱是否存在,由于安全方面的原因,服务器 常禁止此命令; e x p n :验证给定的邮箱列表是否存在,扩充邮箱列表,也常被禁用: h e l p :查询服务器支持什么命令: n o o p :无操作,服务器应响应o k ; q u i t :结束会话; r s e t 重置会话,当前传输被取消; m a i l f r o m :命令中指定的地址是称作e n v e l o p ef r o m 地址,不需要和发送 者自己的地址是致的。 对于这些命令的顺序有一定的限制。对话的第一个命令必须是h e l o 命令, 此命令在此后的会话中也可以使用。如果h e l o 命令的参数不可接受,必须返 回一个5 0 1 失败应答,同时接收到的s m t p 必须保持在与刚才一致的状态下。 n o o p 、h e l p 、e x p n 和v r f y 命令可以在会话的任何时候使用。m a i l 、s e n d 、 s o m l 或s a m l 命令开始一个邮件操作。一旦开始了以后就要发送r c p t 和 d a t a 命令。邮件操作可以由r s e t 和q u i t 命令终止。在一个会话中可以有一 个或多个操作。 2 3 3p o p 与i m a p p o p ( p o s t o f f i c e p r o t o c 0 1 ) ,可视为o f f - l i n e m a i l 处理协议,不同于一般电话 拨接终端机仿真联机,p o p 只适用在支持t c p i p 的网络。由于系统管理人力的 考虑,大部份的公司或单位只规划一部m a i l 系统主机,其它的工作站并不需要 有独立收发信件的能力,尤其是针对那些d o s 、w i n d o w s 或m a c 的工作站来说, 这些工作站的使用者可以通过p o p 协议来收取其个人在m a i l 系统主机的信箱。 第1 3 页 电子科技大学硕士论文:基于c b d f 过滤高可用反垃圾邮件系统的设计与实现 目前最新版的p o p 协议是p o p v e r s i o n3 ,我们一般就称为p o p 3 。 i m a p ( i n t e r a c tm e s s a g ea c c e s sp r o t o c 0 1 ) 是用在t c p f l p 网络的一个信件存 取协议。1 m a p 与p o p 是非常类似的东西,i m a p 同样是以c l i e n t s e r v e r 架构运 作,i m a p 跟p o p 一样都是取信协议,m a i l 软件必须另外搭配s m t p 执行信件 投递。 当使用电子邮件应用程序( 如o u t l o o ke x p r e s s 、f o x m a i l ) 访问i m a p 服务 器时,用户可以决定是否将邮件拷贝到自己的计算机上,以及是否在i m a p 服务 器中保留邮件副本。而访问p o p 3 服务器时,邮箱中的邮件被拷贝到用户的计算 机中,不再保留邮件的副本。目前支持i m a p 协议的服务器还不多,大量的邮件 服务器还是p o p 3 服务器。 2 4s m t p 的安全缺陷 由于历史的和技术的原因,电子邮件存在着诸多的安全隐患。随着电子邮件 在人们工作、学习、商业以及政府通信中的作用越来越重要,人们对其安全性和 保密性提出了越来越高的要求。电子邮件可以说

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论