(计算机软件与理论专业论文)基于决策树算法的垃圾邮件通信行为检测过滤技术研究.pdf_第1页
(计算机软件与理论专业论文)基于决策树算法的垃圾邮件通信行为检测过滤技术研究.pdf_第2页
(计算机软件与理论专业论文)基于决策树算法的垃圾邮件通信行为检测过滤技术研究.pdf_第3页
(计算机软件与理论专业论文)基于决策树算法的垃圾邮件通信行为检测过滤技术研究.pdf_第4页
(计算机软件与理论专业论文)基于决策树算法的垃圾邮件通信行为检测过滤技术研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机软件与理论专业论文)基于决策树算法的垃圾邮件通信行为检测过滤技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨理工大学t 学硕:卜学位论文 基于决策树算法的垃圾邮件通信行为检测 过滤技术研究 摘要 随着科技进步和计算机网络技术的发展,网络彻底改变了人们的生活方式, 越来越多的人融入到了互联网中,享受着网络带来的种种便利。但同时随着互 联网规模的迅速扩大,许多问题已经成为互联网发展中无法回避的核心问题, 其中垃圾邮件泛滥的问题尤为突出。 本文在对传统的邮件过滤技术深入研究的基础上,以加快邮件过滤速度, 节省网络带宽资源为目的,针对垃圾邮件发送行为特征,提出了相应的模型。 针对传统的基于邮件正文内容的过滤技术扫描速度慢,占用大量网络带宽 资源等问题,提出了通信行为检测的概念,结合数据挖掘技术,提出了一种基 于决策树算法的垃圾邮件通信行为检测过滤方法。该方法把数据挖掘中的决策 树分类方法应用到邮件过滤系统中,对c a 5 算法进行了改进,使之更适合于大 量的日志数据的快速处理。结合邮件日志数据特征,将其进行离散化预处理, 降低连续型属性的影响,建立了一种基于信息熵理论的规则决策树,最后,利 用剪枝处理技术对决策树修剪,克服了决策树处理数据中的速度慢,分支冗余 等缺点。该过滤技术工作在网络会话层,在邮件内容数据发送前对其进行合法 性判断,从而节省网络带宽资源,同时保证了高准确率和一定的召回率。 经实验证明,该方法效果良好,可极大提高邮件服务器的邮件过滤能力。 本论文提出的通信行为检测技术为反垃圾邮件提供了一个新的并且是行之有效 的解决方案,具有广阔的应用前景。 关键词垃圾邮件;数据挖掘;通信行为检测;决策树算法;信息熵 哈尔滨理工大学工学硕+ 学位论文 r e s e a r c ho n f i l t e r i n gt e c h n o l o g yo fs p a m c o m m u n i c a t i cb e h a v i o rd e t e c t i o nb a s e do nd e c i s i ( m o m i l l u n l c a t m nl o rd e t e c t l o n1 5 a s e ae c l s l o n t r e ea l g o r i t h m a b s t r a c t w i mt h ea d v a n c e m e n to fs c i e n c ea n dt e c h n o l o g ya n dt h ed e v e l o p m e n to f c o m p u t e rn e t w o r kt e c h n i q u e s ,t h ei n t e m e ta g ei sc o m i n g i t sa r r i v a lh a sc o m p l e t e l y c h a n g e dp e o p l e sw a y o fl i f e , a n dm o r ea n dm o r ep e o p l eh a db e e ne n g a g e di nt h e n e t w o r k ,e n j o y i n gt h ev a r i o u sc o n v e n i e n c e st h a tn e t w o r kb r i n g s h o w e v e r , 嬲t h e i n t e r a c ti sr a p i d l ye x p a n d i n g , m a n yp r o b l e m sh a v eb e c o m et h ec o r ei s s u et h a tc a n n o tb ei g n o r e di nt h ei n t e r n e td e v e l o p m e n t ,s p a mf l o o di so v e nm o r ec o n s p i c u o u s b a s e do nt h et r a d i t i o n a lm e t h o d so ne - m a i lf i l t e r i n gt e c h n o l o g y , t h i sp a p e rp a y m o r ea t t e n t i o nt oi m p r o v i n gt h ef i l t e r i n gs p e e da n ds a v i n gn e t w o r kd g ! s o l r c e s ,p u t t i n g f o r w a r dt h em o d e lb e l o w : a i m i n ga lt h ec u r r e n te - m a i lf i l t e r i n gt e c h n o l o g yb a s e do ne - m a i la r t i c l e ,t h e r e s o l u t i o ni st h ep r o b l e mo fl o ws p e e do ns c a n , a n dc o n s u m e sal a r g ea m o u n to f n e t w o r kb a n dr e s o u r c e s p u tf o r w a r dac o n c e p to fc o m m u n i c a t i o nb e h a v i o rd e t e c t i o n , c o m b i n i n gd a t am i n i n gt e c h n o l o g y , p u tf o r w a r dan e wf i l t e r i n gm e t h o do fs p a m c o m m u n i c a t i o nb e h a v i o rd e t e c t i o nb a s e do nd e c i s i o nt r e ea l g o r i t h m , w h i c ha p p l y d a t am i n i n gb a s e d0 1 1d e c i s i o nt r e et oe m a i lf i l t e r i n gs y s t e m , i m p r o v e da b o u tt h e c 4 5a l g o r i t h m , w h i c hi sm o r es u i t a b l ef o rq u i c kh a n d l i n go fl a r g el o gd a t a t h el o g o fm a i ls e l v e rw a sd i s c r e d i t e db e f o r ed a t ap r o c e s s i n ga c c o r d i n gt ot h ee - m a i ll o g d a t ai n t e g r a t i o nf e a t u r e s , r e d u c et h ei n f l u e n c eo fc o n t i n u o u s - v a l u e da t t r i b u t e , c o n s t r u c tad e c i s i o nt r e eb a s e do ni n f o r m a t i o ne n t r o p yt h e o r y f i n a l l y , t h i sp a p e rt a k e a d v a n t a g eo fp r u n i n gp r o c e s s i n gt e c h n o l o g yt op r u n et h ed e c i s i o nt r e e , o v e r c o m et h e s h o r t c o m i n g so fs l o ws p e e da n dal o to f b r a n c h e sf o rp r o c e s s i n gd a t eo fd e c i s i o nt r e e t h i sf i l t e rt e c h n o l o g yw o r ki nt h es e s s i o nl a y e r , w h i c hm e a n s ,t h es p a mg a l lb e 哈尔滨理工大学t 学硕:l :学位论文 h e a d e d0 仃b e f o r ei ts e n d sm a i ld a t a , s o ,n e t w o r kb a n dr e s o u r c 宅c a nb e 鞠v e d ,a l s o , t h i ss y s t e mh a sg o o dp r e c i s i o na n dr e c a l lr a t e r e s e a r c hs h o w st h a tt h em o t h o di sg o o d ,a n dg r e a t l yi m p r o v e sm a i ls e r v e r s s p a mf i l t e r i n gc a p a b i l i t i e s t h ec o m m u n i c a t i o nb e h a v i o rd e t e c t i o nt e c h n o l o g yp u t f o r w a r di nt h i sp a p e rp r o v i d e san e wa n de f f e c t i v es o l u t i o nt os p a m ,a l s oh a sag o o d p e r s p e c t i v eo fa p p l i c a t i o n k e y w o r d ss p m ,d a t am i n i n g , c o m m u n i c a t i o nb e h a v i o rd e t e c t i o n , d e c i s i o n 峨 i n f o r m a t i o ne n t r o p y i i i 哈尔滨理工大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于决策树算法的垃圾邮件 通信行为检测过滤技术研究,是本人在导师指导下,在哈尔滨理工大学攻读硕 士学位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部 分外不包含他人已发表或撰写过的研究成果。对本文研究工作做出贡献的个人 和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。 作者签名:a 以从 日期:z 晰年岁月多日 哈尔滨理工大学硕士学位论文使用授权书 基于决策树算法的垃圾邮件通信行为检测过滤技术研究系本人在哈尔滨 理工大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究 成果归哈尔滨理工大学所有,本论文的研究内容不得以其它单位的名义发表。 本人完全了解哈尔滨理工大学关于保存、使用学位论文的规定,同意学校保留 并向有关部门提交论文和电子版本,允许论文被查阅和借阅。本人授权哈尔滨 理工大学可以采用影印、缩印或其他复制手段保存论文,可以公布论文的全部 或部分内容。 本学位论文属于 保密口,在年解密后适用授权书。 不保密留 ( 请在以上相应方框内打) 作者签名:力识孩 日期:硼扩年乡月岁日 翩签名参彬眺年月日 哈尔滨理t 大学t 学硕士学位论文 1 1 课题来源 第1 章绪论 随着i n t e r n a 的迅猛发展和网络社会的到来,网络将会影响政治、经济、文 化、军事和社会生活等各个方面。全球使用i n t e r n e t 的用户日益剧增,根据中国 互联网信息中一l , ( c n n i c ) 官方网站h t t p :l l w w w c n n i e n e t c n i n d c x 0 e i n d c x h t m 的 最新数据( 截至2 0 0 7 年1 2 月3 1 日) 显示,我国的网民数量已达到2 1 亿人 而电子邮件( e - r e a l 0 更是日益成为人们工作、生活中所必不可少的一项互联网服 务。据调查,电子邮件已经成为排在语音之后得第二大广泛使用的通信渠道; 在商务领域中,8 0 的商务活动要通过电子邮件完成。电子邮件由于具有费用 低、使用简便、消息传递及时、信息量大等优点,极大的满足了现代社会中人 们对于信息共享和交换的需求。 正是由于电子邮件的广泛应用,给了一些不法分子可乘之机,利用电子邮 件进行不法活动例如利用电子邮件的便捷性和用户的广泛性,散播病毒或者 反动,色情等内容的垃圾邮件,给互联网和广大网民带来了极大的危害。因此, 邮件的安全问题就不可避免地摆在我们面前,因此迫切需要提供一种安全有效 的措施来检测、防范这些针对邮件发起的攻击或对网络资源的消耗,以保护互 联网的秩序和网民的切身利益,尽管已有许多防御技术和产品,如垃圾邮件过 滤网关产品,但是由于邮件的发展越来越变化多端,不法分子的手段也是越来 越高明,使得防范越来越力不从心 垃圾邮件在英文中有三个名称:u c e ( u n s o l i c i t e dc o m m e r c i a le m a i l ,不请 自来的商业电子邮件) 或者u b e ( u n s o l i c i t e db u l ke m a i l ,不请自来的批量电子 邮件) f i 】和s p a m ,但最常用的是s p a m 。2 0 0 3 年3 月2 5 日,中国互联网协会( i s c ) 颁布的中国互联网协会反垃圾邮件规范对垃圾邮件给出如下定义: 1 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的 宣传品等宣传性的电子邮件; 2 收件人无法拒收的电子邮件; 3 隐藏发件人身份、地址、标题等信息的电子邮件; 4 含有虚假的信息源、发件人、路由等信息的电子邮件。 本课题是在申报国家“8 6 3 计划”面上项目同时结合哈尔滨理工大学校园信 哈尔滨理t 大学t 学硕一卜学位论文 息化建设背景下提出的。本文作为该项目的一个组成部分,将决策树算法和数 据挖掘算法结合,根据垃圾邮件的通信行为进行过滤,旨在加强信息传输安全 同时减轻校园网络主干网的带宽消耗。 1 2 研究目的和意义 德国电信2 0 0 6 年4 月的一份调查报告显示,每天世界范围内的电子邮件发 送数量达到6 0 0 亿封,其中的绝大多数属于垃圾邮件的范畴。而根据美国 m a s s a c h u s e t t s 的n u c l e u sr e s e a r c h 研究机构2 0 0 7 年4 月对8 4 9 名电子邮箱用户 抽样调查研究所得:各企业单位平均每天收到的邮件中有至少百分之九十是垃 圾邮件,而电子邮箱用户平均每天可收到垃圾邮件多达2 1 封,而电子邮箱用户 在识别和删除每一封垃圾邮件时,大约要耗时1 6 秒。 因此,对垃圾邮件的检测与过滤,保障网络资源、用户利益及整个信息社 会的秩序已成为刻不容缓的重要课题。研究垃圾邮件过滤技术的目的正在于此, 它可以检测邮件,及时发现并识别可疑的邮件,以及明显的垃圾邮件,从而可 以采取有效的措施阻止其进入用户的邮箱,减少垃圾邮件带来的不必要损失。 还是根据m a s s a c h u s e t t s 的n u c l e u sr e s e a r c h 的研究结果:垃圾邮件的泛滥 对美国企业的每位员工可造成平均7 1 2 美元的经济损失,同时每年可给企业造 成7 0 0 亿美元的经济损失。再来看看中国的情况,据中国互联网协会反垃圾邮 件中心 2 0 0 7 年第四次反垃圾邮件调查,以2 0 0 7 中国国民经济生产总值为依 据,垃圾邮件将给中国的国民经济每年造成约为1 8 8 4 亿人民币的损失,计算还 尚未计入诸如邮件服务器处理垃圾邮件的额外付出、存储成本,以及用于处理 垃圾邮件的技术人力付出所造成的损失。 除经济损失外,垃圾邮件的危害【2 】还有很多,主要有以下几个方面: 1 垃圾邮件的泛滥占用了大量的网络带宽资源、服务器存储资源、邮件用 户时间等,增加了网络服务的运营成本,不仅是对宝贵的社会资源的严重耗费, 同时也直接降低了社会的生产效率,造成了多重的损失。 2 日益增长的垃圾邮件数量已经远超正常邮件,并且有淹没正常邮件的趋 势,这种情况长期存在,将严重干扰正常信息的传递与流动。 3 由于垃圾邮件附载大量虚假、不健康、甚至危害社会稳定与安全的信息, 并且垃圾邮件的发送处于非受控状态,对国家的信息安全造成一定的威胁1 3 】。 上述表明,垃圾邮件泛滥已成为制约电子邮件服务健康发展的瓶颈,垃圾 邮件问题已经不仅仅是1 1 r 领域的技术性问题,而是一个影响范围广泛的社会性 哈尔滨理t 大学_ t 学硕十学位论文 问题。 因此,研究安全高效的垃圾邮件过滤技术具有重大的理论和实践意义。 1 3 邮件过滤技术概述 自从发现垃圾邮件的危害以来,人们开始着手研究垃圾邮件过滤技术,传 统的邮件过滤技术包括基于黑名单的过滤技术,是指对发件人的邮箱地址、域 名或者m 地址进行过滤,一旦某个地址或域名被指定为过滤对象时,那么从这 个地址或域发来的邮件都会被过滤掉,很多被指定拒绝的地址列在一起,就称 为黑名单,基于特征的过滤技术,原始邮件可以分为信件头和信件内容两部分, 其中信件头部包括路由等特征,信件内容包括大小等特征,对比正常邮件和垃 圾邮件,就会发现垃圾邮件的某些特征信息,从而实现基于特征的过滤技术; 基于关键词的过滤技术,指把某个或某些关键词设为判定依据,凡是内容中含 有该关键词或者该关键词出现的频率超过一定阈值的邮件都会被过滤;基于内 容的过滤,是指对邮件的内容进行扫描,采用自然语言理解相关技术对邮件进 行分类,从而过滤垃圾邮件;基于行为识别技术的过滤,是指根据邮件发送的 行为特征判断该邮件合法性的过滤技术,这是一项比较新的邮件过滤技术。 1 3 1 两种主流垃圾邮件过滤技术对比 目前,社会上存在的邮件过滤技术,大体上可以分为两大派,核心技术分 为基于内容的过滤技术和基于行为识别的过滤技术吣l 。至于传统的黑名单过滤 技术、特征过滤技术等在这两大派中都可以采用。内容过滤倡导者称任何邮件 不管其信息怎样编码、如何传送,最终呈现给网络用户的还是可以理解的内容 信息,所以就可以采用自然语言理解技术对其内容进行扫描并分类,实现过滤。 行为识别技术倡导者认为,垃圾邮件在发送过程中有别于正常邮件,具有一定 的行为特征,所以可以在不接受邮件数据的情况下,根据其发送行为就能判定 其合法与否,从而可以节省宝贵的网络宽带资源。 内容识别过滤技术和行为识别过滤技术各有优点,任何一种技术做到极致 都能有效的实现垃圾邮件过滤,但是他们也有缺点和不足,基于内容过滤【6 7 l 的 优点是过滤更加智能化,准确率和召回率都能做到很高,缺点是内容过滤对垃 圾邮件攻击防御非常被动,始终没有跳出内容匹配过滤的技术局限,它们需要 将邮件完整接收下来后,对邮件按照指定语言进行分词处理,并与一个有着数 以百万计的词库进行逐一匹配,从而判断该邮件是否为垃圾邮件。由于人类语 哈尔滨理t 大学- 下学硕二仁学位论文 言变通连贯性极强,随意修改关键词内容,原先的词库里就找不到匹配的关键 词,从而就无法判断出垃圾邮件,同时内容过滤技术大量占用计算机硬件资源 和网络资源,大大降低了网关的工作效率,甚至造成死机,直接影响对企业的 管理成本增加。单纯的行为识别技术对垃圾邮件判定的准确率可以达到一个较 高的指标,但是召回率却不易提高,然而其优点就是能够在不用接收邮件数据 的情况下判定邮件的合法性或非法性,所以可以减少由于垃圾邮件而浪费的网 络资源。其实,这两种技术的应用领域同属于网络安全体系,只是在体系中不 同层面的应用。网络安全三层体系结构如图l - l 所示: 行为识别 过滤技术 内容识别 过滤技术 图1 - 1网络安全三层体系结构 f i g 1 - 1s y s t e ms t r u c t i l i - eo f3 - l a y e r n e t w o r ks e c i t r i t y 最外层也是最基础的层面是技术安全,简单来讲就是指网络的抗攻击能力 方面的安全属性、健壮属性等;中间层是信息安全,指的是对信息进行“信号 方面的处理,如编码、加密等,从而实现信息方面的安全,如邮件字符集编码 和传输编码等;最内层是内容安全,它也是网络安全的核心层,指的是直接理 解内容来判断网络信息是否合法、安全。邮件过滤中基于内容过滤技术主要基 于这一层面,但是对邮件内容处理前的一些前期工作,如邮件的编码等属于信 息安全层面,而通信行为识别技术主要是基于技术安全层面的,它从传输的物 理信息如协议信息来判断邮件是否合法。 行为识别技术和内容理解技术不是对立的,而是统一的,在现有的网络带宽 资源情况下,二者结合必将显著提高邮件过滤的效果。 哈尔滨理工大学1 = 学硕士学位论文 1 3 2 垃圾邮件现状及发展趋势 随着垃圾邮件过滤技术的发展,垃圾邮件制造者也在不断的制作出各式各 样的新形式的垃圾邮件以躲过现有的邮件过滤技术。同时,垃圾邮件也越来越 把握用户的兴趣方向,以实现其制作的初衷。例如2 0 0 7 年1 0 月赛门铁克发布 的9 月月度垃圾邮件报告中指出,垃圾邮件中存在着p d f 文件、图片附件以及 电子贺卡等形式。垃圾邮件发件人开始涉足美国住宅市场,发送关于美国住房 大降价和最新利率降低的相关信息,并以大写字母标题来引人注意。 而根据中国万网提供的( 2 0 0 7 年第三季度垃圾邮件趋势报告中提到:在 今年第三季度,出现了更多新的、综合性更强的垃圾邮件制作技术,其中有伪 装成p d f 、e x c e l 、熟人的邮件地址进行发送,并有各种链接连到带有病毒的网 页或钓鱼网站,垃圾邮件发送者还利用受其控制的电脑,不断更换i p 进行发送。 在2 0 0 7 年7 月中下旬,垃圾邮件制造者开发出一种新的垃圾邮件,即“哄 抬股价 的垃圾邮件。这次传播中的文本、e x c e l 和p d f 文件包含垃圾邮件内容 后被压缩,然后作为电子邮件附件被发送。垃圾邮件发送者试图再次绕过文本 和图像【8 l 扫描引擎。 由以上资料可以看出,垃圾邮件越来越难于防范,其形式越来越难于识别, 并在一直不停的变换形式和特性。未来的垃圾邮件还会有更加变化多端的面貌。 1 3 3 国内外邮件安全厂商及主要产品 国外主流邮件安全厂商主要有:i r o n p o r tc s c o t tw e i s s ( 2 0 0 7 年1 月思科 以8 3 亿美元将i r o n p o r t 收入麾下) 、s y m a n t e c ( 赛门铁克,世界第一大软件供 应商,主要产品有n o r t o n ,s e s 等) 、c y a n l o t u s ( 青莲) 、b a r r a c u d a n e t w o r k s ( 博 威特网络) 、c i p h e r t r u s t 等。 c y a n l o t u s 青莲的u m a i l ( 邮密友) 方案是在美国、中国等国家注册的专 利技术方案,它组合一种新型的电子邮件发送方式、提供掩护账号和第三方垃 圾邮件过滤服务等形成一整套完备的反垃圾邮件方案,非常有效的解决邮件群 发攻击、垃圾邮件泛滥、邮件账号安全等问题。 其他的国际知名厂商的反垃圾邮件产品有:美国博威特网络技术公司的产 品b a r r a c u d as p a mf i r e w a l l ( 梭子鱼垃圾邮件防火墙) ;安全公司t u m b l e w e e d c o m m u n i c a t i o n s 的产品t u m b l e w e e de m a i lf i r e w a l l ;美国k o n p o r t 公司的产品 i r o n p o r tc s e r i e s ;c i p h c r t r u s t 公司的i r o n m a i l 等。其中博威特网络技术公司2 0 0 7 哈尔滨理工大学t 学硕二卜学位论文 年3 月宣布在梭子鱼垃圾邮件防火墙中提供第三代图像防御技术。该技术的发 布使全球梭子鱼用户免受更加复杂的图片垃圾邮件的影像,使这些新形式的垃 圾邮件失效。 国内主要厂商有:天融信、启明星辰、趋势科技、敏讯科技、硕琦科技等。 比较好的企业级邮件网关产品主要有:冠群金辰公司的k i l ls h i e l d g a t e w a y :美讯智安全信息网关( s e c u r em e s s a g eg a t e w a y ,简称s m g ) :北京天 融信公司的防垃圾邮件网关n g f g a s 等。 1 4 本文研究的主要内容 本文在查阅大量文献的基础上,对垃圾邮件检测的分析方法研究上做了以 下几个方面的工作: 1 比较邮件过滤方法,将行为识别技术应用于垃圾邮件过滤; 2 为了提高邮件过滤的检测效率和实时性,提出了改进的c a 5 决策树算 法; 3 数据预处理,即把邮件服务器的原始日志文件中的数据采用了属性匹配 法进行离散化处理; 4 二次处理,即对处理后生成的决策树进行剪枝处理,从而对测试数据进 行高效,准确的测试; 5 仿真实验,得出结论,并与目前已有的过滤技术进行了比较。 哈尔滨理工大学工学硕十学位论文 第2 章垃圾邮件过滤研究现状 2 1 电子邮件原理简介 2 1 1 电子邮件的概念 电子邮件( 简称e - m a i l ) 又称电子信箱,它是一种用电子手段提供信息交 换的通信方式,是全球多种网络上使用最普遍的一项服务。它萌芽于i n t e m e t 出现的早期。1 9 7 2 年,r a yt o m l i n s o n 写了第一个电子邮件程序s n d m s g ,在 i n t e r n e t 的前身a r p a n e t 上使用。随着电子邮件技术与标准不断改进和成熟, i n t e r n e t 的飞速发展和普及,电子邮件以其简单、快捷、方便、低成本的特点, 得到广泛的应用。据统计目前全世界的电子邮件账户超过1 0 亿个,成为到目前 为止,可以说电子邮件是i n t e r n e t 资源使用最多的一种服务,改变了现代人的通 信方式。现代的电子邮件已不像初期只能传输简单的邮件,还可用来传输文件、 声音、图形和动画等多媒体信息。 2 1 2 邮件地址与邮件格式 e - m a i l 像普通信件一样,也需要地址,它与普通邮件的区别在于它是电子 地址。一个完整的i n t e r n e t 邮件地址由以下两个部分组成,格式如下: l o g i n n a m e f u l lh o s tn a m e d o m a i nn a m e 即:登录名 主机名域名 中间用一个表示“在一( a t ) 的符号“ 分开,符号的左边是对方的登录名, 右边是完整的主机名,它由主机名与域名组成。其中,域名由几部分组成,每 一部分称为一个子域( s u bd o m a i n ) ,各子域之间用圆点“一隔开,每个子域都 会告诉用户一些有关这台邮件服务器的信息。 标准的电子邮件由信头和信体两部分组成。在r f c 8 2 2 中,信体只是一系 列的文本行,并没有附加的结构或含义;信头被分成若干行,每一行都由一个 字段名后跟冒号和一个字段值组成。这些字段给出了邮件的收信人、发信人、 发送时间、邮件主要内容、邮件在传输过程中的路由情况等信息。以下是邮件 中的主要字段及说明 9 a o i : f r o m :用于表述产生这个邮件的人,通常含有一个信箱。若提供几个电子 信箱,该邮件必须包含一个s e n d e r 字段。 哈尔滨理工大学工学硕士学位论文 s e n d e r :用于指示邮件发送人与邮件创建者是否不同。 r e p l y t o :用于控制邮件要回复的地址。 t o :表示邮件的主要收件人。也可带多个地址。 c c :用于指定邮件的抄送人。 b c c :为密件抄送缩写。 s u b j e c t :用于描述邮件的主题。 m e s s a g e - i d :用于表示一个邮件唯一标识,通常由s m t p 服务器生成。 d a t e :电子邮件创建的日期和时间 r e c e i v e d :邮件投递服务器记录。处理邮件投递的每个服务器必须给它处理 的每个邮件信头的前面加一个r e c e i v e d 字段,用以描述邮件到达目的地所经过 的路径。当跟踪各种电子邮件时,这个信息是非常有效的,如:“r e c e i v e d :f r o m c o m p a n y m a i l 1 2 7 0 0 1 b yc o m p a n y m a i l 【1 2 7 0 0 1 】w i t hr a w ( m d a c m o n v 2 7 s p 3 1 ) f o rw a n g c o m p a n y m a i l ;t u e ,0 4 ,d e c2 0 0 116 :19 :0 2 + 8 0 0 一开始,r f c 文档对邮件体的定义非常简单,仅仅是由a s c i i 字符组成的 若干行正文,随着s m t p 邮件的流行,人们希望能在电子邮件中发送非a s c i i 字符的数据,早期的s m t p 邮件软件使用u u e n c o d e 来发送二进制数据。u u e n c o d e 程序使用3 :4 的编码方案,即把3 字节映射成为4 个可打印的u s - a s c i i 字符 组( 3 字节的8 位b i t 换成4 字节的6 位b i t ,每个字节加上2 0 h ,若字节的值为 0 ,则加上6 0 h ) 。 为了满足对邮件内容的要求,现在出现了一种对二进制数据编码的互联网 标准:m i m e 。m i m e 的报文格式在r f c 2 0 4 5 和2 0 4 6 中定义。m i m e 的功能比 u u e n c o d e 要丰富得多,它将关于文件的附加信息也同时传送给解码器,使解码 器可以自动检测不同类型的二进制文件并解码。m i m e 使二进制数据可以直接 加到标准的r f c 8 2 2 邮件中,通过在邮件头中新增加5 个字段来标识嵌入的二 进制数据类型。m m e 新增字段及说明如下: m i m e v e r s i o n 字段:用来标识发送方编码所使用的m i m e 版本,当前该值 总为1 0 ; c o n t e n t - t r a n s f e r - e n c o d i n g 字段:标识嵌在邮件中的二进制数据是怎样被编 码的,目前有7 种不同编码方式; c o n t e n t - i d 字段:使用一个唯一的标识号标识邮件中m i m e 部分,通过该 标识号,一封邮件中的m i m e 内容可以被另一封m i m e 邮件引用; c o n t e n t - d e s c d p t i o n 字段:该字段是一段关于数据的a s c i i 文本描述信息, 用来在邮件中确定数据; 哈尔滨理t 大学工学硕士学位论文 c o n t e n t - t y p e 字段:标识被m i m e 封装的数据类型。由子类型参数s u b t y p e 说明,目前定义了7 种基本类型:t e x t - 一文本类型、m e s s a g e 一报文类型、i m a g e - 图像类型、v i d e o - - 视频类型、a u d i o - - 声音类型、a p p l i c a t i o n - 一应用程序类型和 m u l t i p a r t - 混合类型。 2 1 3 邮件系统的实现原理 一个电子邮件系统主要由三个模块组成:邮件分发代理( m a i ld e l i v e r y a g e n t ,m d a ) 、邮件传输代理( m a i lt r a n s f e ra g e n t ,m t a ) 和邮件用户代理( m a i l u s e r a g e n t ,m u a ) ,各模块执行邮件系统中的一部分特定功能。 m d a 程序负责将邮件分发到服务器上的本地用户。当m t a 程序决定某份 邮件应发往本地用户时,m t a 程序将邮件交给m d a 程序来进行分发,此时, m d a 程序将确保邮件发往正确的目的地。 m t a 软件负责处理所有接收和发送的邮件。对每一个外发的邮件,m t a 决定接收方的目的地。若目的地主机是本机,则m t a 将邮件直接发送到本地邮 箱或交本地m d a 进行投递,若目的地主机是远程邮件服务器,则m t a 必须使 用s m t p 协议在互联网上同远程主机通信。 m u a 程序的职责是允许远程客户读取他们在本地服务器上邮箱中的邮件, 通常这些客户使用p o p 协议或者是i m a p 协议连接邮件服务器。本地用户也可 以使用m u a 程序来访问邮箱中的邮件。 图2 1 为电子邮件传输的模型图。 图2 - 1 电子邮件处理示意图 f i g 2 - 1e - m a i lp r o c c 髂i n g 目前使用的s m t p 协议是存储转发协议,意味着它允许邮件通过一系列的 服务器发送到最终目的地。服务器在一个队列中存储到达的邮件,等待发送到 下一个目的地。下一个目的地可以是本地用户,或者是另一个邮件服务器,如 图2 - 2 所示: 哈尔滨理t 大学丁学硕士学位论文 图2 - 2 电子邮件处理示意图 f i g 2 - 2e - m a i lp r o c e s s i n g 如果下游的服务器暂时不可用,m t a 就暂时在队列中保存信件,并在以后 尝试发送。 2 1 4 电子邮件协议 为了规范电子邮件的发展,出现了一系列相应协议,它们由一组 r f c ( r e q u e s tf o rc o m m e n t ) 文档进行定义,电子邮件的核心结构在r f c8 2 2 和 r f c1 1 2 3 p 这两个文档中定义。 2 1 4 1 简单邮件传输协议( s m t p ) 简单邮件传输协议( s i m p l em a i lt r a n s f e r p r o t o c o l ,s m t p ) 是互联网上m t a 服务器间传递邮件最基本的协议,互联网上的 任何一台主机都可以通过s m t p 协议向其它主机发送邮件。s m t p 在互联网标 准r f c 8 2 1 中定义,于1 9 8 2 年8 月2 1 日第一次公布,s m t p 在2 5 号端口建立 t c p i p 连接,使用简单的a s c i i 码文本命令,返回3 位数据的返回码和一些 a s c i i 码文本信息。图2 3 为s m t p 模型示意图。 发送 smtp 发送smt p smt p co mma n d s r e p l i e s an dma i l 接受 smt p 图2 3s m t p 模型 f i g 2 - 3s m t pm o d e l 1 0 接受s mt p 哈尔滨理工大学工学硕十学位论文 2 1 4 2 扩展的简单邮件传输协议( e s m t p ) 随着s m t p 的流行,最初的协议中 也暴露了一些缺点,对此开发者们并没有创建一个新的协议,而是决定采用新 的命令来扩充基本的s m t p 命令。扩充后的协议被命名为扩展的简单邮件传输 协议( e x t e n d e ds i m p l em a i lt r a n s f e rp r o t o c o l ,e s m t p ) 。e s m t p 所实现的一个很 重要的安全特性是提供m t a 主机登录到接收e s m t p 端主机的能力。在e s m t p 协议中引入了a u t h 命令,客户机能使用a u t h 命令向服务器主机发送用户名 和密码来验证自己。这种验证方法有利于确定远程的身份。 2 1 4 3 邮局协议( p o p ) 最简单的m u a 协议是邮局协议( p o s to 伍c ep r o t o c o l , p o p ) ,第一个关于p o p 的r f c 文档是1 9 8 4 年发表的r f c 9 1 8 ( 邮局协议) , 描述了一个基本的、试验性的p o p 实现。后来该协议几经修改,最后于1 9 9 6 年发表的r f c 1 9 3 9p o s to 伍c ep r o t o c o lv e r s i o n3 成为当前的p o p 标准,通常称 为p o p 3 。工作站上的m u a 程序使用p o p 3 协议访问并读取用户邮箱中的邮件 使用p o p 3 协议时,用户激活一个p o p 3 客户,该客户创建一个t c p 连接,连 到具有邮箱的计算机上的p o p 3 服务器。用户首先发送登录名和口令,以鉴别 会话。一旦接受鉴别,用户则可以发送命令,检索邮件的副本,或从永久邮箱 中删除邮件。带有永久邮箱的计算机必须运行两个服务器,一个是s m t p 服务 器,接收发送给用户的邮件,并把传入的邮件增加到该用户的永久邮箱中;另 一个是p o p 3 服务器,允许用户从邮箱中提取邮件并将其删除。两个服务器协 调对永久邮箱的使用。 2 1 4 4 交互式邮件访问协议( i m a p ) 尽管p o p 3 实现起来非常简便而且也被邮 件客户端软件所广泛支持,但它也存在缺陷,通常邮件被一股脑地从邮件服务 器端下载,然后在服务器端就被删除。这就会影响一些经常使用不同计算机的 用户,他们邮箱中的邮件被分割成几个部分,分别位于不同地方的几台不同的 计算机上。为解决这一问题,华盛顿大学开发了交互式邮件访问协议( i n t e r a c t i v e m a i la c c e s sp r o t o c o l ,i m a p ) ,i m a p 最新的版本号是4 ,并经过了1 次修订 ( v e r s i o n4r e v i s i o n l ) ,所以简称i m a p 4 r e v l ,该协议定义在r f c 2 0 6 0 中。i m a p 4 与p o p 3 不同的是,允许用户从多个地点访问邮箱而不会出现邮件被分割在不 同计算机上的情况,还允许用户动态创建、删除或重命名邮箱,提供了邮件检 索和处理的扩展功能。同p o p 3 协议类似,i m a p 协议也采用客户机服务器命 令模式。 哈尔滨理工大学工学硕士学位论文 2 2 邮件过滤的类型。 邮件过滤按执行方法分,可分为两种:一种是基于地址的方式,根据发送 方的邮件地址或口地址,拒绝接收不正当的邮件攻击;另一种是基于内容的方 式,通过对邮件内容进行检查,来决定是否接收邮件。 邮件过滤从电子邮件体系角色结构来分,可分为:邮件传输代理过滤 ( m t a ) 、邮件投递代理( m d a ) 、邮件用户代理过滤( i d a ) 等。 2 2 1m t a 过滤 邮件传输代理( m t a ) 过滤是指m t a 在会话过程中,对到达邮件进行检查 m t a 过滤可以在邮件会话过程的两个阶段中分别进行: 第一个阶段称为信封检查,是指在发送邮件数据前,即在发送d a t a 指令 前的过滤。首先在s m t p 连接时可检查到达的地址是否在黑名单口表中;其次 可以验证h e l o 和e h l o 提供的值,检查是不是f d q n ( 完全限定域名,包括完整 的主机名、域名的地址) 、是不是要求的身份等;也可对m a i lf r o m 指令所提 供的邮件来源,检查是不是有效域( 可以通过d n s 反向查询检查) ;最后可对 r c p tt o 指令所提供邮件接收者,检查是不是属于允许转发的域、是不是通过 认证的发信人等。若在检查中该会话符合过滤的条件,就可以按照规则采取相 应的动作,如直接在会话阶段断开连接、发出警告代码等。 第二阶段称为信头和信体检查,是指在发送邮件数据后,即在发送d a t a 指令后的过滤。在d a t a 指令所传送的数据中包括信头和信体两部分,它们是 通过一个空行分隔开的。信头一般都比较小,通常在l l ( b 一1 0 k b 之间,所以 检查比较快,垃圾邮件通常在信头中都有一定的特征可供识别。通过这些特定 的信头字段可以识别垃圾邮件。但有时候信头检查还不足以判断一封邮件是否 是垃圾邮件,往往还要进行信体内容的检查。邮件发送邮件数据后的检查实际 上是在邮件数据传输基本完毕后进行的,因此并不能节省下被垃圾邮件占用的 带宽和处理能力,只是可以让用户不再收到这些已被过滤的垃圾邮件。 2 2 2m d a 过滤 m d a 过滤是指m d a 从m t a 中接收到邮件,在本地或远程进行递交时进 行检查,对于符合过滤条件的邮件进行过滤处理。虽然邮件要通过m t a ,但大 多数的m t a 过滤器并不检查邮件的内容,对邮件内容的过滤就由m d a 来完成, 哈尔滨理- t 大学t 学硕士学位论文 m d a 具有较大的灵活性,一些复杂的过滤器就是使用m d a 过滤来完成的。 很多的m d a 都支持在这个过程进行过滤,如p r o e m a i l 、m a i l d r o p 和 c y r u s i m a p 等,甚至它们本身就是作为过滤器使用的。这些过滤器使用过滤语 言( 如s i e v e ,一种标准化的邮件过滤语言,现在已成为i e t f 标准) 来制订过 滤规则。这些规则通常定义在一个配置文件中,修改起来比较简便。m d a 过滤 器条件是面向基于字段的内容标识,它们可以验证信头和信体的内容。另外, m d a 还具有扩展功能,通过接口把邮件提交给外部程序进行复杂处理;有的 m d a 过滤器有内置的程序设计语言,从而可将一些附加功能编制到过滤器程序 中。 与m t a 过滤器

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论