




已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)客户端垃圾邮件过滤系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
客户端垃圾邮件过滤系统的研究与实现 摘要 由于互联网的普及,e m a i l 已成为日常生活中最流行、最方便、最经济的通 信手段。然而,在收到有用信息的同时,用户也收到各种各样的垃圾邮件,垃圾 邮件的泛滥给互联网用户带来很多烦恼和侵害,也给社会带来了极大的负面影 响。因此,我们迫切需要一种更为有效的、更加智能化和个性化的垃圾邮件过滤 技术来治理日益猖撅的垃圾邮件问题。 本文对电子邮件工作原理、s m t p 协议和邮件格式特征进行了详细的分析, 指出了s m t p 协议的缺陷,并介绍了追踪垃圾邮件来源的方法;在对各种反垃圾 邮件技术进行研究及分析的基础上,设计与实现了一种客户端垃圾邮件过滤系 统。该系统采用多层过滤,使用黑白名单技术和基于c c e r t 规则集相结合的过 滤技术,并对黑白名单技术进行了改进,通过引入用户反馈机制,能适应特定用 户的个性化需求,从而降低误报率,提高反垃圾邮件系统的准确性和可用性。针 对基于内容的过滤系统的攻击,使用一种改进的关键字匹配算法,增强了系统的 过滤能力。 关键词:垃圾邮件内容过滤规则过滤用户反馈 s t u d ya n di m p l e m e n t a t i o no fs p a mf i l t e r i n gs y s t e m b a s e do nt h ec l i e n ts i d e a b s t r a c t e m a i li sb e c o m i n gt h em o s tp o p u l a r , c o n v e n i e n ta n de c o n o m i cm e a n so f c o m m u n i c a t i o n ,d u et oi t sc h e a p n e s sa n dt h ep o p u l a r i z a t i o no fi n t e r a c t h o w e v e r ,a t t h es a m et i m e ,w h e nu s e r sr e c e i v et h e i ro w nm e s s a g e s ,t h e ya r ea l s oa n n o y e db yt h e v a r i o u sa d sf r o mn e t w o r k ,t h ef l o o d i n go fa l lk i n d so fs p a r nh a sb e c o m eah e a d a c h e p r o b l e mf o rh u m a na n ds o c i e t y t h e r e f o r e ,a ne f f e c t i v e ,s m a r ta n df l e x i b l es p a m f i l t e r i n gt e c h n o l o g yi si n d i s p e n s a b l e a f t e ra n a l y z i n gt h ep r i n c i p l eo fe m a i ls y s t e m ,t h es m t pp r o t o c o la n dt h ef e a t u r e o fe m a i lf o r m a ti nu n i x l i n u xs y s t e m ,t h i st h e s i sp o i n t so u tt h eb u g so fs m t p p r o t o c o la n di n t r o d u c e st h em e t h o d so ft r a c i n gt h es o b r c eo fs p a m o nt h eb a s i so f r e s e a r c hi nt h ea n t i s p a r et e c h n o l o g y , t h ea u t h o rp u tf o r w a r dap r o j e c to fs p a r e f i l t e r i n gb yc o m b i n i n gt h em e t h o d so nt h eb a s i so ft h et h ec l i e n ts i d e f i l t e r i n g t e c h n o l o g i e s t h a tc o m b i n ea i m p r o v e d b l a c k l i s ta n dw h i t e l i s tt e c h n o l o g ya n d t e c h n o l o g yw h i c hi sb a s e do nc c e r t r u l e sa lee m p l o y e di nt h em u t i - l a y e r sf i l t e r i n g s y s t e m ,b yi n t r o d u c i n gt h en o v e lu s e r s f e e d b a c km e c h a n i s m ,t h es y s t e mc a na d a p t r e q u i r e m e n to fs p e c i f i cu s e r st of u l f i l ls p a mf i l t e r i n g a n dt h et e c h n i q u ei sa b l et o r e d u c ef a l s ep o s i t i v e sa n di m p r o v et h ev e r a c i t ya n da v a i l a b i l i t yo fa n t i - s p a r e s y s t e m a t t a c k st oc o n t e n t - b a s e de - m a i lf i l t e r , a ni m p r o v e da l g o r i t h mf o rc h i n e s e s t r i n gm a t c h i n gi sp r o v i d e d ,a n di m p r o v et h ea v a i l a b i l i t yo fa n t i - s p a ms y s t e m k e yw o r d s :s p a m :c o n t e n t b a s e df i l t e r :r u l e sf i l t e r i n g :u s e r sf e e d b a c k 插图清单 图1 1我国垃圾邮件数量所占比例3 图2 1电子邮件工作原理6 图2 2邮件传输过程。6 图2 - 3s m t p 模型9 图2 - 4s m t p 发送过程。9 图2 5 r f c 8 2 2 邮件格式1 4 图2 - 6m i m e 邮件格式1 6 图3 1基于规则过滤的体系框架。2 2 图4 1中文关键字匹配算法框图。3 5 图4 2用户反馈的邮件过滤模型3 6 图5 1邮件过滤系统总体结构。4 0 图5 2实验环境结构图。4 1 图5 3系统运行界面4 3 图5 4用户邮件列表4 5 表2 1 表2 - 2 表3 1 表4 - 1 表4 - 2 表4 3 表4 4 表4 5 表4 6 表4 7 表4 8 表5 1 表5 2 表格清单 一封邮件中的信头字段信息1 5 m i m e 信头字段17 c h i n e s er u l e s c f 和传统规则集比较2 3 b a s e 6 4 编码的邮件原始信息。2 6 b a s e 6 4 字母表2 7 垃圾邮件的信头特征3 l 白名单表结构。3 2 黑名单表结构3 2 关键字表结构3 3 敏感关键字表结构一3 4 规则库更新索引表结构。3 7 本系统过滤的实验结果4 6 c c e r t 规则集测试结果4 6 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得 金世王些太堂 或其他教育机构的学位或证书而使用过的材料。与我一同 工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者躲够京j 趴 签字日期:。7 狰多月,2 ,日 学位论文版权使用授权书 本学位论文作者完全了解金目巴王些太堂有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权盒起王些太堂 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 多参f 叭 签字日期:西净彭月,护 学位论文作者毕业后去向: , 工作单位:勃习埸承哆彳易乖学已乙 通讯地址:羽戌中互结以兰 导师签名: 1 力 签字日期:以墀易月及日 电话:;弓莎j 伽j 55 邮编: y 驴l ,矿 致谢 在研究生学习期间,我得到了很多老师和同学的指导和帮助。 首先要感谢侯整风教授的悉心指导和关心。他在项目进行过程当中创造的学 习环境以及适时的指导是项目得以成功的关键。侯老师以渊博的知识和深厚的专 业素养深深感染了我。导师渊博的学识、严谨的治学风范、诲人不倦的教育情怀 和对学生的严格要求,必将使我终生受益,并激励我勇往直前。 我还要感谢胡学钢教授和王浩教授,给了我宝贵的意见和指导。 同时,真诚感谢计算机学院所有给我授课的老师,他们热情地关怀和帮助让 我感觉无比的温暖,他们严谨的治学和教学态度给我留下深刻的印象。 我还要感谢我的家人,有了他们的理解和支持,我才有机会继续深造学习。 最后,衷心感谢评阅、评审、出席论文答辩会的各位专家在百忙中给予悉心 指导。 高良诚 2 0 0 8 年5 月 第一章概述 1 1 研究背景 随着互联网的快速发展,电子邮件已经成为人们日常生活中重要的通信方 式。相比传真、普通信件等传统的信息传递方式,电子邮件使用简单、易于保 存、花费低廉、传递迅速,可在短时间内与世界上任何一个角落中的网络用户 联系,所以电子邮件受到了人们普遍的欢迎。但是,近年来垃圾邮件的出现和 不断泛滥,严重干扰了人们正常的网络活动,给广大用户带来了巨大的麻烦。 2 0 0 7 年1 月,中国反垃圾邮件中心的 2 0 0 7 年第一次中国反垃圾邮件状 况调查报告显示,网民平均每周收到垃圾邮件2 2 1 封,发出电子邮件1 2 1 封。网民对互联网中垃圾邮件的反感度达8 7 ,垃圾邮件已成为继电脑病毒 之后的主要网络安全问题。垃圾邮件不但危害了互联网的发展、损害了用户的 利益、还易被黑客利用,成为散播病毒的主要工具,对社会造成危害。 针对垃圾邮件,普遍采用过滤技术对其进行过滤,目前的过滤技术己经取 得了很大的进步,但还不够成熟。过滤技术不能完全识别垃圾邮件,甚至会阻 断正常邮件的传递,这对于广大用户来说是无法接受的,一些关键领域会因一 封正常邮件的丢失而带来巨大损失。因此,研究有效的防治垃圾邮件的技术具 有重要的现实意义。 1 2 国内研究状况分析 目前,国内研究的过滤技术主要是基于内容的过滤。基于内容的过滤是一 种较成熟的垃圾邮件过滤技术,具有较高的智能性和准确率,得到比较广泛的 运用,但是由于垃圾邮件过滤是个复杂的问题,在技术上还没有哪一种方法能 完美的过滤所有的垃圾邮件。目前存在的主要问题如下【l 】: ( 1 ) 中文邮件的误判率较高 过去的研究主要集中在算法改进方面,而且大多数都使用统一的英文语料 库作为平台,对训练和测试结果进行比较分析。英文垃圾邮件的过滤己经达到 了比较高的准确率,但受中文分词的影响,对于中文垃圾邮件过滤,往往效果 并不理想。 中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 有些人也称之为切词。中文分词的准确性直接影响电子邮件分类的准确度。由 于中文的多义性,而且目前还没有公共的中文垃圾邮件语料库,研究者都是自 己用自己的语料,缺乏可比性,所以中文邮件的预处理显得更加困难。 ( 2 ) 垃圾词汇不易识别 反垃圾邮件技术进步的同时,垃圾邮件伪装技术也在不断的发展,垃圾邮 件制造者试图制造更难识别的垃圾邮件。垃圾邮件用词越来越隐晦,致使基于 内容的过滤器误判率增高。 ( 3 ) 垃圾邮件概念不明确 电子邮件的内容是随时间变化而变化的,用户的个性化需求也有所不同, 并且同_ 用户的需求也在不断的改变,这些变化都使得垃圾邮件判别标准发生 变化,这也是垃圾邮件过滤不易解决的问题。 对文本分类,每个类别的内容一般不会经常改变。而对垃圾邮件过滤,垃 圾邮件类别是和用户密切相关的,如一个产品宣传广告,有人认为是垃圾邮件, 但有人则认为是正常邮件,因此邮件的分类需更注重个性化。另外,用户对垃 圾邮件的判断标准也会随时间的推移而改变,而且垃圾邮件本身的内容形式也 在不断的变化。这些都造成邮件类别的不确定性。 1 3 垃圾邮件简介 1 3 1 垃圾邮件定义 迄今为止,垃圾邮件( s p a m 、j u n km a i l ) 在国际上没有统一的定义。普通 意义上的垃圾邮件指的是未经主动请求的大量的电子邮件,在中国互联网协 会反垃圾邮件规范中垃圾邮件被界定为【2 】: ( 1 ) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形 式的宣传品等宣传性的电子邮件。 ( 2 ) 收件人无法拒收的电子邮件。 ( 3 ) 隐藏发件人身份、地址、标题等信息的电子邮件。 ( 4 ) 含有虚假的信息源、发件人、路由等信息的电子邮件。 1 3 2 垃圾邮件的定量描述 根据上述垃圾邮件的定义,一封电子邮件是否是垃圾邮件可以用式( 1 1 ) 来衡量【3j ,m 的初始值为0 。 m = f ( x ,y z )( 1 - 1 ) 其中x = x l ,x 2 , ,x i 表示垃圾邮件的某一信头特征。各个x i 之间是互 相独立的变量。如果x i 是垃圾邮件的明确特征,则表明这极有可能是一封垃 圾邮件。例如x i 为非法的邮件服务器地址,则置变量m 为一较大值;如果x i 不是垃圾邮件的明确特征,例如发送服务器的域名与发件人域名不同,则只能 置m 为一个很小的值。 y 和z 分别为邮件标题、邮件正文和邮件附件经过垃圾邮件内容分析和 计算后得到的这封邮件属于垃圾邮件的概率值。之所以将邮件正文和附件分开 考虑,是因为绝大多数的垃圾邮件是没有附件的,因此不需要考虑附件。但是 我们不能排除仅在附件中含有垃圾信息的垃圾邮件,因此将邮件的正文和附件 的判断变量分开。至于y z 与m 之间的关系如何,这取决于使用的垃圾邮件 2 内容分析计算方法,本文不考虑z 的影响。 考虑到将一封合法邮件归为垃圾邮件带来的危害比将一封垃圾邮件归为 合法邮件带来的危害大得多,因此,将邮件类别分为三类:正常邮件、垃圾邮 件、疑似垃圾邮件,并且将判断邮件是垃圾邮件的阈值设置为较大值,本文设 定阈值为w l 和w 2 ( w l w 2 ) 。若: m w 1 ,表示这封电子邮件是正常邮件; w i m w 2 ,表示这封电子邮件是垃圾邮件。 1 3 3 垃圾邮件的现状 据统计,2 0 0 1 年垃圾邮件仅占电子邮件总量的7 ,到2 0 0 2 年即达到2 9 , 至2 0 0 3 年7 月就超过了5 l ,2 0 0 4 年1 月高达6 0 。2 0 0 7 年,中国互联网络 信息中心( c n n i c ) 发布的第十九次中国互联网络发展状况统计报告显示 h j ,我国网民平均每周收到2 2 5 封垃圾邮件,网民每周收到的垃圾邮件数是非 垃圾邮件数的近两倍! 如图1 1 所示。尽管近三年网民所收到的邮件中垃圾邮 件所占比例变化不大,但由于垃圾邮件总量增加了一倍多,反垃圾邮件形势不 容乐观。 图1 1我国垃圾邮件数量所占比例 1 3 4 垃圾邮件的危害 电子邮件的特性,决定了垃圾邮件的发送成本是极低的,垃圾邮件发送者 通常通过各种群发工具,只需花费较少的时间和金钱,就可以大量发送垃圾邮 件。然而,对电子邮件服务提供商和用户而言,垃圾邮件却给他们带来很大的 危害和损失。据n u c l e u sr e s e a r c h 公司的最新研究报告称,2 0 0 7 年垃圾邮件 给全球的生产力造成的损失以及反垃圾邮件的投资预计将达到7 0 0 亿美元。具 体的说,其危害主要表现在以下几个方面: ( 1 ) 占用网络资源。 大量的垃圾邮件会占用有限的网络带宽,干扰邮件系统的正常运行。当有 限的网络资源和网络带宽上充斥着大量的垃圾邮件时,严重地降低网络的使用 效率。另外,当一些用户利用邮件服务器对外发送垃圾邮件时,该服务器会被 列入黑名单而遭到封杀。仅2 0 0 7 年1 0 月至2 0 0 8 年3 月中旬,我国就有3 0 0 多个i p 地址段被国外反垃圾邮件组织列入黑名单,导致我国大量用户无法与 国外进行正常通信。 ( 2 ) 浪费服务器资源 垃圾邮件接收或转发会消耗服务器处理资源,收到的垃圾邮件会占用其磁 盘空间,而对垃圾邮件进行过滤同样需要消耗大量服务器运算资源。 ( 3 ) 增加用户处理时间 垃圾邮件增加了用户对邮件的处理时间,浪费了用户的精力。如果我们每 天都要花费一段时间来处理垃圾邮件,工作效率就要降低,对整个社会来说, 被浪费的时间更是一大笔宝贵的财富。更重要的是,垃圾邮件可能会影响用户 对正常邮件的接收,造成正常邮件的丢失,给用户带来损失。 ( 4 ) 对网络安全形成威胁。 黑客们利用电子邮件系统发送数以万计的垃圾邮件来攻击目标服务器,使 之瘫痪、拒绝服务。垃圾邮件还可以被病毒利用,成为它们的传播途径。 ( 5 ) 散布有害信息。 垃圾邮件成为反动,黄色等不良信息的主要传播载体,少数别有用心者利 用垃圾邮件散播各种虚假信息或有害信息,给社会带来了极大的负面影响,严 重危害了社会的稳定。 1 4 本文的主要工作 考虑到基于内容的垃圾邮件过滤技术存在的主要问题,本文将在以下几方 面进行工作: ( 1 ) 介绍研究垃圾邮件的背景、现状和垃圾邮件的危害,介绍和分析了反 垃圾邮件技术和垃圾邮件技术的特点。 ( 2 ) 针对中文邮件过滤存在的问题,在对垃圾邮件进行数字描述,将邮件 类别分为三类的基础上,提出了基于客户端的邮件过滤技术。 ( 3 ) 对基于客户端的邮件过滤技术进行研究,提出多层过滤策略,采用黑 白名单和基于c c e r t 规则集的规则过滤技术,并引入用户反馈机制,增加邮 件类别判定的准确性。 ( 4 ) 对基于客户端的垃圾邮件过滤系统进行总体的设计和实现,并对垃圾 邮件过滤系统进行测试,实验结果表明,本系统有一定的实际意义。 1 5 论文的组织安排 本文共分六章,安排如下: 4 第一章:概述。概括垃圾邮件过滤技术的背景和研究现状,介绍了垃圾邮 件的定义、现状和危害,并对垃圾邮件进行了定量描述。 第二章:电子邮件系统工作原理。介绍了电子邮件工作原理、t c p i p 协 议、s m t p 协议和p o p 3 、m i m e 协议,对s m t p 协议、邮件格式特征等进行 了分析。 第三章:反垃圾邮件技术研究及分析。概括介绍了垃圾邮件技术和反垃圾 邮件技术,重点研究分析了基于规则的反垃圾邮件技术在邮件过滤中的应用。 第四章:客户端垃圾邮件过滤研究。在基于规则的垃圾邮件过滤技术的基 础上,结合黑白名单技术,提出了一种基于客户端的多层垃圾邮件过滤方案, 通过使用c c e r t 规则集,减少了通过邮件训练集学习的时间,根据用户反馈, 通过机器学习解决过滤规则更新的问题。 第五章:客户端垃圾邮件过滤系统的设计与实现。在客户端垃圾邮件过滤 方案的基础上,设计并实现了的客户端垃圾邮件过滤系统。 第六章:结束语。总结全文,提出了进一步的工作。 第二章电子邮件系统工作原理 2 1 电子邮件的工作原理 电子邮件与普通信件有类似的地方,发信者需要注明收件人的姓名与地址 ( 即邮件地址) ,发送方服务器把邮件传到收件方服务器,收件方服务器再把邮 件发到收件人的邮箱中。如图2 1 所示: 图2 1电子邮件工作原理 电子邮件的传输过程涉及到以下三个角色【5 】: m u a ( m a i lu s e r a g e n t ) ,邮件用户代理,帮助用户读写邮件; m t a ( m a i lt r a n s p o r ta g e n t ) ,邮件传输代理,负责把邮件由一个服务器 传给另一个服务器或邮件投递代理; m d a ( m a i ld e l i v e r ya g e n t ) ,邮件投递代理,把邮件投递到用户的邮箱 里。 目前使用的s m t p 协议采用存储转发机制,即它允许邮件通过一系列的 服务器进行中转,最后发送到最终目的地。整个邮件传输过程如下:一封邮件 到达服务器后,存储在服务器队列中,等待发送到下一个目的地。下一个目的 地可以是本地用户,也可以是另一个邮件服务器,如图2 2 所示。 图2 - 2邮件传输过程 如果目的服务器暂时不可用,m t a 就暂时在队列中保存信件,间隔一段 时间后再尝试发送。 2 2t c p ip 体系结构 互联网( i n t e r n e t ) 的原型是1 9 6 9 年建立的a p a r n e t 。1 9 8 3 年1 月1 日, 经过多方谈判,a p a r n e t 成为支持t c p i p 协议的网络,标志着互联网进入 快速发展时期。正是t c p i p 协议的出现,才使得互联网得以在全世界范围内 迅速发展,给人们的日常生活和工作带来了巨大的改变。 6 2 2 1t c p i p 体系结构概述 t c p i p 协议的体系结构分为4 层【6 】【7 】。 ( 1 ) 子网层 子网层( 又称网络接口层) 负责将i p 数据包通过网络发送,或者从网络 上接收物理帧,抽出i p 数据报,交给i p 层。它定义了将数据组成正确帧的规 程和在网络中传输帧的规程。帧是指一串数据,它是数据在网络中传输的单位 【8 儿9 】 a ( 2 ) 互联网层 互联网层功能包括寻址、数据包封装( 拆解) 和路由,本层定义了互联网 中传输的“数据包 格式,以及一个“信息包 通过一个或多个路由器j 最终 到达目标的转发机制。 ( 3 ) 传输层 传输层主要是确保所有传送到某个系统的数据正确无误地到达该系统,提 供端到端的可靠性传输。负责维护两个用户进程之间的端到端连接,包括建立、 管理和拆除端到端连接【1 0 】【1 。 ( 4 ) 应用层 应用层允许应用程序访问其他层的服务,它定义了应用程序用来交换数据 的协议。用户与应用层直接打交道,应用层为用户提供了很多服务,如浏览网 页、收发电子邮件等。 2 2 2 t c p i p 协议族 我们通常说的t c p i p 实际上是一个协议族,包含很多协议,如t c g 协议、 i p 协议、浏览万维网协议h t t p 、文件传输协议f t p 、电子邮件协议s m t p 、 a r p r a r p 协议、b o o t p 协议等。 i n t e r n e t 使用t c p i p 协议族,其核心层是网络层和传输层,核心协议是i p 协议和t c p 协议。 ( 1 ) i p 协议 i p 协议的主要功能是负责i p 寻址、路由选择和i p 数据包的分割和组装, 包括无连接数据报传送、数据报寻径以及差错处理三部分。i p 协议可以屏蔽物 理层的差别,向上一层提供一致的数据格式。所有要传输的数据,按照一定的 格式分组封装成i p 数据报,数据报单元通过寻径等机制进行传输,在接收方 数据报进行重组,得到原始的数据。 由于i p 协议无法确认数据包是否按顺序发送或是否被破坏,所以,i p 协 议是不可靠的数据传输协议。由于网络拥塞而发生数据丢失等情况不可避免, 因此i n t e r n e t 还必须有一定的控制重传机制,这就是差错控制。 ( 2 ) t c p 协议 t c p 协议称为端对端的协议,它可以为两台计算机之间建立一个连接,实 7 现高可靠性的数据包交换。当一台计算机需要与另一台远程计算机连接时, t c p 协议负责建立一个连接、发送和接收数据以及终止连接。t c p 协议利用重 发技术和拥塞控制机制,向应用程序提供可靠的通信连接,使它能够自动适应 网络中的各种变化。即使在i n t e r n e t 暂时出现堵塞的情况下,t c p 也能够保证 可靠的通信。 i n t e r n e t 是一个庞大的国际性网络,网路上的拥挤和空闲时间总是交替不 定的,加上传送的距离也远近不同,所以传输数据所用时间也会变化不定。t c p 协议具有自动调整“超时值 的功能,能很好地适应i n t e r n e t 上各种各样的变 化,确保传输数据的正确性。 ( 3 ) i p 协议与t c p 协议的关系 i p 协议只保证计算机能发送和接收分组数据,而t c p 协议则可提供一个 可靠的、可控制的、全双工的信息流传输服务。t c p 协议负责把数据分成若干 个数据包,数据包有一定的格式,就像一封信的信封,数据包中包含编号信息, 编号的作用是保证在数据接收端能将数据还原为原始顺序。 i p 协议在每个数据包上再加上接收端主机地址,这样数据包就能到达目 标。如果传输过程中出现数据丢失、数据失真等情况,t c p 协议会自动要求数 据重新传输,并重新组包。总之,i p 协议保证数据的传输,t c p 协议保证数 据传输的质量。 2 3电子邮件协议s m t p 2 3 1s m t p 的基本结构 s m t p ( s i m p l em a i lt r a n s f e rp r o t o c 0 1 ) 且 j 简单邮件传输协议,它是一组用 于从源地址向目的地址传送邮件的规则,并控制信件的中转方式。s m t p 协议 属于t c p i p 协议族,它负责为计算机在发送或中转信件时找到下一个目的 地。通过s m t p 协议所指定的服务器,就可以把e m a i l 从发件方服务器传到收 件方的服务器上,整个过程只要几分钟。s m t p 可以工作在t c p 上,也可以工 作在n c p 、n i t s 等协议上。在t c p 上,它使用端口号为2 5 。 s m t p 服务器是指遵循s m t p 协议的邮件服务器,用来发送或中转电子邮 件。s m t p 提供了一种邮件传输的机制,当收件方和发件方都在一个网络上时, 可以把邮件直接传给对方:当双方不在同一个网络上时,需要通过一个或几个 中间服务器转发,最后到达目标服务器。 首先由发件方s m t p 提出申请,要求与接收方s m t p 建立双向的通信通 道,收件方可以是最终收件服务器,也可以是中间转发的服务器。收件方服务 器确认可以建立连接后,双方就可以开始通信i i2 1 。s m t p 的模型如图2 3 所示。 3 国: 毋肿_ 8 e m e r vc 咖瑚d 哪n 缸r e c i e 、督p 8 m a n t i 枷s m i 卫o 一图 图2 3s m t p 模型 发件方s m t p 向收件方发送m a i l 命令,告知发件方的身份;如果收件 方接受,就会回答o k 。发件方再发出r c p t 命令,告知收件人的身份,收件 方s m t p 确认是否接收或转发,如果同意就回答o k ;接下来就可以进行数据 传输了。通信过程中,发件方s m t p 与收件方s m t p 采用交互式方式进行对 话,发件方提出要求,收件方进行确认,只有确认后,发件方才进行下一步的 动作。整个过程由发件方控制,有时需要确认几次才能完成整个通信。发送过 程如图2 4 所示。 发送命令一l 处理命令, ,u = j l l = j ”r 一 lj 口l 蛆口p 。= r p 1 l 。二三? :6 l 处理命令r _ 一一 发送回复一 处理回复一卜一 图2 4s m t p 发送过程 为了保证有效地回复命令,s m t p 要求发件方必须提供接收方的服务器及 邮箱。邮件的命令和答复有严格的语法定义,答复的代码也有明确的含义。所 有的命令由a s c i i 码组成,命令代码字母不区分大小写,如d a t a 和d a t a 、 d a t a 是等效的。 2 3 2s m t p 的命令 s m t p 定义了1 4 个命令,它们是: h e l o m a i l f r o m : r c p t t o : d a t a r e s t s e n df r o m : s o m l f r o m : 9 s a m l f r o m : v r f y e x p n h e l p n o o p q u i t t u r n 其中,s m t p 的基本命令有7 个,分别为:h e l o 、m a i l 、r c p t 、d a t a 、 r e s t 、n o o p 和q u i t ,下面分别介绍。 ( 1 ) h e l o 命令 该命令的功能是发件方问候收件方,其后是发件人的服务器地址或标识。 收件方回答o k 时标识自己的身份。问候和确认过程表明两台机器可以进行通 信,同时状态参量被复位,缓冲区被清空。 ( 2 ) m a i l 命令 该命令用来开始传送邮件,它的后面跟随发件方邮件地址( 返回邮件地 址) 。当邮件无法送达时,它也被用来发送邮件传送失败的通知。为了保证邮 件的成功发送,发件方的地址应是被收件方服务器或中间转发服务器同意接受 的。这个命令会清空有关的缓冲区,为新的邮件做准备。 ( 3 ) r c p t 命令 该命令告诉收件方服务器收件人的邮箱。当有多个收件人时,需要多次使 用该命令,每次只能指明一个人。如果接收方服务器不同意转发这个地址的邮 件,它必须报5 5 0 错误代码通知发件方。如果该服务器同意转发,它要更改邮 件发送路径,把最开始的目的地址( 该服务器) 换成下一个服务器。 ( 4 ) d a t a 命令 该命令后是要发送的数据,数据被加入数据缓冲区中,以 “ ”为行结束标志。行结束标志的作用是通知接收方立即开 始接收缓冲区内的数据,传送结束后清空缓冲区。如果传送结束,接收方回复 o k ( 5 ) r e s t 命令 该命令用来通知接收方复位,所有已存入缓冲区的收件人数据、发件人数 据和待传送的数据都必须清除,接收方必须回答o k ( 6 ) n o o p 命令 该命令不影响任何参数,只是要求接收方回答o k ,不会影响缓冲区的数 据。 ( 7 ) q u i t 命令 该命令的作用是通知接收方中断传输过程。s m t p 要求接收方在中断传输 l o 前必须回答o k ,即使传输出现错误,在收到这个命令并回答o k 前,收件方 也不得中断连接。发件方在发出这个命令并收到o k 答复前,也不得中断连接。 下面是s m t p 答复中用到的代码和含义: 5 0 0s y n t a xe r r o r ,c o m m a n du n r e c o g n i z e d 5 01s y n t a xe r r o ri np a r a m e t e r so ra r g u m e n t s 5 0 2c o m m a n dn o ti m p l e m e n t e d 5 0 3b a d s e q u e n c eo f c o m m a n d s 50 4c o m m a n dp a r a m e t e rn o ti m p l e m e n t e d 2 1 4h e l pm e s s a g e 2 2 0 s e r v i c er e a d y 2 21 s e r v i c ec l o s i n gt r a n s m i s s i o nc h a n n e l 4 21 s e r v i c en o ta v a i l a b l e ,c l o s i n gt r a n s m i s s i o nc h a n n e l 2 50r e q u e s t e dm a i la c t i o no k a y ,c o m p l e t e d 2 5lu s e rn o tl o c a l :w i l lf o r w a r dt o 4 5 0r e q u e s t e dm a i la c t i o nn o tt a k e n :m a i l b o xu n a v a i l a b l e 5 5 0r e q u e s t e da c t i o nn o tt a k e n :m a i l b o xu n a v a i l a b l e 4 5lr e q u e s t e da c t i o na b o r t e d :e r r o ri np r o c e s s i n g 4 5 2r e q u e s t e da c t i o nn o tt a k e n : i n s u f f i c i e n ts y s t e ms t o r a g e 55 2r e q u e s t e dm a i la c t i o na b o r t e d :e x c e e d e ds t o r a g ea l l o c a t i o n 为了进一步讨论垃圾邮件发送过程,下面用一个r f c 8 2 1 中给出的例子 来说明邮件发送的过程。这封信是s m i t h 在主机a l p h a a r p a 发给主机 b e t a a r p a 上的j o n e s ,g r e e n 和b r o w n ,并且假定两台主机在同一个网络上。 s :m a i lf r o m :s m i t h a l p h a a r p a r :2 5 0o k s :r c p tt o :j o n e s b e t a a r p a r :2 5 0o k s :r c p tt o :g r e e n b e t a a r p a r :5 5 0n os u c hu s e rh e r e s :r c p tt o :b r o w n b e t a a r p a r :2 5 0o k s :d a t a r :35 4s t a r tm a i li n p u t ;e n dw i t h s :b l a hb l a hb l a h s :e t c e t c e t c s : r :2 5 0o k l l 邮件最后被接收方接受。 2 3 3s m t p 的安全缺陷 s m t p 协议是基于对通信对方信任的基础上发展而来,它假定通信对方的 身份和他们所声明的是一致的,因此,缺乏很多必要的身份认证。尽管m a i l 命令中要求包含发件人的地址,但m a i l 指令所声明的发送者邮件地址并不要 求是合法的、可以验证的邮件地址,该指令起不到对用户进行身份认证的效果, 这造成垃圾邮件发送者可以随意在m a i l 命令填入虚假的邮件地址。垃圾邮件 发送者发送大量的匿名和冒名邮件,却无据可查,这是造成垃圾邮件泛滥的重 要原因之一。 s m t p 协议无法禁止发信人伪造绝大多数的发信人特征信息,如:发信人、 信件路由等,一封垃圾邮件在通过匿名转发、开放转发和开放代理后,甚至可 以几乎完全抹去发信人特征。目前,绝大多数的垃圾邮件都伪造了其真实的发 信来源,这给发现和制止垃圾邮件的传播造成了很大的困难。 2 4 其它电子邮件协议 2 4 1p o p 3 协议 p o p 3 协议是一个允许用户从邮件服务器接收邮件的协议,它具有简单的 电子邮件存储转发功能,属于离线式工作协议。p o p 3 通常与s m t p 协议配合 使用,是目前最常用的电子邮件服务协议,使用的端口号为1 1 0 。 p o p 3 会话有三种状态( 阶段) :鉴别( a u t h o r i z a t i o n ) 、处理( t r a n s a c t i o n ) 和更新( u p d a t e ) 。客户和p o p 3 服务器建立连接后,会话进入鉴别阶段。在 鉴别阶段,客户向服务器提供自己的标识,如用户名和密码等信息。如果鉴别 成功,则服务器就打开客户的邮箱,会话也就进入处理阶段。在处理阶段,客 户请求服务器提供信息( 如邮件列表) 或完成动作( 如取走指定的邮件报文) 。 然后,会话进入更新阶段,在这一阶段结束会话,中断连接。 与s m t p 协议一样,p o p 3 也是个请求响应协议。其命令由短关键字 构成,后面接着可选的参数,以c r 和l f 符结束,作为单行文本发送。如: u s e rn a m e 一给出用户信箱名称。 p a s s p a s w o r d 一给出用户信箱口令。 s t a t 一请求服务器返回消息数和大小。 r e t rm s g n u m 一请求服务器发送指定的报文。 d e l em s g n u m 一请求服务器删除指定的报文。 q u i t 一结束会话。 p o p 3 命令的应答有单行应答和多行应答两种格式,成功代码是“+ o k , 失败的代码是“一e r r 。 单行应答首先指示命令是成功还是失败,然后提供适于用户读取或机器分 1 2 析的其他信息。多行应答首先也指示命令成功与否,后面是供调用应答使用的 附加信息行。多行应答终止标志是一行中包含一个点字符,后面跟着c r 和 l f 符。 一个简单的p o p 3 协议通讯的例子如下( c 表示客户端,s 表示服务器 端) : s :+ o kw e l c o m et ox m a i lp o p 3s e r v e rv e r s i o n0 0 1 c :u s e rg l c 9 1 2 身份鉴别阶段:客户标识用户 s :+ o k c :p a s s1 9 7 1 0 9 1 2 客户标识用户口令 s :+ o k c :s t a t 客户请求消息数和大小 s :+ o k13 2 服务器显示信息 c :r e t r1 处理阶段:客户请求取出邮件报文 s :+ o k 服务器接受请求,并开始发送报文 c :d e l el 客户请求删除邮件报文 s :+ o km e s s a g e1d e l e t e d 服务器完成删除请求 c :q u i t 结束会话,服务器更新阶段 s :+ o k 2 4 2m i m e 协议 m i m e 是指多用途i n t e r n e t 邮件扩展( m u l t i p u r p o o ei n t e m e tm a i l e x t e n s i o n s ) 协议。由于s m t p 协议只定义了通过i n t e r n e t 传输普通正文文 本( a s c i i 文本) 的标准,因此无法通过s m t p 传输诸如图像、声音和视频 等非文本信息。 m i m e 对s m t p 协议进行了扩充,它将计算机程序、图像、声音和视频 等二进制格式信息转换成a s c i i 文本,然后随同电子邮件发送出去。接收方 收到这样的电子邮件后,根据邮件信头的说明,进行逆转换,将转换后a s c i i 的文本还原为原来的二进制格式。m i m e 不仅仅用于收发电子邮件,它已成为 在i n t e r n e t 上传输多媒体信息的基本协议之一。 m i m e 规范包括以下部分: ( 1 ) 定义了5 个消息报文头字段,它们可以包含在r f c 8 2 2 中。这些字 段提供了消息正文相关的消息。 ( 2 ) 定义了一些内容格式,从而支持多媒体电子邮件的标准化表示方法。 ( 3 ) 定义了编码转换方式,能够将任何内容格式转换成标准的电子邮件 格式。以下分别说明: m i m e 中定义的5 种消息报头字段为; m i m e v e r s i o n ( m i m e 版本) :必须有参数值1 0 ,此字段指出消息是符合 r f c 标准的。 c o n t e n t t y p e ( 内容类型) :描述正文中包含的数据,使接收用户代理能 够选择合适的代理或机制来向用户表示数据或用合适的方式处理数据。 c o n t e n t t r a n s f e r e n c o d i n g ( 内容向编码的变换) :用邮件传送可接受的方 式指出用来表示消息正文的消息类型。 c o n t e n t i d ( 内容l d ) :在多个环境
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年人户外运动课课件
- 老年人慢性疾病护理课件
- 完形填空-2023年中考英语一模试题分项汇编
- CN120204956A 一种不对称水凝胶改性膜的制备方法及在去除垃圾渗滤液中氨氮的应用
- 完成句子-2023-2024学年八年级英语上学期复习分类汇编
- 老年人姑息关怀课件
- 老年人培训知识课件
- 人工智能通识教程(微课版) 课件 06 智慧对话大语言模型-prompt入门
- 碳、硅及无机非金属材料(复习讲义)-2026年高考化学一轮复习(四川专用)原卷版
- CN120202900A 一种全自动沙漠植树设备
- 中建技术降本增效案例集
- 临床微生物学检验标本的采集和转运试卷
- 佳酿贺喜升学宴金榜题名踏新程热烈庆祝某同学金榜题名模板
- 医学美容技术专业《美容医学咨询与沟通》课程标准
- 营养指导员理论知识考试题库及答案
- 2024生产安全事故隐患排查治理规定(修订征求意见稿)
- 2024年儿童保健考试复习题库(含答案)
- 02J401 钢梯【含03年修改】图集
- 罚款减免申请书范文(19篇)
- 健康管理中的营养监测与干预
- 共同黏膜免疫反应研究进展
评论
0/150
提交评论