




已阅读5页,还剩51页未读, 继续免费阅读
(计算机应用技术专业论文)基于winnow算法的垃圾邮件过滤系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件 问题也日益严峻,反垃圾邮件已经成为全球性的具有重要现实意义的课题。邮件 过滤技术是反垃圾邮件的重要手段,目前经常采用的垃圾邮件过滤技术主要有反 向域名验证、黑白名单、关键词过滤、基于规则的过滤技术以及基于概率统计 方法的过滤技术等。 w i n n o w 是一种错误驱动的在线学习线性分类算法,在训练速度和分类速度 上具有较大的优势;而且,作为一种在线学习方法,w i n n o w 在训练集合不断扩 大的情况下能够快速对分类器进行更新,非常适合于对实时性要求较高的即时反 馈学习。本文通过分析研究现有的反垃圾邮件过滤技术,结合垃圾邮件自身的特 点,从电子邮件的文本内容出发,将w i n n o w 算法应用于垃圾邮件过滤,试图构 造一种速度快、计算简便、性能好、反馈学习方便的垃圾邮件过滤系统。 本文主要针对中文垃圾邮件,把过滤单元划分成训i 练、分类和反馈三个主要 过程,分别对应样本邮件的训练即分类器的构造,新邮件的分类以及分类结果的 反馈;并给出了部分重要模块的实现。 为了提高系统性能,本文着重改进了邮件解码模块,构造了最基本的w i n n o w 分类器,采用了增量式反馈学习方法。 关键词m i m e ;解码;v s m ;w i n n o w ;反馈 北京工业大学工学硕士学位论文 a b s t r a c t e - m a r lh a sb e c o m eo n eo ft h em o s ti m p o r t a n tr e c a l l so fc o m m u n i c a t i o n a tt h e s a m et i m e ,t h eg r o w i n gp r o b l e mo f j u n km a i lh a sg e n e r a t e dan e e df o rc - m a i lf i l t e r i n g a n t i s p a mp r o b l e mh a sb e c o m ea l li n t e r n a t i o n a l ,s i g n i f i c a n ta n dp r a c t i c a lt o p i cn o w t h ee m a i lf i l t e ri so n eo ft h ek e yt e c h n o l o g i e so fa n t i s p a m n o w a d a y s ,a n t i s p a i n m e a s u r e sc o m m o n l yi n d u d ei n v e r s ed o m a i nn a m ev a l i d a t i n g , m a c k w h i t e l i s t t e c h n o l o g y , k e y w o r d sf i l t e r i n g ,m a n u a l r o l e sa n df i l t e r i n gt e c h n o l o g yb a s e do n p r o b a b i l i t ys t a t i s t i c s w i n n o wi sal i n e a r - t h r e s h o l dc a t e g o r i z a t i o na l g o r i t h m ,i ti sn o to n l yo nl i n e ,b u t a l s om i s t a k e d r i v e n i th a st h e a d v a n t a g eo fq u i c k e rs p e e d o n t r a i n i n g a n d c a t e g o r i z i n g a sa n o nl i n em e a s u r e ,w i n n o wc a rq u i c k l yu p d a t et h ec a t e g o r i z e rw h i l e t h et r a i n i n gs e tc o n t i n u et oe n l a r g e s ow i n n o wi sv e r yf i tt ot h ef e e d b a c ks t u d y i n g w h i c hh a sah i g hr e a lt i m ec h a r a c t e r t h i sp a p e rd i s c u s s e sa n da n a l y z e sv a r i o u s t e c h n i q u e sr e q u i r e di ns p a mf i l t e rs y s t e m ,t h i n k sa b o u tt h o s es p a m c h a r a c t e r s ,b e g i n s w i t ht h ee - m a i lc o n t e n t ,a p p l y i n gw i n n o wa l g o r i t h mt ot h ee - m a l lf i l t e r , t r i e st o c o n s t r u c tas p a mf i l t e rw h i c hr o l lq u i c k l y ,c a l c u l a t es i m p l y , p e r f o r m a n c ew e l la n d e a s yt of e e d b a c k t h ep a p e rf o c u s e so nc h i n e s es p a m t h ef i l t e r i n gu n i tw a sd e s i g n e dt ot h r e e p r o c e s s e s ,t h et r a i n i n g ,t h ec a t e g o r i z i n ga n dt h ef e e d b a c k i no t h e rw o r d s ,t r a i n i n g e x a m p l em a i l s ,n a m e l yc o n s t r u c tf i l t e r , c a t e g o r i z i n gn e wm a i l s ,a n df e e d b a c kr e s u l t s t h ei m p l e m e n t a t i o no fs o m ei m p o r t a n tm o d u l e sw a sg i v e ni nt h ep a p e r i no r d e rt oe n h a n c es y s t e mp e r f o r m a n c e ,t h i sp a p e ri m p r o v e dt h ed e c o d em o d u l e , c o n s t r u c t e dab a s a lw i n n o wc a t e g o r i z e r , a n da d o p t e da ni n c r e m e n t i n gf e e d b a c k k e y w o r d sm i m e ;d e c o d e ;v s m ;w i n n o w ;f e e d b a c k 一 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 己在论文中作了明确的说明并表示了谢意。 签名:遵日期:垒巫鲤 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 繇越新繇e 塑:! 兰嗍型耻 第1 章绪论 1 1 课题背景 第1 章绪论 随着互联网的普及,电子邮件成为i n t e m e t 上最基本、最普及、最方便的网 络通讯工具。它不受时间、空间的限制,用户进入互联网可以方便地使用电子邮 件交换信息、传输文件、订阅电子杂志、参加学术讨论、举行电子会议。 但是,我们在享受电子邮件给我们的生活带来的便利的同时,也在与它带来 的另外一个副产品做抗争垃圾邮件。垃圾邮件u 】被界定为: ( 1 ) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的 宣传品等宣传性的电子邮件。 ( 2 ) 收件人无法拒收的电子邮件。 ( 3 ) 隐藏发件人身份、地址、标题等信息的电子邮件。 ( 4 ) 含有虚假的信息源、发件人、路由等信息的电子邮件。 ( 5 ) 含有病毒、恶意代码、色情、反动等不良信息或有害信息的邮件。 互联网软件协会( i n t e r n e ts o f t w a r ec o n s o r t i u m , 简称i s c ) 调研2 0 0 5 2 0 0 6 年 度中国网民每周收到的垃圾邮件数量如图1 1 所示: 图1 - 1 垃圾邮件数量报告图 f i g u r e l 1t h en m n b e ro f s p a r e l 一 北京工业大学工学硕士学位论文 垃圾邮件的产生每年给国民经济造成了巨大的损失,目前已经成为一个全球 性的问题。各国的邮件运营商每年都在维护邮件系统上耗费了大量的人力和物 力,阻挡和过滤垃圾邮件。( 2 0 0 6 年中国第四次反垃圾邮件状况调查报告指出: 就中国大陆地区来言,每年邮件运营商为过滤垃圾邮件投入的费用就有1 0 0 6 7 亿人民币之多,其中包括硬件、软件、日常运营维护以及人力的投入;另一方面, 普通网民用户为删除这些垃圾邮件,每年给国民经济造成约为1 0 3 3 0 8 3 亿元人 民币的损失。由此得出垃圾邮件每年给国民经济造成的经济损失约为1 0 4 3 1 5 亿元人民币。可见,垃圾邮件给国家经济造成的损失是巨大的,而且正在逐年增 力n 2 1 。 具体说来,垃圾邮件的危害是多方面的。首先,垃圾邮件占用网络带宽,造 成邮件服务器拥塞,进而降低整个网络的运行效率:其次,垃圾邮件侵犯收件人 的隐私权,侵占收件人信箱空间,耗费收件人的时间、精力和金钱;另外,垃圾 邮件成为“黑客”工具,黑客利用数以亿万计的垃圾邮件造成被攻击目标瘫痪, 或是利用邮件传播计算机病毒;最后,传播非法、色情等内容的垃圾邮件也会对 社会造成危害p j 。 总之,垃圾邮件的泛滥不仅实质性地影响着个人和企业,也是对互联网营销 的滥用,更是对互联网开放和自由精神的亵渎。垃圾邮件已经成为继病毒之后的 第二大互联网公害,有效的反垃圾邮件成为社会和互联网业界必须关注的焦点, 反垃圾邮件也就成了亟待解决的问题。因此,研究,设计和实现一套可靠的、行 之有效的垃圾邮件过滤系统是一项有着重大现实意义的课题。 1 2 国内外反垃圾邮件领域的研究现状 目前对付垃圾邮件,人们主要从法律和技术两个方面来着手。 1 2 1 法律手段 一直以来,人们讨论通过立法来约束垃圾邮件,已经有相当数量的国家和地 区通过了严厉的反垃圾邮件法,能够将垃圾邮件制造者们送入监狱。美国参议院 已通过名为“垃圾邮件犯罪行动”的法律草案,草案规定对垃圾邮件发送者可判 处5 年徒刑,目的是根除欺诈性邮件。根据法律草案,企业可以发送邮件,但 是须经接收人允许,须注明发送方的详细资料,并且能够让接收者从其信箱中删 除该邮件。美国加州则对那些用邮件对他人进行“狂轰滥炸”的人采取罚款1 0 0 万美元的措施。 但是由于i n t c m c t 是一个开放的全球范围的网络,反垃圾邮件的法律法规的 作用就受诸多不确定因素的影响。就目前而言,对付垃圾邮件主要还得依靠反垃 第1 章绪论 圾邮件技术f 4 】。 1 2 2 反垃圾邮件技术 当前,国内外关于反垃圾邮件的技术主要包括:垃圾邮件过滤技术、邮件系 统的安全管理、对简单邮件通信协议( s i m p l em a i lt r a n s f e rp r o t o c o l 简称s m t p ) 的改进研究等bo j 。 1 2 2 1垃圾邮件过滤技术垃圾邮件过滤技术是目前反垃圾邮件用到的主要 技术。电子邮件通常具有几个重要特征,标准电子邮件地址、主题、信件内容等 相关字段,这些特征是过滤技术判断、分析、统计和提取的依据。针对这些特征, 目前的过滤技术主要有以下几种。 ( 1 ) 反向域名验证技术由于垃圾邮件一般都是使用伪造的发送者地址,用真 实地址的是极少数,所以如果能智能地识别出哪些是伪造的邮件,就能阻挡一大 批垃圾邮件,反向域名验证技术正是基于这样的出发点而产生的。 反向域名验证是对接收到的邮件的来源i p ( i n t e r n e tp r o t o c 0 1 ) 地址采用反向 d n s ( d o m a i nn a m es e r v e r ) 查找,如果反向d n s 查找提供的域与邮件上的来源 m 地址相符合,该邮件被接受,如果不符合,该邮件被拒绝。该技术对s p a m m e r 采用虚假的域地址或回复地址能进行有效阻断。在反垃圾国际标准草案 r f c 2 5 0 5 中,作者试图通过域名反向解析来确认发送邮件服务器的合法性。但 是互联网上有大量的d n s 服务器未配置域名反向解析,这样就会导致大量的合 法的邮件服务器被认为是非法的。所以该方案一直未能广泛推广 7 1 。 ( 2 ) 黑白名单黑名单和白名单分别是已知的垃圾邮件发送者和可信任的发 送者的m 地址、邮件地址或域名。“黑名单”的方法立足于排除,服务器拒绝来 自黑名单地址的邮件。“白名单”的方法是包含,它主要用来确认合法的电子邮 件来源,减少黑名单排除失误的情况。 黑白名单过滤技术简单高效,系统资源消耗小,易于实旌,但需要手动维 护地址清单( t t 0 黑,白名单) 。不足之处是黑名单技术有可能会拒绝掉来自该站点的 正常邮件,从而造成邮件不能正常投递。 由于垃圾邮件发送者经常修改他们的口地址,并采用一个广泛的m 地址区 间以逃避反垃圾邮件手段的检测,因此该方案在总体的垃圾邮件解决方案中仅起 补充作用 8 , 9 1 ( 3 ) 关键词过滤对邮件的标题、信件内容进行关键词匹配,识别垃圾邮件。 这种技术类似于反病毒软件采用的利用病毒特征的技术,简单有效,可以阻断大 多数垃圾邮件,目前国内大多数邮件过滤软件都使用了该技术。由于此法是基于 纯的字符串匹配,这种方法过滤的灵敏度不高,不但会漏掉一些垃圾邮件,还会 北京工业大学工学硕士学位论文 把一些有用的邮件当作垃圾邮件给处理掉,而且,这些过滤规则还需要用户经常 维护,不断地添加新的关键词,这无论是对个人用户还是企业用户来说都是不人 性化的【1o ,1 1 1 。 ( 4 ) 基于规则的过滤技术从广义范围上来说,黑白名单和关键词过滤也属于 基于规则的方法,但是它们是手工制订规则的方法,有很大的局限性。本文所研 究的基于规则方法的过滤技术是指采用人工智能技术对垃圾邮件进行特征分析、 规则提取和规则匹配,对发现的每一个关键词赋予分数,分数越高,该邮件是垃 圾邮件的可能性就越高;得分超过一定值时,该邮件将被认为是垃圾邮件。 该方法通过训练得到的显式规则通常用产生式表示,如:i f 邮件包含s e x 且邮 件包含! ! ! ! t h e n 该邮件为垃圾邮件。规则方法学习的过程实际上是归纳总结的过 程,通过考查一个个的训练样本,归纳总结出其中规律性的东西来形成规则库。 常见的基于规则的过滤方法有决策树( d e c i s i o nt r e e ) ,粗糙集( r o u g hs e t ) 等。 基于规则方法过滤技术检测垃圾邮件的准确性较高,但是在检测新的垃圾邮件时 效果不甚理想,该方法和词语过滤面临同样的问题,就是规则必须经常更新【1 2 1 。 ( 5 ) 基于概率统计方法的过滤技术即根据垃圾邮件的网络传播特征,利用文 本分类与统计算法进行垃圾邮件检测,比较有代表性的是贝叶斯过滤技术,此法 采用贝叶斯概率理论的统计方法计算各封邮件的“垃圾邮件概率”,具有较高的 智能性和准确率,占据了过滤器这个领域的主导地位【l ”。 与基于规则方法的过滤技术相比,基于概率统计方法的过滤技术检测新的垃 圾邮件的能力较强,但是准确性有待提高,易将正常邮件误判为垃圾邮件。另外, 贝叶斯分类是通过己知的邮件训练集进行概率计算的,过滤准确性依赖大量的历 史数据,邮件训练集如何及时、自动地更新也是需要解决的一个问题。 1 2 2 2 邮件系统的安全管理邮件系统的安全管理是系统管理员的一项重要 的常规任务,主要内容如下: ( 1 ) 增强邮件服务器的安全,检测系统漏洞并及时打补丁。 ( 2 ) 设定邮件用户身份s m t p 验证,用户要通过验证账号和密码才能发信, 以防止非法用户利用服务器发送垃圾邮件。 ( 3 ) 对转发邮件过程中的r e l a y 服务器设置身份认证,杜绝o p e nr e l a y 。 ( 4 ) 设定s m t p 服务器发送邮件的速率、频率。垃圾邮件发送者经常试图通 过很短的一段时间发送大量邮件,阻塞邮件服务器,而一个正常用户发送邮件的 数量和频率远远低于垃圾邮件发送者。因此我们可以根据垃圾邮件发送具有一定 时间内邮件数量和邮件连接频率都非常大的情况,从频率和数量对垃圾发送者的 连接行为进行控制,将一段时间内试图从同一个口连接的数量控制在设置的范 围内。 1 2 2 3 对简单邮件通信协议( s m t p ) 的改进研究针对垃圾邮件问题对s m t p 第1 章绪论 协议进行改进和完善也是众多研究单位的关注重点。m t f ( i n t e r a c te n g m e e r i n g t a s kf o r c e ) 与m t f ( i n t e m e tr e s e a r c ht a s kf o r c e ) 的下级部门a s r g ( 反垃圾邮件 研究小组) 支持在不放弃s m t p 的情况下通过校验邮件地址控制垃圾邮件的技 术方案:终端发送准许( s e n d e rp o l i c yf r a m e w o r k ) ,指定邮寄者协议( d e s i g n a t e d m a i l e r sp r o t o c 0 1 ) 、逆向邮件交换( r e v e r s em a i le x c h a n g e ) 。随着网络结构及 其应用体系的进一步发展,相信这方面研究得出的结果会成为解决垃圾邮件的有 利措旌【1 4 l 。 面对垃圾邮件,各国都意识到,应采取法律手段和技术措施相结合的解决办 法。垃圾邮件已成为一个全球性的问题,而全球性问题需要全球性的治理。这就 要求国际社会充分认识垃圾邮件生态的复杂性,全面加强交流与合作,建立切实 有效的反垃圾邮件国际合作机制,在编织好法律和技术这张“大网”的同时,还 要唤起公众防范意识,共同打一场全球持久保卫战,才能逐步扫除垃圾邮件,让 信息高速公路真正快起来。 1 3 课题研究内容与章节安排 本文将在研究线性分类算法w i n n o w 的基础上,设计和实现一个基于w m n o w 算法的垃圾邮件过滤系统。 全文共分五章,各章内容如下: 第1 章:介绍了课题的背景,国内外研究现状,以及论文的研究内容与章节 安排; 第2 章:介绍垃圾邮件过滤的有关理论知识,包括电子邮件的工作原理,相 关的邮件协议,邮件格式特征,文本过滤,以及基本的w m o w 算法; 第3 章:介绍了基于w m n o w 算法的垃圾邮件过滤系统的设计思想,阐明了 系统的结构划分以及各个模块的设计; 第4 章:介绍了系统各重要模块的详细设计和实现,最后给出了系统的测评; 然后对全文做了个总结,并对以后的研究方向做了展望; 最后是参考文献和致谢。 第2 章理论基础 第2 章理论基础 2 1电子邮件的工作原理 2 1 1 邮件传送过程 电子邮件与普通邮件有类似的地方,用户a 注明收件人的姓名与地址( 即 邮件地址) ,发送方服务 ( s e , v e r a ) 把邮件经由i n t e r n e t 传到收件方服务器( s e r v e r b ) ,收件方服务器再把邮件发到收件人用户b 的邮箱中阁。如下图所示: 图2 1 电子邮件工作流程 f i g u r e 2 - 1t h ef l o wc h a r to f e - m a i lr e * e i v i n ga n ds u n g 更进一步的解释涉及到以下几个概念; ( 1 ) 邮件传输代理( m a i lt r a n s p o r ta g e n t ) ,简称m t a ,负责把邮件由一个服 务器传到另一个服务器或邮件投递代理【1 6 j ; ( 2 ) 邮件用户代理( m a i l u s e r a g e n t ) ,简称m u a ,帮助用户读写邮件。通常 使用的o u t l o o k 、n e t s c a p e m e s s e n g e r 、f o x m a i l 以及网易邮件或者2 6 3 邮件的w e b 界面,都是m 【,a 。对于m u a 可以理解如下:对外提供一个友好方便的使用界 面,使用户可以使用它舒适地撰写邮件,阅读邮件和处理邮件( 删除,转存,转 发等等) ;对内要实现各种协议和标准( 各种与电子邮件相关的r f c ) ,将用户 的输入进行调整或者编码,使之符合i n m m e t 电子邮件的规范,并进行发送。识 北京工业大学工学硕士学位论文 别用户的来信并将其内容调整或者解码,显示成为容易使用的模式。图2 1 中, 用户a 到s e r v e r a 的传送过程就是从m u a 向m t a 提交邮件。 ( 3 ) 邮件投递代理( m a i ld e l i v e r ya g e n t ) ,简称m d a ,把邮件放到用户的邮箱 里。 需要说明的是,这三部分之间的界限并不十分明确,有时候一个程序模块可 能既包含了m d a 的功能同时又实现了m t a 的功能,而另外一些时候又有可能 是m ,r a 和m u a 的功能被组合在一起。 另外,按照邮件系统的角色结构,邮件过滤又可分为三类:m t a 过滤、m d a 过滤和m u a 过滤【明。 ( 1 ) m t a 过滤是基于s m t p 信封信息的过滤,指m t a 在会话过程中对会话 的数据进行检查,对于符合过滤条件的邮件进行过滤处理。m t a 过滤不适合对 信件的内容进行过滤,尤其是在高负荷的邮件服务器上,如果对每一封信的内容 都进行分析、过滤,则可能会严重影响m t a 的性能。 ( 2 ) m d a 过滤是指m d a 在从m t a 中接收到信件,在本地或远程进行递交 时对信件内容进行检查,验证信头和信体的内容,对于符合过滤条件的邮件进行 过滤处理。 ( 3 ) m u a 过滤使得用户能够从他们自己的邮件界面管理过滤规则,m u a 过 滤功能不如m d a 强,而且在这一层过滤时,邮件已经到了电子邮箱,占用了一 定的磁盘空间。 其中,m t a 和m d a 过滤都是邮件服务器端的过滤,而m u a 过滤是邮件用 户客户端的过滤。 2 1 2 简单邮件传输协议s m t p s m t p i s , 1 9 1 是在i n t c r n e t 上发送邮件的协议。具体地说,邮件从撰写完毕到发 送到达收件人信箱的所有网络传输都是依照s m t p 的规范来进行的。在图2 1 中, 从发件人用户a 到s e r v e r a ,s e r v e r a 到i n t c r n c t ,i n t e r a c t 到s e r v e r b 之间的传 送过程都是s m r p 协议。 s m t p 提供了一种邮件传输的机制,s m r p 的设计基于下述通信模型( 如图 2 - 2 ) 。针对用户的邮件请求,发送s m t p 与接收s m t p 之间建立一个双向传送通 道。收件s m t p 可以是最终收件人也可以是中间转发的服务器。s m t p 命令由发 送s m t p 发出,由接收s m t p 接收,而应答则反方向传送。如图2 - 2 所示。 第2 章理论基础 广三_ k i i ii 营= | 滞产f 旧i r e c e i v e r r _ 一,:黼 = 芋叫s 黼:! i1 i 流卜叫 i !广品i s e n d e r - s m t p r e c e i v e r - s m t p 图2 - 2 s m t p 模型 f i g u r e 2 - 2t h em o d e lo f s m t p 一旦传送通道建立,s m t p 发送者发送m a i l 命令指明邮件发送者。如果 s m i t 接收者可以接收邮件则返回o k 应答。s m t p 发送者再发出r c p t 命令确 认邮件是否接收到。如果s m t p 接收者接收,则返回o k 应答;如果不能接收到, 则发出拒绝接收应答( 但不中止整个邮件操作) ,双方将如此重复多次。当接收者 收到全部邮件后会接收到特别的序列,如果接收者成功处理了邮件,则返回o k 应答。 s m t p 提供传送邮件的机制,如果接收方与发送方连接在同一个传送服务下 时,邮件可以直接由发送方主机传送到接收方主机:或者,当两者不在同一个传 送服务下时,通过中继s m t p 服务器传送。为了能够对s m t p 服务器提供中继 能力,它必须拥有最终目的主机地址和邮箱名称刚。 2 1 3 邮件访问协议p o p 3 i m a p 4 通过引入用于从自己的邮件服务器到本地p c 机上的用户代理传送邮件消息 的邮件访问协议,收信人可以获取已到达自己的邮件服务器的邮件消息。目前流 行的邮件访问协议有两个:邮局协议版本3 ( p o s t0 m p r o t o c o lv e r s i o n3 ,简称 p o p 3 ) 和因特网邮件访问协议( i n t e m e tm a i la c c e s sp r o t o c o l ,简称山心) 。 p o p 3 p 1 1 和i m a p l 2 2 就是这类可以供用户浏览和管理自己的信件的协议。 2 1 3 1p o p 3m t a 把邮件投递给p o p 服务器,暂时存放所有收到的邮件,等 待用户来取;用户取信时使用p o p 客户端,把信件下载到本地机器上( 如图2 - - 3 ) 。在阅读邮件时,p o p 命令所有的邮件信息立即下载到你的计算机上,不在 服务器上保留1 2 3 1 。 北京工业大学工学硕士学位论文 p o p ip 叩服务器l _ 远程信箱p o p 客户机 ji f s m 。i p m d a 7 i 1r n l v l t a 本地信箱 l 图2 - 3p o p 接口模型 f i g u r e 2 3t h em o d e lo f p o pi n t e r f a c e p o p 3 作为i n t e m e t 上邮件的第一个离线标准协议,主要的实质性操作是读取 和删除邮件。它允许用户从服务器上把邮件下载到本地主机上,同时删除保存在 邮件服务器上的邮件,从而使用户不必长时间地与邮件服务器连接,很大程度上 减少了服务器和网络的整体开销。但p o p 3 不能直接在服务器上进行对邮件的分 类管理,这种分类管理只能在将信件取到客户端后进行,这使得用户几乎没有对 邮件接收的控制权。于是i m a p 协议就应运而生了。 2 1 3 2i m a pn 山心协议是与p o p 3 对应的另一种协议,使用它可以在服务器 上建立邮件的分级目录。在服务器上管理信件的好处是,从不同的客户机上可以 看到同样的结构,并且通常来讲,服务器的性能比普通的客户机好一些。 d 脚 i 删务器卜一 i m a p 远程信箱n 母客户机 t 同脚 m 卫a , 本地信箱nm t a l 图2 - 4 i m a p 接口模型 f i g u r e 2 - 4t h em o d e lo f i m a pi n t e r f a c e 但是i m a p 也有不足。首先在利用服务器磁盘资源方面i m a p 不如p o p 3 , 由于使用p o p 时服务器端的邮件被下载到客户机的同时会删除,因而不占用额 外空间用以存放旧邮件。同时,由于用户查阅信息标题和决定下载那些附件,也 需要一定时间,因此连接时间也比p o p 方式长。在应用方面,由于i m a p 比较 复杂,给开发者开发服务器和客户机的软件带来一些难题1 2 4 】。 第2 章理论基础 2 2 邮件格式特征分析 2 2 1 标准邮件格式特征分析 为了方便信息传输,人们规范了i n t e m e t 邮件消息的结构形式。r f c8 2 2 t 捌 是最早的一个标准,即标准a r p a ( a d v a n c e dr e s v a c hp r o j e c t s a g e n c y ) 互联网文 本消息格式( s t a n d a r df o r t h ef o r m a to f a r p a i n t c r n e tt e x tm e s s a g e s ) 。r f c 8 2 2 规 定一个邮件由邮件头和邮件体两大部分组成。邮件头与邮件体之间以空行进行分 隔,邮件头中不允许出现空行。邮件的结构如下图所示: f r o m : t o : s u b j e c t : 信头 d 时c : 空行 信体 图2 5 邮件结构 f i g u r e 2 - 5t h es t r u c t l a eo f e - m a i lt e x t 邮件头包含与传输、投递邮件有关的基本信息,如邮件来源( f r o m ) ,发信 日期( d a t e ) ,邮件主题( s u b j e c t ) ,邮件目的地址) ,抄送邮件地址( c c ) ,暗送邮 件地址( b c c ) ,邮件优先级( x - p r i o r i t y ) ,发信人的口地址( x - o r i g i n a t i n g - i f ) , 邮件服务器信息( x - m a i l e r ) 和回复地址( r e t u r n - p a t h ) 等等。每条信息称为一个 域,由域名、后跟冒号和表示域值的文本构成。邮件体可分为邮件正文和邮件附 件阢2 7 , 2 s 1 2 2 2m i m e 邮件格式特征分析 使用r f c 8 2 2 只能发送基本的a s c i i 码文本信息,邮件内容如果要包括二进 制文件、声音和动画等,实现起来非常困难。随着多媒体技术的不断发展,电子 邮件内容不再局限于a s c i i 码文本内容,于是m i m e 就应运而生了。i v 1 1 v i e 2 9 3 0 3 1 1 全称m u l t i p u r p o s ei n t e r n e tm a i le x t e n s i o n s ,即多用途i n t c r n c t 邮件扩展。它是 当前广泛应用的一种电子邮件技术规范,基本内容定义于r f c 2 0 4 5 - - 2 0 4 9 。 北京工业大学工学硕士学位论文 m i m e 扩充了在r f c8 2 2 中定义的邮件格式,提供了一种可以在邮件中附加多 种不同编码文件的方法,把声音、图像、中文等使用8 位二进制编码的数据从8 位的格式转换成使用7 位数据的a s c i i 格式,弥补了原来信息格式的不足,使 得可以通过i n t e r n e t 邮件系统传送丰富的信息内容。实际上不仅仅是邮件编码, 现在m i 诬已经成为h t t p 协议标准的一个部分。 m i m e 邮件也是由邮件头和邮件体两大部分组成。对照r f c 8 2 2 ,m i m e 在 i n t e r n c te - m a i l 报文中增加了五个新头域,即m i m e - v e r s i o n , c o n t e n t - t y p e , c o n t e n t - t r a n s f e r - e n c o d i n g ,c o n t e n t - k ) 和c o n t e n t - d e s c r i p t i o n 。 m i m e v e r s i o n 用来声明i n t e m e t 消息主体所使用格式的版本号。 c o n t e n t t y p e 用来描述相应主体中数据的原始类型。c o n t e n t - t y p e 的字段值 被称为媒体类型,在r f c 2 0 4 6 ( m i m e 第二部分:多媒体类型) 文档中定义了 七种标准顶层媒体类型,即五种离散顶层媒体类型( t e x t , i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 肾盂癌健康教育
- 高尿酸血症知识测验题(附答案)
- 2025年事业单位工勤技能-湖南-湖南仓库管理员一级(高级技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北计量检定工三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北不动产测绘员五级(初级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-海南-海南计算机信息处理员二级技师历年参考题库含答案解析
- 2025年事业单位工勤技能-浙江-浙江防疫员二级(技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-浙江-浙江医技工五级(初级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-河南-河南公路养护工二级(技师)历年参考题库典型考点含答案解析
- 2024版吊车出租合同包月
- 2024年泰州市靖江市公安局招聘警务辅助人员真题
- 国际快递基本知识培训课件
- 塔吊拆除安全操作方案模板
- 普惠金融业务讲座
- 虚拟健康咨询接受度分析-洞察及研究
- 多发性周围神经病护理查房
- 2025年高警示药品管理试题(附答案)
- 2025年低压电工证考试题及参考答案
- 省政府顾问管理办法
- 消防法制业务培训课件
- 医院药剂科运用PDCA循环降低拆零药品管理不合格率品管圈
评论
0/150
提交评论