




已阅读5页,还剩59页未读, 继续免费阅读
(计算机软件与理论专业论文)邮件服务智能代理的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 随着i n t e m e t 技术的发展,各种网络应用服务越来越多。其中,网络中广泛 使用的电子邮件正成为一种快捷而经济的通信手段,如何面对每天各种各样、 种类繁多的邮件,就成为一个迫切要解决的问题。虽然当前垃圾邮件过滤方法 众多,但是还有许多垃圾邮件过滤效果不是很理想。所以,研究一种更加新型 高效的,快速的邮件过滤系统仍具有特别的现实意义。 本文提出了一种基于贝叶斯算法的双层邮件过滤方法,将其应用于邮件服 务智能代理的网络安全方面,对提高邮件的分类准确度及垃圾邮件的过滤有着 重要的意义。 本文主要工作如下: 1 ) 对目前国内外邮件分类相关技术进行分析,并提出了本课题要研究的主 要内容。介绍了邮件服务器的工作原理及其功能。对邮件服务智能代理的实现 进行了总体设计,制定出各功能模块及其主要功能。提出了基于邮件长度特征 的过滤,以便能更好的提高分类的准确性。 2 ) 介绍了电子邮件系统的工作原理、j a v am a i l a p i ,以及对邮件内容进行 结构化解析的主要技术。分析了多种中文分词实现方法,提出了运用最大匹配 法实现分词。比较了多种特征选取算法,用文档频度和词条频度相结合的方法 作为本课题的特征选取算法。分析多种分类器的优缺点,运用贝叶斯机器学习 的方法,并对其用于邮件分类的原理进行了剖析,详细介绍了贝叶斯分类器的 算法实现。 3 ) 邮件服务智能代理的实现及其性能分析,并对本课题的研究进行总结, 展望了今后的发展方向。 关键词:邮件服务,贝叶斯分类器,中文分词,特征选取 武汉理工大学硕士学位论文 a b s t r a c t w i t ht h e d e v e l o p m e n t o fi n t e r n e t ,t h e r ea r em o r ea n dm o r en e t w o r k s e r v i c e s u s i n ge m a i lo n l i n ei sb e c o m i n go n ek i n do fq u i c ka n de c o n o m i c a lm e a n so f c o m m u n i c a t i o n , a n dt h e r er e m a i n sav i t a lp r o b l e m :h o wt of a c et h ev a r i o u s l ye m a i l e v e r y d a y a l t h o u g ht h e r ea r em a n ys p a mf i l t e r i n gm e t h o d st o d a y , t h ee f f e c ti s n o t v e r yi d e a l t h e r e f o r e , t os t u d yah i g h l yn e we f f e c t i v em a i lf i l t e r i n gs y s t e ms t i l lh a s t h es p e c i a ip r a c t i c a ls i g n i f i c a n c e 。 t h i st h e s i sp r o v i d e sam a i lf i l t e r i n gm e t h o db a s e do nb a y e s ,a p p l i e si tt ot h e n e t w o r ks e c u r i t yi ni n t e l f i g e n ta g e n tm a i ls e r v i c e ,a n dh a st h ev i t a ls i g n i f i c a n c et o e n h a n c et h em a i lc l a s s i f y i n ga n ds p a r ef d t e r i n g t h em a i nw o r kr e a d sa sf o l l o w s : 1 ) i tp r o p o s e sm a i nc o n t e n ts t u d y i n gi nt h i s t h e s i sb ya n a l y s i s i n gp r e s e n t d o m e s t i ca n df o r e i g nm a i l sc l a s s i f i c a t i o nc o r r e l a t i o nt e c h n o l o g y i n t r o d u c ep r i n c i p l e a n df u n c t i o no fm a i ls e r v e r t h ew h o l ed e s i g no fi n t e l l i g e n ta g e n tf o rm a i ls e i v e xi s d e s c r i b e di nt h i sc h a p t e r i ti n c l u d e sp d 】m a r ym o d u l e sa n df u n c t i o no fe a c hm o d u l e p r o p o s e df i l t e r i n gb a s e do nm a i ll e n g t hc h a r a c t e r i s t i c , i no r d e rt oe n h a n c e c l a s s i f i c a t i o na c c u r a c y 2 、i ti n t r o d u c e dt h ep r i n c i p l eo fe m a t ls y s t e m , a n dm a i n l ya b o u tj a v am a i la p i t h em o s ti m p o r t a n tt e c h n o l o g ya sh t m lp a r s e ri sa l s od i s c u s s e d c h i n e s et e x t s p l i t t e rj sd e s c r i b e di nt h i sc h a p t e r b a s e do na n a l y s i so fa us o r t so fc h i n e s et e x t s p l i t t e ra r i t h m e t i c , w ed i s c u s s e d h o wt ou s em a xm a t c hc h h l e 翻gt e x t s p l i t t e r a r i t h m e t i ci nt h ec h i n e s et e x ts p l i t t e r t h i sc h a p t e rc o m p a r e sa us o r t so ff e a t u r es e l e c t a r i t h m e t i c t h ea d v a n t a g ea n dd i s a d v a n t a g eo ft h e s ea r i t h m e t i ca r es u m m a r i z e d w e p r o p o s e d aa r i t h m e t i cn a m e da sa d v a n c e dm u t u a li n f o r m a t i o nt or e a l i z et h e e x t r a c t i o no ft h ec h a r a c t e r t h i sc h a p t e rc o m p a r e sa us o r t so fm e t h o d si n c l a s s i f i c a t i o no fe m a i l w ep r o p o s e dt ou s en a i v eb a y e sm a c h i n el e a r n i n gm e t h o d a n dd i s c u s s e dt h ea r i t h m e t i co fh o wt oc a t e g o r yt h ee m a i lw i t hn a i v eb a y e sm a c h i n e l e a r n i n g a tl a s tw ep r e s e n th o wt or e a l i t ys u c hac l a s s i e r 3 1i m p l e m e n ta n dp e r f o r m a n c ea n a l y s i so fi n t e l l i g e n ta g e n tf o rm a i ls e r v e r i t 武汉理工大学硕士学位论文 c a r r i e s0 nt h es u m m a r yt ot h i st o p i cr e s e a r c h , a n dh a sf o r e c a s tt h en e x td e v e l o p m e n t d r e x - t i o n 。 k e y w o r d s :m a i ls e r v i c e ,b a y e sc l a s s i f i e r , c h i n e s ew o r ds e g m e n t a t i o n , f e a t u r e s e l e c t i o n h i 武汉理工大学硕士学位论文 第1 章引言 随着因特网的迅猛发展,电子邮件正成为种快捷、经济的通信手段。但 电子邮件在成为一种信息交流工具的同时,也正在成为一种发布商业广告的手 段。许多销售广告、快速致富等垃圾邮件,甚至涉及黄、赌、毒与反动思想内 容的邮件也在网络中传送,这些垃圾邮件不仅浪费了宝贵的网络资源,花费了 用户大量的时间和精力,并且还严重危害社会安全。为此,信息产业部制定了 互联网电子邮件服务管理办法,已于2 0 0 6 年3 月3 0 日开始施行。这是中国 首次以政府规章的形式对垃圾邮件进行治理,可见垃圾邮件的治理迫在眉睫。 如何对邮件进行处理,将有用邮件保留而过滤掉垃圾邮件,这就是所谓的“反 垃圾邮件”问题。虽然目前某些系统已采用一些技术进行反垃圾邮件,但这些技 术都存在一定的不足。因此,研究一种有效的反垃圾邮件系统具有十分重要的 意义。 目前,许多厂商和产品提供电子邮件服务,他们的产品大多是大而全,即 专注于邮件服务器的容量和所能提供的邮件分类的种类,而在邮件系统的安全 和可管理性方面仍有一些缺陷,有以下三个问题没有很好解决【1 l : 1 ) 邮件服务器系统结构的安全性。邮件服务器系统结构的安全性是提供邮 件服务一个关键环节,如何实现系统平台和架构的安全性是一个重要问题。 2 ) 垃圾邮件防范。绝大多数厂商的产品对于垃圾邮件的处理方法都是在特 定的邮件系统中进行一些设置和基于规则的过滤,而且是针对他们自己特定的 产品。没有从邮件服务器的结构和各种邮件的不同特征来考虑。 3 ) 邮件系统的管理和统计功能。实现邮件系统的管理和统计功能途径是多 种多样的,如何实现安全的管理,方法也不尽相同。 综上所述,邮件服务安全方面的问题在某种程度上限制了邮件服务的发展。 本课题主要致力于邮件服务安全问题中的垃圾邮件防范问题。如何设计有效的 垃圾邮件过滤系统,才能给用户提供更高的安全服务。 p a u lg r a h a m 根据多年对垃圾邮件的研究,在2 0 0 2 年发表的论文a p l a nf o r s p a m ) 中,提出了采用b a y e s 统计理论进行垃圾邮件过滤的方法。这种方法通 过邮件系统对垃圾邮件进行学习,从而具有对垃圾邮件的识别和过滤功能,极 1 武汉理工大学硕士学位论文 大地节省了用户的时间、方便用户使用。 本文在贝叶斯分类算法的基础上,提出了基于贝叶斯分类器的双层过滤技 术,首先根据邮件长度对邮件进行分类,然后分别进入所属长度的贝叶斯分类 器进行邮件分类识别,更有利于邮件识别特征的提取,实验结果表明:基于该 方法构造“邮件服务智能代理”具有对邮件的学习、识别和分类的功能,并表现出 自适应性和较好的实时性。 1 1 研究的意义 垃圾邮件在互联网上的泛滥给人们的工作生活的信息安全造成极大危害, 处理垃圾邮件占用了包括专业邮件厂商、邮件用户在内的社会各方大量入力、 物力,直接影响了互联网产业的健康发展。通过电子邮件进行的商品虚假宣传 等不法行为不仅损害了消费者的合法权益,浪费网民时间,占用大量网络资源, 而且严重扰乱了市场经济秩序,造成巨大经济损失。 为了规范我国互联网电子邮件服务行为,保障公民、法人和其他组织的合 法权益,信息产业部制定了互联网电子邮件服务管理办法,已于2 0 0 6 年3 月3 0 日施行。这是中国首次以政府规章的形式对垃圾邮件进行治理。与此同时, 信息产业部于2 0 0 6 年2 月2 1 日启动了“阳光绿色网络工程”系列活动,活动持续 一年。在全国范围内发展高效可靠的垃圾邮件过滤器已经成为了一个紧迫的任 务。通过该课题的研究可以提高邮件服务智能代理对邮件的分类能力,从而过 滤掉垃圾邮件,降低垃圾邮件对用户和网络的危害。所以本课题的研究具有很 大的现实意义。 1 2 国内外的研究现状 反垃圾邮件最终目的是对邮件进行自动分类,把属于“垃圾”类别的邮件进行 过滤。由于电子邮件是一种半结构化的文本文件,包括邮件头信息和邮件正文 信息两个部分,因而对垃圾邮件的过滤也主要集中于对邮件头的结构信息或对 邮件正文内容进行处理后来决定是否过滤两种方式。目前国内外的垃圾邮件过 滤主要采用以下三种方法:安全认证的方法、基于规则的方法和基于统计的方 法。 2 武汉理工大学硕士学位论文 在本课题的研究中,我们采用基于内容挖掘的方法将邮件按其内容分类。 当前的分类方法很多,如支持向量机法、决策树法、神经网络法、贝叶斯法等。 本课题采用贝叶斯法,要实现邮件的分类还需要考虑许多细节。特别是中文邮 件又有中文自身的特点,许多在英文等西文文档中不会出现的问题在中文文档 中都会出现。因此把国外的研究成果用于中文邮件分类时还有许多具体问题需 要研究解决。 本课题中涉及到两个关键的技术和方法:中文分词和文本分类。 1 2 1 中文分词的国内外现状 目前的分词算法基本上可分为两大类:机械性分词法和理解性分词法。后 者是模仿人类对语言理解的分词方法,但在语法分析、语义分析乃至篇章理解 还没有 导到解决之前,实用分词系统主要采用机械分词法。实际上。纯机械性 分词也较少使用,一般都使用介于二者之间的分词法,称之为综合式分词法。 ( 1 ) 机械分词法 邹海山等在现有分词技术的基础上,提出了一种基于词典的正向最大匹配 和逆向最大匹配相结合的中文分词方梨2 j ,可以高效、准确地实现中文文档的主 题词条的抽取和词频统计。 应志伟等在一个文语转换系统中【3 1 ,采用了一种改进的最大匹配法可以切分 出所有的交集歧义,提出了一种基于统计模型的算法来处理其中的多交集歧义 字段,并用穷举法和一些简单规则相结合的方法从实用角度解决多音字的异读 问题以及中文姓名的自动识别问题,达到实现文语转换的目的。 陈桂林等提出了一种高效的中文电子词表数据结构【4 】,它支持首字h a s h 和 标准的二分查找,且不限词条长度,还提出了一种改进的快速分词算法。在快 速查找两字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效 率。理论分析表明,该分词算法的速度优于目前所见的同类算法。 欧振猛、余顺争采用基于自动建立词库的最佳匹配方法来进行中文分词1 5 1 , 同时采用基于改造型马尔可夫n 元语言模型的统计处理方法来处理分词中出现 的歧义问题,从而提高分词精度。三字长交集型分词歧义是分词歧义的主要类 型之一,在真实文本中的出现频率相当高。 孙茂松等提出了一种针对这种分词歧义的消解算法【明,回避了训练代价比较 高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集 3 武汉理工大学硕士学位论文 合。从一个6 0 万字的汉语语料库中抽取出全部不同的三字长交集型歧义分词共 5 3 6 7 个作为测试样本。实验结果表明,该算法的歧义消解正确率达到了9 2 。0 7 , 可以满足实用性中文信息处理系统的需要。 郭祥吴、钟义信、杨丽提出了一种快速汉语自动分词算法【j 日。其主要思想是 利用汉语中两字词占7 5 的统计规律,提出了两字词根和两字词簇的概念。算 法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在 词汇量很小的词簇内,从而不仅提高了分词速度而且彻底解决了传统最大匹 配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速 检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现。 张翠英介绍一种在最大匹配法基础上,根据大量的真实语料中出现的歧义 现象,把可能产生歧义切分的词进行特性分类,对每类确定一组规则进行处理i ”。 但不足之处是它不包含由于专用名词引起的歧义问题,由于专用名词( 尤其是人 名、地名) 无法枚举,有限的词库规模无法满足这类问题的分词需要,它有待于 自然语言理解等方面对这类问题的新成果的应用。 李建华、王晓龙描述了一种有效的中文人名识别方法【9 】。它的基本原理是在 大规模语科统计的基础上,利用知识源在文本上进行规则的施加与松弛,并引 入概率分析器来提高识别的准确率和召回率。实验结果表明,在兼顾识别的准 确率与召回率的情况下,系统取得了良好的效果。 孙建军、陈肇雄等以语言文字的表达特征为基础,结合汉语词语在语言表 达中的具体运用,从语言处理的可计算性角度出发,提出了一种基于多功能逻 辑运算分析技术的汉语分词方法1 1 0 l 。这种汉语分词方法是在汉语电子词典系统 支持下实现的,其特点主要表现在构成汉语词语字序列的计算机内部采用了多 功能逻辑运算分析技术,从而使汉语分词过程中以往采用的简单模式匹配手段 转换为多模式逻辑运算的功能操作。数据操作的一体化处理不仅在一定程度上 提高了汉语自动分词效率,同时也对分词歧义问题的解决提供了有力支持,在 具体的应用中表现出较好的实用性。 ( 2 ) 理解式切词法 韩客松等主要从知识的自动获取出发,介绍了研究中的汉语语言的无词典 分词模型系纠1 1 】。通过算法的自然语言描述,阐述了模型的思想,分析了它与 传统方法相比的优点。该模型尚在实验室中不断地完善,包括对模型的进一步 细化、匹配算法的改进、特殊情况的考虑以及系统性能的实验验证等。 4 武汉理工大学硕士学位论文 邓伟等介绍一种针对特定领域的智能搜索引擎i ”。它采用一种新型的概念 背景网络来组织领域背景知识,然后在背景网上对领域概念进行概念扩展和相 关性比较。与其他搜索引擎相比,该智能搜索引擎能对自然语言进行某种程度 的语义理解,利用领域知识来提高搜索的查准率和查全率。 ( 3 ) 综合式分词法 杨建林、张国梁利用词频统计的结果,优先处理两字词,不考虑最大词长, 将传统的最短匹配法改进成在全局或者局部范围内均不依赖最大词长的最短匹 配法,同时把匹配过程作了调整,使匹配次数成倍减少,从而显著地提高分词 速度l b 】。利用上述改进的最短匹配法,找出可能存在歧义的词链,调用歧义词 链的处理算法,给出词链的切分结果,从而提高切分的精度。 1 2 2 中文文本分类研究的现状 国外自动分类研究始于1 9 5 0 代末,h p l u h n 在这一领域进行了开创性的 研究,他首先将词频统计的思想用于文本分类中。1 9 6 0 年m a r o n 在j o u r n a lo f a s m 上发表了有关自动分类的第一片论文“o nr e l e v a n c e ,p r o b a b i l i s t i ci n d e x i n g a n di n f o r m a t i o nr e t r i a l ”。1 9 6 2 年博科等人提出了利用因子分析法进行文献的自动 分类。其后许多学者在这一领域进行了卓有成效的研究。国外的自动分类研究 大体上可以分为三个阶段:第一阶段( 1 9 5 8 年一1 9 6 4 年1 主要进行了自动分类可 行性研究;第二阶段( 1 9 6 5 年一1 9 7 4 年) ,自动分类的实验研究;第三阶段( 1 9 7 5 年一至今1 ,自动分类的实用化阶段 1 4 1 。 国外当前流行的分类方法有r o c c h i o 法及其变异方法、k 近邻法( 1 、决 策树、朴素贝叶斯、贝叶斯网络、支持向量机( s v 0 等方法。这些方法在英文以 及欧洲语种文本分类上有广泛的研究,很多研究表明k n n 和s v m 是英文文本 分类的最好方法。国外对英文文本分类领域的各个问题都有相当的深入的研究, 对几种流行的方法进行了大量的对比研究,s u s a nd u m a i s 等学者对这5 种方法 进行了专门的比较研究。 国内自动分类研究起步较晚。始于2 0 世纪舳年代初期。1 9 8 1 年候汉清对 计算机在文献分类中的应用作了探讨,并介绍了国外在计算机管理分类表、计 算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。我国自动 分类的研究大体上正在经历从可行性研究探讨一辅助分类一自动分类系统的发 展阶段。关于中文文本分类的研究相对较少,国内外的研究基本上是在英文文 5 武汉理工大学硕士学位论文 本分类研究的基础上采取相应策略,结合中文文本的特定知识,然后应用于中 文之上,继而形成中文文本自动分类研究体系。中文分类系统的研究主要利用 基于概率统计和基于规则的两种方法,主要是基于词典的自动分类系统和基于 专家系统的自动分类系统。 1 3 本课题研究的主要内容 本课题关于邮件服务智能代理的研究,主要是以智能代理的方式实现邮件 的自动分类和过滤。实现的关键技术是提出了一种基于邮件内容挖掘的双层分 类与过滤的方法,包括长度分类、邮件采集与预处理、中文分词、特征选取、 邮件分类器和过滤器等功能模块。其中,长度分类将邮件按长度分成不同的类; 邮件预处理把邮件中的无用诃和特殊符号等过滤掉;中文分词需要在中文词典 的支持下对预处理后的邮件文本进行中文词条切分;特征选取是通过对样本邮 件的词条集进行学习训练来选取识别中文邮件的特征词,组成特征词库,用于 邮件分类;在特征词库的支持下,邮件分类器就可以对任何邮件进行分类,根 据邮件的类别来确定是否过滤或者转发。该系统可使邮件服务器具有自动过滤 垃圾邮件的能力,对邮件自动分类和转发。 1 3 1 邮件长度分类 邮件与其它的文本挖掘对象相比特征较多,比如邮件的长度、邮件中某类 特征的出现频率及位置、特殊符号的处理和特殊字体等。考虑到此类问题,我 们采取对邮件按长度进行分类,以便于贝叶斯分类器更好的学习不同长度邮件 的特征,提高分类的准确率。 1 3 2 邮件的采集与预处理 一封e - m a i l 从用户发出,通过发送邮件客户端程序送到s m t t 服务器,再 转发到目的信箱,最后,由p o p 3 服务器程序配合账号、口令接收信箱的邮件。 电子邮件的分类属于文本分类,分类的对象是一些半结构化的文本。要对电子 邮件的半结构化的内容进行信息处理,必须对其进行预处理,包括去掉对分类 无用的信息、无用词和特殊符号,只提取邮件正文组成的文本文件。 6 武汉理工大学硕士学位论文 1 3 3 中文分词 邮件经过采集与预处理后,应对文件内容进行中文分词。中文和英文不同, 英文以词为单位,词之间有空格隔开,而中文是以字为单位,字连成词( 包括 单字词) 才能表达一个意思。所以对于中文邮件,将中文文本进行正确的分词 是重要的环节。中文分词是在中文词典的支持下,把一个邮件的文本切分为有 意义的中文词条序列。把对样本邮件文本切分后获得的所有中文词条放入词条 集,通过特征选取得到对邮件分类有明显作用的特征词条,将它们保留在特征 词条库中,用于支持邮件分类器中对待检测邮件的分类。中文分词算法大致可 以分为:基于字典、词库匹配的分词方法、基于词的频度统计的分词方法和基 于知识理解的分词方法。本课题使用基于字典、词库匹配的分词方法中的最大 匹配法。 1 3 4 特征选取 对邮件进行中文分词后,要对词条库中的词条进行特征选取,其主要任务 就是如何从众多的词条特征中找出那些对分类邮件最有效的特征词条。 特征选取的算法众多,我们着重考查几种最具代表性的特征选取算法,比 较其优缺点及其在本课题研究中的适用性,选取其中的一种进行实现。 1 3 5 贝叶斯分类器 。待分类的邮件按长度划分到指定类中,经过邮件采集与预处理和中文分词 处理后,得到该邮件的词条集,在特征词库的支持下,由贝叶斯邮件分类器分 出该邮件的类型。贝叶斯邮件分类器根据该词条集中包含的特征词条的内容和 数量,通过贝叶斯分类算法计算出该邮件所属的类型。 n a i v eb a y e s 算法是一种简单而有效的分类算法,它假定在给定一个垃圾邮 件界定的阈值后,表示垃圾邮件的所有特征变量都是条件独立的。定义文本表 示为= 饥。,:,o ) ,计算文本属于某个类别的概率p ( c j i ) ,将文本分 到概率最大的类别中去。 7 武汉理工大学硕士学位论文 1 4 本课题的创新点 该课题的主要创新点有下述的四点: 1 ) 邮件分类采用双层分类的方法,先根据邮件的长度特征对邮件进行分类, 然后每一小类再用贝叶斯法进行分类。 2 ) 邮件内容中词串的提取采用中文分词技术,并建立哈希表存储词串,以 提高分词以及查找速度。 贝叶斯邮件分类器分为两阶段:邮件学习阶段和邮件分类阶段。 令哈希表同时应用在贝叶斯学习和分类阶段,这是因为表中同时存储了特 征词条属于某种类别的概率。 1 5 本文的结构 本文是邮件服务智能代理的研究,各章内容安排如下: 第1 章:对目前国内外邮件分类相关技术进行分析,并提出了本课题要研 究的主要内容及创新点。 第2 章:对邮件服务器的工作原理及其功能做介绍。 第3 章:介绍了电子邮件系统的工作原理,主要介绍了j a v am a i l a p i ,并且 分析了对邮件内容进行结构化解析的主要技术。提出了基于邮件长度特征的过 滤,以便能更好的提高分类的准确性。 第4 章:分析和比较了多种中文分词实现方法,提出了运用最大匹配法实 现分词。 第5 章:分析和比较了多种特征选取算法,提出了用t f i d f 方法作为本课 题的特征选取算法。 第6 章:分析和比较了多种分类器的优缺点,提出了运用贝叶斯机器学习 的方法,并对其用于邮件分类的原理进行了剖析,详细介绍了贝叶斯分类器的 算法实现。 第7 章:对邮件服务智能代理的实现进行了总体设计,制定出各功能模块 及其主要功能。邮件服务智能代理的实现及其性能分析。 第8 章:对本课题的研究进行总结,并展望了今后的发展方向。 8 武汉理工大学硕士学位论文 第2 章邮件服务器的功能 2 1 邮件服务器的工作原理 电子邮件是i n t e m e t 应用服务之一,通过网络,可以以非常低廉的价格、非 常快速的方式,与世界上任何一个网络用户联络。电子邮件可以包含文字、图 像、声音或其他多媒体信息。邮件服务器提供了邮件服务的基本功能,主要包 括邮件传输、邮件分发、邮件存储等,以确保邮件能够发送到i n t e m e t 网络中的 任意地方。邮件服务器工作原理如图2 - 1 所示。 图2 - 1 邮件服务器工作原理 邮件传输过程涉及到以下几个概念: 1 ) m u a m a i l u s e r a g e n t , 邮件用户代理,帮助用户读写邮件。 2 ) m t a m a i lt r a n s p o r ta g e n t , 邮件传输代理,负责把邮件由一个服务器 传到另一个服务器或邮件投递代理。 3 ) m d a m a i ld e l i v e r y a g e n t , 邮件投递代理,把邮件放到用户的邮箱里。 邮件传输过程如图2 - 2 所示。 图2 - 2 邮件传输过程 目前使用的s m t p 协议是存储转发协议,意味着它允许邮件通过一系列的 服务器发送到最终目的地。服务器在一个队列中存储到达的邮件,等待发送到 9 武汉理工大学硕士学位论文 下一个目的地。下一个目的地可以是本地用户,或是另一个邮件服务器。如果 下游的服务器暂时不可用,m t a 就暂时在队列中保存信件,并在以后尝试发送。 2 2 邮件服务器的功能 2 2 1w e b 邮件技术 对于电子邮件系统来说,单纯使用邮件客户端程序进行邮件的收发已经不 能满足用户移动办公的需要。w e b 邮件技术的出现,彻底解决了用户办公的需 要,使得邮件用户可以在任何地方使用浏览器登录邮件服务器收发邮件,而不 用配置邮件客户端程序。 2 2 2 多域邮件服务 由于目前许多邮件服务器处于电信托管等方式,不可能经常进行本地操作, 因此目前邮件服务器均提供了远程邮件监控的功能。我们可以通过w e b 方式监 控邮件服务器的工作状态,包括在线用户数、邮件处理数量和速度、存储空间 使用率等,并且可以随时对出现的发信高峰和网络攻击进行远程处理。 2 2 3 邮件列表歹表服务器 一个邮件信息可以被发送给个单独的地址,然后自动地分发到几个不同 的接收者。管理员可以建立多个不同尺寸的邮件列表。列表服务器也支持中等 的列表。一个公司可以从列表中受益,保持几个账户持有者和其他人联系,并 且快速用鉴定的信息和一个大的组联系。 2 2 4 邮件服务器的安全防护 现在的邮件服务器在安全防护技术上有了较大的提高,包括数据身份认证、 传输加密、垃圾邮件过滤、邮件病毒过滤、安全审计等的多项安全技术在邮件 服务器中得到了很好的应用。 1 ) 身份认证主要是指s m t p 发信认证,此项功能对于邮件服务器是一个可 选功能,主要目的是防止黑客利用自己的服务器攻击其他邮件服务器。完善 s m t p 身份认证不仅可以制止黑客的恶劣行为,同时可以保证自己的邮件服务器 l o 武汉理工大学硕士学位论文 的各种资源可以充分地应用到日常的邮件处理过程中,不会造成服务器的系统 崩溃和资源浪费。通过使用认证,可以保护邮件服务器自身不被作为一个中继 点。用户必须向服务器确认自己的身份,并且被允许使用邮件服务器。 2 ) 无论是p o p 3 协议还是s m t p 协议,由于在设计之初的缺陷,全部使用 明码进行消息的传递,因此很容易造成信息的泄漏。可以通过两种方式提高系 统的安全性:链路加密和端对端加密。链路加密是使用加密工具( 软硬件工具) 对传输的线路进行数据加密,需要网络设施的支持。端对端加密是邮件客户端 到邮件客户端的加密,是邮件服务器应当提供的功能,目前较为流行的方式是 使用s s i - e i 璐进行传输加密。对t l s ( 传输层安全) 和s s l ( 安全s o c k e t 层) 的支持,允许在服务器间用加密的格式传输邮件信息,并且从安全的客户端( 任 何启用t l s s s l 的客户端p o p 3 ,1 m a p ,l d a p ,例如:o u t l o o k ) 到服务器。 通过使用这些安全的协议,可以建立安全的邮件管道通过在两端使用邮件服务 器,并且可以使用安全的邮件。 3 ) 垃圾邮件大多是一些带有商业性质的广告等宣传品。据估计,仅仅商业 性垃圾邮件一项,每封垃圾邮件所抵消的生产力成本就在1 美元左右。单是下 载垃圾邮件所花费的上网费与电话费,每年就要花掉全球网民9 4 亿美元。此外, 许多病毒以及身份证和信用卡盗用案例也与垃圾邮件有关。因此,我们需要邮 件服务器具有垃圾邮件处理的功能,抵御大部分垃圾邮件的攻击。 4 ) 黑客攻击和病毒本来是两个相对独立的技术体系,但是随着网络的不断 发展,网络工具与病毒越来越趋于融合,比如尼姆达病毒既是病毒,也是网络 攻击的一种方式。而应用广泛的电子邮件,也成了病毒传播的主要方式之一。 目前,大多数邮件服务器都具有了基本的病毒防护的能力。 1 1 武汉理工大学硕士学位论文 第3 章邮件采集与预处理 由于电子邮件是半结构化的文档,包括邮件头、邮件正文、及附件三部分, 并且邮件的格式也是多种多样的。邮件头部份包含了要完成信件传输及递送所 需的指令,为邮递主机间交换信息时辨识使用,由邮递系统自动产生。完成邮 件递送时,此部份即会自动消失,寄件、收信人均无法直接看到此部份详细内 容。在邮件正文中,垃圾f 件为了干扰垃圾邮件过滤器的识别会有意的在邮件 中插入许多无关、无用的字符和标记,因此,首先要对邮件进行预处理。它是 垃圾邮件过滤中一个重要的过程,有效的预处理可以去除对垃圾邮件识别的干 扰因素,大大提高识别与过滤的效果。 邮件的采集与预处理主要包括: 1 1 通过用户或系统自主学习方式制定的“恶意地址规则库”,采用简单的地 址过滤或地址过滤加简单的关键词匹配过滤方法,将一部分邮件过滤掉。 对未过滤掉的邮件进行预处理,即去掉对邮件分类无用的结构信息,只 提取邮件的标题和正文组成的文本文件。 在实现邮件的采集与预处理之前,首先介绍e m a i l 系统的工作原理。 3 1e m a i l 系统工作原理 为了保证电子邮件系统的正常运行,t c p i p 定义了一组协议,s m t p ( 简单 邮件传输协议) 、p o p 3 ( 邮局协议) 和i m a p ( i n t e m e t 消息访问协议) 是主要的几个 协议。它们的关系如图3 1 所示。 电子邮件从发送到接受的过程如下:发送者利用m u a 写一封新邮件,通过 s m t p 协议发送给m t a 。如果该邮件是发送给本地用户的,m t a 则将其交给 m d a ,m d a 将该邮件投递给本地用户的邮箱中供用户通过m u a 读取;如果该 邮件是发送给远程用户的,m t a 则通过s m t p 协议将其发送给另一s m t p 服务 器的m t a ,远程m t a 判断该邮件接受者是本地或者远程的操作同上述,直到 该邮件存储到最终接受者的用户邮箱中。而接受者利用m u a 通过p o p 3 i m a p 协议读取邮件。 武汉理工大学硕士学位论文 图3 1i n t e m e t 邮件传送示意图 s m t i 和p o p 3 i m a p 服务器是服务器软件,运行在邮件服务器上。s m t p 服务器功能包括m t a 和m d a ,也就是负责接受待发送的邮件,并发送至目的 邮件服务器的s m t p 服务器,由该s m t p 服务器写入用户邮箱。实际上,由于 s m t p 服务器具有中转( r e l a y ) 功能,它并不区分邮件是来自用户机( 如普通 p c ) 还是其他s m t p 服务器。如果用户想在普通客户机( 没有s m t p 服务器的 普通主机) 上接受邮件的话,他需要通过p o p 3 协议或i m a p 协议从邮件服务器 上获取。不同的是,p o p 3 服务器要求用户将邮件取回本地的普通客户机进行维 护,而i m a p 则可以在服务器上直接维护,例如建立不同的邮件夹等。 由于邮件在网络中必须经过不同的网络途径传输,因此必须经过不同的邮 递主机协助信件的传递。为达到一致的沟通,发展出共通的邮递协议,主要有 送信及收信两大类协议。因特网上使用的标准协议有s m t p 及p o p 3 协议,另 外亦有多为网页邮件使用的i m a p 协议。由于本课题采用j a v a 开发,我们需要 讨论与这些协议和实现机制相关的内容,即j a v am a i l a p i 。 3 2j a v am a i la p i 3 2 1j a v am a n a p i 简介 j a v am a i la p i 的开发是s u n 为j a v a 开发者提供公用a p i 框架的持续努力的 良好例证。提倡公用框架,反对受限于供应商的解决方案,充分预示着一个日 益开放的开发环境的建立。 武汉理工大学硕士学位论文 j a v am a i la p i 的结构本身证明了它的开发者的基本目标之一软件开发 的工作量应该取决于应用程序本身的复杂程度以及开发者所要求的控制程度。 换句话说,j a v am a i la p i 尽可能地保持简单。乍看起来,j a v am a i la p i 所拥有 的类总数以及类之间的关系可能让人误解为要花费漫长的学习时间。实际上, 该a p i 不失为在应用程序中加入健壮的邮件通讯支持的简便实用的工具。 j a v am a i l a p i 是读取、撰写、发送电子信息的可选包。我们可用它来建立如 e u d o r a 、f o x m a i l 、m so u t l o o ke x p r e s s 一般的邮件用户代理程序( m a i lu s e r a g e n t , m u a ) 。而不是像s e n d m a i l 或者其它的邮件传输代理( m a i lt r a n s f e r a g e n t ,m t a ) 程序那样可以传送、递送、转发邮件。从另外一个角度来看,这些电子邮件用 户日常用m u a 程序来读写邮件,而m u a 依赖着m t a 处理邮件的递送。 在清楚m u a 与m t a 之间的关系后,我们看看j a v am a i l a p i 是如何提供信 息访问功能的。j a v am a i l a p i 被设计为两大部分;第一部分是如何以不依赖于协 议的方式发送接收电子信息。第二个部分则是依赖特定协议的,比如s m t p 、 p o p 、i m a p 、n n t p 协议。 3 。2 。2j a v am a i la p l 的相关协议 j a v a m a i la p i 中所涉及的协议主要有4 个信息传输协议:s m t p ,p o p 3 , i m a p ,m i m e 。这四个协议不是全部,还有n n t p 和其它一些协议可用于传输 信息,但不常用到。理解这4 个基本协议有助于我们更好的使用j a v am a i l a p i 。 ( 1 ) s m t p 协议 s m t p 即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的 规则,由它来控制信件的中转方式。s m t p 协议属于t c p i p 协议族,它帮助每台 计算机在发送或中转信件时找到下一个目的地。通过s m t p 协议所指定的服务 器,就可以把e - - m a i l 寄到收信人的服务器上了,整个过程只要几分钟。s m t p 服 务器则是遵循s m t p 协议的发送邮件服务器,用来发送或中转发出的电子邮件。 ( 2 ) p o p 3 协议 p o p 3 是一种邮局协议,目前为第3 个版本,即众所周知的p o p 3 。p o p 定 义了一种用户如何获得邮件的机制。它是因特网电子邮件的第一个离线协议标 准,p o p 3 允许用户从服务器上把邮件存储到本地主机( 即自己的计算机) 上,同时 删除保存在邮件服务器上的邮件,而p o p 3 服务器则是遵循p o p 3 协议的接收邮件 服务器,用来接收电子邮件的。它规定了每个用户使用一个单独的邮箱。大多数 1 4 武汉理工大学硕士学位论文 人在使用p o p 时所熟悉的功能并非都被支持,例如查看邮箱中的新邮件数量。 而这个功能是微软的o u t l o o k 内建的,那么就说明微软o u t l o o k 之类的邮件客户 端软件是通过查询最近收到的邮件来计算新邮件的数量来实现前面所说的功 能。 ( 3 ) i m a p 协议 使用在接收信息的高级协议中,i m a p 目前版本为第4 版,所以也被称为 i m a p 4 。在使用i m a p 时,邮件服务器必须支持该协议。从这个方面讲,我们 并不能完全使用i m a p 来替代p o p ,不能期待i m a p 在任何地方都被支持。假 如邮件服务器支持i m a f ,那么我们的邮件程序将能够具有以下被i m a p 所支持 的特性:每个用户在服务器上可具有多个目录,这些目录能在多个用户之间共 享。i m a p 与p o p 相比高级之处显而易见,但是在尝试采取i m a p 时,我们认 识到它并不是十分完美的;由于i m a p 需要从其它服务器上接收新信息,将这 些信息递送给用户,维护每个用户的多个目录,这都为邮件服务器带来了高负 载。并且i m a p 与p o p 的一个不同之处是p o p 用户在接收邮件时将从邮件服务 器上下载邮件,而i m a p 允许用户直接访问邮件目录,所以在邮件服务器进行 备份作业时,由于每个长期使用此邮件系统的用户所用的邮件目录会占有很大 的空间,将使邮件服务器上磁盘空间暴涨。 ( 4 ) m i m e 协议 m i m e 并不是用于传送邮件的协议,它作为多用途邮件的扩展定义了邮件内 容的格式,包括信息格式、附件格式等等。一些r f c 标准都涉及了m i m e ,如 r f c8 2 2 。r f c2 0 4 5 ,r f c 2 0 4 6 ,r f c2 0 4 7 3 2 3j a v am a i l 核心类结构 在j a v a m a i l 中有这样一些核心类:s e s s i o n 、m e s s a g e 、a d d r e s s 、a u t h e n t i c a t o r 、 t r a n s p o r t 、s t o r e 、f o l d e r ( 1 ) s e s s i o n s e s s i o n 类定义了基本的邮件会话,就像h t l p 会话那样,进行收发邮件的工 作都是基于这个会话的。s e s s i o n 对象利用了j a v a u t i l p r o p e r t i e s 对象获得了邮件 服务器、用户名、密码信息和整个应用程序都要使用到的共享信息。s e s s i o n 类 的构造方法是私有的,所以可以使用s e s s i o n 类提供的g e t d e f a u l t i n s t a n c e ( ) 这个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新能源汽车挂靠运营合作协议模板
- 2025年通信基站电气设备安装与优化升级协议
- 2025二手车二手车经销商培训服务合同范本
- 2025年度地磅称重系统销售与售后技术支持协议
- 2025处理离婚财产争议协议范本:夫妻共同财产处理流程详解
- 2025版砂石行业供销合同模板与解析
- 2025年二手家居用品转让定金合同模板参考
- 2025装配式建筑部品部件标准化设计在装配式建筑装配式阳台预制构件施工中的应用报告
- 2025年新型智能电脑及配件研发购销合同
- 2025第一节智能制造产业链协同创新合作协议书编号:XX027
- 人教版数学四年级上册全册课本练习题精心整理可编辑可打印
- 退费账户确认书
- 郑州市第四中学新初一分班(摸底)语文模拟试题(5套带答案)
- 2-第二章-各向异性材料的应力-应变关系
- 医院防爆反恐应急预案
- 云南省安全员C证考试题库及答案
- 死亡待遇申请表
- 集中供热管网系统一次网的调节方法
- 无线充电技术在汽车上的应用
- 马工程《刑法学(下册)》教学课件 第17章 危害国家安全罪
- 11科室临床路径、单病种管理目录
评论
0/150
提交评论