(计算机系统结构专业论文)基于核偏最小二乘分类的垃圾邮件过滤研究.pdf_第1页
(计算机系统结构专业论文)基于核偏最小二乘分类的垃圾邮件过滤研究.pdf_第2页
(计算机系统结构专业论文)基于核偏最小二乘分类的垃圾邮件过滤研究.pdf_第3页
(计算机系统结构专业论文)基于核偏最小二乘分类的垃圾邮件过滤研究.pdf_第4页
(计算机系统结构专业论文)基于核偏最小二乘分类的垃圾邮件过滤研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机系统结构专业论文)基于核偏最小二乘分类的垃圾邮件过滤研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

墒尊 电子邮件已经成为人们同常生活中通信、交流的重要手段,但垃圾邮件占用 大量的传输、存储和运算资源,造成巨大的资源浪费,对信息安全系统的有效性 形成重大挑战,垃圾邮件严重危害互联网发展。因此有效地区分合法邮件和垃圾 邮件成为一项紧迫的任务。 近年来,有关垃圾邮件过滤技术的研究逐渐兴起,常见的过滤方法有黑白名 单技术、规则过滤等,但这些方法都具有一定的局限性。规则的建立需要相关领 域知识,规则的增加需要大量的时间,这些都需要靠反垃圾邮件的专业人士来制 定。同时制定好的规则是公开的,使得垃圾邮件制造者容易掌握这些规则绕过过 滤器来发送垃圾邮件。目前,垃圾邮件过滤成为研究的热点。许多机器学习方法 已经应用到了垃圾邮件过滤领域,但由于每封邮件中的词很少,对大量邮件进行 处理时很容易产生高维的特征空间,而其中大部分词出现的次数很少,从而会产 生严重的数据稀疏性;同时,邮件中经常出现同义词或者近义词,而且很多邮件 的内容非常类似,因此在邮件的内容之间容易出现严重的多重相关性。偏最小二 乘方法可以很好的解决这些问题,但是邮件的内容之间的多重相关性往往不是线 性的,而更多的是错综复杂的非线性关系,本文通过在偏最小二乘方法引入核函 数,去处理这一类的非线性问题。 本文用到基于核偏最小二乘分类( k e r n e lp l sc l a s s i f i c a t i o n ) 方法的基本思想 是:通过定义特征变换后样本在特征空间中的内积来实现一种特征变换,把数据 映射到可再生希尔伯特空间中,使得这个非线性问题可以在被映射的空间上线性 描述。在选取适当的核函数后,在原始空间带参数的核函数相对于在可再生希尔 伯特空间中带参数的内积,使其线性分类更加容易。它是一种整体非线性化方式 进行机器学习。 为了检验我们提出的方法在垃圾邮件过滤中的性能,本文采用希腊学者 a n d r o u t s o p o u l o s 提供的e n r o n s p a m 数据集进行了邮件过滤实验,同时在实验 中为了凸显出邮件的主题与正文内容对过滤的影响,简单地对每篇邮件的主题出 现的词和正文内容出现的词设置了不同权重。并与目前常用的几种方法进行了对 比实验,实验结果表明k p l s c 模型获得一个比较好的邮件过滤性能,是一个可 行而有效,稳定的邮件过滤方法。在k p l s c 模型的关键问题是:潜在变量对数量 的确定与一个核函数的选择。 本文的工作与创新点如下:通过在偏最小二乘方法上引入核函数,应用核 偏最小二乘分类的垃圾邮件过滤方法,去解决邮件内容存在的非线性关系。 关键词:垃圾邮件过滤;偏最小二乘:非线性;核方法:核偏最小二乘;分类; 潜在语义 i i a b s t r a c t e m a i li sb e c o m i n gam a j o rw a yo fc o m m u n i c a t i o ni no u rd a i l yw o r ka n dl i f e , h o w e v e r , s p a mt a k eu pm u c hr e s o u r c e s i nt r a n s m i s s i o n ,s t o r a g e a n d c o m p u t a t i o n , r e s u l t i n gi n ah u g ew a s t eo fr e s o u r c e s i ti sam a j o rc h a l l e n g et ot h ev a l i d i t yo f i n f o r m a t i o ns e c u r i t ys y s t e m s s p a mi ss e r i o u s l ye n d a n g e r i n gt h ed e v e l o p m e n to ft h e i n t e r n e t t h e r e f o r e ,i ti sv e r yi m p o r t a n tt od i s t i n g u i s hs p a mf r o ml e g i t i m a t em a i l s i nr e c e n ty e a r s ,m a n yr e s e a r c h e sh a v eb e e nc a r r i e do u to ns p a mf i l t e r i n g s o m e m e a s u r e so fs p a r ef i l t e r i n g ,s u c ha sb l a c ko rw h i t el i s t ,m a n u a lr u l e sa n ds oo nh a v e b e e nw i d e l yu s e d b u tt h e s em e a s u r e sh a v ec e r t a i nl i m i t a t i o n s t h ee s t a b l i s h m e n ta n d o fr u l e sn e e d sk n o w l e d g eo fr e l a t e df i e l d s t h ei n c r e a s eo fr u l e sn e e d sal o to ft i m e , a l lt h e s ea n t i - s p a mw o r k sr e l yo ns p e c i a l i z a t i o n a tt h es a m et i m e ,f o rt h er u l e sa r e o p e n e dt ot h ep u b l i c ,s p a m m e r sw i l lb ea b l et ob y p a s st h ef i l t e ro ft h e s er u l e st os e n d s p a r e n o w a d a y s ,t h ea n a l y s i so fe - m a i lc o n t e n ti sb e c o m i n gah o tr e s e a r c ht o p i ci n s p a mf i l t e r i n g m a n ym a c h i n el e a r n i n ga l g o r i t h m sb ea p p l y e d t og e n e r a t es p a mf i l t e r s b u tb e c a u s et h ew o r d sa p p e a ri ne a c hm a i la r es os p a r s et h a tw h e n w cd e a lw i t ht h e s e d a t a s e tw ec a ne n c o u n t e rh i g hw o r dd i m e n s i o n a l i t i e sa n ds e v e r ed a t a s p a r s e n e s s ; m o r e o v e r , s i n c et h e r ea r eo n l yt w oc a t e g o r i e si nm a i ld a t a s e ta n dw o r d sa p p e a ri n e a c hm e s s a g ea r ev e r ys p a r s e ,t h es e v e r em u l t i - c o l l i n e a r i t yo ft h ew o r d sa p p e a ri no n e m a i lm u s tb et a k ei n t oa c c o u n t p a r t i a ll e a s ts q u a r e s ( p l s ) m e t h o dc a nr e s o l v e dt h e p r o b l e mw e l l ,a n o t h e rp r o b l e mt h a tt h er e l a t i o no ft h em a i lc o n t e n ti su s u a l l y n o n l i n e a r , t h em a i np u r p o s eo ft h ep a p e ri st oi n t r o d u c et h ek e r n e lf u n c t i o nt h a tb a s e d o np l st or e s o l v eas e r i e so fp r o b l e mo fn o n l i n e a r i t y t h eb a s i si d e ao fk e r n e lp a r t i a ll e a s ts q u a r e sc l a s s i f i c a t i o n ( k p l s c ) i s :,t h e t r a n s f o r m a t i o nc h a r a c t e r i s t i co ft h es a m p l et h a tr e a l i z e so n ek i n do fc h a r a c t e r i s t i c t r a n s f o r m a t i o nt h r o u g hi n n e rp r o d u c ti nf e a t u r es p a c e ,t h e nt h ed a t a sm a pi n t ot h e r e n e w a b l eh i l b e r ts p a c e ,t h i sn o n l i n e a rp r o b l e mc a nb ed e s c r i b e dl i n e a r l yi nm a p p e d s p a c e a f t e rs e l e c t i o ns u i t a b l ek e r n e lf u n c t i o n ,n u c l e a rf u n c t i o nw i t hp a r a m e t e ri nt h e p r i m i t i v es p a t i a li se q u i v a l e n tt oi n n e rp r o d u c tw i t hp a r a m e t e ri nt h er e n e w a b l e h i l b e r ts p a c e ,i t sm a k e sl i n e a rc l a s s i f i c a t i o nt ob ee a s i e r i ti sa no v e r a l lm i s a l i g u m e n t w a y c a r r i e so nt h em a c h i n el e a r n i n g i no r d e rt ot e s tt h ep e r f o r m a n c eo fs p a mf i l t e r i n gm e t h o dt h a to u rp r o p o s e d i n t h i sp a p e r , t h ee n r o n s p a md a t a s e tf o rt h ee - m a i lf i l t e r i n ge x p e r i m e n tf r o mt h eg r e e k s c h o l a r sa n d r o u t s o p o u l o s s i m u l t a n e o u s l y , t oh i g h l i g h tt h ei n f l u e n c et h a t s u b j e c t w o r d so fm a i la n dt e x tc o n t e n tw o r d so fm a i lt ot h ef i l t e r i n g i nt h ee x p e r i m e n t w e s e td i f f e r e n tw e i g h tt os u b j e c to fw o r d sa n dc o n t e n tw o r d si ne a c hm a i ls i m p l y a n d c a r r i e do nt h eo t h e r se x p e r i m e n tw i t hc u r r e n t c o m m o n l yu s e dm e t h o d ,t h e e x p e r i m e n t a lr e s u l th a di n d i c a t e dt h a tt h ek p l s cm o d e lo b t a i n e daq u i t eg o o dm a i l i i i f i l t e r i n gq u a l i t y , i t sf e a s i b l e 、e f f e c t i v ea n d s t a b l e t h ek e yq u e s t i o no fk p l s cm o d e l i s :l a t e n tv a r i a b l et oq u a n t i t yd e t e r m i n a t i o na n dak e r n e lf u n c t i o nc h o i c e t h e w o r ka n di n n o v a t i o n si nt h i sp a p e ra r ea sf o l l o w s : t h em a i np u r p o s eo ft h ep a p e ri st oi n t r o d u c et h ek e r n e lf u n c t i o nt h a tb a s e do np l s , a p p l yk p l s cm e t h o d i n t os p a mf i l t e r i n gt os o l v eas e r i e so fp r o b l e m so f n o n l i n e a r i t y k e yw o r d s :s p a r ef i l t e r i n g ;p a r t i a ll e a s ts q u a r e s ;n o n l i n e a r ;k e r n e lm e t h o d ;k e r n e l p a r t i a ll e a s ts q u a r e ;c l a s s i f i c a t i o n ;l a t e n ts e m a n t i c i v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表 示谢意。 学位论文作者签名:签字日期:年月 日 学位论文版权使用授权书 本学位论文作者完全了解江西师范大学研究生院有关保留、使用 学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许论文被查阅和借阅。本人授权江西师范大学研究生院 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 签字日期:年月 日 导师签名: 签字日期:年月 日 基丁核偏最小二乘分类的邮件过滤研究 第一章引言 1 1 研究背景和意义 1 1 1 垃圾邮件的概念和产生来源 迄今为止,垃圾邮件在国际上没有统一的定义。这主要是由于不同的团体对 于垃圾信息有不同的评判标准,研制的反垃圾邮件技术都有一定的适用范围。不 过,研究者们普遍认为垃圾邮件具有如下基本特征:【1 l ( 1 ) 信件未经接收人允许,不请自来。 ( 2 ) 信件数量巨大且内容相似。 ( 3 ) 信件中隐藏或伪造发件人身份、地址、标题信息,且内容多为商业性质。 按照上述界定,符合上面特征的邮件都属于垃圾邮件范畴相反,我们可以称 收到的其他邮件为“合法邮件 。 垃圾邮件的产生来源主要包含以下四个方面: 1 、匿名转发服务器 匿名转发是指邮件服务器具备邮件转发功能,且此功能不需要验证发件的身 份。使用匿名转发功能的邮件服务器会接受来自第三方的所有邮件转发请求,垃 圾邮件制造者利用此功能可以隐藏真实身份,大量发送垃圾邮件。 2 、匿名代理服务器 许多机构需要为内网用户建立代理服务器,以便其接入互联网。匿名代理是 指无需任何身份认证,允许外部用户访问代理服务器。垃圾邮件制造者可利用匿 名代理服务器大量发送垃圾邮件,并且可以隐匿邮件的真实来源。 3 、一次性账户 一次性账户是指被垃圾邮件制造者盗用的或非法注册的电子邮件账户。这些 账户被垃圾邮件制造者用来发送大量的垃圾邮件,一旦被发现垃圾邮件制造者便 丢弃这些账户。非法注册的账户多是由注册软件自动注册的。 4 、僵尸主机 垃圾邮件制造者控制大量的僵尸主机,组成庞大的僵尸网络,大规模的发送 垃圾邮件。僵尸主机的产生途径: 欺骗用户安装恶意软件 利用程序和操作系统的安全漏洞,安装恶意软件 1 1 2 垃圾邮件的现状 据统计1 2 1 ,美国每年因垃圾邮件造成的损失高达1 0 亿美元,全球的损失更 硕士学位论文 高达亿美元【中国反垃圾邮件联盟】。据市场调研公司公司的最新研究报告,年垃 圾邮件给全球生产力造成的损失和其他反垃圾邮件的投资将达到5 0 0 亿美元,其 中仅美国公司的损失和投资将超过三分之一,达到1 7 0 亿美元。而中国作为仅次 子美国的受垃圾邮件影响的第二大国,因垃圾邮件带来的损失同样相当严重。 1 1 3 垃圾邮件的危害 具体说来,垃圾邮件的危害主要表现在以下几个方面: 1 ) 占用网络带宽,浪费网络资源,干扰邮件系统的正常运行。 当有限的网络资源和网络带宽上充斥大量的垃圾邮件时,就降低了网络的使 用效率。对邮件服务器而言,收到的垃圾邮件占用了它的磁盘空间和网络带宽, 浪费了处理时间。更严重的是,如果垃圾邮件得不到有效控制,用户会放弃邮箱, 服务商将被迫终止服务,给企业带来很大的损失。另外,当一些用户利用邮件服 务器对外发送垃圾邮件时,该服务器会被列入黑名单而遭外部封杀。因此,邮件 服务器既要拒收来自外部的垃圾邮件,还要阻止自己的邮件用户对外发送垃圾邮 件。 2 ) 浪费用户的宝贵时间和上网费用。 如果我们每天都要花费一段时间来处理垃圾邮件,工作效率就要降低,对整 个社会来说,被浪费的时间更是一大笔宝贵的财富。有关调查显示,2 0 0 3 年, 网民平均每天需花费6 5 分钟来处理无用的邮件,单是下载垃圾邮件所花费的上 网费与电话费,全年就要浪费全球网民9 4 亿美元【3 l 。 3 ) 对网络安全形成威胁。 一些垃圾邮件传播色情、反动等各式各样的有害信息,给社会带来危害。黑 客们利用电子邮件系统发送数以万计的垃圾邮件风暴攻击目标,使之瘫痪、拒绝 服务。垃圾邮件还可以被病毒利用,成为它们的传播途径。 1 2 垃圾邮件的解决 为解决垃圾邮件问题,需要我们从立法、组织、技术三个方面综合治理。 通过加强立法来防治垃圾邮件,能够有效地控制垃圾邮件源。颁布和实施垃 圾邮件立法可以有效惩戒垃圾邮件的制造者,从源头上“封杀 垃圾邮件。 成立相关的反垃圾邮件组织。目前,国内已成立了互联网协会反垃圾邮件协 调小组,专门从事反垃圾邮件方面的相关工作。通过加强反垃圾联盟的作用和权 利,有权组织运营商停止网络服务,有权确认和取消邮件服务资格等在一定程度 上也缓解了垃圾邮件的危害。 技术手段。美国反垃圾邮件主要服务提供商b e c n t e r m a il 公司c e o s a l e m 认为:“立法只是解决全球性垃圾邮件瘟疫的整体手段之一,而创造最佳反垃 圾邮件技术是赢得反垃圾邮件斗争胜利的关键。 其中垃圾邮件过滤技术,在垃圾邮件到达用户眼前之前将之过滤掉,这种方 2 基丁核偏最小二乘分类的邮件过滤研究 法是目前来说最有效的一种手段。垃圾邮件过滤技术的关键是利用垃圾信息的行 为特征,采用合适的算法正确区分垃圾邮件和合法邮件。反垃圾邮件技术大致可 以分成接入控制方法,包括黑一白名单、狄名单、以及延迟技术身份验证方法、 反向解析、邮资系统内容过滤技术、基于规则的方法、基于统计的方法、基于指 纹的方法等。事实证明,复合使用多种技术可能会取得比较好的效果。 道高一尺,魔高一丈,在对付垃圾邮件的过程中,我们任重而道远,还有很 多的工作要做,还有很长的路要走。只有将以上三个方面有效的结合起来,综合 治理,才能彻底根除垃圾邮件,还互联网一片宁静的天空。对于垃圾邮件技术层 面的研究,也是为解决垃圾邮件问题而尽自己绵薄之力。 1 3 论文研究的内容 论文的工作是研究基于内容的垃圾邮件过滤,主要着眼于垃圾邮件的过滤 性能,近年来,基于机器学习方法自动构建个性化的过滤模型已经成为垃圾邮件 过滤研究重点。运用机器学习方法,根据用户邮箱中的邮件训练出一个过滤器,称 之为监督式的学习算法,也就是预先人工判定邮件的类别,将垃圾邮件过滤当作文 本分类的一个分支来处理。因为训练过程中同时使用了正常邮件和垃圾邮件的特 征,故最终生成的过滤器可以自适应不同用户的邮件分布。许多机器学习方法已 经应用到了垃圾邮件过滤领域,但是,邮件过滤与文本分类存在以下区别h :第一, 一般来说每封邮件中的词很少,对大量邮件进行处理时很容易产生高维的特征空 间,而其中大部分词出现的次数很少,从而会产生严重的数据稀疏性;第二,邮件中 经常出现同义词或者近义词,而且很多邮件的内容非常类似,因此在邮件的内容之 间容易出现严重的多重相关性。偏最小二乘的方法可以很好的解决这些问题,但 存在一个问题,特征的可解释性很差,因为即使简单的线性组合也会使构造出的 特征难以理解,同时邮件之间的内在联系往往不是线性的,而更多的是错综复杂 的非线性关系。本文通过在偏最小二乘的方法上引入核函数,即核偏最d , - 乘分 类模型,去解决这一类的非线性问题。 运用核方法的思想和核偏最小二乘的统计理论,我们提出一种非线性化的邮 件过滤的模型。通过引入核函数【s , 6 l ,核函数的优点在于它的非线性,避免了解 决非线性优化问题。非线性p l s 可以发展为核p l s ,即通过非线性映射到可再生 核希尔伯特空间l _ 7 j ( r e p r o d u c i n gk e r n e lh i l b e r ts p a c e ,r k h s ) ,把原始数据投影到 高维特征空间中,使其线性分类更加容易,其运算就在这个可再生核希尔伯特空 间中进行。核方法的使用,非线性组合能使邮件的特征解释性更强。 核方法是在原属性空间中计算的相似度函数,有利于处理非线性问题,它最 早是使用在s v m i s , 9 i d p ,并且在分类中取的较好的结果。受此启发,在垃圾邮件过 滤中,我们引入了核偏最小二乘,一方面,偏最小二乘可以好的处理可以自变量 之间的多重相关性和样本点容量不宜太少的问题。另一方面,核方法的使用可以 3 硕十学何论文 解决自变量的非线性关系。通过仿真实验,这一结论也得到充分地验证。 虽然垃圾邮件过滤技术在研究上取得了一定进展,通常下,一封邮件的主题 的词和正文内容中的词对垃圾邮件过滤性能的影响的不一定是等同的,本文对消 除这些因素的影响方面作了一些尝试。同时在实验中为了凸显出邮件的主题与正 文内容对过滤的影响,简单地对每篇邮件的主题出现的词和正文内容出现的词设 置了不同权重。最后我们通过几组的对比实验来说明我们提出方法的优缺点。 本文主要内容可以简要概括为以下四个方面: 1 电子邮件的工作原理及垃圾邮件的格式。 2 垃圾邮件过滤的各种方法的介绍。 3 p l s 的数学原理,基于线性p l s 的垃圾邮件过滤研究。 4 核方法的介绍,详细分析基于核方法p l s 的垃圾邮件过滤研究。 1 4 论文章节的安排 本论文分七章: 第一章介绍了垃圾邮件的定义和发展,论文的研究背景。 第二章介绍了电子邮件的协议,理解垃圾邮件格式,分析垃圾邮件的基础及 电子邮件预处理的几种情况。 第三章介绍了垃圾邮件过滤的主要技术,邮件过滤的语料库及评价标准。 第四章详细的介绍线性p l s 模型的数学理论和思想。 第五章重点分析基于核方法的偏最t j 、- 乘分类的垃圾邮件过滤模型,并对此 方法的理论基础和实现详尽的分析。 第六章介绍了核方法的偏最小二乘分类的垃圾邮件过滤模型的应用流程,通 过与其他经典算法对比实验,并分析实验结果。 第七章总结与展望。对全文工作进行了总结并提出了未来的工作展望。 4 基r 核偏最小二乘分类的邮件过滤研究 第二章电子邮件工作原理 电子邮件的工作过程遵循客户服务器模式。每份电子邮件的发送都要涉及 到发送方与接收方,发送方式构成客户端,而接收方构成服务器,服务器含有众 多用户的电子信箱。发送方通过邮件客户程序,将编辑好的电子邮件向邮局服务 器( s m t p 服务器) 发送。邮局服务器识别接收者的地址,并向管理该地址的邮 件服务器( p o p 3 服务器) 发送消息。邮件服务器识将消息存放在接收者的电子 信箱内,并告知接收者有新邮件到来。接收者通过邮件客户程序连接到服务器后, 就会看到服务器的通知,进而打开自己的电子信箱来查收邮件。下面从邮件传输 的原理,协议及邮件的预处理三方面介绍。 2 1 邮件传输的体系结构 邮件的工作原理,先给出几个概念的解释:【1 0 】 ( 1 ) m u a :m u a 即m a i lu s e r a g e n t ,邮件用户代理。m u a 是邮件m u a 是邮 件阅读或发送程序,如o u t l o o k ,在邮件系统中用户只与m u a 打交道,m u a 将 邮件系统的复杂性与用户隔离开。 ( 2 ) m t a :m t a 即m a i lt r a n s f e r a g e n t ,邮件传输代理。m t a 是一个专用程序, 其作用类似于邮局,用于在两个机器之间发送邮件,m t a 决定了邮件到达目的 地的路径。常用的m t a 有s e n d m a i l 、q m a i l 、p o s t f i x 等。 ( 3 ) m d a :m d a 是m a i ld e l i v e r ya g e n t ,邮件递交代理。m t a 并不完成最终 的邮件发送,它要调用其他的程序来完成最后的投递服务,这个负责邮件递交 的程序就是m d a ,最常用的m d a 是p r o c m a i l 1 1 】。 图2 1 显示了一个用t c p i p 交换电子邮件的示意图。 1 2 1 髯广l 缴务器 缓收廖 图2 1 电子邮件工作原理图 其中,用户与m u a 打交道。它接受用户输入的指令,将用户给出的信件 5 硕十学位论文 报文传送至m t a 。 用t c p 进行的邮件交换是由m t a 完成的,用户通常不和m t a 打交道。 当用户试图发送一封电子邮件的时候,他并不是直接将信件发送到对方的机 器上,而是由m u a 去寻找一个报文传送代理,把邮件提交给它。 m t a 得到了邮件后,首先将它保存在自身的缓冲队列中。然后,根据邮件 的目标地址,找到应该对这个目标地址负责的服务器,并且通过网络将邮件传送 给它。对方的服务器接收到邮件之后,将其缓冲存储在本地,直到电子邮件的接 收者察看自己的电子信箱。 显然,邮件传输是从服务器到服务器的,而且每个用户必须拥有服务器上 存储信息的空间( 称为信箱) 才能接收邮件。 可见,一个m t a 的主要工作是监视用户代理的请求,根据电子邮件的目 标地址找出对应的邮件服务器,将信件在服务器之间传输并且将接收到的邮件进 行缓冲或者提交给最终投递程序。 2 2 电子邮件系统相关协议 2 2 1s m t p 协议 s m t p 协议是最早出现的,也是被普遍使用的最基本的i n t e m e t 邮件服务 协议。协议规定了客户与服务器m t a 之间双向通信的规则和信封信息的传递。 s m t p 工作在两种情况下:一是电子邮件从客户机传输到服务器;二是从某一个 服务器传输到另一个服务器。s m t p 使用众所周知的t c p 端口2 5 ,是个请求 响应协议,命令和响应都是基于a s c i i 文本,并以c r 和l f 符结束( 回车换 行) 。 电子邮件由三部分组成: 信封( e n v e l o p e ) 是m t a 用来交付的信息,女1 :1 - m a i lf r o m : r c p t t o : 信头( 首部) 由用户代理使用。如: r e c e i v e d ,m e s s a g e t d ,f r o m ,d a t a ,r e p l y t o ,x - m a i l e r , t o ,s u b j e c t 等等。每 个首部字段都包含一个名称,紧跟一个冒号,接着是字段值。r f c 8 2 2 指明了 首部字段的解释,其中以x 开始的首部字段是用户定义的字段。长首部字段, 如r e c e i v e d ,被拆在几行中,以空格开头。 信体是用户想要传送的报文和数据。 s m t p 的每个命令都是简单的命令名,后面接着参数。例如: h e l ds m t p 1 6 3 c o m 一客户标识自己。 m a i lf r o m : _ 标识出报文的发送者。 r c p t t o : 一标识报文的接收者。若有多个,则用多个 6 基于核偏最小一:乘分类的邮件过滤研究 r c p t 命令。 d 加r a 一邮件报文内容通过该命令发送。报文末尾是只有一个句点的一行。 q u i r 一结束此次会话。 对客户发送的每个命令都返回一个应答。应答由3 个数字构成,后面接着 字符串。例如: 2 2 0w e l c o m et oc o r e m a i ls y s t e m 服务就绪。 2 2 1c l o s i n gc o n n e c t i o n g o o db y e 。服务关闭传输信道。 一个简单s m t p 通讯例子( c 表示客户端,s 表示服务器端) : s :2 2 0b e r k e l e y a r p as i m p l em a i lt r a n s f e rs e r v i c er e a d y 服务器m t a 准备好 c :h e l du s c i s i f a r p a 客户发送请求命令 s :2 5 0b e r l ( e l e y a r p a 服务器m t a 接受请求 c :m a ,f r o m :p o s t e l u s c i s i e a r p a 客户发送反向路径参数 s :2 5 0o k c :r c p t t o :f a b r yb e r k e l e y a r p a 客户发送目的地址 s :2 5 0o k c :d a 工a 客户请求发送邮件数据 s :3 5 4s t a r tm a i li n p u t ;e n dw i t h 服务器m t a 接受请求 c :b l a h b l a h b l a b 发送邮件数据 c :e t c e t c e r e c : 邮件数据发送完毕 s :2 5 0o k c :e l u l t 退出 s :2 2 1b e r k e l e y a r p as e r v i c ec l o s i n gt r a n s m i s s i o nc h a n n e l 关闭会话 2 2 2p0p 3 协议 电子邮件报文的接收主要涉及p o p 3 邮局协议。p o p 3 协议是一种允许用 户从邮件服务接收邮件的协议,它具有简单的电子邮件存储转发功能,属于离线 7 硕十学位论文 式工作协议。与s m t p 协议相结合,p o p 3 是目前最常用的电子邮件服务协议。 p o p 3 定义了典型的p o p 3 会话经过的三种状态( 阶段) :鉴别 ( a u t h o r i z a t i o n ) 、处理( t r a n s a c t i o n ) 和更新( u p d a t e ) 。客户和p o p 3 服务器( 1 1 0 端 口) 建立连接后,会话进入鉴别阶段。在鉴别阶段,客户对服务器标识自己。如 果鉴别成功,则服务器就打开客户的邮箱,会话也就进入处理阶段。在处理阶段, 客户请求服务器提供信息( 如邮件列表) 或完成动作( 如取走指定的邮件报文) 。然 后,会话进入更新阶段,在这一阶段结束会话,中断连接。 与s m t p 协议一样,p o p 3 也是个请求响应协议。其命令由短关键字构成, 后面接着可选的参数,以c r 和l f 符结束,作为单行文本发送。如: u s e rn a m r 给出用户信箱名称。 p a s sp a s s w o r d - - 给出用户信箱口令。 s 吖( 卜请求服务器返回消息数和大小。 r e t rm s 印u 瑚一请求服务器发送指定的报文。 d e l em s g n u 功- 青求服务器删除指定的报文。 q u i t - 一结束会话。 p o p 3 命令的应答有单行应答和多行应答两种格式。无论哪种,其基本的成 功代码是”+ o k ”,失败的代码是 - e r r ”。 单行应答首先指示命令是成功还是失败,然后提供适于用户读取或机器分析 的其他信息。多行应答也首先指示命令成功与否,后面是供调用应答使用的附加 信息行。多行应答终止是一行中包含一个点字符,后面跟着c r 和l f 符。 一个简单的p o p 3 协议通讯的例子如下( c 表示客户端,s 表示服务器端) : s :+ o kw e l c o m et ox m a i lp o p ss e r v e rv e r s i o n0 0 1 。 c :u s e rc r y s t a l 身份鉴别阶段:客户标识用户。 s :+ o kc r y s t a li sar e a lh o o e yf r o n d 。 c :p a s s1 9 8 1 0 6 1 8 客户标识用户口令。 s :+ o k 。 c :s t a t 客户请求消息数和大小。 s :+ 0 k13 2 服务器显示信息。 c :r e t r1 处理阶段:客户请求取出邮件报文。 s :+ o k3 2o c t e t ,服务器接受请求,并开始发送报文。 c :d e l e1 客户请求删除报文。 s :+ o km e s s a g e1d e l e t e d 服务器完成删除请求。 c :q u i t 结束会话,服务器更新阶段。 s :+ o kd e w e yp o p 3s c l v e rs i g n i n go f f ( m a i l d r o pe m p t y ) 。 8 基丁- 核偏最小二乘分类的邮 ,| :过滤研究 2 2 3im a p 协议 i m a p ( i n t e r a c tm e s s a g ea c c e s sp r o t o c 0 1 ) 是- - 种强有力的邮箱访问方式,它 为用户提供了有选择地从邮件服务器接收邮件的功能、基于服务器的信息处理功 能和共享信箱功能。 与p o p 3 的比较: p o p 3 提供了快捷的邮件下载服务,用户可以利用p o p 3 把邮箱罩的信下 载到p c 上进行离线阅读。一旦邮件进入p c 的本地硬盘,就可以选择把邮件 从服务器上删除,然后脱离与i n t e m e t 的连接并选择在任何时候阅读已经下载的 邮件。 i m a p 同样提供了方便的邮件下载服务,让用户能进行离线阅读,但远远 不只这些。首先,i m a p 提供的摘要浏览功能可以让用户在阅读完所有的邮件到 达时间、主题、发件人、大小等信息后作出是否下载邮件的决定。配合i m a p 客 户端软件的支持,还可以有选择的下载附件。举例来说,假如一封邮件罩含有大 大小小共5 个附件,而其中只有2 个附件是你需要的,你就可以只下载那两个 附件,节省了下载其余3 个的时间。 与w e b m a i l 的比较: 有很多用户喜欢通过w e b 来联机收发邮件,其中一个很重要的原因是这 些用户希望把他的邮件都留在服务器上,并且通过w e b m a i l 服务建立多个文件 夹,然后分类归档地管理自己的邮件。这样,w e b m a i l 的用户就可以不分时间地 点,只要有一个浏览器就可以马上从服务器上获得自己的邮件,不管是刚收到的 还是己经存放了很久,也不必担心客户端的p c 重新安装了操作系统或换了一台 电脑以后邮件全部丢失的问题。i m a p 与p o p 3 不同的地方关键是在支持离线 阅读的同时也鼓励用户把邮件存储和组织在服务器上。和w e b m a i l 一样,通过 i m a p ,允许用户在服务器上建立任意层次结构的文件夹,并且可以灵活地在文 件夹之间移动邮件,随心所欲地组织邮箱,而这些显然是通过p o p 3 做不到的。 只要邮件存储在服务器上,任何时候通过一个i m a p 的客户端软件都可以立即 联机获得你的邮件,这一点与w e b m a i l 保持一致。但其优点在于它只为e m a i l 服务,用户无需浏览页面的繁多的广告,而且还允许用户方便地利用邮箱作为信 息存储工具。i m a p 综合了p o p 3 和w e b m a i l 的优点,但其代价是要提供大量 的邮件存储空间。 2 2 4mim e 协议 m i m e 是多用途i n t e r a c t 邮件扩展( m u l t i p u r p o s ei n t e r a c tm a i le x t e n s i o n s ) 协 议。由于s m t p 协议只定义了通过i n t e r n e t 传输普通正文文本( a s c i i 文本) 的 标准,要传输诸如图像、声音和视频等非文本信息,就得另行制订标准。m i m e 作为对s m t p 协议的扩充,其实质是将计算机程序、图像、声音和视频等二进 9 硕十学位论文 制格式信息首先转换成a s c i i 文本,然后随同电子邮件发送出去。接收方收到 这样的电子邮件后,根据邮件信头的说明,进行返转换,将被包装成a s c i i 的 文本还原成原来的格式。目前,m i m e 的用途早己经超越了收发电子邮件的范 围,成为在i n t e m e t 上传输多媒体信息的基本协议之一。 m i m e 规范包括以下部分: 1 定义了5 个消息报文头字段,它们可以包含在r f c 8 2 2 中。这些字段提供了 消息正文相关的消息。 2 定义了一些内容格式,从而支持多媒体电子邮件的标准化表示方法。 3 定义了编码转换,能够将任何内容格式转换成可以防止邮件系统改动的形式。 以下分别说明: m i m e 中定义的5 种消息报头字段为: m i m e v e r s i o n ( m i m e 一版本) :必须有参数值1 0 。此字段指出消息是符合 r f c 标准的。 c o n t e n t t y p e ( 容类型) :描述正文中包含的数据,使接收用户代理能够选 择合适的代理或机制来向用户表示数据或用合适的方式处理数据。 c o n t e n t t r a n s f e r - e n c o d i n g ( 1 为容向编码的变换) :用邮件传送可接受的方式指 出用来表示消息正文的消息类型。 c o n t e n t i d ( 内容i d ) :在多个环境中用来唯一标识m i m e 实体。 c o n t e n t d e s c r i p t i o n ( 内容描述) :对正文对象的文本描述,在对象不可读时非 常有用。 这些字段的任一个或全部都可以出现在正常的r f c 8 2 2 报头中。正常的实 现必须支持m i m e 版本、内容类型和内容向编码的转换这三个字段,其余两个 则为可选字段。 m i m e 传输编码: 除了内容类型规范之外,m i m e 规范中的另一项主要组件是消息正文传输 编码的定义。m i m e 的c o n t e n t t r a n s f e r - e n c o d i n g 字段可以采用6 个值。 m i m e 中定义的实际编码方案是q u o t e d p r i n t a b l e 和 b a s e 6 4 e 。 q u o t e d p r i n t a b l e 是为了大部分由a s c i i 字符组成的但还包含一些非a s c h 字 符的内容而设计的,它使得a s c h 文本对用户而言是可读的。b a s e 6 4 编码以6 4 为基数,用于任意二进制信息的编码,其基本原理是将3 个8 位字节组成一个 2 4 位串,然后将2 4 位串分为4 个6 位串,每个6 位串由一个字符来表示。 7 b i t ,8 b i t ,b i n a r y 表示没有编码,但是提供了一些关于数据特性的消息。x t o k e n 表示可以使用某些供应商特定的或应用特定的编码方案,但必须提供方案名称。 m i m e 编码格式:t o i t a s c h 字符的短行;8 b i t 字符短行,可能有非a s c i i 字符;b i n a r y8 b i t 的二进制数据;q u o t e d p r i n t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论