(模式识别与智能系统专业论文)中文垃圾邮件过滤技术的研究.pdf_第1页
(模式识别与智能系统专业论文)中文垃圾邮件过滤技术的研究.pdf_第2页
(模式识别与智能系统专业论文)中文垃圾邮件过滤技术的研究.pdf_第3页
(模式识别与智能系统专业论文)中文垃圾邮件过滤技术的研究.pdf_第4页
(模式识别与智能系统专业论文)中文垃圾邮件过滤技术的研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(模式识别与智能系统专业论文)中文垃圾邮件过滤技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 众所周知,电子邮件是互联网最重要、最普及的应用,大大方便了人们生 活、工作和学习。但垃圾邮件问题也日益严峻,经过综合计算,垃圾邮件给中 国的g d p 每年造成的损失多达6 0 6 9 亿人民币。由于法律、技术等多方面的原因, 目前还无法从根源上制止垃圾邮件的产生,所以研究反垃圾邮件技术势在必行。 其中基于内容的反垃圾邮件技术是目前国际上研究的重点。 本文在总结前人所做工作的基础上,针对中文邮件的特性,从整体上对邮 件过滤系统进行了深入的研究,并在特征抽取、分类算法等方面提出了一些改 进意见。 具体来说,本文做了以下工作: 1 从经济、法律、技术等方面讨论了垃圾邮件产生的原因,总结了目前国 内外垃圾邮件过滤技术的现状,并详细介绍了文本分类算法在基于内容邮件过 滤技术上的应用。 2 本文通过一系列的实验,分析了特征抽取算法、特征词数量及词性选择 等因素对邮件过滤系统的影响。我们发现,优势率算法非常适合邮件文本的特 征抽取。同时我们发现了中文邮件文本特征在词性和数量方面的一些规律。 3 考虑到邮件过滤系统中再学习能力的重要性,本文将一种增量式贝叶斯 分类模型运用到邮件过滤系统中,并取得了很好的效果。实验证明,它可以大 幅提高对未知邮件的分类正确性。另外,本文将广泛应用在中心法的d r a g p i l s h i i l g 修正算法的思想应用到朴素贝叶斯分类器上去,它可以有效地提高朴素贝叶斯 分类器的准确率。 4 文章最后,提出了一个理想的垃圾邮件过滤系统的模型。 关键词: 邮件过滤系统,文本分类,朴素贝叶斯,增量学习,d m 妒u 蛐g 算法 a b s t r a c t r e s e a r c ho nc hin e s es p a mfi it e rin g t e c h n o io g y a b s t r a c t i ti sw e l lk n o w n ,e m a i l i so n eo f 也em o s th n p o r t a i l t 印p l i c a t i o n si ni n t e m e t n i sv e r yc o n v e i l i e n tt op e o p l ef o rc o m m u n i c a t i o na n ds n l d y b u tn o w ,s p 锄p m b l e mi s s os e r i o l l st l l a ti tc o s t s6 0 6 9b i l l o nr m bt og d pi nc h i i l a f o rt 1 1 er e a s o no f1 a w 锄d t e c h i l o l o g y ,、v ec 蛐o ts t e mt l l ee m e r g e n c eo f s p a n l s oi ti si l r g e mt om es t i i d yf o r t l l et e c h n o l o g yo f a m i s p 锄n o w a d a y s ,m a l l ys c h o l a r st l l i i l l ( t l l a tt l l ef i l t e r i n gs y s t e m t os p a mb ym ec o n t e n to fe m a i l i sp r o r n i s e f u l _ b ys u m m a r i z i n gt t l ew o r ko f 也ep r e c u r s o r sa 1 1 da i m i i l ga tt b ef b a t u r eo f a l i i l e s e e - m a i l ,t l l i sa n i c l ed o e sa i l 缸d 印山s t u d yo f t l i es y s t e mo f e - m a i lf i l t e r m gw h o i l ya i l d i m p r o v e so n l ea l g o r i t l l mo f t e 】( tf e a t i l r ee x 廿_ a c t i o na i l dt h ea l g o r i 血mo f t e x t c l a s s i f i c a t i o n 1 1 1 ec o m e n 乜o f 也i s 枷c l ea r e 船f 0 1 l o 谢n g : 1 a n a l y z i n gm e r e a s o no f o c c u 玎e 1 1 c eo f s p a m 疔o me c o n o n l i c s ,l a wa 1 1 d t e c h n o l o g ya n dm e n i ti n 仃o d u c e ss o m ea p p l i c a t i o n so f t e x tc a t e g o r i z a t i o nt os p 锄 矧t e r i n gs y s t e m 2 b yas e r i e so f e x p e r i m e n t a t i o n ,t l l i sa r t i c l ea n a l y z e s 也ei i l n u e n c eo f 也e p r e c i s i o no f s p a mf i l t e r i n gs y s t e i nb yt h ec h o i c eo f t h em e m o d o f t e x tf e a t u r e e x 仃a c t i o n 锄dt 1 1 ep a no fs p e e c ho f t e x tf 色a t u r e w ef i n dt h 乩o d d s 血oa l g o r i t l l mi s v e r ) rf i tf o rt l l es y s t e mo f e - m a i l 丘l t e 血l g m e a i l w h i l e ,w ef i n dt h en l l eo f p a no f s p e e c ha i l d 锄o u n to f t e ) ( tf e a t i l r e 3 c o n s i d e 血gm ei i n p o n a n c eo f i e 锄j n gi ns p 锄f i i t e r i n gs y s t e m ,ib r i n g f o n a r daf e e d b a c kl e a r i l i i l ga l g o r i t l l i nt on a i v eb a y e sa i l di tb e h a v e sw e l l i i l a d d i t i o n ,t l l i sa n i c l ep md r a g p u 蛐ga 1 9 0 珊吼埘l i c h 印p l yf o rc e i 咖i dt e x t c l a s s m c rt o l i sn a i v eb a y e sc l a s s i f i e r a c c o r d i n gt o l ee x p e r i i n e n t a t i o n ,if i n di t c a n i m p m v e t l l ep r e c i s i o no f t h ec l a s s i f i e r 4 i nt h ee n d ,t l l i sa n i c l eb r i n g sf o r v m r da ni d e a lm o d e lf o rs p 锄f i l t e r i n g i l a b s t r a c t s v s t e m k e y w o r d s : s p 锄f i l t e r i n gs y s t e m ,t e ) ( tc a t e g o r i z a d o n ,n a v eb a ) r e s ,f e e d b a c kl e 蛐g , d m g p u s h i n g i i i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:忑? 该 如。f 年岁月3 1 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月日 各密级的最长保密年限及书写格式规定如下 ? _ 墨“曩jj 量”j 譬 内部5 年( 最长5 年,可少_ 于= 5 年) ,譬蠹 量曩j l 秘密1 0 年( 最长1 0 年,可少于l o 年) j _|ij _ 机密2 0 年( 最长2 0 年,可少于2 0 年) j i c ? i ? j 童量。量。j 一一。; 。 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名: 年月日 第一章引言 1 1 1 垃圾邮件泛滥 第一章引言 第一节研究背景 众所周知,电子邮件是互联网最重要、最普及的应用,大大方便了人们生 活、工作和学习。据预测,2 0 0 7 年,全球电子邮件数量将达到4 4 2 0 亿封。近年 来,一些公司或个人为了个人或商业利益,在未经收件人同意的情况下,利用 电子邮件发送大量商业广告及各种不良信息,形成影响极坏、后果严重的垃圾 邮件。垃圾邮件的泛滥不仅极大地浪费了网络资源,占用了用户的电子信箱资 源,降低了网络使用效率,影响了互联网的正常使用,侵犯了用户的个人权利, 还对青少年的健康成长造成了不良影响。垃圾邮件已经成为各国共同面临的棘 手问题“。 在我国的互联网上,垃圾邮件也己经是泛滥成灾,不容忽视。中国互联网 反垃圾邮件中心的统计数据显示“”,2 0 0 5 年1 1 月到2 0 0 6 年2 月,中国互联网 用户平均每周收到垃圾邮件数量为1 9 3 3 封,较2 0 0 5 年1 0 月的每周1 7 2 5 封 上升了2 0 8 封,平均每个网民每周处理垃圾邮件时间为1 3 1 5 分钟。经过综合 计算,垃圾邮件给中国的g d p 每年造成的损失多达6 0 6 9 亿人民币。目前国内 拥有邮件服务器的企业普遍受到垃圾邮件的侵扰,有的企业每周收到上万封垃 圾邮件,有的企业每年为应付垃圾邮件投入上百万元的设备和大量的人力,给 企业造成了沉重的负担。在数量庞大的垃圾邮件中,有相当一部分是向网民推 销他人的电子邮箱地址,这就有可能使得一部分网民加入到发送垃圾邮件的大 军中,使垃圾邮件的数量越来越多。 第一章引言 中国国内历年垃圾邮件变化趋势 = 。一一 每周收到的* 一。: 姜 2 甚、c t 。 ! 二1 7 。 垃圾邮件所占总量:所占比例增长i 日期 垃圾邮正常邮 邮件总 比例,幅度:! 。量毫 件 件毫数 ; = _ 2 0 0 2 76 9 = 6 51 3 4 。5 1 4 9 ; 。 2 0 0 3 18 1 3 7 7 :、1 6 0 5 1 8 8 ;镬3 9 * j ! 一j 2 0 0 3 7。8 ) 嚣7 2 1 6 士5 5 2 8 3 4 9 、一 。 一vy t 一 2 0 0 4 17 9u 屯5 81 i 3 7 5 7 6 6 t 2 3 8 。 二 j “ 一一 2 0 0 4 79 :2 4 61 1 3 8 :6 6 6 7 ;二9 0 i 二+ 数据来源:c n n i c 调查报告 图1 1 垃圾邮件变化趋势图 1 1 2 垃圾邮件的概念 要想真正了解垃圾邮件,就得首先弄明白什么是垃圾邮件。关于垃圾邮件, 中国互联网协会给出了一个正式的定义,只要是符合下述五条之一的电子邮件 都可被称为垃圾邮件“: 1 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的 宣传品等宣传性的电子邮件; 2 收件人无法拒收的电予邮件; 3 隐藏发件人身份、地址、标题等信息的电子邮件; 4 含有虚假的信息源、发件人、路由等信息的电子邮件。 5 含有病毒、恶意代码、色情、反动等不良信息或有害信息的邮件。 按照上述定义,上面五类邮件都属于垃圾邮件范畴。其中符合第一条定义 的垃圾邮件就占了8 0 以上。相反,我们可以称收到的其他邮件为“合法邮件”。 对大多数用户,收到的垃圾邮件大部分都是没有主动订阅的广告、电子期刊等 宣传品,其基本特征是“不请自来”、带有商业目的( u i l s o l i c i t e dc o i i l i n e r c i a le m a i l ) 或者政治目的。实际上,垃圾邮件的判定会因人而异,不同的用户对同一邮件 的判定结果可能存在差异。 2 第一章引言 第二节垃圾邮件的解决方法 1 2 1 反垃圾邮件立法 例如,一旦确认某个团体或个人是垃圾邮件的发送者,那他就面临着法律 的制裁与处罚。针对目前垃圾邮件泛滥的现状,反垃圾邮件立法的呼声日益渐 高,中国互联网协会反垃圾邮件协调小组2 0 0 4 年2 月1 8 日在北京发出关于加快 “反垃圾邮件立法”进程的倡议,得到了众多组织机构和邮件用户的响应。但 立法面临着一系列的问题。首先是垃圾邮件的概念之争,到底什么是垃圾邮件, 像宣传品、电子期刊等这类邮件是不是垃圾邮件很难界定,垃圾邮件发送者会 想尽一切办法逃脱法律的惩罚:其次是法律的执行问题,给予什么样的处罚, 而且,如果缺少国际合作,即使发现来自境外的垃圾邮件,也无法制裁。 1 2 2 利用技术过滤垃圾邮件 近年来,有关垃圾邮件过滤技术的研究开始逐步兴起,相关的投入也越来 越大,涌现了一大批相关产品。如果能够从技术上解决垃圾邮件问题,那是最 理想的了。 到目前为止,国际上反垃圾邮件的技术上主要可以分成两类“:“根源阻 断”和“存在发现”。“根源阻断”是指通过防止垃圾邮件的产生来减少垃圾邮件。 据报道,比尔盖茨曾提出通过对发送邮件收费来减少垃圾邮件。目前,主流的 反垃圾邮件技术是“存在发现”,即对已经产生的垃圾邮件进行过滤。 1 2 2 1 “根源阻断”方式 其中,“根源阻断”主要包括以下几种方式: 1 ) 电子邮票方案 因为垃圾邮件发送具有大规模发送成本很小的行为特征,微软公司提出了 对发送邮件进行收费的解决方案。不过这种方式却是对广大的正常邮件发送者 带来了新的负担,还需考虑。 2 ) 基于连接频率的动态规则方式 由于一个正常用户发送邮件的数量和频率远远低于垃圾邮件发送者,因此 我们可以根据垃圾邮件发送具有一定时间内邮件数量和邮件连接频率都非常大 3 第一章引言 的情况,从频率和数量对垃圾发送者的连接行为进行控制。 3 ) c h a l l e n g e r e s p o n s e 方式 挑战一应答模式是从增加垃圾邮件发送者时间成本上入手,要求每发送一 封邮件,就要求发件人回答一些问题的方式来增加发送时间。 4 ) d o m a i nk e y s 方式 这是一种基于p 的方式对邮件发送者进行验证,对邮件信息进行加密保 护,对收信人实现防抵赖机制。 5 ) s p f 方式 这是一种源头认证的方式,它通过改变域名系统的数据库,接受方核实邮 件实际来源是否和s p f 注册的一致来判断邮件是否为假冒邮件。 1 2 2 2 “存在发现”方式 “存在发现”方式主要包括以下几种技术: 1 ) i p 地址、域名、邮件地址的黑白名单方式 这种技术手段是最传统的方式,它通过黑名单技术对垃圾邮件进行屏蔽, 通过白名单技术对允许的邮件进行放行。 实时黑名单r b l ( r e a l t i m eb l a c k h o l el i s t ) 是借助d n s 解析技术的黑名单 查询技术,当需要验证某个邮件服务器i p 地址是否被列入黑名单时,就向r b l 服 务器发出一个特殊的d n s 解析请求,r b l 服务器将返回一个i p 地址,邮件服务器 就知道该坤是否被列入黑名单。 白名单中的发件人发送的任何邮件都认为是合法邮件。 这种黑白名单一般由比较有信誉的组织提供,如中国互联网协会 ( 鱼业;2 型:i 坠q ! g :塾) 定期在主页上公开垃圾邮件服务器口地址名单。个人也 可以根据需求定义和维护自己的黑、白名单。 2 ) 基于信头、信体、附件的内容过滤方式 该项技术目前尚不成熟,因为现在的群发程序自动生成和发送的垃圾邮件 对于发件人、收件人、邮件主题甚至邮件内容都是随机生成的,使得该种技术 目前应用范围日趋狭窄。 3 ) 基于邮件内容的过滤方式 目前基于内容垃圾邮件判别的方法可以大体分成基于规则的方法和基于概 率统计的方法。前者常常得出人们可以理解的显式规则:后者往往通过某种计 4 第一章引言 算表达式推出结果。本质上,概率统计方法可以看成规则方法的一种推广,只 不过概率统计方法中得到的规则是一种不被人轻易理解的“隐式规则”。 不管是基于规则的方法还是基于概率统计的方法,在使用时都经历从训练到 过滤的过程。通过已有的训练集合( 正例+ 反例) 训练出相应的垃圾邮件规则( 包 括显式规则或隐式规则) ,然后将规则应用到新的邮件判定中去。在实际系统中 可能还会加入人机交互过程,通过用户对判定结果的认可与否对已有的垃圾邮 件规则进行更新。 基于内容的反垃圾邮件技术是目前国际上研究的重点o ”。 另外还有基于病毒引擎的病毒邮件的过滤等的一些反垃圾邮件方式,主要 在一些反病毒产品中体现。 第三节反垃圾邮件组织 作为反垃圾邮件的主要力量,世界上已经成立了不计其数的规模不等的反 垃圾邮件组织。在这些组织中,有的是专注于某一个方面,在该领域做得很具 影响力:有的是规模较大,同时在几个方面进行努力,有的只是有所侧重。除 此之外,还有一些规模很小的组织,甚至就一个人,但也在某个方面很有特色。 本节我就对几个比较有影响力的组织加以简要介绍“”: 1 3 1 国外著名反垃圾邮件组织 1 3 1 1m a p s m a p s ( 逝;丛匹堑! :坐坐:q ! 型) 是美国一个非盈利机构,主要是保护i n t e m e t 上的邮件服务器不被垃圾邮件制造者利用。在垃圾邮件方面,m a p s 强调它的主 要原则是h l t 锄e t 上双方的沟通必须是双方自愿的,并且不应该让用户“退定” 一些不需要的邮件列表。它采用的主要方法是“黑名单”,把因为垃圾邮件被投 诉的i p 地址在仔细确认后列入黑名单,鼓励世界各地的m a i ls e r v e r 采用该 名单来配置邮件服务器,过滤来自这些m 地址的邮件,从而敦促i s p 等采取措 施。m a p s 维护了多个大型的黑名单数据库,包括r b l ( r e a l _ t i m eb l o c k - h o l e l i s t ) 、r s s ( r e l a ys p 鼬s t o p p e r ) 、d u l ( d i a l u pu s e rl i s t ) 以及多个数据库的 组合r b l + 等。其中r b l 是使用得比较广泛的黑名单之一。另外,m a p s 这个 5 第一章引言 站点给出了各种常用邮件服务器关闭0 p e nr e l a y 的设置方法( 参考链接: 匦乜;丛婴堑! :a 坠坚:q 篷型) ,非常实用。 m a p s 是一个较为温和的反垃圾邮件站点,但采用m a p s 的黑名单后,用 户过滤从该地址转发的垃圾邮件的同时,也无法接收从该站点发出的正常邮 件。 1 3 1 2s p a l l l h a u s s p a i n h a u s ( 啦;丛幽坠墨p 垫也型:q 哑) 是世界上的著名的反垃圾邮件组织之 一。它维护了另一个大型的“黑名单”一s p a m h 哪b l o c kl i s t ( s b l ) 。这个名单 里的i p 地址主要涉及一些已知的垃圾来源、垃圾邮件服务提供商以及专门从事 此类活动的网上流氓。s b l 是d n s 结构可查询的,并且实时更新。每条记录被 输入时都保留了充分的证据,确保列入其中的i p 地址或者网段符合s p a i i l l l a u s 的标准。大规模的网段在被列入黑名单之前都会收到有关的警告。 s p a i l l h a l l s 相信他们的黑名单中的这些组织和个人要对北美和欧洲的9 0 的 垃圾邮件负责。据初步统计,到2 0 0 年5 月,s b l 的直接用户有5 0 0 0 万,加上 其他组织的镜像数据库,总共的用户达到8 0 0 0 万。为了提高效率,s b l 在北美 和欧洲外建立了多个镜像数据库,分布在比利时、丹麦、希腊、意大利、荷兰、 英国和美国。 除了s b l 外,s p 锄h a u s 还对i i l t e m e t 的b a c k b o n e 和t i e r l 上的垃圾邮件情 况、垃圾邮件来源所在的的i s p 进行实时统计,以促使这些主要机构和公司采取 更为严格的政策控制垃圾邮件。据s p a m _ 1 1 a u s 统计,在他们的推动下,到2 0 0 2 年8 月已经有8 8 4 家公司停止了垃圾邮件方面的业务。 在全球众多的反垃圾邮件组织中,s p a m l l a u s 是其中有影响力的一个。 1 3 1 3c a u c e c a u c e ,反垃圾邮件联盟( h 卸:n ) n ) l r c a u c e o 呵) 是一个由众多志愿者组 成的开放组织。有一个专门讨论垃圾邮件问题的新闻组s p a m l ,后来这个新闻 组分出了一个专门讨论有关法律问题的新闻组s p a m l a w ,这个新闻组的核心人 物成立了最初的c a u c e 组织。到2 0 0 1 年3 月,c a u c e 正式会员有2 3 0 0 0 之多。 c a u c e 是一个非盈利的机构甚至没有自己的办公室,会员之间依靠i n t e m e t 和 电话进行合作,c a u c e 的所有一切都来自会员的志愿贡献,包括工作时间、 6 第一章引言 w 曲服务器空间和邮件资源等。 c a u c e r 从成立以来,在推动垃圾邮件的立法方面做了很多工作,尤其在 媒体宣传方面。除了美国的c a u c e 以外,欧洲、加拿大、澳大利亚和印度也有 相应的组织。 1 3 2 国内反垃圾邮件组织 1 3 2 1c c e r t 反垃圾邮件小组 c c e r t 全称是中国教育科研网计算机紧急响应组。从1 9 9 9 年5 月建立之初 就把垃圾邮件作为一项安全响应工作,在过去的几年的事件处理中积累了丰富 的经验。仅在2 0 0 1 年3 月到2 0 0 2 年3 月就处理的各类垃圾邮件事件就达2 1 9 l 起,回复信件6 0 0 余封,通过电话解答各类问题上百个。目前已经基本形成一 套处理流程。 1 3 2 2 中国反垃圾邮件联盟 b 娅;a 垡i :墅a 垫:q 玛:型 l _ 3 2 3 中国互联网协会反垃圾邮件中心 h 仕p :,w w w a n t i - s p a i t l c 1 1 , 第四节本文的内容安排 本文将就垃圾邮件过滤技术的各个方面进行深入地探讨,组织如下: 第二章:介绍电子邮件的基础知识及相关协议。 第三章:从文本分类的角度介绍基于内容的垃圾邮件过滤技术。分析了邮 件过滤和文本分类、信息过滤的联系与区别;介绍邮件过滤中常用的特征选择 方法、分类方法、邮件语料库以及评价指标。 第四章:重点介绍朴素贝叶斯分类器的相关概念及模型,并提出了一种应 用于邮件过滤系统的增量式学习算法以及一种基于朴素贝叶斯的修正算法。 第五章:就中文邮件过滤系统的实现及实验进行了分析。 第六章:总结与展望 7 第二章电子邮件的相关知识 第二章电子邮件的相关知识 第一节电子邮件的基础知识 2 1 1 电子邮件发展历史 1 1 1 t e m e t 问世后的最初应用就是电予邮件。虽然今天i n t e m e t 的应用范围得到 了极大的拓展,电子邮件仍然是它最为广泛的应用之一。在过去的若干年里, 电子邮件的功能已经丰富了很多。据2 0 0 0 年3 月份m e s s a g i n go n i i n e 的一份数 据显示,h l t e m t 上有5 6 9 亿个邮箱,平均每个h l t e r i l e t 用户有l - 8 个。 在1 1 1 t e m e t 电子邮件流行之前已经有几种形式的电子邮件存在了。从2 0 世 纪6 0 年代后期人们就开始使用计算机共享文件的方式柬传递信息。到了7 0 年 代开始出现基于址慷r d e t 传输电子邮件,大多数人认为1 9 7 1 年使用a i ,a i h e t 发出的电子文本信息是第一封h n e m e t 电子邮件。1 9 7 2 年r a yt 0 m l i n s o n 写了第 一个电子邮件程序,叫做s n d m s g ,在a p a r n e t 上使用。为了创建一个世界范 围内的电子邮件系统,在1 9 8 4 年i s o ( 国际标准化组织) 和i t u ( 国际电信联 盟) 发布了一组新的信件传递标准,这就是x 4 0 0 。在1 9 8 8 年和1 9 9 3 年又做了 两次更新。在欧洲这个标准较为广泛的范围内被接受,但由于它的规模和复杂 性,并没有在全球范围内流行。相反,基于t c p i p 的电子邮件从一开始就显示 出了强大的生命力。1 9 8 2 年i n t c m e t 协会发布了基于t c p 口电子邮件的s m t p ( 简单邮件转发协议) ,即r f c 8 2 1 ( r e q u e s tf o rc o 衄e n t s ,i n t e m e t 的标准文档) 。 稍后发布的r f c 8 2 2 定义了a s c l i 代码的纯文本的信件结构。由于i n t e m e t 的快 速发展和巨大成功,这种h l t e r n e t 邮件也迅速被广为接受,特别是在t n t e m e t 发 源地美国。在开始的时候这些纯文本的格式就可以满足当时的需要了。但很快 人们希望使用更复杂的功能,如多媒体文件格式,于是m t e m e t 协会1 9 9 6 年又 发布了一系列的关于m 【m e ( m u n i p u r p o s ei n t e m e tm a i le x t e i i s i o n s ) 格式的定义, 支持用户的这种需求。今天人们使用的大部分邮件是c m e t 邮件,其他一些形 式的邮件要么采用了i n t e m e t 的标准,要么被l 眦m e t 邮件系统替代。虽然x 4 0 0 在欧洲还在使用,但已经可以与i n t e r n e t 邮件系统比较好地对接了。 8 第二章电子邮件的相关知识 2 1 2 电子邮件的基本格式 为了让邮件能够顺利地在i n t 锄e t 上传送,能够被不同的邮件服务器正确识 别,并且在各种各样的终端上显示出来,就需要遵循一定的格式。邮件的格式 在r f c 8 2 2 中加以定义,为了支持多媒体文档的传输,1 9 9 6 年又发布了一系列 关于m i m e ( m l l l 邱u r p o s ei n t e n l e tm a i le x t e n s i o i l s ) 格式的定义。 r f c 2 0 4 5 :m i m e 第一部分i n t e m e t 信体格式 r f c 2 0 4 6 :m i m e 第二部分媒体类型 r f c 2 0 4 7 :m i m e 第三部分非a s ci i 文件信体的扩展 r f c 2 0 4 8 :m m m 第四部分注册过程 r f c 2 0 4 9 : m e 第五部分符合标准和举例 r f c 8 2 2 在2 0 0 1 年4 月更新为i 江c 2 8 2 2 ( 目前为建议稿) ,以反映近年来的 实际情况。 了解信件的基本格式会帮助我们理解邮件的传输和邮件的信头,这里主要 讨论基于i 江c 8 2 2 的基本信件格式。 在最高信件是非常简单的,它含有一系列的文本,每一行以回车( c r ) 和换 行( l f ) 组成。信件由信头、信件体和之间的空行组成。信头有定义的格式。 以使m t a 、m d a 和m u a 能对它进行程序分析。信头是必须的,信件体是可选 的。下面是一个简单的例子: f r o m :a 亟匹i n 吐:d 丛:n 信头部分 t o :i 螳 堕:鱼坠:坠 s u b j e c t :m e e 血gn o t i c e s d a t a :2 0 0 2 5 6 h ie v e r y o n e , t h e r ei sam e e 血gt h i sa 毹m o o n n l a m 【s a d m i i l 信头和信件体之间的空行 信件体 r f c 8 2 2 为信体定义了2 0 多个标准的字段,包括d a t a 、f m m 、t o 、c c 等 一些必须的字段和一些非必须的字段,另外,在信件的传输过程中,m u a 和岍a 9 第二章电子邮件的相关知识 还会在信体上加入一些路径信息,它们合在一些构成了收到的邮件的信体部分。 下面是一个完整的信头,我们以此为例介绍一些关键字段的含义“”: r e c e i v e d :( e y o us e n d p m g r a m ) ;t u e ,0 9 a p r 2 0 0 21 l :0 2 :0 3 + 0 8 0 0 r e c e i v e d :丘d m 吼l ( i l o w n ( 眦l od 1 1 s c c e n e d u c n ) ( 逝幽 2 q 2 :! 1 2 :三z :鱼) b y 1 6 6 1 1 1 8 1 6 w i t i ls m t p ;t u e ,0 9 a p r 2 0 0 21 l :0 2 :0 3 + 0 8 0 0 r e c e i v e d :f r o m k y l i i l 印( 【2 0 2 1 1 2 5 0 2 3 】) b yd i l s c c e n e d u c n ( 8 1 0 2 + s u i l ,8 1 0 ) w i me s m t pi d9 3 9 3 e p 0 0 4 5 6 2f o r ; t u e ,9a p r2 0 0 2l l :1 4 :2 6 + 0 8 0 0 ( c s t ) r e p l y t b :璺垦q g l 亟卫:璺曼星吐:曼亟坠:曼n f r o m :曼坌立g f 色亟塾:坌坌量煎:星鱼丛:璺坠 7 1 1 0 :a q g ! q q 堕n s :丛:鱼坠:塾 s u b j e c t :2 7 曲2 31 2 7 b ? 0 8 q 8 r v e g 5 u q 一? 2 d a t a :t u e ,9 a p r 2 0 0 21 l :0 2 :3 5 + 0 8 0 0 0 聘a i l i z a t i o n :c c e r t m e s s a g e i d : 0 0 0 0 0 l c l d f 7 3 $ 0 3 7 8 d c 5 0 $ 1 7 3 2 7 0 c a k y l i i 妒 m i m e v c 船i o n :1 o c o n t e n t t 细e :t e x 郇l a i n :c h a r s e 卢”曲2 31 2 ” c o n t e n t - t r 锄s f e r - e n c o d i n g :b a s e 6 4 x - p r i o r i t ) r :3 ( n o 肋a 1 ) x m s m a i l - p r i o r i t y :n o h n a l x m a i l e r :m i c m s o f to u t l o o k ,b l l i l d1 0 0 2 6 1 6 i m p o r t a n c e :n o m a l x m i m e o l e :p r o d u c e db ym i c r o s o f tm i m e 0 l ev 6 0 0 2 6 0 0 o o o o 这里是信件的信体。 信件到此结束。 ( 1 ) f r o m : f r o m :垫g ! 血:韭:血墨堕表示生成该信件的人。 ( 2 ) t o : 1 0 第二章电子邮件的相关知识 t o :垫q ! q q 也a i ! :堡地g b 堡:亟坠:n 表示收件人。 ( 3 ) s u b j e c t 邮件的主题。 ( 4 ) r 印l y t o : 表示发信人希望的回复地址。 ( 5 ) m e s s a g e d : m e s s a g e - d : 唯一地标识一封 邮件,该字段由m u a 或者第一个m 1 a 产生。 ( 6 ) r e c e i v e d : r e c e i v e d 字段含有信件的一个特定的m 1 a 处理记录。处理信件的每个m t a 必须在每个信件头的上面加入这个字段,这个信息对于追踪信件非常有用。 ( 7 ) 其中以x 开头的字段不是r f c 8 2 2 中要求的字段,是s m t p 服务器扩 展的字段,由软件厂商自行定义的。 2 1 3 邮件的传送 电子邮件与普通邮件有类似的地方,发送者注明收件人的姓名与地址( 即 邮件地址) ,发送方服务器把邮件传送到收件方服务器,收件方服务器再把邮件 放送到收件人的邮箱中,如图所示。 第二章电子邮件的相关知识 图2 1 电子邮件发送示意图 下面解释邮件传送中涉及到的几个概念: m u a ( m a i lu s e r a g e m ) ,邮件用户代理,帮助用户读写邮件。 m t a ( m a i lt r a i l s p o na g e n t ) ,邮件传输代理,负责把邮件由一个服务器传 到另一个服务器或邮件投递代理。 m d a ( m a i ld e l i v e r y a g e n t ) ,邮件投递代理,把邮件放到用户的邮箱中。 整个邮件传输过程如图2 1 所示。 目前使用的s m t p 协议是存储转发协议,意味着它允许邮件通过一系列的 服务器发送到最终目的地。服务器在一个队列中存储到达的邮件,等待发送到 下一个目的地。下一个目的地可以是本地用户,或者是一个邮件服务器。而当 下一个服务器暂时不可用时,m t a 就暂时在队列中保存信件,并在以后尝试发 送。 2 2 1s m t p 协议 第二节电子邮件的相关协议 s m t p 简单邮件传输协议( s i m p l em a i lt r a i l s f e rp r o t o c 0 1 ) 是基于t c p 服务 1 2 第二章电子邮件的相关知识 的应用层协议,它定义了保证电子邮件可靠和高效传送的机制。s m t p 最初的内 容包含在r f c 8 2 1 中,在2 0 0 1 年4 月r f c 2 8 2 1 对该协议进行了更新,取代了旧 的r f c 8 2 1 。 s m t p 提供了一种邮件传输的机制,当接收方和发送方都在一个网络上时, 可以直接把邮件传给对方;当双方不在同一个网络上时,需要通过一个或几个 中间服务器转发。s m t p 首先由发送方提出申请,要求与接收方s m t p 建立双向 的通信渠道,收件方可以是最终收件人也可以是中间转发的服务器。收件方服 务器确认可以建立连接后,双方就可以开始通信。图2 2 是s m t p 的模型示意图。 图2 2s m t p 模型示意图 s m t p 协议本身是一个简化的邮件递交协议,缺乏很多必要的身份认证,这 是s m t p 协议造成垃圾邮件泛滥的原因之一。由于s m t p 协议中,允许发信人伪 造绝大多数的发信人特征信息,如:发信人、信件路由等,甚至在通过匿名转 发、开放转发和开放代理等手段后,可以近乎完全的抹去垃圾邮件的发信人特 征。目前,绝大多数的垃圾邮件都伪造了其真实的发信来源,这对于发现制止 垃圾邮件的传播造成了很大的困难。 s m t p 协议还缺少一些必要的行为控制,不能有效的甄别正常的邮件发送和 垃圾邮件发送行为,这是造成垃圾邮件泛滥的原因之二。 1 3 第二章电子邮件的相关知识 2 2 2p o p 3 协议 电子邮件报文的接收主要涉及p o p 3 邮局协议。p o p 3 协议是一种允许用 户从邮件服务器接收邮件的协议,它具有简单的电子邮件存储转发功能,属于 离线式工作协议。与s m t p 协议相结合,p o p 3 是目前最常用的电子邮件服务 协议。p o p 3 定义了会话经过的三种状态( 阶段) :鉴别( a u t l l o r i z a t i o n ) ,处理 ( t r a i l s a c t i o n ) 和更新( u p d a t e ) 。客户和p o p 3 服务器( 端口号1 1 0 ) 建立连接后,会 话进入鉴别阶段。在鉴别阶段,客户对服务器标识自己。如果鉴别成功,则服 务器就打开客户的邮箱,会话也就进入处理阶段。在处理阶段,客户请求服务 器提供信息( 如邮件列表) 或完成动作( 如取走指定的邮件报文) 。之后,会话进入 更新阶段,在这一阶段结束会话,中断连接。与s m t p 协议一样,p o p 3 也是 个请求响应协议。其识别由短关键字构成,后面接着可选的参数,以c r 和l f 符结束,作为单行文本发送。 2 2 3 m l m e 协议 m v i 是多用途i n t e m e t 邮件扩展( m u h i p u r p o s ei n t e m e t m a i l e x t e n s i o n s l 协议。由于s m t p 协议只定义了通过i n t e m e t 传输普通正文文本 ( a s c i i 文本) 的标准,要传输诸如图像、声音和视频等非文本信息,就得另制 订标准。m i m 巳作为对s m t p 协议的扩充,其实质是将计算机程序、图像、声 音和视频等二进制格式信息首先转换成a s c 文本,然后随同电子邮件发送出 去。接收方收到这样的电子邮件后,根据邮件信头的说明,进行逆转换,将被 包装成a s c 的文本还原成原来的格式。目前,m i m e 的用途早已经超越了收 发电子邮件的范围,成为在i n t c n l e t 上传输多媒体信息的基本协议之一。m i m e 规范包括:一是定义了5 个消息报文头字段,它们可以包含在r f c 8 2 2 中,这 些字段提供了消息正文相关的消息;二是定义了一些内容格式,从而支持多媒 体电子邮件的标准化表示方法:三是定义了编码转换,能够将任何内容格式转 换成可以防止邮件系统改动的形式。 1 4 第二章电子邮件的相关知识 第二节本章总结 本章就电子邮件的基础知识、邮件的传送接收以及相关协议进行了比较详 细的介绍。得出s m t p 协议缺乏很多必要的身份认证,以及缺少一些必要的行为 控制,是s m t p 协议造成垃圾邮件泛滥的技术原因之一。 1 5 第三章基于内容的垃圾邮件过滤技术 第三章基于内容的垃圾邮件过滤技术 基于内容的邮件过滤问题实质就是文本的二值分类问题,即将邮件分为“垃 圾”和“有用”邮件两类。也就是说,邮件的分类可以看成文本的分类问题。 分类的目标是对待分类对象标以适当的类标签以标识其类别。 本章详细介绍了文本分类的相关技术,然后指出文本分类与基于内容的邮 件过滤技术相似及不同之处。最后给出了常用的英文邮件语料库。 3 1 1 文本分类简介 第一节文本分类 文本分类系统的功能就是要通过对已有训练文本的训练,建立一个分类器, 通过这个分类器能够自动根据新来数据集的内容确定其类别。 从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映 射到已有的类别中,用数学公式可表示为: 厂:爿斗b其中,爿为待分类的文本集合,曰为分类体系中的类别集合 映射规则为通过对训练集的训练所提取的判别公式和判别规则。 3 1 2 文本分类的过程 文本分类技术一般包括训练和分类两个过程。 训练过程包括:对训练文档的转换、汉语分词、特征的建立、特征子集的 选取以及利用机器学习的方法提取特定的知识模式,对该模式进行质量评价。 所不同的是,这里利用机器学习的方法所提取的特定的知识模式面对的是文档 分类这个应用,所以这里提取的知识模式的过程应该是建立一个能够预测新来 实例类别的模式,即构造一个分类器的过程。这个分类器能够通过一个预定义 的分类集,将一个新来数据集分入预定义的类别中。 分类过程中包括对新来数据集的文档转换、汉语分词、特征提取以及分类。 1 6 第三章基于内容的垃圾邮件过滤技术 整个流程可用下图来表示: 训 练 文 档 新来文档 文 档 转 换 汉 语 分 词 文档转 换 嘉囊蓑篝瞿怦 提取及

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论