(计算机应用技术专业论文)基于支持向量机的垃圾邮件过滤模型研究.pdf_第1页
(计算机应用技术专业论文)基于支持向量机的垃圾邮件过滤模型研究.pdf_第2页
(计算机应用技术专业论文)基于支持向量机的垃圾邮件过滤模型研究.pdf_第3页
(计算机应用技术专业论文)基于支持向量机的垃圾邮件过滤模型研究.pdf_第4页
(计算机应用技术专业论文)基于支持向量机的垃圾邮件过滤模型研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)基于支持向量机的垃圾邮件过滤模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨理t 大学t 学硕士学位论文 基于支持向量机的垃圾邮件过滤模型研究 摘要 随着因特网的迅猛发展,电子邮件成为了现代通信的主要手段。但是同 时,许多垃圾邮件也在网络中蔓延,给广大用户带来了大量的麻烦。因此如 何能够有效地防治垃圾邮件是一个有重要意义的现实问题。 本文研究了大量国内外最新反垃圾邮件文献和数据,对己有的垃圾邮件 过滤技术做出分析、总结和展望。垃圾邮件过滤技术是反垃圾邮件的重要手 段,目前主要有基于l p 地址的垃圾邮件过滤技术、基于规则的垃圾邮件过 滤技术和基于内容的垃圾邮件过滤技术。 本文主要研究基于内容的垃圾邮件过滤技术。基于内容的垃圾邮件过滤 技术是通过分析电子邮件的内容,来过滤垃圾邮件的一种技术。基于内容的 垃圾邮件过滤本质上是文本分类问题,就是要将电子邮件经过预处理提取出 邮件正文的文本内容,利用文本分类方法识别垃圾邮件的过程。本文对各种 文本分类技术进行了深入调查研究,重点研究了当前流行的支持向量机理 论、在文本分类中的重要应用以及当今利用支持向量机进行垃圾邮件处理的 最新进展和技术实践。 本文利用文本分类的方法处理当前流行的h t m l 类垃圾邮件。本文对 h t m l 类电子邮件的预处理方法进行了深入的研究。对邮件的预处理,本 文研究了文本解析和噪声去除技术,以及实用的中文分词技术、l u c e n e 和 g a t e 工具。提出了基于相似度曲线的特征提取策略。 本文设计并实现了基于支持向量机的垃圾邮件过滤系统。采用正向最大 匹配方法实现了中文分词,采用基于相似度曲线的特征提取策略和考虑位置 因素的权重计算公式,采用支持向量机模型和l i b s v m 工具包实现了对电 子邮件的分类。通过对系统测试,实验表明采用支持向量机用于垃圾邮件过 滤是实现垃圾邮件过滤的有效方法之一。 关键词垃圾邮件过滤;支持向量机;特征选择和抽取 哈尔滨理t 大学工学硕: 学位论文 r e s e a r c ho ns p a mf i l t e rm o d e lb a s e do ns u p p o r t v e c t o rm a c h i n e a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,e - m a i lh a sb e c o m eap r i m a r ym e a n s i nm o d e mt e l e c o m m u n i c a t i o n h o w e v e r , s p a m ,s i m u l t a n e o u s l yp e r v a d e s w i d e s p r e a do nl i n e ,b r i n g i n gal o to ft r o u b l e st on u m e r o u su s e r s t h e r e f o r e ,i ti s i m p o r t a n ta n dp r a c t i c a lt op r e v e n ta n d c o n t r o ls p a r ee f f e c t i v e l y t h et h e s i s ,o nt h eo n eh a n d ,i n v e s t i g a t e st h o r o u g h l yc o n s i d e r a b l ea n t i s p a m d o c u m e n t sa n dd a t af r o mb o t hh o m ea n da b r o a d f u r t h e r m o r e ,a n a l y s i sa n d c o n c l u s i o na r em a d eo ne x i s t i n ga n t i s p a mt e c h n i q u e s t h ee - m a i lf i l t e r t e c h n o l o g yi sa l li m p o r t a n tm e a s u r ea g a i n s ts p a m ,w h i c ha tp r e s e n ti sm a i n l y b a s e do ni pa d d r e s s ,r u l e sa n dt h ec o n t e n tr e s p e c t i v e l y t h ef o c u so ft h i sd i s s e r t a t i o ni so nt h ee - m a i lf i l t e rt e c h n o l o g yb a s e do ne - m a i lc o n t e n t s i ti sat e c h n o l o g yt of i l t e re m a i lt h r o u g ha n a l y z i n gt h ec o n t e n t so f e m a i l a c t u a l l y , i ti sam a t t e ro ft e x tc a t e g o r i z a t i o n ,i e ,t op r e p r o c e s st h et e x t c o n t e n t so fm a i la n dt h e nr e c o g n i z es p a mo v e rt e x tc a t e g o r i z a t i o n i nt h i st h e s i s , t h et e c h n i q u e so ft e x tc a t e g o r i z a t i o na r es t u d i e dd e e p l ya n dt h e nf o c u so nt h e o r y o fs u p p o r tv e c t o rm a c h i n e ,p r a c t i c i n gi nt e x tc a t e g o r i z a t i o na n du s i n go na n t i 。 s p a m t h et h e s i su s e st e x tc a t e g o r i z a t i o nm e t h o dt om a i n l yf i l t e rh t m lt y p es p a m , s t u d i e dd e e p l yo np r e p r o c e s s i n gm e t h o d s ,t e x tp a r s i n gt e c h n i q u e s ,g e t t i n gr i do f n o i s e ,c h i n e s e a n de n g l i s hs e g m e n t a t i o na n df e a t u r es e l e c t i o nb a s e do n s i m i l a r i t y c u r v ef o rh t m ls p a m a p r o c e s s i n gs y s t e mo fa n t i s p a mb a s e do ns v mm o d e lw a sd e s i g n e da n d i m p l e m e n t e d ,u s e df o r w a r dm a x i m u mm a t c h i n gm e t h o d ,l u c e n ea n dg a t e t o o l st or e a l i z et h ec h i n e s ea n de n g l i s hw o r d ss e g m e n t a t i o n ,a d o p t e ds i m i l a r i t y c u r v ef o rf e a t u r es e l e c t i o na n de x t r a c t i o n ,u s e dw e i 曲f o r m u l at h i n k i n ga b o u tt h e a d d r e s so fw o r d sa n du s e ds v ma l g o r i t h ma n dl i b s v mt o o lt or e a l i z et h e c l a s s i f i c a t i o no fe m a i lb yc o n t e n ti nt h i st h e s i s i th a sb e e ns h o w nb yt h e n 哈尔滨理t 大学工学硕t 学位论文 l i 昌i 皇暑墨皇墨暑鲁皇置e 詈墨墨鼍皇昌暑量昌昌墨| 鼍置罩鼍暑皇皇詈詈詈暑昌鼍墨| 皇昌昌詈暑篁墨鲁皇皇詈皇詈鲁詈曹詈昌置昌量鼍鼍詈昌詈量暑詈葺皇皇墨 e x p e r i m e n t sr e s u l tt h a tt h eu t i l i z a t i o no fs v ma l g o r i t h mi n t os p a mp r o c e s s i n g w i l lb eo n eo ft h ee f f e c t i v ew a y st or e a l i z et h ec h a r a c t e r i s t i cf i l t e r i n go ns p a m k e y w o r d ss p a mf i l t e r , s u p p o r tv e c t o rm a c h i n e ,f e a t u r es e l e c t i o na n de x t r a c t i o n i i ! 哈尔滨理工大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于支持向量机的垃圾邮件过 滤模型研究,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立 进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已 发表或撰写过的研究成果。对本文研究工作做出贡献的个人和集体,均已在文中 以明确方式注明。本声明的法律结果将完全由本人承担。 作者签名:焉护日 日期:砌降护,弓日 哈尔滨理工大学硕士学位论文使用授权书 基于支持向量机的垃圾邮件过滤模型研究 系本人在哈尔滨理工大学攻读 硕士学位期问在导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理 工大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔 滨理工大学关于保存、使用学位论文的规定,同意学校保留并向有关部门提交论 文和电子版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以采用影 印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。 本学位论文属于 保密 _ 1 , 在年解密后适用授权书。 不保密l 1 ( 请在以上相应方框内打) 作者签名: 焉加口多 日期:如以年? , 91 3 n 导师签名 期:碥年月,多同 哈尔滨理t 大学工学硕士学位论文 1 1 课题来源 第1 章绪论 伴随着互联网的快速发展和普及,电子邮件正成为一种最快捷、最经济的 通信手段但电子邮件在成为一种信息交流工具的同时,也正在成为一种商业 广告手段。在收到有用信息的同时,用户也从因特网上收到各种各样广告邮 件,用户要花费大量时间和精力来处理这些所谓的“垃圾 邮件圆。所以,如何 快速、准确的从大量邮件中过滤出用户所不需要的无用信息,减少垃圾邮件的 干扰,已经成为社会和电子邮件使用者关心的焦点问题嘲 本课题是在申请8 6 3 项目过程中,结合哈尔滨理工大学建设数字化校园背 景下形成的。 1 2 课题背景及研究意义 随着互联网技术的飞速发展,人与人的交往更加灵活快捷方便,电子邮件 ( e m a i l ,e l e c t r o n i cm a i l ) 以其快捷、低廉的特性日益成为人们信息交互的重要互 联网工具2 0 0 7 年1 月,中国互联网络信息中,l , ( c n n i c ) 发布的 第1 9 次中 国互联网络发展状况统计报告显示,中国大陆网民总人数为1 3 7 0 0 万人,而 大约三分之二的网民经常使用电子邮件。与此同时,垃圾邮件也越来越深入网 民的日常生活。收发邮件成为网民最频繁使用的网络服务,而垃圾邮件成为网 民在互联网应用中最反感方面之一。垃圾邮件作为一种商业广告、恶意程序或 敏感内容的载体,也越来越对网络系统的安全运行、社会活动的正常开展及和 人们生活的健康发展造成了严重的威胁和不良影响。另外根据艾瑞市场咨询公 司整理r a d i c a t i g r o u p 全球电子邮件相关数据预测,在未来5 年间保持稳定的增 长趋势,预测到2 0 11 年,垃圾邮件的增长率将达到8 5 。 迄今为止,目前国际上对垃圾邮件的认定尚未出台统一标准。个人电脑( p c m a g a z i n e ) 杂志给垃圾邮件的定义如下:垃圾邮件是未经请求而发来的电子邮 件,通常包含一些商业广告。 作为垃圾邮件的发送方,制造以及发送垃圾邮件的成本极低,通常是各种 方式的群发。而对电子邮件服务提供商和用户而言,垃圾邮件却带来了巨大的 哈尔滨理t 大学工学硕士学位论文 危害和损失。主要表现在以下几个方面幅1 : ( 1 ) 占用大量网络带宽资源,严重时甚至拥塞整个网络链路; ( 2 ) 浪费邮件接收者的大量时间,干扰正常信息的传递; ,( 3 ) 垃圾邮件中载有不健康的、危害社会稳定与安全的信息; ( 4 ) 垃圾邮件中带有恶意代码,对计算机数据或网络安全造成很大威胁。 1 3 垃圾邮件过滤技术研究现状 从垃圾邮件过滤技术上看,目前常用的有基于口地址的垃圾邮件过滤、基 于手工规则的过滤、基于邮件内容的过滤等。这些技术一般都同时适用于服务 器端和客户端的垃圾邮件过滤 国内外已有不少学者对e m a i l 的智能处理做了不少的研究,取得一定的研 究成果,主要集中在基于内容的和基于行为的两个方面。详细介绍如下 从垃圾邮件过滤技术上看,目前常用的有白名单和黑名单技术、规则过滤 以及邮件过滤等。 1 基于内容的垃圾邮件的过滤技术一般包括白名单与黑名单技术、规则 过滤以及基于关键词匹配的内容扫描等峨钉。 黑名单白名单可以看成手工制订规则方法的特例。黑名单给出了发送垃圾 邮件的邮件地址( 或者是口地址范围、域名等属性) 列表,凡是属于黑名单的邮 件被判定为垃圾邮件。白名单收录了邮件接收者确信的邮件地址信息,凡是属 于白名单的邮件都被判定为合法邮件。 还有一种关键词精确匹配的方法,即在过滤规则中可以定义一些反映垃圾 邮件特征的关键词或短语,如“f r e e 一、免费、“抢注一、搿热卖一、“实惠一、“特 惠 、“特卖? 、“赠送一、“保证有你想要的 等,当在邮件标题或者正文中匹配 到若干条关键词或者短语,就判定为垃圾邮件。手工建立规则的方法通过用户 建立一系列规则来判定垃圾邮件。显然,这些方法的主观性会造成大量合法邮 件的误判和垃圾邮件的漏判。因此,目前的垃圾邮件工具逐渐倾向于引入基于 内容的机器学习判别方法。 2 基于内容垃圾邮件判别的机器学习方法可以大体分成基于规则的方法 和基于概率统计的方法。前者常常得出人们可以理解的显式规则;后者往往通 过某种计算表达式推出结果。本质上,概率统计方法可以看成规则方法的一种 特例,只不过概率统计方法中得到的规则是一种不被人轻易理解的“隐式规 则”。不管是基于规则的方法还是基于概率统计的方法,在使用时都经历从训练 哈尔滨理t 大学- t 学硕士学位论文 到过滤的过程。通过已有的训练集合( 正例+ 反例) 训练出相应的垃圾信息规则( 包 括显式规则或隐式规则) ,然后将规则应用到新的信息判定中去。在实际系统中 可能还会加入人机交互过程,通过用户对判定结果的认可与否对已有的垃圾信 息规则进行更新。 基于规则的方法有:r i p p e r ,决策树( d e c i s i o nt r e e ) 方法,b o o s t i n g 方法,粗 糙集( r o u g hs e t s ) 方法。 基于统计的方法有:k n n 方法、s v m 、r o c c h i o 方法、w i n n o w 方法、 b a y e s 方法。以下详细介绍各种方法 ( 1 ) r i p p e r 。r i p p e r 是c o h e n 开发的一种规则学习系统嘲,象其它规则学习 系统一样解决分类问题是它的典型应用。d r u c k e r 将r i p p e r 方法用于垃圾信息过 滤取得了不错的效果哼1 。在1 0 0 0 个文本特征的情况下,通过从正例中学习规则 并对规则进行修剪来获取垃圾信息的覆盖规则取得了8 0 以上的精确率。 ( 2 ) 决策树( d e c i s i o nt r e e ) 方法。决策树是著名的规则方法之一。通过按照 某种属性的顺序自顶向下地生成一棵树,树的每个节点是属性名,而每条边是 属性值从树根到树叶的一条路径便对应一条规则。c a m e r a s 使用决策树来过滤 垃圾信剧嘲,他采用r l m 距离方法而非信息增益来选择特征,采用t h i n 来描 述特征日前,由于决策树方法效果一般,它本身并不常常直接用于垃圾信息 过滤,而是作为b o o s t i n g 方法的弱学习器来使用。 ( 3 ) b o o s t i n g 方法。严格地说,b o o s t i n g 方法不是一种特定的学习方法,而 是一种在已有学习方法基础上的进行“投票的技术。它通过对已有的分类器 ( 称为弱规则或弱假设) 进行加权求和得到最终的分类器( 称为强规则或强假 设) 。虽然从理论上来说,任何机器学习方法都可以作为b o o s t i n g 方法的弱学习 器,但在实际中,b o o s t i n g 的弱规则常常采用基于规则的方法,b o o s t i n g 通过关 注弱规则的错误而逐渐组合成强规则,它是一种错误驱动的方法 ( 4 ) 粗糙集( r o u g hs e t s ) 方法。r o u g hs e t s 理论是由p a w l a k 于上世纪8 0 年 代提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方 法。r o u g hs e t s 的研究对象是一个多值属性集合描述的向量集合。刘洋等将 r o u g hs e t s 引入到垃圾信息过滤1 ,采用了1 1 种非文本属性( 包括收信人个数、 中继个数等等) 来进行信息分类( j 下常、广告和反动) 。 ( 5 ) k n n 方法。k n n 是最常用的基于实例的方法。k n n 没有训练过程,分 类时直接将待分类文本与训练集合中的每个文本进行比较,然后根据最相似的k 篇文本得到新文本的类别。k n n 的原理非常直观。在文本分类中,k n n 常常能 够取得较好的结果n 引。 哈尔滨理工大学t 学硕:l :学位论文 ( 6 ) s v m 。支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是一种建立在统计学习 理论之上的机器学习方法。其核心内容是在1 9 9 2 到1 9 9 6 年提出的,目前仍处 在不断发展阶段。它的最大特点是根据v a p n i k 提出的结构风险化最小原则,尽 量提高学习机的泛化能力,即由有限的训练样本得到小的误差仍然能够保证对 独立的测试集保持小的误差。另外,由于支持向量机算法是一个凸优化问题, 所以局部最优解一定是全局最优解。它被成功的运用在了许多分类领域,在邮 件过滤技术的研究中,s v m 也是一种有效的过滤方法d r u c k e r 等人首次成功 地将s v m 应用于邮件分类问题n 羽。而后,a l e k s a n d e r 等人,提出了一种考虑特 定内容错分代价的s v m 邮件过滤算法。 ( 7 ) r o c c h i o 方法。r o c c h i o 法是信息检索领域常用于相关反馈的方法n 舢它 用于分类的基本思路很简单:将所有训练文本向量化,类别向量等于所有正例 向量和反例向量的加权差。计算得到的结果表示该类的类别向量。用于垃圾信 息过滤时,通过上式可以得到垃圾信息类的类别向量。新的信息与类别向量计 算距离,距离小于某个阈值b ,则判定该信息属于垃圾信息类,否则为合法信 息d m c k e r 将该方法用于垃圾信息过滤。该方法十分简洁,分类时问短,但是 过滤效果稍差。r o c c h i o 其实是一种基于向量表示的方法信息和类别都表示成 特征组成的向量。为了减少向量的维数,选择更“语义化一的特征。陈华辉在 垃圾信息过滤中引入了潜在语义索引方法n 朝但文章没有关于实验结果的叙 述 ( 8 ) w i n n o w 方法。w i n n o w 是一种线性分类器。它训练的目的是为了找到 某个类所有特征的权重向量和阈值,严格地说,w i n n o w 实际是一种基于神经网 络的方法。为了叙述方便,将之结为统计方法。w i n n o w 在学习时采用的是一种 错误驱动的方法。b a l a n c e dw i n n o w 算法是w i n n o w 算法的一种,它和普通 w i n n o w 算法的不同在于引入了两个权重向量,训练时通过同时变化着两个向 量,来达勐更新权值的目的。潘文锋将b a l a n c e dw i n n o w 算法引入到垃圾信息过 滤n ,实验结果表明,该方法效果接近目前所发表的最好结果,而w i n n o w 在训 练速度和分类速度上具有较大的优势,所以具有更高的实用价值。另外,作为 一种在线( o n 1 i n e ) 学习方法的w i n n o w ,在训练集合不断扩大的情况下能够快速 对分类器进行更新。 ( 9 ) b a y e s 方法。b a y e s 方法是通过计算文本d 属于每个类别的概率p ,并 将它们排序取其最大值来得到d 所属的类别。n a i v eb a y e s 是b a y e s 方法中使用 最广泛的一种。n a i v eb a y e s 方法被广泛用于文本分类中,取得了不错的效果。 已有多位学者将b a y e s 方法应用于垃圾信息的判别。s t a n f o r d 大学的s a h a m i 将 哈尔滨理t 大学工学硕:e 学位论文 n a i v eb a y e s 方法引入到垃圾信息过滤进行实验。s a l a a m 采用了自己收集的信息 作为实验数据。值得一提的是,s a h a m i 除了使用词汇作为特征外,还使用了词 组特征和其他属性特征( 如标题中非字母和数字字符所占的百分比) ,实验结果表 明,其他属性特征能够较大幅度地提高过滤结果( 精确率在9 5 左右) n 刀。 3 基于行为的垃圾邮件过滤技术前面介绍的基于口层、s m t p 层的过滤 技术和基于内容的过滤技术被人们划定为第一代、第二代过滤技术,市面上流 行的反垃圾邮件产品都是采用的第一、第二代过滤技术。但是经过一段时间的 应用后发现,它们存在致命的缺陷:误报率高、处理性能低、语言依赖性强, 特别不适合在网关处使用。另外,这两种技术需要进行大量的匹配运算,对 c p u 和内存的占用极高,容易成为处理瓶颈。基于对垃圾邮件发送行为的研究 和统计发展出来的行为识别技术,是通过对大量的垃圾邮件样本进行统计、分 析和计算,建立了垃圾邮件的行为识别模型n 町这一模型有着极高的垃圾邮件 区分度,能够在m t a ( m a i lt r a n s p o r ta g e n t ) 通讯阶段就判别出所接收邮件是 否为垃圾邮件,不需要接收全部邮件内容进行相应的匹配。这一技术大大提高 了邮件过滤速度,减少了网络延迟,避免了高误报率问题。 1 4 本文主要内容及章节安排 本文将网页分类技术应用到垃圾邮件过滤中,重点针对垃圾邮件的新形式 h t m l 格式邮件和图片类邮件,试图建立一个基于支持向量机的垃圾邮件过滤 模型,用于本校网络信息中心的对学校全体教职员工所收发的垃圾邮件处理。 本论文按照如下框架结构展开论述。 第一章阐述垃圾邮件的概述、泛滥、危害以及国内外现今的主要垃圾邮件 处理技术。 第二章介绍了电子邮件的基本知识以及文本分类技术的介绍。 第三章讲述基于支持向量机的垃圾邮件过滤技术,包括支持向量机理论和 改进的支持向量机算法以及将支持向量机用于垃圾邮件处理并给出模型。 第四章讲述邮件系统预处理过程,包括正文提取、中文分词、特征项提取 和权值计算部分等。 第五章详细论述了系统的设计、实现过程和相关仿真试验等。 最后对论文进行总结。 哈尔滨理工大学工学硕士学位论文 第2 章电子邮件原理及文本分类技术 2 1 邮件的传输过程 电子邮件服务通过“存储一转发一的方式来为用户传递信件n 町。电子邮件 服务通过。存储一转发一的方式来为用户传递信件。对比于传统的邮件投递服 务,在i n t e r n e t 上充当“邮局 这个角色的,是被称为邮件服务器的计算机。用 户使用的电子邮箱就建立在这类计算机上,借助它提供的服务,用户的信件通 过i n t e r a c t 被送到目的地,其原理图如图2 - 1 所示。 s m 图2 一l 电子邮件原理 2 - 1t h ep r i n c i p l eo fe - m a i l 更进一步的解释涉及到以下几个概念: ( 1 ) m u a - m a i lu s e r a g e n t ,邮件用户代理,帮助用户读写邮件; ( 2 ) m t a - m a i lt r a n s p o r ta g e n t ,邮件传输代理,负责把邮件由一个服务器 传到另一个服务器或邮件投递代理; ( 3 ) m d a - m a i ld e l i v e r ya g e n t ,邮件投递代理,把邮件放到用户的邮箱 里。 整个邮件传输过程如下:目前使用的s m t p 协议是存储转发协议,意味着 它允许邮件通过一系列的服务器发送到最终目的地。服务器在一个队列中存储 到达的邮件,等待发送到下一个目的地。下一个目的地可以是本地用户,或者 是另一个邮件服务器,如图2 - 2 所示。 图2 - 2 电子邮件的传输过程图 f i g 2 2t h et r a n s f e ro fe - m a i l 哈尔滨理丁大学r t 学硕二卜学位论文 如果下游的服务器暂时不可用,m t a 就暂时在队列中保存信件,并在以后 尝试发送。 2 2 常见的电子邮件协议 要做电子邮件过滤技术的研究,详细地理解电子邮件系统的工作原理及其 相关邮件协议是十分必要的。 随着电子邮件的推广,出现了一系列的协议来规范它的发展。这些协议主 要由一组r f c ( r e q u e s tf o rc o m m e n t ) 文档进行定义另外还有s m t p 、p o i 3 和 i m a p 等协议,来方便用户收发电子邮件。 1 简单邮件传输协议( s i m p l em a i lt r a n s f e rp r o t o c o l ,s m t p ) s m t p 称为 简单邮件传输协议,被用来在i n t e m e t 上传递电子邮件,其目标是向用户提供高 效、可靠的邮件传输。s m t p 的一个重要特点是它能够在传送中接力传送邮 件,即邮件可以通过不同网络上的主机接力式传送。r f c 8 2 1 描述了s m t p 的大 部分细节,后来r f c l 8 6 9 ,r f c c 2 8 2 1 。r f c 2 5 5 4 等又针对s m t p 的不足对其 做了补充和修改s m t p 独立于特定的传输子系统,只需要一个可靠的有序的 数据流通道,我们一般提到的s m t p 都是建立在t c p 基础上的。 2 扩展的简单邮件传输协议( e x t e n ds i m p l em a i lt r a n s f e rp r o t o c o l , e s m l l p ) 随着s m t p 的流行,最初的协议中也暴露了一些缺点,对此开发者们 并没有创建一个新的协议,而是决定采用新的命令来扩充基本的s m t p 命令。 e s m t p 所实现的一个很重要的安全特性是提供m t a 主机登录到接收e s m t p 端 主机的能力。在e s m t p 协议中引入了a u t h 命令,弥补了最初的s m t p 协议 没有办法验证客户主机的身份。客户机能使用a u t h 命令向服务器主机发送用 户名和密码来验证自己。这种验证方法有利于确定远程的身份。 3 邮局协议( p o s to f f i c ep r o t o c o l ,p o p )邮局协议是最简单的m u a 协 议,第一个关于p o p 的r f c 文档是1 9 8 4 年发表的r f c 9 1 研邮局协议) ,描述 了一个基本的、试验性的p o p 实现。后来该协议几经修改,最后于1 9 9 6 年发表 的r f c 1 9 3 9p o s to f f i c ep r o t o c o lv e r s i o n3 成为当前的p o p 标准,通常称为 p o p 3 。它是关于接收电子邮件的客户机和服务器协议,p o p 服务器仿佛一个收 发室,负责暂时保管信件和发送邮件。工作站上的m u a 上的程序使甩p o p 3 协 议访问并读取用户邮箱中的邮件。使用p o p 3 协议时,用户的所有邮件都从用户 邮箱中读取并存储到本地计算机。一般情况下,服务器上邮箱中的邮件在读取 后被删除,从而释放邮件服务器上的空问。 哈尔滨理工大学t 学硕:l :学位论文 4 交互邮件访协议( i n t e r a c t i v em a i la c c e s sp r o t o c o l ,i m a p ) 尽管p o p 3 实现起来非常方便和应用非常广泛,但它也存在许多缺陷,每次用户使用p o p 3 协议访问他的邮箱时,当前的邮件都被下载到本地工作站,这样很容易造成邮 件被送到若干个不同的计算机上,或者当邮件从邮件服务器端下载后,在服务 器端的该邮件就会被删除。这样会影响一些经常使用不同的计算机的用户,他 们邮箱中的邮件被分割成几个部分,分别位于不同的地方。因此有了i m a p 协 议,该协议与p o p 3 不同的是,允许用户从多个地点访问邮件而不会出现邮件被 分割在不同计算机上的情况,还提供了邮件检索和处理的扩展功能。 在使用i m a p 协议时,可以将服务器上的邮件视为本地客户机上的邮件, 用户可以选择性地下载邮件,也可以下载部分邮件这样也使得i m a p 比p o p 3 结构更为复杂。 2 3 电子邮件的报文格式 关于电子邮件的标准有两个,一个是1 9 8 2 年修订的r f c 8 2 2 标准,一个是 1 9 9 6 年修订的m i m e ( r f c 2 0 4 5 r f c 2 0 4 9 ) 1 砌抛标准r f c 8 2 2 ( s t a n d a r df o rt h ef o r m a to fa r p ai n t e m e tt c x t m e s s a g e ) 标准定义了用户之间通过电子邮件来交换文本信息的语法。在该标准 中,邮件由邮件头( h e d a e r ) 和邮件体( b o d y ) 两部分组成。邮件头包括了完成传送 和投递所必须的信息,而邮件体则是需要发送给接收方的内容。这种格式只能 包含原始报文是7 位的a s c i i ( 美国国家标准信息交换码) 格式的纯文本信 息。 电子邮件报文信息是一段a s c i i 码字符的文本序列,用c r l f ( 回车换行 符) 表示一行的结束。s m t p 规定了一个文本行的最大长度为1 0 0 0 个字符( 包 括回车换行符) 文本格式的电子邮件本文信息分为邮件头和正文两部分,它们 之间用一个空行( 即两个连续的c l r f ) 分隔。 ( 1 ) 邮件头的结构。邮件头包含若干字段,每一个字段以c r l f 作为结束 符。字段的格式为:字段名:字段体。各个字段之间并没有固定的顺序,推荐 的顺序是:“r e t u r n p a t h ,“r e c e i v e d 一,“d a t e ,“f r o m ,“s u b j e c t ,“s e n d e r 一, “1 0 ,“c c ,。b c c ”等o 1 ( 2 ) 邮件的正文。邮件的正文是邮件的具体内容,是由一系列的n v t ( n e t w o r kv i r t u a lt e r m i n a l ,网络虚拟终端) 7 位a s c i i 字符组成的文本。 这种邮件有很大的局限性,只适合传送7 位的n v ta s c i i 文本,7 位n v t 哈尔滨理工大学工学硕+ 仁学位论文 a s c h 字符不支持的语言( 比如中文) 被传送时会被显示为乱码,因为s m t p 在传送邮件的时候,8 位字节的数据只有7 位被正确传送,而最高位被填充为 o 。此外,也不能发送二进制、视频文件、音频文件等。 2 m i m e 协议在m i m e 出台之前,使用r f c 8 2 2 只能发送基本的a s c i i 码文本信息,邮件内容如果要包括二进制文件、声音和动画等,实现起来非常 困难。m i m e 提供了一种可以在邮件中附加多种不同编码文件的方法,弥补了 原来的信息格式的不足。实际上不仅仅是邮件编码,现在多用途互联网邮件扩 展协议( m u l t i p u r p o i n t e m e tm i n ie x t e n s i o n ,m i m e ) 经成为h 兀 p 协议标准 的一个部分幢 由于协议s m t p 协议只定义了通过因特网传输普通正文文本的标准,要传 输诸如图像、声音和视频等非文本信息,就得另行制定标准。m i m e 协议规定 了通过s m t p 协议传输非文本电子邮件副本的标准。m i m e 位于邮件的报头, 指明m i m e 的版本、发送数据的类型以及将数据转换为a s c h 码所使用的编码 格式。 从编码方式来说,m i m e 定义了两种编码方法b 弱e 6 4 与q p ( q u o t e p r i n m b l o 1 b a s e 6 4 编码b 弱e 6 4 是一种通用的方法,其原理很简单,就是把三个 b y t c 的数据用4 个b y t c 表示。在这四个b y t c 中,实际用到的都只有前面6 b i t , 这样就不存在只能传输7 b i t 的字符的问题了。b a s e 6 4 的缩写一般是“b ”b a 6 4 将输入的字符串或一段数据编码成只含有 a - z ,a - z ,m 9 ,+ ,) 这6 4 个字符的 串,“= 一用于填充。b a s e 6 4 的算法很简单,它将字符流顺序放入一个2 4 位的缓 冲区,缺字符的地方补零。然后将缓冲区截断成为4 个部分,高位在先,每个 部分6 位,用6 4 个字符重新表示。如果输入只有一个或两个字节,那么输出将 用等号“= 补足。这可以隔断附加的信息造成编码的混乱。 2 q p 编码另一种方法是q p ( q u o t e p r i n t a b l e ) 方法,通常缩写为“q 一方 法,其原理是把一个8 b i t 的字符用两个1 6 进制数值表示,然后在前面加 “= 一。q u o t e d p r i n t a b l e 根据输入的字符串或字节范围进行编码,若是不需编码 的字符,直接输出。若需要编码,则先输出“= 一,后面跟着以2 个字符表示的 十六进制字节值,在段体内则直接编码,适当时机换行,换行前额外输出一个 “, 一o m i m e 的内容传送编码,内容传送编码是邮件的编码方式。m i m e 定义了 五种内容传送编码:b a s e 6 4 ,q u o t e d p r i n t a b l e ,7 b i t ,8 b i t ,b i n a r ) r 等。其中 b i t 是缺省的编码方式。电子邮件源码最初设计为全部是可打印的a s c i i 码的形 哈尔滨理工大学t 学硕十学位论文 式。非a s c i i 码的文本或数据要编码成要求的格式b a s e 6 4 ,q u o t e d p r i n t a b l e 是在非英语国家使用最广使的编码方式。b i n a r y 方式只具有象征意义,而没有 任何实用价值。 近年来,国内多数邮件服务器已经支持8 b i t 方式,因此只在国内传输的邮 件,特别是在邮件头中,可直接使用8 b i t 编码,对汉字不做处理。如果邮件要 发送给国外用户,需要按b a s e 6 4 或q u o t e d p r i n t a b l e 编码才行 邮件内容的解析需解决两个问题,一是根据邮件的格式显示内容,一是根据邮 件的内容传送编码,把要显示的内容正确编码,即b a s e 6 4 和q u o t e d p r i n t a b l e 的 编码。 在我们研究实现过程,a p a c h e 开源项目c o d e a :提供了c o m m o n s - c o d e c 代码 包( h t t p :j a k a r t a a p a c h e o r g c o m m o n s c o d e c ) 专门针对b a s e 6 4 和q u o t e d - p r i n t a b l e 的编码与解码的实现。 2 4 电子邮件的解析过程 由于邮件文本有多种格式,所有对邮件内容的解析根据格式的不同有不同 的解析方式 ( 1 ) 对于邮件的原始报文,首先检测邮件头和邮件正文的分隔符,给两个连 续的c r l f ,分解出邮件头和邮件正文。 ( 2 ) 对邮件头进行检测,解析出寄件人、收件人、抄送收件人、日期、邮件 主题、报文内容类型、边界、报文的内容传送编码。报文内容类型、边界、报 文的内容传送编码需要作为参数传递到邮件的正文。 ( 3 ) 根据不同的报文内容类型进行相应的解析, 在r f c 2 0 4 6 中定义了m i m e7 种媒体类型,这7 种类型包含1 6 个子类型。媒 体类型在c o n t e n t - t y p e 字段中的表示形式为:媒体类型c o n t e n t t y p e : t e x t p l a i n ;c h a r s e t = i s o 8 8 5 9 1 它的意思是文本媒体类型的普通子类型。使用的 字符集为i s 0 8 8 5 9 1 。 ( 4 ) 对于没有边界的邮件,如r f c 8 2 2 和纯文本型的m i m e 邮件,可以直接 显示或根据报文的内容传送编码进行相应的解码之后在显示。 ( 5 ) 对于m u l i t p a r t a l t e m a t i v e 类型的邮件一半是t e x t p l a i n 和t e x t p l a i n 两个版 本,要选择h t m l 版本显示。因为有很多不规则的邮件t e x t p l a i n 部分的正文是 空的。 ( 6 ) 对于其它类型的邮件可以统一处理。对正文按顺序这个检查边界,确定 哈尔滨理工大学1 = 学硕i :学位论文 每一个部分的报文。对每一部分的报文,确定该部分报文的内容类型、内容传 送编码。 对于内容的解析,要按照内容传送编码选择相应的解码器进行解码。 附件的编码一般是b a s e 6 4 ,把其内容解码后,以文件流的方式把附件的内 容写入磁盘。 以上是电子邮件的报文解析过程。 2 5 文本分类 由于电子邮件是一个半结构化的文本,所以从内容上看,垃圾邮件过滤可 以看作是一个二值的文本分类问题。文本分类的任务是根据预先确定好的类别 体系,将待分类文本分到相应的类别中去。从文本分类角度来看,垃圾邮件过 滤就是要求将电子邮件分为垃圾邮件、正常邮件两类中的一类。可以将电子邮 件经过预处理提取出邮件正文的文本内容,利用文本分类的方法识别垃圾邮 件。 文本分类的任务是:在给定的类别体系下,根据文本的内容,将其自动映 射到指定的类别中去。类别体系一般由人工按照应用需求构造。基于内容的文 本分类需要指导,即一定数量的已分类好的训练文本或者实例,分类系统从训 练文本中获取必要的信息,构造分类器。因此文本分类一般都由训练过程和分 类过程两阶段构成,见图2 - 3 。文本分类技术的应用很广泛,如新闻网页的分 类、电子图书的分类等等1 。 一个完整的文本分类过程主要包括以下几部分:首先是对训练文本预处 理,根据采用的分类模型将文档集表示成易于计算机处理的形式;其次是特征 提取以及权重计算,选择合适的特征,给每个特征赋予一定的权重表示文档中 各特征鲍重要性;再次是根据预处理后的训练集学习建模,构建出分类器;待 分类文本经过类似处理后经过分类器进行分类输出。其中关键技术是特征选 择、赋权以及分类器构造。本章介绍了分类中涉及的技术、分析各个方法的优 缺点以及基于支持向量机的文本分类方法。 2 5 1 文本表示 在文本分类领域中,通常采用向量空间模型( v s m ) 表示文本。向量空间 模型( v e c t o rs p a c em o d e l ,v s m ) 是由s a l t o ng 等于1 9 7 5 年提出幢钔。是现今最 哈尔滨理t 大学- t 学硕l :学位论文 l 刊l 掣 文本预处理 文本预处理 j上 。 特征提取 卜_ 特征集合( - - 一 特征提取 构造分类器 分类器_ 0 的样本对分类其决定作 用,这样的样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论