




已阅读5页,还剩53页未读, 继续免费阅读
(计算机软件与理论专业论文)基于内容的垃圾邮件过滤研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也 同益严峻,网民平均每天收到的垃圾邮件数量己超过了正常邮件。目前经常采用的垃圾 邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描 等。 另外一条路线就是从电子邮件的文本内容入手,使用文本分类、信息过滤的算法, 在训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的文本分类方法有简单贝 叶斯、k 一近邻、决策树、b o o m i n g 等。简单贝叶斯方法计算简便,但召回率和正确率难 以提到一个更高的层次,而且不适合于增量式的反馈学习。其他的几种方法有的效果比 简单贝叶斯好一些,但计算较复杂。本文在分析简单贝叶斯方法的基础上,试图寻找一 种速度快、计算简便、性能好、反馈学习方便的垃圾邮件过滤器。w m o w 是一种错误 驱动的在线学习线性分类算法,其在线学习的特性非常适合“一例一学”的增量式反馈, 作者将w i n n o w 算法应用于垃圾邮件过滤,在公用的邮件语料上的实验表明,w i n n o w 的效果比简单贝叶斯方法要好,接近于b o o s t i n g 方法。 具体的说,本文的工作主要包含下列内容: 1 ) 概述垃圾邮件过滤问题的研究现状。包括垃圾邮件的定义、危害以及常用的过 滤技术。 2 ) 介绍文本分类算法在邮件过滤上的应用,总结了常用的特征选择方法、分类算 法以及通用的邮件语料库。 3 ) 详细分析邮件过滤中的简单贝叶斯算法。使用p u l 邮件语料实验贝叶斯算法的 性能,并比较特征数量、分类闽值以及语料的预处理层次对结果的影响。 4 ) 将w i n n o w 线性分类算法引入到邮件过滤中,在p u l 语料和l i n g - s p a m 语料上 实验w i n n o w 分类器,得到了较好的效果。 5 ) 结合简单贝叶斯算法和w i n n o w 分类器,分析垃圾邮件过滤的反馈学习技术。 6 ) 设计了一个客户端邮件过滤系统的基本框架。 关键词:垃圾邮件过滤:文本分类:简单贝叶斯;w m n o w ;反馈学习;信息过滤 r e s e a r c ho nc o n t e n t - b a s e d s p a mf i l t e r i n g w e n f e n gp a n ( c o m p u t e r s o f t w a r ea n d t h e o r y ) d i r e c t e db yb i n w a n g e l e c t r o n i cm a i l ( e - m a i l ) i sb e c o m i n go n eo ft h ef a s t e s ta n dm o s te c o n o m i c a lw a y so f c o m m u n i c a t i o na v a i l a b l e a tt h es a l n et i m e ,t h eg r o w i n g p r o b l e mo f j u n km a i l ( a l s o r e f e r r e dt o a s “s p a n l ”) h a sg e n e r a t e d an e e df o re - m a i l f i l t e r i n g n o w a d a y s ,a n t i - s p a r e m e a s u r e s c o m m o n l yi n c l u d eb l a c ko rw h i t el i s tt e c h n o l o g y , m a n u a lr u l e sa n dk e y w o r db a s e dc o n t e n t f i l t e r i n g a n o t h e ra p p r o a c hi su s i n ga u t o m a t e dt e x tc a t e g o r i z a t i o na n di n f o r m a t i o nf i l t e r i n gt o f i l t e r s p a m a ne - m a i lf i l t e r i n gs y s t e m c a i nl e a r n d i r e c t l y f r o mau s e r sm a i ls e t s u c h a l g o r i t h m so f t e x tc a t e g o r i z a t i o na sn a i v eb a y e s ,k n n 9d e c i s i o nt r e ea n db o o s t i n gc a nb e a p p l i e di ns p a n lf i l t e r i n g h o w e v e r , t h ee f f e c t i v e n e s so f n a i v eb a y e s i sl i m i t e da n di ti sn o tf i t f o ri n s t a n tf e e d b a c k l e a r n i n g o t h e r sa l g o r i t h m a l em o 佗e f f e c t i v eb u tc o m p l i c a t e dt oc o m p u t e t r y i n gt or e s o l v et h i sp r o b l e m ,w ep r o p o s eu s i n gw i n n o w , a f a s tl i n e a rc l a s s i f i e r t h et r a i n i n g o fw i n n o wj so n l i n ea n dm i s t a k ed r i v e n f u r t h e r m o r e , w m n o wi ss u i t a b l ef o rf e e d b a c k t h e e x p e r i m e n t i np u b l me - m a i lc o r p u ss h o w sa l le f f e c t i v er e s u l t t h ec o n t e n t so f t h i sa r t i c l e 雠a s f o l l o w i n g : 1 ) as u m m a r ya b o u t t h es t a t eo f t h es p a m f i l t e r i n g 2 ) i n v e s t i g a t i n ga n t i - s p a mp r o b l e m f r o mt h et e x tc a t e g o r i z a t i o np e m p e c t i v e ,i n t r o d u c i n g t h e a p p r o a c h e s o f f e a t u r es e l e c t i o n , c l a s s f i e r sa n do - n l a i lc o r p u si nt h i st a s k 3 ) w ec o n s i d e rm e t h o d sf o rl e a r n i n gn a i v eb a y e s i a nc l a s s i f i e r a n dc o m p a r et h e i n f e c t i o n s o f f e a t u r e n u m b e r , t h r e s h o l d a n d t h e v a r i a t i o n s o f c o r p u s i n p u i 4 ) t h e w i n n o w a l g o r i t h m i sp r o v e dt ob ee f f e c t i v et of i l t e rs p a mi np u la n dl i n g - s p a r e e m a i lc o r p u s 5 ) t a k i n ge x a m p l e sf o rn a i v eb a y e sa n d 、) i v l n n o w , w ed i s c u s st h ef e e d b a c kl e a r n i n gi n a n t i s p a mt a s k 6 ) i n t h ee n d ,af r a n l eo f a s p a mf i l t e r i n gs y s t e m i sd e s i g n e d k e y w o r d s :s p a mf i l t e r i n g ,t e x tc a t e g o r i z a t i o n , n a 孙e eb a y e s ,w i n n o w , f e e d b a c k ,i n f o r m a t i o n f i l t e r i n g 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得 的研究成果。就我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:潘丈锋 日期:2 噼5 力 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、 缩印或其它复制手段保存该论文。 作者签名:舣锋导师签名:孑2 芬日期:2 。哗多2 。 1 1 背景 第一章引言 随着国际互联网i n t e m e t 的发展和普及,电子邮件( e - m a i l ) 以其方便、快捷、低成 本的独特魅力成为人们同常生活中不可缺少的通信手段之一。但电子邮件给人们带来极 大便利的同时,也日益显示出其负面影响,那就是我们每天收到的邮件中有很大一部分 是那种“不请自来”的,它们或者是推销广告,或者是一些有害的不良信息,甚至还有 病毒。2 0 0 4 年1 月,中国互联网络信息中心( c n n i c ) 发布的第十三次中国互联网发 展状况统计报告显示,网民平均每周收到1 3 7 封电子邮件,其中垃圾邮件占了7 9 封。 垃圾邮件数量已经超过了正常邮件数量,并有进一步增长的趋势。 迄今为止,垃圾邮件( s p a r e 、j u n km a i l ) 在国际上没有统一的定义。在中国互联 网协会反垃圾邮件规范中垃圾邮件被界定为: 1 ) 收件人事先没有提出要求或者不同意接收的广告、电子刊物以及各种形式的宣 传邮件。 2 ) 收件人无法拒收的电子邮件。 3 ) 隐藏发件人身份、地址、标题等信息的电子邮件。 4 ) 含有虚假的信息源、发件人、路由等信息的电子邮件。 按照上述界定,上面四类邮件都属于垃圾邮件范畴。相反,我们可以称收到的其他 邮件为“合法邮件”。对大多数用户,收到的垃圾邮件大部分都是没有主动订阅的广告、 电子期刊等宣传品,其基本特征是“不请自来”、带有商业目的( u n s o l i c i t e dc o m m e r c i a i e - m a i l ) 或者政治目的。实际上,垃圾邮件的判定会因人而异,不同的用户对同一邮件 的判定结果可能存在差异。 目前,很多用户都使用免费邮箱,这类邮箱对垃圾邮件的防范能力较差,垃圾邮件 发送者可以很容易的通过穷举、猜测等途径获得用户的邮件地址。人们在学习和工作中 也不可避免的要经常对外公开自己的邮箱地址,如完成各种网站的会员注鹏、公开自己 的联系方式等,这正好也给了垃圾邮件可乘之机。一些人专门收集邮件地址,然后有偿 转让给有这种需求的垃圾邮件发送者。 现在越来越多的垃圾邮件是通过中继( r e l a y ) 发送的,即远程机器利用某台服务器 向外发垃圾邮件。标准的电子邮件传输协议在传输邮件时,不进行用户的身份认证,邮 件可以被匿名或冒名发送。因此,任何人都可以利用邮件服务器对任意地址发送邮件, 使得服务器无限转发( o p e nr e l a y ) 。目前已经有很多邮件服务器的升级版本支持了关闭 o p e n r e l a y 的方法,但由于系统管理员的疏忽,这一漏洞经常没有得到即时修补。 作为垃圾邮件的发送方,其成本是极低的,通常是通过各种方式群发。而对电子邮 l 中困科学院颅l 学位论文:桀十内容的垃圾i | 1 | j 件过滤研究 件服务提供商和用户而占,垃圾邮件却给他们带来很大的危害和损失。据统计,美国每 年因垃圾邮件造成的损失高达1 0 亿美元,全球的损失更高达2 0 亿美元中国反垃圾邮件 联盟】。具体的说其危害主要表现在以下几个方面: 1 ) 占用网络带宽,浪费网络资源,干扰邮件系统的正常运行。当有限的网络资源 和网络带宽上充斥大量的垃圾邮件时,就降低了网络的使用效率。对邮件服务 器而言,收到的垃圾邮件占用了它的磁盘空间,而且,如果垃圾邮件得不到有 效控制。用户会放弃邮箱,服务商将被迫终止服务,给企业带来很大的损失。 另外,当一些用户利用邮件服务器对外发送垃圾邮件时,该服务器会被列入黑 名单而遭外部封杀。因此,邮件服务器既要拒收来自外部的垃圾邮件,还要阻 止自己的邮件用户对外发送垃圾邮件。 2 ) 浪费用户的宝贵时间和上网费用。如果我们每天都要花费一段时间来处理垃圾 邮件,工作效率就要降低,对整个社会来说,被浪费的时间更是一大笔宝贵的 财富。有关调查显示,2 0 0 3 年,网民平均每天需花费6 5 分钟来处理无用的邮 件,单是下载垃圾邮件所花费的上网费与电话费,全年就要浪费全球网民9 4 亿 美元。 3 ) 对网络安全形成威胁。一些垃圾邮件传播色情、反动等各式各样的有害信息, 给社会带来危害。黑客们利用电子邮件系统发送数以万计的垃圾邮件风暴攻击 目标,使之瘫痪、拒绝服务。垃圾邮件还可以被病毒利用,成为它们的传播途 径。 面临着垃圾邮件问题日益严重的现状,人们开始从多方面寻找解决方案。例如,一 些“邮箱运营商”成立了专门的部门处理垃圾邮件,并设立“首席垃圾邮件官”,有些邮 件客户端工具也提供了一定的垃圾邮件过滤功能。 解决、缓解垃圾邮件问题的方法和手段一般有: 1 ) 反垃圾邮件立法。例如,一旦确认某个团体或个人是垃圾邮件的发送者,那他 就面l 每着法律的制裁与处罚。或者规定发送任何邮件都要付出一定的“邮票” 代价,以此来制约垃圾邮件发送者大规模重复的发送邮件。针对目前垃圾邮件 泛滥的现状,反垃圾邮件立法的呼声日益渐高。中国互联网协会反垃圾邮件协 调小组2 0 0 4 年2 月1 8 日在北京发出关于加快“反垃圾邮件立法”进程的倡议, 得到了众多组织机构和邮件用户的响应。但立法面临着一系列的问题。首先是 垃圾邮件的概念之争,到底什么是垃圾邮件,像宣传品、电子期刊等这类邮件 是不是垃圾邮件很难界定,垃圾邮件发送者会想尽一切办法逃脱法律的惩罚: 其次是法律的执行问题,给予什么样的处罚。而且,如果缺少国际合作,即使 发现来自境外的垃圾邮件,也无法制裁。如果规定发送邮件都需要一定的额外 代价,在现阶段显然很难得到广大邮件用户的认可。 劲利用垃圾邮件过滤技术。近年来,有关垃圾邮件过滤技术的研究开始逐步兴起, 相关的投入也越来越大,涌现了一大批相关产品。如果能够从技术上解决垃圾 2 巾困科学院颂! i :学位论文:捧十内容的垃圾邮件过滤研究 邮件问题,那是最理想的了。 1 2 本文的内容安排 本文将在垃圾邮件过滤技术特别是内容过滤技术上做一些探索,组织如下 第二章:垃圾邮件过滤研究现状; 第三章:垃圾邮件内容过滤技术; 第四章:贝叶斯邮件过滤: 第五章:w i n n o w 算法在垃圾邮件过滤上的应用。 第六章:垃圾邮件过滤中的反馈学习: 第七章:总结。 第二章垃圾邮件过滤研究现状 电子邮件有自身的结构特点。邮件的协议和内容格式也是由r f c ( r e q u e s tf o r c o m m e n t s ) 的几个文档规定的。r f c8 2 1 规定了s m t p ( s i m p l e m a i l t r a n s f e r p r o t o c o l , 简单邮件传输协议) ,定义发送邮件的机制。r f c1 7 2 5 规定了p o p 3 ( p o s to f f i c ep r o t o c o l 3 ,邮局协议版本3 ) ,定义从p o p 3 服务器收取邮件的机制。r f c8 2 2 定义邮件格式。 随着电子邮件的广泛使用,邮件系统不仅需要传输各种字符集的文本内容,而且还需要 传送各种非文本文件( 例如图像文件、w o r d 文件、p d f 文件、z i p 文件等) ,根据这个需 求,人们又定义了m i m e 标准,作为r f c8 2 2 的补充。m m e 即m u l t i p u r p o s ei n t e m e tm a i l e x t e n s i o n s ,多用途互联网邮件扩展协议,它由r f c l 5 2 1 和r f c l 5 2 2 这两个标准构成。 目前几乎所有的邮件服务系统都支持m i m e 标准。 从电子邮件的结构出发,寻找垃圾邮件的特征,在发件人、收件人、邮件头、邮件 正文内容等各方面展开邮件过滤工作,是垃圾邮件过滤常采用的基本方法。 2 1 服务器端和客户端的邮件过滤 先给出几个概念的解释: 1 1m u a 。m u a 即m a i lu s e r a g e n t ,邮件用户代理。m u a 是邮件阅读或发送程序, 如o u t l o o k ,在邮件系统中用户只与m u a 打交道,m u a 将邮件系统的复杂性 与用户隔离开。 2 、m t a 。m t a 即m a i lt t a t m f e r a g e n t ,邮件传输代理。m t a 是一个专用程序,其 作用类似于邮局,用于在两个机器之间发送邮件,m t a 决定了邮件到达目的地 的路径。常用的m t a 有s e n d m a i l 、q m a i l 、p o s t f i x 等。 3 1m d a 。m d a 是m a i ld e l i v e r ya g e n t ,邮件递交代理。m t a 自己并不完成最终 的邮件发送,它要调用其他的程序来完成最后的投递服务,这个负责邮件递交 的程序就是m d a 。最常用的m d a 是p r o c m a i l 。 图2 1 是利用t c p i p 协议进行电子邮件交换的示意图。发放者利用m u a 写好邮件, 交给发送方的m t a ,发送方的m t a 再通过中继m t a 将邮件传送到接收方的m t a 。中 继m t a 可以没有,也可以是多个。m t a 与m t a 之间的通信协议是s m t p 。m d a 将邮 件递交给接收方的邮箱,接受者可以通过三种方式与邮箱交互: 利用网络文件系统直接访问; p o p 协议: i m a p ( i n t e m e t m a i l a c c e s s p r o t o c 0 1 ) 协议。 按照邮件系统的角色结构,可以将邮件过滤分为三类: 4 中周科学院颂l 学位论文:摧于内容的垃圾0 僻件过滤研究 图2 1 电子邮件系统示意图 1 ) m u a 过滤。即在用户端过滤。 2 ) m t a 过滤。m t a 过滤是指m t a 在会话过程中对会话的数据进行检查,对于符 合过滤条件的邮件做过滤处理。 3 ) m d a 过滤。m d a 从m t a 中接收到信件,在本地或远程递交时进行检查,对 于符合过滤条件的邮件进行过滤处理。很多的m d a 都支持垃圾邮件过滤,如 p r o c m a i l 、m a i l d r o p 和c y r u s i m a p 等。 m t a 和m d a 过滤都是邮件服务器端的过滤,而m u a 过滤是邮件用户的客户端的 过滤。 从垃圾邮件过滤技术上看,目前常用的有白名单和黑名单技术、规则过滤以及邮件 内容过滤等。这些技术一般都同时适用于服务器端和客户端的邮件过滤。 2 2 白名单和黑名单 白名单中的发件人发送的任何邮件都认为是合法邮件,黑名单中的发件人发送的任 何邮件都认为是垃圾邮件。这是目前电子邮件过滤中广泛使用的技术。通常做法是收集 一个黑、白名单列表,可以是电子自e 件地址,也可以是邮件服务器的域名、i p 地址,收 到邮件时对发件人进行实时检查。这种名单一般由比较有信誉的组织提供,如中国互联 网协会( h t l p :w w w i s c o r g c n ) 定期在主页上公开垃圾邮件服务器地址名单。个人也 可以根据需求定义和维护自己的黑、白名单。 2 3 设定过滤规则 设置一些规则,只要符合这些规则的一条或几条。就认为是垃圾邮件。这些规则通 常有: 中国科学院坝i 。学位论文:某于内容的垃圾邮件过滤研究 2 3 1 信头分析 即分析邮件头部信息检查发件人的地址是否有伪造。通常,一封邮件从发件人到收 件人,中间要经过好几台服务器。每经过一台服务器,就会在相应的头部加入一条 r e c e i v e d 的信息,按照经过的服务器顺序由后向前添加。下面是一个邮件头部信息例子: r e t u r n - p a t h :e a i 9 9 2 c a i e c w w c o m d e l i v e r e d - t o :p a n w e n f e n g m x 3 2 m a i l s o h ue o m r e c e i v e d f r o mt z l o w o l 3 m b k - t e x t i l e c o m 位1 0 w 0 1 3 m b k - t e x t i l e c o mf 6 j2 0 8 2 1 7 2 0 2 1 ) b ys o h u m x 0 6 s o h uc o m ( 1 o s c t x ) w i t he s m t p i d 3 8 8 d 9 5 7 f a 4 :f r i 1 6 j a n2 0 0 4 1 5 :5 9 :0 3 + 0 8 0 0 ( c s t ) r e c e i v e d f r o m c o r t l ( 2 1 8 1 7 1 2 4 s 1 5 5 ) b y t z l o w 0 1 3m b k - t e x t i l e c o mw i t h m i c r o s o j e s m r p s v c ( 5 5 1 8 7 7 1 9 2 1 9 ) : f r i , 1 6 j a n2 0 0 41 3 :0 5 :2 5 + 0 9 0 0 r e c e i v e d f r o mu n l o l o w n ( h e l o q i a n c o m 口0 2 1 7 0 1 6 3 1 6 3 ) b vc w w c o r z lw i t hs m t p : f r i , 1 6 j a n2 0 0 40 4 :0 5 :2 6g m r m e s s a g e - l d :1 0 7 4 2 2 5 9 4 7 - 目l i a n c o m f r o m : j i e h a op a n ” t o :p a n w e n f e n 9 1 2 3 s o h uc o m p a n w e n f e n g s o h i _ t c o m ,酗”w e n g e l 勘o h t l c o m s u b j e c t :一让迎薪韵钟声带给你我对你匏声声砰尝| 祝你幸i 福。 s e n d e r i d e a s o h u c o m x u s o h u e o m m l m e v e r s i o n :i 。0 c o n t e n t - t y p e :m u l a p a r t r e l a t e d ; b o u n d a r y = ”一n e x t p a r t0 0 0 no j c 3 d b o e e n o b 7 2 0 “: t e p e = m u l t i p a r t a l t e r n a t i v e ” d a t e :f r i , 1 6 j a n2 41 5 :5 9 :1 9 + 0 8 0 0 ( c s t ) s t a t u s :r 0 x - u i d l :1 0 7 4 2 4 0 4 3 i1 3 0 4 71 6m x 3 2m a i l s o h u , c o r n 邮件中的f r o m 和t 0 是由发件人自己规定的,一些垃圾邮件发送者为欺骗邮件系统 和用户通常伪造f r o m 地址。但在邮件头部中r e c e i v e d 信息是由服务器自动加上去的, 通过比较r e c e i v e d 域( 特别是第次经过的邮件服务器的r e c e i v e d 域) 可以识别出伪造 的发件人地址。 6 中田科学院颤i :学位论文:赫于内容的垃圾邮件过滤研究 2 3 2 群发过滤 如果一个邮件服务器在一段较短的时阃内收到来自同一个地址的大量邮件,就认为 这个地址有可能在发送垃圾邮件。另外,如果一个邮件服务器在一段较短的时间内收到 从不同地址发送过来的大量内容基本相同的邮件,就认为这封邮件有可能是垃圾邮件。 而且,有些垃圾邮件是通过猜测地址的方法群发,在2 3 1 节中的邮件头t o 域可以看到 “p a n w e n f e n 9 1 2 3 s o h u c o m 、p a n w e n f e n g , s o h u 、p a n w c n g c s o h u 伽”这些收件 人。 2 3 3 关键词精确匹配 可以定义一些反映垃圾邮件特征的关键词或短语,如“f r e e ”、“免费”、“抢注”、“热 卖”、“实惠”、“特惠”、“特卖”、“赠送”、“保证有你想要的”等,当在邮件标题或者正 文中匹配到若干条关键词或者短语,就判定为垃圾邮件。 2 3 4 邮件内容中的其他特征 例如,邮件中文字比较少,却有大量的超级链接;邮件正文中包含有大量的随机字 符等。还有些垃圾邮件在h t m l 格式正文中将大量的无敏感内容的文字设置为很小而几乎 看不见的字体,而将较少的敏感内容设为正常字体,这样既可以保证邮件的视觉效果, 又因为充斥着大量的正常文字,欺骗邮件过滤工具的检查。 2 4 基于内容的垃圾邮件过滤技术 通常,并不仅仅是某几个固定的发件人在发送垃圾邮件,发送者在不断地变化,黑、 白名单方法有局限性。规则方法的不足之处在于规则都是人工指定的,需要人们不断去 发现和总结、更新,人为因素比较多,一些没有经验的用户可能很难提供有效的规则。 而且,手工制定规则比较耗时,准确率也受到了限制。随着时间的变化,垃圾邮件的特 征也在变化,让用户维护这些规则也不是一件易事。 一个很自然的想法是,对电子邮件的内容( 如正文文本) 进行分析,识别出垃圾邮 件。这就将垃圾邮件过滤与文本分类和信息过滤联系起来了,将文本分类和信息过滤中 常用的方法引入垃圾邮件过滤任务。在本文中,作者将这种邮件过滤技术称为“基于内 容的垃圾邮件过滤”或者“垃圾邮件内容过滤”。这种内容过滤技术提供了更为准确的邮 件过滤方法,可以自动获得垃圾邮件的特征,并即时捕捉到垃圾邮件特征的变化。 2 4 1 垃圾邮件过滤与文本分类 文本分类的任务是根据预先确定好的类别体系,将待分类文本分到相应的类别中去。 从文本分类角度来看,垃圾邮件过滤就是要求将邮件分为垃圾、非垃圾两类中的一类, 是一个二值分类问题。我们可以将电子邮件经过预处理提取出邮件j 下文的文本内容,利 中固科学院坝i 学位论义:箍十内容的垃圾邮件过滤研究 用文本分类的算法识别垃圾邮件,这也是目前垃圾邮件过滤技术研究的一个趋势。但垃 圾邮件过滤与一般的文本分类在很多方面又有所区别,主要表现在: 1 ) 对文本分类,每个类别的内容一般不会经常改变。如,一个文本现在是体育类, 将来也还属于体育类。而对垃圾邮件过滤,“垃圾邮件”类别是和用户密切相关 的,更注重个性化用户对垃圾邮件的判别准则会随时间改变,而且垃圾邮件 本身的内容形式也在不断的变化。因此在垃圾邮件过滤中要给用户提供自学习、 反馈的机制,适应新情况。 2 ) 无论对邮件服务器还是用户客户端,邮件过滤都对实时性要求比较高。因此要 尽可能的采用计算简便、速度快的文本分类算法。 3 ) 在分类效果上,人们最不希望将非垃圾邮件误判为垃圾邮件而过滤掉,因此对 垃圾邮件类别的分类准确性要求较高。 结合上面的第二点和第三点区别,本文的第三章、第四章和第五章主要介绍文本分 类方法在垃圾邮件过滤中的应用。在第五章中,讨论反馈学习机制。 2 4 2 垃圾邮件过滤与信息过滤 信息过滤( i n f o r m a t i o nf i l t e r i n g ) 是从动态的信息流中找出与用户兴趣需求相关的信 息的过程 o a r d1 9 9 6 。以文本过滤为例,将新到达的文档与用户的兴趣( p r o f i l e ) 相匹 配,把系统认为相关的文档推送给用户,用户给予反馈,说明被推送的文档中哪些是他 真正感兴趣的,哪些是不感兴趣的系统又从反馈中自动更新该用户的兴趣。文本过滤 可以看作是一个有反馈学习的二值分类问题。信息过滤系统的一般组成如图2 2 所示。 图2 2 信息过滤系统的一般组成 可以认为垃圾邮件内容过滤是这样的一个信息过滤问题:初始时,提供一定的垃圾 邮件和非垃圾邮件给过滤系统学习,得到过滤模型;过滤的信息源是动态的邮件流;用 户可以指定自己的垃圾邮件集和非垃圾邮件,供系统反馈学习,建立新的过滤模型。 2 5 小结 本章总结了垃圾邮件过滤的研究现状,介绍常用的过滤技术。分析基于内容的垃圾 邮件过滤与文本分类、信息过滤的关系。 中田科学院帧i 学位论史:皋十内容的垃圾邮件过滤研究 目前,有很多支持垃圾邮件过滤的客户端邮件工具,如o u t l o o k2 0 0 3 、o u t l o o ke x p r e s s 6 、f o x m a i l5 0 、e u d o r a 6 等,这些工具一般提供给个人用户使用。还出现了一些具有垃 圾邮件过滤功能的邮件网关,如美讯智公司的安全邮件网关、九洲联信公司的a s f 反垃 圾邮件网关、思维世纪的i x r a y 反垃圾邮件网关等,可以为电信运营商、政府机关、企 业以及学校提供邮件系统安全防护。这些产品采用的技术大多是黑名单、规则过滤以及 邮件内容扫描关键词匹配等,而f o x m a i l5 0 中使用了贝叶斯过滤,是一个亮点。 9 3 1 文本分类简介 第三章垃圾邮件内容过滤技术 文本分类的任务是:在给定的类别体系下,根据文本的内容,将其自动映射到指定 的类别中去。类别体系一般由人工按照应用需求构造。基于内容的文本分类需要指导, 即一定数量的己分类好的训练文本或者实例,分类系统从训练文本中获取必要的信息, 构造分类器。因此文本分类一般都由训练过程和分类过程两阶段构成( 图3 1 ) 。文本分 类技术的应用很广泛,如新闻网页的分类、电子图书的分类等等。 图3 1 文本分类器的一般模型 在文本处理领域,通常采用向量空间模型( v s m ,v e c t o rs p a c em o d e l ) 表示文本, 一篇文本可以表示为个疗维向量( w l ,w 2 ,) ,其中m ( f = 1 , 2 ,月) 表示第f 个特征 项( t e r m ) 的权重,即是特征项的个数。特征项可以是字、词、短语或者某种概念,本 文中采用词作为特征项。权重有多种计算方法,最简单的是布尔权重,即权重为l ( 该 特征项在文本中出现) 或者0 ( 该特征项没有在文本中出现) 。更通常的情况下,v s m 中的权重计算采用词频( t f ,t e r mf r e q u e n c y ,表示该特征词在文本中出现的次数) 和 文档频次( d f ,d o c u m e n tf r e q u e n c y ,表示出现该特征词的文档数量) 的某种组合。 解决了文本表示问题之后。我们可以将文本分类抽象为一般的描述:设类别总数为 中陶科学院倾l 学位论文:皋十内容的姹圾m 件过滤研究 i c l ,f ,表示第( j = 1 , 2 ,j c j ) 类,提供给分类器的训练集( 训练集中的文本都已经过 人工分类) 包含l d l 篇文本,特征空间( f ,f :,。) ,行为特征数量,每篇文本表示为 d ,= ( i ,w j 2 ,) ,i = 1 , 2 ,蚓。一篇待分类文本泛化表示为d ,= ( 心,m 2 ,”o ) , 任务是将d 分到相应的类别中去。 3 2 特征选择方法 训练集中包含了大量的词汇,如果把这些词都作为特征,将带来一系列问题。首先 是向量的维数太大,给计算带来了非常大的压力,存储空间大、处理速度慢。其次是这 些词中实际上有很大一部分是与类别无关的,对分类作用不大。因此,我们要降低向量 的维数,选择那些有代表意义的词作为特征。先对文本进行预处理,去掉那些常用的对 分类用处不大的词( 称为停用词,s t o pw o r d ) ,然后采用某种特征选择方法对所有的词排 序,选出排在前面的一定数量的词作为特征。常用的特征选择方法有 y a n g1 9 9 7 : 3 2 1 文档频次 文档频次( d f ) 是出现特征项的文档数量。通常认为d f 太小的词没有代表性,而 d f 太大的词又没有区分度,所以基于d f 的特征选择方法只留下那些d f 介于中间的词 作为特征。 3 2 2 互信息 互信息即m u t u a li n f o r m a t i o n ,简称m 【,定义如下: m ,= 罢m 等 ( 公式3 1 ) p ( _ ) 表示第f 类文本在训练文本集合中出现的概率,p u ) 表示词t 在训练文本集合 中出现的概率,p ( fic ,) 表示在第i 类的文本中t 的出现概率。m i 越大,词和类的共现 程度越大。 3 2 3 信息增益 信息增益即i n f o r m a t i o ng a i n ,简称i g ,定义如下: 中罔科学院颇l :学位论文:綦于内容的埽圾邮件过滤研究 g ( t ) = 一p ( c ) l o g e ( c ,) + 尸( ,) p ( ql o l o g p ( c , i f ) 8 1 9 ( 公式3 - 2 ) ( + p ( i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理考试题目及答案解析
- 沛县初二月考试卷及答案
- 2025教师编考试真题及答案
- 湖南安全员题库考试试题及答案
- 三重一大考试试题及答案
- 2025-2026学年度四川省绵阳市安州区九年级上册9月月考数学试题 参考答案
- 2024-2025学年度天津市七年级上册阶段性册调查数学练习 参考答案
- 主播签约合作协议新修订7篇
- 2025年病历管理题库及答案
- 2025年《汽车维修工》技师考试练习题(含参考答案)
- 推进信息化建设“十五五”规划-(2025-2025年)-根据学校十五五
- 保护环境的课件
- 华电集团就业协议书
- 拆旧建屋合同协议书
- 图深度强化学习在配电网故障恢复中的应用研究
- 中国电信云网资源管理技能认证考试题及答案
- (2017)海南省房屋建筑与装饰装修工程综合定额交底资料
- 拆除重建工程施工方案
- 《社会科学研究方法》课件
- 《基础护理学》第七版考试题库大全-上部分(600题)
- 基坑安全事故及防范措施
评论
0/150
提交评论