




已阅读5页,还剩88页未读, 继续免费阅读
(信息与通信工程专业论文)基于适应概念漂移的垃圾邮件过滤系统设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
。 r 【:l , 一 一l ,l,r。,一 、 i , i t 詹 独创性声明 l i i iiii iii iiii ii i iiiil 、t18 0 2 4 4 2 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:垫耻 日期:舢年f月印日 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名: ;以v 、 幡 摘要 摘要 电子邮件作为当今一种方便、快捷的互联网信息交流方式,受到越来越多人 的青睐。但是垃圾邮件的出现,并且日益严峻,使这种便利的方式给人带来了烦 恼。反垃圾邮件技术已成为互联网信息领域的一个研究热点,基于内容的反垃圾 邮件过滤技术更是一种成熟而且有效的技术方案。 基于朴素贝叶斯的垃圾邮件过滤方法是当前基于文本内容过滤方法的有效算 法之一。随着时间的变化,垃圾邮件的特征也在不断的改变,然而传统的训练模 型必须重新进行训练才能适应新的邮件特征的改变。因此,传统的朴素贝叶斯过 滤方法必须与其它技术结合才能有效的适应新特征的变化。本文提出的实例选择 分类器加权集成算法,是采用数据挖掘领域的流问题解决方案来适应邮件流的问 题的解决思路,成为当前的研究热点。本方法是在研究朴素贝叶斯的基本原理, 分析其优缺点的基础上,基于传统分类器的静态特性,将概念漂移的思想应用到 垃圾邮件过滤系统上,在中文的c c e r t “2 0 0 5 j u l ”数据集上,取得了不错的效果, 不仅在从精度上,更重要的适应性上,从不适应到适应,从精度低到精度高,完 成了一个动态的适应过程。 1 ) 本文首先分析了中文词语的特点和常见的词典结构,解读了朴素贝叶斯算 法的基本原理,概念漂移的基本思想,同时给出了通用分类算法评价标准。 2 ) 在第三章,描述了整个系统的总体目标,以及本模块的总体架构,并给予 了模块概括性的描述。 3 ) 在第四章,阐释模块内部各个功能点的详细设计和实现,提供了伪代码级 的说明了详述。 4 ) 在测试和分析章节,首先详述了中文和英文的语料集,并就该模块系统的 参数和数据集选取给予了详细的说明,在概念漂移发生或未发生时,同传 统分类器,在精度和适应性上的对比,并做出了详细的分析。 综上所述,本系统提出对传统领域的垃圾邮件过滤模型的适应性研究是一个有实 践价值、理论意义的尝试。 关键字:垃圾邮件、中文分词、朴素贝叶斯算法、概念漂移 i x ,v k 争 卜 一 i a b s t r a c t a b s t r a c t e m a i li sp o p u l a ra so n eo fc o n v e n i e n ta n de c o n o m i c a lw a y so fc o m m u n i c a t i o n a v a i l a b l eb yt h ei n t e r n e t ,h o w e v e r , s p a ma p p e a r s ,a n de v e nw o r s e ,b e c o m e sh a r a s s m e n t f o rm o r ea n dm o r ep e r s o n sa n dc o m p a n i e s a n t i - s p a mt e c h n o l o g yh a sb e e nh o tp o ti n m er e a l mo ft h ei n t e r a c t t h et e c h n o l o g yo ff i l t e r i n gt h es p a mb a s e do nt h ec o n t e n t 1 5 o n eo fe f f e c t i v ea n de f f i c i e n c ym e t h o d s n a i v eb a y e st e x tc l a s s i f i c a t i o nt e c h n i q u eh a sad o m i n a n tp l a c ei nt h ea r e ao fs p a m f i l t e r i n gf o ri t sg o o dc a t e g o r i z a t i o n ,h i g hp r e c i s i o n a st i m eg o e s ,s og o e st h ef e a t u r eo f m a i l ,e s p e c i a l l yf o rs p a m h o w e v e r , w h e nt h en e w f e a t u r ea p p e a r s ,t h et r a d i t i o n a lm o d e l o ff i l t e r i n gt h es p a mm u s tb et r a i n e db yt h en e wm a i lw h i c hc o n t a i n st h ec h a n g e d f e a t u r e s ,t l l e r e f o r e ,t h et r a d i t i o n a lm o d e l so rm e t h o d so ft r a i n e ds h o u l db e b o u n dt ob e g r a f t e do nn e wm e t h o d so rt h i n k i n gt oa d j u s tt ot h ec o n s t a n t l yc h a n g i n ge n v i r o n m e n t t h ep a p e rs h o w st h em e t h o d sw h ow ec a l li tc o m b i n e di n s t a n c es e l e c t i o n w e i g h t e do f c l a s s i f i e ra l g o r i t h m ,f i :o mt h ed o m a i no fm i n i n gd a t as t r e a m s ,a sat h i n k i n gf o rs p a m f i l t 丽n g t h em e t h o di sp r o m p t e db a s e do nt h eb a s i cp r i n c i p l eo f n a i v eb a y e s ,a n dt l l e s t r o n gp o i n t sa n dw e a k n e s s e s ;b a s e do ns t a t i cc h a r a c t e r i s t i co f t h et r a d i t i o n a lm o d e l s , t h ep a p e rc o m b i n e st h ei d e ao fc o n c e p td r i f tw i t ht h et r a d i t i o n a lm o d e l s t h ed a t as e ti s “2 0 0 5 j u l ”p r o v i d e db yc c e r t t h e r e s u l ti sm o r ee f f i c i e n t ,n o to n l yo nt h ep r e c i s i o n , b u ta l s oo nt h ea d a p t a t i o n ,t h ee x p e r i m e n tr e v e a l st h ep r o c e s so fd y n a m i ca d a p t a t i o n 1 ) t h ep a p e ra n a l y z e st h ec h a r a c t e r i s t i co fc h i n e s ec h a r a c t e ra n dt h e s t r u c t u r eo f d i c t i o n a r i e s ,t h e n ,g i v e sag e n e r a lo v e r v i e wo ft h eb a s i cp r i n c i p l eo f n a i v eb a y e s ,a n d t h eb a s i ct h o u g h to fc o n c e p td r i f t ,a tt h es a m et i m e ,t h eg e n e r a l c r i t e r i o n so f c l a s s i f i c a t i o n 2 ) i nc h a p t e rt h r e e ,t h ep a p e rg i v e st h e o v e r a l lo b j e c to ft h es y s t e ma n d t h ew h o l e s t r u c t u r eo ft h ea l g o r i t h m ,d e s c r i b e st h em o d u l e so f t h ea l g o r i t h m 3 ) i nc h a p t e rf o u r , t h ep a p e rg i v e sas p e c i f i cd e s c r i p t i o no f f u n c t i o np o i n t s ,e v e np s e u d o c o d e s 钔i nt h es e c t i o no ft e s ta n da n a l y s i sc h a p t e r , w ef i r s t l yi n d u c e st h ed a t a s e t so fe n g l i s h a n dc h i n e s e ,e x p l a i n st h ec h o i c eo fd a t a s e t sf o rt h et e s t ,g i v e st h er e s u l t so fe x p e r i m e n t , i i a b s t r a c t i n c l u d i n gt h ed i v e r s i f i c a t i o nw h e nc o n c e p td r i f tt a k e sp l a c eo rn o t ,n o to n l yo nt h e p r e c i s i o n ,m o s to fi m p o r t a n t ,o nt h ea d a p t a t i o n a tl a s t ,t h ep a p e ro f f e r st h ea n a l y s i sf o r t h er e a d e r s t ot h ec o n c l u s i o n ,t h ep a p e ro f f e r so n en e wa t t e m p to fp r a c t i c a lm e r i ta n dg r o p i n g m e a n i n g t ot r a d i t i o n a lt r a i n e dm o d e lw h e nt h ee n v i r o n m e n tc h a n g e s k e y w o r d s :s p a m ,c h i n e s ew o r ds p l i t t e r , n a i v eb a y e s ,c o n c e p td r i f t i i i p ,t - 一 目录 目录 第一章绪论1 1 1论文的背景1 1 2国内外垃圾邮件的过滤技术2 1 3论文的目的和意义5 1 4论文的主要工作和创新点7 1 5论文的章节安排8 第二章文本过滤基础理论和研究方法9 2 1文本型垃圾邮件的过滤要点9 2 1 1 中文文本分词9 2 1 2 词语字典数据结构1 1 2 1 3 过滤模型的精度1 3 2 1 4 过滤模型的适应性1 5 2 1 5 其它1 5 2 2 贝叶斯分类方法1 5 2 2 1 贝叶斯数学理论基础1 5 2 2 2 朴素贝叶斯分类算法1 7 2 2 3 朴素贝叶斯分类算法的缺点2 0 2 3邮件分类算法中常用的性能评价标准2 l 2 4 概念漂移的基础理论2 2 2 4 1 概念漂移的定义2 2 2 4 2 概念漂移的类型和理想模型2 3 2 5本章小结2 5 第三章反垃圾邮件适应概念漂移系统的整体架构和功能2 6 3 1 反垃圾邮件项目系统整体架构及功能2 6 3 2反垃圾邮件系统适应概念漂移模块与其它模块关系2 9 3 3 反垃圾邮件适应概念漂移模块整体架构与功能3 0 3 3 1 实例选择一分类器加权集成分类预测架构与功能3 5 3 3 2 实例选择一分类器加权集成分类训练架构与功能3 8 3 4本章小结4 0 第四章反垃圾邮件适应概念漂移系统设计与实现4 1 目录 4 1 反垃圾邮件项目背景与结构4 1 4 2 反垃圾邮件适应概念漂移系统平台4 3 4 3 反垃圾邮件适应概念漂移系统的设计和实现4 4 4 3 1 适应概念漂移模块整体设计和实现4 4 4 3 2 适应概念漂移模块的详细设计和实现5 1 4 4本章小结6 4 第五章测试与分析6 6 5 1 邮件语料库6 6 5 1 1 英文语料库6 6 5 1 2 中文语料库6 7 5 2 概念漂移语料库6 7 5 3 基于系统的测试说明及结果6 8 5 3 1b o g o f i i t e r 阈值d 6 9 5 3 2 单一分类器对比邮件集7 0 5 3 3 概念漂移数据集及测试7 0 5 3 4 单一分类器对比测试结果7 1 5 4实验结果分析7 3 5 5本章小结7 4 第六章总结与展望7 6 6 1 工作总结7 6 6 1 下一步工作及展望7 7 致 射7 8 参考文献7 9 攻硕士期间区间取得的研究成果8 3 v ;f, r 第一章绪论 1 1 论文的背景 第一章绪论 作为一种低成本、高效率、便捷的通信方式,电子邮件已经成为互联网时代 不可或缺的交流工具。然而,一些别有用心的人却利用电子邮件散布大量的垃圾 信息,诸如商品广告、欺诈信息、成人内容、反动言论等。人们把这种不请自来 的电子邮件为垃圾邮件。近年来,垃圾邮件占用户收到的所有邮件的比例已经超 过5 0 。垃圾邮件的泛滥已经严重威胁到电子邮件这一网民广泛依赖的通信媒介。 卡巴斯基发布的2 0 0 8 垃圾邮件的年度报告显示,该年度垃圾邮件占整个邮件 发送量的8 2 5 ,比2 0 0 7 年超出2 1 2 0 0 9 年上半年统计数据显示垃圾邮件的发 送量并未因经济危机而有所减少,反而提升到8 5 5 ,其中,亚洲( 中国和印度) 和拉丁美洲成为是最大的垃圾邮件生产国地区【i 】。而国内的垃圾邮件形势也不容乐 观,中国互联网协会反垃圾邮件中心2 0 0 9 年的第三季度反垃圾邮件调查报告指出, 中国网民平均每周收到的邮件中5 3 3 8 为垃圾邮件,多达1 5 0 8 封,尽管企业用 户采取了一些比较专业的垃圾邮件防范措施,平均每周收到的垃圾邮件数量在5 封以下的占4 4 3 3 【2 】 其中在6 封以上的超过一半。垃圾邮件对社会已经造成了严 重的危害,总结起来主要在以下几个方面: ( 1 ) 通过占用网络带宽,浪费网络资源,从而影响邮件系统的正常运行。当网 络带宽上充斥大量的垃圾邮件时,严重影响网络传输性能的发挥,有限的网络资 源的利用率得不到充分的发挥。对邮件服务器而言,大量的垃圾邮件也占据了相 当大的磁盘空间,甚者,如果垃圾邮件得不到有效控制,用户就会放弃邮箱,给 邮件服务商造成巨大的损失,甚至关闭该项服务;另外,如果某些用户利用邮件 服务器对外发送垃圾邮件时,该服务器会被列入黑名单而遭外部封杀。因此,邮 件服务器既要拒收来自外部的垃圾邮件,还要阻止自己的邮件用户对外发送垃圾 邮件【3 】,邮件服务商必须解决好垃圾邮件的发送、接收类的问题。 ( 2 ) 对网络安全形成威胁【3 】。垃圾邮件的发送会极大的影响网络的安全和系统 的稳定性,特别是在那些利用别人的服务器转发邮件的情况下。由于目前大多数 的垃圾邮件是利用第三方服务器转发( o p e n r e l a y 或o p e n d e p l o y ) ,通过这样的方式减 少了垃圾邮件发送者代价,但是会给中间代理或转发的邮件服务器带来很多危害: 电子科技大学硕士学位论文 诸如线路拥塞,系统瘫痪;同时也会让这些邮件服务器被误认为垃圾邮件发送者, 从而影响正常的信件发送。另外垃圾邮件还可以被病毒、蠕虫、后门程序等利用, 并成为它们的传播途径之一。 ( 3 ) 浪费用户时间和上网费用。如果每天都要花费相当长的时间来处理垃圾邮 件来获取本来应该很容易应该获取到的信息,工作效率的降低严重影响社会的进 步,浪费的时间给个人生活质量的提高带来了巨大的压力。另外从经济效益上讲, 给人们辛勤劳动的成果打了折扣,影响推动整个社会进步的积极性和创造性的发 挥。 大量的垃圾邮件充斥着个人邮箱和企业邮箱,已造成并将继续造成损失( 如 果不进行有效控制) ,这种现状引起社会各界的关注。该课题的研究得到国家高技 术研究发展计划( 8 6 3 计划) 和四川省科技厅的支持,研究内容来源于8 6 3 项目垃 圾邮件检测控制关键技术研究和省科技厅企业级垃圾信息综合举报系统。 1 2 国内外垃圾邮件的过滤技术 人们对反垃圾邮件技术的研究始于1 9 9 6 年3 月,当时有学者提出使用 s p a m b l o c k 的方法过滤垃圾邮件,例如采用r e m o v e t o r e p l a y 的工具来过滤 邮件地址。纵观反垃圾邮件技术的发展历程,大致可以分成以下三个阶段【4 5 】: 起步阶段( 1 9 9 3 年一1 9 9 7 年) :1 9 9 4 年1 2 月,英语单词s p a r e 一词被首次用 来表示垃圾邮件,国际上从1 9 9 5 年1 0 月开始,为便于收集、分类和讨论垃圾邮 件问题,相关机构设定专门的邮件账户a b u s e d o m a i n 。同时,利用“黑名单”( 一 些已知的专门发送垃圾邮件的口地址或邮件地址) 技术从技术层面实现反垃圾邮 件的工作。 推进阶段( 1 9 9 7 年一1 9 9 9 年) :1 9 9 7 年5 月,国际上成立“c a u c e ”组织, 其主要倡议:从倡议立法的角度出发,开始制定反垃圾邮件相关的法律法规,并 吸引更多有志者共同参与,抵制垃圾邮件的继续扩散。1 9 9 8 年5 月,互联网协会 针对垃圾邮件问题召开专项会议,重点探讨如何实现有效地过滤垃圾邮件等问题。 同时,m a p s ,s p a n h a u s ,s p a m c o p 等国际组织和服务单位相继成立,就反垃圾 邮件问题( 尤其是针对i s p ) 提出很多有用的建议和解决方案。更为重要的是,我 国于1 9 9 8 年成立了中国教育与科研网紧急响应小组,该小组是国内第一家致力于 研究垃圾邮件与反垃圾邮件技术研究的单位,填补了国家在反垃圾邮件领域的空 白,也表征着我国在反垃圾邮件领域正式起航,开始同发达国家开始接轨。 2 v 0 第一章绪论 发展阶段( 1 9 9 9 年- - 2 0 0 2 年) :美国在1 9 9 9 年2 月正式发布了r f c 2 5 0 2 , a n t i s p a mr e c o m m e n d a t i o n sf o rs m t o m t a s 文档,从而标志着反垃圾邮件技术的 蓬勃发展。自此以后,许多国际知名大学和研究机构都开始投入大量人力、物力 着手反垃圾邮件技术的研究。垃圾邮件问题严重性,突现出极大的研究经济和社 会价值。同时,反垃圾邮件立法和建立统一标准等工作也吸引了许多从事交叉学 科研究的技术人员的关注。因此不同领域的分类方法也开始被大量引入反垃圾邮 件的队伍中,如:机器学习、神经网络和遗传算法等等。该阶段的研究成果成为 目前国内外反垃圾邮件厂商在开发反垃圾邮件产品时候重要的技术依据、参照思 路。 目前制止垃圾邮件已经不再是部分国家的事情,是个世界性问题。需要全球范 围内的技术专家、政府、运营商等的联合,才能推动反垃圾邮件事业的持续发展。 因此,国际社会应该共同制定一套标准的法律法规来规范电子邮件。为更好、更 快地解决垃圾邮件问题,多数学者和企业倾向于利用技术手段来解决垃圾邮件问 题,本文也将着重讨论反垃圾邮件技术的发展流程和常用方法。鉴于垃圾邮件问 题日益严重,众多知名公司都投入大量的人力、财力来研制反垃圾邮件的技术。 这些方法和技术有效地控制了垃圾邮件数量的膨胀速度,但是垃圾邮件制造者也 在不断地研究和升级它的抗过滤技术,以达到蒙骗垃圾邮件检测系统的目的。垃 圾邮件与反垃圾邮件之间的较量就像在进行一场战争,此消彼长。到目前为止, 尚没有任何一种技术可以完全解决垃圾邮件问题。因此反垃圾邮件系统研发人员 在总结经验教训的同时,正致力于开发一种更加准确、可靠、实用的垃圾邮件过 滤系统。 目前各种遏制垃圾邮件的方法中,通过技术手段实现垃圾邮件的过滤比采用法 律手段阻止垃圾邮件的发送更切实可行,具有极大的现实意义。电子邮件是由格 式控制信息和邮件内容组成的,从这些信息或内容中可以能够提取出有效区分正 常邮件和垃圾邮件的特征。标准的电子邮件格式控制信息包括:收发件人邮箱名、 收发人邮箱服务器口地址或域名、主题等等。邮件内容信息主要包括:正文、附 件等相关字段【5 】。目前,比较有效反垃圾邮件技术有两种:第一种是通过启发式过 滤技术,该技术主要是对垃圾邮件进行来源过滤,即可以根据邮件来源特征识别 出从一个固定的服务器或域名发送的垃圾邮件。由于在邮件完全提交之前就进行 阻断,因此,该方法能够有效的保护网络资源和带宽。另一种是基于内容的垃圾 邮件过滤方法,该方法对邮件正文进行源码解析后,针对内容进行特征分析与匹 配,根据内容特征来确定邮件所属的类别。下面主要介绍基于几类最主要垃圾邮 3 电子科技大学硕士学位论文 件过滤技术。 ( 1 ) 关键词过滤技术 关键词匹配首先利用诸如统计等方法获取垃圾邮件中出现频率比较高的单词 从而创建一个与垃圾邮件关联的单词库,将判断的邮件特征( 单词) 与单词库中 的特征( 单词) 进行匹配以识别垃圾邮件。例如,垃圾邮件中常常包含一些明显 商业广告性质的关键词,可以将这些关键词提取出来并建立相应的商业广告关键 词库。当一封类似垃圾邮件出现时,通过比较该封垃圾邮件中的特征( 词语) 与 关键词库中的特征,当相似的单词数量或相似度等超过一个阈值或者时则可判定 为垃圾邮件。这种方式类似于反病毒软件利用病毒特征库进行病毒检测。可以说 这是一种最原始的基于内容的垃圾邮件过滤方式,但要求在事先收集大量垃圾邮 件样本并创建一个足够庞大的关键词词库。 ( 2 ) 黑白名单过滤技术 黑名单( b l a c kl i s t ) 和白名单( w h i t el i s t ) 技术是一种十分高效的过滤手段。 黑名单指在反垃圾邮件过程中已经获知的垃圾邮件发送者的i p 地址或者邮箱地 址。白名单则收件人经过证实的可信任的发送者i p 地址或者邮箱地址【4 1 。现在有 很多国际和国内组织专门收集那些被怀疑经常或专门发送垃圾邮的i p 地址( 甚至 i p 地址段) ,做成b l o c kl i s t 并对这些列表实时更新。这些名单通常被很多研究单位 和机构共享,比如s p a m h a u s 的s b l ( s p a m h a u sb l o c kl i s t ) 。采用这种方式以便于 利用此种技术的垃圾邮件过滤器更快捷的阻止垃圾邮件的传播。白名单与黑名单 则相反,对于那些来自信任i p 地址所发出的邮件就直接放行,在降低误判的同时 节省了反垃圾邮件系统资源开销。通常的做法是不在专门的反垃圾邮件系统中使 用黑白名单技术,在邮件服务器中直接嵌入黑白名单来处理垃圾邮件,包括m u a 和m t a ,尤其在m t a 中广泛使用,可以显著地减少服务器的负担。 ( 3 ) 基于规则的过滤技术 基于规则的垃圾邮件过滤技术是采用某些局部出现的规律性特征来实现邮件 类别的判断。诸如利用单词、词组、位置、大小、附件等来生成规则,通常利用 神经网络算法来生成规则集合,每个规则得到相应的分数:出现在正常邮件中的 规则赋予一个负数,在垃圾邮件的规则设置一个正数。将已打分的规则与未进行 类别判断的邮件进行匹配,然后累加该封邮件的规则得分,如果总的规则分数大 于系统设置的阈值,则判定该封邮件为垃圾邮件。 ( 4 ) 概率统计的过滤技术 在概率统计方法中,最著名的是贝叶斯算法。贝叶斯算法基于著名数学家托 4 , v p 第一苹绪论 马斯贝叶斯( 1 7 0 2 1 7 6 1 ) 的概率统计公式,因此该算法数学基础比较坚实的。贝 叶斯学习算法利用对过去事件的分析模型,即先验概率来预测事件未来可能发生 的概率。基于贝叶斯学习算法的反垃圾邮件算法是目前最有效的垃圾邮件过滤技 术之一,采用朴素贝叶斯学习算法并结合一些“除噪 技术( 例如利用h m m 进 行中文语义消歧,权重的平滑处理) ,使其具备很强的自主学习能力和一定的抗干 扰能力,该种方法是目前比较有效的垃圾邮件过滤手段之一。通过提取并分析垃 圾邮件训练集合和正常邮件训练集合中的词语的数目,贝叶斯过滤器针对不同单 词赋予词语的权重,依据邮件的相似度从而判断出邮件的类别。 1 3 论文的目的和意义 本论文研究的内容是基于国家8 6 3 课题垃圾邮件关键过滤技术研究课题( 编 号:2 0 0 6 a a 0 1 2 4 1 1 ) ,同时获得了四川省科技厅企业级垃圾信息综合举报系统 的支持。本项目目的是研发出智能的反垃圾邮件网关产品。通过结合透明网桥技 术与主流的反垃圾邮件过滤算法,研发出具有一定的自我学习能力的、高效的垃 圾邮件过滤系统。系统既不依赖于邮件服务器,也不依赖于特定的邮件客户端, 而是作为一个独立的系统运行在网络上或者安装在网关等网络设备上,实时的对 垃圾邮件进行采集,分析和过滤。 本系统部署在邮件服务器前端,对流经网关的s m t p 流量进行检查,判断邮 件所属类别,如果是正常邮件,则放行;如果是垃圾邮件,则根据系统预先定义 得策略予以处理。本系统由多个识别模块组成,包括:攻击防护检查、邮件头规 则检查、邮件体文本规则检查、基于行为过滤,基于统计信息过滤检查、基于潜 在语义文本过滤、附件图像型过滤及病毒扫描等。 目前,反垃圾邮件技术已经成为学术界和工业界的研究热点,其中基于文本内 容的反垃圾邮件过滤技术独树一帜,成为研究的焦点之一。基于内容的垃圾邮件 识别方法大致可以分成两类:基于概率统计、基于规则的方法【5 】。 基于规则的过滤通常事先建立一系列规则来过滤垃圾邮件,其中的过滤规则 ( 通常各个规则通常采用模型训练获取相应的分数) 是静态的,这其中包含两层 含义:一、规则是静态的。即规则的具体内容是不改变的,这些规则通常是经过 专业反垃圾邮件机构或其它专业人员进行总结归纳的,每一次都是用这些的规则 来判断新到达的邮件是否符合已制定的规则标准:二、规则可能有对应的比如: 每个规则赋值的分数,规则的分数通常是专业人员或机构发布的,在一定条件下 5 电子科技大学硕士学位论文 可以得到比较高的垃圾邮件过滤性能,该分数通常是不会改变的。直至下次训练 之前不再改变,假设要更新时,必须重新对新数据集进行训练获取新的分数或者 更新邮件规则等等。基于规则过滤的主要问题可概括如下:一是采用规则匹配, 特别是大量的正则表达式匹配,对用户的技术要求较高。二是规则的制订总是落 后于垃圾邮件特征的变化,需要不断的调整规则或分数,实时更新代价大;三是 规则过滤的本质还是关键词的判断,垃圾邮件制造者能较容易的分散关键词,绕 开规则过滤峥j 。 基于概率统计的垃圾邮件识别算法着重于寻求邮件内在的概率统计关系,实 现有规律的、自动的识别判断。当前基于内容的垃圾邮件方法中,贝叶斯文本分 类、文本聚类【7 , 8 , 9 】、基于语义的过滤算法【5 , 1 0 , 1 1 , 1 2 】等,其中效果最为明显的是贝叶 斯分类方法【1 3 , 1 4 , 1 5 】。随着垃圾过滤技术的进步,垃圾邮件制造者也采用各种方法来 对付过滤器,达到绕过过滤器的目的。贝叶斯方法从本质上讲是基于词语特征值 进行判断的,这样,垃圾邮件制造者可以在邮件中填充相当数据量的正常词或将 垃圾邮件中的特征词使用标记进行分割或插入,来达到欺骗的目的,从而使过滤 器失效。 最近也有学者提出了基于潜在语义和本体论方式【1 6 , 1 7 】,以及改进的神经网络模 型进行垃圾邮件过滤方式 1 8 , 1 9 】等等,尽管社会各界做了大量的工作,但垃圾邮件 的数量减少减小。来自卡巴斯基的2 0 0 9 年上半年统计数据显示,文本型垃圾邮件 ( 含纯文本和h t m l 文本格式) 占整个垃圾邮件量的7 5 【l 】,因而研究更先进的 文本型垃圾邮件过滤方法势在必行。 调查发现以上垃圾邮件文本过滤方法,不难发现其共同的缺点是:模型的静态 性和数据流到来的动态性之间的矛盾。在现实中,邮件是连续不问断的到达邮件 服务器的,在上述的邮件过滤中,即隐含假定这个前提:垃圾邮件到来是在已训 练模型制定的范围内的。然而这与现实中的邮件流特性是不一致的。已训练的数 据模型中包含的数据分布和特性,当新的邮件到来的时候,邮件特征也许已经超 越了已训练模型中所包含的概念和特性,不断到来的数据可能使当前模型的错误 率极大的提高,严重影响了一个分类器所应尽的职责和范围能力,使已训练的模 型完全失去了价值意义。因此研究一种能不断修正数据模型来适应新到来的邮件 数据流中包含的概念变化和特性的邮件分类方法,显的十分必要。基于概念漂移 的集成学习方法是一种能够不断适应到来数据流的概念变化和数据分布的分类和 预测方法,已在数据挖掘领域取得了不错的应用效果,在分类和预测领域具有较 好的发展前景。 6 v v 第一苹绪论 基于此,本文在分析概念漂移常用训练、分类、预测方法和贝叶斯分类方法 的基础上,将贝叶斯分类方法和实例选择、分类器加权、分类器集成等概念漂移 方法相结合,设计了一种基于朴素贝叶斯邮件分类方法、实例选择、分类器加权、 历史重要特征数据h a s h 的组合方法的垃圾邮件正文过滤。并应用到垃圾邮件过滤 系统中。 1 4 论文的主要工作和创新点 本文的内容是基于8 6 3 项目垃圾邮件关键过滤技术研究和四川省科技厅 省部级项目企业级垃圾信息综合举报系统,本论文的主要工作集中在邮件体 文本分类模块,在分析贝叶斯分类算法和概念漂移中常用的实例选择、分类器加 权、分类器集成的基础上,设计了适应垃圾邮件概念漂移变化的垃圾邮件过滤方 法,并应用于垃圾邮件过滤系统中,取得了较好的对比效果。 本文的主要工作: 1 ) 介绍了垃圾邮件问题的现状,垃圾邮件过滤技术的历史,常见过滤方法的 分类。 2 ) 介绍了文本型邮件过滤要点和朴素贝叶斯文本分类技术。首先介绍了文本 型邮件过滤中通常考虑的要点:分词,词语字典,模型精度,模型适应性等。接 着描述了贝叶斯理论的基本原理,解释了朴素贝叶斯文本分类技术用于垃圾邮 件正文过滤的常见工作原理和模型,最后分析了其优缺点。 3 ) 介绍了概念漂移的基本概念,类型,常用的预测和分类的方法及典型应用 领域。 4 ) 设计了一个基于朴素贝叶斯分类技术和实例选择力口权分类器集成的概念 漂移模型组合垃圾邮件过滤方法。 5 ) 设计了一个基于朴素贝叶斯分类技术和实例选择- 力口权分类器的概念漂移 模型组合垃圾邮件文本过滤系统和关键的实现描述。 6 ) 在中文语料集c c e r t 中的“2 0 0 5 j u l 对比了实例选择_ 力口权分类器集成 组合文本过滤系统和单一朴素贝叶斯分类算法在分类精确度、适应性、不同参 数对模型的精度和适应性的影响。 本文的主要创新点: 1 )组合了朴素贝叶斯算法和实例选择- 力口权分类器集成的适应概念漂移模型。 通过分析了朴素贝叶斯的基本原理和在中文文本分类中的过滤特点,讨论和总 7 电子科技大学硕士学位论文 结概念漂移中的常用分类器模型,将贝叶斯和实例选择- 力口权分类器模型相结 合,应用于垃圾邮件过滤,设计了一个垃圾邮件的文本过滤模型。 2 )对在概念漂移中历史重要数据的重现,通过h a s h 值的方式记录,从而实现 重要的历史数据特性和模型等高价值信息的保存,从而减低了分类器移除,而 重要信息删除的方式,造成精度降低,同时也避免这种邮件的重现,给系统造 成的不必要的开销。 3 )实例选择、分类器加权、集成学习的方法作为概念漂移中常用的三种方法, 本文综合利用了实例选择、分类器加权、分类器集成三种方法来解决概念的问 题,应用在垃圾邮件过滤领域,取得较好的尝试效果。 1 5 论文的章节安排 本文共分七章: 第一章介绍了论文的研究背景、垃圾邮件过滤技术的发展历史、应用新 模型的必要性,本论文的主要工作与创新点; 第二章介绍了中文文本分类中关键点,对贝叶斯的数学基础、文本分类 中的算法应用和其优缺点做了介绍,对数据挖掘领域的概念漂移现象作了 介绍,包括基本概念、类型、常用的解决方案等; 第三章介绍了整个项目框架结构,设计了一个基于朴素贝叶斯文本分类 技术和实例选择_ 力口权分类器集成的组合垃圾邮件过滤算法整体框架、简述 了主要模块的框架流程和目标; 第四章介绍了一个基于朴素贝叶斯分类技术和实例选择- 力口权分类器集成 组合的垃圾邮件过滤系统的设计和实现;描述了各个功能点的流程,并给 出了伪代码形式和其中涉及的参数等。 第五章介绍了概念漂移的测试集和垃圾邮件的测试集,对该系统进行了 测试,展示了传统单个分类器同本文提出的组合集成方法的在精度和适应 性上比对和分析; 第六章是结束语,包括全文总结和下一步的工作及展望。 8 第二章文本过滤基础理论和研究方法 第二章文本过滤基础理论和研究方法 基于内容的垃圾邮件过滤技术是目前最有效且成熟的一类垃圾邮件过滤技 术。其中朴素贝叶斯文本分类算法是该类技术中被广泛使用的技术,其过滤准确 率理论上能达到9 9 t 2 0 1 。同时,垃圾邮件制造者针对朴素贝叶斯文本分类算法使 其弊端越来越明显。将概念漂移解决技术实例选择- 力口权分类器集成的方法应用到 朴素贝叶斯的过滤中,能取得较好的提高分类器精度和较好的模型适应性,有效 的规避了朴素贝叶斯算法的缺点。 2 1文本型垃圾邮件的过滤要点 文本型邮件在这里指的是内容为纯文本或h t m l 通过m i m e 格式编码的邮件体 正文格式。为了使邮件能以文本的形式参与处理,因此需要把编码后的邮件解码 成普通文本【2 1 1 。所谓“编码”是针对邮件的数据部分,包括邮件主题、邮件内容 以及邮件可能携带的附件【2 2 1 。 关于文本型邮件处理过程中的关键点众多( 尤其是中文文本邮件) 。例如:中文 分词,分词字典查找,词语维度,模型精度,模型的适应性等等,任何一个都能 成为较深的研究课题,影响着文本型分类技术的发展,文本型邮件属于已成为一 个较为成熟的研究方向。 2 1 1 中文文本分词 在自然语言处理中,词是最小的能够活动的有意义的语言成分【2 3 1 。分词是从 自然语言中划分出来有独立意义词语的一个过程【2 4 1 。众所周知,在英文的行文中, 空格是天然分界符。而中文只有最简单的句与旬之间的划界( 比如标点符号之类) , 这种以词为基本单位的语言,词语之间不存在分界符。因此中文的分词处理是中 文信息处理的基础和关键。在这个自然语言处理技术的范畴中,语义理解是这个 过程中的第一环节,该模块将语句的核心词提炼出来供语义分析模块使用。分词 算法就是一个如何能够恰当的提供足够多的、有效的词语供分析程序使用的一个 过程【2 4 】。 中文分词方法就是利用计算机对中文文本进行语言识别的算法,经过多年的 9 电子科技大学硕士学位论文 研究,出现了众多的算法。根据其特点,可以将现有的分词算法分为四大类型: 基于字符串匹配的分词算法、基于理解的分词方法、基于统计的分词方法和基于 语义的分词方法【2 5 】。 2 1 1 1 基于字符串匹配的分词方法 这种算法是按照一定的策略将要分析的汉字串与一个“充分大的”机器字典 中的词条进行匹配。若与字典中词语匹配成功,则成功识别出词语。该方法中存 在三个要素:分词字典、文本扫描顺序、匹配原则,其中文本扫描顺序有正向扫 描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、最佳匹配和逐 词匹配【z 4 j 。 基于以上的原则思路,常用的匹配方法有:正向最大匹配( m m ) ,逆向最大 匹配法( r m m ) 、逐词遍历法、设立切分标志法、最佳匹配法( 0 m ) 等。 2 1 1 2 基于理解的分词方法 此种方法的基本思想就是在分词的同时对句子进行句法、句义的分析,利用 句法信息和语义信息来处理歧义现象。当前属于该类方法的主要的分词系统包含 专家分词系统和神经网络分词系统。综合以上两种方法,提出了神经网络专家系 统集成式分词法,该种分类方法的基本思想首先启动神经网络分词,当神经网络 对新出现的词不能给出准确切分时,激活专家系统进行分析判断,依据知识库进 行推理,得出初步分析,并启动学习机制对神经网络模型进行重新训练。该方法 较为充分的发挥了神经网络与专家系统二者的优势,进一步提高了分词的效犁2 5 1 。 2 1 1 3基于统计的分析方法 该方法的基本思想是:词是稳定的组合。在上下文中,相邻字,若同时出现 的次数越多,则就越可能是一个词【2 5 】。因此字与字相邻之间出现的概率或频度能 较好的反映出构成词的可信度。训练样本中对相邻出现的各个字的频率进行组合 统计,并计算相邻词语的互现信息,这种互信息从相当程度上体现了字之间的结 合的关系的紧密程度对构成词语的关系度,当紧密程度高于某一阈值时,便可以 认为该字组构成了一个词。该方法的主要模型有:n 元文法模型、隐m a r k o v 模型 和最大熵模型等。在实际的应用中一般是将其与基于字典的分词方法结合起来, 既发挥匹配分词切分效率高、速度快的特点,又利用统计分词方法结合上下文环 境识别处新词、自动消除歧义的优点。 2 1 1 4基于语义的分析方法 该方法是在语义分词方法中引入了语义分析,对自然语言本身的语言信息进 行了更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合 1 0 第二章文本过滤基础理论和研究方法 匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等等。【2 5 】 2 1 2 词语字典数据结构 2 1 2 1汉字的编码特点 一个汉字使用两个字节来表示,在文本中保存的就是每个汉字对应的两个字 节的编码,常见的编码方式a n s c i i 、g b 2 3 1 2 、g b k 、g b l 8 0 3 0 、u n i c o d e 、u t f 8 、 w i n d o w s 中的a n s i ,而其中最常用的方式是g b 2 3 1 2 编码。g b 2 3 1 2 是中华人民共 和国国家汉字信息交换使用的编码方式,全称为信息交换用汉字编码字符集一 一基本集1 2 6 】,g b 2 3 1 2 收录简体汉字及符号、字母、日文假名等共7 4 4 5 个图形 字符,其中汉字占6 7 6 3 个。g b 2 3 1 2 规定“对任何一个图形字符都采用两个字节 表示,每个字节均采用七位编码 ,习惯上称第一个字节为“高字节 ,第二个为 “低字节 ,如表2 1 所示【2 1 1 。 表2 - 1g b 2 3 1 2 编码范围表 名称第一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 土石方工程材料选择与运输方案
- 牛羊屠宰厂建设项目环境影响报告书
- 风光制氢醇一体化项目节能评估报告
- 国际销售合同4篇
- 2025年叉车考试难题库及答案
- 建筑施工电梯安装、拆除专项建筑施工组织设计及对策
- 上海市房地产经纪合同模板
- 离婚后宅基地房屋分割与继承权处理协议
- 低碳环保社区物业合同转让及绿色生活协议
- 离婚后子女抚养费增加与共同财产分割补充协议
- 学前儿童英语教育与活动指导(学前教育专业)全套教学课件
- 2024年湖南长沙湘江新区所属事业单位招聘12人历年高频考题难、易错点模拟试题(共500题)附带答案详解
- 《电能计量装置安装接线规则》
- 物质与意识的辩证关系
- 网络热梗是否融入现实生活
- IEP个别化教育计划-课件
- 128个自然拼读口诀表打印
- 汽车机械基础 课件 绪论
- 浙江博瑞电子科技有限公司新建年产175吨高纯六氟丁二烯项目环境影响报告书
- 客车检车员-中国铁路兰州局集团有限公司编
- 胖东来收银管理制度
评论
0/150
提交评论