




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、垃圾邮件分类算法的研究与分析西北工业大学计算机学院陕西西安710129(SchoolofComputer,NorthwesternPolytechnicUniversityXi'an710129China)摘要:随着互联网的高速发展,电子邮件已经成为人们信息获取和信息交流的一个重要的渠道。与此同时垃圾邮件也成为互联网上的一个日益严重的安全问题,引起了越来越多的社会大众和研究人员的重视和关注。为了有效的分辨垃圾邮件,本文通过对训练数据进行相应的预处理及特征提取,分别使用朴素贝叶斯、C4.5决策树、支持向量机三种方法来对垃圾邮件进行分类,通过测试结果,比对各个分类算法的优劣,并进行了详细的
2、分析。关键词:垃圾邮件朴素贝叶斯C4.5决策树支持向量机Abstract:WiththerapiddevelopmentoftheInternet,e-mailplaysanimportantrolesinpeople'sinformationaccessandinformationexchange.Atthesametime,spamhasbecomeanincreasinglyserioussecurityproblemontheInternet,causingmoreandmoreattentionofthecommunityandresearchers.Inordertoeff
3、ectivelydistinguishthespam,thispaperPre-processingsandextractsfeatureofthetrainingdata,andusestheNaiveBayes,C4.5DecisionTreeandSVMtoclassifythespam,Throughthetestresults,compareandanalysistheadvantagesanddisadvantagesofeachclassificationalgorithm.Keywords:spamNaiveBayesC4.5DecisionTreeSVM1引言Internet
4、的问世带来了电子邮件业务的出现,网络技术的飞速发展促进了邮件服务的广泛普及及繁荣,电子邮件已经成为生活在信息时代的人们日常生活一个重要部分。电子邮件不仅是一个信息交流的重要渠道,而且也是人们信息获取的重要途径之一。随着互联网的普及,不仅人们的日常事务可以通过电子邮件来进行处理,而且越来越多正式和重要的信息也通过电子邮件来进行传达和交流。随着电子邮件越来越普及和重要性的持续增长,一些商家和不法分子开始利用垃圾邮件这种方式来进行广告信息的传播和用户消费行为信息的获取。根据无线服务机构WirelessServicesCorporation公司提供的一份最新调查显示,目前美国移动通信市场上所有的电子邮
5、件服务当中,43%的都是垃圾信息,而年前垃圾邮件在电子邮件中的比例为18%。而在国内,据有关部门统计,国内的电子邮件用户,平均每天发送的短信数量超过了3亿条。邮件甚至被称为继报纸、广播、电视、网络之后的第五媒体。不过在数量庞大的电子邮件背后,垃圾邮件的问题也愈加严重。垃圾邮件可以说是因特网带给人类最具争议性的副产品之一,它的泛滥已经使整个因特网不堪重负,人们不得不花费大量时间来对付邮箱里的垃圾邮件。在这样的情势下,制定切实可行的反垃圾邮件方案无疑是Internet的一个重要课题,而对于反垃圾邮件技术的研究也称为一个新的热点领域。本文根据现有邮件分类的知识,结合训练数据集的特点,选择合适的分类算
6、法,来实现对垃圾邮件的分类。2相关工作本文垃圾邮件的分类工作主要包括以下三个部分:文本数据预处理,数据集特征选择,分类算法的应用及结果分析。2.1 文本数据预处理根据提供的训练数据集及测试数据集,编写程序,提取数据集中所有单词及对应的频率,并更改数据格式,以矩阵的形式存储。初步处理过后的训练数据集Pre-train1.csv第一行表示数据集中出现的所有单词、字母和数字属性共1000个,第2-9001行代表之前的9000条邮件训练数据集,对应第一行的单词,存储了每个单词出现的频率。Pre-train1.csv最后一列添加了label标签,表明每一条数据的属性,ham或spam。在Pre-trai
7、n1.csv的基础上,我们开始对数据集中的属性进行筛选,去掉统计出来的单个字母,纯数字,以及无意义词汇属性143条,得到最终的数据集Pre-train2.csv共包含857个可靠单词属性,如图1所示,基于Pre-train2.csv数据集,我们进行后续的特征提取。kariTHn-Jj;itile土Ar1!匚七比七lab-L&00a0hitD口L00口020tjBL6bG000dGhai.060gJQ0l-.btD口00QQ0_l10D0Qqqa0EiBL0b0曲d0d0q0200oQQ0SJiiii10QQ00u0DD0d0a0g0融>00trit、0D000Q砂n0D00q00
8、000Q0安0Qq0中小0D0屯00000000000Q00WILL-006*中fcQQu0PouQqOqq找耳彳DD003t0d0口0i100mt图1数据集格式2.2 特征提取2.2.1 婿与信息增益燧是信息理论中一个非常重要的概念,表示任何一种能量在空间中分布的均匀程度,能量分布越均匀,越不确定,®就越大。Shannon将婿应有于信息处理,提出了“信息婿”的概念。信息婿是信息的量化度量,是衡量一个随机变量取值的不确定性程度令X为随机变量,如果X随机变量的变化越多,通过它获取的信息量就越大,X的信息婿定义为:H(X)=-£p(Xi)lb(p(x)(2-1)通过观察随机变量
9、Y获得的关于随机变量X的信息婿定义为:H(X|Y)=-£p(yi)£p(x|y)lb(p(x|yj)(2-2)信息增益是信息燧的差,表示在消除不确定性后获得的信息量,定义为:IG(X,Y)=H(X)H(X|Y)(2-3)信息增益是信息论中的一个重要概念,被广泛应用在机器学习领域。对分类系统来说,计算信息增益是针对一个一个的特征项而言的,它通过统计某一个特征项t在类别C中出现与否的文档数来计算特征项t对类别C的信息增益1,定义为考虑出现前后的信息:W之差,某个特征项的信息增益值越大,表示其贡献越大,对分类也越重要。因此,在进行特征选择时,通常选取信息增益值大的若干个单词构造文
10、本的特征向量。本文中,训练数据集中有857个属性,全部参与训练效率过低,因此需要提取出有代表性的词汇,故选用信息增益的方式来从数据集中提取特征。将处理过后的训练数据集导入到WEKA软件中,并在预处理阶段使用AttributeSelection界面中InfoGainAttributeEval来进行信息增益特征提取,同时,将提取出来的特征属性按信息增益由高到低进行排列,结果如图2所示:1 酬加0j-m3 3WHIP4 二*irW5 二mailman6 二amlprB.Hfir*加d日二StiE9msmifltp10 _Mcnr-Dlcits11 ulner12 BITSHalDT13 _Jrshi
11、xi14 .minwolt15 7?rntp&vc16 Rtgi二d17 MIA1iejuin191dasB520-kflk信息增益特征提取结果400的单词作为最终的训练集,并生成Pre-train(3).arff数据图2根据特征提取结果,选择信息增益排列前集文件。3算法实验与分析实验部分采用自主程序设计和WEKA数据挖掘工具相结合的方法,利用经过预处理的训练集,编写MATLAB程序进行垃圾邮件分类,同时,利用WEKA软件中提供的多种常用的分类算法,进行实验。最后对各种分类方法的优劣进行总结。3.1 朴素贝叶斯算法朴素贝叶斯分类器2是一种有监督的学习方法,其假设属性的值对给定类的影响而
12、独立于其他属性值。用贝叶斯网表达朴素贝叶斯的分类器如图3所示。图3朴素贝叶斯网朴素贝叶斯后验概率网的计算公式如式(3-1)P(C=Ck|X=x)=P(X=x|C=c"(C=cQP(X=x)(3-1)其中X表示单词序列,C表示分类。其中P(X=x|C=ck)的计算公式如式(3-2)P(X=x|C=ck)=一:P(Xi|C=ck)(3-2)则分类结果C的选择方式为式(3-3)C=argmax(P(C=g|X=x)(3-3)实验部分使用两种方法来实现贝叶斯分类算法,分别是MATLAB编写程序和WEKA平台提供的NaiveBayes算法。MATLAB程序中,根据朴素贝叶斯公式,使用经过预处理
13、的4000条数据作为训练集,实验结果如表1所示:表1基于MATLAB勺朴素贝叶斯实验结果/40001500.0970在WEKA件中,使用9000条数据,400条属性作为训练集,在Classify条目下选择NaiveBayes分类算法,并选择Suppliedtestset作为训练模型评价方法,实验结果如表2所示:表2基于weka平台的朴素贝叶斯分类算法实验结果hamspamtotalham16951420spam61519580total23057010003.2 C4.5决策算法C4.5算法是目前最具影响的决策树算法,已广泛应用于数据分类领域,C4.5算法是在ID3算法的基础上改进过来的,不仅
14、可以处理离散型描述属性,还可以处理连续性属性。C4.5算法采用信息增益率作为选择分枝属性的标准,弥补了ID3算法在使用信息增益选择分枝属性时偏向于取值较多的属性的缺陷。作为ID3算法的改进算法,C4.5算法克服了ID3算法的两大缺点:(1) ID3算法使用信息增益作为评价标准来选择根节点和各内部节点中的分枝属性,信息增益的缺点是倾向于选择取值较多的属性,在某些情况下这类属性可能不会提供太多有价值的信息,而C4.5算法采用信息增益率作为评价标准,克服了ID3算法的这点不足;(2) (2)ID3算法只能处理描述属性为离散的数据集,而C4.5算法既可以处理离散型描述性,又可以处理连续型描述属性。C4
15、.5算法也是一种基于信息论的机器学习方法,其核心思想是通过分析训练数据集,在整个数据集上递归地建立一个决策树。使用WEK徽据挖掘软件提供的C4.5算法进行分类,实验结果如表3所示表3C4.5决策树算法实验结果hamspamtotalham4119420spam11569580total42257810003.3 支持向量机算法支持向量机算法简称SVM(SupportVectorMachine)算法4,该算法建立在统计学习理论中的VC维和结构风险最小化基础之上,并结合最优化理论来得到分类决策函数的分类算法。其基本思想是寻找一个分类超平面,将两类样本分到超平面的两侧他在解决非线性问题、高维模式识别
16、问题等许多问题中显示出许多优势,是统计学习理论中比较实用的算法之一,目前已在人脸识别、手写数字识别、文本分类5、信息检索等领域得到成功应用。支持向量机的数学模型如式(3-4)和式(3-5),该模型保证在满足条件下,超平面距离各样本点距离最大。一1min一(3-4)(3-5)w,b2s.t.yi(wTxi-b)_1,i=1,2,.n利用WEK软件实现支持矢量机(SMO算法的实验结果如表4所示表4支持向量机算法实验结果hamspamtotalham40317420spam13567580total41658410003.4 实验结果评价与分析3.4.1 实验评价方法测试邮件集合中垃圾邮件、非垃圾邮
17、件的数量分别是Ns、Nh,垃圾邮件中正确分类和被错分的邮件数量分别为Nss、Nsh,非垃圾邮件中被正确分类和被错误分类的邮件数量分别为Nhh、Nhs,则垃圾邮件识别算法的性能可以根据以下几个指标进行衡量。(1)垃圾邮件召回率(recall)垃圾邮件样本集中能被算法正确分类的样本所占比例,记为r,定义如式(3-6)ssNssNsh100%(3-6)可见当垃圾邮件召回率反应了算法对垃圾邮件的检测能力,该值越大说明检测能力越强,被遗漏的邮件越少。(2)垃圾邮件识别准确率(precision)被正确识别分类的邮件数占所有样本的比例,记为p,定义如式(3-7)(3-7)NssNhhp二NsNh准确率反应
18、邮件被正确分类的概率,准确率越高,说明被错误分类的邮件数量就越少。3.4.2 实验结果分析MATLAB写程序实现的朴素贝叶斯算法结果与WEKA平台的实验结果存在一定的差异,对比结果如表5所示表5基于MATLAB勺朴素贝叶斯实验结果算法实现环境准确率MATLAB0.903WEKA平台0.888实验结果存在差异的原因在于MATLAB1序仅仅是单纯使用朴素贝叶斯公式来进行结果计算,未考虑数据集中的噪音等因素,WEK台的算法包括更进一步的预处理,噪音数据去除,以及算法的优化,导致实验结果的准确率低于MATLAB®序结果o基于WEKAF台提供的三种分类方法,对比结果如表6所示表6三种算法分类效果对比准确度召回率支持向量机97.0%97.8%8.24sC4.5决策树98.0%98.1%4.12s朴素贝叶斯88.8%89.5%0.87s对比三种分类方法的实验结果,可以发现朴素贝叶斯分类算法的准确率和召回率最低,C4.5决策树的准确率和召回率最高,在执行时间方面,朴素贝叶斯所需的执行时间最短,支持向量机的执行时间最长。4总
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安全评价师(中级)职业技能鉴定安全检测案例分析试题
- 2025年文职人员招聘考试公共科目试卷四十三:军事装备维护
- 2025年征信数据分析挖掘考试题库:征信数据分析挖掘项目评估标准
- 2025年会计职称考试《初级会计实务》章节重难点突破实战案例与解析试题
- 2025年聚碳酸酯(PC)及合金项目立项申请报告
- 2025年锻造工(高级)职业技能鉴定真题分析与备考
- 2025年德语TestDaF阅读真题试卷:德语阅读能力全面训练卷
- 2025年对外汉语教师资格证考试课程与教学论试题
- 宠物食品分销协议
- 个人工资增长证明书年收入增长证明(5篇)
- 2025年连云港市中考语文试卷真题(含标准答案及解析)
- 2025-2030年中国期货行业市场深度调研及竞争格局与投资策略研究报告
- 2025-2030年中国农业科技行业市场深度调研及前景趋势与投资研究报告
- 成人重症患者颅内压增高防控护理专家共识
- 2025至2030年中国肿瘤治疗行业市场发展潜力及前景战略分析报告
- 危险化学品-经营安全管理制度与岗位操作流程
- 2024年河南省豫地科技集团有限公司招聘真题
- 2025年高考语文真题作文深度分析之全国二卷作文写作讲解
- 湖南省2025年农村订单定向本科医学生培养定向就业协议书、健康承诺书、资格审核表
- (2025)党内法规知识测试题库及答案
- 餐饮老人临时用工协议书
评论
0/150
提交评论