


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于SVM的中文垃圾邮件的识别研究【摘要】:随着Internet的迅猛发展,电子邮件作为一种主要的交流方式已得到了广泛应用。但是,许多商业广告、宣传广告、恶作剧等垃圾邮件也在网络中传送,这些垃圾邮件占据了邮件服务器的大量存储空间,同时也需要用户花费大量时间处理,不仅降低了企业的应用效率,也损害了广大用户的合法权益。因此,如何对中文邮件进行处理,识别出垃圾邮件是用户关心的一大问题。目前某些研究中已采用一些技术进行垃圾邮件的特征提取与识别,但这些技术都存在一定的不足,且在中文垃圾邮件的识别上仍存在问题。因此,研究一种有效的方法用于中文垃圾邮件的识别具有十分重要的意义。数据挖掘中的支持向量机分类方法是一种基于统计学习理论的机器学习方法,该方法在解决有限样本、非线性及高维模式识别问题中表现出许多特有的性能。另外,支持向量机在文本分类领域方面的研究已取得令人满意的效果。针对目前中文垃圾邮件识别技术的不足,本文在支持向量机分类算法的启发下,深入研究了中文垃圾邮件的序列极小化特征提取算法,提出了应用该算法进行中文垃圾邮件识别的过程,该过程分为三个阶段:(1)利用改进的正向最大匹配法对中文邮件文本进行分词;(2)运用向量空间模型把分词后的文本转化为向量形式;(3)采用序列极小化特征提取算法对中文垃圾邮件进行识别。另外,本文还对当前比较通用的各种支持向量机训练算法进行了分析研究,比较了各种算法的优劣,尤其深入研究了序列最小最优化算法,并运用特征提取的序列极小化算法对中文邮件文本进行特征提取。本文通过对中文垃圾邮件自身特点分析,针对其特征维数高的特点,运用支持向量机中的特征提取序列极小化算法对中文垃圾邮件进行特征识别,挖掘出能够识别中文垃圾邮件的特征。同时,对有限的模拟测试样本集进行了测试,取得了比较满意的结果,表明此方法适用于中文垃圾邮件的识别。【关键词】:中文垃圾邮件特征提取支持向量机序列极小化【学位授予单位】:山西财经大学【学位级别】:硕士【学位授予年份】:2006【分类号】:TP393.098【目录】:摘要6-7Abstract7-121引言12-161.1研究背景及选题意义12-131.1.1研究背景121.1.2选题意义12-131.2研究现状13-151.2.1反垃圾邮件技术13-141.2.2支持向量机的研究14-151.3主要内容及框架结构15-161.3.1主要内容151.3.2框架结构15-162中文邮件相关知识16-212.1电子邮件的特点16-172.2中文垃圾邮件的概念17-182.3中文垃圾邮件识别过程及相关技术18-212.3.1中文垃圾邮件识别过程182.3.2相关技术18-213中文邮件文本分词预处理21-263.1中文文本自动分词213.2自动分词词典机制21-223.3基于词典的分词方法改进的正向最大匹配法22-263.3.1改进的正向最大匹配法算法思路22-233.3.2算法实现过程233.3.3实验与分析23-264中文邮件向量空间模型26-314.1向量空间模型264.2特征项26-314.2.1特征项的权值26-274.2.2向量空间的降维27-304.2.3实验与分析30-315支持向量机分类算法31-455.1统计学习理论31-325.1.1直观相似程度与内积31-325.1.2经验风险最小化归纳原则325.2支持向量机算法原理32-365.2.1线性可分支持向量机33-355.2.2线性不可分支持向量机35-365.2.3线性支持向量分类机算法365.3支持向量机训练算法36-455.3.1选块算法37-385.3.2分解算法38-405.3.3序列最小最优化算法40-456中文垃圾邮件的识别45-506.1中文垃圾邮件特征提取模型的设计45-476.1.1训练集的选取466.1.2算法选择466.1.3核函数的选取46-476.2中文垃圾邮件特征提取与识别47-506.2.1数据资源476.2.2结果分析47-507结论与展望50-517.1结论507.2展望50-51参考文献51-53附录一中文邮件文本分词部分程序代码53
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中山市中石油2025秋招笔试模拟题含答案市场营销与国际贸易岗
- 中国联通深圳市2025秋招技术岗专业追问清单及参考回答
- 阿克苏市中石油2025秋招面试半结构化模拟题及答案安全环保与HSE岗
- 大唐电力绵阳市2025秋招面试专业追问及参考综合管理岗位
- 大唐电力通化市2025秋招笔试题库含答案
- 临汾市中石油2025秋招面试半结构化模拟题及答案法律与合规岗
- 滁州市中石化2025秋招面试半结构化模拟题及答案市场营销与国际贸易岗
- 毕节市中石油2025秋招面试半结构化模拟题及答案炼油设备技术岗
- 大唐电力大兴安岭地区2025秋招能源与动力工程专业面试追问及参考回答
- 保山市中石油2025秋招笔试模拟题含答案法律与合规岗
- 购车没过户协议书
- 转让店铺欠款协议书
- 《建筑电气安装》课件
- 《山东省房屋市政施工安全监督要点》及《安全监督“二十要”》2025
- 2025年湖南环境生物职业技术学院单招职业技能考试题库带答案
- 生物安全管理体系文件
- 河道疏浚外运施工方案
- 银行职业介绍课件
- 辽宁省盘锦市大洼区田家学校2024-2025学年九年级上学期第四次质量检测语文试卷
- 砖砌围墙施工方案
- 《人工智能导论》(第2版)高职全套教学课件
评论
0/150
提交评论