



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文文本分类中特征选择方法的应用与研究【摘要】 文本分类技术可以用来帮助人们从海量的信息中获取有用信息,它已经得到了广泛地研究和应用。文本分类就是将一些未知的文本与预先定义好的文本类别相互比较,如果这个未知的文本与已知文本类别中的一些类别互相对应时,那么这个未知文本就属于所对应类别的文本。在文本分类中,影响分类效果的一个比较重要的因素是特征选择。特征选择就是在原始特征集中选出最有代表性的一些特征,它可以降低特征维数。在文本领域中,特征选择的必要性在于它可以使分类任务更加有效与准确。本文通过分析与比较,指出了传统的卡方统计法的缺点。一方面它仅仅只关心特征词在全部文本而不是一篇文本中所出现的次数,这就降低了最终分类的准确率;另一方面它只关心出现次数特别多的特征词,如果在研究的类别中,特征词出现比较少时,还选用这些特征词的话,分类的效果就会不准确。为了解决卡方统计法本身的缺点,本文通过频度思想对其进行了改进,并通过K-近邻算法与支持向量机算法,对改进的方法进行了验证。另外,本文还提出了一种比较新的特征选择方法,此方法在中文分类系统中还没有得到广泛地应用,可以作为今后研究的一个方向。最后本文构造了一个中文文本分类系统,它的各个模块之间是互不.更多还原【Abstract】 Text categorization technology can be used to help us obtain some useful information from numerous information, it has already been widely studied and been used. Text categorization is to compare some unknown text with some pre-defined classes. If the unknown text matches the one or more known classes, then we say the unknown text belongs to the corresponding classes.In text categorization, feature selection is one important factor which affects the effect of text categorization. Feature selecti.更多还原 【关键词】 文本分类; 特征选择; 卡方统计; K-近邻; 支持向量机; 【Key words】 text categorization; feature selection; CHI statistic; KNN; SVM; 【索购全文】Q联系Q:138113721 Q联系Q: 139938848付费即发目录摘要 3-5 ABSTRACT 5-6 第一章 绪论 10-14 1.1 论文研究背景及意义 10-11 1.2 文本分类的研究现状 11-12 1.3 论文的主要工作 12 1.4 论文组织结构 12-14 第二章 文本分类技术及应用 14-28 2.1 文本分类问题的概述 14-15 2.2 文本分类的特性 15 2.3 文本分类的文本集 15 2.4 文本分类的方法 15-16 2.5 文本分类的过程 16-25 2.5.1 文本表示 17-18 2.5.2 文本预处理 18-19 2.5.3 特征提取 19-22 2.5.4 训练或构造分类器 22 2.5.5 测评 22-25 2.6 文本分类的应用 25 2.7 本章小结 25-28 第三章 文本分类算法 28-36 3.1 K-近邻算法 28-30 3.2 支持向量机算法 30-34 3.2.1 线性可分的支持向量机 30-31 3.2.2 线性不可分的支持向量机 31-32 3.2.3 非线性支持向量机 32-33 3.2.4 多类支持向量机 33-34 3.3 本章小结 34-36 第四章 特征选择及特征选择方法的研究 36-44 4.1 特征选择与特征抽取区别 36-38 4.1.1 特征选择 36-37 4.1.2 特征抽取 37-38 4.2 研究特征选择的作用 38 4.3 特征选择方法的定义 38 4.4 常用的特征选择方法 38-42 4.4.1 文档频率 39 4.4.2 信息增益 39-40 4.4.3 互信息 40 4.4.4 卡方统计法 40-42 4.4.5 特征强度 42 4.4.6 优势率 42 4.4.7 文本证据权重 42 4.5 特征选择方法的比较 42-43 4.6 本章小结 43-44 第五章 CHI统计法的改进及一种新的特征选择方法 44-48 5.1 CHI特征选择方法的缺点及改进 44-45 5.1.1 CHI统计法的缺点 44 5.1.2 CHI统计法的改进 44-45 5.2 二元正态分离的特征选择方法 45 5.3 文本分类系统设计 45-47 5.3.1 文本分类系统流程图 45-46 5.3.2 文本分类系统的模块 46-47 5.4 本章小结 47-48 第六章 实验及结果分析 48-62 6.1 文本分类实验 48-51 6.1.1 文本集选择 48 6.1.2 实验过程 48-51 6.2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 田径普修理论期末考试题及答案
- 土壤水势与气候变化关系-洞察及研究
- 职业装耐久性评价模型-洞察及研究
- 2025年公需科目大数据考试所有测试题及答案
- 2025年高危儿培训试题及答案
- 2025年高级维修电工理论知识题库及答案
- 2025年高级会计师之高级会计实务通关题库附带答案
- 交安考试考试题库及答案
- 专职营销人员管理办法
- 中央防洪物资管理办法
- 四年级英语 4AM3U2 Around my home同课异构
- 超限货物运输安全
- 2024年江苏省对口单招英语试卷及答案
- 循环经济的环保意义
- 国家临床版3.0手术操作编码(ICD-9-CM3)
- 小学一年级上册体育全册教案
- GB/T 42866-2023煤化工废水处理与回用技术导则
- 2024年高考法语核心词汇全突破
- 病原生物与免疫学知识点
- 高等数学高职PPT完整全套教学课件
- 中国滑雪协会
评论
0/150
提交评论