



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘论文:文本分类的属性选择与多标记转换方法研究【中文摘要】随着信息技术的迅速发展和普及,文本信息呈现爆炸式增长趋势.海量的文本信息使人们迫切需要文本分类技术来节约人力与财力,提高分类效率.因此,文本分类技术成为一项目趋重要的研究课题.本文的研究是提升文本分类的效果.为了实现这个研究,本文从属性选择及多标记转换方法两个方面展开了深入的研究,取得了一些研究成果.首先,本文对文本分类问题所涉及到的分词处理、特征表示、特征提取、分类算法、性能评价等5个相关步骤进行了技术上的综述,并通过系统设计与实现阐述了文本分类的整个过程.在此研究基础上,对属性选择和多标记指派模型分别展开了深入的研究.其次,对于属性选择问题,通过研究和实验指出了现有属性选择算法的不足,利用限制文档分布率过滤了高频噪声词,并提出了将词频与文档频率相结合的综合评价策略.基于文档频率、信息增益、互信息、2估计法等属性选择方法,利用所提出的综合评价策略进行了改进,通过对比实验分别验证了使用所改进的4种属性选择方法比原始方法可以获得更好的分类效果.第三,多标记分类是文本分类领域中重要与复杂的问题.本文深入研究了多标记文本分类建模和学习方式,并对各种多标记转换方法进行了分析与比较,针.【英文摘要】Textual data have been increased sharply with the rapid development of information technology. People have to save their manpower and financial resources by using text classification technology. Therefore, text classification research has become more and more important. The purpose of this paper is to enhance the performance of text classification. In order to achieve this goal, we choose two issues to study which are the feature selection and the transformation for multi-label textual data. We also achieve.【关键词】数据挖掘 文本分类 属性选择 多标记文本【英文关键词】Data Mining Text Classification Feature Selection Multi-label Document【目录】文本分类的属性选择与多标记转换方法研究致谢5-6摘要6-7ABSTRACT7-81 引言12-161.1 研究背景12-131.2 研究意义13-141.2.1 属性选择131.2.2 多标记学习13-141.3 本文主要研究工作141.4 本文组织结构14-162 文本分类相关技术16-332.1 分词处理17-202.1.1 词的界定17-182.1.2 去除停用词182.1.3 词干抽取182.1.4 词语切分18-192.1.5 分词工具19-202.2 特征表示20-232.2.1 特征表示模型20-212.2.2 权值计算21-232.2.3 不同权值计算方法的比较232.3 特征提取23-252.3.1 特征抽取242.3.2 特征选择24-252.4 分类算法25-292.4.1 基于规则的方法252.4.2 基于统计的方法25-292.5 性能评价29-322.5.1 正确率292.5.2 召回率29-302.5.3 F-测度值302.5.4 微平均和宏平均30-312.5.5 BEP测度值312.5.6 11点平均正确率31-322.6 本章小结32-333 属性选择方法及改进33-433.1 属性选择方法33-363.1.1 文档频率33-343.1.2 信息增益343.1.3 交叉熵方法343.1.4 互信息34-353.1.5 2估计353.1.6 文本证据权35-363.2 常见属性选择方法的分析及不足36-373.2.1 属性选择方法分析与比较363.2.2 现有方法的不足36-373.3 对属性选择的改进37-403.3.1 改进算法的整体思想38-393.3.2 改进的文档频率法393.3.3 改进的信息增益法39-403.3.4 改进的互信息法403.3.5 改进的2估计法403.4 算法描述40-413.5 本章小结41-434 多标记文本转换方法及改进43-524.1 多标记数据的建模和学习434.2 多标记指派模型43-504.2.1 全标记指派模型444.2.2 无标记指派模型444.2.3 最大标记指派模型444.2.4 最小标记指派模型44-454.2.5 标记幂集模型454.2.6 基于熵的标记指派模型45-504.5 算法描述504.6 本章小结50-525 实验设计及结果分析52-625.1 实验环境及工具52-535.2 实验数据处理53-565.2.1 Reuters-2157853-555.2.2 RCV155-565.3 属性选择实验结果与分析56-585.3.1 属性选择实验结果56-585.3.2 属性选择结果分析585.4 多标记转换实验结果与分析58-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025有担保分期付款合同
- 车间安全培训宣传稿课件
- 车间安全培训周志内容课件
- 脊柱损伤和腰椎骨折课件
- 工程建设实施方案意义(3篇)
- 2025年发布电子商务合同模板
- 株洲钢结构工程检测方案(3篇)
- 工程套装搭建方案设计(3篇)
- 噪声工程设计方案(3篇)
- 深度解读2025年半导体材料国产化过程中的知识产权保护
- 2025年全国企业员工全面质量管理知识竞赛答题(含答案)
- 乡村振兴志愿服务技能大赛参考试题库(含答案)
- 碧桂园山营销示范区区抢工宝典课件
- 上海市环卫作业养护预算定额经费
- 钎焊工艺有关标准
- 高校电子课件:金融风险管理(第五版)
- 会议组织与服务完整版教学课件全书电子讲义(最新)
- DB51∕T 2502-2018 中国川菜烹饪技术用语及菜名翻译规范
- 国外期刊运作的主要模式及发展趋势
- 区域性再生资源集散市场实施方案
- 《幼儿园大班第一学期家长会》 PPT课件
评论
0/150
提交评论