



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机应用技术论文:基于朴素贝叶斯方法的中文文本分类研究【中文摘要】计算机与网络技术自出现以来,发展迅速,并日趋完善,互联网已成为获取信息的主要来源。由于网络中大部分信息是文本数据,作为有效组织与管理文本数据重要基础的文本自动分类已成为具有重要应用价值的研究领域。基于贝叶斯理论的朴素贝叶斯分类方法具有简单、有效、速度快的优点,成为文本分类算法的重点研究内容之一。本文首先对文本分类涉及到的中文分词、文本向量表示及特征权重计算等关键技术做了比较详细的分析研究;然后针对朴素贝叶斯文本分类的模型以及常用特征选择方法对朴素贝叶斯文本分类的性能影响进行了详细的研究与分析;最后,设计并使用Java在MyEclipse平台上实现了基于朴素贝叶斯方法的中文文本分类系统。本文重点分析了多变量伯努利模型与多项式模型,通过实验对比得出在中文文本分类中多项式模型优于多变量伯努利模型。为了进一步提高分类精度,本文对多项式模型的平滑因子进行了改进,实验表明具有良好的分类效果。由于朴素贝叶斯分类模型是建立在属性之间条件独立性假设之上,因此特征选择的好坏与否对分类精度有较大影响。本文通过实验表明信息增益和2统计量是朴素贝叶斯文本分类较好的特征选择方法。【英文摘要】Since the technology of computer and network appeared, it had been developed very rapidly. Network has becoming one of the most mainly-used information source. Because most of the information in the network is text data type, automatic text categorization which is the important basic of effective organization and management text data has become an important study field. Naive Bayes classification method is based on the Bayesian theory,which is accepted as simple and effective probability classification meth.【关键词】文本分类 朴素贝叶斯分类 多变量伯努利模型 多项式模型 特征选择【英文关键词】Text Categorization Naive bayes classification Multi-variate Bernoulli Model Multinomial Model Feature Selection【目录】基于朴素贝叶斯方法的中文文本分类研究摘要5-6Abstract6第1章 绪论9-141.1 研究背景及意义91.2 文本分类研究现状9-111.3 朴素贝叶斯与文本分类11-121.4 本文的工作121.5 本文的组织结构12-14第2章 文本分类技术14-222.1 文本分类的过程14-152.2 文本向量表示15-192.2.1 文本预处理15-162.2.2 向量空间模型16-172.2.3 特征权重17-192.3 文本分类方法19-202.3.1 决策树分类器192.3.2 k 近邻分类器19-202.3.3 朴素贝叶斯分类器202.3.4 支持向量机分类器202.4 性能评估方法20-212.5 本章小结21-22第3章 朴素贝叶斯分类模型22-323.1 贝叶斯基础理论22-243.1.1 贝叶斯定理22-233.1.2 极大后验假设与极大似然假设233.1.3 事件的独立性23-243.2 朴素贝叶斯分类器24-253.3 朴素贝叶斯文本分类25-283.3.1 朴素贝叶斯文本分类算法25-263.3.2 多变量伯努利模型26-273.3.3 多项式模型27-283.3.4 两个模型的区别283.4 朴素贝叶斯分类器的改进28-293.5 实验设计与结果比较29-313.5.1 实验1:多项式模式与多变量伯努利模型比较29-303.5.2 实验2:改进后的多项式模型与多项式模型比较30-313.5.3 实验小结313.6 本章小结31-32第4章 选择性朴素贝叶斯方法32-404.1 常用的特征选择方法32-354.1.1 文档频率324.1.2 信息增益32-334.1.3 2 统计量33-344.1.4 互信息34-354.2 实验设计与结果分析35-384.3 特征选择实验比较38-394.4 本章小结39-40第5章 朴素贝叶斯文本分类的设计与实现40-425
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民爆行业安全培训内容课件
- 民法课件模板
- 民法合同课程讲解课件
- 初一历史期末考试及答案
- 报关实务考试题库及答案
- 新质生产力与传统产业的融合
- 民族资产阶级革命课件
- 医护家属关系管理
- 新质生产力的多元主体
- 促进新质生产力发展的关键举措
- 2025年中国电信招聘考试行政职业能力测试预测题集
- 静脉治疗知识培训课件
- 学风建设科研诚信宣教课件
- 《机械制图(多学时)》中职全套教学课件
- 2024过敏性休克抢救指南(2024)课件干货分享
- 胸心外科常见病诊疗
- 高中数学 人教A版 必修一 《集合与常用逻辑用语》 1.2 集合间的基本关系
- GB/T 3452.2-1987O形橡胶密封圈外观质量检验标准
- 部编版三年级语文上册第2课《花的学校》精美课件
- 遥感大数据应用解决方案课件
- (精选word)洪恩识字-生字卡片1-200
评论
0/150
提交评论