文本分类论文:文本分类 特征提取 文本情感分类_第1页
文本分类论文:文本分类 特征提取 文本情感分类_第2页
文本分类论文:文本分类 特征提取 文本情感分类_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文本分类论文:中文文本情感分类的研究 【中文摘要】文本情感分类是指通过挖掘和分析文本中的立场、 观点、情绪等主观信息,对文本的情感倾向做出类别判断。随着人们 在 Web 中表达自己观点这一现象越来越普遍,针对文本情感分类的研 究也显得越来越重要。文本情感分类的关键技术有网页文本内容提 取、文本表示(向量空间模型、布尔模型、概率模型)、特征提取(文 档频率、卡方统计、互信息、信息增益、期望交叉熵、文本证据权) 以及文本分类器(贝叶斯分类器、支持向量机、KNN、神经网络)。本 文的主要研究内容和工作包括以下几个方面:(1)实现了网页文本提 取技术,并对文本预处理技术进行了研究。在研究从 Web 服务器获取 网页源码技术的基础上,设计了一个正则表达式,以实现网页纯文本 的提取,并设计和实现了向量空间模型表示文本的预处理方法。(2) 设计并实现了基于情感词典的情感句识别算法和基于朴素贝叶斯的 情感句识别算法来进行文本情感主观性分类:前者经过文本预处理、 文本表示,通过与情感词典的比对得到主观句集和客观句集;而后者 经过文本预处理、文本表示、提取特征,最后利用朴素贝叶斯分类模 型得到主观句集和客观句集。实验表明,基于情感词典的情感句识别 算法的分类效果要优于基于朴素贝叶斯的情感句识别. 【英文摘要】Text sentiment classification is automatically classifying sentiment of text by mining and analyzing subjective information in the text, such as standpoint, view, mood, and so on. It becomes more significant as more poeple express their viewpoints on web.The key technologies of text sentiment classification contain text extraction, text representation (vector space model, Boolean model and probability model), feature extraction (document frequency, chi-square statistics, mutual information, information . 【关键词】文本分类 特征提取 文本情感分类 【英文关键词】text classification feature extraction text sentiment classification 【索购全文】联系 Q1:138113721 Q2:139938848 同时提供论文写作一对一辅导和论文发表服务.保过包发 【目录】中文文本情感分类的研究 致谢 5-6 摘要 6-7 ABSTRACT 7-8 1 引言 11- 17 1.1 研究背景 11-12 1.2 文本情感分类 的相关问题 12 1.3 国内外研究现状 12-15 1.4 本文主要研究内容 15-16 1.5 论文的组织和安排 16-17 2 文本情感分类关键技术 17-33 2.1 文本情感分类流程 17 2.2 网页文本内容提取方法 17-20 2.2.1 网页结构分析 18 2.2.2 目前 存在的主要网页文本抽取技术方法 18-20 2.3 中文分 词技术分析 20-22 2.4 文本表示技术分析 22-25 2.4.1 向量空间模型 22-24 2.4.2 布尔模型 24 2.4.3 概率模型 24-25 2.5 特征提取 25-29 2.5.1 文档频率 25-26 2.5.2 卡方统计 26 2.5.3 互信息 26-27 2.5.4 信息增益 27 2.5.5 期望交叉熵 27-28 2.5.6 文本证据权 28- 29 2.6 文本情感分类常用分类器 29-33 2.6.1 贝叶斯分类器 29-30 2.6.2 支持向量机 30 2.6.3 KNN 30-31 2.6.4 神经网络 31 2.6.5 几种分类器优缺点的比较 31-33 3 文本情感分 类算法结构 33-35 4 文本情感主观性分类 35-46 4.1 预处理和文本表示 36-41 4.1.1 从 XML 格式文档 中提取评论信息 37-40 4.1.2 对文本进行中文分词并 去除停用词 40-41 4.2 基于情感词典的情感句识别算 法 41-42 4.3 基于朴素贝叶斯分类模型的情感句识别 算法 42-44 4.4 实验结果分析与比较 44-46 5 文本情感极性分类 46-58 5.1 文本情感极性分类模 型特征选择 46-50 5.2 朴素贝叶斯分类模型的实现 50-52 5.3 KNN 分类器模型的实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论