下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于评论文本的情感分析研究 任高山 韩友德【摘 要】论文基于评论文本语料信息提出word2vec模型与doc2vec模型与机器学习相结合比较的评论文本情感分析模型,经过实验的对比验证,结果表明了论文提出的方法能够有效提高分类准确率、精确度、召回率。【abstract】based on the corpus information of comment text, the paper puts forward the emotional analysis mode of comment text from the combination an
2、d comparison of word2vec mode and doc2vec mode and machine learning. through the experimental comparison and verification, the results show that the proposed method can effectively improve the accuracy, precision and recall of classification.【关键词】机器学习;word2vec;doc2vec;情感分析【keywords】machine learning;
3、 word2vec; doc2vec; emotional analysistp391 【文献标志码】a 1673-1069(2018)05-0062-021 引言文本情感分析是指分析作者在传达信息时所隐含的情绪状态,对作者的意见进行判断或者评估,给出作者态度是褒义、贬义的结论。企业和商家面对用户的大量情感评论信息,可以不断挖掘有倾向的数据,统计用户对消费产品的反馈,向消费者推荐潜在消费品等用途。本文的结构是这样组织的:第一部分介绍了情感分析的相关研究现状;第二部分对情感分析语料文本的预处理进行了概要阐述;第三部分对不同的特征提取模型和不同的机器学习分类算法做出了实验验证,并对结果进行了详细的
4、分析;第四部分给出了结语。2 相关研究现状基于词向量表征模型,mikolov提出了一种基于神经网络学习方式将词语映射成连续(高维)向量的word2vec算法1,利用中心词及其上下文建立局部词嵌入窗口模型,用以进行词语特征向量的优化训练1。词向量具有良好的语义特性,是表示词语特征。基于word2vec,le和mikolov等人2提出了doc2vec方法作为一个处理可变长度文本的总结性方法。除了在增加一个段落向量以外,doc2vec几乎等同于word2vec。相比于word2vec,doc2vec优势在于训练出每一篇文本的向量,更能全面理解文本的语义特征。3 文本预处理的技术对于语料文本信息需要进
5、行文本预处理,主要包括规范编码格式、文本分词等步骤。规范编码格式,对于评论语料,通常情况下,会统一存储为规范的编码格式,如utf-8格式等。文本分词,文本的单词将会被后续分类操作中作为特征来表征文本,文本分词是否正确、高效直接影响后续实验结果。python中文分词组件jieba,可以实现分词、添加自定义词典、关键词提取、词性标注、并行分词等功能,在全模式下,速度可达到1.5mb/s,本文采取的便是jieba分词。4 关于doc2vec模型原理概述doc2vec是一个无监督框架,学习文本段落的连续分布向量表示。文本可以是可变长度的从句子到文档。该方法可以应用于可变长度的文本,任何从短语或句子到大
6、型文档。doc2vec 有两种模型:distributed bag of words(dbow)和distributed memory(dm), 分别对应 word2vec 中cbow 与skip-gram。以文本短句“the cat sat on mat”为例,其模型结构如图1所示。在训练过程中,文本片段 paragraph 的id保持不变,共享着同一个段落向量(即“the cat sat on mat”的向量表示)。dm在给定上下文和段落向量的情况下预测中心单词的概率;dbow则在仅给定段落向量的情况下预测段落中一组随机单词的概率。针对概率的目标函数,dm与dbow利用随机梯度下降进行词向
7、量与段落向量的联合更新2。5 实验结果及分析5.1 实验数据集及误差评估标准本文采用的是谭松波教授整理的酒店评论语料正负平衡语料各3000个和标记好的淘宝网商品评论好评与差评的语料,正向标记文本共17696个,负向标记文本13428个,数据类型为短文本,用以研究情感分析分类的特征选择算法及分类算法。本文在评价分类器效果时,引入了信息检索中的混淆矩阵:传统的准确率计算公式就是考虑精确度accuracy,考量了分类器对于两个类别的总体的分类效果,由于其在不平衡样本中效果不好,所以提出了精度(precision)和召回率(recall)这两个。本文采用一种f-measure检验的方法。f=2
8、3; (1)式1是经常用到的f1指标,本文采用精确度、召回率、f1值来评估实验结果。5.2 实验实验针对正向标记文本共17696个,负向标记文本13428个建立词向量,选择80%的数据作为训练集,20%的作为测试集,先对标记语料进行文本预处理工作,然后分别采用word2vec的cbow(continuous bag of words, cbow)型和doc2vec的dbow(distributed bag of words, dbow),同时分别采用支持向量机(support vector machine,svm)、逻辑回归(logisticregression,lr)、随机梯度下降(stoc
9、hastic gradient descent,sgd)、高斯朴素贝叶斯(gassian naive bayes,gassiannb)四种机器学习的分类算法建立预测模型,完成各种模型组合之下的实验预测效果对比。实验将上述2种特征提取方法与4种机器学习算法分别进行组合预测,比较最终的误差率,其中word2vec与doc2vec采用默认参数,模型采用cbow(dbow),文本window(表示当前词与预测词在一个句子中的最大距离)设为5,词向量维度100,训练epoch为10。设置min_count=1,min_count(以下都称为词典词频)是模型中很重要的一个参数,表示模型在训练词向量对词典做
10、截断时,少于该参数次数的词会去掉。将svm、sgd、gassiannb、lr四种机器学习算法的参数设置成较好预测效果的参数。由表1可知,采用doc2vec模型的精确率,召回率,f1值都大于word2vec模型的。可见doc2vec提取的特征向量表达了更多的情感倾向信息,原因在于:word2vec对词向量进行平均处理,忽略了词语之间的语序,语序对文本情感倾向信息产生的影响很大,而doc2vec具有上下文分析的上下文“语义分析”能力。6 结语本文首先对情感分析研究现状和文本语料的预处理做了概述,然后通过实验验證了doc2vec基于短文本分类的情感倾向性的有效性,证明了doc2vec加svm方法可以有效提高文本倾向性分析的预测精度。【参考文献】【1】le q v, mikolov t, distribut
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年湖南师范大学数据与信息化建设管理处非事业编制用工招聘备考题库有答案详解
- 金融科技对金融行业服务效率的影响分析教学研究课题报告
- 2025年进贤县创控集团进贤县飞渡科技实业有限公司招聘备考题库带答案详解
- 2025年泰和县新睿人力资源服务有限公司面向社会公开招聘项目制工作人员的备考题库及一套完整答案详解
- 2025年云南省玉溪市江川区教育体育系统公开招聘毕业生38人备考题库及一套参考答案详解
- 2025年湖北省医学会招聘备考题库参考答案详解
- 2025年广州市增城区荔江小学编外聘用制教师招聘备考题库及答案详解一套
- 2025年福建艺术职业学院公开招聘劳务派遣工作人员备考题库(三)及答案详解参考
- 2025年昆明市盘龙区汇承中学招聘教师备考题库参考答案详解
- 2025年中国甘肃国际经济技术合作有限公司关于公开招聘数据化专业技术人员的备考题库及答案详解1套
- 高一期中历史试卷及答案
- 超星尔雅学习通《科学计算与MATLAB语言(中南大学)》2025章节测试附答案
- 绿色简约风王阳明传知行合一
- 重精管理培训
- 2023-2024学年广东省深圳市南山区七年级(上)期末地理试卷
- 《无机及分析化学》实验教学大纲
- 2023岩溶塌陷调查规范1:50000
- JJG 548-2018测汞仪行业标准
- 二年级【语文(统编版)】语文园地一(第二课时)课件
- 新教材2024高考生物二轮专题复习第二部分选择性必修3生物技术与工程知识网络+易错易混
- 锂电池生产流程作业指导书
评论
0/150
提交评论