【《中文文本情感分析中细粒度方面词提取研究综述》4000字】_第1页
【《中文文本情感分析中细粒度方面词提取研究综述》4000字】_第2页
【《中文文本情感分析中细粒度方面词提取研究综述》4000字】_第3页
【《中文文本情感分析中细粒度方面词提取研究综述》4000字】_第4页
【《中文文本情感分析中细粒度方面词提取研究综述》4000字】_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文文本情感分析中细粒度方面词提取研究综述TOC\o"1-3"\h\u22995中文文本情感分析中细粒度方面词提取研究综述76991.1引言57101.2基于词选注意力机制的方面词提取方法308121.3基于深度学习的细粒度方面词提取模型258261.4实验与分析200791.4.1数据集介绍与实验环境38001.4.2评价指标304931.4.3对比实验81291.4.4实验结果分析1.1引言线上平台如外卖平台评论文本,消费者通常在文本中表达对评价主体的多个方面的评价,如果要准确把握消费者对产品或服务等具体每个方面的情感倾向,对于文本分析任务而言,就需要从评论文本数据中将细粒度级别的方面词提取出来,进而开展细粒度情感分析任务处理。在早期的研究中大多集中在依赖词典、规则以及机器学习算法提取特征,现在的研究集中在深度学习技术处理细粒度情感分析任务,但仍然存在不足,线上评论文本此类数据通常包含多个方面的评价,此类任务需要依赖提取方面词作为判断方面情感极性的依据,分析处理难度较为复杂。现有算法大多只考虑依赖全局信息,很少注重局部信息的,这并不符合实际需求。针对以上问题,本文围绕中文线上评论文本开展细粒度方面词提取的研究,提出基于词选择注意力机制的细粒度方面词提取模型,能够有效的关注局部信息,识别并提取出与细粒度情感分析高相关的方面词或短语。1.2基于词选注意力机制的方面词提取方法细粒度情感分析任务的文本中通常表现为情感词分布在某个方面词附近,例如“店面环境很不错,态度服务也很好,希望味道再加强。”,其中“很不错”这种情感信息表达在方面词“环境”附近,此外,根据中文线上评论文本数据来看大部分的表达中方面词和情感信息的数量分布在整个句子中还是较少的。因而,对于局部信息的提取对细粒度级别的情感分析任务是非常重要的。在对文本局部特征信息的关注问题的处理上,主要方法有基于人工标注词语位置的方法和基于自注意力机制的方法,自注意力机制能够有效关注到句子中每个词语间的关系,Lin等采用全连接层的注意力机制对经过LSTM编码后的隐藏层矩阵计算权重后获得句子向量表示,联系了整体文本语义,但该方法适合处理传统的粗粒度情感分析。本文在自注意力机制的基础上对方面词的提取进行研究,提出了词选择注意力机制,旨在解决细粒度情感分析任务中局部词语的提取,此类任务的处理着重依赖方面信息和对应的情感信息,将任务分解为方面词提取和情感分析两部分,考虑了情感信息受到方面词分布的影响,在方面词提取上不需要加入全局信息,避免了全局计算权重后对方面词权重的影响。词选注意力的结构如图1.1所示:图1.1词选择注意力机制词选注意力机制保留了自注意力机制的两层全连接FC和FC,同样的对LSTM隐藏层权重矩阵M进行计算每一行的权重获得向量表示vs,同的是对每一层的全连接不再对权重采用归一化的方式处理,在这采用ReLU激活函数,由于ReLU的特性是在输入的数值为负数时,所有的负数都会变为0,而数值为正数时则会保持不变,因此,ReLU函数在处理与细粒度情感分析有关的信息时会保留下来,而无关的信息将会被过滤掉。两层全连接层对权重矩阵M的计算过程如下式所示:3-(1)其中,ws1表示权重矩阵,ws2表示将权重向量bs1和bs2表示偏置。最后将词选向量vs与权重矩阵M的每一行进行乘法运算,最终得到的是过滤掉的与细粒度情感分析无关的词向量和保留下来的与细粒度情感分析有关的词向量的特征矩阵Ms,表示如下式所示:3-(2)1.3基于深度学习的细粒度方面词提取模型本节基于提出的词选注意力机制方法对细粒度情感分析任务中的方面词进行提取,该模型结构如图1.2所示。首先,通过word2vec词嵌入模型训练得到输入语料的词向量表示,将学习到的词向量表示作为模型的输入。之后利用LSTM学习句子的上下文信息并获取句子特征矩阵,使用词选注意力机制对神经网络处理后的特征矩阵进行权重计算,最后采用最大池化(maxpooling)对与情感分析任务相关性较高的特征从特征矩阵中分离和提取出来。图1.2基于词选机制的细粒度方面词提取(1)特征计算对给定长度为n的句子和给定的m个方面词,对于每个单词,词嵌入处理后得到关于句子向量表示分别为,将输入文本转换而成的词嵌入序列作为LSTM网络的输入,LSTM根据当前信息与上一时刻信息计算输出隐藏层状态信息ht,对句子编码过程如公式所示:3-(3)本文将LSTM的隐层输出的特征矩阵作为记忆体(Memory),其作用是存储整个句子的信息,以供词选注意力层提取信息。特征矩阵Mf的形式化描述如公式(3-4)所示。3-(4)(2)方面词提取在章节1.2中提到词选择注意力机制通过不同权重来区分词语的重要性,在对方面词提取时,与自注意力机制不同,自注意力机制因在softmax层归一化操作,当重要词语出现的次数多时其权重会被平均,从而无法筛选重要词语。当词选择注意力机制在对重要词语即方面词筛选时,将其融入到LSTM模型中对LSTM编码后输出的隐藏层特征矩阵Mf进行筛选,Mf中每一列向量中都包含了文本的语义信息,由于词选注意力机制使用ReLU激活函数,可以对Mf中关于方面信息的权重值保留,非方面信息的权重值设为0,得到向量表示vs。为进一步得到方面词矩阵,将向量vs与矩阵Mf的每一行进行乘法运算,得到权重值保留下来的方面信息特征矩阵Ms,之后采用最大池化操作,选取最大值的词向量vf。vf经过全连接层降维处理得到结果特征向量vr,最后输入到Softmax分类层进行分类,获取各个类别的概率分布。计算过程如下公式所示:3-(5)3-(6)3-(7)3-(8)3-(9)1.4实验与分析1.4.1数据集介绍与实验环境本文研究的数据集来自于全球AI挑战赛(AIChallenger)的细粒度用户评论情感分析,出自美团点评的数据集,其中含有20个细粒度级的方面词,对互联网平台上用户的在线评论文本进行分析并判断文中是否提及方面,如果方面被提及,则需要判断该方面所对应的情感极性,其中包含4种情感极性:正面,负面,中性和未提及,对应的情感标签分别为1,-1,0和-2。数据集文本数据格式分为文本内容和文本标签,其中训练集,验证集,测试集分别为100000,5000,15000。本文将对训练集进行随机层次抽样,按同分布抽取5000条数据作为验证集,将开放的验证集样本15000条作为新的测试集。其中数据集中包含的20个方面词信息如表1.1所示:表1.1中文文本细粒度情感分析数据集方面列表交通排队时间价格装修情况分量本次消费感受方面词距商圈远近服务态度性价比嘈杂情况口感再次消费意愿是否易寻找上菜速度折扣就餐空间外观上菜速度卫生推荐程度实验环境是基于Google的Tensorflow深度学习框架,服务器配置如下:Windows7,Python版本:1.6.8,Tensorflow版本:1.8.0,GPU版本:TitanV,Cudnn版本:7.5.0,Cuda版本:9.0.176。1.4.2评价指标为体现本文所提出的方面词提取方法的效果,本文实验采用了文本任务中的常用评价指标,其中包括准确率(Accuracy)、F1对数损失函数(LogarithmicLossFunction)。Accuracy是指分类正确的文本占总文本的比重,具体计算见式(1.10);F1为综合评价指标,由正确率(Precision)和召回率(Recall)得到,具体计算见式(1.11);LOSS是对模型的预测值及真实值的不一致的评价指标,计算方法见式(1.12)。3-(10)3-(11)3-(12)其中,TP(TruePositive)为预测后的文本情感极性为正面并且文本的实际情感标签也为正面的文本数量;TN(TrueNegative)为预测后的文本情感极性为负面并且文本的实际情感标签也为负面的文本数量;FP(FalsePositive)为预测后的文本情感极性为正面,但文本的实际情感标签也为负面的文本数量;FN(FalseNegative)为预测后的文本情感极性为负面,但文本的实际情感标签也为正面的文本数量;Y表示输出变量,X为输入变量,L为损失函数,N为输入的样本大小。1.4.3对比实验本节实验方法与以下方法进行比较:CNN:利用不同大小的卷积核获取文本n-gram特征信息从而进行文本分类的基于二维卷积核的卷积CNN模型。LSTM:使用基础LSTM网络对文本进行编码,拼接其每步隐藏层输出的向量并进行平均池化操作得到文本向量,进行分类。LSTM-ATT:在LSTM的基础上,使用第二章提及的基于全连接层的自注意力机制。其原理是使用全连接层计算LSTM每一步隐藏层输出向量的权重,然后对所有隐藏层输出向量进行加权求和得到文本向量,进行分类。ATT-CNN:将自注意力机制融入到基于二维卷积核的CNN网络模型中,注意力权重帮助特征信息的提取。TD-LSTM:由两个LSTM构成的网络结构,主要针对目标词上下文信息建模,生成基于目标依赖的关系进行分类。1.4.4实验结果分析本文模型与其他不同模型在AIChallenger中文数据集上的在20个方面上的F1和ACC如表所示:表1.2不同模型实验对比结果ModelF1AccCNN0.65510.7989LSTM0.68590.8502LSTM-ATT0.69210.8641ATT-CNN0.67440.8554TD-LSTM0.69480.8701LSTM-WSAM0.70240.8707如上述表中所示,本章提出的LSTM-WSAM模型在测试集上在测试集上的平均F1值最高,由于本章着重研究提取文本中的方面词,数据集中数据量大,且多个句子包含了两个及以上的方面词,这有利于深度学习模型学习上下文语义信息,提取细粒度情感分析高度相关的关键方面词。通过对比CNN模型与LSTM模型,LSTM在准确率ACC和F1上都要比CNN高,这表明了虽然CNN在局部信息提取上有效,但LSTM能更好的处理时间序列特征的语义信息,在LSTM和TD-LSTM模型的对比上,双向的LSTM效果更好,更加证明了LSTM在细粒度方面词提取任务中的有效性。在引入注意力机制的情况下,由LSTM-ATT、ATT-CNN、LSTM-WSAM模型可以看出效果要优于未引入注意力机制的模型,注意力机制是有非常有效的,可以进一步提高性能。针对中文文本任务中目标词语的处理,应该是在结合上下文语义的情况下聚焦于源语言的个别词汇,加入了注意力计算权重,使得在考虑了整个文本序列特征的基础上,更加聚焦局部重要信息,并对不同的部分计算不同的权重值以优化模型。通过比较上述四个带有注意力机制的模型,LSTM-WSAM模型取得了较好的效果,证明了本文模型在经过深度学习模型之后引入词选注意力机制更能提取更相关的特征。图1.3各模型在测试集的不同方面上的F1值图1.3展示的是不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论