【《文本情感分析相关技术综述》2600字】_第1页
【《文本情感分析相关技术综述》2600字】_第2页
【《文本情感分析相关技术综述》2600字】_第3页
【《文本情感分析相关技术综述》2600字】_第4页
【《文本情感分析相关技术综述》2600字】_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文本情感分析相关技术综述1.1文本数据预处理1.1.1文本分词中文文本和英文文本有一个巨大的区别,英文单词之间是用空格符隔开的,因此可以通过对空格进行分割,得到一个个的单词。而中文的语句是字字相连的,并且单词的组成可能是由一个或多个字符组成的,这就给单词的切分带来了很大的困难。并且中文词组的搭配是不固定的,还存在着一词多义的问题,如何准确分析句意和语义,将中文语句正确完整的分割成为一个个单词,是我们面临最大的难题,本文使用的方法是“结巴”中文分词。jieba中文分词方法主要包含了三种模式:精准模式、全模式和搜索引擎模式REF_Ref29478\r\h[10]。精准模式适合做文本分析,能够精确精准的将文本分割开来;全模式适合快速粗略的切分出所有词,特点是速度快,但不能解决歧义;搜索引擎模式适合搜索引擎分词,速度较慢,但是基于精准模式的基础上,对长词再进行切分,能够提高召回率。经过jieba分词后的文本数据,每一条评论都变成了一个个的单词,这些单词就是文本最基本的单元。当我们分别用一句完整的话进行表达和用一句话中的几个关键词表达时,对方除了听起来会感到差距外,对于句意的理解其实差别并不大,这是因为句子中有许多词是文本中出现频率很高,但实际又不存在太多意思的词,我们可以选择对这些词语进行剔除,可能会破坏句子的完整性,但并不妨碍对于意思的理解。并且文本是要转化后导入计算机的,计算机是不需要句子结构的完整的,当我们去掉一些停用词后,文本内容反而更精简了,更有利于分析了。为了增加信息检索中的存储空间,提高信息检索的效率,停用词应运而生。在自然语言领域,数据在进行预处理之前,需要先将某些字或词过滤筛选掉,以便后期的分析。这些被筛选的字或词就被称为StopWords。停用词表的构建完全是基于人工输入的,人们将一些对句子段落影响不大,删除后基本不影响语义理解的词语,加入到停用词中。但是没有哪一个停用词表是固定不变,适用于所有领域的。因此在很多时候,研究的内容不一样,就要对应的生成相应的停用词表,这样才能对数据处理的更加精准。1.1.2词向量技术词向量技术是一种采用神经网络来训练词向量的技术,它在训练后可以用来处理词与词之间的关系,处理的方法通常采用一个三层或多层的神经网络结构,这些神经网络结构分为输入层,隐层和输出层。Word2Vec算法可以在捕捉语境信息的同时压缩数据规模。其中,谷歌提供的word2vec工具包含了CBOW和Skip-gram两种语言模型中,这两个模型均包含输入层、投影层和输出层。CBOW(ContinuousBag-of-WordModel)又被称为连续词袋模型,是一个三层神经网络模型,与前向NNLM类似,不同之处在于CBOW模型把非线性隐层去掉了,并且所有单词共享隐层。CBOW模型通过上下文的联系来预测当前词,对预测模型: (1.1)其学习目标是最大化对数似然函数为: (1.2)其中,w表示语料库C中的任何单词。图1.1CBOW的语言模型结构与其相反,Skip-gram模型则是改变了CBOW模型中的原因和结果,CBOW模型通过上下文的联系来预测当前词,而CBOW模型则是通过当前词来预测其上下文的单词。图1.2sikp-garm的语言模型结构1.2深度学习相关技术1.1.1卷积神经网络模型卷积神经网络模型是一类包含卷积计算且具有深度结构的前馈神经网络,内部各层之间单向传播,传播方向为从输入层到输出层。由于具有能够避免复杂前期预处理工作的能力,目前卷积神经网络已经得到广泛应用,计算机视觉、语义分割、文本分类、图像处理领域、目标检测识别等等。卷积神经网络模型的组成部分主要有输入层、卷积层、池化层和全连接层。图1.3卷积神经网络模型图1.1.2LSTM神经网络LSTM神经网络也称为长短记忆网络,是RNN网络的改进之后的网络模型,主要是来解决RNN出现的长距离依赖问题,通过设置一种cell记忆单元,在加上三个门的控制。图1.4LSTM单元结构图图1.5LSTM单元结构展开图LSTM在对文本情感进行分类时,通常是将单个句子视为一个序列数据,句子中的词是序列中的节点,LSTM模型包括输入门、输出门和遗忘门,以此保证LSTM模型能够对长距离信息进行保存。1.3BERTDevlin等人的BERT使用Transformer中的编码器作为子结构,作为NLP任务的预训练模型,如SA、问题回答(QA)、文本摘要(TS)等。BERT对这些任务的执行分为两个阶段,即对语言理解的预训练和对特定任务的调优。BERT可以通过训练MLM和下一个句子预测(NSP)机制来理解语言。BERT假设用MLM盲法学习句子中的双向上下文。因此,它接受一些随机的句子作为输入,隐藏句子中的一些单词,并在输出时从周围的文本中重构隐藏的单词。它能够同时输入两个句子,并确定第二句是否在frst达到NSP之后出现。这种能力有助于模型保持文本之间的远程关系。经过预训练后,模型通过在数据集上进行监督训练,并用一组新的输出层替换完全连接的输出层。BERT模型训练得更快,因为其他模型参数除了从头学习的输出参数外,只进行了快速调整,如图1.6所示。图1.6BERT训练示意图BERT有两个模型,即基本模型和BERT大型模型。bert基模型由12层变压器编码器块组成,每个块包含12头自注意层和768个隐藏层,共产生≈1.1亿个参数。另一方面,bert大块由24层变压器编码器块组成,每个块包含24头自注意层,共产生了≈3.4亿个参数。BERT的性能取决于模型类型,即BERT-large可以实现比best更高的精度。然而,使用bert-large来提高准确性是以需要更广泛的资源来完成为代价的。BERT模型的总体架构如图1.7所示。图1.7模型的总体架构BERT的优点在于,由于其双向能力,其处理上下文信息提取的能力;它训练速度更快,并已广泛应用于语言建模应用。然而,BERT的以下缺点仍然存在:它仅限于单语分类,输入句子的长度也限制了它,它依赖于语意推理,并且使用BERT-large可能在计算上比较昂贵。1.4评价指标评价指标作为判断模型的标准,能很好的对模型的性能进行衡量,当评估词向量的性能指标的时候,通常采用混淆矩阵的方法。其中,TP表示将正类预测为正类数,TN表示将负类预测为负类数,FP表示将负类预测为正类数,FN表示将正类预测为负类数。混淆矩阵如下表2-1所示。表2-1混淆矩阵PositiveNegativeTrueTPTNFalseFPFN本文实验效果的评价指标有4个,分别为准确率Acc(accuracy)、精确率P(precision)、召回率R(recall)和F值F1(f-score)。准确率是指模型预测正确的正面评论和负面评论样本数占总样本数的百分比,准确率是指正确的负面评论在预测负面评论的总样本中所占的百分比,从预测结果的角度来看,解释预测正确的样本中有多少是真正正确的样本;召回率是指实际上有负面评论的整个样本中正确负面评论的百分比,它如实反

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论