版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文文本细粒度情感分析的相关理论知识与技术基础综述目录TOC\o"1-3"\h\u27025中文文本细粒度情感分析的相关理论知识与技术基础综述 1145901.1文本预处理 1124751.2词嵌入 127311.1.1CBOW模型 281511.1.2Skip-Gram模型 310401.3深度学习模型 315621.3.1卷积神经网络 4261211.3.2循环神经网络 5321371.4注意力机制 953311.5小结 101.1文本预处理对于线上平台的评论文本,该类数据通常包含一些不规则的文本数据或无效的数据,通常要进行数据清洗,常用的中文数据清洗方法包括基于规则的过滤方法和基于聚类的数据清洗。对于文本中的表情或符号可以采用正则表达式进行处理,并结合停用词表去除停用词。对于文本中出现的繁体表达的文字,采用映射字典进行繁体到简体中文文字的转换。中文文本分词需要结合上下文语义,现在主要的分词方法有基于字符串匹配的分词方法[40]、基于统计的分词方法[41]、基于句法的分词方法[42]和基于语义的分词方法[43]。1.2词嵌入词嵌入(WordEmbedding)也称为词向量,将文本词语转换为带有语义信息的向量,使得计算机可以读懂并对词语信息进行计算。在NLP领域,获取文本语义信息非常重要,优秀的词嵌入方法能够完整的表达出文本中词语的语义信息,提升文本分类准确率。早期的词表示法主要通过建立人工规则把词映射到高维向量空间,如One-hot表示方法,One-hot编码将字符转换成向量,这种表示方法不能捕获词语之间的联系和区别,比如会将两个相同意思的词语判断为不同意思的词,也不能利用文本上下文信息,导致最终完全丢失文本中包含的语义信息。另一方面,One-hot在处理中文文本时由于转换的高维稀疏向量会大幅增加计算量。为克服以上提到的缺点,Hinton[44]提出将词语映射到词空间的分布式表示法,语义相近的词相互聚集在词空间的一个区域,既能对词进行语义编码也能减小词空间的维度。Bengio[45]提出了神经网络语言模型,通过上下文词语预测目标词从而获得目标词向量表示。在此基础上,Mikolov[46]提出了word2vec框架用于在语料数据上进行训练词向量,最后获得表示词与词之间距离的词向量。2013年Google发布了词向量训练工具word2vec[47],word2vec是基于神经网络的训练方法,可以将词转换为词向量并计算了个向量之间的联系。word2vec模型输入层和隐藏层的权值矩阵经过训练得到能够代表某一词语的词向量,且维度远远小于one-hot编码等传统词向量模型[48]。模型提供了CBOW模型和Skip-Gram模型[49],本文研究也将基于word2vec词向量模型来训练文本。1.1.1CBOW模型CBOW模型[50]是利用目标词的上下文词作为模型的输入来预测当前目标词,该模型结构如下图1.1所示:图1.1CBOW模型CBOW模型输入部分为目标词wi的n个上下文词语,文本W有一组T个词语构成的序列表示为,模型选取文本序列中某一词wi作为预测目标词,并将预测目标词连续的上文词语和下文词语作为特征信息,所以选取了目标词前面连续的词wi-2、wi-1和目标词后面连续的词wi+1、wi+2作为模型的输入。其表达式如下表示:2-(1)其中根据模型代表词语的第i个类别出现的概率,模型的输入层和隐藏层过程表达式如下:2-(2)2-(3)其中E代表权值矩阵wk模型代表权值向量。1.1.2Skip-Gram模型与CBOW模型不同,Skip-gram模型则反其道而行之,通过输入当前给定词语,该模型可分析预测已知词语的上下文信息[51]。该模型结构如下图1.2所示:图1.2Skip-gram模型Skip-gram模型的输入是以one-hot向量表示的目标词语,获得的向量输入到模型线性层从而得到目标词的词向量,最后计算上下文词语的概率分布[52]。文本W有一组T个词语构成的序列表示为,模型选取文本序列中某一词wi作为当前确定的目标词并作为模型的输入,来预测目标词的上下文会出现哪些词。模型分为三层神经网络层,E代表权值矩阵wk模型代表权值向量,其隐藏层和输出层的过程表达式为如下:2-(4)2-(5)使用Skip-gram模型与CBOW模型训练word2vec的词向量可以包含文本语义信息且维数低,word2vec的两种模型在效果上没有很大差别,但在实际训练模型的过程中Skip-gram模型相较于CBOW模型更加简单,在后面的实验中本文采用Skip-gram模型训练文本词向量。1.3深度学习模型目前深度学习技术在NLP领域已经被广泛应用,如在文本分类,文本摘要,机器翻译、文本生成等研究上都取得了良好的成果,深度学习在细粒度情感分析任务中也起到了重要的作用,本节将介绍常用的深度学习神经网络模型。1.3.1卷积神经网络卷积神经网络[53]采用卷积运算对具备与网格结构类似数据进行处理,凭借在并行计算和特征提取方面的优势受到广泛欢迎,并且在图像领域的任务处理中获得很好的成果。Collobert等人[54]在2011年首次将CNN在文本呢分类任务中运用并获得较好的结果,Kim[55]提出了一种具有二维卷积核并且能够学习文本特征的CNN文本分类模型,通过采用静态与动态双通道对词向量进行训练,最后利用不同大小的卷积核获取文本n-gram特征信息从而进行文本分类。该网络模型的连接方式与普通神经网络的连接模式不同,模型相邻的层不再采用全连接的方式,而是每层的神经元和前一层进行局部连接,同时网络结构具备权值共享、池化操作等设计,使得简化了模型的训练复杂度和参数的设置[56]。CNN网络结构如图1.3所示:图1.3卷积神经网络模型结构图用于文本情感分析任务的卷积神经网络每一层都有不同的作用,具体关于每层结构的描述如下:(1)输入层:模型的输入为文本词向量,将文本经过分词预处理后按照词语的分布进行向量表示后输入到模型。CNN可以并行化接收向量输入,对于由个词语构成的文本经过词向量表示后,CNN接收的输入矩阵表示为。(2)卷积层:对于输入层输入矩阵利用卷积操作提取文本特征信息,卷积层包含多个作用于词向量的卷积核,最终通过卷积运算得到一个新的特征,实现对文本中下相邻词语间的特征学习和文本局部语义信息的提取。卷积层卷积过程中主要通过滑动窗口来识别局部特征,网络中的每个神经元与文本局部区域相连接,经过局部感知后再经过高层整合整体信息,卷积层中不同的卷积核参数可以共享,这大幅减少了参数的训练量。卷积运算是对于输入的位置与卷积核模式的相似程度的计算,相似度与卷积结果成正相关。其计算过程如下式表示:2-(6)其中ci表示新的特征,f为激活函数,W为权重矩阵,b表示偏置。(3)池化层:池化操作起到对上一层信息进一步筛选特征并对特征降维的作用。池化函数进行调整完成下采样操作以实现对不同长度的文本进行维度变换并且获得相同长度的输出特征。常用的最大池化操作主要通过在池化窗口特征分布中求最大值作为池化值以获取局部区域中最相关的特征信息,避免了提取到无关信息,最大池化可以对局部区域微小变化保持不变。平均池化则是考虑局部区域中所有的值,计算出池化窗口中特征分布的平均值。(4)全连接层:将池化层输出的二维特征向量转换为一维特征向量,并输入到最终的Softmax分类层。1.3.2循环神经网络传统神经网络模型结构中上一层神经元的输出是下一层神经元的输入,同一层级的各个神经元彼此独立,这对于文本处理任务来说是不现实的,比如,在预测文本序列中下一词语时,需要联系词语的上下文信息才能确定,但传统的神经网络模型并不能处理此类任务。Elman等人[58]提出循环神经网络,该网络在处理时序类数据方面具备优势。循环神经网络时一种具有短期记忆的专门处理序列问题的网络模型,与传统前馈神经网络不同,其隐层的神经元之间有连接,神经元的输入不仅可以是输入层的数据,还包括上一时刻隐层神经元产生的输出数据,模型中节点的相连加强了各层间消息的相互传递,使得RNN模型可以记忆以往信息并能够向下进行传递,在解决文本序列数据任务上对文本的上下文信息进行有效的综合,循环神经网络已广泛用于文本分类[44]、机器翻译[45]及序列标注[46]等任务领域。RNN的网络结构如下图2-5所示:图1.4循环神经网络模型结构图上图是循环神经网络按时间序列结构展开图,网络结构为链式结构,具有多个含有“记忆功能”的递归单元,信息沿时间步进行传递。RNN结构同样包括输入层、隐藏层和输出层,从上图可以看出与传统结构不同的是隐藏层展开后包含了一个循环体,循环体是该模型隐藏层的信息流[59]。输入层中输入的是t时刻的N个输入单元的文本向量表示序列,隐藏层单元表示为,输出层有n个输出单元为。层间的神经单元之间也通过权值相连接,每一个神经单元间的箭头连接都代表这权值变换[60]。循环神经网络的对于隐层ht和输出层yt的计算过程如下式所示:2-(7)2-(8) 2-(9)f表为激活函数,对于不同的任务可以采取不同激活函数,这里常用的激活函数为tanh激活函数,bh是隐层偏置,RNN按照上述步骤通过时间步连接传播,每个时间步的隐藏层状态包含当前与过去时刻的状态信息,最终在输出层对输入的预测,能够很好的处理时间序列任务。虽然RNN在处理过程中可以表达出文本序列中不同时刻的关联,但同时也存在着很大的不足,RNN与传统神经网络都是通过反向传播算法来寻求网络参数的最优值,RNN是利用时间反向传播算法训练参数,其处理过程首先要对每个神经元进行前向计算得到输出值,之后对每个神经元进行反向计算得到误差值。由于RNN网络层次的深度随着输入来对网络进行展开,在反向传播计算时非线性激活函数会由于多个时间步的传播而导致求导后的梯度趋近于无穷或趋近于零,所以在计算过程中会容易出现梯度爆炸和梯度消失的问题,这就使得训练中梯度值不能往下传递下去,当输入序列过长时,RNN无法有效捕获长距离信息。通过采用梯度截取处理RNN梯度爆炸,采用增加学习率解决梯度消失的问题,但是由于引入的参数过多或训练的复杂过程并不能完全解决此类问题,由此,人们提出将门控机制引入RNN作为控制信息的单元,使得RNN能够做到有选择的添加新的信息和遗忘以往获得的信息,解决了RNN的梯度消失或爆炸的问题[61]。LSTM作为RNN的改进网络结构,内部结构相对来说复杂,LSTM含有用来保留历史信息的记忆单元(memorycell)[62]。结构中引入了细胞状态和“门”结构,其中细胞状态作为网络中信息的传输路径,能够传递文本信息也能够作为记忆细胞一直保留以往时刻的信息并将相关信息传递到后面的记忆细胞中,克服了RNN的短时记忆的缺点。“门”的引入是为了控制传递的信息,LSTM含有三个“门”为输入门、输出门和遗忘门,“门”结构便是来控制在训练过程中选择保留哪些信息、遗忘哪些信息和输出哪些信息。LSTM的网络结构图如下所示:图1.5LSTM网络模型结构图从上图中看出,在t时刻,词向量输入为xt,LSTM含有RNN结构中的隐藏层状态ht、细胞状态Ct、前一时刻的隐层状态ht-1和细胞状态Ct-1,三个“门”分别为遗忘门ft、输入门it以及输出门ot,每个门结构中都含有sigmoid激活函数,取值范围设置在(0,1)之间来控制更新或者遗忘信息[63]。遗忘门sigmoid函数计算当前时刻信息和上一时刻隐藏层状态信息,并将得到的数值进行调整,数值为0是遗忘信息,数值为1时保留信息,从而决定了信息的保留和遗忘,为sigmoid激活函数,W为权重矩阵,b为偏置。计算过程如下式所示:2-(10)接下来要确定对细胞状态的更新,即重要的信息经过输入门处理后会保存到细胞状态中,输入门sigmoid函数计算当前时刻信息和上一时刻隐藏层状态信息,并将得到的数值进行调整,数值接近0时表示信息不重要,数值接近1时表示信息越重要。之后通过tanh层建立新的细胞状态信息,计算如下式所示:2-(11)2-(12)2-(13)最后信息经过输出门,输出门sigmoid函数计算当前信息和上一时刻隐层信息,得到的输出值与tanh层的输出相乘计算确定将要输出的隐藏层状态信息ht,最终把更新的细胞状态和更新的隐藏层状态在下一个时间序列中传递下去[64]。计算过程如下:2-(14)2-(15)对文本情感分析任务来说,文本时序对于获取文本语义信息非常重要,LSTM能够基于文本句子序列建模,充分学习文本中词语间的上下文语义关系,基于LSTM的文本情感分析模型结构如图1.6所示。图1.6LSTM情感分析模型结构图对于给定句子,wi在句子中为第i个词语,模型中的每个单元包括上一时刻隐层信息和当前输入信息,隐藏层ht的计算如下所示:2-(16)其中,代表文本输入的词向量表示,w表示权重矩阵,表示上一时刻隐藏层状态输出。最后在输出层通过softmax函数对LSTM隐藏层信息进行分类,具体计算公式如下所示:2-(17)其中,W表示权重矩阵,B表示偏置。1.4注意力机制注意力机制(Attention)[65]是一种对文本信息计算注意力权重从未关注到重要信息的组合函数。Bahdanau等人[66]在处理机器翻译任务时,在神经网络循中增添注意力机制,取得良好成效。Ma[67]通过注意力机制计算每个单词间的注意力权重来预测上下文语义特征。Attention的主要思路在于对输入的向量组分别计算出对应的概率值,然后根据概率分布求出向量组中所有向量的加权平均。首先是对输入的隐藏层数据进行线性运算,如式(2-18)所示。其中第时刻的隐藏层输出为ht,W1和W2表示的是指定层的权重值,b表示矩阵偏置。2-(18)将输入到softmax函数,计算出不同区域的权重分值,权重大的说明该区域信息比较重要,可以增强模型对关键信息的识别能力。最终隐藏层输出ht
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国家用泡沫灭火器市场需求规模与供需前景平衡分析报告
- 冻雨灾害科普宣传
- 临床医学检验技术(主管技师):临床化学考点巩固
- 中国彩电市场分析(一)
- 2025-2026学年黑龙江省双鸭山市高考压轴卷化学试卷(含答案解析)
- 某麻纺厂设备更新办法
- 某纺织厂物流管理细则
- 某陶瓷厂生产工艺制度
- 某铝业厂生产安全管理细则
- 麻纺厂安全生产培训记录细则
- 2026年黑龙江省《保密知识竞赛必刷100题》考试题库带答案详解(基础题)
- 2026四川南充市仪陇县疾病预防控制中心(仪陇县卫生监督所)遴选4人建设笔试参考题库及答案解析
- 2026乌鲁木齐市招聘警务辅助人员(1134人)建设笔试备考试题及答案解析
- 智能体龙虾AI助手(小龙虾)应用实践-
- 2026上海春季高考语文试题试题含答案
- 蝶阀维修施工方案(3篇)
- 广东省广州市黄埔区2024-2025学年八年级下学期期末语文试题及答案
- 2026年济南历城区九年级中考英语一模考试试题(含答案)
- 幼儿园采购园服制度
- 2026四川甘孜州能源发展集团有限公司招聘29人考试参考试题及答案解析
- 高速维护应急预案(3篇)
评论
0/150
提交评论