【网络评论文本情感分析的相关理论和准备工作1900字】_第1页
【网络评论文本情感分析的相关理论和准备工作1900字】_第2页
【网络评论文本情感分析的相关理论和准备工作1900字】_第3页
【网络评论文本情感分析的相关理论和准备工作1900字】_第4页
【网络评论文本情感分析的相关理论和准备工作1900字】_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络评论文本情感分析的相关理论和准备工作综述目录TOC\o"1-3"\h\u4402网络评论文本情感分析的相关理论和准备工作综述 110561.1词嵌入技术 164731.1.1One-Hot 1171881.1.2Word2vec 2122871.1.3GloVe 3304281.2情感分类分析方法 3214821.1.1基于机器学习的情感分类 3230371.1.2基于深度学习的情感分类 465291.3数据集准备 51.1词嵌入技术情感分类是自然语言处理中对情感极性进行的分类任务。所有自然语言处理任务都要需要解决的最基本的问题,即机器对自然语言的理解。这也是词嵌入(wordembedding)技术所解决的问题。图2-1展示了自然语言处理的主要内容和应用领域。图2-1自然语言处理内容及应用领域1.1.1One-Hot情感分类是计算机将文字评论根据其主观情感倾向进行分类的工作。然而计算机并不能识别人类的文字,要想让计算机能够理解,需要把文本转化成实际的数值。词嵌入正是实现这一任务的方法。早期的词嵌入技术采用独热码(One-HotEncoding)。图2-2展示了独热码进行词嵌入的具体方法。独热码属于一种词袋模型(bagofword),它只是简单的将所有单词放到一起,只关注单词是否出现,而忽略了单词之间的前后顺序和逻辑关系。独热码用N位状态寄存器来表示N个字或词,每个字或词只有属于自己的一位属于1,其余都是0。因此形成的大量空间冗余无疑会对计算速度产生严重影响,甚至造成维度灾难。图2-2one-hot编码示例1.1.2Word2vecWord2vec(wordtovector)是一种把原始数据或语料映射到向量空间的技术。Word2vec将One-Hot编码的词向量映射称分布式向量。Word2vec使用稠密矩阵表示词汇,解决了One-Hot词向量数据过于稀疏的问题。并且Word2vec在上下文环境构建过程中使用动态滑动窗口,使其能更好地获取局部上下文特征,从而预测上下文词汇。Word2vec包含一系列算法,其本质上是将高纬的稀疏矩阵转化为了低维稠密矩阵,减少了计算空间。Word2vec中有两个主要的流程算法,CBOW(连续词袋)和Skip-gram(跳跃语法)。CBOW是根据目标词上下语境的词来预测可能出现的词。Skip-gram则相反,利用目标词来预测上下文中可能出现的词。CBOW的结构如图2-3所示,Skip-gram的结构如图2-4所示。图2-3CBOW网络结构图2-4Skip-gram网络结构1.1.3GloVeGloVe(GlobalVectors)是一种全局变量算法,综合了两种技术,LSA算法和Word2vec算法。LSA算法基于奇异值矩阵分解(SVD)对矩阵进行降维操作,但因其本深度复杂很高给计算造成了负担。Word2vec算法有着出色的联系局部上下文的能力,但其需要改进的地方是没有充分利用所有语料。Glove结合了两者的优点,结合了语料库全局统计的特征,对于出现频率很低的词的相似度信息也能很好地学习到,同时又具备Word2vec局部上下文之间的特征关系。1.2情感分类分析方法1.1.1基于机器学习的情感分类传统机器学习实现的情感分类中对处理之后的语料进行特征工程提取和选择特征,再输入到机器学习算法中去,机器学习算法在整个流程中充当着分类器的作用,使用深度学习的自然语言处理任务大致流程如图2-5所示。机器学习方法可以分为有监督学习和无监督学习。在有监督的学习中,用来训练的数据是带有标签的,标签代表其所属的类别。通过训练使机器学习算法逐渐找到标签和数据之间的联系,根据样本学习生成模型之后,面对新的数据时能够判断其标签。有监督学习主要包含回归和分类两种算法思想,较为常见的则是分类算法。其区别在于输出数据是离散还连续的。输出数据为离散的类别时为分类任务,是连续值时则是回归任务。在无监督学习中,机器被提供无标签的数据,没有明确的目的,不能得到样本正负反馈。无监督学习主要是学习数据中心潜在的结构,这种学习方法比较困难,同时也较为方便。因为不需要对数据集进行标注,其数据对象是散乱复杂的,这也是大部分数据的特征。并且无监督学习也不需要划分训练集和测试集[3]。图2-5传统机器学习的自然语言处理流程1.1.2基于深度学习的情感分类深度学习是机器学习的分支,基于深度学习的情感分析主要使用深度神经网络来训练模型。基于深度神经网络的文本情感分析也是近年来的研究热点。深度神经网络是一种人工神经网络,包含输入层,隐藏层和输出层。其是一种多层神经元的网络结构,其隐藏层可以是多层的,通过对上一层特征使用非线性函数进行激活学习到更抽象的特征[4][5]。基于深度学习的自然语言处理流程如图2-6所示。如今已经从单向传播的前馈神经网络延伸出许多新型深度神经网络结构。近年来卷积神经网络,循环神经网络和长短期记忆神经网络在情感分析研究上都取得了很大进展,相较于传统机器学习方法获得了更好的效果。图2-6深度学习的自然语言处理流程1.3数据集准备本文选用的数据集为经典的IMBD英文电影评论。一共25000条评论,每条评论都按照情感倾向标注了1-10的数字。数字越大代表其喜爱程度越高。得分小于5的评论作为负面评论存放在neg文件中,标注为0。得分大于或等于7的作为正面评论被

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论