版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
弹幕文本的情感分析国内外文献综述弹幕数据是由短文本、文本的字体信息和时间信息等组成的,弹幕情感信息主要包含在短文本之中。弹幕起源于日本二次元文化,目前主要流行于亚洲地区。由于弹幕出现的时间较短,国内外与弹幕情感分类直接相关的研究不多。考虑到文本情感分析是弹幕情感分析的基础,国内外研究现状将从文本情感分析和弹幕相关研究两个方面来进行综述。1.1文本情感分析研究现状文本情感分析是指通过预处理、特征提取、归纳总结等一系列操作挖掘主观性文本中的情感倾向。文本情感分析的主要任务分为三种:情感识别、极性检测和情感计算。网络社交平台的人性化设计以及便捷功能开发都离不开文本情感分析,如微博、Twitter、Facebook等。这些平台不仅为文本情感分析提供了数据,也让情感分析任务在商业应用中有了现实的意义。而弹幕的出现,使得视频平台在视频信息的基础上同时拥有了丰富的文本数据,也可以使得文本情感倾向分析在视频平台上拥有应用场景。目前国内外学者在研究文本情感分析问题时,主要采用的分析方法如图1-2所示。基于词典规则的方法是使用情感词典或者公开的语料库作为参考,设定一定的规则计算语句中的情感倾向,以此来完成对语句进行分类的任务。基于情感词典的方法首先将语句划分为词语,然后利用其中具有明显情感倾向的情感词以及语句中的其他形容词和副词之间的相关程度,计算词汇的情感值并以此反映语句的情感倾向[2]。Qiu等人[3]整理了中文文本中常见的情感词、否定词以及强度副词等构建了情感词典,并且根据情感词和各种形容词之间的关系对情感词典进行了扩充。但是词典在构建的过程中,即使能够使用机器对海量的数据进行清理,人工标注的工作仍然需要耗费大量的人力物力成本[4]。而且基于词典的方法所得到的分类效果高度依赖于词典的大小、完整性、对于词法语法的规则设定等,即分类效果非常依赖于人工操作的准确性。而当下网络环境中,新词频出的同时词语的语义也随着时间推移而变化,这使得基于情感词典的方法虽然对于已有的词汇拥有不错的分析结果,但是难以对新词做出准确的判断[5]。图1-2文本情感分析方法图使用机器学习的方法,本质是以特征提取和选择为基础,使用机器学习的方法构建模型学习语句中的特征,最终完成文本情感倾向性分析。传统的机器学习方法主要使用朴素贝叶斯(NaiveBayes,NB)、支持向量机(SupportVectorMachines,SVM)、逻辑回归(LogisticRegression)和K-means等方式对文本特征进行提取和分类。Wang提出了一种基于迭代的朴素贝叶斯方法用于微博文本的情感分类方法[6],该方法考虑微博emoji表情的细粒度情感分析,将表情字典中的表情转换为向量形式,然后使用朴素贝叶斯方法进行分类。Xia等人[7]则使用了一种利用条件随机场算法从电商平台评论中提取情感特征,然后使用SVM对特征进行分类。Chen等人[8]提出了一种正则化文本逻辑(RTL)回归模型来对酒店和餐饮行业的在线客户评论进行文本分析和情感分类,该方法主要用于解决非结构化文本数据难以分类的问题。Orkphol等人[9]结合人工蜂群算法、TF-IDF、奇异值分解等方法用于K-means寻找聚类质心的最佳初始状态,并将其用于微博情感聚类与分析。Pang等人[10]使用嵌入法提取词特征,使用朴素贝叶斯、最大熵、支持向量机等模型对样本的one-hot矩阵进行训练,然后依据权重系数对特征进行重新排序,系数越大表示对应的特征越好。李佳儒11]等人提出了一种使用TF-IDF提取文本特征,然后使用逻辑回归模型对在线评论文本进行情感分类的方法,并使用网格搜索对模型进行了优化。有监督的机器学习算法会在训练的过程中,不断地去拟合样本数据,如果训练语料不足会导致模型泛化能力差等问题,所以该方法同基于词典规则的方法一样,对标注的数据质量要求很高。由于人工标注数据需要大量的人力物力成本,因此无监督的文本情感分类方法应运而生。Zeng等人[12]提出了一种无监督情感分析的变分方法,不使用情感标注信息,而是使用语句中的目标和意见词对作为监督信息,然后通过向目标函数引入潜在变量达到对文本进行情感分类的目的。Chen等人[13]将无监督的词和文章嵌入算法Word2Vec和Doc2Vec应用于医学和科学文本,使用SentiWordNet作为基准度量,实验证明对于无监督的词语能够文本情感分类任务但是对于文章级别的文本效果没有达到预期。Beigi等人[14]提出了一种在未知领域进行情感分析的无监督方法用于生成特定领域的情感词典,并且在亚马逊多领域情感数据集上证明了该方法优于其他无监督的方法。虽然无监督的文本情感分类方法能够达到对文本进行分类的效果,但是目前仍然只能在无监督领域内进行比较,还难以达到有监督情感分类方法的准确性。常用于学习文本特征的深度学习的模型主要有,卷积神经网络(CNN)[15]、循环神经网络(RNN)[16]以及Transform编码-解码器模型[17]。用于文本分析研究的卷积神经网络(TextCNN)[18],使用卷积层和池化层相互配合,让特征在高维度表示然后降低模型参数,使之能精准捕捉事物的局部特征。TextCNN是利用固定大小的核来对文本特征进行学习训练的,如果一个词语的上下文依赖距离很远,TextCNN就难以学习到它们之间关系。Feng等人[19]提出了一种基于多头注意力机制的多通道卷积神经网络(MCNN-MA)的情感分析模型用于中文短文本的情感分类,该方法将词性特征、位置特征和依存句法特征分别组合,形成三个新的组合特征,输入到MCNN-MA中。RNN在文本情感分析任务中词语的序列信息较明显,本身循环结构能直接保留序列之间顺序关系。而长短期记忆网络(LSTM)[20]是在RNN的基础上进行改进,不仅可以利用循环网络结构保留序列之间关系,同时内置门控机制保存特点目标词汇与句子中的长序列关系,可以避免因为连乘而导致的梯度消失,有效解决了长距离依赖问题。Sivakumar等人[21]提出了一种新的架构,通过将LSTM与词嵌入相结合来提取相邻词之间的语义关系,并应用加权自注意力来从电影影评中提取关键术语,并在IMDB数据集上证明了该方法的有效性。Transformer编码-解码器模型是基于自注意机制的Transformer模型,通过编解码器之间的注意力机制把序列中任意两个序列节点相连,直接学习词向量上每个词汇与整个句子的语义关系生成注意力矩阵,计算整个句子的语义表达不受距离大小限制,使提取序列特征更加准确。DevlinJ等人于2018年提出的BERT(BidirectionalEncoderRepresentationsfromTransformers)就是一种改进的Transformer模型[22],而且它将预训练模型和下游任务模型结合在一起,不仅可以提取文本特征生成文本向量,同时还可以将其直接应用于本分类任务,并且BERT在提出时就已经刷新了自然语言处理领域中的11项纪录。Singh等人[23]使用BERT模型对新冠疫情影响下的推文进行了情感分析研究,综合考虑了推文的平均点赞数和转发次数等特征,实验获得了不错的分类准确率。1.2弹幕相关研究现状随着文本情感分析技术的广泛应用,该技术在社交媒体短文本的研究已经发展了数年。弹幕作为一种新的评论载体,它本质是一种与视频内容密切相关的短文本,也可以将文本情感分析技术应用其中。目前,学者们主要将对弹幕的研究应用于用户行为类别分析和视频高光片段的预测提取这两个方面。最初学者们使用弹幕分析用户的行为动机,仝冲等人[24]采用内容分析的方法对B站的弹幕信息进行了分析,他们最终将用户发送弹幕的动机分为信息需求、娱乐需求和社会需求三种类型。而后H.Qing等人[25]提出了一种基于弹幕情绪分析对用户进行分类的算法,通过引入用户的情感指标作为用户特征进行无监督分类,改进了传统的K-Means算法来计算用户情感分布的距离。由于弹幕内容是与视频内容高度相关的,学者们开始研究通过弹幕分析视频内容。Wu等人[26]最初提出将弹幕信息作为一个特征信息,根据视频语义和用户情感倾向之间的时间依赖性,提出了一种时间-个性化主题模型,对视频片段进行标记。而后,Lv等人[27]提出了一种视频理解框架来为高光视频镜头标记时间标签,利用弹幕与视频的时间相关性设计了一种时间深度结构化语义模型(T-DSSM)对视频高光片段进行标记。He等人[28]提出了一个模型结合弹幕羊群效应、上传者的影响力和视频质量等因素来预测视频流行度。郑飏飏等人[29]则将句子级的情感分析方法用于弹幕文本情感分析,计算弹幕文本的情感值,以此获得弹幕文本中包含的情感信息,并将其映射到视频之上生成网络视频的情感特征及走势图。庄须强等人[30]认为视频“高光”片段可以通过用户对情感激烈的视频片段的讨论来检测的,因此提出了使用LSTM网络模型和注意机制相结合对弹幕文本情感进行分类,并且在此基础上设计了一种视频片段重要性评分,提出了SIS-LSTM模型用于来识别网络视频的高光片段,以帮助用户检索在线视频中有用的信息。Deng等人[31]根据视频片段之间的情感依赖关系,针对复杂信息不规则文本的情感分析问题,提出了一种基于弹幕的视频片段情感识别算法,为用户推荐相关的视频片段。Li等人[32]结合情感词典和朴素贝叶斯来分析弹幕的情感,并将此方法用于预测视频的受欢迎程度。由此可见,目前针对弹幕情感分析最终实际应用的落脚点集中在对弹幕发送者的分析以及视频高光片段提取之上。然而发送弹幕作为一种比较新的用户发表看法的方式,弹幕文本与普通视频评论一样,其中都包含着用户对于视频的看法,视频创作者可以从弹幕中得到观众的反馈,但是视频弹幕数量过多使得视频创作者难以从弹幕中快速得提取关键信息。因此,本文对弹幕情感倾向性进行研究,并使用图形图像将分析的结果直观的展示给视频创作者,使其能够快速了解观众对于视频的看法。参考文献[1] /blackboard/2020niandudanmu.html[2] 杨超,冯时,王大玲,等.基于情感词典扩展技术的网络舆情倾向性分析[J].小型微型计算机系统,2010,31(04).[3] QiuG,LiuB,BuJ,etal.Opinionwordexpansionandtargetextractionthroughdoublepropagation[J].Computationallinguistics,2011,37(1):9-27.[4] DasSR,ChenMY.Yahoo!forAmazon:Sentimentextractionfromsmalltalkontheweb[J].Managementscience,2007,53(9):1375-1388.[5] JinJ,LiuY,JiP,etal.Understandingbigconsumeropiniondataformarket-drivenproductdesign[J].InternationalJournalofProductionResearch,2016,54(10):3019-3041.[6]WangY.Iteration-basednaiveBayessentimentclassificationofmicroblogmultimediapostsconsideringemoticonattributes[J].MultimediaToolsandApplications,2020,79(3).[7]XiaH,YangY,XPan,etal.Sentimentanalysisforonlinereviewsusingconditionalrandomfieldsandsupportvectormachines[J].ElectronicCommerceResearch,2020,343-360.[8]ChenY,LiuP,TeoCP.RegularisedTextLogisticRegression:KeyWordDetectionandSentimentClassificationforOnlineReviews[J].2020.arXiv:2009.04591[9]OrkpholK,YangW.SentimentAnalysisonMicrobloggingwithK-MeansClusteringandArtificialBeeColony[J].InternationalJournalofComputationalIntelligenceandApplications,2019,18(3):1950017.[10] PangB,LeeL,VaithyanathanS.Thumbsup?Sentimentclassificationusingmachinelearningtechniques[J].arXivpreprintcs/0205070,2002.[11] 李佳儒、王玉珍、丁申宇.基于逻辑回归的在线评论情感分类方法研究[J].东莞理工学院学报,2020,v.27;No.119(05):54-58.[12] ZengZ,ZhouW,LiuX,etal.AVariationalApproachtoUnsupervisedSentimentAnalysis[J].2020.[13]ChenQ,SokolovaM.UnsupervisedSentimentAnalysisofObjectiveTexts[M].2019.[14]BeigiOM,MoattarMH.Automaticconstructionofdomain-specificsentimentlexiconforunsuperviseddomainadaptationandsentimentclassification[J].Knowledge-BasedSystems,2020,213(1–2):106423.[15]LecunY,BottouL.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.[16] LecunY,BengioY,HintonG.Deeplearning[J].Nature,2015,521(7553):436-444.[17] VaswaniA,ShazeerN,ParmarN,etal.AttentionIsAllYouNeed[J].arXiv,2017.[18] KimY.ConvolutionalNeuralNetworksforSentenceClassification[J].EprintArxiv,2014.[19]FengY,ChengY.ShortTextSentimentAnalysisBasedonMulti-ChannelCNNWithMulti-HeadAttentionMechanism[J].IEEEAccess,2021,9:19854-19863.[20] GreFfK,SrivastavaRK,JKoutník,etal.LSTM:ASearchSpaceOdyssey[J].IEEETransactionsonNeuralNetworks&LearningSystems,2016,28(10):2222-2232.[21]SivakumarS,RajalakshmiR.AnalysisofSentimentonMovieReviewsUsingWordEmbeddingSelf-AttentiveLSTM[J].InternationalJournalofAmbientComputingandIntelligence(IJACI),2021,12(2):33-52.[22] DevlinJ,Chan
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电商物流管理培训-icqa sbc 交接培训
- 企业并购活动中风险评估方案
- 手术室护理中的心理支持
- 急诊护理应急预案与演练
- 护理技能操作流程图解
- 2026年小学五年级上册阅读理解方法技巧训练卷含答案
- 2026年小学五年级上册数学竖式计算专项卷含答案
- 2026年小学四年级上册数学期末基础复习卷含答案
- 2026年小学三年级上册数学单位换算练习卷含答案
- 护理服务标准化建设
- DB11T 809-2011 典当经营场所安全防范技术要求
- 三年(2023-2025)中考化学真题分类汇编(全国):专题22 实验探究题(解析版)
- 福州地铁笔试题目及答案
- ICU护理病人翻身操作规范培训
- 肿瘤科化疗药物不良反应处理指南
- 2026年淮南师范学院单招职业适应性考试题库1
- 2025成都铁路局集团笔试题目
- 智能卷帘门PLC控制完整设计方案
- 2025年邮政内部竞聘考试题及答案
- 土地征收工作培训课件
- 认识篮球巨星课件
评论
0/150
提交评论