【《基于线性支持向量回归模型的网络评论与在线评分的关系研究》15000字】_第1页
【《基于线性支持向量回归模型的网络评论与在线评分的关系研究》15000字】_第2页
【《基于线性支持向量回归模型的网络评论与在线评分的关系研究》15000字】_第3页
【《基于线性支持向量回归模型的网络评论与在线评分的关系研究》15000字】_第4页
【《基于线性支持向量回归模型的网络评论与在线评分的关系研究》15000字】_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于线性支持向量回归模型的网络评论与在线评分的关系研究—以豆瓣电影为例目录TOC\o"1-3"\h\u7970第一章绪论 5261381.1研究背景及意义 5200141.2研究对象及内容 5228941.3研究方法 5158471.4创新点 6193871.4.1LDA主题分类,文本数据数值化 7180961.4.2采用支持向量回归,提高小样本拟合效果 797111.4.3考虑电影类型对评分评论模型的影响,兼顾定量定性分析 78073第二章文献综述 755472.1在线评论相关文献综述 7203912.2文本挖掘相关文献综述 815613第三章相关理论及模型 945523.1文本处理技术 9125323.2LDA主题模型 9243183.3文本聚类 10178293.4支持向量机和支持向量回归 1017679第四章电影网络评论的文本分析 11234604.1数据获取 1132284.1.1电影数据集抽样 11168934.1.2评论评分获取 1155454.2文本预处理 1264454.2.1数据清洗 12177244.2.2中文分词 12180934.2.3词性过滤 12300014.3建立网络评论文本分类标准 13179324.3.1确定主题个数 1380564.3.2主题及关键词可视化 14193744.3.3建立分类标准 1621224.4网络评论文本分类及情感倾向分析 1737534.4.1网络评论文本分类 1718304.4.2基于情感词典的网络评论情感倾向分析 1831314第五章网络评论与在线评分的关系分析 19196015.1短评文本与评分的关系 19198385.1.1数据的描述性分析 19130325.1.2相关性分析 1973015.1.3线性支持向量回归分析 20232485.2电影类型对于评论和评分及两者关系的影响 2052445.2.1评论词云分析 2061435.2.2评分数据描述性分析 2344345.2.3类型对评论-评分关系的影响研究 246517第六章总结与展望 25260266.1研究总结 25205766.2不足与展望 2527305参考文献 27绪论1.1研究背景及意义随着互联网的普及和移动应用技术的快速发展,互联网进入web2.0时代,电影、书籍、音乐等垂直网站和网络社区等不断涌现,用户不再仅仅是网站的浏览者,同时也是信息的创造者。在线评价越来越成为一种重要的信息载体,从消费者角度来看,其他用户的看法为他们的选择提供参考;从商家角度来说,评价是可靠的反馈和建议;评价甚至还影响平台、政府的决策。我们在电影领域进行在线情感分析时选取豆瓣电影作为数据来源。豆瓣电影是目前国内最大的综合电影网站,更新及时,用户规模庞大,水军比例小,因此具有较强的权威性。另一方面,它同时具备完善的打分评价和评论评价系统。打分评价是用户对产品给出的定量评分,操作方便;评论评价一般为几十到几百字的文本,用以描述用户对产品的感受。豆瓣用户在标记或给某部电影打分时会被网站建议写下短评,这些评论包含了丰富且有价值的信息,是本文重点研究对象。从学术和理论角度来说,国内已有较多学者对豆瓣电影进行评论情感研究,但目前大多数的成果都集中在热点、主题提取以及情感相关的定性分析,比较浅显,针对评论与评分两种评价关系的研究少,没有得出评论情感与评分的回归模型,也没有对不同类型电影展开分析。本研究从上述研究领域的空白出发,运用LDA模型提取影评主题词,建立文本分类标准;同时,自定义情感词典对评论进行1~5的情感赋值,使评论文本的情感数值化,在技术理论层面上实现了评论与评分间的定量分析。从现实角度来说,豆瓣影评是潜在观众获取信息的重要平台,本文通过研究在线评论的主题分类和情感倾向,可以了解到什么样的电影是观众喜欢的,在意的重点为何,不同类型对于评分有什么影响。一方面辅助消费者在选择电影时作出决策,另一方面能够使电影出品方了解当前观众的取向,改善剧本、选角、拍摄等方面,调整宣传策略,主动满足大众需求、适当迎合电影市场,从而获得成功的口碑。1.2研究对象及内容本文以豆瓣电影为研究对象,选取其评分和短评文本为具体研究素材,使用文本挖掘技术对用户评论情感和在线评分的关系展开深入探讨和实证分析。具体研究内容如下:(1)对网络评论和文本挖掘相关知识进行详细的文献综述,介绍LDA主题模型和文本聚类等理论,为后面的研究奠定基础;(2)研究豆瓣短评文本内容与评分的关系,构建分类标准,基于自定义情感词典对每一条评论进行情感倾向赋值,构建线性支持向量回归模型得出定量关系;(3)对于不同种类电影进行模型拟合,研究电影类型对短评与评分关系的影响;(4)根据研究结果,对电影制片方提出针对性建议。1.3研究方法为探究用户在线评论情感对评分的影响,本文设计了如图1-1的研究路线。研究过程中具体用到以下方法:网络爬虫。随着互联网的迅速普及和发展,网络上的信息越来越多,种类繁多且质量参差不齐。获取信息的难度与人们对信息的需求同步增长,因此产生了一种能够按照一定规则自动采集网站信息的程序,被称为网络爬虫。网络爬虫广泛用于互联网搜索引擎或其他类似网站。本文采用网络爬虫技术进行豆瓣评分、短评的搜集,为后续研究提供数据。(2)LDA主题模型。LDA是一种非监督机器学习技术,它采用了词袋的方法,将每一篇文档视为一个词频向量,从而使文本能够转化为数值信息参与建模。每条豆瓣电影短评都有着自己的中心主题,通过LDA主题模型可以挖掘出文本背后隐藏的主题。(3)情感赋值。由于本文研究涉及定量分析,需要将评论文本这类非结构化数据变成结构化数据。首先构建情感词典,按照语法规则自定义赋分标准;再根据情感词典,对文本中的情感倾向性及情感强度进行赋值。从而得到数值化的情感倾向表达,参与后续研究。(4)支持向量回归。支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器,核心思想是最大化分类边际,适用于小样本回归预测。本文分别构建因变量为豆瓣评分,自变量为剧情、真实性、喜剧性等因素的多元线性模型,探讨豆瓣短评文本内容对评分的分别影响。(5)词云。词云又称文字云,即通过形成关键词云层或关键词渲染,对网络文本中出现频率较高的关键词的视觉上的突出。词云图过滤掉大量的文本信息,使浏览者只要扫一眼就可以领略文本的主旨。本文采用词云图分析观众对于不同类型电影的关注重点。图1-1研究路线图1.4创新点1.4.1LDA主题分类,文本数据数值化之前学者对于网络评论文本情感倾向的研究大多为定性研究,围绕情绪积极性、消极性展开的研究较多。而本文使用LDA模型提取网络评论文本主题,得到剧情、特效、真实性、题材、结局、角色塑造、笑点七大类,根据隶属度将评论文本标记为不同分类;再基于情感词典和自定义评分规则对每条评论进行情感赋值,特别把表达情绪强度的词语纳入考虑,区间1-5分,使文本数据转化为数值型数据,直观明确地体现观众对于电影不同方面的情感倾向程度,便于后续模型研究。此外,本文还构建了一条文本对应多个主题的模型,与原有模型进行对比。1.4.2采用支持向量回归,提高小样本拟合效果对数值化的评论数据和评分进行模型拟合时,考虑一般多元线性回归、支持向量回归和神经网络。支持向量机具有稀疏性和稳健性的特点,这是因为它与从归纳到演绎的传统过程不同,另辟蹊径实现了从训练样本到预报样本的“转导推理”,大大简化通常的分类和回归等问题,高效可靠。由于本文数据样本量较小,采用支持向量机进行回归预测的可靠度高于另外两者。1.4.3考虑电影类型对评分评论模型的影响,兼顾定量定性分析目前大多数关于电影情感分析的研究,在得出定量模型后,并没有考虑其他因素对于关系模型本身的影响。而本文在模型的基础上,关注电影类型对于评论和评分之间关系的影响。对不同类型电影分别带入模型发现差异,并进行词云、相关性分析,找出背后隐藏的深层信息。一方面帮助电影出品方更好地了解观众,为其决策提供支持;另一方面对其他领域的在线评论研究具有思路上的参考意义。文献综述2.1在线评论相关文献综述在线评论的一个重要作用就是向其他用户传递评论者的认同度,也就是产品口碑。网络上的在线评论由消费者生产出来,对其他消费者作出购买决策时起到辅助作用[28]。国外对于在线评论的研究开始较早,20世纪50年代就有学者着手研究口碑对消费者的影响[23]。随着时代的发展,相关研究不断深入。Floh等人(2013)提出潜在消费者的购买行为受到在线评论的形式和内容的直接影响[18]。Chong等人(2017)研究在线评论如何直接影响产品的需求,以Amazon网站为数据来源,验证了在线评论的数量、正面和负面评论的数量都是重要影响因素[20]。Kumar(2006)认为,在线评论可以帮助企业挖掘潜在的购买者,通过评论使其对产品有所了解,进而培养忠诚感[24]。目前,研究早已不局限于在线评论本身,涉及到评论有用性、情感分析等方面。Ghose和Ipeirotis(2007)针对搜索型产品分析了评论的主客观倾向、主客观倾向混杂度对在线评论有用性的影响[21]。Mudambi等(2010)通过建立用户评价有用性模型研究了评论极端性、评论深度和商品类型对感知的评论有用性的影响[25]。国内在线评论研究起步较晚,但发展迅速且方向多样。郝媛媛等人(2009)基于网络面板数据环境研究了影评情感倾向与电影票房收入的关系,并进一步比较不同情感等级的评论对票房影响强度的差异[3]。郝媛媛等在2010年的另一项研究中,结合文本挖掘技术和实证研究方法,建立了在线评论有用性影响因素模型,发现当情感表现积极,或是正负情感混杂度高,或是主客观表达混杂度高的情况下,评论的影响效应有所增强[2]。杨秋韵等人(2019)从评论的基本特征、评论者的行为特征、商品的特征和消费者的行为特征四个维度总结了评论有用性的影响因素[17]。在消费者购买意愿方面,邱凌凡等人(2019)利用logistic回归模型,证明了消费者尤其是潜在消费者是否作出购买决定,在很大程度上受到在线评论的影响[10]。王绮和郑晓涛(2016)通过实证研究提出了比起整体评分,消费者更加关注少数网络评论所给出的购买建议的观点[11]。2.2文本挖掘相关文献综述本文的文本挖掘研究从LDA主题识别和情感分析两个方面展开。在话题识别中,第一个主题模型——LDA模型是由Blei等人(2003)通过贝叶斯改进PLSA模型后提出的,这种主题模型具有优秀的降维能力和扎实的概率理论基础,非常适合评论文本提取主题概率,成为了研究文本类型的数据重要工具[19]。近年来,LDA模型因具有优秀的降维能力、针对复杂系统的建模能力和良好的扩展性,成为文本挖掘领域的一个研究热点。通过LDA挖掘出的主题可以帮助人们理解海量文本背后隐藏的语义,也可以作为其他文本分析方法的输入,完成文本分类、话题检测、文本自动摘要和关联判断等多方面的文本挖掘任务。2019年,王涛等基于多种分类器,通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,为商家改善商品质量提出建议,同时为消费者购买提供指导[12]。Weng等(2010)在对微博用户进行画像时用到LDA模型,他将同一微博用户的所有微博文本合成一篇文章,挖掘隐藏的主题[29]。情感分析(sentimentanalysis),又称倾向性分析、情感挖掘,是用户对商品、服务等评论内容的处理,用于分析用户对评论对象的态度。早在1997年,V.Hatzivassiloglou和K.R.McKeown就尝试使用监督学习的方法对词语进行语义倾向判别,并通过加入形容词之间的接续信息提升判定准确率,优化后的模型确率达90%[22]。2002年,B.Pang等使用机器学习技术分析比较了支持向量机、朴素贝叶斯、最大熵3种分析方法的效果,发现支持向量机的方法准确率最高,达到80%以上[26]。国内学者综合上述两种方法进行情感倾向研究。2019年,徐善山基于领域词典,使用朴素贝叶斯和SVM模型两种机器学习方法对文本评论进行情感分类[15]。在电影领域,除去基于词典或机器学习的文档级情感分析之外,还有方面级情感分析。一部电影有很多不同的方面,比如导演、剧本、表演、故事等等。影评人可能会根据这些方面给出自己的意见。如果考虑到个别方面的极性,就有可能对评论进行更好的分析。Thet等人在2010年提出了一种对影评人对电影各个方面的情感取向和情感强度进行精细分析的方法。王伟军、黄英辉等人(2017)通过爬取微博评论信息,利用《同义词词林》以及word2vec等工具构建了新的情感字典,进一步通过分析公众情感对新产品市场做预测研究[13]。黄昭婷等(2017)通过对电影评论进行文本情感分析和建模,分析出每一部电影的情感特征,并对情感特征进行电影聚类分析[4]。马松岳、许鑫(2016)通过使用ROSTEA工具进行情感分析得到评论评价的综合情绪值,发现其与打分评价的相关很高,且评论的情感强度赋权影响不大,可以根据评论评价预测打分,并给出相应的回归模型[9]。与此类似的,夏启政、董益好(2019)通过用户与评论特征构建的二分网络,分析用户的评论倾向,将评论用户与评论特征进行点线连接方式构建网络联系,结合情感分析建立新的评分模型,与原豆瓣评分相比较[27]。相关理论及模型3.1文本处理技术文本处理,就是运用一定技术、程序对语言文字进行处理的手段,核心目的是将“自然语言”转化为“符号语言”。主要步骤包括文本分词、文本清洗、标准化、特征提取等。分词是将连续的句子或段落按照语法规则分成单独的词语的过程。由于中文的最小单元是汉字,汉字存在单独表意和连字成词表意两种情况,词与词之间没有明确的界限[16],因此在中文文本预处理过程中,分词是最基础也最重要的一步,是后续进行标准化、特征提取以及情感赋值的前提,分词的效果影响分类模型的效果。中文分词算法主要有两种,分别是基于词典的分词算法和基于数理统计的分词算法。前者依靠与词典进行匹配分词,简易、高效,但是对词典的依赖性较强,对于词典中没有的词语难以识别;后者有较好的学习能力,但是需要非常多的数据,不适用于小样本。在中文分词实际应用中,这两种算法通常被结合起来使用,提高分词的正确率。停用词指的是在处理文本数据的过程中过滤掉一些没有实际意义的词,目的是减少后续研究中不必要的操作,提高效率。文本中的停用词主要包括四种,分别是副词、介词、连接词和标点符号。停用词表是对常见停用词语的整理,针对国内学者中文分词的需要,目前已有多种适用于中文文本的标准停用词表,如哈尔滨工业大学的停用词词表、四川大学机器学习智能实验室的停用词表、百度停用词表等等[5]。3.2LDA主题模型LDA主题模型(LatentDirichletAllocation)是一种包含词语、主题、文档的三层贝叶斯概率模型,它通过一定的概率统计方法给出文档集中每篇文档的主题,能够用来识别文档中隐藏的主题信息。一篇文档中每个词语出现的条件概率公式为:p(词语∣文档)=∑p(词语∣主题)×p(主题∣文档)LDA主题模型的生成流程为:首先对于每一个文档抽取一个主题,再从抽到主题对应的词语中抽取一个词语,重复上面的步骤直到文本中每一个词语都被抽到。设有一个文档集合D,主题(topic)集合T,把D中每个文档d看作一个单词序列<w1,w2,…,wn>,wi表示第p(w∣d)=p(w∣t)×p(t∣d)其中p(w∣d)表示文档d中的单词在整篇文档中出现的概率,p(t∣d)表示文档中不同主题的概率,p(w∣t)表示主题中生成单词的概率。D中的文档d匹配到不同主题的概率为θd<pt1,...,ptk>,pti表示d匹配T中第i个topic的概率。T中的主题t对应不同单词的概率φt<pw1,...,pwm>,pwi3.3文本聚类文本聚类是一种无监督学习方式,依据同类文档相似度大、不同类文档相似度小的假设,把一个数据根据某种规则划分为多个子数据,这些数据被称为聚类。聚类过程中通常使用距离度量表示相似相异度[1]。因为无监督的特点,聚类相对灵活,不仅不需要训练,还具备一定的自动处理能力,已经成为摘要、检索、优化文本分类的重要方法,在文本分析、网页搜索、推荐系统、商务等多个领域都有着十分广泛的应用。常用的文本聚类算法主要有基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法等。基于划分的聚类算法是聚类中最为简单的算法。它适用于孤立的和紧凑的簇,基本想法是寻找一个可以最小化某一误差准则的聚类结构,最著名的准则是误差平方和(SSE),度量所有样本点到其聚类中心的欧氏距离之和[1]。本文用到的k-means是采用平方误差准则的代表性算法,容易实现且计算高效,对于大部分数据都有较强的适应性,在小样本中表现优秀。算法思想如下:(1)随机选取样本集中的K个样本作为初始的聚类中心;(2)计算其他样本分别与这K个聚类中心的距离,并将其分到距离最近的聚类中心所在的类中;(3)划分完成后,重新计算每个聚类的聚类中心;(4)重复2、3步骤直到满足某个终止条件。确定K的个数是K-means算法中最关键的。3.4支持向量机和支持向量回归支持向量机是一种监督式学习的二分类模型,由Cortes和Vapnik于1995年首先提出,通常用于线性分类,也可使用核技巧进行非线性分类。支持向量机基于统计学习理论的VC维理论和结构风险最小原理,研究如何从给定的有限样本学习任务中,寻求学习精度与能力之间的最佳折衷平衡,以便获得最好的泛化能力。本文在构建模型时用到的支持向量回归是支持向量机的一个重要应用分支。其思路为:对于一般的回归问题,给定训练样本D={(x1,y1),(x2,y2),...,(xn,yn)},yi∈R,w,b分别为超平面的法向量和截距,是待确定的参数。我们希望学习到一个f(x)使得其与y尽可能的接近,只有当f(x)与y完全相同时,模型的损失才为零。而支持向量回归设定能容忍f(x)与y之间的最大偏差ε,当f(x)与图3-1支持向量回归示意图电影网络评论的文本分析4.1数据获取4.1.1电影数据集抽样本文使用python软件从电影数据库网站(http://58921.com/)爬取2018年至2019年所有在国内上映过的所有电影共计1057部,作为电影名称总集。为尽可能保证质量多样性,依照总集中票房分布进行随机抽样:将2018年527部电影根据票房分布分为5个区间,每个区间随机抽取20部电影,得到100部电影;将2019年530部电影按同样标准分为5个区间,每个区间随机抽取20部电影,得到100部电影。考虑到话题多样性的要求,再根据电影类型分布按比例人工抽取40部电影作为补充,最终得到的240部电影作为可用数据集。4.1.2评论评分获取使用python软件对豆瓣电影进行爬虫处理,爬取票房集中240部电影的评分和短评文本内容。每部电影对应一个最终评分,在豆瓣中以十分制显示。短评选取按照点赞数排序后的前200条,对于短评不足200条的电影则选择全部,共获得38490条不重复的短评数据。将电影名称集与评论评分数据集按照电影名称合并为一个,得到用于后续实证研究的数据集。数据字段包括电影名称、评分、短评文本。示例如下:表4-1数据字段示例名称评分短评文本红海行动8.3超前点映场。场面真实,剧情紧凑。中间其实很想上厕所,但是愣是没有找到任何尿点…作为战争片,已超额完成任务,在真实度还原上,达到了国产影片从未有过的高度。红海行动8.3故事没有编排,两个半小时劈头盖脸把爆破场面往观众脸上扔,累不累累不累!红海行动8.3感谢豆瓣观影团给的这次提前点映机会,让我提前看到了这部等了好久期待好久的电影。林超贤导演果然是好,拍出了大片的场面,很燃!几乎是从头打到尾,比战狼2不知好了太多。中国的军事题材电影就应该这么拍才好,不要那么多个人英雄主义的虚假做作,而是拍出质感来。红海行动8.3真人版吃鸡和低配版《使命召唤》,一场大型的闯关游戏,没有人物,没有剧情,没有主题,就是一通狂打,越到后面越视觉疲劳,不过最重要的问题还是空洞乏味,毫无起承转合,看完了连角色都没有认全。红海行动8.3春节档最好!主旋律色彩下,真实又残酷的战争渲染。4.2文本预处理电影短评内容是观众对电影感受的自主表达,评论字数不一,格式自由多样,且不同观众语言习惯不同,存在网络用语、表情符号、不规范的标点符号等。因此,这些原始文本数据不能直接用来提取主题进行情感评分,而要先对数据进行清洗,使格式标准化,并按照中文语义规则进行分词,以便后续研究的展开。4.2.1数据清洗由于在线评论本身的特点,我们的原始数据中有许多无意义的词,也有重复或是不具有情感表达效果的词,这些内容可能造成无效训练,甚至影响后续后续分析的准确性,因此需要对短评文本进行预处理清洗。主要操作如下:(1)删除短句。过短的评论包含信息较少,大多无意义,因此剔除长度10以下的评论。(2)删除英文及数字。用户发布的评论格式自由,中文英文符号、网络新词缩写混合使用,如“☆☆☆”、“很nice”、“666”、“yyds”,难以从此类评论有效提取观众的感情倾向,故删除。(3)去除停用词。该预处理方法的功能是过滤分词结果中的噪声,即一些出现频率高但对于语义分析意义不大的标点符号和词语。本文在选用百度停用词表、哈工大停用词表及四川大学机器智能实验室停用词表这三个通用停词表的基础上,考虑到电影领域部分词汇的专业性,引入了搜狗细胞词库中的电影、明星两大词库,将其合并去重共得70218个停用词。4.2.2中文分词中英文由于语言表达习惯的不同,在分词时思路也有较大区别。英文单词之间通常以空格分开,可直接将空格作为分词标志。而中文语法复杂,且词和词组的边界模糊,因此需要第三方分词工具。本文采用目前国内使用人数最多的jibe库,它支持三种分词模式,其中精确模式可以将句子较准确地切开成为有效词语,适合文本分析。如“我来到电影院观看恐怖片”分词为“我/来到/电影院/观看/恐怖片”,方便统计词频发现热点,并挖掘文本中隐藏的主题及对应特征词。4.2.3词性过滤为了减少无意义的训练,本文在分词之后再次对文本进行过滤。jieba库中的jieba.posseg.cut功能可以输出词性,由于词性种类较多难以判断,输出每一类的分词示例观察(如表4-2)。例如图中o类是拟声词,这是对语义没有帮助的词,应该舍弃;而描述性词语和程度副词应该保留。最后得到的文档包含词性为[“v”,”n”,”d”,”ac”,”r”,”l”,”nr”,”b”,”t”,”i”,”s”,”ns”,”nz”,”ad”,”vn”,”nrt”,”j”,”z”,”nt”,”y”,”an”]的词。此轮过滤建立在精确分词的基础上,且以词性为标准,过滤效果较好。表4-2词性示例vndafcrlmnrbti超前场面真实紧凑中间但是任何超额完成一段海清整个春节劈头盖脸点映剧情其实很妙最后而是自己真实度两个蒋璐霞半小时下来有条不紊没有厕所果然揪心后面不过这次从未有过好久林超贤大型近些年血肉横飞snsdfnzadqvnnrtpmqjuz脸上中国不要英雄主义认全分钟突击令人按照那条上比的话最佳当中好莱坞None大战直接系列协作默契为了这条掌控般的紧绷国内湄公河None华语确实种种预期合理除了这点央视来看干干净净ntoyvdanvinrfgrrvqhrze黑社会噼里啪啦也好持续矛盾等同于韩家其他人去过超低这位啊哈广电局噼噼啪啪而已狡辩安全None张弛NoneNoneNone那位哇塞解放军嗡嗡罢了None猥琐NoneNoneNoneNoneNoneNone嘿呀4.3建立网络评论文本分类标准4.3.1确定主题个数将收集到的原始评论通过数据预处理,最终得到33952条评论。作为一个聚类模型,LDA模型的话题数K对聚类结果的质量有关键影响。为提高主题提取的准确性,在训练LDA模型之前,应先对不同话题数K的聚类效果进行了大致评估。本文采用K-means进行聚类,其中对K值的评估与确定用到肘部法则(elbowmethod)。肘部法则的原理如下:k-means是一种基于划分的分类算法,以最小化SSE为目标函数。将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度,对于一个簇,它的畸变程度越低,代表簇内成员越紧密,反之则代表簇内结构越松散。当类别数量增加时畸变程度下降,且变化过程中存在一个临界点,在该点时畸变程度发生突变,而后缓慢下降,这个临界点被认为是聚类效果较好的点[14]。这一步骤涉及的运算量较大,为优化程序减少耗时,采用多核算法LdaMulticore。得到图4-1。观察可知,当K<7时,曲线下降趋势陡峭,而K>7时,曲线趋于平缓,斜率突变的拐点7即为K的最佳值,因此本文选取7个主题。图4-1Elbowmethod4.3.2主题及关键词可视化本文采用pyLDAvis包将主题模型可视化直观地展示主题分布和各主题下的关键词,探究主题-主题,主题-词语之间的关联。主题-主题用MSD算法投影在二维空间中。主题与词语之间的关联,以前通常直接用每个词条的词频、TF-IDF来衡量,而pyLDAvis包用到以下公式:relevance(termw|topict)=λ∗p(w|t)+(1−λ)∗p(w|t)/p(w)该主题-词语关联度公式同时考虑了词频和词语的独特性两方面,通过调节参数λ可以调整这两个方面在决定关联度时的权重,从而控制不同的下位词显示[6]。λ在0-1之间,越接近0得到的词语独属性越强,越接近1词频越高。本文中在对不同λ对应的关键词进行比较后选择1.0。得到的pyLDAvis可视化界面如图4-2和图4-3。图4-2pyLDAvis主题分布图4-3pyLDAvis关键词图4-2中圆圈代表提取的8个主题,圆圈的位置体现主题之间的关联,距离越近关联性越强,若重叠则说明存在语义的重合。本文得到的pyLDAvis图主题分布均匀、距离适中,说明LDA模型效果较好。圆圈大小由主题包含文档的多少决定,面积越大文档数越多,代表性越强,各主题代表性按照序号依次递减。该图利用Web前端工具生成,具有良好的交互式可视化效果,点击某个圆圈会显示对应主题下包含的关键词,词语分布以条形图的形式展示。图4-3是选中主题4后出现的该话题下的关键词,条形图中蓝色部分表示该词在全部文档中出现的频率,红色部分表示该词在对应的主题下出现的频率。“题材”、“中国”、“现实”等是当前话题的重点关键词。4.3.3建立分类标准表4-3在线评论的主题分类主题1主题2主题3主题4主题5主题6主题7剧情特效真实性题材结局角色塑造笑点剧情场面真实题材结局演技开心故事镜头真的中国情节主角喜剧喜剧技术导演现实最后设定精彩表4-3展示了LDA提取网络评论主题的结果,得到7个主题以及各自对应的特征词。根据特征词给主题命名,分别为:剧情、特效、真实性、题材、结局、角色塑造、笑点。4.4网络评论文本分类及情感倾向分析4.4.1网络评论文本分类本文将预处理后的网络评论文本内容按照表1的自定义分类标准进行分类标注,每条评论会输出相应的类别和隶属度分数,得到结果示例如表4-4。表4-4分类示例名称评分短评文本剧情特效真实性题材结局角色塑造笑点主题红海行动8.3超前点映场。场面真实,剧情紧凑。中间其实很想上厕所,但是愣是没有找到…0.7526660.0000000.0000000.0000000.0000000.2306220.000000剧情红海行动8.3故事没有编排,两个半小时劈头盖脸把爆破场面往观众脸上扔,累不累累…0.9282870.0119980.0119920.0119950.0119850.0119760.011972剧情红海行动8.3感谢豆瓣观影团给的这次提前点映机会,让我提前看到了这部等了好久期…0.0000000.1260260.0000000.2174770.6452310.0000000.000000结局红海行动8.3真人版吃鸡和低配版《使命召唤》,一场大型的闯关游戏,没有人物,没有…0.0000000.0000000.000000.9784190.0000000.0000000.000000题材红海行动8.3春节档最好!主旋律色彩下,真实又残酷的战争渲染。0.0118640.0118890.8521280.0729350.0118720.0118800.011866真实性观察发现,对于其中部分评论,出现了同时属于多个主题且隶属度相近的情况,因此设立一条评论对应多个主题的模型作为参考。即将每条评论标注为其隶属度分数前三的三个主题,统一赋予情感分数。该模型将参与后续研究,并与评论话题一一对应的主模型进行回归预测效果对比。多主题分类标注情况如表4-5所示。表4-5多主题分类示例名称评分短评文本主题1主题2主题3红海行动8.3超前点映场。场面真实,剧情紧凑。中间其实很想上厕所,但是愣是没有找到任何尿点…作为战争片,已...剧情角色塑造特效红海行动8.3故事没有编排,两个半小时劈头盖脸把爆破场面往观众脸上扔,累不累累不累!剧情特效题材红海行动8.3感谢豆瓣观影团给的这次提前点映机会,让我提前看到了这部等了好久期待好久的电影。林超贤导演果然...结局题材特效红海行动8.3真人版吃鸡和低配版《使命召唤》,一场大型的闯关游戏,没有人物,没有剧情,没有主题,就是一通狂...题材剧情特效红海行动8.3春节档最好!主旋律色彩下,真实又残酷的战争渲染。真实性题材特效4.4.2基于情感词典的网络评论情感倾向分析情感词典是情感倾向分析的依据,将文本表达转换为准确的情感程度需要首先构建合适的情感词典。根据语法规则,情感词典主要包含基本情感词、程度副词、否定词,基本情感词表达评论的正面、中性或者负面的情感倾向,程度副词增强或削弱情感,分为五个维度,否定词能反转评论的情感倾向[7]。本文在以往学者研究的情感词典基础上,结合电影短评词典特征,自定义一个电影短评情感词典。用五分制赋予每条评论子句合理的情感值,将文本数据转化为数值型数据,计算规则见表4-6。表4-6情感分值计算规则情感词组合分值情感词组合分值正面/中性+过度5负面+过度1正面/中性+较4负面+较2正面/中性+一般3负面+一般3正面/中性+轻微2负面+轻微4正面/中性+不足1负面+不足5正面/中性+过度+否定1负面+过度+否定5正面/中性+较+否定2负面+较+否定4正面/中性+一般+否定3负面+一般+否定3正面/中性+轻微+否定4负面+轻微+否定2正面/中性+不足+否定5负面+不足+否定1对文本数据进行赋值打分,示例如表4-7。表4-7情感赋值示例名称评分短评文本主题评分红海行动8.3超前点映场。场面真实,剧情紧凑。中间其实很想上厕所,但是愣是没有找到任何尿点…作为战争片,已超额完成任务,...剧情5红海行动8.3故事没有编排,两个半小时劈头盖脸把爆破场面往观众脸上扔,累不累累不累!剧情1红海行动8.3感谢豆瓣观影团给的这次提前点映机会,让我提前看到了这部等了好久期待好久的电影。林超贤导演果然是好,拍出了大...结局5红海行动8.3真人版吃鸡和低配版《使命召唤》,一场大型的闯关游戏,没有人物,没有剧情,没有主题,就是一通狂打,越到后面越...题材1红海行动8.3春节档最好!主旋律色彩下,真实又残酷的战争渲染。真实性5网络评论与在线评分的关系分析5.1短评文本与评分的关系5.1.1数据的描述性分析对全体样本的豆瓣在线评分和评论情感打分值分别绘制饼状图。豆瓣评分评价体系中,用户单独打分以星数展示,有1-5星五种等级。在线评分饼状图中占比最高的是3星,达36.4%,其次是4星占28.0%,以上两类之和超过总数的六成。评分集中在中位区域,数据分布大致呈现纺锤形。而在评论情感分饼状图中,最高分5分占比达68.6%,3分和2分的占比最少。有此可见,用户在进行打分评价时表现得较为克制,倾向于给出中庸、有所保留的分数;而使用文字评论一部电影时,情绪更为明确和激进,正向积极情感的表达尤为强烈。这是网络评论情感研究中值得我们关注的一点。图5-1在线评分饼状图图5-2评论情感分饼状图5.1.2相关性分析以七个话题的情感分作为自变量,在线评分作为因变量进行相关性分析。观察表5-1发现,因变量评分与各自变量之间均存在正相关关系,其中相关性最强的是评分与剧情之间,系数值为0.439;评分与剧情、特效、题材、结局、角色塑造均在0.05水平上显著正相关,说明评分与这六个因素之间相互影响作用较明显;票房与真实性、笑点的相关系数分别为0.277和0.236,存在0.1水平上的正相关但强度较弱。各话题自变量之间的关系有正有负,除真实性与角色塑造表现0.05水平上的正相关外,其余相关性弱。由于这些自变量在概念与逻辑上的关系较为模糊,且非本文研究对象,因此不作过多分析。表5-1相关系数表评分剧情特效真实性题材结局角色塑造笑点评分10.4390.3560.2770.3240.3050.3510.236剧情0.43910.2020.183-0.0080.1090.1820.024特效0.3560.20880.2790.186真实性0.2770.1830.1710.1450.2150.3120.171题材0.324-0.0080.110.14510.1310.1930.19结局0.3050.1090.0880.2150.13110.2390.147角色塑造0.3510.1820.2790.3120.1930.23910.178笑点0.2360.0240.1860.1710.190.1470.17815.1.3线性支持向量回归分析由相关性分析可知,因变量电影评分与七个自变量之间存在较强相关性,本文采用线性支持向量回归方法。首先将五分制的评论情感分按比例转换为对应的十分制分数,在Python中构建多元线性回归模型,最终得出拟合的回归方程公式为:Y=3.20554+0.22954X此时均方误差为0.932。因变量电影评分与自变量七个主题情感分之间存在因果关系,在其他条件不变的情况下,剧情情感分每增加1分,电影评分提高0.23分;同理,特效、真实性、题材、结局、角色塑造、笑点的情感分每提高1分,电影评分分别提高0.16,0.0007,0.09,0.15,0.09,0.01。故七个主题情感倾向均对电影评分有正向影响。将之前用于对照的评论-主题一对多模型按照相同方法进行回归,得到的方程公式为:Y=3.22569+0.13306X此时均方误差为0.985,且出现负数系数,拟合效果不如评论-主题一对一模型。造成该情况的原因可能是,对于大部分短评,第二、第三主题的隶属度较低,将第二、第三主题纳入情感倾向分析,反而导致主题代表性降低,不利于回归分析。5.2电影类型对于评论和评分及两者关系的影响5.2.1评论词云分析在数据总集中按照电影类型得到动作、爱情、动画、文艺、悬疑恐怖五个子集。对于这五个子集进行文本预处理,包括清洗、分词、过滤,得到五个文本数据集。为了直观地了解观众对于不同类型电影在评价上的区别,进行词云分析。本文选用微词云工具,得到五个类型下的评论词云图如下。图5-1动作类电影词云图5-2爱情类电影词云图5-3动画类电影词云图5-4文艺类电影词云图5-5悬疑恐怖类电影词云观察词云图可知,观众对于某一类型电影的评论,一方面与电影本身的内容息息相关,一方面反映了观众观看该类电影时关注的重点。故事、剧情是每一类型中都大量出现的热门关键词,动作和动画片关注特效,爱情和文艺片观众注重导演。具体到类,动作类电影中高频词有“游戏”、“技术”、“场面”、“好莱坞”等,说明动作片的制作水平是观众在评价时关注的重点;“爆米花”、“精彩“、”无聊”则反映观众的观影情绪。爱情类电影词云图中最明显的特点是包含大量情感类词语,如“爱情”、“浪漫”、“矫情”等,说明该类电影需要注重感情的合理表达。动画类中的高频词包括“孩子”、“小朋友”、“低幼”,受众明确。文艺类电影词云图中的“时代”、“社会”、“人生”、“青春”等是文艺片的常见主题,“导演”、“叙事”、“镜头”等词则反映出对拍摄质量的关注。恐怖类电影的热点词许多与“结局”有关,“反转”、“真相”、“推理”是该类型电影的看点。5.2.2评分数据描述性分析对五类电影的评论情感打分情况进行描述性统计分析,如表5-2所示。绘制箱型图得到图5-6。表5-2分类电影描述统计量最小值最大值均值中位数动作6.9爱情5.3动画6.8文艺7.2悬疑恐怖6.5全部6.6图5-6分类电影箱线图观察图表可知,整体评分最高的电影类型是文艺片,均值7.1,中位数7.2,明显高于其他类型,全部电影评分中的最大值9.4也出现在该类别中,说明豆瓣用户倾向于对文艺片给出高评价;其次为动作、动画,均值分别为6.7、6.6,两者比较相近,观众对这两类的评价相对而言较高;悬疑恐怖类的均值为6.3,与所有电影评分均值接近,观众评价中等。均值最小的是爱情类电影,与其他四类差距较大。再看评分分布,文艺类型评分区间最小;动画片虽有离群值,但中位区间集中;评分最离散的是爱情类型电影。试对图表情况作出解释。文艺电影属于小众分类,更注重导演、叙事、拍摄手法而非明星、宣传,因此面向观众大多为对文艺片感兴趣的群体,一定程度上排除了非主动受众打低分的情况;并且豆瓣向来以文艺气息著称,喜爱文艺片的用户比例高,他们愿意用高分给予小众电影鼓励。而爱情电影由于场景成本较低、对导演和演员的硬性要求不高,导致数量多质量却良莠不齐,容易出现所谓“烂片”。5.2.3类型对评论-评分关系的影响研究使用上文中建立的LDA主题模型分别对五种类型电影数据集进行分类,基于同一情感词典给出情感赋分,并进行在线评分与七个方面情感分的相关性分析,得到结果如表5-3。表5-3不同类型下评分与评论相关系数表剧情特效真实性题材结局角色塑造笑点动作0.3330.5870.0240.2560.0230.1590.389爱情0.2640.1920.1290.3660.3740.3830.605动画0.3200.571-0.2220.2480.4140.2520.249文艺0.1660.0750.4170.3200.1960.175-0.257恐怖悬疑0.4230.3180.1640.4140.5840.2830.309由表可知,各个类型的电影评分整体上与七个方面的情感分保持正相关。动作片评分受特效影响最大,在0.01上显著正相关,说明特效水平是观众评价动作电影的重要指标;剧情、笑点与情感分的关系也较强,这两者通常被认为并非动作片的重点,但从数据来看,提升剧情和笑点能给动作片锦上添花。与爱情类电影相关性最高的是笑点,说明爱情喜剧更容易受到观众好评。动画片与特效、结局呈现较强的正相关,符合儿童喜爱精致画面、追求圆满结局的心理;由于幻想是动画片的一大特点,情感分与真实性表现负相关。文艺类电影中情感分正相关最显著的是真实性,与7.1词云分析的结果相符,现实、社会是该类型下最受好评的热门主题;文艺片评分与题材也表现出显著正相关,说明它的高评分一定程度上受益于文艺题材爱好者。悬疑恐怖电影与结局、剧情关联性最高,说明精彩的剧情发展能给该类电影带来口碑上的加分;与题材正相关性较强说明悬疑恐怖片也受到题材爱好者的支持。总结与展望6.1研究总结本文基于文本挖掘研究了在线评论对电影评分的影响,使用Python软件进行网络爬虫获取豆瓣电影短评文本、在线评分数据,采用LDA模型提取评论主题内容,基于文本聚类构建电影评论文本分类标准,并自定义情感词典将每条评论进行类别归属和情感赋值,从而研究不同方面的评论文本内容对电影评分的影响,再细分类型进行拟合,探究电影类型对评论-评分模型的影响。本文主要的结论如下:电影豆瓣评分与评论中关于剧情、特效、真实性、题材、结局、角色塑造、笑点的情感成正相关,其中,观众对于剧情的情感表达对评分影响最大;电影类型影响观众评分以及观众撰写评论时的关注重点。文艺类电影在豆瓣评分评价体系下存在优势,爱情类电影容易被观众判为低分。电影类型还影响评论与评分的关系。对于不同类型电影,评论各方面情感分与评分的相关性存在差异。动作片和动画片中,影响评分最大的评论主题是特效;而对于爱情片来说则是笑点;文艺片、恐怖悬疑片的评分分别与评论中真实性、剧情方面的情感倾向最相关。根据上述结论对电影出品方提出建议:制作一部口碑优秀的电影要综合考虑剧情、题材、场面、角色塑造等方面;(2)不能因为某些电影对场面特效要求低、对演员的硬性限制少而大量拍摄,一味追求盈利压缩成本的粗制滥造只会带来负面口碑;反之,小众电影虽然在豆瓣评分中存在优势,但它们对于导演、演员、工作人员的审美、技术都有较高要求,切忌盲目跟风。(3)制作不同电影时,在综合考虑各方面的基础上,要有针对性地根据电影类型重点关注某一方面。如对于动作片要考虑在特效方面增加投入;悬疑恐怖片则要注重剧情的起伏与推理性,在宣传时主要面向悬疑爱好者。使得同等投入下收益最大化。6.2不足与展望理论方面,本研究得出了短评内容如何影响评分的相关结论,成功构建定量关系,但作为预测模型精度有待提高。主要是因为技术方面存在不足。本文数据样本量较小,在运用LDA模型过程中,模型解释性一般。采用无监督分类,但由于汉语本身的复杂性,分类词典无法涵盖所有词汇,导致分类准确度上存在不足。此外,忽略了作为自变量的几个因素存在重要性差异,没有进行加权比较。在未来的研究中,可以针对以上研究不足进行探索。增加数据样本量,优化文本预处理方案,提高LDA模型的解释性;引入半监督学习,通过人工校正提升分类效果;对不同因素进行加权进行拟合度比较,分析各因素对评分的影响力指数。从现实来看,用户评价的作用与意义越来越受到重视,商家、消费者、平台纷纷将其纳入决策支持等相关实际应用中。本文研究结论可为追求口碑的电影出品方提供决策建议。此外,虽然当前在线评论领域相关研究发展较快,但对评论和评分这两种评价方式关系的研究还不够充分。本文所构建的回归模型基于评论文本中的情感倾向进行评分预测,对于已有评分和评论的网站,可以作为参考建立更可靠的综合评价体系;对于仅有评论评价的网站,能够提供后台参考评分,有利于形成符合分值的排序和有效精准推荐,或是作为页面显示的一部分,让网站使用者无需浏览大量文本评论就能了解某一内容的总体用户认同度,节省用户的时间精力。综上,本研究应用前景广阔,希望通过今后的进一步探索,得到更有效的模型,更好地服务实际需求。参考文献陈宝楼.K-Means算法研究及在文本聚类中的应用[D].安徽大学,2013.郝媛媛,叶强,李一军.基于影评数据的在线评论有用性影响因素研究[J].管理科学学报,2010,13(08):78-88.郝媛媛,邹鹏,李一军,等.基于电影面板数据的在线评论情感倾向对销售收入影响的实证研究[J].管理评论,2009,21(10):95-103.黄昭婷、刘媛、丁鑫.一种基于影评文本情感分析的电影特征模型[J].现代电影技术2017.蒋斌.基于停用词处理的汉语语音检索方法[D].哈尔滨工业大学.2008.刘自强,许海云,岳丽欣,方曙.基于Chunk-LDAvis的核心技术主题识别方法研究[J].图书情报工作,2019,63(09):73-84.骆昌日,何婷婷.网络语言的特点及其情感性意义[J].武汉理工大学学报(社会科学版),2015,28(02):322-328.吕结红.基于文本挖掘的酒店在线评论研究[D].华中师范大学,2020.马松岳,许鑫.基于评论情感分析的用户在线评价研究——以豆瓣网电影为例[J].图书情报工作,2016,60(10):95-102.邱凌凡.在线评论影响购买行为研究[J].市场周刊,2019(09):87-88.王绮与郑晓涛,在线评论的生动效应和商户再反馈对消费者购买意愿的影响——以经济型酒店为调查样本.湖南师范大学社会科学学报,2016.45(01):第105-113页.王涛,李明.基于LDA模型与语义网络对评论文本挖掘研究[J].重庆工商大学学报(自然科学版),2019,36(04):9-16.王伟军、黄英辉、李颖、刘辉、张婷婷、刘凯.基于微博公众情感状态的新产品尺长预测[J].情报学派2017.吴广建,章剑林,袁丁.基于K-means的手肘法自动获取K值方法研究[J].软件,2019,040(005):167-170.徐善山.基于领域词典和机器学习的影评情感分析[J].电脑知识与技术,2019,15(23):222-223.杨开平.基于语义相似度的中文文本聚类算法研究[D].电子科技大学,2018.杨秋韵,陈福娣.在线评论有用性的影响因素分析[J].企业改革与管理,2019(02):107-110.ArneFloh,MonikaKoller,AlexanderZauner.Takingadeeperlookatonlinereviews:Theasymmetriceffectofvalenceintensityonshoppingbehaviour[J].Journal

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论