版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电影网络评论的文本分析案例目录TOC\o"1-3"\h\u13704电影网络评论的文本分析案例 192391.1数据获取 1306511.1.1电影数据集抽样 1156251.1.2评论评分获取 145751.2文本预处理 2135161.2.1数据清洗 2308871.2.2中文分词 3134091.2.3词性过滤 39621.3建立网络评论文本分类标准 411891.3.1确定主题个数 443141.3.2主题及关键词可视化 5276021.3.3建立分类标准 860341.4网络评论文本分类及情感倾向分析 8276581.1.1网络评论文本分类 8323591.1.2基于情感词典的网络评论情感倾向分析 101.1数据获取1.1.1电影数据集抽样本文使用python软件从电影数据库网站(http://58921.com/)爬取2018年至2019年所有在国内上映过的所有电影共计1057部,作为电影名称总集。为尽可能保证质量多样性,依照总集中票房分布进行随机抽样:将2018年527部电影根据票房分布分为5个区间,每个区间随机抽取20部电影,得到100部电影;将2019年530部电影按同样标准分为5个区间,每个区间随机抽取20部电影,得到100部电影。考虑到话题多样性的要求,再根据电影类型分布按比例人工抽取40部电影作为补充,最终得到的240部电影作为可用数据集。1.1.2评论评分获取使用python软件对豆瓣电影进行爬虫处理,爬取票房集中240部电影的评分和短评文本内容。每部电影对应一个最终评分,在豆瓣中以十分制显示。短评选取按照点赞数排序后的前200条,对于短评不足200条的电影则选择全部,共获得38490条不重复的短评数据。将电影名称集与评论评分数据集按照电影名称合并为一个,得到用于后续实证研究的数据集。数据字段包括电影名称、评分、短评文本。示例如下:表4-1数据字段示例名称评分短评文本红海行动8.3超前点映场。场面真实,剧情紧凑。中间其实很想上厕所,但是愣是没有找到任何尿点…作为战争片,已超额完成任务,在真实度还原上,达到了国产影片从未有过的高度。红海行动8.3故事没有编排,两个半小时劈头盖脸把爆破场面往观众脸上扔,累不累累不累!红海行动8.3感谢豆瓣观影团给的这次提前点映机会,让我提前看到了这部等了好久期待好久的电影。林超贤导演果然是好,拍出了大片的场面,很燃!几乎是从头打到尾,比战狼2不知好了太多。中国的军事题材电影就应该这么拍才好,不要那么多个人英雄主义的虚假做作,而是拍出质感来。红海行动8.3真人版吃鸡和低配版《使命召唤》,一场大型的闯关游戏,没有人物,没有剧情,没有主题,就是一通狂打,越到后面越视觉疲劳,不过最重要的问题还是空洞乏味,毫无起承转合,看完了连角色都没有认全。红海行动8.3春节档最好!主旋律色彩下,真实又残酷的战争渲染。1.2文本预处理电影短评内容是观众对电影感受的自主表达,评论字数不一,格式自由多样,且不同观众语言习惯不同,存在网络用语、表情符号、不规范的标点符号等。因此,这些原始文本数据不能直接用来提取主题进行情感评分,而要先对数据进行清洗,使格式标准化,并按照中文语义规则进行分词,以便后续研究的展开。1.2.1数据清洗由于在线评论本身的特点,我们的原始数据中有许多无意义的词,也有重复或是不具有情感表达效果的词,这些内容可能造成无效训练,甚至影响后续后续分析的准确性,因此需要对短评文本进行预处理清洗。主要操作如下:(1)删除短句。过短的评论包含信息较少,大多无意义,因此剔除长度10以下的评论。(2)删除英文及数字。用户发布的评论格式自由,中文英文符号、网络新词缩写混合使用,如“☆☆☆”、“很nice”、“666”、“yyds”,难以从此类评论有效提取观众的感情倾向,故删除。(3)去除停用词。该预处理方法的功能是过滤分词结果中的噪声,即一些出现频率高但对于语义分析意义不大的标点符号和词语。本文在选用百度停用词表、哈工大停用词表及四川大学机器智能实验室停用词表这三个通用停词表的基础上,考虑到电影领域部分词汇的专业性,引入了搜狗细胞词库中的电影、明星两大词库,将其合并去重共得70218个停用词。1.2.2中文分词中英文由于语言表达习惯的不同,在分词时思路也有较大区别。英文单词之间通常以空格分开,可直接将空格作为分词标志。而中文语法复杂,且词和词组的边界模糊,因此需要第三方分词工具。本文采用目前国内使用人数最多的jibe库,它支持三种分词模式,其中精确模式可以将句子较准确地切开成为有效词语,适合文本分析。如“我来到电影院观看恐怖片”分词为“我/来到/电影院/观看/恐怖片”,方便统计词频发现热点,并挖掘文本中隐藏的主题及对应特征词。1.2.3词性过滤为了减少无意义的训练,本文在分词之后再次对文本进行过滤。jieba库中的jieba.posseg.cut功能可以输出词性,由于词性种类较多难以判断,输出每一类的分词示例观察(如表4-2)。例如图中o类是拟声词,这是对语义没有帮助的词,应该舍弃;而描述性词语和程度副词应该保留。最后得到的文档包含词性为[“v”,”n”,”d”,”ac”,”r”,”l”,”nr”,”b”,”t”,”i”,”s”,”ns”,”nz”,”ad”,”vn”,”nrt”,”j”,”z”,”nt”,”y”,”an”]的词。此轮过滤建立在精确分词的基础上,且以词性为标准,过滤效果较好。表4-2词性示例vndafcrlmnrbti超前场面真实紧凑中间但是任何超额完成一段海清整个春节劈头盖脸点映剧情其实很妙最后而是自己真实度两个蒋璐霞半小时下来有条不紊没有厕所果然揪心后面不过这次从未有过好久林超贤大型近些年血肉横飞snsdfnzadqvnnrtpmqjuz脸上中国不要英雄主义认全分钟突击令人按照那条上比的话最佳当中好莱坞None大战直接系列协作默契为了这条掌控般的紧绷国内湄公河None华语确实种种预期合理除了这点央视来看干干净净ntoyvdanvinrfgrrvqhrze黑社会噼里啪啦也好持续矛盾等同于韩家其他人去过超低这位啊哈广电局噼噼啪啪而已狡辩安全None张弛NoneNoneNone那位哇塞解放军嗡嗡罢了None猥琐NoneNoneNoneNoneNoneNone嘿呀1.3建立网络评论文本分类标准1.3.1确定主题个数将收集到的原始评论通过数据预处理,最终得到33952条评论。作为一个聚类模型,LDA模型的话题数K对聚类结果的质量有关键影响。为提高主题提取的准确性,在训练LDA模型之前,应先对不同话题数K的聚类效果进行了大致评估。本文采用K-means进行聚类,其中对K值的评估与确定用到肘部法则(elbowmethod)。肘部法则的原理如下:k-means是一种基于划分的分类算法,以最小化SSE为目标函数。将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度,对于一个簇,它的畸变程度越低,代表簇内成员越紧密,反之则代表簇内结构越松散。当类别数量增加时畸变程度下降,且变化过程中存在一个临界点,在该点时畸变程度发生突变,而后缓慢下降,这个临界点被认为是聚类效果较好的点[14]。这一步骤涉及的运算量较大,为优化程序减少耗时,采用多核算法LdaMulticore。得到图4-1。观察可知,当K<7时,曲线下降趋势陡峭,而K>7时,曲线趋于平缓,斜率突变的拐点7即为K的最佳值,因此本文选取7个主题。图4-1Elbowmethod1.3.2主题及关键词可视化本文采用pyLDAvis包将主题模型可视化直观地展示主题分布和各主题下的关键词,探究主题-主题,主题-词语之间的关联。主题-主题用MSD算法投影在二维空间中。主题与词语之间的关联,以前通常直接用每个词条的词频、TF-IDF来衡量,而pyLDAvis包用到以下公式:relevance(termw|topict)=λ∗p(w|t)+(1−λ)∗p(w|t)/p(w)该主题-词语关联度公式同时考虑了词频和词语的独特性两方面,通过调节参数λ可以调整这两个方面在决定关联度时的权重,从而控制不同的下位词显示[6]。λ在0-1之间,越接近0得到的词语独属性越强,越接近1词频越高。本文中在对不同λ对应的关键词进行比较后选择1.0。得到的pyLDAvis可视化界面如图4-2和图4-3。图4-2pyLDAvis主题分布图4-3pyLDAvis关键词图4-2中圆圈代表提取的8个主题,圆圈的位置体现主题之间的关联,距离越近关联性越强,若重叠则说明存在语义的重合。本文得到的pyLDAvis图主题分布均匀、距离适中,说明LDA模型效果较好。圆圈大小由主题包含文档的多少决定,面积越大文档数越多,代表性越强,各主题代表性按照序号依次递减。该图利用Web前端工具生成,具有良好的交互式可视化效果,点击某个圆圈会显示对应主题下包含的关键词,词语分布以条形图的形式展示。图4-3是选中主题4后出现的该话题下的关键词,条形图中蓝色部分表示该词在全部文档中出现的频率,红色部分表示该词在对应的主题下出现的频率。“题材”、“中国”、“现实”等是当前话题的重点关键词。1.3.3建立分类标准表4-3在线评论的主题分类主题1主题2主题3主题4主题5主题6主题7剧情特效真实性题材结局角色塑造笑点剧情场面真实题材结局演技开心故事镜头真的中国情节主角喜剧喜剧技术导演现实最后设定精彩表4-3展示了LDA提取网络评论主题的结果,得到7个主题以及各自对应的特征词。根据特征词给主题命名,分别为:剧情、特效、真实性、题材、结局、角色塑造、笑点。1.4网络评论文本分类及情感倾向分析1.1.1网络评论文本分类本文将预处理后的网络评论文本内容按照表1的自定义分类标准进行分类标注,每条评论会输出相应的类别和隶属度分数,得到结果示例如表4-4。表4-4分类示例名称评分短评文本剧情特效真实性题材结局角色塑造笑点主题红海行动8.3超前点映场。场面真实,剧情紧凑。中间其实很想上厕所,但是愣是没有找到…0.7526660.0000000.0000000.0000000.0000000.2306220.000000剧情红海行动8.3故事没有编排,两个半小时劈头盖脸把爆破场面往观众脸上扔,累不累累…0.9282870.0119980.0119920.0119950.0119850.0119760.011972剧情红海行动8.3感谢豆瓣观影团给的这次提前点映机会,让我提前看到了这部等了好久期…0.0000000.1260260.0000000.2174770.6452310.0000000.000000结局红海行动8.3真人版吃鸡和低配版《使命召唤》,一场大型的闯关游戏,没有人物,没有…0.0000000.0000000.000000.9784190.0000000.0000000.000000题材红海行动8.3春节档最好!主旋律色彩下,真实又残酷的战争渲染。0.0118640.0118890.8521280.0729350.0118720.0118800.011866真实性观察发现,对于其中部分评论,出现了同时属于多个主题且隶属度相近的情况,因此设立一条评论对应多个主题的模型作为参考。即将每条评论标注为其隶属度分数前三的三个主题,统一赋予情感分数。该模型将参与后续研究,并与评论话题一一对应的主模型进行回归预测效果对比。多主题分类标注情况如表4-5所示。表4-5多主题分类示例名称评分短评文本主题1主题2主题3红海行动8.3超前点映场。场面真实,剧情紧凑。中间其实很想上厕所,但是愣是没有找到任何尿点…作为战争片,已...剧情角色塑造特效红海行动8.3故事没有编排,两个半小时劈头盖脸把爆破场面往观众脸上扔,累不累累不累!剧情特效题材红海行动8.3感谢豆瓣观影团给的这次提前点映机会,让我提前看到了这部等了好久期待好久的电影。林超贤导演果然...结局题材特效红海行动8.3真人版吃鸡和低配版《使命召唤》,一场大型的闯关游戏,没有人物,没有剧情,没有主题,就是一通狂...题材剧情特效红海行动8.3春节档最好!主旋律色彩下,真实又残酷的战争渲染。真实性题材特效1.1.2基于情感词典的网络评论情感倾向分析情感词典是情感倾向分析的依据,将文本表达转换为准确的情感程度需要首先构建合适的情感词典。根据语法规则,情感词典主要包含基本情感词、程度副词、否定词,基本情感词表达评论的正面、中性或者负面的情感倾向,程度副词增强或削弱情感,分为五个维度,否定词能反转评论的情感倾向[7]。本文在以往学者研究的情感词典基础上,结合电影短评词典特征,自定义一个电影短评情感词典。用五分制赋予每条评论子句合理的情感值,将文本数据转化为数值型数据,计算规则见表4-6。表4-6情感分值计算规则情感词组合分值情感词组合分值正面/中性+过度5负面+过度1正面/中性+较4负面+较2正面/中性+一般3负面+一般3正面/中性+轻微2负面+轻微4正面/中性+不足1负面+不足5正面/中性+过度+否定1负面+过度+否定5正面/中性+较+否定2负面+较+否定4正面/中性+一般+否定3负面+一般+否定3正面/中性+轻微+否定4负面+轻微+否定2正面/中性+不足+否定5负面+不足+否定1对文本数据进行赋值打分,示例如表4-7。表4-7情
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026四川大学华西医院医院感染管理部项目制科研助理招聘1人考试备考题库及答案解析
- 2026年泉州晋江市第五实验小学春季教师招聘4人笔试备考题库及答案解析
- 2026中国纺织出版社有限公司招聘考试备考试题及答案解析
- 2026江苏南京大学招聘XZ2026-005商学院保洁员考试备考题库及答案解析
- 2026年海南师范大学招聘备考题库及完整答案详解1套
- 2026年苏州工业园区翰林幼儿园后勤辅助人员招聘备考题库及答案详解1套
- 四川南江公用事业发展集团有限公司2025年面向社会公开招聘5名工作人员的备考题库有答案详解
- 2026年石家庄经济技术开发区开发建设集团有限公司招聘工作人员35人备考题库完整参考答案详解
- 2026年湛江市坡头区人力资源和社会保障局面向社会公开招聘编外工作人员备考题库及参考答案详解一套
- 2026年潍坊峡山医院潍坊市福乐源康复养老中心护理人员招聘备考题库及1套完整答案详解
- 2025至2030中国疝气修补术行业调研及市场前景预测评估报告
- 中国餐饮巨头百胜集团深度分析
- 2024-2025学年福建省厦门市双十中七年级(上)期末英语试卷
- 胸锁乳突肌区课件
- 2025年物业管理师《物业管理实务》真题及试题及答案
- 2025年协警辅警招聘考试题库(新)及答案
- 钢结构施工优化策略研究
- 车间轮岗工作总结
- 天花设计施工方案
- 本科院校实验员面试电子版题
- 2025年国家开放大学(电大)《国际经济法》期末考试复习题库及答案解析
评论
0/150
提交评论