版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
手游评论情感词典构建案例分析目录TOC\o"1-3"\h\u4979手游评论情感词典构建案例分析 1326441.1情感词典相关介绍 165181.1.1情感词典概述 1166771.1.2情感词典分类 2311551.2武侠手游专属情感词典 3206421.2.1建立武侠手游专属情感词典的意义 3234851.2.2SO-PMI算法 355461.2.3基于Laplace平滑的改进SO-PMI算法[39] 5300391.2.4基于Good-Turing平滑的改进SO-PMI算法[40] 641921.2.5情感词典构建 71.1情感词典相关介绍1.1.1情感词典概述情感是人类对某一事物所持态度和反应,是检验某一事物的存在和事件的发生是否符合人类预期及价值观时而产生的态度体验。[37]情感分析是为了找出说话者或作者在某一话题或针对某一文本的带有情感倾向观点和态度。对于评论而言,用户通过对某一话题、产品或事件发表自己的意见、观点、立场等,来表达内心的情感倾向[38]。情感倾向是人类对于某一事物的主观存在的内心喜恶和内在评价的倾向,由两方面衡量,即情感倾向方向和情感倾向度。情感倾向方向又称为情感极性,通常表现为正面情感、中性情感和负面情感。如“喜欢”和“好看”表示赞扬,是正面情感;“讨厌”和“难看”表示否定,是负面情感;而类似于“看过这部电影”和“去过这个地方”等难以判断情感倾向的词汇和语句则划分为中性情感。情感倾向度是指主体对客体表达正面情感或负面情感的强弱程度,通常表达为不同的情感词或是修饰副词。比如,“喜欢”和“深爱”虽都表示正面情感,但“深爱”比“喜欢”在情感程度上更为强烈。又比如,“一般好看”和“非常好看”对比时,“非常”比“一般”的修饰程度更加强烈。情感词表示包含情感倾向的词汇,分为正面情感词,即积极词,和负面情感词,即消极词,具有较为浓烈的情感色彩。情感词典则是情感词的集合,分为包含正面情感词的积极情感词典和包含负面情感词的消极情感词典。1.1.2情感词典分类1.1.2.1基础情感词典(1)知网HowNet情感词典HowNet是中国科学计算机研究所的研究成果。根据德克萨斯大学计算机系知识系统研究小组的评价,HowNet是用于自然语言处理的在线的常识知识库,包含中文词典中概念与概念间的关系,概念的属性与属性间的关系,中文对应的英文概念以及概念的属性间的关系。(2)台湾大学简体中文情感极性词典NTUSD台湾大学NTUSD中文情感极性词典是基于二元划分法的一个中文词库,共计11086个词语,即2810个积极词语和8276个消极词语。(3)其他情感词典清华大学李军中文褒贬义词典共包含5568个褒义词和4470个贬义词。大连理工情感词典将情感分为乐、好、怒、哀、惧、恶、惊七大类和21个小类,并将情感词分为正向、中性和负向三个极性,并具有0到10不同的情感程度。1.1.2.2网络情感词典伴随着互联网的普及,网络世界逐渐呈现出年轻化,而网络用语也随之流行。虽然相比于书面语,网络用语更加口语化且表达形式多种多样,但同样多带有感情色彩。有的词可能是现有可在基础词典中找到的词语的缩写,如“yygq(阴阳怪气)”;有的是外文音译来的,如“瑞思拜(respect,尊重)”;有的则是独立创作的不限于汉字表述的用语组成,如“就这”、“666”、“永远滴神”。上述举例的网络用语都带有较为强烈的情感倾向,如“yygq”表示说话讥讽,带有贬义和批评的情感,“就这”表示对实力的失望和不满,也是带有否定情感;而“瑞思拜”表示对某人的尊敬和崇拜,“666”则是对某人行为举止的夸赞和表扬,“永远滴神”表示对某人或某物的高度赞扬,都具有正面情感。网络评论大多为口语化表达,因此针对网络评论来建立网络情感词典尤为重要。本文通过网络搜索总结,与现有基础情感词典结合,形成评论基础情感词典。其中基础词典包含《知网HowNet词典》、《台湾大学NTUSD情感极性词典》、《清华大学李军中文褒贬义词典》和《大连理工情感词典》。表5-1基础情感词典Table3-1Basicemotiondictionary基础词典名称褒义词/个贬义词/个知网HowNet词典45664370台湾大学NTUSD情感极性词典28108276清华大学李军中文褒贬义词典55684470大连理工情感词典1355113916对结合后的词典进行去重后,得到21595个正面情感词和24831个负面情感词。1.2武侠手游专属情感词典1.2.1建立武侠手游专属情感词典的意义基础情感词典包含的情感词都较为书面,不能体现现代中文千奇百怪的表达方式。一些本来不包含情感倾向的词语出现在特定领域则会带有一定的感情色彩,比如“开挂”这个词,表示采取不正当手段修改游戏客户端来使自己游戏获得更多利益,多带有批评和嘲讽意味。收集这样的特定情感词形成专属情感词典,对更准确地判断评论情感倾向有着重要的影响。本文使用的建立武侠手游专属情感词典的方法是先通过TextRank法收集情感种子词,再利用《同义词词林》的方法对情感种子词进行扩展,再以扩展后的情感种子词作为基准,利用基于改进的SO-PMI算法选取扩充词,构建专属情感词典。1.2.2SO-PMI算法SO-PMI(SemanticOrientationPointwiseMutualInformation)算法全称为情感倾向点互信息算法,其由SO-PMI和PMI两部分组成。1.2.2.1PMI算法[39]点互信息算法,又称PMI算法,是用来判断某一词与基准词出现的概率。其表达式为:,(5-1)其中为和共现的概率,为出现的概率,为出现的概率,若和相互独立,则,即。则PMI的结果分析如下:(5-2)为了方便编程计算,,,可以表示为(5-3)(5-4)(5-5)其中,为文档总数,为和共现的次数,为出现的次数,为出现的次数。则带入后得:(5-6)1.2.2.2SO-PMI算法[16]SO-PMI算法的基本思想是:判断某一未知词汇与种子词的关联程度。若其与积极种子词的关联程度较大,则判定其为积极词;若其与消极种子词的关联程度较大,则判定其为消极词;若其与积极种子词和消极种子词的关联程度相同,则判定其为中性词。SO-PMI的算法表达式如下:(5-7)其中,表示未知词汇和第个积极种子词的关联程度,表示积极种子词的个数,表示未知词汇和第个消极种子词的关联程度,表示消极种子词的个数。则SO-PMI的分析结果如下:(5-8)利用SO-PMI算法可以将文本中的未知词汇判断分为积极词或消极词,并加入相应的情感词典中。1.2.3基于Laplace平滑的改进SO-PMI算法[39]由SO-PMI的表达式我们可以得知,若某词并未在文档中出现,即,则会出现分母为0的情况;且当分子为0时,通过python应用程序进行分析时可能会报错。为了解决上述问题,杜锐、朱艳辉等人(2015)提出在《基于平滑SO-PMI算法的微博情感词典构建方法研究》中提出基于Laplace平滑的SO-PMI算法。Laplace平滑又称加一平滑(add-onesmoothing),由法国科学家拉普拉斯最早提出。在训练集很大的情况下,在避免零概率问题出现的同时,其每个分量的计数加1对结果造成的概率变化可以忽略不计。其表达式为:(5-9)其中,表示所有可能的不同的种子词数量。带入到上述公式中得:(5-10)则PMI值可表示为:。(5-11)SO-PMI可表示为:(5-12)其中,。(5-13)由于在某个固定的待研究文本中,其积极词个数和消极词个数是既定的,即(5-14)故可看做是某一常数。当未知词与积极种子词和消极种子词共现的次数相同,即(5-15)则未知词为中性词,即(5-16)基于Laplace平滑的改进SO-PMI的表达式变为(5-17)当消极种子词个数小于积极种子词个数,即,其SO-PMI值小于0,未知词汇被误判为消极词;当消极词个数大于积极词个数,即,其SO-PMI值大于0,未知词汇被误判为积极词。为了避免带来的判断误差,故将赋予固定值,令。(5-18)则基于Laplace平滑的改进SO-PMI的表达式为:(5-19)1.2.4基于Good-Turing平滑的改进SO-PMI算法[40]Good-Turing平滑又称为图灵估计,用来平滑不常见的词组。其基本思想是通过判断计数的高低,利用出现次数较多的词组去调整出现次数低于他的词组的估计量。其平滑计数为:,(5-20)其中,表示某词组出现的次数,表示出现次数为的词组的个数。姜伶伶、何中市等(2018)在《基于Good-Turing平滑SO-PMI算法构建微博情感词典方法的研究》中,将其引入到SO-PMI算法中,则(5-21)其中,为Good-Turing的平滑计数。(5-22)其中,表示文档中发生次的未知词汇的个数,表示文档中发生次的未知词汇的个数。则PMI可表示为:(5-23)SO-PMI的表达式为:(5-24)其中,。(5-25)将赋值为1,原因见3.2.3。则基于Laplace平滑的改进SO-PMI的表达式为:。(5-26)1.2.5情感词典构建1.2.1.1评价指标[40]本文使用准确率(Precision)、召回率(Recall)和F1值作为评价指标。表达式如下:,(5-27),(5-28)。(5-29)其中,准确率precision表示被判为正类()中,被正确识别为正类()所占的比例;召回率recall表示所有真正为正类()中,被识别为正类()所占的比例;F1综合考虑了准确率和召回率,当F1较高时,方法越有效。1.2.1.2数据选择本文通过构建由两款游戏评论组合,随机抽取1000条进行分词等规范化处理后作为测试集,再利用Textrank法选取出60个积极种子词和60个消极种子词作为构建领域情感词典的基准词。1.2.1.2实验过程与结果本文分别使用SO-PMI算法、基于Laplace平滑的改进SO-PMI算法和基于Good-Turing平滑的改进SO-PMI算法进行领域情感词的识别。其基本步骤流程图如下:图5-1领域情感词典构建示意图Fig5-1Thepictureofbuildingfieldemotiondictionary第一步:利用jieba分词对评论语料进行分词处理。第二步:通过算法提取文本中的候选词,将候选词与已建立的基础情感词典进行匹配,若为已有情感词则忽略,若为未知情感词则保留。第三步:将候选词与积极种子词和消极种子词进行三种SO-PMI算法的计算,获得相应的SO-PMI值,再根据得到的值分析其情感倾向。第四步:根据情感倾向的不同将候选词分入不同的极性情感词典,即情感倾向为积极,则分入积极词典;若情感倾向为消极,则分入消极词典;情感倾向为中性则舍弃[16]。部分输出结果展示见附录Ⅱ。通过SO-PMI算法和两种改进的SO-PMI算法对比,即对比三种方法的准确率(Precision)、召回率(Recall)和F1值。PosP、PosR、PosF1分别表示积极准确率、积极召回率和积极F1值,NegP、NegR、NegF1分别表示消极准确率、消极召回率和消极F1值。对比结果如下所示。表5-1三种SO-PMI算法评价指标Table5-1TheevaluationindicatorsThreealgorithms方法PosPPosRPosF1NegPNegRNegF1SO-PMI58.9%71.1%64.4%70.3%57.5%63.3%Laplace-SO-PMI61.4%78.6%71.4%76.4%67.2%71.5%GoodTuring-SO-PMI79.7%81.3%82.4%78.6%84.2%81.3%图5-2积极词评价指标折线图Fig5-2Thelinechartofevaluationindicatorsofpositivewords图5-3消极词评价指标折线图Fig5-2Thelinechart
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年欺诈骗保防范培训
- 2026年浙江树人学院树兰国际医学院招聘备考题库及答案详解一套
- 2026年陕西空天丝路文化运营管理有限责任公司社会招聘备考题库及完整答案详解一套
- 2026年新余市市直及县区重点中学公开招聘体育教师6人备考题库及答案详解一套
- 2025年鱼片行业健康化技术创新与市场趋势分析报告
- 2025年企业内部审计信息化操作指南手册
- 检验检测机构资质认定实施指南(标准版)
- 2025年航空货运服务操作指南
- 野生动物保护与监测操作指南
- 2026年辽控集团所属国合集团招聘备考题库有答案详解
- 教学第九章-人体寄生虫概述课件
- 2020年华为采购物料环保规范?V4
- 绿化养护、保洁服务重点难点分析及解决措施
- 企业管理GoldenSample管理办法
- 最新版个人征信报告(可编辑+带水印)
- 湖北大学教职工登记表
- 2020年注册会计师(CPA)16第十六章收入、费用和利润(2020新教材版)课件
- 隧道穿越大型活动断裂带的技术对策
- 汇川伺服追剪控制指导说明完整版
- GB∕T 5273-2016 高压电器端子尺寸标准化(高清版)
- GB 190-2009 危险货物包装标志(高清版)
评论
0/150
提交评论