




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精品论文二元情感常识库建设及其在文本情感分析中的应用任巨伟,杨源,王昊,林鸿飞5(大连理工大学计算机科学与技术学院,大连 116024) 摘要:常识知识一直是一个研究热点,情感常识作为情感计算领域的一个重要方面,对文本 情感分析有重要作用。本文对现有中文情感常识库进行结构优化和扩展,以二元结构表示一 条常识内容,这些二元结构包括动宾结构、主谓结构、情感搭配以及产品属性和评价词组合10等多种形式,通过人工标注其情感类别,建立了一个新型二元情感常识库。借助该情感常识 库在情感语料库和公共语料集上进行文本情感分析实验和倾向性分析实验,实验证明该情感 常识库可以有效辅助进行文本情感分析和倾向性分析。 关键词:自然语言处理;情感分析;情感常识;二元情感常识库;倾向性分析 中图分类号:tp391.115construction of the binary affective commonsense knowledgebase and its application in text affective analysisren juwei, yang yuan, wang hao, lin hongfei20(school of computer science and technology, dalian university of technology, dalian 116024) abstract: commonsense knowledge has always been a hot research topic. affective commonsense knowledge, as an important part in affective computing, plays an important role in affective analysis of the text. this paper optimized the structure of existing affective commonsense knowledgebase and expanded its scale, constructed a novel affective commonsense25knowledgebase. each common sense was expressed as a dual structure, which contains vo construction, sv construction, affective collocation, combination of product feature and opinion word, which are finally tagged with affective classification artificially. at last, affective analysis experiment and opinion analysis experiment have been done on emotion corpus and public corpus, and the experiment results show that the affective commonsense knowledgebase is helpful to30affective analysis and opinion analysis.key words: natural language processing; affective analysis; affective commonsenseknowledge; binary affective commonsense knowledgebase; opinion analysis0引言35情感计算被定义为与情感相关,来源于情感或者能对情感施加影响的计算1。基于文本 的情感计算在许多方面都有广阔的应用前景,如网页评论分析、舆情分析等。目前,国内外文本情感计算的主要方法有以下几种:统计自然语言处理方法,多采用机 器学习方法,例如神经网络2等;根据句子中情感词汇求平均的方法判断句子情感3;结合 情感词和语义特征确定句子在其所处文章大范围语境中的情感色彩的方法4;上述方法都是40以关键词和语义标识作为情感分析依据,无法判断没有标志关键词或语义特征的文本情感。基金项目:国家自然科学基金资助项目(编号:60673039,60973068);国家 863 高科技计划资助项目(编 号:2006aa01z151);教育部留学回国人员科研启动基金和高等学校博士学科点专项科研基金资助课题(编 号:20090041110002)作者简介:任巨伟(1988-),男,硕士研究生,研究方向:情感计算通信联系人:林鸿飞(1962-),男,教授,主要研究方向:搜索引擎,文本挖掘,情感计算和自然语言理 解. e-mail: - 9 -因此,陈建美等人5引入情感常识知识作为一种新的文本情感分析辅助手段,有效提高 了文本情感分析的效果。常识知识一直是人工智能领域的研究热点,让计算机继承人的常识知识具有重要的作用45和意义。常识知识在专家系统、问答系统中都有大量应用6。常识知识通常以常识知识库的 形式存在。目前,英文常识知识库有 wordnet7、cyc8以及 conceptnet9等。中文常识知识 库有 hownet10、盘古知识库11等。但这些常识库中的常识知识并非都有情感。在此背景下, 陈健美等人5建立了中文情感常识库,包括规则库和实例库两个部分,其中实例库采用五元 组表示情感常识,但是这种表示形式无法涵盖具有复杂句子结构的常识知识,本文在该实例50库的基础上,结合依存句法分析抽取句子中的句法结构,将五元组中的常识部分由单独一个 词表示转换为由“动词+名词”、“名词+形容词”等二元句法结构形式表示,提高了常识知 识表述的准确性和扩展性。本文首先从情感语料库12中抽取动宾结构和主谓结构的二元常识,另外从宋艳雪13的 搭配中获取情感搭配,从林鸿飞等人14的工作中获取产品属性与评价词组合,经过 hownet55和同义词词林15扩展后获得最终的常识实例库,最后采用人工的方式进行情感标注。并在情感语料库和公共语料集中进行情感分析实验和倾向性分析实验。本文的结构如下:第 1 节介绍二元情感常识库的建立,第 2 节介绍二元情感常识的应用, 第 3 节是实验和结果分析,第 4 节是总结和结论。601二元情感常识库的建立常识知识具有以下特点6:(1)数量巨大;(2)缺乏规律性;(3)难以定义其边界;(4)用来描述世界的很多语句仅仅是一个大概,具有模糊性、时变性、非单调性等特点。 情感常识作为常识知识的一种,也具有这些特点。由于这些特点的存在,为情感常识的统一 描述带来了一定的难度,单独一个词语很难准确完整的表示一条常识,因此,本文尝试用二65元结构表示情感常识,以此为切入点对情感常识的表示形式做初步探究,把其他多元形式的 情感常识作为后续的研究工作。1.1 二元情感常识库的表示形式二元情感常识库是在继承陈健美等人5的情感常识表示框架下,对常识部分的一个更加 详细的描述。一条情感常识 c 的具体表示框架如下:70c=(cemotion , csubject , (cpassive , cattention) , cconditions)其中 cemotion 是常识的情感类别,二元情感常识库的 cemotion 采用乐、好、哀、怒、惧、恶、惊 7 种情感类别标识,与情感词汇本体16的情感大类对应;csubject 表示情感持有者,包 括情感施事者和受事者;cpassive 是被动标志(二值形式表示:0 表示主动,1 表示被动,缺 省值为 0);cattention 是常识部分;cconditions 表示时间、空间等条件。75cattention=(w1,w2)本文中的二元情感常识是用两个词组合的形式(w1,w2)表示 cattention 部分。用两个词来表示一条常识的原因首先是比较简单、直观,便于应用,另外也考虑到一个词信息量匮乏,无 法全面的表示一条常识,而二元词对的信息量相对比较丰富,可以支撑起一条常识。例如一 个动宾短语或者一个主谓短语,可以完整的表述一个事件,以及事件中所蕴含的情感,如:80“小张在情人节那天收到一束玫瑰”这条情感常识的主干为“收到”和“玫瑰”,情感基调 为“乐”,句中任何一个单独词语都不能完整的表述出这条常识,该常识完整表述形式为:(“乐”,“小张”,(1,(“收到”,“玫瑰”),“情人节”)文中不考虑用一个词来表示一条常识还有一个主要原因是:如果一个词有很明确情感信 息,可以把它作为一个情感词来处理,情感词汇本体里面收录了足够多的情感词,可以比较85好的解决这个问题。1.2 二元情感常识库的抽取二元情感常识库的内容主要包括四个部分:动宾结构、主谓结构、有情感色彩的词语搭 配以及产品评论中的一些属性和评价词之间的组合,借助哈尔滨工业大学的语言技术平台 ltp17对情感语料库12进行依存句法分析,主要原理是基于图模型的依存句法分析方法90(graph-based parser)。该方法由 mcdonald 首先提出,他将依存分析问题归结为在一个有向图中寻找最大生成树的问题,使用该句法分析方法可以识别中文文本中的动宾结构、主谓 结构、及定中关系、同位关系等句法结构。例如句子:“小张在情人节那天收到了一束玫瑰”的依存句法分析结构如图 1 所示:95图 1 ltp 依存句法分析举例fig. 1 an example of ltp dependency parser100其中 vob(verb-object)表示动宾结构(本例中:“收到”“-表示主谓结构(本例中:“小张”-“收到”)。(1)动宾结构。玫瑰”),而 sbv(subject-verb)105110115一个动词和一个名词可以组成动宾结构,动宾结构可以作为一个事件的简化表达,例如, “小张在情人节那天收到了一束玫瑰”,这个事件有多种要素,如果作为事件抽取的话,可 以抽取到时间、人物、事件,但是从情感的角度来考虑,“收到”和“玫瑰”这两个词组成 的二元动宾结构已经可以表达这个事件的情感。事件是情感常识的一种表达形式,当发生车 祸时,人们会产生悲伤、恐惧的情感;当收到玫瑰时,人们会产生快乐的情感。而动宾结构 的二元常识作为一个简化的事件描述,可以作为情感常识来表达情感。从情感语料库中抽取 的动宾结构,还需要人工标注其情感类别才可以作为一个完整的情感常识加入情感常识库 中。(2)主谓结构 同动宾结构类似,主谓结构也可以作为一个事件的简化表达,例如“血压”和“上升”就可以组成一个主谓结构的情感常识,用于简化表示一个常识事件,表达一种惊惧的情感。 主谓结构的获取形式和动宾结构相同,都需要通过依存句法分析从情感语料库中获取。(3)情感搭配 词语的搭配使用是汉语中比较常见的现象,某些词经常被一起使用,形成一种常用的搭配词对。情感搭配是含有情感因素的搭配形式,主要的表现形式是某些具有情感色彩的词语 在和不同的词语搭配使用时会产生不同的情感,例如,“上升”和“成绩”搭配时会产生正 向的情感,而“上升”与“房价”搭配时会产生负向的情感。显然这些搭配的情感是根据常120125130135140识知识来判断的,所以情感搭配也是情感常识的一种。常识库中的情感搭配是把宋艳雪13所使用的搭配进行情感类别标注后,放入库中。(4)属性和评价词组合 网上的产品评论中也含有情感常识,例如某种产品属性与评价词的组合。在“外形”和“小巧”的组合中,只用“小巧”这个评价词就能判断出情感。但是有很多组合需要搭配使 用才能表示某种情感,如手机的“待机时间”与“长”搭配表示正向的情感,而仅用“长” 是无法判断的。常识库中属性与评价词的组合,是把文献14所使用的属性与评价词的搭配 进行情感类别标注后放入库中。情感常识库中的四个部分有交叉的地方,有些情感搭配是主谓结构,有些情感搭配是动 宾结构。在进行情感类别标注时,没有具体情感的,标注为正向和负向,属性和评价词的组 合有很多属于这种情况。1.3 二元情感常识库的扩展考虑到语料限制以及产品属性和评价词对获取时的领域限制(主要集中于 it 领域和财 经领域),上文方法获取的二元情感常识库规模有限,覆盖范围也不够全面。为进一步扩充 规模,提高覆盖面,需要对其进行扩展。本文主要考虑用同义词词林15和 hownet10进行扩 展,用同义词词林进行扩展时,没有考虑同义词词林的树形结构。在同义词词林中,同一行 的词就是同义词,扩展时只是简单的用同义词进行扩充,避免引入较多噪音。用 hownet 进行扩展时,主要用到了一个词的词性,以及在对应词性上的上下位信息。1.4 二元情感常识库的规模及形式化表示经过扩展后的二元情感常识库有 8100 余条。其 5 个组成模块所占的比例及常识表示形 式举例如下表 1。表 1 二元情感常识库的组成模块及举例tab. 1 composition module of binary affective commonsense knowledgebase and some examples组成模块占总体比例举例“(cemotion , csubject , (cpassive , cattention) , cconditions)”主谓结构13%(“乐”,“人”,(0,(“法官”,“公正”),“无”)(“乐”,“公民”,(0,(“公民”,“自由”),“无”)动宾结构(“惧”,“人”,(1,(“扼住”,“喉咙”),“突然”)(“恶”,“人”,(0,(“排”,“长队”),“着急”)情感搭配62%(“乐”,“人”,(0,(“大盘”,“暴涨”),“无”)(“怒”,“女人”,(0,(“体重”,“暴涨”),“无”)属性和评价词10%(“乐”,“人”,(0,(“外观”,“小巧”),“无”)(“恶”,“人”,(0,(“价格”,“昂贵”),“无”)同义词和hownet 扩展15%(“乐”,“人”,(0,(“外形”,“小巧”),“无”)(“惧”,“人”,(1,(“真菌”,“感染”),“无”)1452二元情感常识库的应用文本情感分析和倾向性分析一直是文本研究的重点,倾向性分析只需判别文本的倾向性 为正向或负向,而文本的情感分析需要分析出文本的具体情感,相对于倾向性分析来说更加 详细。目前公开的情感文本语料很少,所以本文在情感语料库以及谭松波等人18发布的中 文情感挖掘语料中验证二元情感常识库的在情感分析及倾向性分析中的作用。1502.1 二元情感常识库在文本情感分析中的应用在文本情感分析中,本文主要在dutir的情感语料库12中验证常识库的作用,语料库 的选取内容包括剧本、文学期刊、小学课文、童话和博客,共计1355篇文章,5万个句子。 情感语料库的情感标注以句子为单位,包括情感发出者(sender)、情感关键词(keywords) 和情感类别(emotion)三部分,标注形式如图2。从前,有个小伙子叫阿福,整日游手好闲,不学无术。旁白游手好闲不学无术d155160165图2. 情感语料库的标注形式fig. 2 the label format of chinese emotional corpus从图2中可以看到语料库以句子为单位进行标注,标注的情感类别与情感词汇本体16中 的情感小类一致,其中d表示贬责的情感。为了与常识库的情感类别相吻合,本文采用情感 大类的表示方法,情感大类与小类的对应关系如表2所示。在进行句子级文本情感分析时,本文选取的基准(baseline)实验方法是依据情感词进 行句子级情感分析,主实验是在情感词的基础上加入二元情感常识进行情感分析。考虑到此 次实验的目的在于验证二元情感常识库在情感分析中所起的作用,重点不在于模型或方法的 研究,所以,文中没有采用过于复杂的学习模型,而是采用在一定滑动窗口内对情感词或情 感常识进行关键词匹配的方式来分析句子情感。表 2 情感大类和情感小类tab.2 emotion categories and small emotional class情感大类情感小类乐快乐,安心好尊敬,赞扬,相信,喜爱 怒愤怒哀悲伤,失望,疚,思惧慌,恐惧,羞恶烦闷,憎恶,贬责,妒忌,怀疑 惊惊奇170在此方法的基础上,第i类情感的情感分值fei如公式(1)所示。 fe + 1$wj veife = f1w v 且 wiw ,w 1, w v(1)i ei -j ei$ x j - d j -x nw使用情感词进行情感分析时,公式(1)各个参数的表示的意义: ei表示第i类情感;vei为情感本体中第i类情感词汇集;vnw表示否定词汇集;wj表示当前句子中的第j个词;wx表示 出现在当前词wj之前的大小为d的窗口中的否定词。175f =eif + 1i$(w1 , w2 ) vc 且w1 , w2 subj(2)ei f 1(w , w )v , w , wsub 且 wsub , w viei -1 2 c1 2 j $ x j x nw180185190195使用情感常识进行情感分析时,vci表示的是二元情感常识库中第i类情感的常识集合, subj为当前句的一个子句,(w1,w2)表示二元情感常识库中的一个常识,wx仍然表示否定词。 二元情感常识匹配时,限定窗口范围是当前句子中以逗号或其它标点符号分隔开来的子句, 也即对句子情感得分有贡献的二元情感常识(w1,w2)必须出现在同一个分句中,每个二元情感 常识对情感得分的贡献也为1,其中否定词的查找窗口d的大小为有二元情感常识出现的分句 的长度,因此,对于每个分句来说,d的大小是不固定的。对于语料库中的一个句子,首先,利用情感词汇本体识别句中的情感词;其次,统计句 中每个情感类别所含情感词的数目,如果某个情感词前的固定窗口(大小为d)中出现否定 词,该情感词对这类情感为负向贡献,数目减去1;最后选择情感词数目最多的类别作为该 句子的情感。如果某些类别情感词数量一样多,选取靠近句尾的情感词的情感类别作为该句 子的情感类别。使用二元情感常识的方法与使用情感词的方法相同,一个情感常识等价于一 个情感词。若句子中不含情感词或情感常识,则该句子无情感。以上为分别单独利用情感词和二元情感常识进行文本情感分析的方法,而本文中实验要 求要融合两种方法,具体操作是:首先,识别句中的情感常识和情感词;其次,分别计算各 类情感中情感常识和情感词的得分值,同类别的得分做加和(fei+fei)后得到每类情感的得 分;最后选取得分最高的情感类别作为该句情感类别。2.2 二元情感常识库在文本倾向性分析中的应用进行文本倾向性分析时,从篇章级对一篇文档进行二值分类,同文本情感分析类似,把 文本倾向性分析的重点放在验证二元情感常识的作用,也采用在一定滑动窗口内对情感词或 情感常识进行关键词匹配的方式进行文本倾向性判断。倾向性的类别分为积极和消极两类,情感大类和两个类别的对应关系如下。表3 倾向性类别与情感大类倾向性分类情感大类积极乐、好消极怒、哀、惧、恶、惊tab. 3 the opinion categories and emotional categories200205利用情感词确定文本倾向性时,首先,对一篇文档进行分句分词;其次,识别文档中的 情感词;最后统计两个类别中情感词的数目,积极情感对应的情感词出现一次,则对“积极” 情感得分f+的贡献值为1,同理,“消极”情感词的出现对f-的贡献值也为1。否定词的处理 与上文中文本情感分析的处理方法相同。句子最终的倾向性得分为“积极”得分和“消极” 得分的差值。计算倾向性得分的公式如(3)所示,对应的倾向性类别p如(4)所示,其中 当积极和消极的倾向性得分相同时,则依据靠近句尾的情感词的倾向性判定当前句子的倾向 性。f = f+ - f- = fei - fei(3)p = ei e+积极 f 0消极 f 0ei e-(4)靠近句尾的情感词倾向性f = 0且f+ 0, f- 0210无极性f+ = f- = 0公式(3)中e+表示积极情感,e-表示消极情感,f+为积极倾向性得分,f-为消极倾向性 得分。f为总倾向性得分。f = f+ - f- = fei- feiei e+ ei e-(5)215220利用二元情感常识判定文本倾向性的算法与使用情感词判定文本倾向性类似,见公式(5)。两种方法进行融合时,只需要分别计算两种方法的倾向性得分(f和f),两者加和, 通过加和后值的正负作判断,方法与公式(4)相同。3实验结果与分析3.1 情感分析实验情感分析实验主要目的在于验证情感常识库在情感分析中所起的作用。实验语料采用的 是情感语料库12。实验在句子级进行,分别计算7类情感识别的正确率,正确率的计算公式 如下。正确率=每类情感中识别正确的句子数 该类情感的句子数225实验方案是同时利用情感常识和情感词计算所得的结果作为最终的结果,而基准实验是 单独采用情感词进行文本情感分析。实验结果如表4所示。表4 情感分析实验结果tab.4 experimental results of affective analysisbaseline正确率最终结果正确率26.32%28.54%47.22%49.2%8.7%8.7%22.27%22.61%16.18%16.38%21.06%21.94%16.9%17.13%情感类别乐好 怒 哀 惧 恶 惊230235从表4中可以看到,各个情感类别的正确率相差较多,这主要是由情感词汇本体里面各类情感词汇分布的不均匀造成的。加入情感常识后,正确率有一些提高,但不是很明显,主 要是因为情感常识库中只有部分句子与情感语料库有交集。对于不含有情感常识的句子,无 法判定其情感,因此,下文中的实验将语料库中含有常识的部分(即情感常识库和情感语料 库的交集)提取出来,重新做情感分析,实验结果如表5所示。表5 部分句子的情感分析结果tab.5 affective analysis results of specific sentencesbaseline正确率最终结果正确率30.75%41.73%51.71%62.02%8.22%8.22%20.07%21.99%15.52%16.72%23.91%28.97%19.68%21.24%情感类别乐好 怒 哀 惧 恶 惊240245250从表5可以看出交集部分中加入情感常识库的结果比对比试验的结果提高幅度相对明显一些,另外,各个类别的提高程度不一样,因为情感常识库内各个情感类别的常识分布也不 均匀,“乐”和“好”这两类的情感常识数量相对较多。总体来说,正确率不尽理想,一方面是由于很多句子的情感类别与前后语境有关,另一 方面是本文采用的方法比较简单。但是本文进行情感分析的目的在于验证情感常识库在情感 分析领域的作用,而且简单的实验方法,可以减少其他因素对情感常识作用的影响,实验结 果再次证明,情感常识库的应用有助于提高文本情感分析的正确率,和前文的预估相符合。3.2 倾向性分析实验倾向性分析实验主要验证情感常识在文本倾向性分析中所起的作用。实验语料采用谭松 波等人18发布的旅馆评论相关的公共语料,此语料用于文本倾向性分类,一共有4000篇评 论,2000篇积极评论,2000篇消极评论。实验采用传统的准确率、召回率和f值作为二值分 类的评价标准。基准实验方法是单独采用情感词进行倾向性分析方法,把融合情感词和情感 常识的实验结果作为最终的结果。实验结果如表所示。表6 倾向性分析实验结果tab.6 experimental results of opinion analysis倾向性类别baseline结果加入情感常识的结果准确率召回率f值准确率召回率f值积极消极69.05%69.3%69.17%76.57%47.55%58.66%69.47%71.9%70.66%77.12%50.4%60.96%255260通过表6的结果可以看到,加入了情感常识后的结果在积极和消极两个类别的准确率、 召回率以及f值方面都有提高,情感常识的抽取用到了情感语料库,把所得的情感常识应用 于公共语料时,同样可以提高倾向性分析的结果,证明了该情感常识库对于中文公共语料集 具有一定的普适性,语料的依赖性较小。4结论本文主要建立了一个二元的情感常识库,包含动宾结构、主谓结构、情感搭配以及属性 和评价词的搭配等多种形式,并在情感语料库和公共语料中进行了情感分析和倾向性分析实 验,实验证明,二元情感常识的加入有利于文本情感分析和倾向性分析,可以作为一个很好265270275280285290295的辅助手段进行情感分析和倾向性分析。情感常识的种类多样,用二元的表示形式只能覆盖其中的一部分,下一步的重点工作是 进行多元的情感常识的研究,进一步扩展和丰富情感常识库,以进一步提高文本情感分析和 倾向性分析效果。参考文献 (references)1 r w picardaffective computingmcambridgema:mit press,1997.2 wang g j, wang z l, li l x. an affective model of artificial psychology a. ieee international conference on communications, circuits and systemc, hong kong, 2005:1061-1064.3 zhang yu, li zhuoming, ren fuji,et al. semi-automatic emotion recognition from textual input based on the constructed emotion thesaurusa.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 技校学习总结模版
- 六级作文各段及各文体写作技巧
- 学前儿童发展 课件 第7章 学前儿童想象的发展
- 门脉高压性肠病的临床护理
- 2025届山东省滨州市沾化县八下数学期末联考模拟试题含解析
- 幼儿的传染病与常见病
- 眼球运动障碍的临床护理
- 山东省青大附中2025届七年级数学第二学期期末学业水平测试模拟试题含解析
- 大学生职业规划大赛《市场营销专业》生涯发展展示
- 邮政银行面试试题及答案
- 社会单位灭火和应急疏散预案编制及实施导则知识培训
- 中国高血压防治指南(2024年修订版)解读(总)
- 创业管理-易学实+用的创业真知智慧树知到期末考试答案章节答案2024年天津工业大学
- 低代码开发智慧树知到期末考试答案章节答案2024年南华大学
- 食堂意见反馈制度
- 成都市2022级(2025届)高中毕业班摸底测试(零诊) 语文试卷(含答案)
- 老旧小区改造管道开挖方案
- 家用扫地机器人机械结构设计
- 加气站安全检查管理规定
- (高清版)JTGT 5440-2018 公路隧道加固技术规范
- 第24届世界奥林匹克数学竞赛WMO省级测评三年级试卷【含答案】
评论
0/150
提交评论