情感词获取与分类评级_第1页
情感词获取与分类评级_第2页
情感词获取与分类评级_第3页
情感词获取与分类评级_第4页
情感词获取与分类评级_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、情感词获取与分类评级一、研究背景近年来BBS的迅速开展,主观性的言论越来越多。如何构建一个高效的系统对如此丰富的信息资源进展分析和处理,成为一个重要的研究问题。而对BBS信息资源的分析和处理,可以通过中心词和情感词两个维度进展处理。对于中心词的归类已经有了相对较为完好的分析体系,产生了很多有监视的学习方法以及文本特征表示方法和特征选择机制。而情感词的分类和评级以主观词为主,因此针对中心词的选择机制及方法在情感词上不能完全加以应用。本文主要以中山大学BBS的帖子为研究内容,选择适宜的情感词分类方法,对情感词进展细分及评级,从而得出一个满足中大BBS舆情分析系统的情感词分类体系。二、国内外研究现状

2、分析目前,基于语义的文本倾向性研究方法主要有两种:一种是通过现有词典构建情感倾向词典。如,Hiroya利用待测词与褒义词、贬义词的语义间隔 计算待测词汇的语义倾向性;Ku等利用WORDNET中的其他与词汇相关的信息来判断词汇的语义倾向性;徐琳宏等采用HOWNET作为基准词,并在实验中参加否认词和副词的处理,计算待测词与关联度确定语义倾向,从语义理解方面对电影评论进展了倾向性识别研究。另一种是建立一个语义形式库,采用语义分析技术用于文本倾向性判断。例如,复旦大学的朱嫣岚等年提出的基于HOWNET的词汇语义倾向计算方法,利用词语间的相似度来计算词的褒贬程度。路彬等设计了一种基于语义分析的信息过滤模

3、型,该模型针对不良信息的特点,以自然语句为处理单元,采用主题词和语义分析的两级过滤工作形式。但情感词的分类和评级以主观词为主,因此针对中心词的选择机制及方法在情感词上不能完全加以应用。三、研究目的通过对帖子出现的情感的类型与强度进展标引,将情感词进展分类,把情感词的强度按正面到负面分成等级进展标引。其中的软件处理流程类似于中心词的标引。当新词解析字典没有的词发现以后,通过语义相近度计算软件,比较与字典中词汇的相近程度,通过人工干预半自动或全自动进展中心词与情感词的添加。最后通过对帖子数据的分析和调查,对情感词的分类和标引,开发一个可以实现将中大bbs的帖子进展实时抓取和自动分类的系统。四、研究

4、内容帖子的分类标引以及中心词的主题分类标引这两个方面在去年师兄师姐的努力下已经完成了44067个帖子的抓取和分类,因此今年我们主要针对帖子情感词分类以及评级这一块开始入手。情感心理学认为,情感的根本类型可以分为以下四种:即快乐,愤怒,恐惧和悲伤。为进一步解决这个问题,我们通过对人类情感有关资料的查找发现:人的感情复杂多样,由于不同事情引起的同一类情感也有许多不同,即使是同一个人对同一件事情在同一个环境下也可能会有不同的情感,而不同的视野角度对情感词的分类也有所不同。因此通过对BBS中随机抽取的词语,我们除去可以分类的,根据无法准确分类的进展归纳,我们利用知网发布的wordsimilarity进

5、展义项查找,发现一项出现频率较高的情感类型:怜悯。古人云:人有七情六欲,对于心理学来说,七情分别是:喜怒哀乐惊慌怜。喜怒哀乐惊慌都可以在根本类型中找到位置,而怜似乎放在哪一个类型里面都不完全恰当。综上,我们把怜悯列为单独的一项。情感大类分为:快乐,愤怒,恐惧,悲哀和怜悯五种。快乐是指一个人期望和追求的目的到达后产生的情绪体验。由于需要得到满足,愿望得以实现,心理的急迫感和紧张感解除,快乐随之而生:乐:指欢乐,身心愉悦,充满幸福的一种情感;喜:包括喜欢、喜悦、爱好、喜欢、快乐、快乐等情感。愤怒是指需求受到抑制或阻碍,愿望无法实现时产生的情绪体验。愤怒时紧张感增加,有时不能自我控制,甚至出现攻击行

6、为:怒:包括愤怒、恼怒、发怒、怨恨、愤怒等情感。恐惧是当危险状况出现时,人们企图摆脱和逃避,而又无力应付时产生的情绪体验:惊:指惊咤、惊愕、惊慌、惊悸、惊奇、惊叹、惊喜、惊讶等情感;恐:指恐慌、恐惧、害怕、担忧、担忧、畏惧等情感。悲哀是指心爱的事物失去时,或者梦想破灭时产生的情绪体验:哀:包括悲伤、悲哀、悲哀、怜悯、哀怜、哀愁、哀悯、哀怨、哀思等情感。怜悯是指对肉体或精神上遭受痛苦的人或者对不幸的人表示同情的情绪体验:怜:包括怜悯、哀怜、同情等情感。为了使分类体系可以更加标准准确的划分情感词,我们利用知网发布的wordsimilarity对以上五类情感词进展义原判断,得到以下结果:为了方便分类

7、,我们再把情感词义原两两之间进展间隔 计算,得到以下结果:对此,我们可以发现害怕,生气,悲哀三个负面情感词两两之间的间隔 和相似度是一样的;而喜悦,怜悯分别与三个负面义原之间的间隔 和相似度是一样的;怜悯与喜悦之间的间隔 和相似度与怜悯与其他三个负面义原之间的间隔 和相似度是一样的。因此,我们先着手研究负面情感词三个义原之间的关系,我们先根据义原间隔 构建一个等边三角形,三角形的三个顶点分别为三个义原,如图:害怕生气悲哀生气害怕为了进一步确认分类体系,我们在上一届同事的工作根底上,通过对他们抓取到部分中大BBS帖子共5578个人工挑选的情感词进展验证,共342个。由4个成员独立进展情感词的类型分类,从中获得分类一致的结果,对于有歧义的情感词,我们对其进展再次分类,删除无法得出一致结果的词语。以同样的步骤对正面情感词进展操作。这样,结合HOWNET发布的,一共得到各类情感词978个,分类如下表。即在此根底上,建立情感词分类体系如下:五、结语本分类体系是根据已有研究成果和从中大BBS帖子中已抽取出并去重后的情感词词表的根底上确立的分类体系,通过人工分类和修正,将情感词进展有效分类,这个分类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论