探究微博中的情绪分析_第1页
探究微博中的情绪分析_第2页
探究微博中的情绪分析_第3页
探究微博中的情绪分析_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、探究微博中的情绪分析摘 要:针对微博进展情绪分析就是对微博所表达的喜、哀、怒、惧、恶、惊六种情绪进展分析,对迅速理解群众情绪走向并且对于个人情绪调节有着重要的意义。本文对情绪分析的研究背景以及研究内容进展了阐述,重点探究了情绪分析的难点和基于情绪词典的情绪分析方法。为情绪分析的进一步研究奠定了根底。关键词:微博,情绪分析,情绪词典一、研究背景微博作为一种即时通讯工具,其简便易用,具备非常好的实时性,中国已经进入全民微博时代。越来越多的互联网用户注册微博,他们通过微博自由地发表自己的观点及情感,如对名人的喜欢或憎恶、对电影的评论、对品牌的评价或建议、对社会热点的看法以及生活中的喜怒哀乐等。这些看

2、似琐碎的信息其实蕴含着宏大的商业价值,如预测电影票房、挖掘产品意见、理解用户需求、开拓新市场等。除此之外,分析微博有助于进展舆情监控、问答系统的研究,还可以用来帮助心理专家检测用户心理状态。二、本文的研究内容微博文本数据规模庞大,给自然语言研究处理带来了新的机遇和挑战,吸引了大量语言研究工作者从事微博的研究工作。其中,尤其以含有情感的微博文本更吸引人们的注意,成为了挖掘工作的珍贵资源。同时,对微博进展文本分类研究可以帮助解决用户观点分析和情感挖掘。目前,情感分析任务大致分为两种:一种是主客观文本分类;另一种是主观文本的情感分析,即对带有情感色彩的文本进展自动分析并预测其情感极性。情感分析任务根

3、据不同应用分为两个领域:评价分析和情绪分析,前者侧重于产品性能评价,后者侧重于人的心理感受。本文主要进展中文微博的情绪分析,从以下方面进展研究:分析微博表达特点,探究微博中的情绪分析方法。三、情绪分析的难点一微博文本有三个最显著的特点:一、简短,只包含140个字符。二、含有丰富的表情符。三、语言表达口语化。这三个特点给微博情绪分析带来了新的挑战。中文微博至多可以输入140个中文字符,一般包含一个到三个中文句子。一个句子中包含的情感信息较少,很难挖掘;反讽句子,难以判断情绪类别。多个句子表达的感情互相独立、不一致,情绪挖掘意见难以统一。微博非构造化口语表达中混入了很多的谐音字,如“V5等同于“威

4、武;英文缩略词,如“OMG是“Oh, My God!的缩写;网络用语频出,如“又挂科了,累觉不爱啊!;表达口语化,难以分辨情绪,如“自然卷留毛线头发啊!二由于中文表达的多样性,在对其进展情绪分析时面临诸多困难:a同一个中文词语在不同语境中能表达不同的情感倾向。如“骄傲的人永远以自我为中心。和“我为你骄傲,中国!两句中的“骄傲,前者表现了厌恶的情绪,后者那么传达了喜欢的情绪。b不同词性下,词语的情感色彩不一致。如“好作为副词不表达情感,但是作为形容词那么传递了正面情绪。c本身不带有情感的词,被寓以特定情感。如“马圈里的那匹黑马今年三岁了。和“斯诺克国锦赛年仅16岁的小将赵心童黑马成色不减以6:1

5、淘汰世锦赛亚军霍金斯。中的“黑马,该词本身并没有任何情感倾向,但常常被使用来形容初出茅庐却获得优异成绩的人或物,具有积极正面的情感。四、情绪分析方法探究一情绪词典在情绪研究中情绪词典一直都占据重要的位置。但是词典构建时选用的语料库对词典适用领域有一定的限制性。如:清华大学的中文褒贬义词典v1.0根据携程网宾馆评论语料库构建,更适用与进展正负向评论研究。目前,专注于情绪表达而非评论的中文情绪词典主要有HowNet、C-LIWC和DUTIR。在粗粒度的实验中,对情绪词典HowNet和C-LIWC进展比较分析,发现C-LIWC在微博数据集上的效果优于HowNet。对实验结果的分析说明了情绪词典的重要

6、性,同时发现目前中文情绪词典存在着对网络用词收录缺乏。另外,从语言描绘方面详细讨论了微博表达的特点,如语句中含有表情符,情绪的否认等都是情绪分析的重要线索。在细粒度的实验中,对情绪词典C-LIWC和DUTIR进展比较分析,发现C-LIWC虽然词汇量远远小于DUTIR,但结果却略好于DUTIR。详细来说,C-LIWC对喜和怒的识别F值更高,而DUTIR在哀和惧两类表现更优。二基于规那么的情绪分析方法给定一条微博文本t,假设待判断的情绪种类集合为E=,其中m为情绪类别的总数,那么对t的情绪判断过程如下:1. 使用中文分词系统对t进展分词处理得到单词序列q。2. 对q中的单词/表情符与情绪词典中的情绪词/表情符进展匹配;对于每种情绪类别,统计匹配到的该类的情绪词/表情符的个数。3. 对于每种情绪类别,计算t所对应的情绪值,公式如下:根据上述过程可以看出,对于微博文本t,假设情绪词/表情符个数集合中存在唯一的最大值,那么可以判断t的情绪。否那么,无法判别t的情绪类别。相应的,假设t未匹配到词典中任何的情绪词,t的情绪也无法判别。对于后一种情况我们说t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论