【微博文本情感分析的数据来源及处理分析案例3600字】_第1页
【微博文本情感分析的数据来源及处理分析案例3600字】_第2页
【微博文本情感分析的数据来源及处理分析案例3600字】_第3页
【微博文本情感分析的数据来源及处理分析案例3600字】_第4页
【微博文本情感分析的数据来源及处理分析案例3600字】_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

微博文本情感分析的数据来源及处理分析案例目录TOC\o"1-3"\h\u11182微博文本情感分析的数据来源及处理分析案例 131918一、数据来源及预处理 115783二、建模分析 214782(一)模型建立 214242(二)结果分析 4一、数据来源及预处理本文从新浪微博收集了20000条标注了情感标签的句子,其中有8000条积极情绪、8000条消极情绪和4000条中立情绪,以此来构建情感分析模型。然后基于建立的模型对以离婚冷静期为关键搜索词获取的370条评论做情感预测。为了对比朴素贝叶斯、决策树、随机森林与LSTM模型的表现效果,先对数据进行一些预处理。英语单词由空格连接成文,这种构造使得英语文章在情感分析时非常容易辨别每个单词所包含的属性和情感,但中文不一样。中文文本则是由长句构成,需要把它们切割成短词才能够识别其中蕴含的情感。因此,首先使用jieba分词的精确模式将句向量X=(表2:词向量及其属性变量属性变量属性变量属性变量属性变量属性悄D为啥R对P每Zg的Uj咪咪O是V想V一天M吧Y好奇A三十天M离婚V都D一句M,X的Uj挺D:X这R来说U煎熬V由于机器无法对词向量数据使用公式,所以将所有数据切分完之后,还需要将词向量转化为数值向量。故而下一步,需要把文本数据转换成数值数据。单词词频(TermFrequency,TF)意味着在文档中某单词是高频出现的,一般来说,单词重要性是与TF值成正比的。但是还有一种词,像“的”、“在”、“是”这种帮助句子成形的词也会一直出现甚至出现频率非常高,然而它们对句子的情感评分结果并没有实质影响,这种词称为停用词,使用逆向文件频率(InverseDocumentFrequency,IDF)来给予词权重,设置常见程度与权重成反比。TF-IDF是一种特征提取方法,TF值与IDF值的乘积越大,证明这个词对于这句话越重要,这样做既能够保留重要的词语,又能过滤停用词。TF:TF=IDF:IDF其中,分母加1,是为了防止词向量xi为0时公式不成立。使用TF-IDF矩阵记录TF值与IDF值的乘积,最后得到的就是矩阵D二、建模分析 模型建立通过语料库计算文本的情感类型其实就是创建一个库,在其中存放单词的情感知识,通过与文本中的词语进行匹配,整合句中所有词向量的属性及其类型从而进行分类。使用SnowNLP语料库也是一种基于情感词典实现的情感分析方法。SnowNLP语料库最早是受TextBlob语料库的启发写的,自然语言处理库大多是英文,为了更方便处理中文文本,SnowNLP语料库被创造了出来。使用SnowNLP语料库可以直接情感分析提供的文本数据,得到每句评论的情感评分,它的优点就是操作十分快捷方便。数据可视化处理这些情感评分后,将所有情感评分做成了一张直方图。从图2这张情绪分布直方图可以初步看出情感值在0和1这两端位置频率较高,在中间值0.5的减少很多但也相对比别的频率高,说明大众对于离婚冷静期的看法大多是比较明显的,持中立态度的比分布在其他位置的略高一点。图2:离婚冷静期情绪分布直方图表3给出了部分SnowNLP语料库得出的情感评分。通过表3可以发现评分不是很准确,这是因为SnowNLP语料库收录的是对于商品评价的语料,它的词属性也是更倾向于商品化的定义,它虽然能做到直接给句子评分,但是会出现过度拆词的现象导致违背原本想表达的含意。因此,本文选用机器学习的方法对数据进行建模,以对离婚冷静期评论做精确的情感预测。表3:部分SnowNLP语料库情感评分文本数据情感得分冷静期,反思自己为什么要结婚0.988强烈反对0.692我看错了,话说回来,冷静期就不该有0.911人家指的是民政部门要在工作时间办理。0.241可以去中国人大网提出意见或者建议,不过早已经截止了。建议关注0.328随机选取数据集中的数据,110作为测试集,其余样本为训练集。为了观察朴素贝叶斯、决策树和随机森林对这些评论是否也能够准确分类,首先通过主成分分析法对之前得到的矩阵表4:各模型准确率模型准确率朴素贝叶斯0.676决策树0.739随机森林0.824LSTM0.905可以看到前三个模型的准确率普遍维持在85%以下,原因有以下2点:一是过拟合问题的发生导致分类效果并不好;二是建模所用数据并不平衡,每一类都存在数量上的差异,导致准确率低。而LSTM模型的准确率达到了90.54%,证明此模型有比较优良的性能。但是准确率并不是唯一的评判标准,最终选择LSTM模型是因为它还有另一个优点,即不需要提前将文字向量数值化,在建立模型后,可以直接导入中文句向量,相较于其它几种算法更为便捷。结果分析对离婚冷静期的评论进行情感分析,得到了积极评论108条、中立评论29条和消极评论233条。情感标签直观化后,我们可以发现消极情绪占比最大,积极情绪只有大约消极情绪的一半,而中立情绪即不赞同也不反对者最少。图3:情感标签分类直方图为了更直观地看出网友对于哪些方面更关注,分别使用TF-IDF法和频率计数法对词向量进行运算。发现在去除停用词后,TF-IDF法相比频率计数法损失了更多的信息,这是因为“离婚”、“冷静期”、“结婚”等词向量的多次出现使得它们的IDF值变低反而使它们的关键性下降。所以最终选择了频率计数法找到了排名前15的关键词,如表5所示:表5:词向量及其频率关键词出现次数关键词出现次数离婚111冷静61结婚58孩子22家暴21节假日19想19人民18天18工作日15法律14民政局14申请13诉讼12三十天11从这些文本特征中可以看出,网友对于此条例的实施主要有以下四个关注点:一是对于结婚事宜方面的影响。离婚冷静期的确会使轻率型离婚大幅减少,从而达到降低居高不下的离婚率的目的,但有部分人认为这是扬汤止沸,甚至会让人因为担忧这个政策实行所带来的离婚难现象而产生不敢轻易结婚的负面影响。二是对于家庭内部事宜的影响。只有协议离婚存在离婚冷静期,而协议离婚建立在双方都同意的情况下,在此期间可以商量好子女赡养及财产分配问题,避免双方原本和睦离婚,却因为子女、财产问题未在离婚前商量好而闹翻。而对于家庭暴力问题,在2020年12月4日,专家对此提出过回应,称有家暴情况时,当事人可以寻求法院的帮助,通过提起诉讼的方式离婚。但有人质疑不是每一段存在家暴问题的婚姻都会通过诉讼解决,此时离婚冷静期的产生很有可能使得原本同意协议离婚的家暴方反悔,致使家暴方对另一方造成更多的伤害。三是对于时间设置上有所疑虑。离婚冷静期设置了在第一个30天内,当事人任意一方反悔即可撤销离婚申请;且前一项规定的30天过去后,在第二个30天内,想要正式结束婚姻关系拿到离婚证书,还需要两位当事人来到民政局再次提出离婚申请。简单来说,政策实行后需要三个步骤才能够协议离婚:首先,夫妻双方在民政局提出离婚申请;接着,等待30天,且这30天内双方无人撤回申请;最后,在第2个30天的期限内双方都到民政局申请,才算是正式结束婚姻关系。对于第一个30天,有部分人认为不应该一方否决就撤销;对于第二个30天,有部分人认为遇到不可控情况不能及时赶回而导致的自动撤回离婚申请不够人性化。四是协议离婚程序改变后对于诉讼离婚的影响。申请离婚期间,如果一方突然反悔、另一方坚决离婚则势必会走向诉讼,很有可能原本协议离婚的数量会转换为诉讼离婚的数量。但诉讼离婚都是通过法官判决的,案件的难易情况会让庭审时间变得不可控。在这种情况下,案件数量的增加,但相关工作人员的数量却没有及时增加,都会导致诉讼离婚的夫妻需要排很久的队才能够开庭,减缓了诉讼离婚效率。这些文本特征直观地描述了网友的情绪,虽然消极情绪的存在比其他两种更多,但他们并不是一味地表达消极情绪,而是提出自己的论点,指出这个政策在哪些方面还有所欠缺,以期改进与完善。图4:有关离婚冷静期的微博评论数量折线图由图4可知,有两个时期关于离婚冷静期的数据量非常大,一个是2020年5月,这个月的28日宣布了离婚冷静期法案通过并于次年元旦开始正式实行,引发了大规模的讨论;另一个是2020年12月到2021年1月,这个时期恰巧临界于政策还未实行和开始实行的前后期。在政策未开始实行的12月份,一些明星离婚的消息频上热搜,有网友戏称“是怕明年离婚冷静期实行双方很难聚头才赶在这时候离婚吗?”在政策实施后的1月份,网友则普遍讨论离婚冷静期执行后所产生的影响。因此,为了了解舆情在实行政策后是否有所变化,再次获取了138条的微博评论,重复上述分析过程,可知消极情绪的数量还是最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论