【微博文本情感分析的数据来源及处理分析案例3600字】_第1页
【微博文本情感分析的数据来源及处理分析案例3600字】_第2页
【微博文本情感分析的数据来源及处理分析案例3600字】_第3页
【微博文本情感分析的数据来源及处理分析案例3600字】_第4页
【微博文本情感分析的数据来源及处理分析案例3600字】_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

微博文本情感分析的数据来源及处理分析案例微博文本情感分析的数据来源及处理分析案例 1 1 2 2(二)结果分析 4本文从新浪微博收集了20000条标注了情感标签的句子,其中有8000条积极情绪、8000条消极情绪和4000条中立情绪,以此来构建情感分析模型。然后基于建立的模型对以离婚冷静期为关键搜索词获取的370条评论做情感预测。为了对比朴素贝叶斯、决策树、随机森林与LSTM模型的表现效果,先对数据进要把它们切割成短词才能够识别其中蕴含的情感。因此,首先使用jieba分词的精确模式将句向量X=(X₁,X₂……Xn)切分开,例如数据中的一个句向量“悄咪表2:词向量及其属性悄D为啥R对P每的咪咪0是V想V一天M吧YAM离婚V都D一句M,X的挺D:X这RUV词频(TermFrequency,TF)意分结果并没有实质影响,这种词称为停用词,使用逆向文件频率(Inverse是一种特征提取方法,TF值与IDF值的乘积越大其中,分母加1,是为了防止词向量xi为0时公式不成立。使用TF-IDF矩阵记录TF值与IDF值的乘积,最后得到的就是矩阵D。(一)模型建立SnowNLP语料库最早是受TextBlob语料库的启发写的,自然语言处理库大多是了一张直方图。从图2这张情绪分布直方图可以初步看出情感值在0和1这两端位置频率较高,在中间值0.5的减少很多但也相对比别的频率高,说明大众对于 图2:离婚冷静期情绪分布直方图表3给出了部分SnowNLP语料库得出的情感评分。通过表3可以发现评分不是很准确,这是因为SnowNLP语料库收录的是对于商品评价的语料,它的词表3:部分SnowNLP语料库情感评分文本数据冷静期,反思自己为什么要结婚强烈反对我看错了,话说回来,冷静期就不该有人家指的是民政部门要在工作时间办理。早已经截止了。建议关注随机选取数据集中的数据,作为测试集,其余样本为训练集。为了观察分分析法对之前得到的矩阵D进行降维处理,这样数据的主要被提取出来。为了确定主成分个数,我们基于95%累积贡献率最终选用了370个主成分。因此可以初步判定,剩下630个词出现次数比较少,且对文本数据影响较小,故而舍去。代入各个模型,准确率如表4所示:表4:各模型准确率模型准确率朴素贝叶斯决策树随机森林明此模型有比较优良的性能。但是准确率并不是唯一的评判标准,最终选择(二)结果分析对离婚冷静期的评论进行情感分析,得到了积极评论108条、中立评论29条和消极评论233条。情感标签直观化后,我们可以发现消极情绪占比最大,积0■情感标签消极图3:情感标签分类直方图为了更直观地看出网友对于哪些方面更关注,分别使用TF-IDF法和频率计数法对词向量进行运算。发现在去除停用词后,TF-IDF法相比频率计数法损失排名前15的关键词,如表5所示:表5:词向量及其频率关键词出现次数关键词出现次数离婚结婚节假日想人民天工作日民政局申请让人因为担忧这个政策实行所带来的离婚难现象而产生不敢轻易结婚的负面影家庭暴力问题,在2020年12月4日,专家对此提出过回应,称有家暴情况时,在第2个30天的期限内双方都到民政局申请,才算是正式结0引发了大规模的讨论;另一个是2020年12月到2021年1月,这个时期恰巧临条,但相较于实行前的63%占比已经下降约8%,证明民众的消极情绪在政策实明这个词在所有文本中属于高频词。通过图5可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论