新媒体时代下高校学生微博话题识别方法-以新浪微博为例_第1页
新媒体时代下高校学生微博话题识别方法-以新浪微博为例_第2页
新媒体时代下高校学生微博话题识别方法-以新浪微博为例_第3页
新媒体时代下高校学生微博话题识别方法-以新浪微博为例_第4页
新媒体时代下高校学生微博话题识别方法-以新浪微博为例_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新媒体时代下高校学生微博话题识别方法----以新浪微博为例摘要:大学生的微博研究直接关系到高校思想政治教育。针对高校学生微博文本数据稀疏、缺少语义信息的情况,提出一种基于多种模型的高校学生微博话题识别方法。首先,使用连续词袋模型对大量的微博文本进行训练获得词嵌入表示;其次使用BTM双词主题模型对微博文本进行建模,获取微博主题特征向量;最后将微博词嵌入向量与微博主题特征向量相融合,使用分类器进行分类验证。实验结果表明新算法在准确率、召回率及F值上均有良好的表现。关键词:高校学生;微博话题识别;连续词袋模型;BTM主题模型;0引言随着互联网时代的到来,大学生成为了网民群体的主力军。党的十九大报告指出,要加强互联网内容建设,建立网络综合治理体系,营造清朗的网络空间[1]。据调查,微博、微信等自媒体软件成为了大学生信息交互的主要途径。为进一步研究大学生微博使用情况,对大规模微博文本进行模型建立、主题划分、内容扩展,从而提高微博话题分类的准确性。微博文本指的是用户通过PC、手机等多种移动终端接入,以文字、图片、视频等多媒体形式,实现信息的即时分享、传播互动的文本。一般来说微博文本的长度较短且重复的词项较少,所以微博话题识别不可以视为一般的文本分类任务[2]。目前在微博话题识别的相关研究中,大多数学者使用短文本分类的相关技术,主要可以分为基于查询规则的方法以及基于神经网络的分类方法[3]。1相关研究安璐[4]等针对微博文本的自身特点及内容特征,使用基于相关性公式改进的LDA模型来有效的生成文本的话题矩阵;李慧[5]等通过分析在线LDA模型无法对不同演化能力的话题进行区分,提出了LOLDA模型,将微博话题标签融入模型中;王亚民等[6]为解决传统方法在微博舆情热点识别中存在的数据稀疏性,提出了利用BTM模型进行建模的方法;He等[7]提出一种FastBTM模型,旨在提高BTM模型训练速度及准确率;黄畅等[8]提出一种基于改进突发词对的BBTM主题模型,该模型能自动发现最优话题;陈凤等[9]在识别微博话题过程中,将BTM模型与加权K-Means相结合,提高了热点话题发现的准确性和有效性。刘良选[10]提出BTM主题模型与词向量结合的文本分类算法,提高了文本分类的准确性。目前网络上传播的微博信息文本句子长度偏短、特征词较少导致数据稀疏,直接影响微博话题识别准确率偏低。针对上述问题,本文提出了基于多种模型的高校学生微博话题识别方法。核心思想是先利用连续词袋模型(CBOW)对大规模的高校学生微博数据进行向量化建模,获取微博文本的词嵌入表示;然后再使用BTM主题模型对微博文本进行主题建模,获取主题特征向量;最后将微博文本的词向量与主题特征向量进行结合,从而使得微博文本得到扩展,扩展后的微博文本将含有更多的特征词。实验验证采用支持向量机(SVM)来对算法进行分类验证,通过与传统算法及单一模型进行对比,验证本文算法的有效性。2基于多种模型的高校学生微博话题识别方法2.1连续词袋模型(CBOW)Google公司的TomasMikolov等[11-12]提出了词向量训练工具Word2vec,凭借此工具可以高效的在大规模字典或是数据集上进行训练,获得满足用户需求的文本词向量表示结果。当每个词或句子都由向量表示后,就更容易的量化词或句子之间的关联性[13]。Mikolov等在Word2vec工具中提出了两种计算模型分别是CBOW和Skip-gram。CBOW模型的计算过程是输入当前词项相邻的四个词项来进行预测并输出当前词项,而后者则是输入当前词项来进行预测并输出当前词相邻的四个词。CBOW模型训练速度则要快一些,对低频词效果更好[14],所以本文的实验中,选取CBOW模型进行训练样本。2.2BTM主题模型常用的主题模型是通过计算文本中词的贡献度来形成主题模型。而微博短文本数据稀疏,特征词较少,使用传统算法建模往往不能够对文本有良好的表征。为了有效解决短文本稀疏的问题,学者们提出基于一种双词模型(bitermtopicmodel,BTM)[15]的微博话题识别方法。BTM模型改变了使用词频建模的传统方式,而是更深层次的挖掘语义关系。BTM模型的前提是对文本主题分布进行假设,假设语料库中的所有文本是由若干个主题模型混合分布而成,全局主题遵循某种分布产生每一个主题因子。其核心思想是对微博短文本中的无序共现词对进行建模,若两个词项共现次数越多,则同属一个主题的概率就越大。BTM模型的建模过程如图3所示。图1BTM模型建模过程在上图中,为从高校学生微博中提取出的双词集合,在这里表示一个双词单元,和表示主题的Dirichlet分布参数,为微博短文本的主题分布,表示当前主题下的词项分布,指多项分布,表示Dirichlet分布,指在训练前对微博文本设置的主题数量。表示主题的Dirichlet分布。BTM模型实现主题分布的步骤如下:Step1对参数进行抽样,得出主题中的词分布;Step2从参数的分布中,抽样出所有文本集合的全局主题分布;Step3从微博短文本参数中抽取主题的分布,服从;Step4从上述抽取的主题中抽取,这两个共现词对,并服从。Step5从短文本语料库共同参数抽取主题,服从;Step6设语料中的一个词对为,,从上述抽取的主题中抽取,这两个词,并使其服从2.3具体方法流程高校大学生微博话题识别是大学教师对学生网络思想政治教育的重要环节,只有精准判断高校学生微博话题,才能有效的把控当前学生思想动向,从而进行舆情分析。微博短文本数据较为稀疏,为解决特征词较少、识别精度不高等问题,本文提出了一种利用连续词袋模型扩展并融合BTM主题模型的高校大学生微博话题识别方法。该方法的构建流程如图4所示。Step1通过多线程爬虫,获取新浪微博平台的高校大学生微博信息短文本。Step2利用Word2vec工具中的连续词袋模型(CBOW)训练大量的微博信息短文本。Step3使用BTM主题模型对微博短文本进行主题构建;Step4利用BTM主题特征词及训练得到的词向量,对微博文本进行特征扩展。Step5使用支持向量机(SVM)对新的微博文本进行分类,测试本文方法的分类效果。图2基于多种模型的微博话题识别方法流程图2.4高校大学生微博短文本的表示方法通过分析高校大学生微博短文本在网络中传播的方式及形态发现,有许多的微博话题的用户回复中也存在许多的重要信息,用户回复频道往往成为高校大学生之间的交流区,所以在设计多线程爬虫时,我们考虑将用户评论信息一并爬取存档,并将其与微博正文结合形成大规模微博原始语料库。为了使微博文本获得更多的特征项,首先将不同主题下的所有微博正文及回复文本整理形成一个大规模长文本,使用连续词袋模型对整个大规模的长文档来训练词向量。在实验中,我们设置word2vec工具参数如下:1.在Linux环境下运行工具。2.滑动窗口大小设置为10。3.选择不适用二进制的存储方式。(具体训练操作命令如下:-outputvectors.bin-cbow1-size200-window5-negative0-threads12-binary0)使用Word2vec训练得到的词向量,其公式表示为:(1)其中,表示大规模数据集中第个词,表示的词向量表示。通过上述操作获得了微博文本的词向量表示,接下来使用BTM主题模型对微博文本进行主题建模,采用Gibbssampling方法来进行采样,获得微博文本的词-主题分布。由于概率分布的计算结果在[0,1]之间,数值表示当前词项划分到当前主题的概率,所有处理时将主题概率按从大到小排序,取前个主题词作为扩展,表示公式如下:(2)其中表示文档集合中第篇文档的基于BTM主题模型的扩展文档,表示第篇文档所形成的词表中的第个词,表示基于BTM主题模型的个特征扩展。经过两次建模后得到了微博文本的连续词袋模型表示方法以及BTM主题模型表示方法,拼接二者即可获得含有丰富特征词的表示方法。最终的微博文本表达式如下:(3)3实验及结果分析3.1实验数据2017年9月,教育部公布了新修订的《普通高等学校辅导员队伍建设规定》[18-19],进一步强调高校辅导员队伍建设,对辅导员的定位和职责做出了全新的规定。文件规定高校学生工作的主要有如下几点:1.思想理论教育和价值引领。2.党团和班级建设。3.学风建设。4.学生日常事务管理。5.心理健康教育与咨询工作。6.网络思想政治教育。7.校园危机事件应对。8.职业规划与就业创业指导。9.理论和实践研究。以上九项内容完全涵盖了高校学生生活学业的方方面面,所以在采集本次实验数据时,参考以上9个类别来设计多线程爬虫。实验数据来自新浪微博首页(),通过关键字检索相关话题文本,使用多线程爬虫依循广度优先策略进行微博文本爬取。话题包括6个类别:大学生教学、大学生生活、大学生思想教育、大学生就业、大学生党建、大学生管理工作。数据格式如表1所示。微博训练集采用中科院NLPIR汉语分词系统进行分词及词性标注。在预处理语料之后,按照具体的方法流程,先对微博数据进行词向量训练,再使用BTM主题模型来获取文本的主题扩展,主题词数设置为20。表1数据格式类别文本特征词大学生教学欢迎本校参加全国大学生数学竞赛的同学、有考研意向的同学以及有提高自身数学能力需求的同学凭本校学生证或者学生卡听课欢迎、参加、大学生、数学竞赛、考研、提高、数学能力、学生证、听课大学生生活生活在有公共洗漱间的大学生与其他人有较多的接触,潜移默化地改变了他们内向的性格,培养了他们的社交能力。​生活、洗漱间、大学生、接触、改变、内向、性格、培养、社交能力大学生就业面试时应该避开哪些“坑”?如何给面试官留下好印象,拿到心仪的offer?面试、避开、坑、面试官、印象、offer3.2实验评价标准由于支持向量机(SVM)在文本分类领域的优良表现,本文使用SVM分类器对基于多种模型的高校大学生微博话题识别方法进行分类试验。本次实验采用标准分类任务评价指标来衡量模型的效果。评价标准采用三项指标来衡量,分别是准确率(Precision)、召回率(Recall)及调和平均值(F-Measure),计算公式如下:(4)(5)(6)其中,指所属类别和预测类别一致的文本数量;指将本不属于该类的文本预测为所属文本的数量;表示将原本属于该类别的文本预测为不属于该类别的数量。4.3结果及分析本次实验选择四种单一模型与本文模型进行对比试验。算法1:基于VSM的模型;算法2:基于LDA主题模型;算法3:基于BTM主题模型;算法4:本文算法。由于BTM主题模型与LDA主题模型类似,为了使词-主题向量更具代表性,在训练前都需要对主题数K进行调参。调参过程选择全部文本数据集,参考试验结果的准确率,准确率结果如图5所示。图3不同候选集主题下的准确率图5的折线图清晰的反映了随着主题数的增加计算准确率的变化,而当主题数设置为5时,准确率最高。所以在接下来的试验中,设置主题K的输入值为5。首先测试本文方法在各个主题下的问题分类效果,评价其准确率、召回率及F值;在此之后,对比其他三种单一模型,评价其平均准确率、召回率及F值。实验结果如表2、表3所示。表2本文算法在各个类别的分类效果类别准确率召回率F值大学生教学0.85670.90730.8330大学生生活0.83730.90850.8418大学生思想教育0.84440.88390.8729大学生就业0.88730.78150.8872大学生管理工作0.85170.82480.8536大学生党建0.81050.84970.8894表3不同分类算法的分类效果对比分类方法准确率召回率F值VSM0.67640.69470.7096LDA0.73460.75650.7745BTM0.76620.79280.8065本文算法0.84790.82750.8365通过分析表2数据,基于多种模型的高校大学生微博话题识别方法在设置的六个主题下的问题语料中均有不错的分类表现。从表3中观察得到,基于多种模型的微博话题识别效果明显优于单一模型,而相比基于LDA模型和基于VSM模型,基于BTM主题模型的优越性也很明显。因为向量空间模型的传统词袋法无法良好的表示微博文本,而基于LDA的主题模型对于较为稀疏的微博短文本效果不佳。图4不同分类算法的F值对比由图6可以看出,本文利用连续词袋模型及BTM主题模型训练微博数据集,使微博短文本得到有效的扩充,从而提高分类效果,在F值的方面也有不错的表现。通过上述实验结果分析表明,改进的微博短文本模型能有效的识别微博话题,高校教育者要充分利用这些微文化媒介加强大学生的素质教育。1.有针对性的提高大学生思政教育工作者的互联网素养,使教育者有能力利用微博或其他互联网平台与学生进行沟通、交流,实时把握学生动态。2.进一步加强网络道德教育,让大学生指导网络道德的重要性,制造和传播谣言的行为不可取。3.大力开展新媒体实践活动,让网络新媒体的声音活跃在校园。4结束语本文提出一种基于多种模型的高校大学生微博话题识别方法,利用连续词袋模型对大学生微博文本进行向量建模,同时对大规模微博语料进行BTM主题建模来扩充文本特征,能有效的解决问题文本的稀疏性的问题。通过多项实验验证表明,本文提出的方法在准确率、召回率及F值上均有良好的效果。本次研究中仍存在不足,比如未将转发量、评论次数等数据纳入权重的考量范围;未对热门微博进行追踪;未对微博话题的传播模型进行本质的探索。在后期的研究中,应该从以上几点入手,更加深入透彻进行算法研究工作。参考文献[1]代明竹,高嵩峰.聚类算法在高校学生微博的应用研究[J].现代电子技术,2019,42(07):177-180.[2]尹坤.基于语义信息的问题分类研究[D].西南交通大学,2014.(YinKun.Researchontheclassificationofproblemsbasedonsemanticinformation[D].SouthwestJiaoTongUniversity,2014.)[3]黄畅,郭文忠,郭昆.基于双向量模型的自适应微博话题追踪方法[J].小型微型计算机系统,2019,40(06):1203-1209.[4]安璐,梁艳平.突发公共卫生事件微博话题与用户行为选择研究[J].数据分析与知识发现,2019,3(04):33-41.[5]李慧,王丽婷.基于话题标签的微博热点话题演化研究[J].情报科学,2019,37(01):30-36.[6]YaminW,YueH.HotspotDetectioninMicroblogPublicOpinionBasedonBitermTopicModel[J].JournalofIntelligence,2016,35(11):119-124.[7]XingweiHe,HuaXu,JiaLi,LiuHe,LinlinYu.FastBTM:Reducingthesamplingtimeforbitermtopicmodel[J].Knowledge-BasedSystems,2017,132:11-20.[8]黄畅,郭文忠,郭昆.面向微博热点话题发现的改进BBTM模型研究[J].计算机科学与探索,2019,13(07):1102-1113.[9]陈凤,蒙祖强.基于BTM和加权K-Means的微博话题发现[J].广西师范大学学报(自然科学版),2019,37(03):71-78.[10]刘良选,黄梦醒.融合词向量特征的双词主题模型[J].计算机应用研究,2017,34(7):2055-2058.(LiuLiangxuan,HuangMengxing.Thetwowordthememodeloffusionwordvectorfeature[J].computerapplicationresearch,2017,34(7):2055-2058.)[11]QuocLe,TomasMikolov,etal.DistributedRepresentationsofSentencesandDocuments[C]//InternationalConferenceonMachineLearning.2014:2931-2939.[12]MikolovT,CorradoG,ChenK,etal.EfficientEstimationofWordRepresentationsinVectorSpace[C]//InternationalConferenceonLearningRepre

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论