下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
微博话题检测和跟踪技术研究的国内外文献综述在传统文本处理领域,话题检测与跟踪技术已经日渐发展成熟,该技术主要应用于对互联网信息流的主题抽取和新主题发现[3]。最近几年,Facebook、Twitter和新浪微博的出现,掀起了一股对于社交平台热点话题发现相关研究的热潮。所谓热点话题,一般是指在特定的时间和范围内,一旦发生就会引起广泛和持续关注的,能反映当下舆论状况的热门事件[4]。热点话题发现是自然语言处理和信息检索领域中被广泛研究的热点问题[5]。针对传统的话题发现与追踪技术并不能很好地适用于Twitter、微博等短文本集合中,国内外研究学者针对网络社交平台开展了大量研究工作,提出并验证了一系列短文本热点话题发现技术。国外学者对热点话题发现研究主要是基于Twitter来进行的,并且多是分析一些潜在社会话题[6]。Mario等人[7]认为,如果一个话题在一段时间内被多次检测到,但之前很少被检测到,那么这个话题可能是一个热点话题,基于此理论提出了一种Twitter热点话题发现方法。Swit等人[8]提出使用采集、分组和排序等方法对Twitter中的爆炸性新闻进行检测。Sankaranarayana[9]利用每个话题的消息时间与发布时间的时间间隔来判断话题活跃度,根据活跃度衡量该话题是否为热点话题。Sakaki等人[10]以地震为例提出里一种基于Twitter关键词及Twitter内容的算法来监控事件是否为目标话题。在国内,新浪微博相比于国外的Twitter而言,二者语言不同,在文本处理上也存在一些差异。目前对于微博热点话题研究主要有以下三个方向:(1)对于微博文本表示方法的研究。目前基于向量空间模型(VectorSpaceModel,VSM)[11]的文本表示方法较为普遍,但使用这种文本表示方法构建的文本向量空间矩阵存在高维问题,加上VSM模型基于词语之间独立性假设,以单个词汇作为文本特征,并没有考虑微博文本词语之间的潜在语义关系,大大影响聚类效果。鉴于VSM文本表示模型带来的各种问题,研究者开始尝试使用主题模型和知识库等外部资源来进行短文本特征扩展。在使用主题模型方面,目前研究较为广泛的就是LDA(LatentDirichletAllocation)[12]主题模型,路荣等[13]针对微博短文本的特殊性,提出采用LDA模型进行隐主题挖掘,利用隐主题分析技术计算微博文本之间的相似度,实现微博话题聚类。YeY等[14]将微博中的点赞、评论、转发、时间、用户权限等微博特征信息添加到主题模型中,利用这些特征计算每个微博的关注价值、权威价值和词频,构造了微博新的主题模型MF-LDA,实验显示具有更好的准确性。陈珊珊[15]使用LDA模型来挖掘隐藏在数据中主题信息,使用主题信息来实现文本表示。王亚民等[16]通过分析微博的语体特征,提出用BTM模型对词对进行建模,随后利用优化后的TF-IDF算法来计算文本相似度,进而实现微博聚类。但由于该算法时间复杂度较高,效果不是很理想。由于主题模型在使用时仅仅依靠词频统计进行主题分配,通常会由于语义信息缺乏而导致最终话题识别率不高。另外,还可以使用维基百科、HowNet等外部知识库进行语义扩展,此方法是根据一定的语义或词义规则,从大规模的语料库中合成相应的词,并利用大规模语料对短文本词语进行语义补充。Liu等[17]提出使用HowNet来扩展文本中单词的语义特征,以达到更好的聚类效果。Litou[18]使用维基百科语料进行文本语义扩展,但由于引入了很多主题无关词导致特征词提取准确率不高。由于通过第三方外部语料库扩充文本特征的方法需要引入额外的投入,而且选择合适的外部语料库存在一定难度,文本聚类效果易受到影响。为了进一步解决文本表示模型的高维问题,有学者提出将频繁词集的概念[19]应用于短文本聚类中。Zhang等人[20]提出使用频繁词集作为特征来对文本进行表示,并利用文本所包含的频繁词集数目来衡量文本之间的相似度进行聚类。徐雅斌等人[21]针对微博这一特殊媒体进行分析,提出使用频繁词集聚类FWSC算法进行微博话题发现。这种频繁词集聚类方法只考虑了短文本自身的统计信息,并且容易漏掉文本中的一些能表现主题的非频繁词,加上微博文本本身特征词汇量少、一词多义现象,大大增加了微博热点话题发现的难度。(2)微博话题检测方法研究。在微博话题检测方面,通常使用传统的文本聚类算法,如划分聚类、层次聚类、图论聚类等。谢修娟等[22]借鉴密度算法的思想,来优化传统的K-means算法中对初始聚类中心的选择,最终将改进算法应用于新浪微博话题发现。彭敏等[23]提出一种聚类簇数目自适应的频繁项集谱聚类算法CSA_SC,并利用该算法实现微博文本话题聚类。檀娟伢[24]根据微博数据特点提出了一种多属性无向加权图聚类算法,实现对微博热点事件检测。方一向[25]基于谱聚类提出一种多视图聚类算法对微博文本进行聚类,并从聚类结果话题簇中提取出具有代表性的关键词描述话题。(3)微博话题热度评估研究。对于微博热点话题的热度估计,目前没有一个统一的度量标准。尚鸿运[26]利用对微博的评论、转发、点赞等特征并结合因子分析提出微博话题热度计算公式。Zhao等[27]通过考察短期内聚类结果中的对应频数和话题之间相似度关系,对话题的热度进行估计并排名得到最后的热点话题。李慧等[28]利用词项H指数计算对应词项的热度,通过筛选出来的热点特征词来发现微博中的热点话题。叶成绪等[29]通过定义微博流行度、用户权威度提出话题能量的概念,将超过设定话题能量阈值的定义为热点话题。但由于在实际的数据采集中往往不能得到某个话题全部数据集,因此采集的数据具有一定的片面性,给话题热度评估带来了一定的难度。参考文献YuLouisLei,AsurSitaram,HubermanBernardoA.TrendDynamicsandAttentioninChineseSocialMedia[J].AmericanBehavioralScientist,2015,59(9):1142-1156.谢耘耕,荣婷.微博舆论生成演变机制和舆论引导策略[J].现代传播(中国传媒大学学报),2011(05):70-74.尚鸿运.中文微博的热点话题检测及趋势预测算法研究[D].天津大学,2017.何诺,马苗苗.一种改进的K均值微博热点话题发现方法[J].数据通信,2019(01):31-35.余冲,李晶,孙旭东,傅向华.基于词嵌入与概率主题模型的社会媒体话题识别[J].计算机工程,2017,43(12):184-191.GromovVA,KonevAS.PrecociousidentificationofpopulartopicsonTwitterwiththeemploymentofpredictiveclustering[J].NeuralComputing&Application,2016:1-6.MarioCataldi,LuigiDiCaro,ClaudioSchifanella.EmergingtopicdetectiononTwitterbasedontemporalandsocialtermsevaluation[C]//MDMKDD10Procofthe10thInternationalWorkshoponMultimediaDataMining.2010:1-10.PhuvipadawatS,MurataT.BreakingNewsDetectionandTrackinginTwitter[C]//IEEE/WIC/ACMInternationalConferenceonWebIntelligence&IntelligentAgentTechnology.IEEE,2010:120-123.SankaranarayanaJ,SametJH,TeitlerBE,TwitterStand:NewsinTweets[C].InProceedingsoftheWorkshoponAdvancesinGeographicInformationSystems,2009:42-51.SakakiT,OkazakiM,MatsuoY.EarthquakeShakesTwitterUsers:Real-timeEventDetectionbySocialSensors[C].InProceedingsofthe19thInternationalConferenceonWorldWideWeb,2010:815-860.LuYuchang,LuMingu,LiFan,etal.AnalysisandconstructionofwordweightingfunctioninVSM[J].JournalofComputerResearch&Development,2002,39(10):1205-1210.BleiDM,NgA,JordanMI.Latentdirichletallocation[J].TheJournalofMachineLearningResearch,2012,3:993-1022.路荣,项亮,刘明荣,杨青.基于隐主题分析和文本聚类的微博客中新闻话题的发现[J].模式识别与人工智能,2012,25(03):382-387.YeY,DuY,XiaF.HottopicextractionbasedonChineseMicroblog'sFeaturestopicmodel[C]//2016IEEEInternationalConferenceonCloudComputingandBigDataAnalysis(ICCCBDA).IEEE,2016,348-353.陈珊珊.基于LDA模型的文本聚类研究[D].苏州大学,2017.王亚民,胡悦.基于BTM的微博舆情热点发现[J].情报杂志,2016,35(11):119-124+140.LiuZ,YuW,ChenW,etal.Shorttextfeatureselectionformicroblogmining[C]//The4thInternationalConferenceonComputationalIntelligenceandSoftwareEngineering.Wuhan,China,2010:1-4.LitouI,KalogerakiV.Pythia:ASystemforOnlineTopicDiscoveryofSocialMediaPosts[C]//IEEEInternationalConferenceonDistributedComputingSystems.IEEE,2017:1-4.ZhuangL,DaiH.AmaximalfrequentitemsetapproachforWebdocumentclustering[C]//InternationalConferenceonComputerandInformationTechnology.IEEE,2004:970-977.ZhangWen,YoshidaT,TangXijin,etal.Textclusteringusingfrequentitemsets[J].Knowledge-BasedSystems,2010,23(5):379-388.徐雅斌,李卓,吕非非,武装.基于频繁词集聚类的微博新话题快速发现[J].系统工程理论与实践,2014,34(S1):276-282.谢修娟,李香菊,莫凌飞.基于改进K-means算法的微博舆情分析研究[J].计算机工程与科学,2018,40(01):155-158.彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(09):1941-1953.檀娟伢.中文微博的热点话题发现[D].安徽大学,2014.方一向.多视图微博话题检测方法研究[D].哈尔滨工业大学,2012.尚鸿运.中文微博的热点话题检测及
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中医医师资格证方剂学试题及解析
- 云计算虚拟化技术题库及解析
- 小学科学实验题库及解析
- 健康管理学题目及详解
- 肾病综合征护理常规专项测试题
- 肺炎患者护理专项试题
- 肺炎支原体感染护理专业考核试题及答案解析
- Cx43-HC-IN-1-生命科学试剂-MCE
- CTP-inhibitor-Standard-生命科学试剂-MCE
- 2026年学校食堂烟道深度清洗合同
- 软件开发项目可行性研究报告
- 2026农业机械行业技术突破及市场竞争与品牌建设研究报告
- 江苏省昆山市、太仓市2026届中考历史模试卷含解析
- 2026年宝鸡市辛家山马头滩林业局招聘(12人)笔试参考试题及答案详解
- 养老护理员服务意识与责任感培养
- 2026年投资项目管理通关练习试题附参考答案详解AB卷
- 退役军人就业创业
- 2026年江苏省南通市中小学教师招聘考试真题及答案
- 2026年质量管理体系注册审核员考试题库(附答案)
- 2026年年南网数字集团社会招聘106人正式员工备考题库含答案详解
- 墩柱盖梁工程监理实施细则
评论
0/150
提交评论