




已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于个人微博主题词提取研究摘要微博作为一个新兴的社交媒体服务,是目前最流行的社交应用之一,微博数据具有实施动态特性,因此人们可以通过分析微博数据检测现实生活中的事件,同时微博数据的海量、短文本和丰富的社交关系等特性也为事件检测带来了新的挑战。综合考虑了微博数据特有的文本特征(转帖、评论、赞数、内嵌超链接(URL)提出了一种更有效的基于个人微博数据的主题词检测(PERSONALWEIBODATASUBJECTTEST,PWDST)方法。关键词微博数据;文本特征;主题词检测;中图分类号TP392文献标识码A文章编号BASEONTHERESEARCHOFPERSONALMICROBLOGPUBLICEVENTSDETECTIONABSTRACTMICROBLOGASANEWSOCIALMEDIASERVICES,ISCURRENTLYONEOFTHEMOSTPOPULARSOCIALNETWORKINGAPPLICATIONS,WEIBODATATOIMPLEMENTDYNAMICCHARACTERISTICS,SOPEOPLECANTHROUGHTHEANALYSISOFWEIBODATADETECTIONINREALLIFEEVENTS,ANDTHEMASS,WEIBOSERIESBENANDRICHINFEATURESSUCHASSOCIALRELATIONSHIPSANDBRINGSNEWCHALLENGESFOREVENTDETECTIONCONSIDERINGTHEWEIBODATACHARACTERISTICOFTHETEXTCHARACTERISTICSREPOST,REVIEWS,ANDNUMBEROFPRAISE,EMBEDDEDHYPERLINKSURLISPROPOSEDBASEDONAMOREEFFECTIVEPERSONALWEIBODATASUBJECTDETECTIONPERSONALWEIBODATASUBJECTTEST,PWDSTMETHODKEYWORDSWEIBODATATHETEXTCHARACTERISTICSUBJECTHEADINGSDETECTION1引言微博作为一个新兴的社交媒体服务,是目前最流行的社交应用之一。它允许用户随时随地使用移动设备发布不超过140字符的信息,以更新自己的状态。对微博应用等方面的研究,是最近几年的研究热点。新浪微博是国内最流行的微博网站,用户注册人数已超过3亿。微博数据包括以下五个特性1数据海量以新浪微博为例,目前微博用户平均每天都要发送超过1亿条帖子,平均每秒发送的帖子数高达1000条/S,这使得微博数据量非常巨大。2短文本性根据微博网站规定,每条微博帖子的长度不能超过140个字符,因此微博帖子较短小精干。3文本缺失性受发帖字数限制,用户只能用精简的语言发表微博,文本规范性和完整性较差。为了更好地阐述自己的观点,用户在发帖时嵌入超文本,如图片、视频和网页链接等。4实时性移动客户端的迅猛增长,使得人们在日常生活中可以随时随地发帖,从而微博数据具有实时性。5丰富的社交信息微博用户间通过“关注”关系形成了一个庞大而复杂的社交网络,并且通过转发、评论等操作引入更丰富的社交关系,这使得微博数据具有丰富的社交信息。事件检测在学术界是备受关注的研究热点,传统的事件检测方法是通过构造词汇文本特征矩阵分析事件,而微博数据的短文本性和文本缺失性会导致特征矩阵高度稀疏,从而使检测结果的准确率难以令人满意。另一方面微博数据中丰富的社交信另一方面微博数据中丰富的社交信息、超文本数据和特有的转发、评论数据为事件检测提供了更丰富的数据基础,而传统的方法并不能很好的将上述数据综合考虑进去。针对微博数据的特性和传统事件检测方法的缺陷,本文提出了一种更有效的基于个人微博数据的主题词检测(WEIBODATASUBJECTTEST,WDST)方法。该研究方法综合考虑微博数据特有的文本特征(转帖、评论、赞数、内嵌超链接(URL)等)、实时性特征进行主题词的监测。本文的主要创新点有以下两点1分析微博数据的文本特征时,综合考虑转发、评论、赞数、内嵌外部链接(URL)等并提出了相应的加权方案,计算出微博信息中每个关键词的热点权重。2改变了以往的先对数据进行权重值的计算再根据权重值进行聚类,本文采取的方式使先聚类,在对其分别进行特征值的计算。3对词性的权重的划分更为详细。2相关工作随着微博应用的推广和移动客户端的迅猛增长,人们往往第一时间在微博上发帖“报道”生活中的某一事件,基于微博数据进行事件检测成为国内外的一个热点研究话题,但已有的工作较少。绝大多数已有的事件检测研究工作都是针对文本新闻和网页新闻进行分析的。另外,与事件检测最相关的工作是TDTTOPICDETECTIONANDTRACKING,绝大多数已有工作也是基于文本新闻和网页新闻。LSA、PLSA和LDA是其中效果显著且具有代表性的主题模型。基于微博事件检测已有的工作大致可分为4类改进的TFIDF方法、基于BURST的研究方法、基于图的方法和基于概率的方法。PHUVIPADAWAT提出了基于命名实体加权的改进的TFIDF方法。基于BURST的方法的主要思想是监控给定的时间关键词的出现频率在给定的时间片内是否突然剧增,如果是,则对应一个事件发生;反之,则没有事件发生。LEE对关键词定义了BURST加权公式,并引入了滑动窗口时间实时监控事件的发生。LONG提出了四个基准选取话题关键字,从而建立图模型进行聚类。而WENG提出了基于小波分析的图模型。但是这些方法都很少考虑到微博数据特有的特征。与上述方法不同,本文提出了一种更有效的基于个人微博数据的主题词检测(WEIBODATASUBJECTTEST,WDST)方法。该研究方法综合考虑微博数据特有的文本特征(转发、评论、赞数、内嵌超链接(URL)、实时性等特征进行主题词的监测。3MICROBLOG主题词识别的方法31源数据的获取源数据的获取主要是考虑到微博本身的特点,主要包含的内容如下1作者原创的微博;2转发的微博;3微博的被评论数;4微博被转发数;5微博被赞数;6微博发表的时间;32源数据的预处理1本文考虑到了微博信息中内嵌的URL,所以我们先对微博中含有的超链接指向的网页主题提取出来,并将其超链接替换成网页主题内容。2我们处理的微博信息多数工作都是针对汉字的语义分析和统计,所以我们再预处理中,只保留了微博信息中的纯文本部分,出去了标点符号和数字以及英文字母部分,为下一步的分词减少了工作量。33分词的预处理1本文通过调用外部分词软件来进行分词,所使用的是中科院的汉语词法分析系统ICTCLASINSTITUTEOFCOMPUTINGTECHNOLOGY,CHINESELEXICALANALYSISSYSTEM进行分词。2去除停用词是去除那些对文章没有实质性意义的词,利用构建的停用词表,包括表情符号等,对分词结果进行后处理,只保留名词、动词进行分析。主要工作是匹配分词结果中的停用词,并将其去除,剩下的词汇作为帖子的特征。3单个词能表示主题的可能性不是很大,所以文本分词只保留字符长度大于1的分词。4候选关键词特征值的计算41TFIDF的计算文档频率和反文档频率是一个在信息检索领域常用到的特征。这里,这个特征被修改后以适用于微博数据的场景,而用于抽取微博关键词。计算公式如下,1LG,LG1WXNTFIDFTFWXN(1)其中,表示词W在微博X中出现的频数;N表示总的帖子数;N表,TF示出现词W的微博数;1是为了避免出现0值而设定的一个常量。42词长权重的计算根据汉字的特点,比较长的关键词在任何文本中所占的权重还是比较大的,所以词长是词本身权重的一个重要特征因素,本文给出的计算公式如下MAXLILENGTHI(2)其中LI表示分词I的词长,MAXLI表示的是该条微博的所有文本长度。43词性权重的计算在文本中,能表达实际意义的关键字主要还是名词和动词,所以本文在分词的处理上只保留了名词、动词和缩略词,并对其赋予相应的权重值。0864IPOSI若I为名词若为动词若为缩略词(3)44词频权重的计算一个分词在一条微博信息中,所出现的次数占所有分词出现次数的比重很大时,同样也能表明该词作为关键词的可能性很大。本文给出的计算公式如下1FIFREQI(4)其中FI为该分词在该微博中出现的次数。45线性加权经过以上因素的分析和量化,采取的线性加权方法,将以上因素归并到以下的权重计算公式中去,具体的公式如下WITFIDLENIPOSIFREQI(5)根据各个权重因子对候选关键词的影响成度各个可变参数的取值分别是01、03、01、05且它们的和刚好为15相似度的计算51共同词的提取如果两个微博包含相同的关键字,我们可以认为这两条微博在一定上具有一定的语义相关性,本文给出的具体算法如下1,2SIMWORDIGETCOWRDI(6)其中是ID1和ID2分别是关键词WI所属微博的编号;如果两条微博含有相同分词,那么可以认为它们在语义上存在相关性。52时间相似度的计算可以直观地发现,两条微博帖子间的发帖时间间隔越短,帖子内容越相似。因此,帖子与帖子的时序相似度(TIMESIMILARITY,TS)与发帖时间间隔相关,其计算公式定义如下,TIJSIMTEWIJE(7)其中TI和TJ分别表示两条微博WI和WJ发布的事件;此处的计算是基于前面的语义相关性计算的,也就是只计算语义上有相关性的微博的时间相似度。53热度值的计算微博的热度值就是微博被关注度,衡量一条微博被关注的热点程度,主要的因素就是被评论数,被转发数和被赞数。那么被关注度高的微博中包含的关键词权重很大。本文给出的计算公式如下1NIRESPOTCMENTAIUDEHOTVALUCOT(8)计算每条微博的热度值,RESPOST表示的是被转发数,COMMENT表示被评论数,ATTITUDE表示的是被赞数,COUNT为被转发数、被评论数和被赞数的总和。54热度值相似度的计算热度值的相似度计算是在语义相似度和时间相似度的基础上计算而来的,本文给出的具体计算公式如下,SIMHOTITJKQKRS(9)其中Q为HOTI和HOTJ都存在的字符,S为HOTI存在而HOTJ不存在的字符,R为HOTJ存在而HOTI不存在的字符。55综合相似度的计算综合考虑两条微博帖子间的互信息关系特性、语义特性、时序特性以及热度值的相似分别按照上述方法计算相应的相似度并进行线性加权,计算出两条微博帖子间的相似度本文给出如下微博相似度计算公式SSIMALSIWORDIMTESIHOT(10)其中的。1、和三个参数之和为,本实验的取值是06、3、16主题词的提取61提取在阀值范围内的微博的关键词根据实验数据显示,提取相似度阀值在093之间的微博关键词。62计算候选关键字的特征权重去除重复的实验数据中的重复记录,并对每个关键词进行词性标注以及每个关键词在剩余关键词中出现的次数统计,本文此处对词性权重的具体划分如下06J1VN3056POSI若词性为若词性为或者若词性为S若词性为若词性为NR(11)此处对剩余关键词的词性权重进行了更为详细的划分和标注。NR表示人名,N即为普通数据,NS为地名,J为缩略词,V和VN都是动词,本文对动词没有具体的区分。63计算剩余关键词的总的权重值剩余关键词的总的权重计算公式如下WICOUNTPOSI(12)其中COUNT为每个剩余关键字在所有关键字中出现的次数,POSI为剩余的关键词的词性。7实验本文采用新浪微博的数据进行实验。利用新浪微博的开放平台(HTTP/OPENWEIBOCOM),提取“梁宏达”的从2013年8月到2013年9月的微博信息。实验硬件环境为CPUINTERRCORETM2293GHZ,RAM为2G,操作系统为32位的WINDOWSXP,实验工具为MICROSOFTVISUALSTUDIO2010,数据库为MYSQLSERVER51,数据库的辅助工具为NAVICATFORMYSQL。微博各个因素的相似度以及综合相似度的计算结果如图1所示图1综合相似度的计算结果计算完上面的相似度,根据一定的阀值,提取相似度高的候选关键词,具体的提取结果如图2所示图2提取一定阀值的微博关键词剩余关键词的特征权重以及综合权重的具体的计算结果如图3所示图3剩余关键词的特征权重以及综合权重提取综合权重在阀值大于等于06的对应的关键字,即为主关键词,具体的实验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校区监控设备管理制度
- 校园冬季安全管理制度
- 校园学生寝室管理制度
- 校园常规安全管理制度
- 校园橱窗宣传管理制度
- 校园规则寝室管理制度
- 校园门口管理管理制度
- 校外培训教学管理制度
- 生态监测教育应用-洞察及研究
- 市场营销消费者行为领域试卷
- 河北省2025年高二年级第二学期期末模拟检测数学试题(含答案)
- 党课课件含讲稿:“违规吃喝”专题解读
- 2025年山东文旅集团科技发展公司招聘考试笔试试题
- 逻辑学七道试题及答案
- 2025年中国高压水除鳞系统行业市场现状及未来发展前景预测分析报告
- 积分落户劳动合同协议
- 辽宁沈阳副食集团所属企业招聘笔试题库2025
- 2024-2025湘美版六年级下册美术期末考试卷及答案
- AI助力市场营销自动化及优化策略研究
- 2025年湖北省中考生物模拟试题七
- 主扇风机操作员培训课件
评论
0/150
提交评论