




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于个人微博的主题词检测摘要微博是近年来新兴起的,且发展迅速的新闻媒体形式。微博具有着实时事件的动态记录特征,所以通过微博信息可以挖掘出新闻事件,本文提出一种“聚类计算特征权重提取“的主题词检测的模式。综合考虑了微博数据特有的文本特征(转帖、评论、赞数、内嵌超链接(URL)提出了一种更有效的基于个人微博数据的主题词检测方法。关键词微博数据;聚类;主题词检测;中图分类号TP392文献标识码A文章编号SUBJECTHEADINGSDETECTIONBASEDONPERSONALWEIBOABSTRACTMICROBLOGGINGISANEWEMERGINGINRECENTYEARS,ANDRAPIDDEVELOPMENTFORMOFTHENEWSMEDIAWEIBOWITHREALTIMEEVENTRECORDDYNAMICCHARACTERISTICS,SOTHROUGHWEIBO,INFORMATIONCANBEEXCAVATEDNEWSEVENTS,THISPAPERPROPOSESA“TOTALPOINTSTOTAL“THEPATTERNOFTHEEXTRACTIONOFKEYWORDS,NAMELYCLUSTERCOMPUTINGFEATUREWEIGHTINGCLUSTERCONSIDERINGTHEWEIBODATACHARACTERISTICOFTHETEXTCHARACTERISTICSREPOST,REVIEWS,PRAISE,EMBEDDEDHYPERLINKSURLPUTFORWARDAMOREEFFECTIVEDETECTIONMETHODBASEDONPERSONALWEIBODATAOFTHEKEYWORDSKEYWORDSWEIBODATACLUSTERINGSUBJECTHEADINGSDETECTION1引言微博是近年来新兴起的,且发展迅速的新闻媒体形式。用户可以在任何时间、任何地点使用电脑或移动客户端发表状态。其中关注和分享最新的新闻事件,是用户使用微博平台的一个重要的目的。微博数据包括以下五个特性1海量数据以新浪微博为例,微博平台平均每天收录来自用户发布的将近2亿条信息,用户发帖的频率也高达1000条/S,这就形成了微博海量数据的特征。2短文本性根据微博平台的规定,每条微博帖子的长度不能超过140个字符,因此对微博数据处理都是其短文本的处理。3文本的多样性由于用户关注的新鲜事件有多种形式,常见的有图片、视频、超链接和文字,所以用户发布的微博信息同样也会以不同的形式展示出来。4即时性用户可以通过移动客户端、IM软件和开放的API等多种途径去随时随地记录自己的所见所闻,所以微博数据具备着很强的即时性。5庞大的社交网络微博用户间通过“关注与被关注”双向模式形成了一个庞大的社交网络,并且通过转发、评论、赞等操作的引入使得该社交网络所涵盖的信息更加的密集。事件检测一直是国内外研究的热点,传统主题检测的数据集都是长文本的,采用的检测方法通常是基于向量空间模型和TFIDF的方法,一方面由于微博数据的短文本性和多样性,使得采用传统的检测方法无法达到理想的效果。另一方面主题词的检测要结合微博数据的特有信息,比如转发数、评论数、赞数以及超链接的处理等,而传统的检测方法不能将其以上因素考虑进去。针对微博数据的特性和传统事件检测方法的缺陷,本文提出了一种更有效的基于个人微博数据的主题词检测(WEIBODATASUBJECTTEST,WDST)方法。该研究方法综合考虑微博数据特有的文本特征(转发数、评论数、赞数以及超链接(URL)等)、实时性特征进行主题词的监测。本文的主要创新点有以下两点1分析微博数据的文本特征时,综合考虑转发、评论、赞数、内嵌外部链接(URL)等并提出了相应的加权方案,计算出微博信息中每个关键词的热点权重。2本文采取了“聚类计算特征权重提取”的主题词检测的模式。3对词性的权重的划分更为详细。2相关工作关键词提取方法主要有TURNEY建立一个名为EXTRACTOR的关键词系统,使用基于词频和不分语言信息作为特征,利用决策树和遗传算法构建分类器;KEA提出一种类似的利用朴素贝叶斯构建分类器的方法;LIJUANZI采用基于词频的方法依据词语的TFTERMFREQUENCY/IDFINVERTEDDOCUMENTFREQUENCY,选取出权值较高的词作为关键词。基于微博事件检测已有的工作大致可分为4类改进的TFIDF方法、基于BURST的研究方法、基于图的方法和基于概率的方法。PHUVIPADAWAT提出了基于命名实体加权的改进的TFIDF方法。基于BURST的方法的主要思想是监控给定的时间关键词的出现频率在给定的时间片内是否突然剧增,如果是,则对应一个事件发生;反之,则没有事件发生。LEE对关键词定义了BURST加权公式,并引入了滑动窗口时间实时监控事件的发生。LONG提出了四个基准选取话题关键字,从而建立图模型进行聚类。而WENG提出了基于小波分析的图模型。但是这些方法都很少考虑到微博数据特有的特征。与上述方法不同,本文提出了一种更有效的基于个人微博数据的主题词检测方法。该研究方法综合考虑微博数据特有的文本特征(转发、评论、赞数、内嵌超链接(URL)、实时性等特征进行主题词的监测。3MICROBLOG主题词识别的方法31源数据的获取源数据的获取主要是考虑到微博本身的特点,主要包含的内容如下1作者原创的微博;2微博的被评论数;3微博被转发数;4微博被赞数;5微博发表的时间;32源数据的预处理1本文考虑到了微博信息中内嵌的URL,所以我们先对微博中含有的超链接指向的网页主题提取出来,并将其超链接替换成网页主题内容。2我们处理的微博信息多数工作都是针对汉字的语义分析和统计,所以我们再预处理中,只保留了微博信息中的纯文本部分,出去了标点符号和数字以及英文字母部分,为下一步的分词减少了工作量。33分词的预处理1本文通过调用外部分词软件来进行分词,所使用的是中科院的汉语词法分析系统ICTCLASINSTITUTEOFCOMPUTINGTECHNOLOGY,CHINESELEXICALANALYSISSYSTEM进行分词。2去除停用词是去除那些对文章没有实质性意义的词,利用构建的停用词表,包括表情符号等,对分词结果进行后处理,只保留名词、动词进行分析。主要工作是匹配分词结果中的停用词,并将其去除,剩下的词汇作为帖子的特征。3单个词能表示主题的可能性不是很大,所以文本分词只保留字符长度大于1的分词。4相似度的计算41共同词的提取如果两个微博包含相同的关键字,我们可以认为这两条微博在一定上具有一定的语义相关性,本文给出的具体算法如下1,2SIMWORDIGETCOWRDI(6)其中是ID1和ID2分别是关键词WI所属微博的编号;如果两条微博含有相同分词,那么可以认为它们在语义上存在相关性。42时间相似度的计算可以直观地发现,两条微博帖子间的发帖时间间隔越短,帖子内容越相似。因此,帖子与帖子的时序相似度(TIMESIMILARITY,TS)与发帖时间间隔相关,其计算公式定义如下,TIJSIMTEWIJE(7)其中TI和TJ分别表示两条微博WI和WJ发布的事件;此处的计算是基于前面的语义相关性计算的,也就是只计算语义上有相关性的微博的时间相似度。43热度值的计算微博的热度值就是微博被关注度,衡量一条微博被关注的热点程度,主要的因素就是被评论数,被转发数和被赞数。那么被关注度高的微博中包含的关键词权重很大。本文给出的计算公式如下1NIRESPOTCMENTAITUDEHOTVALUUCO(8)计算每条微博的热度值,RESPOST表示的是被转发数,COMMENT表示被评论数,ATTITUDE表示的是被赞数,COUNT为被转发数、被评论数和被赞数的总和。44热度值相似度的计算热度值的相似度计算是在语义相似度和时间相似度的基础上计算而来的,本文给出的具体计算公式如下,SIMHOTITJKQKRS(9)其中Q为HOTI和HOTJ都存在的字符,S为HOTI存在而HOTJ不存在的字符,R为HOTJ存在而HOTI不存在的字符。45综合相似度的计算综合考虑两条微博帖子间的互信息关系特性、语义特性、时序特性以及热度值的相似分别按照上述方法计算相应的相似度并进行线性加权,计算出两条微博帖子间的相似度本文给出如下微博相似度计算公式SSIMALSIWORDIMTESIHOT(10)其中的。1、和三个参数之和为,本实验的取值是06、3、15主题词的提取51提取在阀值范围内的微博的关键词根据实验数据显示,提取相似度阀值在093之间的微博关键词。52计算候选关键字的特征权重去除重复的实验数据中的重复记录,并对每个关键词进行词性标注以及每个关键词在剩余关键词中出现的次数统计,本文此处对词性权重的具体划分如下06J1VN3056POSI若词性为若词性为或者若词性为S若词性为若词性为NR(11)此处对剩余关键词的词性权重进行了更为详细的划分和标注。NR表示人名,N即为普通数据,NS为地名,J为缩略词,V和VN都是动词,本文对动词没有具体的区分。53计算剩余关键词的总的权重值剩余关键词的总的权重计算公式如下WICOUNTPOSI(12)其中COUNT为每个剩余关键字在所有关键字中出现的次数,POSI为剩余的关键词的词性。6候选关键词特征值的计算61TFIDF的计算文档频率和反文档频率是一个在信息检索领域常用到的特征。这里,这个特征被修改后以适用于微博数据的场景,而用于抽取微博关键词。计算公式如下,1LG,LG1WXNTFIDFTFWXN(13)其中,表示词W在微博X中出现的频数;N表示总的帖子数;N表,TF示出现词W的微博数;1是为了避免出现0值而设定的一个常量。62词长权重的计算根据汉字的特点,比较长的关键词在任何文本中所占的权重还是比较大的,所以词长是词本身权重的一个重要特征因素,本文给出的计算公式如下MAXLILENGTHI(14)其中LI表示分词I的词长,MAXLI表示的是该条微博的所有文本长度。63词性权重的计算在文本中,能表达实际意义的关键字主要还是名词和动词,所以本文在分词的处理上只保留了名词、动词和缩略词,并对其赋予相应的权重值。0864IPOSI若I为名词若为动词若为缩略词(15)64词频权重的计算一个分词在一条微博信息中,所出现的次数占所有分词出现次数的比重很大时,同样也能表明该词作为关键词的可能性很大。本文给出的计算公式如下1FIFREQI(16)其中FI为该分词在该微博中出现的次数。65线性加权经过以上因素的分析和量化,采取的线性加权方法,将以上因素归并到以下的权重计算公式中去,具体的公式如下WITFIDLENIPOSIFREQI(17)根据各个权重因子对候选关键词的影响成度各个可变参数的取值分别是01、03、01、05且它们的和刚好为17实验本文采用新浪微博的数据进行实验。利用新浪微博的开放平台(HTTP/OPENWEIBOCOM),提取“梁宏达”的从2013年8月到2013年9月的微博信息。实验硬件环境为CPUINTERRCORETM2293GHZ,RAM为2G,操作系统为64位的WINDOWSXP,实验工具为MICROSOFTVISUALSTUDIO2010,数据库为MYSQLSERVER51,数据库的辅助工具为NAVICATFORMYSQL。微博各个因素的相似度以及综合相似度的部分实验结果如表1所示IDID1ID2COWORDSIMWISIMTIMECOLENALLWI112亚锦赛,预测,伊朗,韩国0514265215男篮,中国,菲律宾,台湾0507165313142621653131316中国,哈萨克05036787944213867879444110男篮,中国05009697197213596971975112亚锦赛,男篮,中国,伊朗075004978707426299787076119男篮,中国0375000345938213128459387120预测,淘汰,泰国,伊朗0375000177614251267761823死亡0507165313110821653131925比赛050716531311082165313110212伊朗,亚锦赛050049787072135497870711220伊朗,预测037500017761213126776112222评论03750001272631071262726313310节奏050135335281076353352814329视频06666670000172231080001732315410篮球040135335281073353352816419喜欢040004827951072048279517422足球,篮球0400017761213201776118430足球,篮球040000172232132001722319432应该0428571000012341107285836412056中国025051341712107263417122157球迷05026359714107763597142258球迷0401888756107388875623510男篮,中国06250135335282140103352824512男篮,球迷,中国050069483453195694834525519男篮,中国,球员03750004827953191298279526523看看050000653391075006533927610中国03750263597141073885971428612中国050135335281080103352829619中国037500094035610713440356计算完上面的相似度,将阀值设置在093之间,提取相似度高的候选关键词,具体的提取结果如表2所示IDCOWORDALLWI1亚锦赛,预测,伊朗,韩国2652男篮,中国,菲律宾,台湾26216531313中国,哈萨篮,中锦赛,男篮,中国,伊朗26299787076男篮,中测,淘汰,泰国,伊朗2512677618伊朗,亚锦朗,预球,篮球,篮球132001722312男篮,中国140103352813男篮,球迷,中国195694834514男篮,中国,球员191298279515中国,男篮,资格,问题260134171216中国,男篮131606739917问题,希望131262726318现实,时间1487519中国,男篮,亚洲,地位251944834520问题,认为135131237321内心,思考131606739922恒大莱,赫维亚14523足球,篮球132219719724嫖娼,人品1487525李天一,梦鸽1451341812根据关键词出现的次数和词性的特征值计算剩余关键字的权重,并且将重复的记录去重,具体的实验结果如表3所示IDCOWORDCOUNTWFPOSIWI1韩国1NS03032菲律宾1NS03033台湾1NS03034哈萨克1NZ06065亚锦赛2J06126男篮9N05457中国10NS0338伊朗4NS03129预测3VN010310淘汰1V010111泰国1NS030312足球3N051513篮球3N051514球迷1N050515球员1N050516资格1N050517希望1V010118现实1N050519时间1N050520亚洲1NS030321地位1N050522问题3N051523认为1V010124内心1N050525思考1V010126恒大莱1NR060627郝维亚1NR060628嫖娼1V010129人品1N050530李天一1NR060631梦鸽1NR0606提取综合权重在阀值大于等于06的对应的关键字,即为主关键词,具体的实验室结果如表4所示IDWORD1哈萨克2亚锦赛3男篮4中国5伊朗6足球7篮球8问题9恒大莱10郝维亚11李天一12梦鸽将最初分词得到的候选关键词的阀值设置在02410331,具体的实验结果如表5所示IDWORD1卡塔尔2台湾
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年3D打印的工业制造
- 工商银行2025淮南市秋招面试典型题目及参考答案
- 2025行业政策环境分析报告
- 邮储银行2025营口市数据分析师笔试题及答案
- 建设银行2025楚雄彝族自治州秋招笔试EPI能力测试题专练及答案
- 邮储银行2025咸阳市秋招笔试英语题专练及答案
- 工商银行2025牡丹江市秋招英文面试题库及高分回答
- 交通银行2025景德镇市信息科技岗笔试题及答案
- 交通银行2025自贡市小语种岗笔试题及答案
- 交通银行2025黔东南苗族侗族自治州秋招笔试性格测试题专练及答案
- 冻品知识培训课件
- 伐木安全课件
- 【MOOC】心理学与生活-南京大学 中国大学慕课MOOC答案
- mcn跟达人签约合同的模板本
- 《小学英语教学设计》课件全套 陈冬花 第1-10章 小学英语教学设计概述-小学英语课堂管理
- 开发商购房合同范本
- 医德医风及行风建设培训
- DB43T 2464-2022 旱地烟田冬季绿肥还田技术规程
- 沪粤版物理八年级上册单元过关练习试题含答案(全册)
- 三级安全教育记录及表格
- 职业健康中心建设方案
评论
0/150
提交评论