基于个人微博主题词提取_第1页
基于个人微博主题词提取_第2页
基于个人微博主题词提取_第3页
基于个人微博主题词提取_第4页
基于个人微博主题词提取_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于个人微博主题词提取,以往的课题思路,主要弊端,具体的计算公式如下:,1.该方法提取出来的关键词数量大,没有明确的目标,且很多作者热切关注词都因为权重不在阀值范围内被筛选掉了。2.提取的关键词准确度不高。,新的课题思路,1.先对整体的微博信息进行聚类,这样做是先将作者热切关注的词锁定。2.再对最初的分词结果进行权重值的计算,并针对实验结果进行有针对的筛选。3.将以上两次的关键词的提取结果合并并去重,就可以得到最后的主题词提取结果。,(一)聚类过程,相似度的计算,语义相似度的计算时间相似度的计算热度值相似度的计算,语义相似度的计算,若两个微博有相同的关键字,那么它们很可能表达的是同一个主题,即在语义上一定存在相关性,本文运用了Jaccard进行语义相似度的计算,计算公式如下:,其中分子和分母分别表示的是编号idi和idj微博共同词的个数以及所有词的个数。,时间相似度的计算,如果两条微博发布的时间间隔越短,帖子内容越相似。因此,时间相似度与时间间隔相关,其计算公式定义如下:,其中ti和tj分别表示两条微博wi和wj发布的事件;此处的计算是基于前面的语义相关性计算的,也就是只计算语义上有相关性的微博的时间相似度。,热度值的计算,热度值是衡量一条微博被关注的程度,主要的影响因素是评论数、转发数和赞数。通常热度值高的微博中包含的关键词对表达文本信息的贡献度较大。计算公式如下:,其中res表示转发数,com表示评论数,attit表示赞数,count为三者的和,通过实验,规定为0.5,为0.3,为0.2。,热度值相似度的计算,热度值的相似度计算是在语义相似度和时间相似度的基础上计算而来的,本文给出的具体计算公式如下:,其中q为hoti和hotj都存在的字符,s为hoti存在而hotj不存在的字符,r为hotj存在而hoti不存在的字符。,综合相似度的计算,综合考虑两条微博帖子间的互信息关系特性、语义特性、时序特性以及热度值的相似分别按照上述方法计算相应的相似度并进行线性加权,计算出两条微博帖子间的相似度:本文给出如下微博相似度计算公式:,。,各个权重的汇总结果显示,主题词的提取,计算剩余候选关键词的TF-IDF 根据实验数据显示,提取相似度阀值在0.9-3之间的微博关键词;,计算剩余关键词的词性权重,此处对剩余关键词的词性权重进行了更为详细的划分和标注,具体表示如下:,此处对剩余关键词的词性权重进行了更为详细的划分和标注。nr表示人名,n即为普通数据,ns为地名,j为缩略词,v和vn都是动词,本文对动词没有具体的区分。,计算剩余关键词的综合权重,剩余关键词的总的权重计算公式如下:,其中count为每个剩余关键字在所有关键字中出现的次数,posi为剩余的关键词的词性。,剩余关键词的权重计算结果,关键词的提取结果,将提取关键字的阀值设置为大于等于0.6,具体的实验结果如下:,候选关键词特征值的计算,TF-IDF的计算 : 经过实验表明,直接运用传统的TF-IDF进行短文本关键词的检测效果不理想。这里结合了短文本的特征进行改进,并应用到微博主题词的检测上。计算公式如下:,其中tf(w,x)表词w在微博x中的频数,tfw表w所在微博所有分词的频数和,表词w在所有微博中出现的频数,tf max表所有微博分词的出现次数总和;N 表总的帖子数;n表出现词w的微博;和分别为可调节参数,分别将其设置为0.4和0.6。,候选关键词特征值的计算,词长权重的计算 根据汉字的特点,比较长的关键词在任何文本中所占的权重还是比较大的,所以词长是词本身权重的一个重要特征因素,本文给出的计算公式如下:,其中li表示分词i的词长,max(li)表示的是该条微博的所有文本长度。,候选关键词特征值的计算,词性权重的计算,在文本中,能表达实际意义的关键字主要还是名词和动词,所以本文在分词的处理上只保留了名词、动词和缩略词,并对其赋予相应的权重值。,候选关键词特征值的计算,词频权重的计算: 一个分词在一条微博信息中,所出现的次数占所有分词出现次数的比重很大时,同样也能表明该词作为关键词的可能性很大。本文给出的计算公式如下:,其中fi为该分词在该微博中出现的次数。,候选关键词的所有特征权重,候选关键词的权重计算,经过以上因素的分析和量化,采取的线性加权方法,将以上因素归并到以下的权重计算公式中去,具体的公式如下 :,根据各个权重因子对候选关键词的影响成度各个可变参数的取值分别是0.1、0.3、0.1、0.5且它们的和刚好为1.,具体的实验部分结果展示,设置候选关键字的阀值,将提取候选关键字的阀值设置为0.241-0.331:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论