




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、个人微博中公共事件检测算法的研究个人微博中公共事件检测算法的研究目录一、课题介绍二、课题的方案设计与实现三、实验测试四、中期工作总结目录一、课题介绍二、课题的方案设计与实现三、实验测试四、中期工作总结课题介绍背景介绍l 微博(microblog)即微博客的简称,是近年来新兴起,且发展迅速的新闻媒体。用户可以随时随地通过web、移动客户端等途径实现状态更新和信息分享。课题介绍课题描述 2.与常规文本相比,微博数据具有不规则性、海量性和实时性等特点。所以如何从大量的、不规则的个人微博数据中精确地提炼出用户在某段时间内所关注或经历的事件,是个人微博信息检测技术需首要解决的问题。 1.根据2013年7
2、月最新的数据统计显示,新浪微博注册用户已达到3.3亿,形成了微博庞大的数据量 。目录一、课题介绍二、课题的方案设计与实现三、实验测试四、中期工作总结课题的方案设计与实现课题流程图源数据的预处理分词除去停用词和长度为1的词微博信息(包含http指向的网页标题)个人微博信息发布时间评论数、赞数、转发数源数据获取个人微博信息相似度的计算耦合相似度(两条微博出现共同词个数)时序相似度流行相似度计算综合相似度(以上三个因素)聚类关键词改进的tf-idf特征值计算特征关键词公共事件提取完毕公共事件模板再次筛选(反向匹配)模版匹配,识别公共关键词(正向匹配)课题的方案设计与实现课题重点u课题重点内容:课题重
3、点内容:提出了由微博转发、赞数和评论组成的流行度概念基于耦合、时序和流行度三者进行相似度的计算目的是优先锁定其受关注度高、特征值低的主题词,解决了相似度漂移问题。结合短文本特征,改进传统的tf-idf公式目的是解决传统tf-idf公式应到微博文本关键词提取存在的不足。公共事件提取模版正向匹配和反向匹配相结合的方式。模版正向匹配和反向匹配相结合的方式。课题的方案设计与实现相似度u耦合相似度:若两条微博含有相同关键词,则说明二者的内容在某种程度上具有耦合性,即很可能阐述的是同一个事件的不同侧面。若关键词重叠越多,则耦合度就越大。运用jaccard进行耦合相似度的衡量。公式如下 :( ,)( ,)(
4、,)( ,)( ,)iijjijiijjwor w idwor w idsimcp wi id idwor w idwor w id 其中wor(wi,idi) 和wor(wj,idj)分别表示编号为idi和idj微博的所有分词集合。课题的方案设计与实现相似度u时序相似度:将时序相似度的计算在耦合相似度的基础上进行,这样做使得相似度结果更密集,聚类目标更清晰。计算公式如下:其中ti和tj分别表示编号为idi和idj的微博发布时间。(,)ijijttsimseq id ide课题的方案设计与实现相似度u流行度:流行度是用来评估文本吸引力的,对于微博数据而言,主要取决于转帖、评论和赞数三个因素。在
5、以往的相关工作中,并没有将流行度应用到个人微博的数据挖据中。计算公式如下:()irescomattipop idcountcountcount res为转帖,com为评论,atti为赞数,count为三者之和。、为可变系数,起平衡每个权重因子的作用。通过反复地实验,设定为0.5,为0.3,为0.2时,得出的特征值最能反应一条微博的受关注程度。课题的方案设计与实现相似度u流行相似度:若两条微博内容耦合、时序相关,则流行度也定会存在某种关联,所以也将其作为综合相似度的一个特征因子添加进来。本文采用欧拉距离公式来计算流行相似度。计算公式如下: 其中pop(idi)和pop(idj)分别表示编号为id
6、i和idj的微博的流行度,即值越小。,12(,)()()mijiji jsimpop id idpop idpop id课题的方案设计与实现相似度u综合相似度:通过分析微博的耦合、时序和流行度三个因素的作用以及相似度计算,对其进行线性加权,得出指定两条微博间的综合相似度。计算公式如下: 其中、为可调节参数,通过分析每个权重因子的含义以及大量实验,设定、和的值分别为0.65、0.3和0.05,且+=1。(*,(,),)*(,)ijijiijsimallsimsimcpseq id idsimpopw id idid id 分析实验结果,提取综合相似度大于0.054且时间相似度大于0.000000
7、0002的同时出现在两条微博里的分词作为聚类关键词的候选关键词。课题的方案设计与实现聚类关键词步骤1:从分词i词性考虑,具体的词性权重计算公式如下:步骤2:聚类关键词受词性和出现次数的影响,故将二者进行乘积运算,再进行二次筛选,计算公式如下:步骤3:将提取聚类关键字的阀值设定为weight(wi)=0.03,且总的出现次数wi_count=10的名词。iiposii若 为缩略词若 为名词若 为动词_*()100iwicountposiweight w 课题的方案设计与实现传统tf-idfu直接应用的不足之处:u传统tf-idf的公式: ,(1 lg( ( , )lg(1)w
8、xwntf idftf w xn 会出现idf值高,tf值低的分词被当作关键词提取。 没有结合微博文本特征以及分词的自身特点。 相同的关键字在不同的短文本中会出现特征值离散现象。课题的方案设计与实现改进tf-idf改进的tf添加的影响因子词性词流行度词频词长改进后的idf表达式改进的tf-idf-词性u词性的具体权重赋值:iiiposii若为缩略词若为名词若为动词0若为其他词性返回 主要是引用童薇, 陈威, 孟小峰. edm: 高效的微博事件检测算法j. 计算机科学与探索, 2012, 6(12): 1076-1086.改进的tf-idf-词长u词长权重:返回()()(,)i
9、iiiilen wlen wlenid w id leni(wi)表示分词wi的相对词长,lenid(wi,idi)表示分词所在文本的长度,len(wi)表示分词长度。 改进的tf-idf-词流行度(,)*()*()*(,)iiiiiiipopular w idpop idlen wposshow w idu词流行度计算权重:返回121(,)(,)(,)niiiiiiniipopular w idavgpop w idfwst其中show(wi,idi)为分词在所属短文本中的出现次数。f2表示分词在整个分词序列中出现的次数之和。改进的tf-idf-词频u词频计算权重:返回2111111121(
10、 ,)( ,)(*)()( )( ,)niwiiikmkwimaxiiiiniif wstf w idf idfavgfreq wf wst f1(wi,idi)表示分词在所属微博中的出现次数,fw(idi)表示分词所属微博的所有分词出现次数之和,f2表示分词在整个分词序列中出现的次数之和,fmax表示整个分词序列表中所有分词的出现次数之和。改进的tf-idf-idf公式u改进后的idf表现形式: idf=log(n/n);其中n是语料库中的文本总数,n是包含分词t的文本数。2lg(1)nidfnn 当n值固定,idf值会随着n的增加而增大。改进后tf-idf函数的思想:若分词t在文本d中的特
11、征权值大,而在其他文本中特征值小,说明该分词具有文本鉴别力。改进的tf-idf-新的表达式u新的tf-idf公式:2-( *( )*( )*( ,)(lg(1)iiiiiiiitf idftflen wavgfreq wnposavgpop w ididfnn提取特征关键词的阀值设定为=1.55且词性是名词和缩略词的分词。课题的方案设计与实现主题词u主题词提取的架构图:主题词提取的架构图:公共事件提取模板匹配一、模板匹配的优点是能够根据关键词快速定位模版信息,也叫正向匹配;二、模板匹配的缺点是根据关键词匹配出来的模版信息不一定是用户一定关注的事件,此时需要对事件进行反向匹配;目录一、课题介绍二
12、、课题的方案设计与实现三、实验测试四、中期工作总结实验测试实验环境u 系统配置:windowsxp;pentiun(r) dual cpu,内存8g,硬盘500gu 开发语言及工具:c#、visual studio 2010u 数据库:mysql、数据库辅助工具: navicat for mysqlu 实验数据:采用新浪微博的数据进行实验。利用新浪微博的开放平台(http:/),提取“梁宏达“的从2012年11月6号到2013年10月31号的微博信息。实验测试程序主界面1.通过相似度计算得到的聚类关键词;2.通过改进的tf-idf得到的特征关键词;3.合并以上结果得到的最终关键词;4.公共事件提取: 1).模板正向匹配; 2).模板的反向匹配;实验测试实验结果对比 将算法自动提取的结果和人工标注的结果进行对比,情况如下:查准率p=自动提取正确主题词的数目/自动提取关键字的数目;查全率r=自动提取正确主题词的数目/人工标注主题词的数目。 算法自动提取人工标注结果查全率查准率 世界杯、麦迪、 奥运会、男篮 黄健翔、国足、足球、卡马乔、亚锦赛、恒大、火箭、延安、暴雨、梦鸽、荷兰 亚锦赛、国足、世界杯
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 冻库购销合同范例
- 专业医疗咨询合同范例
- 农机售后合同范例
- ktv电路维修合同范例
- 农村房地产变更合同范例
- 借用劳务合同范例
- 代工手机合同范例
- 代牧牛羊合同范例
- 水利水电工程核心知识与答题技巧试题及答案
- 中标公司合同范例
- 2025年低空经济科普知识竞答考试题库300题(含答案)
- 2025年安徽蚌埠市东方投资集团有限公司招聘笔试参考题库含答案解析
- 《休闲农业》课件 项目二 休闲农业分类及模式分析
- 2025年安徽省交通控股集团限公司社会化公开招聘自考难、易点模拟试卷(共500题附带答案详解)
- 三管感染的预防与控制
- 2025年中医养生茶饮课件
- 第21课《己亥杂诗(其五)》教学课件【知识精研】统编版语文七年级下册
- 消除艾滋病、梅毒和乙肝母婴传播项目工作制度及流程(模板)
- 2025届南通市重点中学中考生物模拟试题含解析
- 东北石油大学专用毕业答辩模板2
- 人教版数学五年级下册全册大单元整体教学设计
评论
0/150
提交评论