中期报告--个人微博中公共事件检测算法的研究_第1页
中期报告--个人微博中公共事件检测算法的研究_第2页
中期报告--个人微博中公共事件检测算法的研究_第3页
中期报告--个人微博中公共事件检测算法的研究_第4页
中期报告--个人微博中公共事件检测算法的研究_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

个人微博中公共事件检测算法的研究,目录,一、课题介绍,二、课题的方案设计与实现,三、实验测试,四、中期工作总结,目录,一、课题介绍,二、课题的方案设计与实现,三、实验测试,四、中期工作总结,课题介绍背景介绍,微博(MicroBlog)即微博客的简称,是近年来新兴起,且发展迅速的新闻媒体。用户可以随时随地通过WEB、移动客户端等途径实现状态更新和信息分享。,课题介绍课题描述,2.与常规文本相比,微博数据具有不规则性、海量性和实时性等特点。所以如何从大量的、不规则的个人微博数据中精确地提炼出用户在某段时间内所关注或经历的事件,是个人微博信息检测技术需首要解决的问题。,1.根据2013年7月最新的数据统计显示,新浪微博注册用户已达到3.3亿,形成了微博庞大的数据量 。,目录,一、课题介绍,二、课题的方案设计与实现,三、实验测试,四、中期工作总结,课题的方案设计与实现课题流程图,课题的方案设计与实现课题重点,课题重点内容:,提出了由微博转发、赞数和评论组成的流行度概念,课题的方案设计与实现相似度,耦合相似度:若两条微博含有相同关键词,则说明二者的内容在某种程度上具有耦合性,即很可能阐述的是同一个事件的不同侧面。若关键词重叠越多,则耦合度就越大。运用Jaccard进行耦合相似度的衡量。公式如下 :,其中wor(wi,idi) 和wor(wj,idj)分别表示编号为idi和idj微博的所有分词集合。,课题的方案设计与实现相似度,时序相似度:将时序相似度的计算在耦合相似度的基础上进行,这样做使得相似度结果更密集,聚类目标更清晰。计算公式如下:,其中ti和tj分别表示编号为idi和idj的微博发布时间。,课题的方案设计与实现相似度,流行度:流行度是用来评估文本吸引力的,对于微博数据而言,主要取决于转帖、评论和赞数三个因素。在以往的相关工作中,并没有将流行度应用到个人微博的数据挖据中。计算公式如下:,res为转帖,com为评论,atti为赞数,count为三者之和。、为可变系数,起平衡每个权重因子的作用。通过反复地实验,设定为0.5,为0.3,为0.2时,得出的特征值最能反应一条微博的受关注程度。,课题的方案设计与实现相似度,流行相似度:若两条微博内容耦合、时序相关,则流行度也定会存在某种关联,所以也将其作为综合相似度的一个特征因子添加进来。本文采用欧拉距离公式来计算流行相似度。计算公式如下:,其中pop(idi)和pop(idj)分别表示编号为idi和idj的微博的流行度,即值越小。,课题的方案设计与实现相似度,综合相似度:通过分析微博的耦合、时序和流行度三个因素的作用以及相似度计算,对其进行线性加权,得出指定两条微博间的综合相似度。计算公式如下:,其中、为可调节参数,通过分析每个权重因子的含义以及大量实验,设定、和的值分别为0.65、0.3和0.05,且+=1。,分析实验结果,提取综合相似度大于0.054且时间相似度大于0.0000000002的同时出现在两条微博里的分词作为聚类关键词的候选关键词。,课题的方案设计与实现聚类关键词,步骤1:从分词i词性考虑,具体的词性权重计算公式如下:,步骤2:聚类关键词受词性和出现次数的影响,故将二者进行乘积运算,再进行二次筛选,计算公式如下:,步骤3:将提取聚类关键字的阀值设定为weight(wi)=0.03,且总的出现次数wi_count=10的名词。,课题的方案设计与实现传统TF-IDF,直接应用的不足之处:,传统TF-IDF的公式:,会出现IDF值高,TF值低的分词被当作关键词提取。,没有结合微博文本特征以及分词的自身特点。,相同的关键字在不同的短文本中会出现特征值离散现象。,课题的方案设计与实现改进TF-IDF,改进的TF添加的影响因子,改进的TF-IDF-词性,词性的具体权重赋值:,返回,主要是引用童薇, 陈威, 孟小峰. EDM: 高效的微博事件检测算法J. 计算机科学与探索, 2012, 6(12): 1076-1086.,改进的TF-IDF-词长,词长权重:,返回,leni(wi)表示分词wi的相对词长,lenID(wi,idi)表示分词所在文本的长度,len(wi)表示分词长度。,改进的TF-IDF-词流行度,词流行度计算权重:,返回,其中show(wi,idi)为分词在所属短文本中的出现次数。,f2表示分词在整个分词序列中出现的次数之和。,改进的TF-IDF-词频,词频计算权重:,返回,f1(wi,idi)表示分词在所属微博中的出现次数,fw(idi)表示分词所属微博的所有分词出现次数之和,f2表示分词在整个分词序列中出现的次数之和,fmax表示整个分词序列表中所有分词的出现次数之和。,改进的TF-IDF-IDF公式,改进后的IDF表现形式: IDF=log(N/n);其中N是语料库中的文本总数,n是包含分词t的文本数。,当N值固定,IDF值会随着n的增加而增大。改进后TF-IDF函数的思想:若分词t在文本d中的特征权值大,而在其他文本中特征值小,说明该分词具有文本鉴别力。,改进的TF-IDF-新的表达式,新的TF-IDF公式:,课题的方案设计与实现主题词,主题词提取的架构图:,公共事件提取模板匹配,一、模板匹配的优点是能够根据关键词快速定位模版信息,也叫正向匹配;,二、模板匹配的缺点是根据关键词匹配出来的模版信息不一定是用户一定关注的事件,此时需要对事件进行反向匹配;,目录,一、课题介绍,二、课题的方案设计与实现,三、实验测试,四、中期工作总结,实验测试实验环境,系统配置:WindowsXP;Pentiun(R) Dual CPU,内存8G,硬盘500G开发语言及工具:c#、Visual Studio 2010数据库:MySQL、数据库辅助工具: Navicat for MySQL实验数据:采用新浪微博的数据进行实验。利用新浪微博的开放平台(),提取“梁宏达“的从2012年11月6号到2013年10月31号的微博信息。,实验测试程序主界面,1.通过相似度计算得到的聚类关键词;2.通过改进的TF-IDF得到的特征关键词;3.合并以上结果得到的最终关键词;4.公共事件提取: 1).模板正向匹配; 2).模板的反向匹配;,实验测试,实验结果对比,将算法自动提取的结果和人工标注的结果进行对比,情况如下:,查准率p=自动提取正确主题词的数目/自动提取关键字的数目;查全率r=自动提取正确主题词的数目/人工标注主题词的数目。,目录,一、课题介绍,二、课题的方案

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论