中期报告-个人微博中公共事件检测算法的研究_第1页
中期报告-个人微博中公共事件检测算法的研究_第2页
中期报告-个人微博中公共事件检测算法的研究_第3页
中期报告-个人微博中公共事件检测算法的研究_第4页
中期报告-个人微博中公共事件检测算法的研究_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

研究生学位论文中期报告论文题目个人微博中公共事件检测算法的研究论文类别专业学位硕士学号姓名专业名称计算机技术指导教师协助导师2014年01月05日目录1微博介绍12研究的目标与内容23研究方案及进度安排331主题词提取方案332源数据的预处理333相似度聚类534特征值计算735改进后的TFIDF形式836基于模板公共事件检测94实验环境115评测结果111微博介绍微博,即微博客(MICROBLOG)的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WEP以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。微博作为网民记录生活和发表评论的载体,其自身蕴含许多非常有价值的信息,其中包含人们对社会各种现象的不同观点和立场,话题涉及经济、军事、娱乐等各个领域,因此微博信息分类在兴趣挖掘、热闹话题跟踪与发现、流行语分析、舆情预警等领域都有着广泛的应用前景,而这些应用的前提是如何对微博信息进行正确的分析。由此可见微博数据的几种显著特性1海量数据以“新浪微博”为例,微博平台平均每天收录将近2亿条来自用户发布的帖子,且发帖的频率平均高达1000条/S,形成了微博海量的文本特征。2短文本性根据微博平台的规定,每条帖子的长度不超过140个字符,所以对微博数据的处理要不同于普通的长文本,要全面考虑短文本数据特征和微博本身的数据特点进行操作。3文本形式的多样性由于用户关注的新鲜事件类型很多,除了文字描述还有图片、表情符号、视频文件以及URL超链接等形式,使其微博文本的表现形式呈现出多样性的特征。4即时性用户可以通过手机移动客户端、IM软件、WEB网页或开放的API接口等多种途径在任何时间、任何地点记录任何事情,体现了微博的即时功能。5庞大的社交网络用户间通过“互粉”的互动模式形成了微博庞大的社交网络,同时转发、评论、互赞功能的引入进一步加大了这种网络关系的稠密度。2研究的目标与内容本课题主要研究的内容通过新浪的API接口获取个人微博数据,并将其做为实验的数据集,并对获取的信息进行去噪音、分词等一系列预处理操作,结合以往的算法并进行相应的改进,提取出某用户在某段时间所关注过的公共事件。本课题的主要研究工作由以下五个方面组成1首先通过新浪开放的API接口,获取到某用户个人的原创微博以及转发的微博信息,主要包含微博编号、发布时间、转发数、赞数以及评论数,并将原信息中包含的HTTP超链接内容所指向的网页标题提取出来,并将其超链接地址信息替换掉;其次对进行文本的分词处理以及清除噪音分词,为后面的提取主题词工作奠定良好的基础。2正对个人微博的非主流文本特征,对常见的相似度聚类算法进行改进,主要考虑到了微博的转帖、赞数和评论因素,在原始的聚类算法耦合相似度、时间相似度的基础上添加了基于转发、评论和赞数的流行相似度因素,同时时间相似度和流行相似度的计算借鉴了层次聚类的思想,将后两者的相似度计算基于耦合相似度的基础上进行,这种改进方式很大程度上解决了主题漂移问题。3针对直接采用传统TFIDF提取短文本主题词出现的特征值离散现象,对其原始公式进行改进,主要是综合考虑了微博分词出现的模式和规律、分词自身携带的各种影响因子,主要添加了词长、词性、词频以及词流行度。同时解决了采用传统的IDF公式进行短文本主题词特征值计算,出现的IDF值过高,TF值过低导致的特征值过高问题。4公共事件的提取采用的是“新浪风云榜”进行匹配,课题在以往的正向匹配的基础上,又添加一步反向匹配操作,解决了正向匹配后出现的提取结果冗余的问题,提高了最终提取结果的准确率。5最后对实验的主要模块进行测试和结果展示,同时在主题词提取方面,分别采用查全率和查准率两个指标对单纯采用TFIDF函数的提取结果以及课题中提取关键词的提取算法进行实验的评估和对比。3研究方案及进度安排31主题词提取方案具体的关键词提取的架构图如图31所示1,1,NMC1,1,NMTT1,1,NMP微博信息转帖数评论数赞数URL链接ID12N1,1,NMS耦合矩阵时序矩阵流行度矩阵综合相似度矩阵TFIDF序列词长词频词性词流行度特征值计算源数据获取相似度计算提取关键字特征主题词主题词聚类主题词图31主题词提取架构图32源数据的预处理321规范化微博信息1由于用户表达微博信息的方式很多种,本文将其指向的网页标题提取出来,同时替换掉原文中的超链接地址,使得文本的表现形式更规范化;2为提高文本分词的效率和精确度,将微博信息中的英文字母、数字文本、标点符号以及表情符号这些噪音因素筛选掉,形成一种纯文本的信息表现形式;3最后将微博编号、发布的时间、转发数、赞数、评论数以及经过上述过程形成的纯文本信息一起作为规范化后的微博数据。322分词与词性标记本课题使用的分词软件是中科院汉语词法分词系统ICTCLASINSTITUTEOFCOMPUTINGTECHNOLOGY,CHINESELEXICALANALYSISSYSTEM。它具备以下优势1提供方便的CSHARP分词接口(实验工具是VS2012);2具有自动标注词性的功能,词性标注功能也有助于文本语义的分析和理解;3可以通过借助于用户词典保证文本信息中所涉及到的人名、地名、机构名以及缩略词等特殊的分词被准确地划分。表31ICTCLAS常用的词性标注集词性标记以为开头举例名词N梦想、过客、世界杯处所词S身边、家里、门前动词V继续、说话、具有形容词A快乐、可怜、民主时间词T现在、未来代词R那种、各国数词M很多、第一、一下成语I发扬光大、芸芸众生量词Q场、年、句副词D曾经、从来、宁愿习用语L无论如何、不过如此标点符号W,、;非语素字X文本中的未知数、符号缩略词J亚锦赛、欧冠、奥运会323分词过滤1过滤停用词停用词就是对文本语义贡献度小的词语,例如“是”、“的”、“什么”、“了”等。利用构建好的停用词表,对这些分词进行过滤。2过滤特殊词性由于名词、动词以及缩略词对文本的语义表达贡献度最大,所以课题在词性过滤环节只考虑保留此三中词性,而将其他词性的分词清除掉。3过滤分词长度为1的分词根据汉字的特点,单个分词的信息覆盖量比较小,能成为主题词的概率也很低,所以要去掉长度为1的分词。4经过一系列的处理操作以后,形成完整的分词序列,即,其12,NSTW中W1,W2,WM为分词预处理后剩余的关键词。33相似度聚类通过词聚类实现主题词的自动抽取是很多领域都研究的重点内容。传统的基于TFIDF相似度聚类主要取决于文本间关键词的重叠数量大小,但由于针对的数据集是长文本,所以通常情况下重叠度比较大,聚类效果显著。如果直接采用这种传统方法进行类似于个人微博的短文本相似度聚类,那么实验结果是文本之间的关键词重叠数量少、相似度发生浑浊、总体的聚类效果不明显。所以根据个人微博特殊的文本特点进行基于耦合、时序和流行度三者的短文本串行相似度的计算。331耦合相似度如果两条微博含有相同的关键词,则说明二者在内容上很可能会具有一定的相关性。若关键词重叠数量越多,则说明耦合度就越大。此处运用了雅各比相似度公式进行个人微博文本之间的耦合相似性的度量。计算公式如下(31),IJIJWORDORWIDSIMCPD其中WORWI,IDI和WORWJ,IDJ分别表示编号为IDI和IDJ微博所有分词的集合。332时序相似度以往的微博时序相似度是将指定数据集中的任意两条微博的发布时间都进行一次相似性的度量,这种做法不仅加大了算法的时间复杂度,且如果在时间跨度太大的情况下,会产生二者之间语义相似度的判断出现误差现象。由于个人微博的文本内容具有很强随机性和跳跃性,所以为了防止出现相似度浑浊和相似度漂移问题,微博信息之间的时序相似度是基于耦合相似度的基础上进行的,即只计算在内容上具有耦合相关度的微博时序相似度,这样做使得微博文本之间的相似性更具有稠密性,聚类目标更清晰,且在很大程度上减少了算法的时间复杂度,提高了程序运行的效率。计算公式如下(32),IJIJTSIMEQDE其中TI和TJ分别表示编号为IDI和IDJ微博的发布时间。333计算流行度对于微博数据而言,流行度主要的影响因子是转帖数、评论数和赞数。以往的微博数据相关工作中,并没有将流行度概念引用到个人微博的数据挖据中。计算公式如下(33)IRESCOMATIPODCUNTTUN其中RES为转帖数,COM为评论数,ATTI为赞数,COUNT为以上三者之和。通过分析反复的实验推理,设定等于05,等于03,等于02时,得出的权重值最能反应一条微博的受关注程度。334流行相似度若两条微博在内容和时序上都具有相关性,则说明二者的流行度也定会存在某种程度的关联若两条微博的流行度值均很大,说明相似度越高;在二者之和相等的情况下,乘积越大,则相似度越高。计算公式如下(34),IJIJSIMPODPODI其中POPIDI和POPIDJ分别表示微博的流行度,即值越大,流行度越接近,说明流行相似度越高,反之越低。335综合相似度通过分析某用户个人微博信息之间的耦合相似度、时序相似度以及流行度相似度三个因素各自对综合相似度的影响力度,对其进行线性加权,得出指定两条微博间的综合相似度。计算公式如下(35),IJIJIJSIMALSIMSICPEQDSIMPOWDD其中、为以上三种相似度的在公式中的可调节参数,通过分析每个权重因子的含义、影响力的大小以及大量的实验分析,最终设定、和的值分别为06、03和01,且1。336提取聚类关键词步骤1分词I的不同的词性对文本的贡献度不同角度考虑,对每种词性的影响度通过赋予不同的权重值进行划分,所以聚类关键词词性计算权重公式如下(36)0864IIPOSI若为缩略词若为名词若为动词步骤2由于聚类候选关键词的特征权重值受词性和词频因子的影响力较大。所以将其二者进行乘积运算得到综合权重值,设定提取阀值进行二次筛选。聚类关键词权重计算公式如下(37)_IIIWEGHTCOUNTPS其中WI_COUNT为主题词在所有聚类关键字中的词频,POSI为词性权重。步骤3设定提取聚类关键阈值以及候选关键词的总出现次数。34特征值计算341传统TFIDF函数传统TFIDF的主要思想是若分词T在某一文本中出现的频率很高,且包含分词T的文本数量又较少,则认为分词T具有较强的文本鉴别力和区分力,能够代表该文本的核心主题信息。传统TFIDF函数虽也能检测到部分主题词,但由于噪音分词所占的比重较大,且同一个关键词在不同的短文本中会出现明显的特征值离散现象,严重影响提取主题词阈值的设定,故直接应用此函数会出现一些显著的缺点1那些不能代表文本主题的分词会由于IDF值过高,而TF值过低,而导致的综合特征值过高,被当作主题词提取出来;2并没有结合个人微博的文本特征以及分词的自身因素进行计算;3采用传统的TFIDF公式计算特征值时,会出现相同关键字在不同短文本中发生特征值离散现象,这就很难划定提取关键词阀值的边界,所以需要对其中某些影响因子求均值,以消除离散现象。342添加TFIDF影响因子针对以上几种问题,首先在原公式的添加四个影响因子;其次为解决相同分词在不同段文本中的特征值离散现象,将词频、词流行度及相对词长求均值;最后分析传统IDF公式含义以及所存在的弊端和不足,对其进行相应的改进。1词长根据汉字特点,长关键词所包含的信息量比较多,且能成为文本主题词的概率也大,故为分词分配一个词长权重。2词性在词性过滤环节只保留了分词序列表中的名词、动词以及缩略词。这样做不仅降低了噪音分词的干扰。3词频考虑微博信息中分词的词现模式以及规律不同于常规文本,所以将分词在所属微博中的出现的频率和在所有微博中的出现的频率线性加权,得出每个分词的综合频率。4词流行度对于微博数据分词的流行度主要取决于分词所在微博的转帖数、评论数、赞数、词性、词长以及分词的出现次数。计算公式如下(38),IIIIIPOULARWDPODLENWPOSHWD其中SHOWWI,IDI表示分词在所属短文本中的出现次数。经过反复的实验得出,将可变参数分别设定为04、01、02、03时,最能反映一个分词的流行度。35改进后的TFIDF形式351改进后的TF对传统的TFIDF函数调整以后,其特征权重的计算公式如下(39),IIIIILENWAVGFREQWPOSAVGPOWD其中,(310)1,MIJILIDDLLENIWI表示分词WI的相对词长,LENIDWI,IDI表示分词所在文本的长度,LENWI表示分词长度,M表示的是含有分词WI的微博条数。(311)2111121,NIIKMKWIAXIIINIFSTFDAVGFREQFSF1WI,IDI表示分词在所属微博中的出现次数,FWIDI表示分词所属微博的所有分词出现次数之和,F2表示分词在整个分词序列中出现的次数之和,FMAX表示整个分词序列表中所有分词的出现次数之和,ST为分词序列。(312)121,NIIIINIPOULARDAVGPOWDFST其中分子表示一个分词的所有流行度之和,F2表示分词在整个分词序列中出现的次数之和。352改进后的IDF传统的IDFLOGN/N,其中N是语料库中的文本总数,N是包含分词T的文本数。分析其公式含义,若分词的TF值很低,但IDF值很高,很可能导致其综合权重很低,说明该分词不能代表文本的核心语义信息。而对于短文本而言,若分词TF值很高,说明该分词对表达文本语义贡献度大,应该被当作主题词而提取出来,这就是IDF的不足之处。故提出改进后的IDF表现形式,具体计算公式如下(32LG1NIDFN13)以上公式表明,当N值固定,IDF值会随着N的增加而增大。1是为避免出现负数或0添加的平滑因子。最后经过反复的实验和结果分析,将词频的两个可变参数1和1设定为06和04,其余可变参数分别设定为01、04、02、03时,最能反映微博中每个分词的特征值。综上所述,主题词的提取主要经过三个步骤进行,具体如下首先经过耦合相似度、时序相似度、流行度、流行度相似度以及综合相似度五步的计算,提取既定阀值范围内的分词,得到聚类的候选关键词,同时针对聚类候选关键词的词频和词性特征进行二次筛选,得到聚类关键词;其次借鉴传统的特征计算理念,将以往的TFIDF公式进行改进,提出一种新的基于统计的特征值计算方法,提取规定阈值范围内的关键词,作为特征关键词;最后合并两次的提取结果,得到最终的关键词。36基于模板公共事件检测图32是完整的个人微博公共事件检测的流程图,其中公共事件的检测主要应用的是模板匹配方法。图32公共事件提取流程图361模板匹配的优点模板匹配的优点是1能够为公共事件和私人事件划分确定明显的边界;2能够针对用户在某段时间内的微博内容,很快地锁定要关注的公共事件范围,模板匹配正向匹配反向匹配合并上述提取结果特征值计算词性词长词频词流行度特征关键词相似度计算耦合相似度时序相似度流行相似度聚类关键词候选聚类词预处理规范化微博信息分词与词性标注分词过滤源数据获取新浪的API接口也就是说事件检测的目标也更加清晰;3由于模板一般都是对事件的简单描述或者一个词组,其表现形式比较简单,这样将提取出来的关键词与之进行匹配,算法实现很简单,且时间效率很高;4课题中提取的关键词部分可以作为用户关注某公共事件的索引,但是如应用风云榜的事件描述作为公共事件的索引,很大程度上增加了索引的信息覆盖量,能够让其他用户通过索引对该事件有一个简单的了解。362模板匹配的缺点1由于是凭借关键字去匹配模板事件,避免不了出现同样的关键字匹配出不同的事件,此时会出现匹配事件的冗余现象,即相同的关键词匹配出不同的事件;2针对上一步的匹配事件冗余现象,还存在的问题是虽然部分关键字匹配正确,但是这个模板事件就是用户所关注的事件是否无法立即做出判断;3上述现象直接导致了事件提取的准确度不精确,也就是可以提取出来用户所关注的公共事件,但是对于一些匹配出来的但又不是用户关注的事件不能通过模板匹配直接得出。363模板匹配的步骤针对模板匹配的优点及缺点,若实现准确地事件匹配要通过以下几个步骤进行1收集特定时间段内的模板数据;2将提取的关键字

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论