数字大二下课件网络受众分析第_第1页
数字大二下课件网络受众分析第_第2页
数字大二下课件网络受众分析第_第3页
数字大二下课件网络受众分析第_第4页
数字大二下课件网络受众分析第_第5页
已阅读5页,还剩30页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

微博社交网络分析2015

.41上节回顾2网络受众心理Web日志分析微博3操作:原创、转发、回复、阅读、关注、@与微信区别:???与微博相关研究:谣言、网络大V、广告、还有推荐等。社会网络分析与挖掘、社会计算1

标签传播受众兴趣研究4微博用户量浩大,不同的人有不同的兴趣。挖掘每个用户的兴趣有助于更加精准的广告投放、内容推荐。为了得到每个用户的兴趣,可以为用户打上标签,每个标签代表用户的一个兴趣,用户可以拥有一个或多个标签。如何给微博受众添加标签?5假设:每个用户的好友(或粉丝)中与该用户具有相同兴趣的人占多数。算法设计:每个用户的标签取其好友或粉丝中标签最多的一个或多个。可以将好友和粉丝的标签都考虑进来,整合的时候可以考虑赋予好友的标签和粉丝的标签不同的权重。1)2)6对一部分用户给出初始标签;对每一个用户,统计其好友和粉丝的标签数目,赋予该用户出现次数最多的一个或者多个标签。3)

循环进行第2步,直到用户的标签不再发生大的变化为止。缺陷7当所做的假设不符合事实时,比如为了社交上的礼貌,我们一般会把自己的亲友添加关注,这些人不一定和我们拥有同样的标签;该算法的结果就会变得很差。解决的办法就是通过计算用户之间的相似度来衡量好友或粉丝的标签对用户标签的贡献率。2

用户相似度8假设与用户越相似的好友或粉丝,其标签越可能是用户的标签。如何衡量用户的相似度?用户相似度9(1)使用用户转发与原创的微博信息。用户之间的相似度而不是用户微博之间的相似度,在实际计算时,将某个用户的所有微博信息聚集到一起进行计算。算法省略,使用该相似度对标签传播进行加权。缺陷随着时间的变化,用户的兴趣是会变化的,计算用户相似度的时候每次都把所有微博信息都聚合在一起不太合理。可以通过选取距离当前时间较近的N条微博。比如,对每个用户,选取距离当前时间最近的50条微博聚在一起。此处的N既不能太大也不能太小。太大则不容易反映用户兴趣的时间变化,太小则由于用户发表微博的随机性容易引起兴趣的漂移。10(2)在上述分析中还没有考虑微博关系中由回复、转发、@等所构成的网络信息。以转发为例,如果在用户的微博中频繁的转发某个好友的微博,那么用户和该好友的相似度相比其他好友来说应该会更高。11假设12用户转发某好友的微博的频率越高,用户与该好友的兴趣相似度越大。用户微博中@某用户的频率越高,用户与该好友的兴趣相似度越大。Tips:很多方法可以添加一个新的因素到原有的相似度方法中,比如可以考虑将转发频率量化为值,作为权重添加到相似度的衡量中去社区发现13微博社区是指在微博中关系紧密的人组成的团体,社区内部的人之间联系紧密,社区之间的联系则比较稀疏。这里所指的关系紧密有两层含义,第一是社区内部的人之间的兴趣相似度大;第二是指社区内部的人之间的关系要近,比如要求社区内部的两个用户不能超过二度关联,二度关联即好友的好友。用户关系相似度以用户的关注关系为单向链,可以将所有的微博用户之间的关系表示为一个巨大的有向图。用户之间的关系相似度可以简单的考虑,比如使用用户间的最短路径的倒数。这种方法衡量的不精确,在现实世界中,存在着六度理论,在微博网络及其他社交网络中,往往关系会更加紧密。这种简单的关系相似度只能有至多六个离散值,显然不够精确。为了达到更好的效果,这里不仅以最短路径作为显式量度,还要考虑一些隐式的量度。14假设15两个用户的共同好友越多,这两个好友的关系相似度越高。(共指向性相似度)两个用户的共同粉丝越多,这两个好友的关系相似度越高。(共被指向性相似度)算法16这里可以借鉴Jaccard相似度的计算方式,将这两种假设的量化函数表示为交集的大小与并集的大小之商。(A˙B)/(A¨

B)算法共指向性相似度,量化时使用两个用户共同好友的数目除以两个用户所有好友的数目。共被指向性相似度,计算方式与共指向性相似度类似。从意义上讲,这两种相似度不仅仅是关系上的度量,在一定程度上也衡量了用户之间的兴趣相似程度,直观上看,两个用户共同关注的好友越多,他们的兴趣相似程度也越大。结构情景相似度17算法18计算得到最短路径相似度、共指向性相似度、共被指向性相似度后,可以采用加权函数将它们融合起来,得到最后的相似度。之后,可以采用一些聚类算法进行聚类操作,得到最后的用户社区。影响力计算19微博用户的影响力计算可借鉴网页排序技术网页排名中广为人知的算法当属PageRank,该算法由Google创始人拉里·佩奇和谢尔盖·布林发明,随着Google在商业上的成功而声名鹊起。该算法根据网页之间的链接来确定网页的排名,其核心在于一个假设,质量高的网页所指向的网页的质量必定也高。假设20影响力高的用户关注的用户的影响力必定也高。将用户看成是PageRank中的网页,将关注关系看做是网页中的链接关系。根据PageRank的算法流程得到在微博关注网络上的影响力计算算法:1)2)3)赋予所有用户相同的影响力权重;将每个用户的影响力权重按照其关注的人数等量分配;对每个用户来说,其影响力等于其粉丝分配给他的权重之和;4)

第2步和第3步迭代,直到权重不再发生大的变化为止。缺陷21如果只是基于关系网络的话,那么很容易就造成,粉丝数目多的人影响力必然会很高。这样就导致有些用户去购买一些僵尸粉就可以达到很高的影响力了。这样的算法显然是不能应对实际情况的,因为还有太多的信息没有用到。改进22用户的影响力除了他的微博关系之外,还与他的个人属性有很大的关系,比如用户的活跃度、微文的质量等。用户的活跃度可以使用其发表微博的频度来衡量,微文的质量可以采用其被转发的数目、被回复的数目来得到。通过对这些值进行衡量,再加上上面算法的结果,就可以得到更加精确的影响力结果。假设23影响力越高的用户回复的微博的影响力越高,从而使该微博主人的影响力变高。影响力越高的用户转发的微博的影响力越高,从而使该微博原创作者的影响力变高。影响力越高的用户倾向于在其微博中@影响力高的用户。形成三个网络:转发网络、回复网络、@网络三种网络,借鉴

PageRank算法,可以得到另外的三种影响力结果。将它们与关系网络的影响力结果进行融合,就可以最终的影响力结果。24得到影响力的计算方法后,可以做些什么呢?25识别意见领袖26可以对当前的热点话题进行影响力分析,得到谁在微博上成为当前热点话题的意见领袖。找到和当前热点话题相关的微文,从而找到参与当前热点话题的用户。怎么找?有的话题有标签对于没有标签的话题,使用主题发现算法发现潜在的主题。舆情监控27找到话题对应的微文与用户之后,运行影响力计算算法,就可以得到该话题中影响力较大的用户。这也是舆情监测、社会热点监控的一个方面。对于标签传播算法得到的结果,对同一标签下的用户运行影响力计算算法,可以得到该标签下的影响力排名,即领域内影响力排名。比如,李开复在全部领域内的影响力或许不是最高的,但在

IT领域,其影响力绝对是数一数二的。28识别垃圾用户29在影响力计算中,提到要避免僵尸用户对影响力计算的干扰。在算法中,如果可以识别这样的用户,在计算影响力时将其排出在外,不仅可以提高效果,还可以降低计算量。与影响力计算相似,垃圾用户的识别要同时考虑用户属性与链接关系两方面的因素。垃圾用户特征30垃圾用户一般发微文具有一定的时间规律性。可以使用熵值对此进行衡量,熵是衡量不确定性的一种量度,不确定性越小,熵值越小,规律性越强。垃圾用户特征31垃圾用户有些倾向于在微文中恶意的@其他人,因而有些垃圾用户的微文中@使用的比例比一般用户高。有些垃圾用户的微文中为了进行广告的推广,添加大量的URL。可以通过微文中的URL比例进行衡量。也有些用户为了骗取URL的点击,微文中的内容与URL对应界面的内容不一致,这时需要判断微文与URL内容的一致程度。对于那些为做广告推销的用户,还可以对其微文进行文本分类,判断其微文是否是广告,如果某用户的相当一部分微文是广告,则该用户可能是垃圾用户。32垃圾用户特征33

垃圾用户一般随意的关注用户,故其粉丝数目与好友数目的比例与正常用户会有差别。而且正常用户一般是通过好友关系添加好友的,这样会形成关注三角形,如A看到其好友B关注了C,那么若A也去关注C,就形成了A关注B、C,B关注C的三角形。一般来说,由于垃圾用户关注的随意性,其关注三角形的比例与正常用户不同。垃圾用户的识别本质上是一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论