




已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
社会网络链接预测分析 甶: : 圈公开 络加以描述。如果将社会网络中的人抽象为节点,人与人之间的关联抽象为节测通过分析社会网络拓扑结构,辅以社会网络中的节点性质,试图通过这些性 耡 篶 目甃缁嵬纭基于特征的链接预测第三章基于邻居相似度的链接预测算法抽样方法 第五章总结与展望 引言下面我们来看链接预测的定义:给出以下时间节点觯辍,对于 ,么鞧在时间段康淖油迹猛加稍赱,亡幻时间段出现的所有链接构成。链接预测就是将癩的特征作为已知信息,生成训练集,对训练集进行学习训练后,预测瑃;】时间段中的网络将会出现的链接。国内外研究概况 算法的主要思路是对于两个目标节点,与它们同时链接的节点数量越多,那么这两个节点在未来链接的可能性就越大。学者们基于的算法有确率。 络中未来的边的情况,主要关心一些常见的社会网络的属性,例如幂律分布特性和小世界特性。两种模型的主要区别在于,网络演化模型着重于研究网络的整体性质,而链接预测模型主要研究网络中特定的一对点对发生链接的可能性。然而,对于解决链接预测问题,网络演化模型的某些思路已被证明是很有帮助的。 价同样非常大。例如对于大量的点对,计算其和基于监督式学习链接预测虽然显著提高了预测准确率,但是依然面临以下几个严峻的挑战:链接点对与非链接点对分布极度不均匀造成的正反类偏态分布、海量数据带来的高计算复杂度、社交网络结构不断变化的动态特征。因此研究改善链接预测正反类偏态分布的抽样方法,寻找计算复杂低的算法以适用于海量数据对于运算效率的要求,设计反映社交网络动态特性的预测模型就成 以数学图论的方式对于网络的研究是离散数学的基本支柱,著名的欧拉柯尼斯堡七桥问题解被广泛认为是网络理论的最早可考的论证。经过二十世纪之后,图论已经发展成为一个庞大的学科。与此同时,网络也得到了广泛的社会科学的研究。旱在二十世纪三十年代,社会科学家意识到人与人之间的连接模式对于理解人类社会的运作十分重要。典型的社会网络研究包括发放调查同时,我们同样不能忽视另一个造成分析网络方法变化原因。对于只有几十或者几百个顶点的小型网络,可以直接画出一幅对应的图谱,直观地看这幅图谱,我们就可以回答各种针对网络结构的问题。对于几百万甚至上亿节点的网络,这种直接绘图的方法就失效了。近来的统计方法就是试图通过量化网络达到之前我们用肉眼分析小型网络同样的效果。 图的学校儿童朋友网络 图截取的通话网络图谱莼暗锹脊乖 某一天中的长途电话记录,并构造了社会网络缤。网络中蠡 臼幽靖錍磁疆躐鼹耋蠢叠簟藿 簇系数的朋友。在网络拓扑领域,簇系数即为三个互相连接的点占网络中的比例大小。能存在的边的比值,即洌螅。整个网络的簇系数为所有节点占比例。对于随机网络模型,度的分布满足泊松分布规律。对于真实网络,研究表明其度分布不同于随机网络,实际上真实网络的度分布往往会出现长尾现图几个真实网络的度分布 钔网络鲁棒性我们有不同的移除网络节点的方案。例如,我们可以随机移除网络节点,也可以有选择地移除网络中的某些点集,比如度值高的点。网络鲁棒性对于流行病学研究十分重要,在流行病学领域,移除某些节点可能意味着帮助大众更好地预防传染疾病。因为移除相关节点切断了疾病在网络中的传播路径,相关的研究对于疾病预防有深远的意义。 。 的主要依据之一就是肤色,肤色成为了学生朋友圈网络社团划分的主要驱动力。图美国在校学生朋友圈网络 基于特征的链接预测 基于网络拓扑结构的特征对于链接预测问题最为常见,我们称之为图拓扑特征。事实上,许多相关研究完全集中在图拓扑特征,他们基于邻居或者基于路径计算点对的相似性。图拓扑特征的优点在于其通用性,对于任何领域的图都适用。但是对于大型社会网络来说,某些特征计算量巨大。基于邻居的特征集节点的邻居表示的是与拥慕诘悖运堑墓餐诰泳褪羌扔基于路径的特征集最短路径长度,夕宦木!甽 基于点边属性特征集率这一属性对于某些数据库来说,在链接预测过程中重要性位列所有特征之首。这种情况下,研究词汇即为节点属性,而我们假定如果科学家们的常用研究词汇重叠得越多,则他们之间在网络中就越接近。这样的特征的优点在于,它们一般来说易于计算,但是这样的特征往往只局限于特定领域,不具备通用性。在社交网络中,一旦确定一个节点的属性的,我们就需要制订一些有实际上,求和函数也可用于聚合节点的属性特征值。研究表明,在科学合著网络中,计算节点对的邻居节点数和是一个很好的链接预测特征量,经过实验发现这一特征的重要性位居所有特征中的第二位。在很多领域,可能存在许多节点或边的复杂属性,这些属性或许对于扩展图规划 随机森林分类器随机森林分类器主要有以下几个优点:只有两个参数,使用默认的参数即可得到很好的效果。能够处理部分数据丢失问题。十折交叉验证十折交叉验证是常用的测试算法准确性的方法,它的处理方法是,将数 基于邻居相似度的链接预测算法整体方案图社交网络链接预测流程所示。 基于邻居相似度的链接预测算法常用特征么算法的数学定义如下:优先链接系数数学定义如下: 基于邻居相似度的链接预测算法夕伽对于局部相似度指标,优点是计算复杂度低,运算效率高,缺点是预测准确率低。全局相似度指标提高了预测准确率,但是同时也大大增加了计算复杂度,同时由于全局相似度指标所需网络的整体拓扑信息不易获取,所以对于海量数据,全局相似度指标是行不通的。因此提出新的易于计算,同时又能提高预测准确率的相似度指标就显得尤为重要了。他驴0任逍:嬲三且 薹熏翼辱图网络间隔与快乐传播的相关性【珥 基于邻居相似度的链接预测算法表三度影响力与六度分隔的区别 数据集 基于邻居相似度的链接预测算法优先链接系数证特征集的预测性能。的通过每棵决策树进行分类决策分类结果由投票法得出罾谌【档米钪战峁格式。虽然还提供了对募闹郑呛芏嗲榭鱿翪文据挖掘领域。 基于邻居相似度的链接预测算法高。当时,模型是完美分类器,意味着对于该预测模型,存在某个阈值可以实现完美预测。当时,表示模型的性能好于随机猜测,如果我们能够选择出适当的阈值,分类器会有预测价值。当时,此时模型的性能跟随机猜测一致,因此预测价值不存在。当时,证明模型的性能弱于随机猜测。图变换阈值示意图 基于邻居相似度的链接预测算法表仿真实验各项指标首先介绍一下几个常用的表征预测性能的指标:被正确预测的正的样本与所有被预测为正的样本的比率被预测为正的负样本比率被正确预测的正的样本占总的正的样本的比重由提升到,相应的 到分类器中,使用方法进行信息增益属性选择评估,并使用十折交叉表各特征的信息增益 进行网络构造,特征提取,并输入到分类器中进行判决验证。实验结果表明,加入邻居相似度系数的特征集各方面指标都得到了提高,特别是常用的比较分类器模型优劣的呙婊副辏尤肓诰酉嗨贫认凳螅珹值由增加到。各项指标都表明,邻居相似度系数在保持低复杂度的情况下,有效提高了预测器性能,适用于海量数据。同时针对各特征进行信息增益比较,对于网络而言,结果表明邻居相似度系数信息增益位列五个特征之首,从另一方面证明了该特征的有效性。 基于邻居相似度的链接预测算法 中的链接点对与非链接点对分布进行分析得下图:糟糕的是,边的数量与点对的比值随着时间还在不停地下降。 映的就是复杂网络的稀疏特性。意鎏墨翌图科学合著网络正反类比值图正反类偏态分布引发的“淹没”现象 远多于链接点对,因此在数量上,二者是可比的,从而大大影响了预测准确率。针对实验需求,我们选取本方号码、类型、对方号码三个字段进行仿真实验。依然采用完成相关社交网络建模工作,话单经去重、取最大连通子图处理之后构造社交网络图。处理后网络图中的点、边的数量如表所示。可见,相对于网络,话单网络还是相对稀疏。表话单数据集接下来我们看一下该网络的复杂网络特性,即网络度的分布。 图话单网络出度分布度、入度,各自的分布分别如图、图、图所示。总体上都近似满足幂律分布规律,同时存在复杂网络中常见的长尾现象。 图话单网络入度分布图话单网络非链接点对距离分布 传统抽样方法的改进样生成的分类器将其中閚愣源砦蟮卦馕猵撸社交网络中,距离近的节点对发生链接的可能性大大高于距离远的节点对,因此距离远的点对被视为易于区分的个体。大量易于区分的非链接点对被抽中作为样本输入分类器,在分类器中与链接点对进行训练区分。在这种情况下,虽然分类器对样本能够训练出很高的区分准确率,但并不能真实反映分类器对于整个社交网络的预测性能。所以需要更为苛刻的抽样策略。最短距离阋韵绿跫簒或构成 确率为攵杂趎叩脑庾既仿饰甇,总的预测准确率为输入到抽样训练生成的分类器中,得预测结果。抽样实验结果分析抽样与抽样结果比较 图真实网络正反类分布示意图样本抽样样本分布不恿图 梓样本 表明,抽样生成的分类器对于对于抽样由上升到。针对仿真实验结果,我们分析了各项 传统的解决网络中正反类偏态分布问题的抽样方法。我们通过仿真实验分,的预测准确率相对于抽样由 展望同时从通用性上考虑,我们之前的研究主要采用的是公有数据集,重点分析网络的拓扑结构,而没有涉及到特定网络的节点或链接边属性特征。前文提到过,许多研究表明,节点和链接边的属性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年能源行业CCS项目经济性研究:国际合作与竞争态势
- 2025年教育领域创新案例研究:翻转课堂与混合式学习的实践探索
- 民兵工作面试题库及答案
- 教师招聘之《小学教师招聘》综合检测模拟卷一套附答案详解
- 2025年教师招聘之《小学教师招聘》练习题库及完整答案详解【历年真题】
- 2025年公共基础知识试题库附答案详解
- 教师招聘之《小学教师招聘》通关模拟卷带答案详解(能力提升)
- 2025年教师招聘之《小学教师招聘》考前冲刺测试卷包带答案详解(研优卷)
- 演出经纪人之《演出经纪实务》从业资格考试真题及一套参考答案详解
- 2025年教师招聘之《小学教师招聘》综合提升练习题附答案详解(综合卷)
- 中心城区排水防涝改造一期工程可行性研究报告
- 2025年租用企业宿舍协议书
- 巴西白糖联营协议合同范本
- 2025年河南省委党校在职研究生招生考试(政治理论)历年参考题库含答案详解(5卷)
- 医院收费处课件
- 2025年事业单位工勤技能-甘肃-甘肃护理员一级(高级技师)历年参考题库含答案解析(5卷)
- 通信技术的现状与发展
- 2025年新人教版三年级小学语文教学计划
- 心理学基础(第2版) 课件 第2章 心理发展
- 药物多靶点联合治疗-洞察及研究
- 海洋旅游特色项目案例集
评论
0/150
提交评论