【《基于图神经网络的节点分类分析综述》6300字(论文)】_第1页
【《基于图神经网络的节点分类分析综述》6300字(论文)】_第2页
【《基于图神经网络的节点分类分析综述》6300字(论文)】_第3页
【《基于图神经网络的节点分类分析综述》6300字(论文)】_第4页
【《基于图神经网络的节点分类分析综述》6300字(论文)】_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于图神经网络的节点分类分析综述目录TOC\o"1-3"\h\u1128基于图神经网络的节点分类分析综述 1149451.1引言 148551.2异质网络数据集构建 272661.2.1数据处理 2323931.2.2特征数据爬取 4299631.3基于图神经网络的节点分类 5128171.1.1类别依据 5294541.1.2GCN模型 6314481.1.3GAT模型 7108581.4实验与结果分析 844361.4.1实验环境 8236531.4.2实验数据 865811.4.3评价标准 10277541.4.4实验分析与结论 101.1引言目前人们的大部分研究对象还都处于同质网络,就是由单一类型的对象构成的网络,但是随着目当前的网络信息的复杂性和多样性的不断升高,同质网络下的研究,已经不能很准确的刻画出网络的结构。在当今现实生活中出现了各种各样的信息网络,比如学术网络,邮件网络,社交网络(Facebook,微博),调控网络,生物分子结构等,这些信息网络都呈现出了异质性。随着机器学习、深度学习的发展,语音、图像、自然语言处理逐渐取德了很大的突破,然而语音、图像、文本都是很简单的序列或者网格数据,是很结构化的数据,深度学习很善于处理这种类型的数据,但是并不是所有的事物都可以表示成一个序列或者一个网格,例如社交网络、知识图谱、复杂的文件系统等,也就是说很多事物都是非结构化的,传统的神经网络在此类非结构化数据上的处理效果并不如意,对于这个问题,业界正在进行积极探索,而其中一个很有前景的方向就是图神经网络(GraphNeuralNetwork,GNN)。分类问题作为当今数据挖掘分析的一种方式,也被应用在复杂网络之中,通过对网络中节点进行分类,通过标签对节点的这些兴趣,爱好,关系或其他可能的特征进行捕获,可以得出对人口的价值观、兴趣的描述。通过分类技术对复杂网络中的节点进行标签标记,有利于深入分析对网络结构特征以及应用的延研究。本章研究工作的内容组织结构图如图3-1所示。图3-1内容组织结构图1.2异质网络数据集构建1.2.1数据处理本文选取的真实数据集是DBLP数据集[43],DBLP是一个收录了大量的计算机类英文文献的集成数据库系统,其中具体数据内容包含都有,论文标题,作者,期刊,会议,年份等信息,原始数据的截图入图3-2所示:图3-2DBLP原始数据截图本文需要从DBLP的原始数据中抽取出构造异质关系网络的数据内容,并根据DBLP中数据之间的所对应的关系构造出异质关系网络,该处理过程所对应的网络构建流程如如3-3所示。原始数据原始数据网络数据信息整理异质网络关系构造图3-3DBLP数据处理流程其中,数据处理流程中的第一个过程是解析DBLP的原始XML数据,本文从中抽取了论文标题、摘要、会议、期刊、作者、等信息,通过程序解析获得了构建异质网络的结点和关系的基本数据,抽取数据的截图如图3-4所示。图3-4DBLP抽取信息截图通过对原始数据的处理,本文得到了以下数据包含论文题目所对应的论文发表的期刊或者会议,以论文作为分析的节点,论文之间通过共同发表的期刊或者会议作为关系,构成一个异质网络图。利用这些节点的属性以及各个节点之间的直接关系或者隐藏关系构建一个异质网络数据集,把每条数据/每篇论文表示为图中的一个节点,和之前的深度学习数据集不同,以前假设数据之间是独立同分布的,在这里论文间都有共同发表期刊或者会议关系而且各个期刊与会议又会属于同一领域关系,也就是每个数据都是有关联的,之前的假设不再适用。所以,就把这种有关联的数据表示为图中节点,边表示数据之间的关系,如图3-5为作者-论文-期刊之间的关系网络。图3-5DBLP网络关系图1.2.2特征数据爬取本文从DBLP中抽取出来的论文节点信息中,只有论文标题以及发表的期刊或者会议,但是为了进一步验证节点属性信息对数据节点结构信息的影响,本文选择从citeseer网站上爬取从DBLP数据集中所抽取出来的每篇论文所对应的摘要信息,将所有摘要信息中具有代表性的关键词汇总成一份总的关键词表作为每篇论文的属性信息,如图3-6为数据爬取流程图。图3-6数据爬取流程图3-6数据爬取流程中序号标注如表3-1所示:表3-1图3-6序号注释序号注释序号注释0Requests.get(url)4find()1Response.text5遍历提取2BeautifulSoup(字符串)6Response.json()3Find_all()特征数据的爬取流程总共分为四大部分:1、发起请求:使用http库向目标站点发起请求,即发送一个Request,Request包含:请求头、请求体等;2、获取响应内容:等待服务器能响应返回,则会得到一个Response,Response包含:html,json,图片,视频等;3、解析内容:解析html数据:正则表达式,第三方解析库,如Beautifulsoup,pyquery等;解析json数据:json模块;4、保存数据:数据可保存在数据库或者文件中。图3-7摘要信息爬取截图如图3-7所示,图中内容为论文id,论文标题,以及每篇论文所对应的摘要信息,本文将所有论文对应的摘要信息全部提取出来,构成一个由1558个关键词组成的关键词库,再利用每篇论文摘要中的词汇是否出现在关键词库中,如果论文摘要中的词汇出现在关键词库中则此单词作为此篇论文的特征信息。1.3基于图神经网络的节点分类节点分类是社会计算中重要的应用任务,也是分析网络数据的常见任务,因此,本文选择以节点分类任务来研究和分析图神经网络在异质关系网络上的应用情况和效果。本文从三个方面来研究基于图神经网络的节点分类任务,一是考虑到关系网络中的节点不仅具有自身的属性特征信息,还具有节点之间的关系结构信息,为了研究分析这两种节点信息在应用任务中的影响和作用,本文进行了有无结点属性特征的实验对比;二是基于不同的图神经网络来研究分析在节点分类任务中的效果,本文分别选择了GCN和GAT两种不同的图神经网络;三是鉴于异质网络中不同类型的节点之间会产生间接关系,比如:出现在同一个期刊的论文之间会有内容上的相关性,本文认为这种间接关系在异质网络中潜藏着重要的关系信息,因此,为了分析和研究直接关系和间接关系在节点分类中的作用和意义,本文进行了相对应的实验对比和分析。1.1.1类别依据节点分类任务需要节点的类别标签,本文采用中国计算机学会公布的国际期刊会议的目录表作为类别划分依据并设定了10个类别,之后按照每个领域下所包含的国际期刊和会议列表,将处理后的异质网络数据进行类别标签的自动标注。领域类别表如表3-2所示:表3-2计算机领域表序号领域class_id1网络与信息安全0012计算机科学理论0023计算机体系结构0034计算机图形学与多媒体0045计算机网络0056交叉综合新兴0067人工智能0078人机交互与普适计算0089软件工程00910数据库0101.1.2GCN模型在定义普通的卷积网络时,可以直接调用torch自带的torch.linear()等函数,但是对于图的卷积并没有现成的,所以需要自己定义图卷积层,图卷积的前向传播其实就是图节点的属性信息×权重×图结构的信息。GCN通过设计的图数据提取特征的方法,可以得到图的嵌入表示,在真实图数据中,因为每个节点都有自身的特征信息,通过将这些节点特征的整合,构成特征矩阵X,并且在真实网络中节点之间也会存在联系,将所有有联系的节点构成邻接矩阵A。X和A便是此模型的输入,如图3-8为GCN图卷积层的示意图。图3-8GCN图卷积示意图上图中的GCN拥有C个输入通道的图作为输入,通过中间的若干层hiddenlayer每个节点的特征从X变成了Z,得到F个特征输出,但是,无论中间有多少层,节点之间的连接关系,即A,都是共享的。图3-9多层GCNGCN层通过聚集来自其邻居的特征信息来封装每个节点的隐藏表示。特征聚合后,将非线性变换应用于结果输出。通过堆叠多层,每个节点的最终隐藏表示形式将包含来自其他节点的信息,表3-3为采用GCN模型的分类算法流程。表3-3分类算法流程输入:G=(V,E)输出:节点嵌入向量(1)加载数据,处理数据(2)提取模型的参数为数据集出来的features和adj(3)利用图卷积类定义图卷积网络训练模型(4)训练,输入(2)中参数(5)测试1.1.3GAT模型本文在第二章节对GAT模型进行了详细的分析,是在基于GCN模型将深度学习处理图模型的基础上引入attention思想,通过自注意力机制来对邻居节点进行聚合,实现了对不同邻居的权值自适应匹配,计算每个节点的邻居节点对它的权重,从而达到从局部信息可以获取到整个网络整体信息却无需提前知道整个网络的结构,同时通过堆叠这些隐藏自注意层能够获取临近点的特征,从而避免大量矩阵运算,计算高效。 图3-10GAT模型图3-10为GAT模型的端到端结构,其中虚线表示协作连接操作,绿色圆圈表示初始实体嵌入向量,黄色圆圈表示初始关系嵌入向量。总的过程分两步计算,第一计算注意力系数,对于顶点

i,逐个计算它的邻居们j和它自己之间的相似系数,然后将相似系数通过SoftMax或者LeakyReLU函数进行归一化处理就能得到注意力系数,第二步加权求和,根据计算好的注意力系数,把特征加权求和。1.4实验与结果分析根据本文的实验要求,本文选择了所构建的DBLP数据集和真实的Cora数据集,分别进行了三个方面的实验分析,(1)特征与关系结构的对比,(2)直接关系与间接关系的对比(3)GCN与GAT的对比。根据最终的实验结果来验证图神经网络在异质网络数据集上的适用性。1.4.1实验环境本节实验环境如表3-4所示:表3-4实验环境参数实验环境型号操作系统Windows10专业版(64)位处理器Inter(R)Core(TM)i7-7700,1.60GHz内存16G内存实现语言Python1.7深度学习框架Pytorch.2实验数据1.DBLP论文发表期刊数据集本文利用爬取的特征信息与从原始DBLP数据集中抽取的信息相结合,生成带有特征信息的DBLP_1K数据集,该数据集由1000篇论文,以及它们之间的共发表期刊会议关系构成的24202条边构成。每篇论的特征向量通过词袋模型得到,维度为1586(词典大小),每一维表示一个词,1表示该词在该论文中出现,0表示未出现,这些论文根据主题划分为10类,分别是网络与信息安全、计算机科学理论、计算机体系结构、计算机图形学与多媒体、计算机网络、交叉综合新兴、人工智能、人机交互与普适计算、软件工程、数据库。所构建的DBLP异质网络数据集中分别选择了由1000、2000、5000篇论文,以及它们之间的共发表期刊会议关系构成的边,这三个实验数据集名字分别是DBLP_1K、DBLP_2K、DBLP_5K。这些论文根据主题划分为10类,如表3-5所示,每篇论文的特征(向量)均由单位矩阵代替。2.DBLP论文相似度关系数据集根据从DBLP原始数据集中抽取的论文,然后利用所抽取论文的题目,在citeseer网站爬取每篇论文的摘要信息,通过余弦相似度计算每两篇论文的摘要相似度,如果两篇论文的相似度超过40%,则可以为这两篇论文建立边关系。本文选取了1000篇论文,然后通过相似度计算,最终经过计算得到相似度超过40%的有5426条关系,如表3-5中DBLPSIM数据集所示。1.Cora数据集Cora数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集。在数据集中,论文分为以下七类之一:基于案例、遗传算法、神经网络、概率方法、强化学习、规则学习、理论。由2708篇论文以及它们之间的引用关系构成成一个图,每篇论文的特征通过词袋模型获得,维度为1433,每一维代表一个词,1表示该词在该文章中出现,0表示未出现。表3-5实验数据集数据集节点数边数备注DBLP_1K100024202有特征信息Cora27085429DBLP_1K100024202无特征信息DBLP_2K200086706DBLP_5K5000576385DBLPsim10005470相似性关系GCN模型与GAT模型的输入分为两部分(1)每个节点的特征信息,如果数据集拥有N个节点,D维向量,即一个N×D的矩阵(2)图的结构,即边的关系,通常是邻接矩阵A。具体过程如表3-6所示。表3-6数据读取流程输入:结构信息,特征信息(1)读取特征信息数据集(2)对数据中的特征部分(剔除索引列和标签列)进行压缩(3)对数据中的标签列内容进行one-hot化(4)对特征数据中的文献索引重新排列(5)读取结构信息数据集(6)根据上面特征信息数据中的文献索引重新排列的结果,对结构信息中的相互发表的共同期刊的论文序号进行相应的替换。(7)建一个空矩阵,矩阵的长宽均为引文的数量,然后把有边的地方用1表示,填充到这个矩阵中(8)对这个矩阵进行数据变化,然后对这个矩阵和前面的features进行序列化,就德到了图的节点属性矩阵和邻接矩阵属性(9)对标签数据进行处理,用np.where()把onehot形式的label转成一个一维数组,这就是最终要用到的标签1.4.3评价标准为了评估异质网络在图神经网络下的分类效果,本文所使用评价指标是准确率[44],accuracy=(TP+TN)/(TP+TN+FP+FN),这个很容易理解,就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类效果越好,如表3-7所示:表3-7分类结果混淆表真实情况预测结果正例反例正例TPFP反例FNTN模型预测的结果和真实标签的组合就有4种:TP实际为正样本预测为正样本,FP实际为负样本预测为正样本,FN实际为正样本预测为负样本,TN实际为负样本预测为负样本。1.4.4实验分析与结论(1)特征与关系结构的对比表3-8GCN特征与关系结构实验结果数据集DBLP节点DBLP边数训练集:验证集:测试集迭代周期accuracy备注DBLP1000242022:2:610000.7483f表示带有特征信息的数据集4:2:40.83506:2:20.89001000-f2:2:60.78504:2:40.85256:2:20.9050Cora270854292:2:60.78244:2:40.80486:2:20.83002708-f2:2:60.82314:2:40.82986:2:20.8400首先采用GCN对带有特征信息与无特征信息的DBLP数据集进行节点分类实验,从表3-8中的实验结果数据来看,在节点,关系边,迭代周期数目都相同的情况下,随着训练集:验证集:测试集比例的不同,在比例达到6:2:2时,带有特征信息的DBLP数据与无特征信息的DBLP数据分类的accuracy值都达到最高值,但是前者比后者的准确率还要高出0.015个点,证明特征信息结合结构信息更能够体现出数据的完整性。图3-11为DBLP在有特征与无特征情况下的准确率与损失函数图。无特征 (b)有特征图3-11DBLP-1000节点准确损失函数图表3-8中针对Cora数据集与DBLP数据集采用GCN模型做实验对比,两个实验数据集的有所不同,Cora数据集中的邻接矩阵的关系为论文与论文之间的引用关系,而DBLP数据集中的关系为两篇论文之间通过第三者也就是两篇论文共同发布的期刊或者会议作为关系纽带形成的间接关系,在随着训练集比例的提升,Cora数据集所对应的实验准确率提升不是很明显,而DBLP数据集随着训练集比例的提升实验准确率有着明显的提升。并且Cora数据集的节点数比DBLP数据集的节点数多,边关系数量却比DBLP数据集少,最终分类效果DBLP数据集比较准确,由此证明异质网络的结构属性在分类实验中的影响因素比较大。(2)直接关系与间接关系比较本文所构建的DBLP异质网络数据集包含两种数据关系,一种是根据两篇论文摘要信息的相似度构成直接边关系,另一种是两篇论文之间通过共发表的期刊会议构成间接边关系。在计算相似度的过程中分别整理出来相似度大于20%、30%、40%的边关系,最终通过实验选择相似度大于等于的40%的论文确定边关系。采用GCN模型与GAT模型对直接关系数据集与间接关系数据集进行分类任务,验证两种关系对数据集划分的不同影响。实验结果如表3-9所示:表3-9直接关系与间接关系对比算法模型DBLP节点DBLP边数训练集:验证集:测试集迭代周期accuracyrunTimeGAT1000_1K242032:2:62600.723376.1594:2:42650.8200121.5696:2:22670.8900126.8711000_sim54262:2:610000.6022321..8714:2:40.6851300.2546:2:20.7532315.156GCN1000_1k242032:2:62000.78834.7394:2:40.83504.6786:2:20.90004.7451000_sim54262:2:610000.63414.4524:2:40.67124.7186:2:20.76354.488分析表3-9中的实验数据,可以看出无论是在GAT模型下还是GCN模型下,采用间接关系够成边关系的数据集1000_1K进行节点划分效果要比采用直接关系构成边关系的数据集1000_sim进行节点划分效果好很多,综合分析原因采用间接关系可以从一个节点扩展到更多的邻居节点,构成比较丰富的边关系,而采用相似度构建的关系,只能构成单一的点到点的关系,并且构成的边关系数量有限。由此可以证明在对异质网络数据集进行分析时,数据集的结构信息越丰富,将对实验结果产生越有利的影响。(3)GCN模型与GAT模型的对比使用同样的数据样本在GCN与GAT模型下分别进行节点分类任务,通过实验对比结果,验证两种图神经网路模型那种更加适合本文所构建的异质网络数据集,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论