【基于图神经网络的节点分类分析综述6300字】_第1页
【基于图神经网络的节点分类分析综述6300字】_第2页
【基于图神经网络的节点分类分析综述6300字】_第3页
【基于图神经网络的节点分类分析综述6300字】_第4页
【基于图神经网络的节点分类分析综述6300字】_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于图神经网络的节点分类分析综述目录 1 1 2 21.2.2特征数据爬取 41.3基于图神经网络的节点分类 5 6 6 71.4实验与结果分析 8 8 8 1.4.4实验分析与结论 本章研究工作的内容组织结构图如图3-1所示。数据预处理数据预处理数据集图神经网络分类异质网络节点分类图3-1内容组织结构图1.2异质网络数据集构建1.2.1数据处理本文选取的真实数据集是DBLP数据集43,DBLP是一个收录了大量的计算机类英文文献的集成数据库系统,其中具体数据内容包含都有,论文标题,作者,期刊始数据的截图入图3-2所示:<inproceedingsmdate="2012-09-18"<url>db/conf/ds/dbm74.html#Codd74<title>InteractiveSupp</article>↓图3-2DBLP原始数据截图本文需要从DBLP的原始数据中抽取出构造异质关系网络的数据内容,并根据DBLP中数据之间的所对应的关系构造出异质关系网络,该处理过程所对应的网络构建流程如如3-3所示。其中,数据处理流程中的第一个过程是解析DBLP的原始XML数据,本文从中抽取了论文标题、摘要、会议、期刊、作者、等信息,通过程序解析获得了构建异质网络的结点和关系的基本数据,抽取数据的截图如图3-4所示。IBMResearchReport,SanJose,California:lnterTechnicalRep.UKSC0060,IBMUnitedKingdIBMResearchReport,Sarich,Dept.ofComputerScience:PrIn:R.Rusin(ed);:DatabaseSystems:IBMResearchReport,SIBMResearchReport,SHydrologyandEarthSystemScieHydrologyandEarthSystemSciencProc.11thInt.SymposiumonElectromagneticCompatiblityEMC'94):ROSAR-RuleOrientedsysCompulogNewsleter:LP:AWWWBibliographyonDatabasesand图3-4DBLP抽取信息截图通过对原始数据的处理,本文得到了以下数据包含论文题目所对应的论文发表的期刊或者会议,以论文作为分析的节点,论文之间通过共同发表的期刊或者会议作为关系,构成一个异质网络图。利用这些节点的属性以及各个节点之间的直接关系或者隐藏关系构建一个异质网络数据集,把每条数据/每篇论文表示为图中的一个节点,和之前的深度学习数据集不同,以前假设数据之间是独立同分布的,在这里论文间都有共同发表期刊或者会议关系而且各个期刊与会议又会属于同一领域关系,也就是每个数据都是有关联的,之前的假设不再适用。所以,就把这种有关联的数据表示为图中节点,边表示数据之间的关系,如图3-5为作者-论文-期刊之间的关系网络。本文从DBLP中抽取出来的论文节点信息中,只有论文标题以及发表的期刊或者会议,但是为了进一步验证节点属性信息对数据节点结构信息的影响,本文选择从citeseer网站上爬取从DBLP数据集中所抽取出来的每篇论文所对应的摘要信息,将所有摘要信息中具有代表性的关键词汇总成一份总的关键词表作为每篇论文的属性信息,如图3-6为数据爬取流程图。提取数据一提取数据一获取数据一一数据存储一—数据存储一获取数据一一解析数据一字符串字符串图3-6数据爬取流程图3-6数据爬取流程中序号标注如表3-1所示:表3-1图3-6序号注释0415特征数据的爬取流程总共分为四大部分:1、发起请求:使用http库向目标站点发起请求,即发送一个Request,Request包含:请求头、请求体等;2、获取响应内容:等待服务器能响应返回,则会得到一个Response,Response包含:html,json,图片,视频等;3、解析内容:解析html数据:正则表达式,第三方解析库,如Beautifulsoup,pyquery等;解析json数据:json模块;4、保存数据:数据可保存在数据库或者文件中。453659;ABayesiancomoutervisonsystenformoetinghunaninteractions(288);ieGescribearea18958;VieusynthesiPredictioninthe3DVideoCodingExtensionsofAVCanoH29368;StandadcelllkeviacnfgurablelogicblockforstructuredASTCS;structureASTC152919;PRTNA:PasiveReduced-ordenIntercoectMacronodelingALgoritha(197);ThispaerdescribesPITMA,analgorithaforgenerating1819489;SimulationsofPRAMonComleteOpticaletu1428676;ECLisePlug-intoHanageUseCentereDesign;User-centereddesign(UCD)aprachgu19613;AschedulingnodelforeduceCPUenery(195);Theenergyusageofcotputes1326715;L0T-3asedAdaptiveInageWatemtarkin(284);obust,invisiblewatemankingschemeisproposedfor658389;PrcedingsoftheTenty-ThioIntenationalointConference1178584;AsymototicMonadicSecnd-0rdeLogic;.Inthispaperme418578;AnEficientRandomizeALgorithnforDetectinCirctes(281);nispaper,anefficientrandonizedalgori978973;AnaLVSiS,RdelingandGenerationofSelf-S1milarVBR978973;AnaLVSiS,RdelingandGenerationofSelf-S1milarVBRVieTaffic(1994);Hepresentaetailedstatistical872396;AmtilLuneaesinguLavoluedecomposition(28);,MediScUssamutilLinegeneralizationofthesingulanvaluedecon871072;LaplacanelgenapsandspectraltechiouesforenedingandcLustering.(261);Draningonthecoresonden91237;MebT0:LearningfrontheMebtoatchDeep-HeQueryInterfaces(286)图3-7摘要信息爬取截图如图3-7所示,图中内容为论文id,论文标题,以及每篇论文所对应的摘要信息,本文将所有论文对应的摘要信息全部提取出来,构成一个由1558个关键词组成的关键词库,再利用每篇论文摘要中的词汇是否出现在关键词库中,如果论文摘要中的词汇出现在关键词库中则此单词作为此篇论文的特征信息。节点分类是社会计算中重要的应用任务,也是分析网络数据的常见任务,因此,本文选择以节点分类任务来研究和分析图神经网络在异质关系网络上的应用情况和效果。本文从三个方面来研究基于图神经网络的节点分类任务,一是考虑到关系网络中的节点不仅具有自身的属性特征信息,还具有节点之间的关系结构信息,为了研究分析这两种节点信息在应用任务中的影响和作用,本文进行了有无结点属性特征的实验对比;二是基于不同的图神经网络来研究分析在节点分类任务中的效果,本文分别选择了GCN和GAT两种不同的图神经网络;三是鉴于异质网络中不同类型的节点之间会产生间接关系,比如:出现在同一个期刊的论文之间会有内容上的相关性,本文认为这种间接关系在异质网络中潜藏着重要的关系信息,因此,为了分析和研究直接关系和间接关系在节点分类中的作用和意义,本文进行了相对应的实验对比和分析。1.1.1类别依据作为类别划分依据并设定了10个类别,之后按照每个领域下所包含的国际期刊和会议列表,将处理后的异质网络数据进行类别标签的自动标注。领域类别表如表3-2所示:1网络与信息安全23456交叉综合新兴789数据库积并没有现成的,所以需要自己定义图卷积层,图卷积的前向传播其实就是图图数据中,因为每个节点都有自身的特征信息,通过将这些节点特征的整合,构成特征矩阵X,并且在真实网络中节点之间也会存在联系,将所有有联系的节点构成邻接矩阵A。X和A便是此模型的输入,如图3-8为GCN图卷积层的示意图。上图中的GCN拥有C个输入通道的图作为输入,通过中间的若干层hiddenlayer每个节点的特征从X变成了Z,得到F个特征输出,但是,无论中间有多少层,节点之间的连接关系,即A,都是共享的。图3-9多层GCNGCN层通过聚集来自其邻居的特征信息来封装每个节点的隐藏表示。特征聚合后,将非线性变换应用于结果输出。通过堆叠多层,每个节点的最终隐藏表示形式将包含来自其他节点的信息,表3-3为采用GCN模型的分类算法流程。输入:G=(V,E)(1)加载数据,处理数据(2)提取模型的参数为数据集出来的features和adj(3)利用图卷积类定义图卷积网络训练模型(4)训练,输入(2)中参数(5)测试本文在第二章节对GAT模型进行了详细的分析,是在基于GCN模型将深度学习处理图模型的基础上引入attention思想,通过自注意力机制来对邻居节点进行聚合,实现了对不同邻居的权值自适应匹配,计算每个节点的邻居节点对它的权重,从而达到从局部信息可以获取到整个网络整体信息却无需提前知道整个网络的结构,同时通过堆叠这些隐藏自注意层能够获取临近点的特征,从而避免大量矩阵运算,计算高效。Head2图3-10为GAT模型的端到端结构,其中虚线表示协作连接操作,绿色圆圈表示初始实体嵌入向量,黄色圆圈表示初始关系嵌入向量。总的过程分两步计算,第一计算点i,逐个计算它的邻居们j和它自己之间的相似系数,然后将相似系数通过SoftMax或者根据本文的实验要求,本文选择了所构建的DBLP数据集和真实的Cora数据集,分别进行了三个方面的实验分析,(1)特征与关系结构的对比,(2)直接关系与间接关系的对比(3)1.4.1实验环境本节实验环境如表3-4所示:实验环境型号内存实现语言16G内存1.4.2实验数据本文利用爬取的特征信息与从原始DBLP数据集中抽取的信息相结合,生成带有特征信息的DBLP_1K数据集,该数据集由1000篇论文,以及它们之间的共发表期刊会议关系构成的24202条边构成。每篇论的特征向量通过词袋模型得到,维度为1586(词典大小),每一维表示一个词,1表示该词在该论文中出现,0表示未出现,这些论文根据主题划分为10类,分别是网络与信息所构建的DBLP异质网络数据集中分别选择了由1000、2000、5000篇论文,以及它们之间NN点这些论文根据主题划分为10类,如表3-5所示,每篇论文的特征(向量)均由单位矩阵代替。过40%,则可以为这两篇论文建立边关系。本文选取了1000篇论文,然后通过相似度计算,最终经过计算得到相似度超过40%的有5426条关系,如表3-5中DBLPSIM数据集所示。由2708篇论文以及它们之间的引用关系构成成一个图,每篇论文的特征通过词袋模型获得,维度为1433,每一维代表一个词,1表示该词在该文章中出现,0表示未出现。表3-5实验数据集备注DBLP_1K有特征信息DBLP_1KDBLP_2K无特征信息DBLP_5K相似性关系征信息,如果数据集拥有N个节点,D维向量,即一个N×D的矩阵(2)图的结构,即边的关系,通常是邻接矩阵A。具体过程如表3-6所示。(1)读取特征信息数据集(2)对数据中的特征部分(剔除索引列和标签列)进行压缩(3)对数据中的标签列内容进行one-hot化(4)对特征数据中的文献索引重新排列(5)读取结构信息数据集(6)根据上面特征信息数据中的文献索引重新排列的结果,对结构信息中的相(7)建一个空矩阵,矩阵的长宽均为引文的数量,然后把有边的地(8)对这个矩阵进行数据变化,然后对这个矩阵和前面的features就德到了图的节点属性矩阵和邻接矩阵属性 (9)对标签数据进行处理,用np.where(把onehot形式的label转成一个一维数1.4.3评价标准 (TP+TN)/(TP+TN+FP+FN),这个很容易理解,就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类效果越好,如表3-7所示:预测结果正例反例正例反例样本预测为正样本,FN实际为正样本预测为负样本,T1.4.4实验分析与结论(1)特征与关系结构的对比DBLP节点DBLP边数特征信息的数据集对带有特征信息与无特征信息的DBLP数据集进行节点分类实验,从表3-8中的实验结果数据来在比例达到6:2:2时,带有特征信息的DBLP数据与无特征信息的DBLP数据分类的accuracy值都达到最高值,但是前者比后者的准确率还要高出0.015个点,证明特征信息结合结构信息更能够体现出数据的完整性。图3-11为DBLP在有特征与无特征情况下的准确率与损失函数图。先采用先采用GCN表3-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论