具有注意力机制的图神经网络的实现

上传人：瀚*** IP属地：湖北上传时间：2026-04-15 格式：DOCX 页数：9 大小：187.89KB 积分：15 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

引言最近几年来，人们对深度学习有了更加深入的认知，这推进了将其运用在图数据的拓展。卷积神经网络ConvolutionalNeuralNetworks（简称CNN）可以对有环图、有向图或无向图进行处理，并将其运用在人脸识别、语音识别、自然语言处理等诸多领域。CNN结构可以重复使用卷积核，在网格型数据中运用，但随着时代的发展，更多复杂的数据出现，这些数据无法使用网格结构来表示，它们位于不规则的域中，如3D网格、社交网络、生物网络等，这些数据可以用图来表示。研究人员通过借鉴卷积网络、循环网络和深度自动编码器的思想，定义和设计了用于处理图数据的神经网络的架构。由此新的大热的研究方向—“图神经网络（GraphNeuralNetworks,简称GNN）”产生。GNN的出现解决了传统深度学习方法难以应用到非规则形态数据上的痛点，大大扩展了神经网络的应用空间，并在一些问题上改进了模型的可解释性。针对图数据深度学习的研究越来越深入，2017年，ThomasKpif在论文Semi-supervisedclassificationwithgraphconvolutionalnetworks中提出了图卷积网络（简称GCN），它设计了一种从图数据中提取特征的方法，从而让我们可以使用这些特征去对图数据进行分类和预测[1]。这种方法为处理图（graph）结构化数据提供了一种新思路，从而将用于深度学习中图像的卷积神经网络应用于图数据。在应用图卷积网络(GCN)过程中，该模型在具有节点特征的组合节点图中具有出色的性能。但该模型也存在缺陷：（1）GCN不能为邻居的不同节点分配不同的权重。以相同邻域顺序分配给不同邻居的权重完全相同，这限制了模型捕获空间信息相关性的能力。（2）它将相邻节点的属性与图结构结合在一起，从而将受控模型的一般能力限制为其他的图结构。换句话说：在特定图结构上创建的模型不能应用于其他图结构。（3）无法完成inductive任务，即处理动态图问题。故此，在本文中提出了图注意力网络GraphAttentionNetwork(简称GAT)，一种利用注意力机制对邻近节点特征加权求和的新型神经网络[2]。该模型邻近节点特征的权重完全取决于节点特征，而不取决于于图结构。其基本思想是：针对每一个节点运算相应的隐藏信息，在运算其相邻节点的时候引入注意力机制，根据每个节点在其邻节点上的attention来对节点表示进行更新。1基础方法及原理1.1非谱方法Non-spectralapproaches非谱方法是直接在图上定义卷积[3,4,5]。它是基于空间的方法，它直接在空间上相近的邻居上应用卷积操作。这类方法面临的一个挑战是需要定义一个能处理不同数量邻居的卷积操作，并且保证CNN的权重共享性质。在某些情况下，这需要学习为每个nodedegree学习一个权重矩阵，在对每个inputchannel和neighborhooddegree训练权重时，对有着固定数量顶点的邻居进行提取和归一化[6]。1.2注意力机制Self-attention注意力机制是由Treisman和Gelade提出的一种模拟人脑注意力机制的模型[7]，它可以被认为是一种组合函数，通过计算注意力的概率分布来强调键输入对输出的影响。注意力机制在很多基于序列的任务中已经成为了一个标准，它可以处理任意大小输入的问题，并且关注最具有影响能力的输入。self−attention的作用是能够更好地学习到全局特征之间的依赖关系，self−attention通过直接计算图结构中任意两个节点之间的关系，一步到位地获取图结构的全局几何特征。self−attention利用了attention机制[8]，分三个阶段进行计算：(1)引入不同的函数和计算机制，基于Query和一个额外的Keyi附加神经网络进行评估，计算两者之间的相似性或相关性，最常见的方法包括：求两者的向量点积、求两者的向量Cosine相似性或者通过再引入额外的神经网络来求值；(2)实施softmax计算方法，以数值方式转换第一阶段的分数。可以使用所有元素的权重之和等于1来归一化最初计算为概率分布的分数。这也可以突出内部Softmax机制对重要元素权重的重要性。(3)第二阶段的计算结果αi即为values对应的权重系数，然后进行加权求和即可得到attention2图注意力层2.1图注意力层的输入与输出1：输入：一个节点特征向量集：h=其中N为节点个数，F为节点特征的个数。矩阵h的大小是N×F，代表了所有节点的特征，而R只代表了某一个节点的特征，所以它的大小为F×1。2：每层的输出：一个新的节点特征向量集：h'=表示对这N个节点的F'个输出，输出N个节点的每个节点的F'个特征。2.2特征提取与注意力机制为了在将输入特征转换为高维时获得足够的表现力，有必要通过对输入特征进行至少一次线性转换来保留输出要素。所以我们需要对所有节点训练一个共享参数的权重矩阵：W∈RF×F',这个权重矩阵是输入F个特征与输出然后对每个节点做一个共享的self-attention，机制为a:eij=aWℎi，W其中eij为原始注意力系数，表示节点j对节点i的重要性，不考虑图结构性的i、j表示第i个节点和第j个节点。通常来说，注意力机制能够计算任意两个样本之间的关系，能够使一个样本用其他所有样本来表示。但当进行self-attention计算时，会将注意力分配到图中所有的节点上，这样就导致丢失结构信息。因此，为了保证不丢失结构信息，引用了一种maskedattention的方式，也就是说仅仅将注意力分配到节点i的邻居节点集Ni上，即j∈Ni，其中Ni为i节点的所有相邻节点，使得注意力系数更容易计算和便于比较。同时引入了softmaxαij=softmaxjeij整合（1）（2）可进一步得归一化后的注意力系数（公式（3））：αij=exp其中T表示转置。∥表示连接操作（concatenationoperation）以上过程可用图一表示：图一在实验中，使用的共享的注意力机制a是一个单层的前馈神经网络，a∈R2F’是神经网络中层与层之间的权重矩阵，并加入了

LeakyRelu的非线性激活，且小于零2.3加权求和Aggregate归一化后得到不同节点之间的注意系数，并参与计算各邻接节点的线性组合,以形成图注意力网络的输出向量ℎ'i[17ℎ'i公式（4）表示：该节点的输出特征与和它相邻的所有节点有关，是它们的线性和的非线性激活后得到的。其中：W是与特征相乘的权重矩阵。α是之前计算得到的注意力系数。δ是非线性激活函数。j∈Ni是遍历的j表示所有与2.4多头注意力Multi-headattention为了使self-attention的学习过程稳定，一个有效的方式是利用multi-headattention来扩展注意力机制[8]。具体来说，K个独立注意力机制执行公式（4），然后将它们的特征连接起来（公式（5））。ℎ'i当在对最后一层网络层执行multi-headattention时，连接操作不合理，故此时采用K平均来替代连接操作，并延迟应用最终的softmax非线性函数,得到最终公式（6）：ℎ'i其中：共需要考虑Κ个注意力机制，κ表示Κ中的第κ个。αijκ表示第κ个注意力机制。Wκ表示第Κ个注意力机制下输入特征的线性变换权重矩阵。最终输出结果由例当Κ=3时，结构如图二：图二在图中，节点ℎ1在邻域中具有多端注意力机制，样式不同的箭头表示各独立的注意力计算，通过连接或平均每个head获取ℎ3数据简介3.1数据集基本信息Cora数据集[16]是经典的文章引用网络数据集。Cora图上的每个节点是一篇文章，边代表文章和文章间的引用关系。每个节点的初始特征是文章的词袋（Bagofwords）表示。其目标是根据引用关系预测文章的类别。Cora数据集包含了2708个顶点，5429条边，7个类别，每个顶点1433个特征。实验使用每类20个顶点用来训练，训练算法使用所有的顶点特征。模型的预测性能是在1000个测试顶点上进行评估的，同时使用了500个额外的顶点来验证意图[1]。Citeseer数据集包含3327个顶点，4732条边，6个类别，每个顶点3703个特征。Pubmed数据集包含19717个顶点，44338条边，3个类别，每个顶点500个特征。PPI（蛋白质间相互作用）数据集，该数据集包含24张图，对应了不同的人体组织[9]。在实验时，使用了20张图进行训练，2张图进行验证，2张图进行测试。为了构建图，我们实验时使用Hamiltonetal.,2017[5]预处理后的数据。平均下来每张图有2372个节点。每个节点有50个特征，包含定位基因集合、特征基因集合以及免疫特征。最重要的是，测试用图在训练过程中对模型完全不可见。数据集的任务是来预测节点标签。实验数据集，及其数据集中的信息如表一：表一引文网络流行数据集与蛋白质间相互作用数据集及其组成结构CoraCiteseerPubmedPPITaskTransductiveTransductiveTransductiveInductiveNodes2708(1graph)3327(1graph)19717(1graph)56944(24graphs)Edges5429473244338818716Feature/Node1433370350050Classes763121(mulitilablel)TrainingNodes1401206044906(20graphs)ValidationNodes5005005006514(2graphs)TestNodes1000100010005524(2graphs)4实验与评估实验分为两部分，分别为:1:转导学习（TransductiveLearning）：先观察特定的训练样本，然后对特定的测试样本做出预测，训练阶段与测试阶段都基于同样的图结构。我们也称之为半监督学习。2:归纳学习（InductiveLearning）：检查训练训练集的特定样本，并使用它来预测测试集。训练阶段与测试阶段需要处理的graph不同。通常是训练阶段只是在子图上进行，测试阶段需要处理未知的顶点。4.1半监督学习TransductiveLearning在Transductivelearning任务中，实验使用一个两层的GAT模型。在Cora数据集上优化过后的超参数运用在Citeseer数据集。第一层包含Κ=8个attentionhead，计算得到F'=8个特征（总共64个特征），用指数线性单元(ELU)[12]作非线性函数。第二层用来分类：使用一个注意头来计算C函数（其中C是类别数）并使用Softmax激活，训练期间使用正则化（L2）。如果是小的训练集，则将正则化添加到模型中。以外，两个层的输入都使用了P=0.6的dropout[13]，在计算每个节4.2归纳学习Inductivelearning在inductive任务过程中，实验使用了一个三层的GAT模型。前两层Κ=4，计算F'=256个特征（总共1024个特征），然后用ELU作非线性函数[12]。最后一层用于多类别分类：Κ=6，每个计算121个特征，取平均后使用logisticsigmoid激活。训练集充分大,所以不需要使用正则化或dro实验的两个任务都是用Glorot初始化初始的，并且是用AdamSGD来最小化交叉熵来进行优化。4.3实验结果及分析对于Transductivelearning任务，文中对比了Kipf&Welling2017[1]的工作，还有利用了高阶切比雪夫的图卷积模型(Defferrardetal.,2016)[10]，还有Montietal.,2016提出的MoNet[11],且为了更好的评估注意力机制的性能，还评估了一个计算64个隐含特征的GCN模型。如表二：表二TransductiveMethodCoraCiteseerPubmedChebyshev81.2%69.8%74.4%GCN81.5%70.3%79.0%MoNet81.7±0.5%－78.8±0.3%GCN-64*81.4±0.5%70.9±0.5%79.0±0.3%GAT（ours）83.0±0.7%72.5±0.7%79.0±0.3%对于Inductivelearning中，文中对比了各GraphSAGE方法[5]：GraphSAGE-GCN（对图卷积操作扩展inductivesetting）、GraphSAGE-mean（对特征向量的值取element-wise均值）、GraphSAGE-LSTM（通过将邻居特征输入到LSTM进行聚合）、GraphSAGE-pool（用一个共享的多层感知机对特征向量进行变换，然后使用element-wise取最大值）。此外，为了公平的对比评估注意力机制和GCN的聚合方法，还记录了constantattentionGAT模型的结果（Const-GAT）。如表三：表三InductiveMethodPPIGraphSAGE-GCN0.500GraphSAGE-mean0.598GraphSAGE-LSTM0.612GraphSAGE-pool0.600GraphSAGE*0.768Const-GAT(ours)0.934±0.006GAT（ours）0.973±0.002实验结果展示，GAT方法在引文流行数据集Cora、Citeseer、Pubmed和PPI数据集上都有很好的表现。具体来说，在Cora上，GAT模型上升了1.5%，在Citeseer上提升了1.6%，出现这样的结果，推测其原因应该是给邻居分配不同的权重起到了效果。在PPI数据集上：GAT模型对于最好的GraphSAGE*结果上升了20.5%，这意味着GAT模型能够应用到inductivelearning问题上，通过观测所有的邻居，模型会有更强的预测能力。此外，针对Const-GAT也提升3.9%，再一次说明了给不同的邻居分配不同的权重是有用的。此外，在训练过程中，对PPI（蛋白质间相互作用）数据集使用了BCEWithLogitsLoss

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

具有注意力机制的图神经网络的实现

文档简介

温馨提示

最新文档

评论

具有注意力机制的图神经网络的实现

文档简介

温馨提示

最新文档

评论

相关文档