基于图神经网络的药物-靶标作用研究_第1页
基于图神经网络的药物-靶标作用研究_第2页
基于图神经网络的药物-靶标作用研究_第3页
基于图神经网络的药物-靶标作用研究_第4页
基于图神经网络的药物-靶标作用研究_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1引言1.1目的与意义传统实验方法鉴定DTI耗时费力且成本高昂,难以适应快速发展的医疗需求。现有机器学习方法虽有尝试,但存在诸多不足。本研究提出MHGNN,旨在构建一种更有效的DTI预测模型。通过双渠道架构分别学习药物和靶标表示,利用图注意力和元路径技术挖掘生物异构图中的复杂结构与高阶语义信息。同时,构建DTP相关图探索DTP间高阶关联,克服现有方法局限,提高DTI预测的准确性和可靠性,为药物研发提供有力支持。在药物研发方面,MHGNN可加速药物重定位进程。约75%药物有重定位潜力,通过精准预测DTI,能快速发现药物新适应症,大幅缩短新药研发周期,降低研发成本。在医学研究领域,有助于深入理解药物作用机制,为研究病理机制提供新视角。在临床治疗中,可辅助医生选择更合适药物,实现精准医疗,提高治疗效果,减少药物不良反应。从学科发展角度,推动生物信息学中GNN应用于生物数据挖掘的研究,促进计算机科学与生物学、医学交叉融合,为相关领域带来创新成果和应用突破。1.2国内外研究现状在精准医疗时代,DTI预测作为新药研发的核心环节,正经历从传统实验驱动到数据智能驱动的关键转型。国内外研究者围绕提高预测效率与精度展开多维度探索,将生物化学实验技术与计算科学深度融合,尤其在GNN、深度学习、网络药理学等领域形成技术突破,为加速药物发现、降低研发成本提供了重要支撑。一、国内DTI预测研究的技术奠基与特色探索国内DTI预测研究起步于对实验技术与计算方法的同步优化。早期研究聚焦于生物化学技术体系的构建,包括药物分子的合成、分离、纯化技术,以及靶标蛋白的克隆、表达、结构测定等实验流程REF_Ref25446\r\h[1]。随着机器学习技术的兴起,国内学者逐渐转向计算方法创新,尤其是针对中药复方多成分、多靶点的复杂作用机制,探索适配于非结构化数据的建模方法。在深度学习领域,提出了一种基于图注意力网络(GAT)的DTI预测模型,通过整合药物分子的二维结构、靶标蛋白的序列特征及已知相互作用网络,实现了对稀疏数据场景下潜在DTI的有效预测REF_Ref25880\r\h[2]。该研究发现,引入注意力机制可显著提升模型对关键相互作用特征的捕捉能力,在基准数据集上的预测准确率较传统随机森林模型提升12%REF_Ref25880\r\h[2]。值得关注的是,国内部分中药企业已开始将GNN技术应用于复方药物的靶标发现。例如,通过构建“中药成分-靶点-疾病”关联网络,结合图结构学习算法,挖掘复方中多成分协同作用的潜在靶标,为中药现代化研发提供了数据驱动的决策支持REF_Ref26145\r\h[3]。这一应用方向充分体现了国内研究与产业需求的结合,推动DTI预测从基础研究向实际药物开发场景落地。二、国际研究中的传统方法局限与新兴技术突破在国际DTI预测领域,早期主流方法以基于配体的虚拟筛选(如分子对接、药效团模型)和基于结构的药物设计为主REF_Ref26265\r\h[4]。这些方法依赖于药物分子三维结构与靶标蛋白活性位点的精确匹配,但其局限性显著:一方面,对未知结构的靶标蛋白或构象动态变化的受体难以有效预测;另一方面,高通量筛选时计算成本高昂,且难以处理多靶点药物的复杂相互作用REF_Ref26265\r\h[4]。例如,传统分子对接方法在面对膜蛋白等复杂靶标时,预测准确率常低于60%,严重制约了其在新靶标发现中的应用REF_Ref26543\r\h[5]。随着计算技术的进步,以深度学习和网络分析为代表的新兴方法逐渐成为研究热点。斯坦福大学团队开发的DeepDTA模型,首次将卷积神经网络(CNN)与循环神经网络(RNN)结合,分别提取药物分子的二维结构特征与靶标蛋白的序列特征,通过端到端训练实现DTI亲和力预测REF_Ref26589\r\h[6]。该模型在跨物种数据集中的表现优于传统支持向量机(SVM)方法,证明了深度学习在处理高维生物数据中的优势。另一代表性模型WideDTA则通过宽度学习架构,融合药物的化学指纹、靶标的功能注释及已知相互作用网络的图特征,在稀疏数据场景下的预测性能提升20%以上REF_Ref26589\r\h[6]。网络药理学(NetworkPharmacology)的提出进一步推动了DTI预测的范式变革。该理论强调从系统生物学角度解析药物-基因-靶点-疾病的复杂网络关系,通过整合多组学数据(基因组、转录组、蛋白质组)揭示药物作用的分子机制REF_Ref26145\r\h[3]。例如,Picart-Armada等通过基准化网络传播方法,在疾病基因识别中发现,基于图结构的信息传递算法(如热扩散法)能有效捕捉靶标与疾病相关基因的高阶关联,为药物再利用提供了新靶点线索REF_Ref26543\r\h[5]。这类研究打破了传统“单药单靶”的研发模式,为开发针对复杂疾病(如癌症、神经退行性疾病)的多靶点药物提供了理论支持。三、GNN:从结构建模到高阶关联挖掘GNN的兴起为DTI预测带来了革命性突破。传统方法将药物和靶标视为独立实体,难以捕捉其在生物网络中的上下文关联;而GNN通过构建异构图模型,将药物、靶标、疾病、通路等实体及其相互作用编码为图结构,通过图卷积、图注意力等操作实现节点特征的迭代更新REF_Ref26265\r\h[4]。GNN的优势在于能够处理多源异构数据,整合药物的化学结构(如SMILES序列)、靶标的功能域信息、已知相互作用网络甚至细胞层面的表达数据。大连海事大学邓杰进设计了一种多视图GNN框架,通过融合药物的二维/三维结构视图与靶标的序列/结构视图,有效解决了单一模态数据信息不足的问题REF_Ref26941\r\h[7]。实验表明,该模型在跨家族靶标预测中的泛化能力提升15%,尤其对孤儿靶标的预测效果显著REF_Ref26941\r\h[7]。此外,GNN还可用于预测药物副作用及药物-药物相互作用,通过构建“药物-靶-副作用”关联网络,识别潜在的脱靶效应,为药物安全性评估提供支持REF_Ref25880\r\h[2]。四、数据驱动范式下的技术挑战与未来方向尽管DTI预测在方法创新上成果丰硕,但其在实际应用中仍面临多重挑战。首先是数据质量问题:现有公开数据集(如DrugBank、BindingDB)存在严重的标注偏差,已知DTI多集中于热门靶标(如GPCR、激酶),而对新靶点、罕见病靶标的覆盖不足,导致模型在长尾数据场景下泛化能力较弱REF_Ref26543\r\h[5]。其次是模型解释性难题:深度学习模型常被视为“黑箱”,难以解释预测结果的生物学机制,这在临床应用中可能引发信任危机。例如,DeepDTA模型虽预测准确率高,但难以说明哪些化学基团或蛋白结构域是相互作用的关键位点REF_Ref26589\r\h[6]。技术层面,跨模态数据融合与领域迁移学习成为研究焦点。国际团队尝试将知识图谱(KG)与GNN结合,引入生物学先验知识(如GO功能注释、KEGG通路)优化模型参数,提升对低资源靶标的预测能力REF_Ref27193\r\h[8]。国内学者则探索将预训练技术应用于DTI预测,通过在大规模无标数据上预训练分子表征模型,迁移至特定疾病领域的小数据集任务,缓解数据稀疏问题REF_Ref25446\r\h[1]。此外,可解释性AI技术(如注意力可视化、反事实解释)的发展,正逐步揭开深度学习模型的决策逻辑,为实验验证提供明确的假设方向REF_Ref25880\r\h[2]。在产业转化方面,制药企业面临模型落地的适配性挑战。例如,传统药物研发流程中,实验验证成本高昂,如何设计“计算预测-湿实验验证”的闭环优化策略,成为提升研发效率的关键。近年来,“干湿结合”的研发模式逐渐兴起:通过计算模型筛选高置信度候选DTI,再通过高通量筛选(HTS)和基因敲除实验验证,将研发周期缩短40%以上REF_Ref27193\r\h[8]。五、总结与展望DTI预测研究的演进本质上是数据科学与生命科学交叉融合的缩影。从早期依赖单一实验技术到如今整合多模态数据的智能建模,从“单靶标”精确打击到“网络药理学”系统分析,技术范式的变革持续推动药物研发向精准化、高效化迈进。未来,随着多组学数据的爆发式增长、图神经网络的算法创新及产业界转化能力的提升,DTI预测将在以下方向实现突破:多模态深度融合:整合临床数据、电子健康记录(EHR)与分子数据,构建全维度疾病-药物关联网络;跨物种外推能力:突破动物实验到人体应用的预测瓶颈,提升药物安全性评估的可靠性;可解释性技术:开发结合生物学先验的透明化模型,实现预测结果的机制级解读;自动化研发平台:构建“数据输入-靶点发现-药物设计-实验验证”的全流程AI驱动系统,推动制药工业智能化转型。尽管挑战尚存,DTI预测领域的技术进步已清晰展现出数据智能对传统药物研发的赋能潜力。随着国内外研究的持续深耕与产学研协同的深化,这一技术有望成为破解新药研发“双十困境”(十年周期、十亿美元成本)的关键钥匙,为全球精准医疗事业开辟新路径。1.3本文的主要内容及安排在探索DTI预测领域,本研究提出了一种基于GNN的MHGNN模型。我们从公共数据库里面收集多种类型的节点和边,构建了用于DTI预测任务的异构网络。模型架构主要包括两个核心组成模块:药物/靶点表征学习模块以及DTI预测模块。本研究在DTINet数据集上进行测试,结果表明MHGNN模型在DTI预测任务中表现出卓越的预测性能和稳定性。第一章:引言本章节阐述了研究的背景,指出了DTI预测在药物研发中的关键作用。介绍了MHGNN在药物研发等方面的意义。另外,还介绍了国内外在DTI预测领域的研究现状,并对研究进行了总结与展望。第二章:基础理论介绍了药物、靶点、药物靶点对、DTI的概念,以及生物实体间的相关关系。还介绍了一些常见的药物相关数据库及其核心功能。阐述了现有的DTI预测方法,并指出MHGNN相对于这些方法的优势。介绍了GNN的概念、核心的思想,还介绍了元路径在GNN中的作用以及应用。第三章:材料与方法详细阐述了MHGNN的内容,包括数据集准备,从DTINet引入数据构建异构网络;模型构建与初始化,包括异构图构建、元路径构建、药物靶点特征学习;模型训练,采用10折交叉验证,设置相关参数,介绍DTI预测的具体过程,包括构建DTP关联图、输入GCN及使用二进制交叉熵损失评估预测结果。第四章:评估指标介绍在二分类任务中采用的六项评估指标:精确率、召回率、F1分数、马修斯相关系数、AUC和AUPR,说明了各项指标的计算方式及意义,这些指标可全面衡量模型在准确性、鲁棒性及临床相关性等多维度的性能表现。第五章:结果与分析系统性构建了MHGNN模型,通过设置不同学习率探讨模型在DTI预测任务中的表现,对比分析了不同学习率下各项评估指标。对模型进行评价,指出其具有卓越的预测性能、稳定性强以及综合优势。第六章:结论本研究提出了一种基于GNN的DTI预测模型MHGNN。通过构建生物异构图并利用元路径技术,模型能够有效捕捉药物和靶点之间的复杂关系和高阶语义信息。2基础理论2.1药物药物是用于预防、诊断和治疗疾病的物质。它们通过与体内特定分子或生物结构(即靶点)相互作用而发挥作用。通过调节这些生物过程,药物达到治疗效果。药物分为小分子药物和大分子药物。小分子药物通常通过改变靶点的催化功能来发挥药效,而大分子药物则更有效地破坏分子间的相互作用。2.2靶点靶点是指药物在体内与其发挥作用的分子或生物结构,通常与疾病的发生、发展密切相关。这些靶点可以是细胞内的特定蛋白质、酶、受体、离子通道、细胞表面分子等。靶点在疾病治疗中起着关键作用,是药物研发的重要目标。2.3药物靶点对药物-靶点对描述了药物与其特定靶点之间的相互作用。这种相互作用是药物治疗效果的基础。通过药物与靶点的特异性结合,可以调节或抑制与疾病相关的生物学过程。药物靶点对的研究有助于揭示药物的作用机制,并为新药研发提供重要的参考。2.4DTIDTI是指药物分子与靶点之间的具体结合过程和作用方式。这种相互作用可以是空间结构上的适配、电荷吸引,也可以是氢键、疏水键、范德华力、共价键等多种化学作用力的组合。通过分子对接等技术,可以预测药物分子与靶点蛋白之间的具体相互作用和结合模式,从而验证药物设计的合理性。药物通过与单靶点或多靶点的特异性结合,既可引发预期治疗效果,也可能导致脱靶效应引发的副作用REF_Ref94\r\h[9]。此类生物效应本质上反映了药物与靶点的结合活性特征。具体而言,药物研发初期通常围绕核心适应症进行靶点优化设计,但受靶点蛋白多功能性(如参与多条信号通路)及脱靶效应影响,药物可能展现出跨疾病治疗潜力。典型案例如沙利度胺,其因抗血管生成特性被重新定位用于多发性骨髓瘤治疗REF_Ref136\r\h[10];此外,酪氨酸激酶ABL等靶点可同时参与帕金森病与癌症病理过程,而抗血管生成药物贝伐珠单抗的适应症从结肠癌逐步扩展至多种实体瘤。上述现象表明,药物(D)、靶点(T)、疾病(I)、副作用(S)等生物实体间的多维关联蕴含丰富的语义信息,为系统性解析DTI机制提供了网络药理学视角。因此,融合异质性生物医学数据有望突破现有DTI预测模型的性能瓶颈,并为药物重定位提供新思路。2.5生物之间的相关关系生物实体间的复杂关系可通过多个药物和靶点相关网络(REF_Ref28333\h图1A)或异构图(REF_Ref28333\h图1B)进行表示:节点对应D、T、I、S等实体,边表示实体间的相互作用(如药物-靶点结合)、功能关联(如疾病-靶点通路参与)或相似性(如靶点-靶点序列同源性)。在此框架下,DTI预测可形式化为异构图中的链路预测问题(REF_Ref28333\h图1B红色虚线),即推断特定药物节点与靶点节点间是否存在相互作用。图SEQ图\*ARABIC1药物靶点相关网络和生物异构图(A)

药物和靶点相关网络。(B)

生物异构图。红色虚线表示D2与T之间的链接预测。现有的基于GNN的DTI预测方法无法捕捉生物异构图中的高阶依赖关系,例如D2与I之间的信息(蓝色虚线)。MHGNN通过元路径(D2DI和D2DTI)建模高阶关系,增强了图结构学习。2.6相关数据库介绍基因组学、蛋白质组学与生物信息学技术的交叉融合,推动了药物靶标作用研究的革新。近年来,科研团队通过高通量实验验证与计算模拟相结合的策略REF_Ref211\r\h[11],使得药物与靶点间的互作信息逐渐形成规模性积累。此类数据不仅蕴含多层次生物学特征(如结合亲和力、构效关系等),更为药物作用机制解析与靶点发现研究提供高置信度数据支撑REF_Ref250\r\h[12]。为促进药物靶点识别与验证研究的标准化进程,国际知名学术机构与生物信息学中心已构建多个专业化数据库,实现多维数据的结构化存储、动态更新与开放共享REF_Ref289\r\h[13]。本章节将系统综述支撑本研究的关键数据库及其核心功能。以下是一些常见的药物相关数据库简介:DrugBankDrugBank是一个综合性的药物和药物靶点数据库,包含详细的药物信息、靶点信息以及它们之间的相互作用。它不仅涵盖了FDA批准的药物,还包括实验性药物的注释信息。DrugBank提供了药物的化学结构、作用机制、药理学信息、药物靶点、运输蛋白、酶等丰富数据。HPRDHPRD是一个关于人类蛋白质的综合数据库,提供了蛋白质的序列、结构、功能、相互作用、修饰、疾病关联等详细信息。它在研究蛋白质-蛋白质相互作用、药物靶点发现等方面具有重要价值。CTDCTD是一个整合了化学物质、基因、蛋白质和疾病信息的数据库,旨在促进对化学物质与生物系统之间相互作用的理解。它包含了药物-疾病、蛋白质-疾病等关联信息,有助于药物重新定位和毒性研究。SIDERSIDER是一个关于药物副作用的数据库,收集了药物与副作用之间的关联信息。它通过从药物说明书和文献中提取数据,为研究药物的不良反应和药物安全性提供了重要资源。这些数据库在药物研究中具有重要的应用价值,为药物发现、药物靶点鉴定、药物安全性评估等提供了丰富的数据支持和研究工具。 2.7DTI预测DTI预测通常被建模为一个二分类问题,旨在判断DTP之间是否存在相互作用。然而,现实中标注的DTP数量非常有限且获取成本高昂,这限制了模型学习DTP的全面模式。异构生物数据为药物和靶标的关系建模提供了多视角的视角。目前我们现有的DTI预测方法主要分为基于相似性的方法、基于KG的方法和基于GNN的方法。基于相似性的方法是以“罪责关联”为基本假设,也就是相似的药物更加倾向于与相似的靶标结合,反之亦然。其局限性在于:①无法建模复杂数据关联,忽视化学结构不相似药物仍可结合同一靶点的现象。②特征学习与预测任务分离,导致药物/靶点表征偏离预测目标,形成次优解。基于KG的技术则是通过多种知识图嵌入模型将生物实体节点关系与浅层嵌入关联起来。然而,这些方法在建模生物异构图中的组合关系方面存在不足。基于GNN的方法是将异构生物数据建模为多个与药物和靶标相关的网络。然后,它们使用基于图卷积网络(GCN)或GAT的模型提取药物和靶标的表示。然而,这些方法存在双重局限:①元路径仅从单一网络提取(非跨网络复合路径);②未利用元路径上下文信息。与上述方法不同,MHGNN能够建模复杂的生物实体相互关系,并利用生物异构图中的高阶上下文依赖关系和DTP之间的高阶关联。2.8图神经网络GNN已成为分析图结构数据的一种强大的深度学习技术。与处理向量或序列数据的传统方法不同,GNN擅长直接建模和学习复杂的非欧几里得图数据。在GNN框架中,每个节点都表示为一个向量,每条边都与权重相关联。网络通过迭代聚合节点及其邻居的信息来学习图的特征表示。具体来说,每个节点的特征向量都会更新为其自身向量与其相邻节点向量的加权和。在每次迭代过程中,GNN都会利用节点和边缘信息更新其表示,并将这些更新传递给后续迭代。与传统神经网络中的全连接层不同,GNN层是专为图结构而设计的,可以通过节点间的信息交换来学习全局图特征。GNN的基本概念是通过节点间信息的聚合来更新每个节点的特征向量。在每一层中,根据相邻节点的特征向量计算出一个聚合函数,聚合后的信息成为每个节点的新特征向量。这种聚合函数可以是简单的加权求和,也可以是更复杂的神经网络模型。近年来,一些先进的GNN模型相继问世,如GCN、GAT和图采样与聚合(GraphSAGE)。这些模型已广泛应用于社交网络分析、药物发现和图像分类。下面简要介绍每种模型:GCN:这是一种基于CNN的GNN模型。它利用邻居矩阵在节点间聚合和传输信息,以学习节点特征表征。GCN通过对邻接矩阵进行归一化处理,实现对图结构的卷积操作,确保节点间的归一化信息传递。其传播公式如下:H这里,Hl表示第l层的节点特征表示,A=A+I是邻接矩阵A加上自连接后的矩阵,D是A的度矩阵,Wl是第l层的权重矩阵,σ是激活函数。GCN的训练过程可以通过反向传播算法(2)GAT:作为一种基于注意力机制的GNN模型,GAT利用注意力机制来聚合和传递节点间的信息。通过计算节点相似度,GAT为各种节点关系分配不同的权重,从而实现对图结构的卷积操作。注意力机制的引入使GAT能够有效处理各种节点关系,从而提高性能。其传播公式如下:ℎ其中,αijα这里,ℎil是第l层节点i的特征表示,Wl是第l层的权重矩阵,σ是激活函数,e(3)GraphSAGE:这种基于采样和聚合的GNN模型专为大规模图数据而设计,通过对相邻节点进行采样并聚合其特征来构建子图,从而获得新的节点表示。GraphSAGE包括两个阶段:采样和聚合。在采样阶段,每个节点都会随机抽取一定数量的相邻节点来形成子图。在聚合阶段,对子图中所有节点的特征进行聚合,从而得到新的节点表示。其传播公式如下:ℎ这里,ℎil表示第l层节点i的特征表示,Aggregate·是聚合函数,WagglGNN在处理非欧几里得数据(如图、社交网络和化学分子)方面具有显著优势。以GCN为例,它是一种用于图数据处理的深度学习模型。GCN直接处理图结构,并通过图卷积层进行特征提取和聚合。在GCN中,节点表示带有特征向量的数据元素,边表示节点关系。每一层聚合相邻节点的特征,并应用学习到的卷积核执行卷积操作,生成下一层节点表示。多层GCN堆叠可产生更高层次、更丰富的节点特征表示,从而完成图数据分类和链接预测等任务。GAT则通过引入注意力机制,对每个邻居节点赋予不同的权重,从而可以更好地捕捉节点之间的局部关系和差异。这使得GAT在处理有向图数据的时候具有很大的优势,因为它能够识别节点之间的方向关系,而传统的GCN在这方面存在局限性。GAT首先将每个节点的特征向量通过多头注意力机制进行聚合,得到节点之间的相似度矩阵,然后根据相似度矩阵来计算每个节点对邻居节点的权重。最后,通过对邻居节点的权重加权平均得到每个节点的新特征表示,用于后续任务的处理。采用GNN进行DTI预测研究相对于传统计算方法具有诸多独特的优势。首先,GNN能够自动学习特征,这极大地促进了对潜在特征关系的挖掘。其次,GNN可以很好地融合多源信息,相较于传统方法,能够涵盖更多来源的相关信息。最后,GNN具有较好的可解释性和较高的性能。因此,在本论文的研究中,DTI的预测视为一个构建生物复杂网络后对网络链路进行预测的问题。2.9元路径在GNN领域,元路径是一种强大的工具,用于学习节点和图的嵌入表示。元路径由特定类型节点之间的边构成,能够有效捕捉节点间的语义关联。在GNN中,元路径主要通过以下两种方式发挥作用:1.定义图卷积层的邻居节点:在基于元路径的GNN架构中,图卷积层的相邻节点可以根据预定义的元路径扩展到直接相邻节点之外,从而捕捉复杂的语义关系并提高节点嵌入质量。例如,在社交网络中,“用户-好友-用户”这样的元路径可以定义邻接节点,从而更好地描述社交关系。2.用于构建图的邻接矩阵:元路径还能将更广泛的节点关系纳入邻接矩阵。在生物网络中,元路径(如“蛋白质-化合物-蛋白质”)可以将蛋白质-化合物关系整合到邻接矩阵中,从而更准确地描述相互作用。元路径在基于异构图的GNN中展现出巨大的潜力,尤其是在生物应用中。在异构图中,节点可以代表不同的生物分子,如基因、蛋白质和代谢物。定义的元路径可以描述复杂的分子关系,包括代谢和信号通路以及蛋白质相互作用网络。例如,在基因调控网络中,“转录因子-调控-基因”这样的元路径可以将转录因子-基因关系转化为调控关系。而利用基于元路径的GCN模型,可以学习基因和转录因子的嵌入式表示,从而为基因表达预测和基因功能注释等生物学任务提供支持。此外,元路径还可用于构建蛋白质相互作用网络。通过定义元路径(如“蛋白质-相互作用-蛋白质”),可以将蛋白质相互作用转化为路径。有了基于元路径的GCN模型,蛋白质就可以嵌入低维向量空间,从而实现蛋白质相互作用预测。3材料与方法在本章中,我们详细阐述MHGNN的内容。它包含两个核心组成模块:药物/靶点表征学习模块以及DTI预测模块。MHGNN的整体框架如REF_Ref28036\h图2所示。图SEQ图\*ARABIC2MHGNN整体框架MHGNN的整体框架如下:药物表征学习与靶点表征学习分别采用M

条元路径和

N条元路径,每条元路径在特定子结构中明确生物语义关系。在DTP关联图中,实线和虚线分别表示DTP之间的强关联与弱关联。3.1数据集准备本实验中,我们在DTINetREF_Ref430\r\h[14]中引入,从公共数据库中收集了四种类型的节点和六种类型的边,这些节点和边代表了多样的药物相关信息,并用于构建我们DTI预测任务的异构网络。该数据集由708种药物(D)、1512个靶点(T)、5603种疾病(I)和4192种副作用(S)以6个连接组成,即D-T、D-D、D-I、D-S、T-T和T-I。有关数据集的更多详细信息可以参考REF_Ref430\r\h[14]。表1数据集类型项目数量资源节点药品(D)708DrugBank(Version3.0)REF_Ref16427\r\h[15]靶点(T)1152HPRD(Release9)

REF_Ref16509\r\h[16]疾病(I)5603CTD(2013)REF_Ref16545\r\h[17]副作用(S)4192SIDER(Version2)REF_Ref16587\r\h[18]边D-T1923DrugBank(Version3.0)REF_Ref16427\r\h[15]D-D10036DrugBank(Version3.0)REF_Ref16427\r\h[15]D-I199214CTD(2013)REF_Ref16545\r\h[17]D-S80164SIDER(Version2)REF_Ref16587\r\h[18]T-T7363HPRD(Release9)REF_Ref16509\r\h[16]

T-I1596745CTD(2013)REF_Ref16545\r\h[17]3.2模型构建与初始化3.2.1异构图构建我们从多个公共数据库资源中获取了异构生物数据REF_Ref916\r\h[19-REF_Ref923\r\h23]。利用这些数据,我们按照有向图G=V,E,A,ℛ,V,E,A,ℛ分别表示节点集、边集、节点类型集和边类型集,以及A+ℛ>2,构建了生物异图SEQ图\*ARABIC3生物异构图(A)

异构图(包含多种类型节点和多种类型边的图结构。)(B)元路径(C)元路径的具体实例化路径(D)基于元路径的邻居(可通过特定元路径连接到目标节点的所有节点)(E)基于元路径的图(根据元路径构建的子图,聚焦特定语义关系)给定药物节点D1,(C)-(E)基于(B)的模式从(A)中提取得到。3.2.2元路径构建接下来,我们分别为药物节点和目标节点构建了元路径。具体而言,对于药物节点,我们仅考虑以药物节点为起点和终点的元路径;目标节点也是如此。这样生成的元图(元路径子结构)可以使用传统的GNN进行处理。我们将药物节点和目标节点的元路径最大长度限制为5,因为这样的长度在语义上足以捕捉结构信息,而较长的元路径会增加计算复杂度和内存消耗,并可能引入误导性信息。因此,对于REF_Ref29209\h图3中的异构图,我们为每个药物节点生成了10个元路径(即DD、DTD、DID、DSD、DTTD、DTDTD、DIDID、DSDSD、DTITD、DITID),以及为每个目标节点生成了8个元路径(即TT、TDT、TIT、TDDT、TITIT、TDTDT、TDIDT、TIDIT)。3.2.3药物靶点特征学习特征转换:为了在统一的框架中处理药物、靶点、疾病和副作用的节点,我们首先将节点嵌入初始化作为独热编码。然后,我们应用特定于节点类型的转换Wo将各类节点的特征投影到相同的特征维度空间f′v=Wf′v和xv分别是特征向量v变换后的特征向量和原始特征向量,消息传递:设Φ为生物异构图中药物节点v的一条元路径。然后,我们得到由大量元路径实例GvΦ组成的元图ϕvuu∈Nvfϕvu其中,fϕvu是ϕvu的编码表示,fθ·是以θ为参数的消息传输函数消息更新:我们使用GATREF_Ref1236\r\h[24]更新了药物节点v的特征。基本思想是不同的元路径实例对节点v的贡献存在差异。为了增强模型的表现力并稳定学习过程,我们进一步采用多头注意力策略,通过执行K独立的注意力,然后连接它们的结果。feαϕvu=softmaxe其中∥表示拼接操作,αϕvuk是第K个注意力头中元路径实例ϕvu对药物节点v的归一化注意力系数,aΦT是元路径Φ的可学习注意力向量,σ(·)是ELU激活函数,而δ是LeakyReLU激活函数。从方程(2)到方程(3),我们可以观察到fvΦ嵌入了特定于元路径的结构和语义信息。这是对药物所涉及的生物过程进行建模的关键属性。功能集成:按照上述程序,对于包含条元路径ΩD={Φ1,Φ2,⋯,ΦM}的药物节点v∈VD,我们为其生成M个元路径特定的向量表示,即{fvfv=gω请注意,gω(·)可以是其他特征融合作,例如注意力、平均池化和最大池化。同样,对于包含N条元路径ΩT={Ψ1,Ψ2,⋯,ΨN}的靶标节点w∈VT,提取其3.3模型训练3.3.1数据划分在实验中,我们对MHGNN采用了10折交叉验证的方法。在这项研究中,所有已知的DTI都被视为阳性样本,同时随机选择同等数量的未知DTP作为阴性样本。在每个验证折叠中,随机选择90%的阳性样本和阴性样本组成训练集,其余样本分配给测试集。在模型训练阶段,使用了Adam优化器,并指定了权重衰减率和学习率。MHGNN训练过程持续了200个epoch,为防止过度拟合,采用了提前停止策略。模型的投影和隐藏层特征维度被设定为64,批处理大小设置为256,同时注意力机制中的注意力头数被设定为8。3.3.2DTI预测对于每个DTP,我们通过连接药物表示和靶点表示来获得表示z,即z=fv||fw。其中v∈VD为药物表示,w∈VT为靶标表示。相应地,给定包含B个DTP的批次,我们得到一个表示矩阵Z,其中Zb表示第bA=softmaxZZT其中A为对称矩阵,Aij表示批次中第i个与第j个DTP的归一化相似性。Aij值越大,第i与第j个DTP之间的关联越强。由于A的规模与模型训练/评估的批次大小一致,MHGNN不存在数据规模爆炸风险。接下来,将Z输入至两层GCN。第二层GCN的输出即为预测结果。y=AReLUAZW其中,W1和W2分别是第一GCN层和第二GCN层中的学习参数。二进制交叉熵(BCE)损失用于评估预测和真实DTI之间的差异。它被表述为LBCE=−1B其中,B是批量中训练DTP的数量,若第b个DTP存在相互作用,则yb=1,否则yb=0;yb′为第4评估指标在二分类任务中,本研究采用六项评估指标全面衡量模型性能:精确率(Precision)、召回率(Recall)、F1分数(F1-Score)、马修斯相关系数(MCC)、AUC和AUPR。通过统计真阴性(TN)、假阴性(FN)、真阳性(TP)和假阳性(FP)的数量,各项指标的计算方式如下:精确率(Precision):定义为TP/(TP+FP),反映模型正确识别正样本的能力,即避免将负样本误判为正样本的性能。召回率(Recall):计算为TP/(TP+FN),衡量模型捕捉所有正样本的完整性,体现对真实正例的覆盖程度。F1分数(F1-Score):作为精确率与召回率的调和平均,公式为2×(Precision×Recall)/(Precision+Recall),平衡了二者的权衡关系。马修斯相关系数(MCC):通过公式(TP×TN-FP×FN)/√[(TP+FP)(TP+FN)(TN+FP)(TN+FN)]计算,取值范围为[-1,1],是唯一考虑全部四类样本的指标,对类别不平衡问题具有鲁棒性。AUC:基于TPR(召回率)与FPR(FP/(TN+FP))绘制ROC曲线,面积范围[0,1],综合评估模型在不同阈值下的分类能力。AUPR:通过精确率-召回率曲线计算面积,范围[0,1],特别适用于正样本稀缺场景下的性能评估。除MCC外,其余指标取值均介于0到1之间。其中,AUC和AUPR从全局视角量化模型区分正负样本的能力,而精确率、召回率、F1和MCC则从局部决策阈值的角度提供细粒度评估。MCC因其对称性和对各类样本的均衡考量,常被视为二分类任务的黄金标准,值为1表示完美分类,0表示随机预测,-1表示完全错误分类。这些指标的组合使用,可全面揭示模型在准确性、鲁棒性及临床相关性(如减少假阳性误判)等多维度的性能表现。5结果与分析在本实验中,我们系统性地构建了MHGNN模型,并通过设置不同的学习率(0.0001和0.001)对模型在DTI预测任务中的表现进行了深入探讨。实验结果表明,学习率的调整对模型的预测性能和稳定性具有显著影响,为优化模型参数和提升预测效果提供了重要参考。表2学习率=0.0001训练结果FoldAUCAUPRPrecisionRecallF1MCC00.98280.97980.92720.99480.95980.919110.97740.96810.93170.99480.96220.92420.98550.97970.940.97920.95920.917530.98820.98420.96460.99480.97950.958840.97150.96550.90240.96350.9320.861450.97740.97160.9110.95290.905560.99080.98850.9550.99480.97450.948770.98270.97860.918710.95760.915180.99250.99180.95020.99480.97200.943790.97250.96160.91900.98970.95310.9052mean0.98210.97690.93190.99060.96030.9199std0.0070.00950.01930.01060.01280.0261表3学习率=0.001训练结果FoldAUCAUPRPrecisionRecallF1MCC00.98190.97310.92720.99480.95980.919110.97620.96360.93630.99480.96460.928920.98470.9730.93140.98960.95960.918530.9870.9810.96460.99480.97950.958840.97080.96130.88020.99480.9340.866850.96090.92840.91410.94270.92820.854660.99120.98820.96390.9740.96890.937670.98190.97450.93560.98440.95940.917980.98860.98630.945810.97220.944390.96910.94020.91080.99490.9510.9013mean0.97920.9670.9310.98650.95770.9148

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论