基于混合邻域图卷积的miRNA与疾病关联关系预测:方法创新与应用探索_第1页
基于混合邻域图卷积的miRNA与疾病关联关系预测:方法创新与应用探索_第2页
基于混合邻域图卷积的miRNA与疾病关联关系预测:方法创新与应用探索_第3页
基于混合邻域图卷积的miRNA与疾病关联关系预测:方法创新与应用探索_第4页
基于混合邻域图卷积的miRNA与疾病关联关系预测:方法创新与应用探索_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于混合邻域图卷积的miRNA与疾病关联关系预测:方法创新与应用探索一、引言1.1研究背景与意义在生物医学领域,微小核糖核酸(MicroRNA,miRNA)与疾病关联关系的研究一直是前沿热点。miRNA是一类内源性非编码单链小分子RNA,长度约为22个核苷酸,虽不编码蛋白质,却在转录后水平通过与靶mRNA的互补配对,实现对基因表达的精准调控。这种调控作用广泛参与细胞的增殖、分化、凋亡、代谢等众多生物学过程,一旦miRNA的表达或功能出现异常,便可能引发一系列疾病。以癌症为例,大量研究表明,miRNA在癌症的发生、发展、转移和耐药等过程中扮演着关键角色。miR-15和miR-16通过靶向抗凋亡基因BCL2,诱导癌细胞凋亡,对癌症的发生发展起到抑制作用;而miR-21在多种癌症中过表达,通过调控多种靶基因,促进肿瘤的生长、侵袭和转移,被视为致癌miRNA。在神经系统疾病方面,miRNA在神经系统的发育、成熟及维持正常生理功能中不可或缺,其表达异常与帕金森病、阿尔茨海默病等神经退行性疾病密切相关。在心脑血管疾病中,一些miRNAs如miR-21、miR-143/145等在心脏肥大、纤维化、心肌梗塞以及血管平滑肌细胞增殖和分化等过程中发挥关键调控作用。深入研究miRNA与疾病的关联关系,对于理解疾病的发病机制意义重大。它能够帮助我们从分子层面揭示疾病发生发展的内在规律,为疾病的早期诊断、精准治疗以及药物研发提供坚实的理论基础。准确识别与疾病相关的miRNA,有望为疾病的早期诊断提供高灵敏度和特异性的生物标志物。例如,循环miRNA在多种疾病的体液中稳定存在,其表达水平的变化与疾病的发生发展密切相关,可作为潜在的诊断标志物,实现疾病的早期筛查和预警。对于疾病的治疗而言,miRNA也为其开辟了崭新的途径。通过调节异常表达的miRNA,使其恢复正常功能,有望达到治疗疾病的目的。在癌症治疗中,可将具有抑癌作用的miRNA导入癌细胞,或者抑制致癌miRNA的表达,从而实现对肿瘤细胞生长、增殖和转移的有效抑制。在药物研发领域,miRNA与疾病关联关系的研究能够为新药的研发提供全新的靶点。以特定的miRNA及其相关调控通路为目标,开发针对性的药物,能够提高药物研发的效率和成功率,为患者带来更多有效的治疗选择。然而,传统的实验方法在鉴定miRNA与疾病关联关系时,面临着诸多挑战。不仅耗时费力,需要投入大量的人力、物力和时间成本,而且实验过程复杂,技术要求高,难以大规模开展。随着生物数据的爆炸式增长,仅依靠传统实验方法,远远无法满足对miRNA与疾病关联关系深入研究的需求。因此,开发高效、准确的计算预测方法迫在眉睫。通过计算预测方法,能够从海量的生物数据中快速筛选出潜在的miRNA-疾病关联关系,为实验验证提供有价值的线索,极大地提高研究效率,加速生物医学领域的发展。1.2miRNA与疾病关联关系概述miRNA的结构较为独特,它是长度约为22个核苷酸的内源性非编码单链小分子RNA,其前体通常具有发夹状结构,经过一系列酶的加工处理后形成成熟的miRNA。这种短小精悍的结构赋予了miRNA高效的基因调控能力。在功能上,miRNA通过与靶mRNA的互补配对,在转录后水平对基因表达进行精细调控。当miRNA与靶mRNA完全或部分互补配对时,可促使靶mRNA降解,从而阻断基因的翻译过程,或者抑制靶mRNA的翻译,减少相应蛋白质的合成。这种调控方式犹如精密的分子开关,广泛参与细胞的增殖、分化、凋亡、代谢等诸多重要生物学过程,对维持细胞的正常生理功能和机体的稳态平衡起着不可或缺的作用。一旦miRNA的表达或功能出现异常,便可能打破细胞内的基因调控网络平衡,进而引发各种疾病。在众多疾病中,癌症与miRNA的关联研究最为深入。大量研究确凿地表明,miRNA在癌症的发生、发展、转移和耐药等关键过程中扮演着极为重要的角色,发挥着致癌或抑癌的双重作用。miR-15和miR-16通过精准靶向抗凋亡基因BCL2,诱导癌细胞凋亡,对癌症的发生发展起到显著的抑制作用,犹如癌症发展道路上的“刹车”;而miR-21在多种癌症中异常过表达,通过调控多种靶基因,促进肿瘤的生长、侵袭和转移,堪称致癌miRNA的典型代表,恰似癌症发展的“加速器”。在乳腺癌中,miR-21的高表达与肿瘤的恶性程度和不良预后密切相关,它通过抑制相关抑癌基因的表达,为癌细胞的增殖和转移创造了有利条件。在肺癌中,let-7的表达水平显著降低,导致其对癌基因的抑制作用减弱,从而促进了肺癌细胞的增殖和迁移。神经系统疾病同样与miRNA的表达异常紧密相连。在神经系统的发育、成熟及维持正常生理功能的过程中,miRNA发挥着至关重要的作用。一旦miRNA的表达出现异常,就可能引发帕金森病、阿尔茨海默病等神经退行性疾病。帕金森病患者的脑组织中,某些miRNA的表达水平明显失调,这些miRNA通过调控相关基因的表达,影响神经递质的合成、代谢和传递,以及神经元的存活和功能,进而导致帕金森病的发生和发展。在阿尔茨海默病中,miR-125b等miRNA的表达异常与淀粉样蛋白的沉积和tau蛋白的过度磷酸化密切相关,它们参与了神经炎症和神经元凋亡等病理过程,推动了阿尔茨海默病的病情进展。心脑血管疾病方面,miRNA也在其中发挥着关键的调控作用。在心脏肥大、纤维化、心肌梗塞以及血管平滑肌细胞增殖和分化等过程中,一些特定的miRNAs如miR-21、miR-143/145等扮演着重要角色。在心肌梗塞发生时,miR-21的表达显著上调,它通过调控相关靶基因,促进心肌细胞的凋亡和纤维化,加重心肌损伤;而miR-143/145则通过靶向调控相关基因,参与血管平滑肌细胞的增殖和分化过程,对血管的正常生理功能起着重要的维持作用,其表达异常可能导致血管功能紊乱,增加心脑血管疾病的发病风险。1.3图卷积技术在生物信息学中的应用进展图卷积技术作为深度学习领域的重要分支,近年来在生物信息学中展现出巨大的应用潜力,为解决生物分子网络分析等复杂问题提供了全新的思路和方法。图卷积神经网络(GraphConvolutionalNetworks,GCN)起源于2014年,其基本思想是将卷积神经网络(CNN)的卷积操作从欧几里得空间扩展到图空间,以处理具有复杂连接关系的图结构数据。在图卷积中,每个节点都包含一个特征向量,边表示节点之间的关系,通过将节点的特征向量与边的权重相乘并求和,得到新的特征向量,从而捕捉节点之间的关系信息。与传统的卷积神经网络相比,图卷积神经网络更适合处理非欧几里得空间的数据,如社交网络、分子结构等。随着深度学习的不断发展,图卷积技术也在持续演进,衍生出了GraphSAGE、GAT等多种变体,以提升模型性能和拓展应用范围。GraphSAGE通过采样和聚合邻居节点的特征,能够在大规模图数据上进行高效的归纳学习;GAT则引入了注意力机制,使模型能够自适应地学习不同邻居节点的重要性,从而更好地捕捉图中的复杂结构和依赖关系。这些改进和创新使得图卷积技术在生物信息学等领域得到了更为广泛的应用和深入的研究。在生物分子网络分析中,图卷积技术具有独特的优势。生物分子网络,如蛋白质-蛋白质相互作用网络、基因调控网络等,呈现出高度复杂且不规则的图结构,传统的分析方法往往难以有效处理。图卷积技术能够充分利用图的拓扑结构信息,通过对节点邻居信息的聚合和传播,挖掘生物分子之间的相互作用模式和潜在关系。在蛋白质-蛋白质相互作用网络中,图卷积可以通过分析节点(蛋白质)之间的连接关系和特征信息,预测蛋白质的功能、识别蛋白质复合物以及揭示蛋白质在生物过程中的作用机制。通过图卷积模型对蛋白质相互作用网络进行分析,能够识别出与特定疾病相关的蛋白质模块,为疾病的发病机制研究和药物靶点发现提供关键线索。在基因组学领域,图卷积技术也发挥着重要作用。它可应用于变异检测、基因表达分析、蛋白质互作预测等多个方面。在变异检测中,将基因组数据转化为图结构,利用图卷积网络对图中的节点(如基因片段)和边(如基因之间的关联)进行特征提取和分析,能够更准确地识别出基因突变和结构变异,为疾病的遗传诊断和个性化治疗提供有力支持。在基因表达分析中,图卷积技术能够考虑基因之间的调控关系和相互作用,从复杂的基因表达数据中挖掘出潜在的生物学信息,有助于深入理解基因的功能和调控机制。通过图卷积网络对基因表达数据进行分析,能够发现与肿瘤发生发展相关的关键基因和调控通路,为肿瘤的诊断和治疗提供新的靶点和策略。在蛋白质组学方面,图卷积技术为蛋白质结构预测和功能注释提供了新的解决方案。蛋白质的结构和功能与其氨基酸序列以及氨基酸之间的相互作用密切相关,将蛋白质表示为图结构,图卷积网络可以通过对图中节点(氨基酸)和边(氨基酸之间的相互作用)的特征学习,预测蛋白质的三维结构,进而推断其功能。这种方法能够充分考虑蛋白质结构中的复杂拓扑关系,提高蛋白质结构预测的准确性和效率。在蛋白质-蛋白质相互作用预测中,图卷积技术能够利用蛋白质序列和结构信息,构建蛋白质相互作用网络,并通过对网络的分析预测蛋白质之间的相互作用,为理解细胞内的信号传导和代谢途径提供重要依据。图卷积技术在生物信息学中的应用不仅局限于上述领域,还在疾病预测、药物设计等方面展现出广阔的应用前景。在疾病预测中,通过整合多种生物数据,构建疾病相关的图模型,利用图卷积网络挖掘数据中的潜在模式和关联,能够实现对疾病风险的准确预测,为疾病的早期预防和干预提供支持。在药物设计中,图卷积技术可以用于分析药物分子与靶点之间的相互作用,预测药物的活性和毒性,加速药物研发的进程,降低研发成本。尽管图卷积技术在生物信息学中取得了显著的成果,但仍面临一些挑战。生物数据通常具有高维度、高噪声和数据稀疏性等特点,这对图卷积模型的性能和泛化能力提出了严峻的考验;图卷积模型的可解释性较差,难以直观地理解模型的决策过程和结果,限制了其在实际应用中的推广和应用。未来,随着深度学习技术的不断发展和生物数据的日益丰富,图卷积技术有望在生物信息学中取得更加突破性的进展。通过改进模型算法,提高模型对复杂生物数据的处理能力;结合可解释性方法,增强模型的可解释性,将有助于图卷积技术在生物信息学中发挥更大的作用,推动生物医学研究的深入发展。二、相关理论与技术基础2.1miRNA与疾病关联数据来源及特点在miRNA与疾病关联关系的研究中,数据来源广泛且多样,其中数据库是重要的数据支撑。人类微小RNA疾病数据库(HumanMicroRNADiseaseDatabase,HMDD)是该领域极具代表性的数据库,其最新版本HMDDv4.0包含53530个实验支持的miRNA-疾病关联条目,涵盖了来自37090篇论文的1817个人类miRNA基因、79个病毒源性miRNA和2360个人类疾病。这些条目依据实验证据被细致地分为8类,包含23种不同的证据代码。通过HMDD,研究人员能够获取到丰富的miRNA与疾病关联的信息,为深入研究提供了坚实的数据基础。除了HMDD,还有其他多个数据库也在miRNA与疾病关联研究中发挥着重要作用。miR2Disease数据库专注于收集和整理miRNA与疾病之间的关系,为研究提供了有价值的数据参考;dbDEMC数据库则主要聚焦于人类癌症中差异表达的miRNA,对于研究miRNA在癌症发生发展过程中的作用机制具有重要意义。这些数据库从不同角度和侧重点收集数据,丰富了研究人员可获取的数据资源。这些数据来源呈现出显著的特点。数据具有多源性,不同数据库基于不同的研究目的、实验方法和数据收集渠道,收集了miRNA与疾病关联的相关信息。HMDD主要通过对大量文献的整理和筛选获取数据,而一些数据库可能侧重于特定疾病类型或特定实验技术所产生的数据收集。这种多源性使得数据内容丰富多样,但也带来了数据整合和一致性处理的挑战。不同数据库的数据格式、注释标准和数据质量存在差异,如何将这些多源数据有效地整合起来,是研究过程中需要解决的关键问题之一。数据具有复杂性。miRNA与疾病之间的关联并非简单的一对一关系,而是呈现出复杂的网络结构。一个miRNA可能参与调控多个基因的表达,进而与多种疾病相关;一种疾病也可能受到多个miRNA的共同调控。这种复杂的关联关系使得数据的分析和理解变得更为困难,需要采用复杂的计算方法和模型来挖掘其中的潜在规律。在癌症中,miR-21不仅与乳腺癌的发生发展密切相关,还在肺癌、胃癌等多种癌症中发挥着重要作用。它通过调控多个靶基因,影响肿瘤细胞的增殖、凋亡、侵袭和转移等多个生物学过程,这种复杂的调控网络使得miR-21与多种癌症之间建立了紧密的联系。数据还存在不完整性和噪声干扰的问题。由于实验技术的限制和研究的局限性,目前已知的miRNA与疾病关联关系只是实际情况的一部分,大量潜在的关联关系尚未被发现。一些低表达水平的miRNA或者与疾病关联较弱的关系可能难以通过现有的实验方法检测到。数据中可能存在噪声干扰,如实验误差、数据录入错误等,这些噪声会影响数据的质量和分析结果的准确性。在实验过程中,由于样本处理不当、检测仪器的误差等原因,可能导致miRNA表达量的测量出现偏差,从而影响对miRNA与疾病关联关系的判断。数据质量对预测结果有着至关重要的影响。高质量的数据能够为预测模型提供准确、可靠的信息,从而提高预测的准确性和可靠性;而低质量的数据则可能引入错误信息,导致预测结果出现偏差。如果数据中存在大量的噪声和错误标注,模型在学习过程中可能会学到错误的模式,从而影响对未知关联关系的预测能力。在构建预测模型时,需要对数据进行严格的预处理和质量控制,以确保数据的准确性和可靠性,从而提高预测模型的性能。2.2传统miRNA与疾病关联关系预测方法2.2.1基于相似度计算的方法基于相似度计算的方法在miRNA与疾病关联关系预测中占据着重要地位,这类方法的核心假设是功能相似的miRNA往往与表型相似的疾病相关联。在实际应用中,该方法主要通过计算miRNA与疾病之间的多种相似度来预测潜在关联关系,其中包括高斯相互作用属性核相似性、序列相似性、语义相似性等。高斯相互作用属性核相似性的计算基于这样的假设:相似的miRNA更有可能与相似的疾病相关。具体计算过程中,会构建一个二元向量来表示miRNA与所有其他疾病之间的关联。对于miRNAm_i,其与疾病的关联向量IP(m_i)是矩阵DM的第i列,通过该向量与相关参数进行运算,可得到miRNA的高斯相互作用曲线。类似地,也可计算出疾病的高斯相互作用曲线。这种方法能够从整体上衡量miRNA与疾病之间的关联模式相似性,在一些研究中,通过计算高斯相互作用属性核相似性,成功发现了一些潜在的miRNA-疾病关联关系,为后续实验研究提供了有价值的线索。该方法对于数据的依赖性较强,如果数据存在噪声或不完整性,可能会影响相似性计算的准确性,进而导致预测结果出现偏差。而且它主要基于已有的关联数据进行相似性度量,对于发现全新的、与已知模式差异较大的关联关系存在一定局限性。序列相似性的计算则侧重于从miRNA的核苷酸序列角度出发,探寻miRNA之间以及miRNA与疾病之间的潜在联系。通常采用的方法是将miRNA序列进行比对,通过计算序列之间的相似性得分来评估它们的相似程度。常见的序列比对算法如BLAST(BasicLocalAlignmentSearchTool),能够快速在数据库中搜索与目标序列相似的序列,并给出相应的相似性分数。在miRNA与疾病关联预测中,假设具有相似序列的miRNA可能具有相似的功能,进而与相似的疾病相关。通过对大量miRNA序列进行分析,发现某些序列相似的miRNA在多种疾病中表现出相似的表达模式,从而推测它们与这些疾病可能存在关联。序列相似性计算方法对于序列数据的质量要求较高,低质量的序列数据可能导致比对结果不准确;而且仅考虑序列相似性,忽略了miRNA在生物体内复杂的调控网络和功能多样性,可能会遗漏一些重要的关联关系。语义相似性的计算主要借助医学领域的专业知识和数据库,如医学主题词(MeSH)数据库。在MeSH数据库中,每种疾病都可以用有向无环图(DAG)来表示。通过分析疾病在DAG中的位置、祖先节点和边的关系等信息,计算疾病之间的语义贡献值,进而得到疾病语义相似度。对于疾病d_i和d_j,首先计算疾病d_k对d_i的语义贡献值,随着疾病d_k到d_i的距离增加,语义贡献因子会降低。在此基础上,通过特定的公式计算出疾病d_i的语义值,进而得到疾病d_i和d_j之间的相似度。在实际应用中,语义相似性计算方法能够充分利用医学领域的先验知识,挖掘疾病之间潜在的语义关联,为miRNA与疾病关联预测提供更具生物学意义的信息。在研究神经系统疾病时,通过语义相似性分析,发现一些具有相似语义特征的疾病与某些特定miRNA存在共同的关联,为深入研究这些疾病的发病机制提供了新的思路。该方法的计算过程较为复杂,依赖于专业数据库的准确性和完整性;而且对于语义相似性的定义和计算方式存在多种观点,不同的计算方法可能会导致结果存在差异。基于相似度计算的方法在miRNA与疾病关联关系预测中具有一定的应用场景。在初步筛选潜在关联关系时,该方法能够快速根据已知的相似性信息,对大量的miRNA和疾病进行排序,为后续深入研究提供候选对象。在生物标志物的发现研究中,通过计算相似度,可以从众多miRNA中筛选出与特定疾病可能相关的miRNA,然后再通过实验验证,确定其是否真正可作为疾病诊断或预后评估的生物标志物。这类方法也存在一些局限性,如对数据质量要求高、计算结果受限于已知信息、无法全面考虑生物分子间复杂的相互作用等。在实际应用中,通常需要与其他方法相结合,以提高预测的准确性和可靠性。2.2.2基于机器学习的方法基于机器学习的方法在miRNA-疾病关联预测领域发挥着重要作用,这类方法通过运用各种分类算法和特征提取技术,从大量的数据中学习miRNA与疾病之间的潜在关系模式,从而实现对未知关联关系的预测。常见的算法包括逻辑回归、支持向量机、随机森林等,它们在miRNA-疾病关联预测中各有特点和应用方式。逻辑回归是一种经典的线性分类算法,在miRNA-疾病关联预测中,它通过构建线性模型来描述miRNA特征与疾病之间的关系。将miRNA的各种特征,如表达量、序列特征、功能相似性等作为输入变量,疾病是否关联作为输出变量,通过对已知miRNA-疾病关联数据的学习,确定模型的参数。在实际应用中,逻辑回归模型可以根据给定的miRNA特征,预测其与特定疾病关联的概率。通过对大量已知miRNA-疾病关联数据的训练,逻辑回归模型能够学习到miRNA特征与疾病关联之间的线性关系,对于一些特征与疾病关联呈现简单线性关系的情况,逻辑回归能够快速准确地进行预测。逻辑回归模型假设数据特征与疾病关联之间是线性关系,然而在实际的生物系统中,miRNA与疾病之间的关系往往非常复杂,可能存在非线性关系,这就限制了逻辑回归模型的预测能力;而且逻辑回归对数据中的噪声较为敏感,如果数据存在噪声或异常值,可能会影响模型的准确性。支持向量机(SupportVectorMachine,SVM)是一种强大的机器学习算法,它通过寻找一个最优的分类超平面,将不同类别的数据点分开。在miRNA-疾病关联预测中,SVM将miRNA和疾病的数据特征映射到高维空间,然后在这个高维空间中寻找一个能够最大化两类数据间隔的超平面。通过核函数的选择,SVM可以处理线性不可分的数据,从而适应miRNA与疾病之间复杂的关系。在处理高维数据时,SVM能够有效地避免维度灾难问题,对于少量的样本数据也能取得较好的分类效果。在miRNA-疾病关联预测中,SVM可以利用miRNA和疾病的多种特征数据,如功能相似性、表达谱等,通过合适的核函数将数据映射到高维空间,找到最优分类超平面,实现对miRNA-疾病关联关系的准确预测。SVM的性能很大程度上依赖于核函数的选择和参数的调整,不同的核函数和参数设置可能会导致模型性能的巨大差异;而且SVM的训练时间较长,对于大规模数据的处理效率较低。随机森林(RandomForest)是一种基于决策树的集成学习算法,它通过构建多个决策树,并将这些决策树的预测结果进行综合,来提高预测的准确性和稳定性。在miRNA-疾病关联预测中,随机森林首先从原始数据中随机抽取多个样本子集,然后基于每个样本子集构建一棵决策树。在构建决策树的过程中,随机选择特征子集进行分裂,以增加决策树之间的多样性。最终,通过对所有决策树的预测结果进行投票或平均,得到最终的预测结果。随机森林能够有效地处理高维数据和非线性关系,对于数据中的噪声和缺失值具有较强的鲁棒性。在miRNA-疾病关联预测中,随机森林可以利用miRNA和疾病的各种复杂特征,通过多棵决策树的综合判断,提高预测的准确性。通过对大量miRNA和疾病数据的学习,随机森林模型能够捕捉到数据中的复杂模式和潜在关系,对于预测一些复杂疾病与miRNA的关联具有较好的性能表现。随机森林模型的可解释性相对较差,难以直观地理解模型的决策过程;而且当决策树数量过多时,可能会导致模型过拟合,影响模型的泛化能力。在实际应用中,这些基于机器学习的方法在miRNA-疾病关联预测中都取得了一定的成果,但也面临着一些挑战。数据的质量和特征的选择对模型性能影响巨大,高质量的数据和有效的特征能够为模型提供准确的信息,提高预测的准确性;而低质量的数据和无关的特征则可能导致模型学习到错误的模式,降低预测性能。模型的泛化能力也是一个关键问题,如何使模型在训练数据和未知数据上都能表现出良好的性能,是需要解决的重要挑战。为了应对这些挑战,研究人员通常会采用多种方法进行改进,如对数据进行预处理和特征工程,提高数据质量和特征的有效性;采用交叉验证等技术,评估和提高模型的泛化能力;将多种机器学习算法进行融合,发挥各自的优势,提高预测的准确性和可靠性。2.3图卷积网络基础2.3.1图卷积网络基本原理图卷积网络(GraphConvolutionalNetworks,GCN)作为深度学习领域中处理图结构数据的关键技术,其基本原理融合了图谱理论和卷积神经网络的核心思想。在深入理解图卷积网络之前,首先需要明确图数据的基本表示方式,其中邻接矩阵和拉普拉斯矩阵是描述图结构的重要数学工具。邻接矩阵(AdjacencyMatrix)是表示图中节点之间连接关系的矩阵。对于一个具有N个节点的图G=(V,E),其中V是节点集合,E是边集合,其邻接矩阵A是一个N\timesN的矩阵。若节点i和节点j之间存在边连接,则A_{ij}=1;若不存在边连接,则A_{ij}=0。在一个简单的社交网络中,若用户i和用户j是好友关系,那么在对应的邻接矩阵中,A_{ij}=1,否则A_{ij}=0。邻接矩阵直观地展示了图中节点之间的直接连接关系,是进一步分析图结构的基础。拉普拉斯矩阵(LaplacianMatrix)则是基于邻接矩阵定义的另一个重要矩阵,它在图信号处理和图卷积网络中发挥着关键作用。拉普拉斯矩阵L可以通过邻接矩阵A和度矩阵D计算得到,度矩阵D是一个对角矩阵,其对角元素D_{ii}等于节点i的度,即与节点i相连的边的数量。拉普拉斯矩阵的定义为L=D-A。拉普拉斯矩阵反映了图中节点的局部和全局结构信息,其特征值和特征向量包含了关于图的拓扑结构和信号传播特性的重要信息。在分析一个蛋白质-蛋白质相互作用网络时,拉普拉斯矩阵可以帮助我们理解蛋白质节点之间的相互作用强度和网络的稳定性,通过分析拉普拉斯矩阵的特征值,可以评估网络的连通性和模块化程度。图卷积操作的核心目标是在图结构数据上实现类似于卷积神经网络在欧几里得空间数据上的特征提取和信息传播功能。在传统的卷积神经网络中,卷积操作通过滑动窗口在规则的网格结构数据(如图像)上进行局部特征提取,利用卷积核与局部区域的数据进行加权求和,从而提取出数据的局部特征。然而,图数据具有不规则的拓扑结构,节点的邻居数量和连接方式各不相同,无法直接应用传统的卷积操作。为了解决这一问题,图卷积网络通过对节点及其邻居节点的特征进行聚合和变换,实现对图数据的特征提取。具体而言,图卷积操作可以看作是对节点的邻居节点信息进行加权求和,并结合节点自身的特征进行变换。对于图中的每个节点i,其邻居节点集合记为N(i),图卷积操作通过对邻居节点的特征h_j(j\inN(i))进行加权求和,并与节点i自身的特征h_i进行线性组合,得到节点i的新特征表示。这个过程可以用数学公式表示为:h_i^{l+1}=\sigma\left(\sum_{j\inN(i)}\frac{1}{\sqrt{D_{ii}D_{jj}}}A_{ij}W^lh_j^l+b^l\right)其中,h_i^{l+1}是节点i在第l+1层的特征表示,\sigma是激活函数,如ReLU函数(\sigma(x)=max(0,x)),用于增加模型的非线性表达能力;W^l是第l层的权重矩阵,通过训练学习得到,用于对邻居节点特征进行线性变换;b^l是第l层的偏置向量;\frac{1}{\sqrt{D_{ii}D_{jj}}}A_{ij}是归一化的邻接矩阵元素,用于对邻居节点的特征进行加权,使得不同邻居节点的贡献能够在统一的尺度下进行计算。在一个基因调控网络中,每个基因可以看作是图中的一个节点,基因之间的调控关系用边表示,通过图卷积操作,可以聚合邻居基因的表达信息,从而推断出当前基因在特定生物学过程中的潜在功能。通过多层图卷积操作的堆叠,可以使节点不仅能够获取直接邻居节点的信息,还能获取更远距离邻居节点的信息,从而挖掘图数据中的全局结构和复杂关系。在一个社交网络分析中,通过多层图卷积网络,可以从用户的直接好友关系出发,逐步聚合间接好友的信息,从而对用户的兴趣爱好、社交影响力等进行更全面、准确的预测。在分子结构分析中,图卷积网络可以通过多层卷积操作,从原子之间的直接化学键信息开始,逐步整合分子中更广泛的原子间相互作用信息,从而准确预测分子的物理化学性质和生物活性。2.3.2图卷积网络在节点分类和图分类任务中的应用在生物分子网络分析领域,图卷积网络展现出了强大的应用能力,在节点分类和图分类任务中都取得了显著成果。在节点分类任务中,以基因功能预测为例,基因在生物体内构成了复杂的调控网络,如同一个庞大而精密的信息传递系统。将基因调控网络看作图结构,每个基因是图中的节点,基因之间的调控关系用边表示。图卷积网络通过对基因节点的特征和邻居节点的信息进行学习,能够有效预测基因的功能。在这个过程中,基因的特征可以包括基因的表达量、序列特征以及已知的功能注释信息等。通过多层图卷积操作,每个基因节点不仅能获取直接邻居基因的信息,还能获取更广泛的网络信息。例如,在一个关于癌症基因研究的项目中,研究人员利用图卷积网络对基因调控网络进行分析。首先,将基因的表达数据和已知的功能注释信息作为初始特征输入到图卷积网络中。在网络的第一层,基因节点通过与邻居节点的信息聚合,初步学习到局部的调控关系。随着层数的增加,基因节点逐渐整合了更广泛的网络信息。最终,通过对每个基因节点的特征进行分类,预测出未知基因的功能。实验结果表明,相较于传统的方法,图卷积网络能够更准确地预测基因功能,为癌症的发病机制研究和药物靶点发现提供了重要的线索。这是因为图卷积网络能够充分利用基因调控网络的拓扑结构信息,捕捉基因之间复杂的相互作用关系,从而提高了预测的准确性。在图分类任务中,以疾病类型判断为例,不同的疾病可以看作是不同类型的图,疾病相关的生物分子(如蛋白质、基因、miRNA等)及其相互作用构成了图的节点和边。通过构建疾病相关的图模型,并利用图卷积网络对图的全局特征进行提取和分析,可以实现对疾病类型的准确判断。在实际应用中,首先需要整合多种生物数据,构建疾病相关的异构图。在构建与心血管疾病相关的图模型时,将与心血管疾病相关的蛋白质、基因、miRNA等作为节点,它们之间的相互作用(如蛋白质-蛋白质相互作用、基因调控关系、miRNA-基因调控关系等)作为边。然后,将这个异构图输入到图卷积网络中。图卷积网络通过对图中节点和边的特征进行学习,能够提取出疾病相关的关键特征。在网络的训练过程中,使用已知疾病类型的图数据进行监督学习,调整网络的参数,使得网络能够准确地区分不同类型的疾病。通过对大量心血管疾病和其他疾病相关图数据的训练,图卷积网络能够学习到心血管疾病相关图的独特特征模式。在测试阶段,将未知疾病类型的图数据输入到训练好的网络中,网络通过对图特征的分析,能够准确判断出该图所代表的疾病是否为心血管疾病。实验结果显示,图卷积网络在疾病类型判断任务中表现出了较高的准确率和召回率,能够有效地辅助医生进行疾病的诊断和分类。这得益于图卷积网络能够综合考虑多种生物分子之间的复杂相互作用,从整体上把握疾病相关图的特征,从而提高了疾病类型判断的准确性。三、混合邻域图卷积模型解析3.1混合邻域图卷积的基本原理3.1.1邻域感知机制在图卷积网络中,邻域感知机制对于准确学习节点特征和图结构信息至关重要。节点级邻域感知聚焦于单个节点的直接邻居,通过对直接邻居节点特征的聚合来更新当前节点的表示。在一个社交网络中,若将用户视为节点,用户之间的关注关系视为边,节点级邻域感知就是关注某个用户的直接关注者,通过分析这些直接关注者的特征(如年龄、兴趣爱好等)来更新该用户的特征表示。这种方式能够捕捉到节点的局部信息,对于刻画节点的局部特性具有重要意义。在蛋白质-蛋白质相互作用网络中,通过节点级邻域感知,可以了解某个蛋白质与直接相互作用的其他蛋白质之间的关系,从而推断该蛋白质在局部功能模块中的作用。跳级邻域感知则突破了直接邻居的限制,考虑了节点在多跳邻居范围内的信息。它通过多层图卷积操作,使节点能够获取更远距离邻居的信息,从而挖掘图中的全局结构和复杂关系。在上述社交网络例子中,跳级邻域感知不仅关注用户的直接关注者,还会关注直接关注者的关注者,甚至更远处的邻居。通过这种方式,可以从更宏观的角度了解用户在社交网络中的位置和影响力。在生物分子网络中,跳级邻域感知可以帮助研究人员发现蛋白质之间的间接相互作用关系,这些间接关系可能在生物过程中发挥着重要的调控作用。通过分析多跳邻居信息,能够揭示生物分子网络中隐藏的功能模块和信号传导通路。贪婪邻域感知、节点级邻域感知和跳级邻域感知方法存在明显差异。贪婪邻域感知方法以GCN为典型代表,不区分邻居节点的重要性,在每次图卷积后,所有节点的邻域感知范围均匀增加一跳,同跳的节点被平等对待。这种方法虽然简单直接,但可能会引入大量冗余信息,影响模型的学习效率和准确性。在一个大规模的社交网络中,贪婪邻域感知可能会将大量与目标节点相关性较弱的邻居信息纳入计算,导致计算资源浪费,同时也可能使目标节点的特征表示受到噪声干扰。节点级邻域感知通过节点采样技术或注意力机制,选择性地从部分邻居节点中聚合信息。这种方法能够聚焦于与目标节点相关性较强的邻居,减少冗余信息的干扰,提高模型的学习效率。在分子结构分析中,节点级邻域感知可以通过注意力机制,关注与中心原子直接相连且对分子性质影响较大的原子,从而更准确地预测分子的物理化学性质。这种方法主要关注局部信息,对于挖掘图中的全局结构信息存在一定局限性。跳级邻域感知将所有卷积层的输出(跳级表示)拼接在一起,并通过多层感知机制隐式计算它们的重要性。它能够从全局角度感知邻域信息,捕捉到图中长距离的依赖关系。在基因调控网络分析中,跳级邻域感知可以综合考虑不同层次的基因调控关系,发现基因之间的间接调控通路,从而更全面地理解基因调控网络的功能。跳级邻域感知对于计算资源的需求较高,且在处理复杂图结构时,可能会出现信息冗余和过拟合的问题。混合邻域感知方法则巧妙地综合了全局和局部视角来学习节点邻域信息。它既考虑了节点的直接邻居信息,又通过多跳邻居信息捕捉图的全局结构,能够更全面、准确地刻画节点在图中的特征和角色。在疾病相关的生物分子网络研究中,混合邻域感知可以同时分析与疾病直接相关的生物分子(节点级邻域)以及这些分子通过多步相互作用与其他分子形成的网络关系(跳级邻域)。通过这种方式,能够更深入地理解疾病的发病机制,挖掘潜在的疾病生物标志物和治疗靶点。在分析癌症相关的基因调控网络时,混合邻域感知可以通过节点级邻域感知关注与癌症直接相关的关键基因及其直接调控的基因,同时通过跳级邻域感知发现这些基因与其他基因之间的间接调控关系,从而揭示癌症发生发展过程中复杂的基因调控网络变化。3.1.2多视角学习策略在图数据处理中,多视角学习策略具有不可或缺的重要性。图数据本身具有高度的复杂性和多样性,单一视角的学习方法往往难以全面捕捉图中蕴含的丰富信息。多视角学习能够从多个不同的角度对图数据进行分析和学习,从而更全面、深入地挖掘图的特征和潜在关系。在社交网络分析中,从用户的社交关系、兴趣爱好、地理位置等多个视角进行学习,可以更准确地了解用户的行为模式和社交圈子,为个性化推荐和社交关系预测提供更有力的支持。在混合邻域图卷积模型中,通过多种方式实现多视角学习。利用随机特征遮盖变体操作来扰动邻居信息是一种重要手段。具体来说,通过从二元伯努利分布中以遮盖比例q采样得到掩码因子\delta=Bernoulli(1-q),将图中一些节点的特征随机设为0。这种操作类似于节点采样,但不扰乱潜在的图结构,只修改节点的信息,影响图卷积层时的聚合操作。通过这种方式,可以生成多个不同的邻居信息视角,从而提升图卷积操作的鲁棒性。在分子结构预测中,对分子图中的原子节点进行随机特征遮盖,能够模拟不同实验条件下分子结构信息的变化,使模型学习到更具通用性的分子结构特征,提高对不同分子结构的预测能力。研究设计了三种随机特征遮盖的变体操作,以更好地发挥其优势。训练特征遮盖(TrainingFeatureMasking,TFM)类似于Dropout的设置,在训练时应用随机特征遮盖,但不在测试时使用。这样在测试时可以减少图数据的扰动性,使得模型获得更多节点特征,从而做出更准确的预测。在图像分类任务中,训练特征遮盖可以在训练过程中随机遮盖图像中的部分像素特征,让模型学习到图像的关键特征,避免过拟合;在测试时,不进行特征遮盖,模型能够利用完整的图像特征进行准确分类。简单特征遮盖(SimpleFeatureMasking,SFM)受DropGNN启发,在训练和测试集上都使用Dropout来保证两个集合呈现相似的分布,同时训练集和测试集都应用随机特征遮盖。这种方式能够使模型在训练和测试过程中都能适应特征的变化,提高模型的泛化能力。在推荐系统中,简单特征遮盖可以在训练和测试时对用户-物品交互图中的节点特征进行随机遮盖,让模型学习到用户和物品之间更稳定的潜在关系,从而提高推荐的准确性和稳定性。混合特征遮盖(MixedFeatureMasking,MFM)受集成学习的启发,利用混合策略来增强视角间的多样性。通过组合不同的随机特征遮盖操作,MFM可以生成更多样化的邻居信息视角,使模型能够学习到更丰富的图数据特征。在知识图谱推理任务中,混合特征遮盖可以结合多种不同的特征遮盖方式,从多个角度对知识图谱中的节点和边特征进行扰动,让模型学习到知识图谱中更复杂的语义关系和推理规则,提高推理的准确性。利用注意力机制自适应地从“跳”层面选取重要邻居也是多视角学习的关键策略。注意力机制能够根据节点之间的相关性和重要性,为不同跳数的邻居分配不同的权重。在一个包含多个层次的生物分子网络中,注意力机制可以自动识别出与当前节点功能密切相关的多跳邻居,并赋予它们较高的权重,从而使模型能够更有效地捕捉到长距离的依赖关系和重要的结构信息。在分析基因调控网络时,注意力机制可以聚焦于那些对目标基因表达具有关键调控作用的多跳邻居基因,通过对这些重要邻居信息的聚合,更准确地预测目标基因的表达水平和功能。多通道技术和多视角损失在提升模型鲁棒性和学习能力方面发挥着重要作用。多通道技术通过构建多个并行的图卷积通道,每个通道从不同的视角对图数据进行处理,然后将这些通道的输出进行融合。在图像识别任务中,多通道技术可以分别从图像的颜色、纹理、形状等不同特征通道进行图卷积操作,每个通道学习到图像的不同方面特征,最后将这些特征融合,能够更全面地描述图像,提高图像识别的准确率。多视角损失则通过对不同视角下的学习结果进行约束和优化,进一步提升模型的性能。它可以使模型在多个视角下都能学习到有效的特征表示,避免模型只关注某一个视角而忽略其他重要信息。在社交网络分析中,多视角损失可以对从用户社交关系、兴趣爱好等不同视角学习到的用户特征表示进行约束,使模型学习到的用户特征更全面、准确,从而提高社交关系预测和用户行为分析的准确性。三、混合邻域图卷积模型解析3.2混合邻域图卷积模型的构建与实现3.2.1模型架构设计混合邻域图卷积模型的架构设计融合了多种先进技术,旨在高效处理miRNA与疾病关联数据中的复杂图结构信息。该模型主要包括输入层、卷积层、池化层、全连接层等关键组成部分,各层相互协作,共同完成从原始数据到关联关系预测的任务。输入层负责接收经过预处理的miRNA与疾病关联数据,这些数据以图结构的形式呈现,节点代表miRNA或疾病,边表示它们之间的关联关系。为了使模型能够更好地处理这些数据,输入层对节点和边的特征进行了编码。对于miRNA节点,其特征可以包括序列特征、表达谱特征等;疾病节点的特征则可能包含疾病的语义特征、临床特征等。通过将这些特征转化为适合模型处理的向量形式,输入层为后续的卷积操作提供了基础。在构建输入层时,会将miRNA的序列信息转化为独热编码向量,将疾病的语义信息通过预训练的词向量模型(如Word2Vec)转化为低维向量表示。卷积层是模型的核心部分,采用了混合邻域图卷积操作,以充分捕捉图数据中的局部和全局信息。如前文所述,该操作结合了节点级邻域感知和跳级邻域感知。在节点级邻域感知方面,通过注意力机制,模型能够选择性地从部分邻居节点中聚合信息,聚焦于与目标节点相关性较强的邻居。在分析miRNA-疾病关联图时,对于某个miRNA节点,注意力机制可以自动识别出与该miRNA功能密切相关的疾病邻居节点,并赋予它们较高的权重,从而使模型能够更准确地学习到miRNA与这些关键疾病之间的关联信息。跳级邻域感知则通过将所有卷积层的输出(跳级表示)拼接在一起,并利用多层感知机制隐式计算它们的重要性,使节点能够获取更远距离邻居的信息,挖掘图中的全局结构和复杂关系。在miRNA-疾病关联图中,跳级邻域感知可以帮助模型发现miRNA与疾病之间通过多步间接关联形成的潜在关系,从而更全面地理解miRNA在疾病发生发展过程中的作用。为了提升图卷积操作的鲁棒性,卷积层还引入了随机特征遮盖变体操作。通过从二元伯努利分布中以遮盖比例q采样得到掩码因子\delta=Bernoulli(1-q),将图中一些节点的特征随机设为0。这种操作类似于节点采样,但不扰乱潜在的图结构,只修改节点的信息,影响图卷积层时的聚合操作。在实际应用中,随机特征遮盖变体操作可以生成多个不同的邻居信息视角,使模型能够学习到更具通用性的特征表示,避免过拟合问题。训练特征遮盖(TrainingFeatureMasking,TFM)在训练时应用随机特征遮盖,但不在测试时使用,这样在测试时可以减少图数据的扰动性,使得模型获得更多节点特征,从而做出更准确的预测。池化层的作用是对卷积层输出的特征进行降维,减少计算量,同时保留重要的特征信息。在图数据中,池化操作不像在图像数据中那样有标准的方法,这里采用了基于注意力机制的池化策略。该策略根据节点的重要性对节点特征进行加权平均,从而得到更具代表性的池化结果。在miRNA-疾病关联图中,对于每个子图区域,基于注意力机制的池化策略可以自动识别出该区域内的关键节点,并根据这些关键节点的特征进行池化操作,使得池化后的特征能够更好地反映该区域的重要信息。通过这种方式,池化层在降低数据维度的同时,有效地保留了图数据中的关键特征,为后续的全连接层提供了更简洁、有效的输入。全连接层则将池化层输出的特征进行进一步的整合和分类,最终输出miRNA与疾病关联关系的预测结果。在全连接层中,通过多个全连接神经元对输入特征进行加权求和,并经过激活函数(如Softmax函数)的处理,得到每个miRNA与不同疾病关联的概率。在实际应用中,全连接层可以根据这些概率值判断miRNA与疾病之间是否存在关联,以及关联的可能性大小。对于某个miRNA,全连接层输出的概率值表示该miRNA与各种疾病关联的可能性,通过设定阈值,可以将概率值大于阈值的疾病判定为与该miRNA潜在关联的疾病。模型架构中各层之间的连接方式紧密且有序。输入层将编码后的图数据特征传递给卷积层,卷积层通过多次混合邻域图卷积操作,逐步提取图数据中的局部和全局特征,并将这些特征传递给池化层。池化层对特征进行降维处理后,将其输出到全连接层,全连接层通过对特征的进一步整合和分类,最终得到miRNA与疾病关联关系的预测结果。这种有序的连接方式使得模型能够逐步从原始数据中挖掘出有价值的信息,实现高效准确的关联关系预测。3.2.2模型训练与优化在模型训练过程中,选择合适的损失函数、优化器和超参数调整方法对于提升模型性能至关重要。损失函数用于衡量模型预测结果与真实标签之间的差异,在miRNA与疾病关联关系预测中,采用二元交叉熵损失函数,其公式为:Loss=-\sum_{i=1}^{N}\left[y_i\log(p_i)+(1-y_i)\log(1-p_i)\right]其中,N是样本数量,y_i是样本i的真实标签(0表示无关联,1表示有关联),p_i是模型预测样本i与疾病关联的概率。二元交叉熵损失函数能够有效地衡量模型在二分类任务中的预测误差,通过最小化该损失函数,可以使模型的预测结果尽可能接近真实标签。在训练过程中,模型会不断调整参数,使得预测概率p_i与真实标签y_i的差异最小化,从而提高模型的预测准确性。优化器负责更新模型的参数,以最小化损失函数。这里选用Adam优化器,它结合了Adagrad和RMSProp算法的优点,能够自适应地调整学习率,在训练过程中表现出较好的收敛速度和稳定性。Adam优化器通过计算梯度的一阶矩估计和二阶矩估计,动态地调整每个参数的学习率。在训练初期,学习率较大,模型能够快速收敛;随着训练的进行,学习率逐渐减小,模型能够更加精细地调整参数,避免过拟合。在训练过程中,Adam优化器会根据梯度的变化自动调整学习率,使得模型能够在不同的训练阶段都保持较好的学习效果。超参数调整是优化模型性能的关键步骤,通过调整卷积核数量、学习率、隐藏层节点数等超参数,使模型达到最佳性能。采用网格搜索和随机搜索相结合的方法进行超参数调整。首先,使用网格搜索在较大的超参数空间内进行初步搜索,确定超参数的大致范围。在搜索卷积核数量时,设置多个可能的值(如32、64、128),分别进行模型训练和评估,观察模型在验证集上的性能表现,确定卷积核数量的大致合适范围。然后,在初步确定的范围内,使用随机搜索进行更细致的搜索,以找到最优的超参数组合。通过随机搜索在卷积核数量的合适范围内随机选择不同的值,与其他超参数组合进行模型训练和评估,最终找到使模型在验证集上性能最佳的超参数组合。为了提高模型的泛化能力,采用了交叉验证技术。具体来说,将数据集划分为多个子集,如常见的五折交叉验证,将数据集平均分成五份,每次选择其中一份作为测试集,其余四份作为训练集。通过多次训练和测试,取平均性能指标作为模型的评估结果。在五折交叉验证中,会进行五次训练和测试,每次使用不同的子集作为测试集,得到五个性能指标(如准确率、召回率等),然后计算这些指标的平均值。这样可以更全面地评估模型在不同数据分布下的性能,减少因数据集划分带来的偏差,提高模型的泛化能力。交叉验证还可以帮助检测模型是否存在过拟合问题,如果模型在训练集上表现很好,但在测试集上性能大幅下降,说明可能存在过拟合,需要进一步调整模型或数据。四、基于混合邻域图卷积的miRNA与疾病关联预测方法4.1数据预处理4.1.1miRNA和疾病数据收集与整合为了构建全面且准确的miRNA与疾病关联预测模型,需要从多个权威数据库收集相关数据。人类微小RNA疾病数据库(HMDD)是数据收集的重要来源之一,其最新版本HMDDv4.0包含了53530个实验支持的miRNA-疾病关联条目,涵盖了来自37090篇论文的1817个人类miRNA基因、79个病毒源性miRNA和2360个人类疾病。这些条目依据实验证据被细致地分为8类,包含23种不同的证据代码。除了HMDD,还从miR2Disease数据库收集miRNA与疾病之间的关系数据,以及从dbDEMC数据库获取人类癌症中差异表达的miRNA数据。在数据收集过程中,需要对数据进行清洗、去重和标准化处理,以确保数据的一致性和可用性。由于不同数据库的数据格式、注释标准和数据质量存在差异,清洗工作尤为重要。首先,检查数据中的缺失值和异常值,对于存在大量缺失值或异常值的数据条目,进行谨慎评估和处理。若缺失值对整体分析影响较大,可能会考虑通过数据插值、机器学习预测等方法进行填充;对于异常值,通过统计学方法(如3倍标准差法)或基于领域知识进行识别和修正。在分析miRNA表达量数据时,若发现某个样本的miRNA表达量远高于其他样本,且不符合生物学常理,可通过重新检查实验记录或与其他相关数据进行对比,判断是否为异常值,并进行相应处理。去重工作主要是去除重复的数据条目,以避免数据冗余对模型训练的影响。通过对数据的关键信息(如miRNA名称、疾病名称、关联关系等)进行比对,识别并删除重复的数据。在整合多个数据库的数据时,可能会出现相同的miRNA-疾病关联条目被多次记录的情况,通过去重操作,可以确保每个关联条目只被纳入一次。标准化处理则是将不同数据库中关于miRNA和疾病的命名、分类等信息进行统一。对于疾病名称,利用医学主题词(MeSH)数据库进行规范化处理,将不同数据库中同一疾病的不同命名统一为MeSH中的标准名称。对于miRNA的命名,遵循国际上通用的miRBase命名规则,确保数据中miRNA名称的一致性。通过这些数据预处理步骤,可以提高数据的质量和可用性,为后续的相似性矩阵计算和模型训练奠定坚实的基础。4.1.2相似性矩阵计算在miRNA与疾病关联关系预测中,相似性矩阵的计算是关键步骤,它为构建图数据结构和后续的分析提供了重要依据。miRNA序列相似性矩阵的计算基于miRNA的核苷酸序列信息。从miRBase公开数据库下载miRNA序列信息,将两个miRNAm_i和m_j的序列相似性值定义为s(m_i,m_j),计算方法如公式所示:s(m_i,m_j)=1-\frac{levenshtein(m_i,m_j)}{len(m_i)+len(m_j)}其中len(m_i)表示m_i的长度,len(m_j)表示m_j的长度,levenshtein(m_i,m_j)是指两个miRNA序列的编辑距离,表示序列m_i和m_j之间,由一个转成另外一个所需要的最少编辑操作次数。对于miRNA序列has-mir-21(caacaccagucgaugggcugu)和has-mir-155(cuccuacauauuagcgcauuaaca),其中len(has-mir-21)=21,len(has-mir-155)=22,两个序列的编辑距离levenshtein为19,其序列相似性值为1-\frac{19}{21+22}=0.5581。通过这种方式,可以计算出所有miRNA之间的序列相似性,构建miRNA序列相似性矩阵。该矩阵反映了miRNA之间基于序列的相似程度,相似序列的miRNA可能具有相似的功能,从而与相似的疾病相关联。疾病语义相似性矩阵的计算借助医学主题词(MeSH)数据库,每种疾病在MeSH中可以用有向无环图(DAG)来表示。以疾病d_i为例,其在DAG中的语义值计算如下:首先,计算疾病d_k对d_i的语义贡献值,随着疾病d_k到d_i的距离增加,语义贡献因子会降低。假设疾病d_i的DAG中节点集合为T_{d_i},边集合为E_{d_i},对于节点t\inT_{d_i},其对d_i的语义贡献值SC(t,d_i)可以通过以下公式计算:SC(t,d_i)=\begin{cases}1,&\text{if}t=d_i\\\max_{t'\inchildren(t)}\{\delta\cdotSC(t',d_i)\},&\text{if}t\neqd_i\end{cases}其中\delta是语义贡献因子,通常设置为0.5,children(t)表示节点t的子节点集合。然后,通过公式SV(d_i)=\sum_{t\inT_{d_i}}SC(t,d_i)计算疾病d_i的语义值。最后,通过公式sim(d_i,d_j)=\frac{\sum_{t\inT_{d_i}\capT_{d_j}}SC(t,d_i)+SC(t,d_j)}{SV(d_i)+SV(d_j)}计算疾病d_i和d_j之间的语义相似度,从而构建疾病语义相似性矩阵。该矩阵从语义层面反映了疾病之间的相似关系,对于挖掘疾病之间潜在的关联以及预测miRNA与疾病的关联具有重要意义。高斯相互作用属性核相似矩阵的计算基于功能相似的miRNA与相似的疾病之间具有关联关系的假设。构建miRNA-疾病关联关系的关联矩阵A,A的行数为miRNA的数量,列数为疾病的数量,若miRNAm_i和疾病d_j存在关联关系,则A(m_i,d_j)=1,否则A(m_i,d_j)=0。对于miRNAm_i,它的IP(m_i)值定义为关联矩阵A的第i行,通过公式km(m_i,m_j)=\exp(-\gamma_m||IP(m_i)-IP(m_j)||^2)计算每一对miRNAm_i和m_j之间的高斯相互作用属性核相似性,其中\gamma_m用于控制高斯相互作用属性核相似性的频宽。类似地,对于疾病d_i,它的IP(d_i)值定义为关联矩阵A的第i列,通过公式kd(d_i,d_j)=\exp(-\gamma_d||IP(d_i)-IP(d_j)||^2)计算每一对疾病d_i和d_j之间的高斯相互作用属性核相似性,其中\gamma_d用于控制频宽。这样可以分别构建出miRNA的高斯相互作用属性核相似矩阵KM和疾病的高斯相互作用属性核相似矩阵KD。高斯相互作用属性核相似矩阵能够从整体上衡量miRNA与疾病之间的关联模式相似性,为发现潜在的miRNA-疾病关联关系提供了重要线索。这些相似性矩阵在构建图数据结构中起着关键作用。将miRNA和疾病视为图中的节点,相似性矩阵中的元素作为边的权重,构建出miRNA-疾病关联图。在这个图中,节点之间的边权重反映了miRNA与疾病之间的相似程度或关联强度。通过对图结构的分析和处理,可以挖掘出miRNA与疾病之间潜在的关联关系,为后续基于混合邻域图卷积的预测模型提供了丰富的信息。4.2构建miRNA-疾病关联图4.2.1图的节点和边定义在构建miRNA-疾病关联图时,将miRNA和疾病作为图的节点,它们之间的关联关系和相似性作为边。对于miRNA节点集合M=\{m_1,m_2,\cdots,m_m\}和疾病节点集合D=\{d_1,d_2,\cdots,d_n\},若miRNAm_i与疾病d_j存在已知的关联关系,则在图中从节点m_i到节点d_j存在一条边,记为e_{ij},且边的权重w_{ij}=1;若不存在已知关联关系,则w_{ij}=0。这种基于已知关联关系构建的边,直接反映了miRNA与疾病之间已被实验验证的联系。在人类微小RNA疾病数据库(HMDD)中,若有实验证明miR-21与乳腺癌存在关联,那么在关联图中,miR-21节点与乳腺癌节点之间就会有一条权重为1的边。为了挖掘潜在的miRNA-疾病关联关系,还考虑了miRNA之间的相似性和疾病之间的相似性作为边。miRNA之间的相似性边权重基于前文计算的miRNA序列相似性矩阵、高斯相互作用属性核相似矩阵等进行确定。对于miRNAm_i和m_j,其序列相似性值为s(m_i,m_j),高斯相互作用属性核相似性值为km(m_i,m_j),通过一定的融合策略(如加权平均)确定它们之间相似性边的权重w_{m_{ij}},公式如下:w_{m_{ij}}=\alpha\cdots(m_i,m_j)+(1-\alpha)\cdotkm(m_i,m_j)其中\alpha是权重系数,取值范围为[0,1],可通过实验或交叉验证确定其最优值。通过这种方式,相似性较高的miRNA节点之间会有较强的边连接,反映了它们在功能和作用机制上的相似性。疾病之间的相似性边权重则依据疾病语义相似性矩阵和高斯相互作用属性核相似矩阵来确定。对于疾病d_i和d_j,其语义相似性值为sim(d_i,d_j),高斯相互作用属性核相似性值为kd(d_i,d_j),同样通过融合策略确定相似性边的权重w_{d_{ij}},公式为:w_{d_{ij}}=\beta\cdotsim(d_i,d_j)+(1-\beta)\cdotkd(d_i,d_j)其中\beta是权重系数,取值范围为[0,1]。通过这样的边权重设置,语义相似或具有相似关联模式的疾病节点之间会有更紧密的连接。在分析心血管疾病和代谢性疾病时,若它们在语义上有一定的关联,且在与miRNA的关联模式上也有相似之处,那么它们在关联图中的节点之间就会有较强的边连接。4.2.2图的特征表示为了使混合邻域图卷积模型能够有效处理miRNA-疾病关联图,需要将miRNA和疾病的各种特征映射到图节点上,作为节点的初始特征表示。对于miRNA节点,其特征包括序列特征和功能特征等。序列特征通过将miRNA的核苷酸序列进行独热编码表示。将miRNA序列中的每个核苷酸(A、U、C、G)分别编码为一个4维向量,如A编码为[1,0,0,0],U编码为[0,1,0,0],C编码为[0,0,1,0],G编码为[0,0,0,1]。对于长度为l的miRNA序列,其独热编码后的特征向量长度为4\timesl。通过这种方式,将miRNA的序列信息转化为适合模型处理的数值特征。功能特征则通过与miRNA相关的生物学功能注释信息来表示。从相关数据库(如GO数据库)获取miRNA参与的生物学过程、分子功能和细胞组成等注释信息。将这些注释信息进行编码,如采用one-hot编码方式,对于每个注释类别,若miRNA属于该类别,则对应位置为1,否则为0。若某个miRNA被注释为参与细胞增殖调控和信号转导两个生物学过程,在编码后的特征向量中,对应细胞增殖调控和信号转导的位置为1,其他位置为0。将序列特征和功能特征进行拼接,得到miRNA节点的初始特征向量h_m。疾病节点的特征包括语义特征和临床特征等。语义特征利用疾病在医学主题词(MeSH)数据库中的有向无环图(DAG)表示进行提取。如前文计算疾病语义相似性时所述,通过分析疾病在DAG中的位置、祖先节点和边的关系等信息,得到疾病的语义值。将这些语义值作为疾病节点的语义特征。对于疾病d_i,其语义特征向量可以由DAG中各节点对其语义贡献值组成。临床特征则包括疾病的发病率、死亡率、症状表现等信息。将这些临床特征进行数值化处理,发病率和死亡率可以直接作为数值特征,症状表现可以通过编码转化为数值特征。将语义特征和临床特征进行拼接,得到疾病节点的初始特征向量h_d。通过将miRNA和疾病的这些特征映射到图节点上,为混合邻域图卷积模型提供了丰富的初始信息,使得模型能够从这些特征出发,通过图卷积操作学习到miRNA与疾病之间潜在的关联关系。在模型训练过程中,节点的特征会随着图卷积操作不断更新和优化,从而更好地捕捉图中的结构和关联信息。4.3混合邻域图卷积模型应用于关联预测4.3.1模型输入与输出经过数据预处理和图构建后,将得到的miRNA-疾病关联图作为混合邻域图卷积模型的输入。在这个图中,节点包含了miRNA和疾病,边则体现了它们之间的关联关系和相似性。节点的特征向量涵盖了miRNA的序列特征、功能特征,以及疾病的语义特征、临床特征等多方面信息。这些丰富的特征信息为模型提供了全面了解miRNA和疾病特性的基础。在输入模型时,节点特征矩阵X的维度为(N,F),其中N表示节点的总数(包括miRNA节点和疾病节点),F表示每个节点的特征维度。在一个包含1000个miRNA节点和500个疾病节点的关联图中,若每个节点的特征维度为100,则节点特征矩阵X的维度为(1500,100)。邻接矩阵A的维度为(N,N),用于描述节点之间的连接关系。若节点i和节点j之间存在边连接,则A_{ij}的值为边的权重;若不存在边连接,则A_{ij}=0。在miRNA-疾病关联图中,若miR-21与乳腺癌节点之间存在已知关联关系,则A_{miR-21,乳腺癌}=1;若miR-21与心脏病节点之间不存在已知关联关系,则A_{miR-21,心脏病}=0。模型的输出是一个维度为(M,D)的概率矩阵P,其中M表示miRNA的数量,D表示疾病的数量。矩阵中的每个元素P_{ij}代表miRNAi与疾病j之间存在关联的概率。通过模型的计算和分析,对于每个miRNA-疾病对,都能得到一个介于0到1之间的关联概率值。当P_{ij}的值接近1时,表示miRNAi与疾病j之间存在关联的可能性较大;当P_{ij}的值接近0时,则表示它们之间存在关联的可能性较小。在实际应用中,可以设定一个阈值\theta,当P_{ij}\gt\theta时,判定miRNAi与疾病j之间存在潜在关联。若设定阈值\theta=0.5,当计算得到的P_{miR-122,肝癌}=0.7时,就可以认为miR-122与肝癌之间存在潜在关联,这为后续的实验研究提供了有价值的线索。4.3.2预测过程与结果分析在预测过程中,模型首先进行前向传播。输入的miRNA-疾病关联图数据依次经过模型的各层,包括输入层、卷积层、池化层和全连接层。在输入层,节点特征矩阵X和邻接矩阵A被输入到模型中。在卷积层,采用混合邻域图卷积操作,结合节点级邻域感知和跳级邻域感知。节点级邻域感知通过注意力机制,对节点的直接邻居信息进行选择性聚合。对于某个miRNA节点,注意力机制会自动识别出与该miRNA功能密切相关的疾病邻居节点,并赋予它们较高的权重,然后将这些邻居节点的特征与该miRNA节点的特征进行融合,得到更新后的miRNA节点特征。跳级邻域感知则通过将所有卷积层的输出(跳级表示)拼接在一起,并利用多层感知机制隐式计算它们的重要性,使节点能够获取更远距离邻居的信息。通过这种方式,卷积层能够充分挖掘图数据中的局部和全局信息,得到更丰富的节点特征表示。池化层对卷积层输出的特征进行降维处理,采用基于注意力机制的池化策略。根据节点的重要性对节点特征进行加权平均,保留重要的特征信息,减少计算量。对于每个子图区域,基于注意力机制的池化策略会自动识别出该区域内的关键节点,并根据这些关键节点的特征进行池化操作,使得池化后的特征能够更好地反映该区域的重要信息。全连接层则将池化层输出的特征进行进一步的整合和分类,通过多个全连接神经元对输入特征进行加权求和,并经过激活函数(如Softmax函数)的处理,得到每个miRNA与不同疾病关联的概率,即模型的输出概率矩阵P。在反向传播过程中,模型根据预测结果与真实标签之间的差异(通过损失函数衡量,如前文所述的二元交叉熵损失函数),计算梯度,并利用优化器(如Adam优化器)更新模型的参数。通过不断调整模型的权重和偏置,使模型的预测结果逐渐接近真实标签,从而提高模型的预测准确性。在训练过程中,会不断重复前向传播和反向传播的步骤,直到模型收敛,即损失函数不再显著下降。为了评估模型的性能,采用了准确性、召回率、F1值等评价指标。准确性(Accuracy)表示预测正确的样本数占总样本数的比例,计算公式为:Accuracy=\frac{TP+TN}{TP+TN+FP+FN}其中TP表示真正例,即预测为正样本且实际为正样本的数量;TN表示真负例,即预测为负样本且实际为负样本的数量;FP表示假正例,即预测为正样本但实际为负样本的数量;FN表示假负例,即预测为负样本但实际为正样本的数量。召回率(Recall)表示实际为正样本且被正确预测为正样本的数量占

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论