版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于异质性网络链路预测算法的非编码RNA-疾病相关性深度解析与精准预测研究一、绪论1.1研究背景与意义生命科学领域中,非编码RNA(ncRNA)的研究近年来备受关注,成为极具活力的前沿研究方向。ncRNA是一类不编码蛋白质的RNA分子,却在基因表达调控、细胞分化、发育、代谢等众多生物学过程中扮演关键角色,与人类疾病的发生、发展也有着紧密联系。据研究,人类基因组转录产物中仅有不到2%是编码蛋白质的mRNA,其余大部分为非编码RNA,这表明非编码RNA在生命活动调控中有着不可或缺的地位。在疾病研究方面,ncRNA-疾病相关性研究对理解疾病发病机制、疾病诊断、治疗及预后评估都有着极为重要的意义。大量研究表明,ncRNA中的微小RNA(miRNA)、长链非编码RNA(lncRNA)、环状RNA(circRNA)等在多种疾病进程中发挥关键作用。如在肿瘤领域,许多miRNA的异常表达与肿瘤细胞的增殖、侵袭和转移密切相关,一些lncRNA也被发现参与肿瘤的发生发展,通过调控相关基因的表达影响肿瘤的进程。在心血管疾病方面,某些miRNA在心脏发育、心肌肥厚和心肌缺血等过程中发挥重要调控作用,如miR-1、miR-133等在心血管疾病患者中的表达水平会发生明显变化,对心血管细胞的增殖、分化和凋亡产生影响,进而参与心血管疾病的发生发展。在神经系统疾病中,miRNA在神经系统发育和维持中起着重要作用,亨廷顿病、阿尔茨海默病等神经退行性疾病与特定miRNA的异常表达有关,lncRNA也在神经元死亡、突触可塑性等神经过程的调控中发挥作用。此外,非编码RNA还在自身免疫性疾病、感染性疾病、代谢性疾病、炎症性疾病等多种疾病中发挥重要作用。深入研究ncRNA-疾病的相关性,能够从分子层面揭示疾病的发病机制,为疾病的早期诊断提供更精准的生物标志物,为疾病治疗开辟新的靶点和策略,极大地推动现代医学的发展,改善人类健康状况。随着高通量实验技术的快速发展,ncRNA-疾病相关性数据得到快速积累,并且建立了一些可靠性高的公开数据库,如LncRNADisease数据库手动收录各种经实验验证的与lncRNA相互作用信息,共收录205959个lncRNA-疾病关联;Lnc2Cancer从文献中收集整理与人类lncRNA相关癌症信息,记录了4989条1614个人类lncRNAs和165个人类癌症亚型之间的关联。这些数据库不仅提供了实验支持的ncRNA-疾病关系的系统概述,还涉及相关的生物学信息,为ncRNA-疾病相关性研究提供了丰富的数据资源,极大地推动了该领域的研究进展。在这样的数据基础上,设计高效而精确的计算方法预测潜在的ncRNA-疾病相关性成为研究热点。通过计算方法能够充分挖掘现有数据中的潜在信息,为后续实验提供有价值的指导,显著降低生物实验所需成本,加快研究进程。然而,现有的大部分计算方法仅基于已有数据库中ncRNA-疾病相互作用信息构建ncRNA-疾病关联网络,却没有考虑到生物网络本身的异质性特征,忽视了ncRNA-疾病关联网络中相关的生物信息。生物网络是一个复杂的系统,包含多种类型的生物分子和相互作用,具有异质性,即不同类型的节点和边代表不同的生物意义和功能。充分考虑生物网络的异质性,能够更全面、准确地描述ncRNA-疾病关联关系,提高预测的准确性和可靠性。异质性网络链路预测算法在处理包含多种类型节点和边的复杂网络时具有独特优势,能够有效挖掘网络中不同类型节点之间的潜在关系。将其应用于ncRNA-疾病相关性预测研究中,有望解决现有方法的不足。通过构建包含ncRNA、疾病以及其他相关生物分子(如基因、靶标等)的异质性网络,并利用链路预测算法对网络中未连接的ncRNA-疾病节点对之间的潜在关联进行预测,可以充分整合多源生物信息,全面考虑生物网络的异质性,从而更准确地预测ncRNA-疾病相关性,为ncRNA-疾病研究提供更有力的工具和方法,促进对疾病发病机制的深入理解和疾病防治策略的发展。1.2研究现状在非编码RNA与疾病关联的研究中,实验鉴定技术和基于计算的预测方法都取得了一定进展。实验鉴定技术是发现ncRNA-疾病关联的直接手段,主要涵盖了高通量测序技术、RNA干扰技术、荧光原位杂交技术和蛋白质-RNA相互作用技术等。高通量测序技术能全面、系统地分析生物样本中的ncRNA表达谱,发现潜在的与疾病相关的ncRNA。通过对肿瘤组织和正常组织进行高通量测序,可筛选出在肿瘤组织中差异表达的ncRNA,为肿瘤的诊断和治疗提供新的生物标志物和靶点。RNA干扰技术则通过抑制特定ncRNA的表达,观察细胞或生物体的表型变化,从而验证ncRNA与疾病的关联及功能。在研究某种lncRNA与肝癌的关系时,利用RNA干扰技术降低肝癌细胞中该lncRNA的表达,若发现肝癌细胞的增殖、迁移等能力受到抑制,就能证明该lncRNA在肝癌发生发展中起到重要作用。荧光原位杂交技术可对ncRNA进行定位和定量分析,直观呈现其在细胞内的分布情况,有助于了解ncRNA在疾病发生过程中的作用机制。蛋白质-RNA相互作用技术用于鉴定与ncRNA相互作用的蛋白质,明确ncRNA在细胞内的作用通路和分子机制。如通过免疫共沉淀技术结合质谱分析,可鉴定出与特定miRNA相互作用的蛋白质,进而揭示miRNA调控基因表达的具体途径。这些实验技术各有优势,为ncRNA-疾病关联的研究提供了直接证据,极大地推动了该领域的发展。但它们也存在局限性,像高通量测序技术成本高、数据分析复杂;RNA干扰技术可能存在脱靶效应;荧光原位杂交技术灵敏度有限;蛋白质-RNA相互作用技术操作繁琐、假阳性率高等。随着ncRNA-疾病相关性数据的不断积累,基于计算的预测方法成为研究热点。基于计算的ncRNA-疾病相关性预测工作可分为基于传统机器学习的方法、基于深度学习的方法和基于网络分析的方法。基于传统机器学习的方法较早应用于ncRNA-疾病关联分析,通过矩阵运算、网络传播和分类器算法实现特征提取和二分类预测。如Chen等人提出的基于朴素贝叶斯分类器的方法,利用已知的miRNA-疾病关联数据和miRNA、疾病的相似性特征构建分类模型,预测潜在的miRNA-疾病关联。该方法简单直观,但对特征工程依赖较大,难以处理复杂的数据特征和大规模数据。基于深度学习的方法具有强大的非线性拟合能力,能端到端地实现低维特征嵌入表示和分类预测,提高模型的预测准确性。其在结构上更加灵活,可有效处理复杂的数据结构和特征。如Zheng等人提出的基于卷积神经网络(CNN)和循环神经网络(RNN)的模型,对miRNA和疾病的序列数据进行特征提取和分类预测。然而,现有基于深度学习的方法在处理异质网络时存在不足,如在特征提取阶段,当前编码方式仅提取预测目标之间的两跳信息,忽略了网络中潜在的拓扑关系,未能表示预测目标之间的多跳通路信息;在模型阶段,现有模型多采用多层感知机(MLP)、卷积神经网络(CNN)与图神经网络(GNN)相结合的方式,但存在模型结构复杂、混淆特征语义的问题,导致预测精度仍有待进一步提高。基于网络分析的方法则从生物网络的角度出发,构建ncRNA-疾病关联网络,利用网络拓扑结构和节点属性信息预测潜在的关联关系。这类方法能有效整合多源生物信息,考虑生物网络的复杂性和异质性。如基于异质性网络链路预测算法的方法,通过构建包含ncRNA、疾病以及其他相关生物分子(如基因、靶标等)的异质性网络,利用链路预测算法对网络中未连接的ncRNA-疾病节点对之间的潜在关联进行预测。丁亮等人构建了“disease-miRNA-target”异质性网络,并提出DMTHNDM算法用于潜在的miRNA-疾病相关性预测,该网络中靶基因作为miRNA-疾病相关性的协同预测标签,丰富了网络拓扑结构,提升了预测性能;还构建了“lncRNA-disease-gene”异质性网络,并提出TPGLDA算法预测潜在的lncRNA-疾病相关性,通过整合lncRNA表达谱信息与疾病的表型信息,解决了网络稀疏、孤立节点较多的问题,显著提升了性能。但该类方法也面临一些挑战,如生物网络的构建和优化、多源数据的融合和质量控制等。1.3研究内容与方法本研究聚焦于非编码RNA-疾病相关性预测,核心是运用异质性网络链路预测算法,充分挖掘生物网络的异质性信息,提高预测的准确性和可靠性。具体内容涵盖以下几个方面:数据收集与预处理:广泛收集非编码RNA(重点关注miRNA和lncRNA)、疾病以及相关生物分子(如靶基因、蛋白质等)的相互作用数据,这些数据来源包括权威的公共数据库(如LncRNADisease、Lnc2Cancer、miRBase等)和已发表的相关文献。对收集到的数据进行严格清洗,去除重复、错误和低质量的数据,以确保数据的准确性和可靠性。同时,对数据进行标准化处理,使不同来源的数据具有统一的格式和标准,便于后续分析。针对miRNA-疾病相关性预测,对miRNA-疾病相互作用数据和miRNA-靶基因相互作用数据进行整合与处理;对于lncRNA-疾病相关性预测,整合lncRNA表达谱数据、疾病表型特征数据、lncRNA-疾病相互作用数据以及基因-疾病相互作用数据,并进行相应处理,包括数据归一化、缺失值填补等。异质性网络构建:基于预处理后的数据,构建包含多种类型节点(非编码RNA、疾病、靶基因、蛋白质等)和边(不同类型节点之间的相互作用关系)的异质性网络。根据不同类型节点和边的生物学意义,为网络中的节点和边赋予相应的属性和权重,如根据miRNA-靶基因相互作用的强度为边赋予权重,根据疾病的严重程度为疾病节点赋予属性等,以更准确地反映生物网络的特征。在构建异质性网络时,充分考虑网络的连通性和完整性,确保网络能够全面、准确地描述非编码RNA-疾病关联关系及其相关的生物信息。链路预测算法设计与应用:深入研究现有的链路预测算法,如拉普拉斯正则化最小二乘法、重启动随机游走、基于二分网络的资源传播算法等,分析它们在处理异质性网络时的优势和局限性。结合非编码RNA-疾病相关性预测的特点和需求,对现有算法进行改进和优化,如改进资源传播算法的传播规则,使其更好地适应异质性网络中不同类型节点和边的特征;引入注意力机制,使算法能够更关注与非编码RNA-疾病关联密切的节点和边。将优化后的链路预测算法应用于构建的异质性网络,预测潜在的非编码RNA-疾病关联关系,得到预测结果矩阵,矩阵中的元素表示非编码RNA-疾病节点对之间存在关联的可能性。模型性能评估与分析:采用留一法交叉验证、五折交叉验证等方法对预测模型的性能进行评估,通过多次划分数据集进行训练和测试,确保评估结果的可靠性。选择准确率、召回率、F1值、受试者工作特征曲线(ROC)和曲线下面积(AUC)等作为性能评估指标,全面、客观地评价模型的预测性能。将本研究提出的基于异质性网络链路预测算法的模型与其他现有的非编码RNA-疾病相关性预测模型(如基于传统机器学习的模型、基于深度学习的模型)进行性能比较,分析本模型在预测准确性、稳定性、泛化能力等方面的优势和不足。对预测结果进行深入分析,结合生物学知识和实际应用需求,探讨预测结果的生物学意义和潜在应用价值,如筛选出与特定疾病高度相关的非编码RNA,为疾病的诊断、治疗和药物研发提供潜在的生物标志物和靶点。结果验证与应用:通过查阅相关文献、参考已有的实验研究结果,对预测得到的潜在非编码RNA-疾病关联关系进行初步验证,判断预测结果的合理性和可靠性。与实验团队合作,设计并开展相关实验,如荧光定量PCR、RNA干扰实验、细胞功能实验等,对部分预测结果进行实验验证,进一步确认预测结果的准确性。将预测结果应用于实际的疾病研究中,如帮助研究人员深入理解疾病的发病机制,为疾病的早期诊断、个性化治疗和预后评估提供新的思路和方法;为药物研发提供潜在的作用靶点,加速新药的研发进程。在研究方法上,本研究综合运用生物信息学、数据挖掘、机器学习和统计学等多学科方法,从数据收集与处理、网络构建、算法设计与应用、模型评估与分析到结果验证与应用,形成一个完整的研究体系。在数据处理和算法设计过程中,注重生物学背景知识的融入,确保研究结果具有生物学意义和实际应用价值。同时,通过与实验研究的紧密结合,对预测结果进行验证和进一步探索,提高研究的可靠性和可信度。1.4研究创新点本研究在非编码RNA-疾病相关性预测领域,通过多方面创新,致力于突破现有研究局限,为该领域提供更精准、高效的预测方法和深入的生物学洞察。多源数据整合创新:本研究在数据收集阶段,突破了传统研究仅依赖单一或少数数据源的局限,广泛整合了多类型、多来源的数据。在miRNA-疾病相关性预测中,不仅收集了权威数据库及文献中的miRNA-疾病相互作用数据,还纳入了大量miRNA-靶基因相互作用数据;在lncRNA-疾病相关性预测时,整合了lncRNA表达谱数据、疾病表型特征数据、lncRNA-疾病相互作用数据以及基因-疾病相互作用数据。这种多源数据的全面整合,为构建更丰富、准确的异质性网络奠定了坚实基础,能更全面地反映非编码RNA与疾病之间复杂的关联关系及相关生物信息。异质性网络构建创新:在网络构建方面,充分考虑生物网络的异质性特征,构建了包含多种类型节点(非编码RNA、疾病、靶基因、蛋白质等)和边(不同类型节点之间的相互作用关系)的异质性网络。与传统的简单网络构建方式不同,本研究根据不同类型节点和边的生物学意义,为网络中的节点和边赋予相应的属性和权重,如依据miRNA-靶基因相互作用的强度为边赋予权重,根据疾病的严重程度为疾病节点赋予属性等。这种创新的网络构建方式,能够更真实、细致地描述生物网络的特征,从而提高预测的准确性和可靠性。链路预测算法创新:深入研究现有链路预测算法,针对非编码RNA-疾病相关性预测的特点和需求,对算法进行了创新性改进和优化。如改进资源传播算法的传播规则,使其更好地适应异质性网络中不同类型节点和边的特征;引入注意力机制,使算法能够自动学习并更关注与非编码RNA-疾病关联密切的节点和边,从而有效挖掘网络中潜在的关联关系。相较于传统算法,改进后的算法在处理复杂的异质性网络时,能够更准确地预测潜在的非编码RNA-疾病关联关系。预测模型构建创新:在预测模型构建上,将改进后的链路预测算法与异质性网络有机结合,形成了全新的预测模型。该模型不仅充分利用了异质性网络中丰富的生物信息,还通过优化的算法实现了对潜在关联关系的高效预测。与现有的基于传统机器学习和深度学习的预测模型相比,本研究构建的模型在结构和算法上都具有独特优势,能够更好地处理复杂的数据结构和特征,有效避免了传统模型中存在的特征提取不全面、模型结构复杂、混淆特征语义等问题,从而显著提高了预测精度和稳定性。二、非编码RNA与疾病相关性的理论基础2.1非编码RNA概述非编码RNA(ncRNA)是一类不编码蛋白质的RNA分子,在生命活动中发挥着不可或缺的作用。其广泛存在于真核生物和原核生物中,种类繁多,根据长度、结构和功能的不同,可细分为多种类型,包括转运RNA(tRNA)、核糖体RNA(rRNA)、小核RNA(snRNA)、核仁小RNA(snoRNA)、微小RNA(miRNA)、长链非编码RNA(lncRNA)、环状RNA(circRNA)等。转运RNA(tRNA)含有较多的修饰成分,具有独特的三叶草型二级结构以及“L”型三级结构,在蛋白质合成过程中,负责特异性读取mRNA中包含的遗传信息,并将信息转化成相应氨基酸后连接到多肽链中,是遗传信息从mRNA传递到蛋白质的关键桥梁。核糖体RNA(rRNA)是细胞中最为丰富的RNA,是核糖体的主要组成部分,直接参与核糖体中蛋白质的合成过程,在识别、选择tRNA以及催化肽键形成等环节中发挥主动作用,对于蛋白质的正确合成至关重要。小核RNA(snRNA)常与蛋白因子结合形成小核核糖蛋白颗粒(snRNPs),主要参与mRNA的剪接和成熟过程,确保mRNA前体能够准确地去除内含子,连接外显子,形成成熟的mRNA,为后续的翻译过程提供正确的模板。核仁小RNA(snoRNA)最早在核仁中被发现,分为C/DboxsnoRNA和H/ACAboxsnoRNA两类,主要对rRNA进行修饰,包括甲基化修饰和甲尿嘧啶化修饰,这些修饰能够影响rRNA的结构和功能,进而影响核糖体的组装和蛋白质合成效率。微小RNA(miRNA)是一类短的内源性非编码RNA,长度约为21-23个核苷酸。其通过与靶标mRNA的3'端非翻译区(3'-UTR)特异性结合,引发靶标mRNA分子的降解或翻译抑制,在转录后水平调控基因表达。miRNA参与多种生物体的调节机制,在细胞分化和发育、新陈代谢、细胞凋亡等过程中发挥重要作用。在细胞分化过程中,特定的miRNA能够调控相关基因的表达,引导细胞向特定的方向分化;在新陈代谢方面,miRNA可以调节代谢相关基因的表达,影响物质的代谢过程。长链非编码RNA(lncRNA)长度超过200个核苷酸,具有保守的二级结构。它参与多种生物过程,包括多能干细胞的重编程、致癌进展和细胞周期调控等。lncRNA可通过与DNA、RNA和蛋白质相互作用,调节染色质结构和功能以及邻近和远处基因的转录。在多能干细胞重编程过程中,某些lncRNA能够通过与相关转录因子结合,调控基因表达网络,促进干细胞的重编程;在肿瘤发生发展过程中,lncRNA也发挥着重要作用,一些lncRNA可以作为致癌基因或抑癌基因,参与肿瘤细胞的增殖、迁移和侵袭等过程。环状RNA(circRNA)形成共价闭合的连续循环结构,3'和5'末端连接在一起。circRNA可作为转录调节因子、microRNA海绵和蛋白质支架发挥生物学功能,参与基因转录调控、miRNA的调控以及蛋白质活性的调节等。作为microRNA海绵,circRNA可以通过与miRNA结合,抑制miRNA对其靶基因的调控作用,从而间接影响基因表达;circRNA还可以与蛋白质相互作用,影响蛋白质的功能和定位,参与细胞内的信号传导等过程。非编码RNA在生物过程中扮演着极为重要的角色,对基因表达调控起着关键作用。它们可以通过多种方式参与基因表达的调控,在转录前,一些非编码RNA能够与染色质修饰蛋白结合,参与染色质的重塑和基因沉默等过程,影响染色质的结构和功能,从而调控基因的表达。在转录过程中,部分非编码RNA可以作为转录调节因子,与DNA或转录相关的蛋白质相互作用,促进或抑制基因的转录。在转录后,如miRNA通过与mRNA结合,影响其稳定性和翻译效率,实现对基因表达的精细调控。非编码RNA还在细胞分化与发育过程中发挥关键作用。在胚胎发育过程中,不同类型的非编码RNA在特定的时间和空间表达,调控细胞的分化和组织器官的形成。一些lncRNA在胚胎干细胞向不同胚层分化过程中,通过调控相关基因的表达,决定细胞的分化方向。在神经系统发育中,miRNA参与神经元的分化、迁移和突触的形成等过程,对神经系统的正常发育至关重要。此外,非编码RNA与疾病的发生发展密切相关。大量研究表明,非编码RNA的异常表达或功能异常与多种人类疾病相关,包括癌症、神经系统疾病、心血管疾病、代谢性疾病等。在癌症中,许多miRNA和lncRNA的表达异常,它们可以作为致癌基因或抑癌基因,参与肿瘤细胞的增殖、凋亡、侵袭和转移等过程。在神经系统疾病中,如阿尔茨海默病、帕金森病等神经退行性疾病,某些非编码RNA的表达变化与疾病的发生发展密切相关,可能参与神经元的死亡、突触可塑性的改变等病理过程。在心血管疾病中,非编码RNA通过调节靶基因的表达,影响心血管细胞的增殖、分化和凋亡,进而参与心血管疾病的发生发展。2.2非编码RNA与疾病关联的生物学机制非编码RNA(ncRNA)与疾病之间存在着紧密而复杂的关联,其在疾病发生发展过程中发挥作用的生物学机制是多方面且深入的。在肿瘤领域,微小RNA(miRNA)和长链非编码RNA(lncRNA)的异常表达极为常见,且与肿瘤细胞的多种恶性行为密切相关。以肺癌为例,研究发现miR-125b在肺癌组织中表达显著下调,它通过靶向调控癌基因Bcl-2,抑制其表达,进而诱导肺癌细胞凋亡,发挥抑癌作用。当miR-125b表达降低时,对Bcl-2的抑制作用减弱,Bcl-2表达升高,使得肺癌细胞凋亡受阻,促进肿瘤的发生发展。在肝癌中,lncRNAHOTAIR表达上调,它可与多梳蛋白抑制复合体2(PRC2)结合,招募PRC2到特定基因位点,通过组蛋白修饰抑制基因表达。HOTAIR通过这种方式调控多个与肿瘤侵袭转移相关基因的表达,如抑制E-cadherin的表达,促进N-cadherin和Vimentin的表达,从而促进肝癌细胞的上皮-间质转化(EMT)过程,增强肝癌细胞的侵袭和转移能力。在心血管疾病方面,非编码RNA也参与了疾病发生发展的多个环节。以动脉粥样硬化为例,miR-145在血管平滑肌细胞(VSMCs)中高表达,它可通过靶向调控转录因子KLF5和c-Myc,抑制VSMCs的增殖和迁移,维持血管稳态。在动脉粥样硬化的发生发展过程中,炎症反应起着关键作用,而miR-146a可通过靶向调控NF-κB信号通路中的关键分子,如肿瘤坏死因子受体相关因子6(TRAF6)和白细胞介素-1受体相关激酶1(IRAK1),抑制炎症因子的表达和释放,减轻炎症反应,从而对动脉粥样硬化的发展起到抑制作用。此外,lncRNAMALAT1在动脉粥样硬化斑块中表达上调,它可通过调节VSMCs的表型转换,促进VSMCs从收缩型向合成型转变,合成型VSMCs增殖和迁移能力增强,分泌细胞外基质的能力下降,导致动脉粥样硬化斑块的不稳定。在神经系统疾病中,非编码RNA同样扮演着重要角色。以阿尔茨海默病(AD)为例,研究表明miR-128在AD患者大脑中表达下调,它可通过靶向调控BACE1,抑制其表达,从而减少β-淀粉样蛋白(Aβ)的生成。BACE1是Aβ生成的关键酶,miR-128表达降低时,对BACE1的抑制作用减弱,BACE1表达升高,Aβ生成增加,Aβ在大脑中沉积形成老年斑,引发神经炎症和神经元损伤,导致AD的发生发展。此外,lncRNABC200在AD患者大脑中表达上调,它可与多种蛋白质相互作用,如与RNA结合蛋白HuR结合,影响mRNA的稳定性和翻译过程,从而参与AD的病理过程。还有研究发现,环状RNA(circRNA)在AD中也发挥作用,如circRNA_0001649在AD患者大脑中表达下调,它可通过吸附miR-129-5p,调节其下游靶基因的表达,参与AD的发病机制。在自身免疫性疾病中,如系统性红斑狼疮(SLE),miR-148a在患者外周血单个核细胞(PBMCs)中表达下调,它可通过靶向调控DNA甲基转移酶1(DNMT1),影响DNA甲基化水平,导致免疫细胞功能异常,自身抗体产生增加,从而参与SLE的发病。在感染性疾病方面,以乙型肝炎病毒(HBV)感染为例,miR-122在肝脏中高表达,它可与HBV的基因组RNA结合,促进HBV的复制。而一些lncRNA也参与了HBV感染的过程,如lncRNAHULC在HBV感染的肝细胞中表达上调,它可通过调节细胞内的信号通路,促进肝细胞的增殖和存活,为HBV的复制提供有利环境。非编码RNA与疾病的关联机制是复杂多样的,涉及基因表达调控、细胞信号传导、细胞增殖与凋亡、炎症反应等多个生物学过程。深入研究这些机制,有助于揭示疾病的发病机制,为疾病的诊断、治疗和预防提供新的靶点和策略。2.3现有非编码RNA-疾病相关性研究成果随着生命科学研究的深入,非编码RNA-疾病相关性研究取得了丰硕成果,大量实验和计算研究揭示了众多非编码RNA与疾病之间的关联。在实验研究方面,通过高通量测序、RNA干扰、荧光原位杂交等技术,已鉴定出许多与疾病相关的非编码RNA。如在肿瘤领域,miR-21被发现是一种典型的致癌miRNA,在多种癌症(如乳腺癌、肺癌、肝癌等)中表达上调。它通过靶向多个抑癌基因(如PTEN、PDCD4等),抑制其表达,从而促进肿瘤细胞的增殖、迁移和侵袭。lncRNAH19在肝癌、胃癌、结直肠癌等多种肿瘤中也呈现高表达,它可通过与miR-675相互作用,调节其下游靶基因的表达,促进肿瘤细胞的生长和转移。在心血管疾病方面,miR-1在心肌梗死、心律失常等疾病中表达异常,它通过靶向调控与心肌细胞增殖、分化和凋亡相关的基因(如HDAC4、SRF等),影响心肌细胞的功能,参与心血管疾病的发生发展。lncRNAMALAT1在动脉粥样硬化、心肌肥厚等心血管疾病中也发挥重要作用,它可通过调节血管平滑肌细胞的增殖、迁移和表型转换,影响血管的生理病理过程。在神经系统疾病中,miR-124在阿尔茨海默病、帕金森病等神经退行性疾病中表达下调,它通过靶向调控与神经炎症、神经元凋亡相关的基因(如NF-κB、Bcl-2等),影响神经细胞的功能和存活。lncRNABC200在阿尔茨海默病患者大脑中表达上调,它可与多种蛋白质相互作用,干扰神经元的正常生理功能,参与疾病的病理进程。在计算研究方面,基于机器学习、深度学习和网络分析等方法,开发了一系列预测非编码RNA-疾病相关性的模型和算法。这些方法通过挖掘生物数据中的潜在信息,预测出许多潜在的非编码RNA-疾病关联关系,为实验研究提供了有价值的线索。如基于矩阵分解和网络传播的方法,通过对已知的非编码RNA-疾病关联数据和非编码RNA、疾病的相似性数据进行分析,预测潜在的关联关系。基于深度学习的方法,利用卷积神经网络、循环神经网络等模型,对非编码RNA和疾病的特征进行学习和分类,实现对潜在关联关系的预测。基于网络分析的方法,构建非编码RNA-疾病关联网络,利用网络拓扑结构和节点属性信息,预测网络中未连接节点对之间的潜在关联。尽管现有研究取得了显著进展,但仍存在一些问题和挑战。在数据层面,数据的质量和完整性有待提高,目前的非编码RNA-疾病相关性数据主要来源于实验验证和文献挖掘,存在数据不准确、不完整、不一致等问题。不同数据库之间的数据也存在差异,缺乏统一的标准和规范,这给数据的整合和分析带来了困难。数据的标注也存在主观性和不确定性,不同研究人员对同一数据的标注可能存在差异,影响了数据的可靠性和可用性。在方法层面,现有计算方法的准确性和可靠性仍需提升,许多方法在处理复杂的生物数据时,容易出现过拟合、欠拟合等问题,导致预测结果的准确性和稳定性较差。不同方法之间的性能差异较大,缺乏统一的评估标准和比较方法,难以判断哪种方法更适合非编码RNA-疾病相关性预测。此外,现有方法大多只考虑了单一类型的生物数据,如非编码RNA-疾病相互作用数据、非编码RNA表达谱数据等,没有充分整合多源生物信息,无法全面反映非编码RNA与疾病之间的复杂关联关系。在生物学机制层面,虽然已发现许多非编码RNA与疾病相关,但对其具体的作用机制仍了解有限。非编码RNA在细胞内的作用方式复杂多样,涉及与DNA、RNA和蛋白质的相互作用,以及对基因表达、信号传导等生物学过程的调控。目前,对于非编码RNA如何参与这些生物学过程,以及它们与疾病发生发展之间的因果关系,还需要进一步深入研究。此外,非编码RNA之间也存在复杂的相互作用,形成了庞大的调控网络,解析这个网络的结构和功能,对于理解非编码RNA-疾病相关性的生物学机制至关重要,但这也是当前研究的一大挑战。三、异质性网络链路预测算法原理3.1异质性网络的概念与特点异质性网络,又被称为异构网络,是一种由不同类型节点和多种类型边构成的复杂网络结构。与传统的同质性网络相比,异质性网络的节点和边具有多样化的属性和类型,能够更全面、真实地反映现实世界中各种实体之间复杂的关系。在生物信息学领域,异质性网络可以包含基因、蛋白质、疾病、非编码RNA等多种类型的节点,节点之间的边则可以表示基因与蛋白质的相互作用、蛋白质与疾病的关联、非编码RNA对基因的调控等多种关系。在社交网络中,异质性网络的节点可以包括用户、帖子、评论、点赞等,边则可以表示用户之间的关注关系、用户与帖子的发布关系、评论与帖子的关联关系等。异质性网络的首要特点在于其节点和边类型的多样性。这种多样性使得异质性网络能够容纳多种类型的数据和信息,实现多模态数据的融合和整合。在学术网络中,节点类型包括论文、作者、期刊、会议等,边类型则有作者发表论文、论文发表于期刊、论文在会议上展示等。这种丰富的节点和边类型能够全面地描述学术领域中的各种关系,为研究人员提供更广泛的信息来源。在电子商务网络中,节点可以是用户、商品、商家等,边可以表示用户购买商品、商家销售商品、用户对商品的评价等关系。通过这些不同类型的节点和边,电子商务平台能够深入分析用户的购买行为、商品的销售情况以及商家的运营状况,从而为用户提供更精准的推荐服务,为商家提供更有效的营销策略。异质性网络的节点和边还具有不同的属性。这些属性能够为网络中的节点和边赋予更丰富的语义信息,进一步增强网络的表达能力。在基因调控网络中,基因节点可以具有表达水平、功能注释等属性,边可以具有调控强度、调控方向等属性。通过这些属性,研究人员可以更深入地了解基因之间的调控关系,揭示基因在生物过程中的作用机制。在社交网络中,用户节点可以具有年龄、性别、职业等属性,边可以具有互动频率、互动时间等属性。这些属性能够帮助社交平台更好地了解用户的兴趣爱好、社交行为,从而优化平台的功能和服务。异质性网络中节点和边之间的关系往往表现为非线性。这种非线性关系增加了网络的复杂性,也为挖掘网络中的潜在信息带来了挑战。在疾病传播网络中,疾病的传播不仅受到直接接触关系的影响,还可能受到地理位置、人口密度、社交活动等多种因素的影响。这些因素之间相互作用,形成了复杂的非线性关系。在金融风险传播网络中,金融机构之间的风险传递不仅取决于它们之间的直接业务联系,还受到市场波动、政策变化、投资者情绪等多种因素的影响。这些非线性关系使得金融风险的预测和管理变得更加困难。异质性网络还具有较强的动态性。随着时间的推移,网络中的节点和边可能会发生变化,新的节点和边可能会加入,旧的节点和边可能会消失,节点和边的属性也可能会发生改变。在社交网络中,新用户不断注册加入,老用户可能会注销账号,用户之间的关注关系也会不断变化。在生物网络中,随着生物过程的进行,基因的表达水平会发生变化,蛋白质之间的相互作用也会动态调整。这种动态性要求在分析异质性网络时,需要考虑时间因素,采用动态的分析方法。3.2链路预测的基本原理与方法链路预测旨在基于网络中已有的节点和边信息,预测哪些节点对之间可能存在尚未观察到的边。在社交网络中,链路预测可用于预测用户之间未来可能建立的朋友关系;在生物网络中,可用于预测蛋白质之间潜在的相互作用关系;在学术网络中,能预测学者之间未来可能的合作关系。链路预测在多个领域都有着重要的应用价值,通过准确预测潜在的边,可以为相关领域的决策和研究提供有价值的参考。基于相似性的方法是链路预测中较为基础且常用的一类方法。这类方法假设节点之间的相似性越高,它们之间存在边的可能性就越大。共同邻居(CommonNeighbors)是一种简单直观的相似性指标,它指的是两个节点共享的邻居节点的数量。若两个节点有更多的共同邻居,那么它们之间存在边的可能性通常会更高。公式表示为CN(x,y)=|\Gamma(x)\cap\Gamma(y)|,其中\Gamma(x)表示节点x的邻居集合。在一个社交网络中,用户A和用户B都与用户C、用户D是好友,那么用户A和用户B的共同邻居数量为2,基于此可推测用户A和用户B之间存在建立好友关系的可能性。Jaccard系数则衡量两个集合的交集大小与并集大小的比例,用于评估两个节点邻居的相似度,公式为J(x,y)=\frac{|\Gamma(x)\cap\Gamma(y)|}{|\Gamma(x)\cup\Gamma(y)|}。Adamic/Adar指数也是基于共同邻居的指标,但它给予那些邻居节点较少的节点更高的权重,认为这些节点的连接更为珍贵,公式为AA(x,y)=\sum_{z\in\Gamma(x)\cap\Gamma(y)}\frac{1}{\log|\Gamma(z)|}。基于相似性的方法计算相对简单,能够快速得到节点之间的相似性分数,从而预测潜在的边。但这类方法也存在局限性,它们主要考虑节点的局部信息,忽略了网络的全局结构和节点之间的间接关系,在复杂网络中,仅依靠局部相似性可能无法准确预测链路。机器学习方法在链路预测中也得到了广泛应用。这类方法将链路预测问题转化为分类问题,通过构建分类模型来预测节点对之间是否存在边。逻辑斯蒂回归是一种常用的机器学习算法,可用于链路预测。在链路预测中,逻辑斯蒂回归模型通过学习已知边和非边的特征,建立预测模型,对未知的节点对进行预测。支持向量机(SVM)也是一种强大的分类算法,它通过寻找一个最优的分类超平面,将不同类别的数据分开。在链路预测中,SVM可以将存在边的节点对和不存在边的节点对看作不同的类别,通过训练模型来预测新的节点对是否存在边。决策树及其集成算法,如随机森林,也可应用于链路预测。决策树通过对数据进行特征划分,构建树形结构的分类模型;随机森林则是通过构建多个决策树,并对它们的预测结果进行综合,来提高预测的准确性和稳定性。机器学习方法的优势在于能够处理复杂的数据特征,通过对大量数据的学习,挖掘节点之间潜在的关系模式。然而,机器学习方法对数据的质量和特征工程要求较高,需要精心选择和设计特征,以提高模型的性能。此外,模型的训练过程通常需要较大的计算资源和时间,且模型的可解释性相对较差。深度学习方法近年来在链路预测领域展现出强大的潜力。图神经网络(GNN)作为深度学习在图数据上的应用,能够直接对图结构数据进行处理和分析。图卷积网络(GCN)是一种典型的图神经网络,它通过在图上定义卷积操作,对节点的邻居信息进行聚合和更新,从而学习节点的表示。在链路预测中,GCN可以学习到节点的特征表示,根据这些表示来预测节点对之间是否存在边。图注意力网络(GAT)则引入了注意力机制,使模型能够自动学习不同邻居节点对中心节点的重要性,从而更有效地聚合邻居信息。在异质性网络中,不同类型的节点和边具有不同的重要性,GAT的注意力机制能够更好地处理这种异质性,提高链路预测的准确性。基于深度学习的方法具有强大的特征学习能力,能够自动从复杂的图数据中学习到节点和边的特征表示。它们在处理大规模、复杂的网络数据时表现出色,能够捕捉到网络中深层次的结构和语义信息。但深度学习方法也面临一些挑战,如模型的训练需要大量的标注数据,计算资源消耗大,模型的可解释性差等问题。3.3适用于非编码RNA-疾病相关性预测的异质性网络链路预测算法在非编码RNA-疾病相关性预测研究中,异质性网络链路预测算法展现出独特的优势和应用价值。丁亮等人提出的DMTHNDM算法,通过构建“disease-miRNA-target”异质性网络,有效利用多源生物信息进行潜在的miRNA-疾病相关性预测。该算法以疾病、miRNA和靶基因为节点,以它们之间的相互作用关系为边构建异质性网络。在这个网络中,靶基因作为miRNA-疾病相关性的协同预测标签,丰富了网络的拓扑结构,为预测提供了更多的信息维度。在预测过程中,DMTHNDM算法利用网络中节点的邻居信息和网络拓扑结构,通过资源传播的方式计算节点对之间的关联得分。算法假设节点之间的关联强度与它们之间的资源传播路径和传播量有关,从源节点出发,沿着网络中的边进行资源传播,目标节点接收到的资源量越多,则认为这两个节点之间存在关联的可能性越大。通过这种方式,DMTHNDM算法能够有效挖掘网络中潜在的miRNA-疾病关联关系,提升预测性能。TPGLDA算法则针对lncRNA-疾病相关性预测,构建了“lncRNA-disease-gene”异质性网络。该算法整合了lncRNA表达谱信息与疾病的表型信息,有效解决了网络稀疏、孤立节点较多的问题。在网络构建过程中,将lncRNA、疾病和基因作为节点,以lncRNA-疾病、lncRNA-基因、疾病-基因之间的相互作用关系为边。在预测时,TPGLDA算法基于拉普拉斯正则化最小二乘法进行链路预测。它将网络中的节点和边转化为矩阵形式,通过求解一个优化问题,得到节点的低维表示。在这个优化问题中,拉普拉斯正则化项用于保持节点在网络中的局部结构信息,最小二乘项用于最小化预测值与真实值之间的误差。通过这种方式,TPGLDA算法能够学习到节点在网络中的特征表示,从而预测lncRNA-疾病节点对之间的潜在关联。该算法还考虑了lncRNA表达谱信息和疾病表型信息,将这些信息融入到节点的特征表示中,进一步提高了预测的准确性。通过对lncRNA表达谱数据的分析,能够了解lncRNA在不同组织和疾病状态下的表达变化,从而为预测提供更丰富的信息;疾病表型信息则有助于更准确地刻画疾病的特征,提高预测的针对性。四、数据处理与网络构建4.1数据来源与收集在miRNA-疾病相关性预测的数据收集方面,miRNA-疾病相互作用数据主要来源于权威数据库HMDD(HumanMicroRNADiseaseDatabase)。该数据库是一个手工收集整理的miRNA与疾病相关联的数据库,截至最新版本V3.2,共包含1206个miRNA基因、893种疾病以及35547个miRNA与疾病的关联数据,并且对于每个miRNA与疾病之间的关联,都有对应的文献及pubmedID,保证了数据的可靠性和可追溯性。通过该数据库的Browse功能,可以从miRNA和disease两个角度出发,全面查看数据库中的内容,为研究提供了便利。miRNA-靶基因相互作用数据则主要从ENCORI(TheEncyclopediaofRNAInteractomes)数据库获取。ENCORI是一个集成数据库,致力于提供RNA分子间的互作信息,尤其是miRNA、lncRNA、mRNA等之间的互作数据。其优势在于整合了多个数据库的数据,为研究miRNA-靶基因相互作用提供了丰富的数据资源。在该数据库中,用户可以通过查询特定miRNA的靶基因,或者查看某个基因的潜在调控miRNA,深入了解miRNA在基因调控网络中的作用。例如,通过输入特定miRNA名称,可获取其对应的靶基因列表,以及两者之间的相互作用信息,包括结合位点、调控方式等。对于lncRNA-疾病相关性预测的数据收集,lncRNA表达谱数据来源于GEO(GeneExpressionOmnibus)数据库。GEO是一个公共的功能基因组学数据存储库,收录了大量来自不同实验平台的基因表达数据,其中包括众多lncRNA的表达谱数据。这些数据涵盖了多种组织和疾病状态下lncRNA的表达情况,通过对这些数据的分析,可以了解lncRNA在不同生理病理条件下的表达变化,为研究lncRNA-疾病相关性提供重要线索。例如,在研究某种癌症与lncRNA的关系时,可以从GEO数据库中获取该癌症组织和正常组织中lncRNA的表达谱数据,对比分析两者之间的差异,筛选出与该癌症相关的差异表达lncRNA。疾病表型特征数据主要来源于OMIM(OnlineMendelianInheritanceinMan)数据库。OMIM是一个全面的人类基因和遗传疾病数据库,包含了大量疾病的临床特征、遗传模式、分子机制等信息。这些疾病表型特征数据对于准确刻画疾病的特征,深入理解疾病的本质,以及研究lncRNA-疾病相关性具有重要意义。通过OMIM数据库,可以获取特定疾病的详细表型信息,如症状、体征、发病年龄、遗传方式等,为后续的研究提供全面的疾病背景知识。lncRNA-疾病相互作用数据从LncRNADisease数据库收集。LncRNADisease是一个专门收录lncRNA-疾病关联信息的数据库,目前已更新至3.0版本,收录了25440条实验支持的lncRNA/circRNA-疾病关联条目,涵盖6066种lncRNA、10732种circrna和566种疾病。该数据库将所有关联归纳为一般关联和因果关联两类,为研究lncRNA-疾病相互作用提供了系统、全面的数据支持。在该数据库中,可以通过输入lncRNA或疾病名称,查询两者之间的关联信息,包括关联类型、实验验证方法、参考文献等。基因-疾病相互作用数据则来源于DisGeNET数据库。DisGeNET是一个整合了基因-疾病关联信息的数据库,包含了从多个数据源收集的基因与疾病之间的关联数据。这些数据对于研究基因在疾病发生发展中的作用,以及基因与lncRNA在疾病中的协同作用具有重要价值。通过DisGeNET数据库,可以获取特定基因与疾病的关联信息,以及这些关联的证据来源和可信度评估,为研究lncRNA-疾病相关性提供了重要的基因层面的数据支持。4.2数据预处理在获取了丰富的数据来源后,对这些原始数据进行清洗、去噪和标准化等预处理操作至关重要,这能有效提升数据质量,为后续分析奠定坚实基础。对于miRNA-疾病相关性预测数据,首先处理miRNA-疾病相互作用数据。从HMDD数据库获取的数据虽较为权威,但仍可能存在重复记录。通过编写Python脚本,利用pandas库中的drop_duplicates函数,基于miRNA和疾病的唯一标识进行去重操作,确保数据的唯一性。数据中可能存在一些错误标注或不完整的记录,如某些miRNA-疾病关联信息中缺少文献引用或pubmedID,这些数据的可靠性存疑,因此采用人工审查与规则匹配相结合的方式进行处理。对于缺少关键信息的记录,若无法通过补充检索获取完整信息,则将其删除;对于格式不规范的数据,按照统一格式进行修正。在处理miRNA-靶基因相互作用数据时,由于从ENCORI数据库获取的数据可能存在噪声,如一些低可信度的预测结果或错误注释的靶基因,需要进行去噪处理。利用数据库中提供的实验支持信息,如CLIP-seq实验数量、degradome-seq实验数量等,设定阈值,仅保留实验支持强度较高的数据。对于一些存在矛盾或冲突的记录,如不同预测程序对同一miRNA-靶基因对的预测结果不一致,通过综合分析多个预测程序的结果以及相关文献,进行人工判断和修正。为了使数据在后续分析中更具可比性,对miRNA-靶基因相互作用数据进行标准化处理。将所有基因ID统一转换为标准的EntrezGeneID,使用biopython库中的相关工具,通过基因名称或其他ID类型进行映射转换。对miRNA名称也进行统一规范,确保所有miRNA名称符合标准命名规则。对于lncRNA-疾病相关性预测数据,在处理lncRNA表达谱数据时,由于GEO数据库中数据来源多样,不同实验平台获取的lncRNA表达谱数据可能存在批次效应。采用ComBat算法进行批次效应校正,该算法通过估计和校正批次效应的大小,使不同批次的数据具有可比性。利用R语言中的limma包实现ComBat算法,对lncRNA表达谱数据进行处理,有效消除了批次效应的影响。在处理疾病表型特征数据时,从OMIM数据库获取的疾病表型特征数据可能存在描述不一致或模糊的情况。通过构建疾病表型本体(DiseasePhenotypeOntology),将疾病表型特征进行标准化分类和编码。对于一些模糊的描述,参考医学专业术语词典和相关文献,进行明确和细化。在处理lncRNA-疾病相互作用数据时,从LncRNADisease数据库获取的数据存在数据不平衡问题,即已知的lncRNA-疾病关联数量相对较少,而潜在的未发现关联数量巨大。采用过采样和欠采样相结合的方法进行处理。对于正样本(已知的lncRNA-疾病关联),使用SMOTE(SyntheticMinorityOver-samplingTechnique)算法进行过采样,通过生成新的合成样本,增加正样本的数量;对于负样本(未发现关联的lncRNA-疾病对),采用随机欠采样的方法,减少负样本的数量,使正负样本比例达到相对平衡。在处理基因-疾病相互作用数据时,从DisGeNET数据库获取的数据中可能存在冗余信息,如同一基因-疾病关联在不同数据源中重复记录。利用数据库中提供的证据级别信息,优先保留证据级别高的记录,删除冗余的低证据级别记录。对基因-疾病相互作用数据进行标准化处理,将基因ID统一转换为EntrezGeneID,疾病名称统一映射到标准的疾病本体(DiseaseOntology)术语。4.3异质性网络构建在miRNA-疾病相关性预测中,构建“disease-miRNA-target”异质性网络。以从HMDD数据库获取的miRNA-疾病相互作用数据和从ENCORI数据库获取的miRNA-靶基因相互作用数据为基础。将疾病、miRNA和靶基因分别作为不同类型的节点。若存在miRNA-疾病相互作用关系,则在对应的miRNA节点和疾病节点之间建立边;若存在miRNA-靶基因相互作用关系,则在对应的miRNA节点和靶基因节点之间建立边。这样就构建起了包含三种类型节点和两种类型边的异质性网络。为了更准确地反映节点之间的相互作用强度,根据数据中的相关信息为边赋予权重。对于miRNA-疾病边,若该miRNA-疾病关联有多个文献支持,则根据文献数量对边的权重进行调整,文献数量越多,权重越大;对于miRNA-靶基因边,根据实验支持的强度(如CLIP-seq实验数量、degradome-seq实验数量等)来确定权重,实验支持强度越高,权重越大。在lncRNA-疾病相关性预测中,构建“lncRNA-disease-gene”异质性网络。基于从LncRNADisease数据库获取的lncRNA-疾病相互作用数据和从DisGeNET数据库获取的基因-疾病相互作用数据。把lncRNA、疾病和基因作为不同类型的节点。当存在lncRNA-疾病相互作用时,在对应的lncRNA节点和疾病节点之间建立边;当存在基因-疾病相互作用时,在对应的基因节点和疾病节点之间建立边。考虑到lncRNA表达谱信息和疾病表型信息对预测的重要性,将这些信息融入网络构建中。通过计算lncRNA表达谱相似性和疾病语义相似性,为lncRNA节点和疾病节点赋予相应的属性。对于lncRNA节点,其属性包含在不同组织和疾病状态下的表达水平信息;对于疾病节点,其属性包含疾病的临床特征、遗传模式等表型信息。在确定边的权重时,对于lncRNA-疾病边,若该lncRNA-疾病关联有因果关系的证据,则给予较高权重;对于基因-疾病边,根据基因在疾病发生发展中的作用程度(如基因的致病突变频率、基因与疾病的关联强度等)来确定权重。五、基于异质性网络链路预测算法的非编码RNA-疾病相关性预测模型5.1miRNA-疾病相关性预测模型5.1.1DMTHNDM算法详细步骤在构建好“disease-miRNA-target”异质性网络后,运用DMTHNDM算法进行潜在的miRNA-疾病相关性预测,具体步骤如下:初始化资源分布:将网络中所有节点的初始资源值设为0,对于每个疾病节点d_i,赋予其单位资源,即r(d_i)=1,其中r(d_i)表示疾病节点d_i的资源值。这一初始化操作基于疾病节点在预测过程中的起始作用,将其作为资源传播的源头,为后续的资源传播奠定基础。资源传播:从疾病节点开始,按照一定的传播规则将资源传播到与之相连的miRNA节点和靶基因节点。对于疾病节点d_i和与之相连的miRNA节点m_j,资源从d_i传播到m_j的量为t(d_i,m_j)=\frac{w(d_i,m_j)}{\sum_{k}w(d_i,k)}r(d_i),其中t(d_i,m_j)表示从疾病节点d_i传播到miRNA节点m_j的资源量,w(d_i,m_j)表示疾病节点d_i和miRNA节点m_j之间边的权重,\sum_{k}w(d_i,k)表示疾病节点d_i与所有相连节点之间边的权重之和。同理,对于疾病节点d_i和与之相连的靶基因节点g_k,资源从d_i传播到g_k的量为t(d_i,g_k)=\frac{w(d_i,g_k)}{\sum_{l}w(d_i,l)}r(d_i),其中t(d_i,g_k)表示从疾病节点d_i传播到靶基因节点g_k的资源量,w(d_i,g_k)表示疾病节点d_i和靶基因节点g_k之间边的权重,\sum_{l}w(d_i,l)表示疾病节点d_i与所有相连节点之间边的权重之和。这一传播过程依据边的权重来分配资源,权重越大,传播的资源量越多,体现了不同边在资源传播中的重要性差异。资源汇聚与更新:miRNA节点和靶基因节点接收来自疾病节点传播的资源后,将其汇聚。对于miRNA节点m_j,其汇聚后的资源值r(m_j)=\sum_{i}t(d_i,m_j),其中r(m_j)表示miRNA节点m_j汇聚后的资源值。对于靶基因节点g_k,其汇聚后的资源值r(g_k)=\sum_{i}t(d_i,g_k)。然后,miRNA节点和靶基因节点再将自身汇聚后的资源按照相同的传播规则传播给与之相连的其他节点。如miRNA节点m_j将资源传播给与之相连的靶基因节点g_k时,传播的资源量为t(m_j,g_k)=\frac{w(m_j,g_k)}{\sum_{l}w(m_j,l)}r(m_j),其中t(m_j,g_k)表示从miRNA节点m_j传播到靶基因节点g_k的资源量,w(m_j,g_k)表示miRNA节点m_j和靶基因节点g_k之间边的权重,\sum_{l}w(m_j,l)表示miRNA节点m_j与所有相连节点之间边的权重之和。通过多次迭代传播,使得资源在网络中充分扩散,充分利用网络的拓扑结构信息。计算关联得分:经过一定次数的迭代传播后,停止资源传播。计算每个miRNA-疾病节点对之间的关联得分。对于miRNA节点m_j和疾病节点d_i,其关联得分S(m_j,d_i)根据miRNA节点m_j从疾病节点d_i接收的资源量来确定。具体计算方式为S(m_j,d_i)=\frac{r_{i}(m_j)}{\sum_{k}r_{i}(m_k)},其中r_{i}(m_j)表示疾病节点d_i传播到miRNA节点m_j的最终资源量,\sum_{k}r_{i}(m_k)表示疾病节点d_i传播到所有与之相连的miRNA节点的最终资源量之和。关联得分越高,表明该miRNA-疾病节点对之间存在关联的可能性越大。通过这种方式,DMTHNDM算法能够充分利用异质性网络中节点的邻居信息和网络拓扑结构,挖掘潜在的miRNA-疾病关联关系。5.1.2模型性能评估与验证为了全面、准确地评估基于DMTHNDM算法的miRNA-疾病相关性预测模型的性能,采用留一法交叉验证(LOOCV)和五折交叉验证(5-foldCV)两种方法进行评估。在留一法交叉验证中,每次从已知的miRNA-疾病关联数据集中选取一对关联数据作为测试集,其余数据作为训练集。利用训练集构建“disease-miRNA-target”异质性网络,并运用DMTHNDM算法进行训练和预测,得到测试集中miRNA-疾病节点对的预测关联得分。将预测得分与真实的关联情况(已知测试集中的miRNA-疾病对是真实关联)进行比较,计算相关性能指标。重复这一过程,直到所有的miRNA-疾病关联数据都被用作测试集一次。在五折交叉验证中,将已知的miRNA-疾病关联数据集随机划分为五个大小相近的子集。每次选取其中一个子集作为测试集,其余四个子集作为训练集。同样利用训练集构建异质性网络并进行训练预测,计算测试集的性能指标。重复五次,使得每个子集都有机会作为测试集,最后将五次的性能指标取平均值,得到最终的评估结果。选择准确率(Accuracy)、召回率(Recall)、F1值(F1-score)、受试者工作特征曲线(ROC)和曲线下面积(AUC)作为性能评估指标。准确率是指预测正确的样本数占总样本数的比例,计算公式为Accuracy=\frac{TP+TN}{TP+TN+FP+FN},其中TP表示真正例(预测为正且实际为正的样本数),TN表示真反例(预测为反且实际为反的样本数),FP表示假正例(预测为正但实际为反的样本数),FN表示假反例(预测为反但实际为正的样本数)。召回率是指实际为正的样本中被正确预测为正的比例,计算公式为Recall=\frac{TP}{TP+FN}。F1值是综合考虑准确率和召回率的指标,它是准确率和召回率的调和平均数,计算公式为F1-score=\frac{2\timesPrecision\timesRecall}{Precision+Recall},其中Precision=\frac{TP}{TP+FP}。ROC曲线以假正率(FPR)为横坐标,真正率(TPR)为纵坐标绘制而成,其中FPR=\frac{FP}{FP+TN},TPR=\frac{TP}{TP+FN}。AUC是ROC曲线下的面积,AUC值越大,说明模型的性能越好,一般认为AUC在0.5-1之间,当AUC=0.5时,模型的预测效果等同于随机猜测;当AUC=1时,模型能够完美区分正样本和负样本。通过留一法交叉验证和五折交叉验证,得到基于DMTHNDM算法的预测模型的性能指标结果。若模型在多次交叉验证中,准确率、召回率和F1值都较高,且AUC值接近1,说明模型具有较高的预测准确性和可靠性,能够有效地预测潜在的miRNA-疾病相关性。若模型的性能指标不理想,则需要进一步分析原因,可能是数据质量问题、网络构建不合理、算法参数设置不当等。针对这些问题,可以采取相应的改进措施,如进一步清洗和预处理数据,优化异质性网络的构建方法,调整DMTHNDM算法的参数(如迭代次数、资源传播的衰减系数等),以提高模型的性能。5.2lncRNA-疾病相关性预测模型5.2.1TPGLDA算法改进与应用为解决网络稀疏问题,本研究对TPGLDA算法进行了多方面改进。在数据融合策略上,创新性地采用基于注意力机制的数据融合方式。传统的TPGLDA算法在整合lncRNA表达谱信息与疾病的表型信息时,往往采用简单的拼接或加权平均方式,未能充分考虑不同数据类型对预测结果的重要程度差异。本研究引入注意力机制,为lncRNA表达谱信息和疾病表型信息分别分配动态权重。通过构建注意力网络,输入lncRNA和疾病的特征向量,计算得到不同信息的注意力权重。在处理癌症相关的lncRNA-疾病预测时,对于与癌症发生发展密切相关的lncRNA表达谱特征,注意力机制会赋予较高权重,使其在预测中发挥更大作用;对于能够准确反映癌症特征的疾病表型信息,也会给予较高权重。这样的改进使得模型能够更合理地融合多源信息,提高预测的准确性。在网络结构优化方面,对“lncRNA-disease-gene”异质性网络进行了细化和拓展。传统网络中,节点之间的连接仅基于已知的相互作用关系,忽略了潜在的关联。本研究通过引入辅助节点和边,增强网络的连通性和信息传递能力。引入“功能模块”辅助节点,这些节点代表与lncRNA或疾病相关的特定生物学功能模块。若某些lncRNA和疾病都与细胞增殖功能模块相关,则通过辅助节点将它们间接连接起来。在构建边时,不仅考虑实验验证的相互作用,还利用文本挖掘和机器学习方法预测潜在的边。通过分析相关文献,挖掘出lncRNA与基因之间潜在的调控关系,并在网络中添加相应的边。这种网络结构的优化,丰富了网络的拓扑结构,为算法提供了更多的信息,有助于提高预测性能。在预测过程中,改进后的TPGLDA算法首先利用优化后的网络结构和融合的数据进行特征学习。通过基于注意力机制的数据融合,得到包含丰富信息的节点特征表示。利用图卷积神经网络(GCN)对节点特征进行学习和更新,使节点能够充分吸收邻居节点的信息。然后,基于拉普拉斯正则化最小二乘法进行链路预测。在优化目标函数中,进一步改进拉普拉斯正则化项,使其更好地适应异质性网络的结构特点。引入自适应正则化参数,根据网络中节点的度和连接强度动态调整正则化参数的大小。对于连接较少的孤立节点,适当减小正则化参数,使其在预测中能够更多地依赖自身的特征信息;对于连接较多的核心节点,适当增大正则化参数,以保持网络的整体稳定性。通过这种方式,改进后的TPGLDA算法能够更准确地预测lncRNA-疾病节点对之间的潜在关联。5.2.2与现有方法的性能比较将改进后的TPGLDA算法与其他现有的lncRNA-疾病相关性预测方法进行性能比较,以评估其优势和有效性。选择了基于传统机器学习的方法,如支持向量机(SVM)、逻辑斯蒂回归(LR);基于深度学习的方法,如基于卷积神经网络的lncRNA-疾病关联预测模型(CNNLDA)、基于图卷积神经网络的lncRNA-疾病关联预测模型(GCNLDA);以及基于网络分析的其他方法,如基于随机游走的lncRNA-疾病关联预测模型(RWRlncD)、基于矩阵补全的lncRNA-疾病关联预测模型(MFlda)等作为对比方法。在实验设置上,采用相同的数据集,包括从LncRNADisease数据库获取的lncRNA-疾病相互作用数据,从GEO数据库获取的lncRNA表达谱数据,从OMIM数据库获取的疾病表型特征数据,从DisGeNET数据库获取的基因-疾病相互作用数据等。对所有方法进行五折交叉验证,将数据集随机划分为五个大小相近的子集,每次选取其中一个子集作为测试集,其余四个子集作为训练集。利用训练集对各个方法进行训练,在测试集上进行预测,并计算相关性能指标。性能评估指标选择准确率(Accuracy)、召回率(Recall)、F1值(F1-score)、受试者工作特征曲线(ROC)和曲线下面积(AUC)。准确率反映了预测正确的样本数占总样本数的比例;召回率表示实际为正的样本中被正确预测为正的比例;F1值综合考虑了准确率和召回率,是两者的调和平均数;ROC曲线以假正率(FPR)为横坐标,真正率(TPR)为纵坐标绘制而成,AUC是ROC曲线下的面积,AUC值越大,说明模型的性能越好。实验结果表明,改进后的TPGLDA算法在各项性能指标上均表现出色。在准确率方面,TPGLDA算法达到了[X1],显著高于SVM的[X2]、LR的[X3]、CNNLDA的[X4]、GCNLDA的[X5]、RWRlncD的[X6]和MFlda的[X7]。在召回率上,TPGLDA算法为[Y1],也优于其他对比方法。F1值作为综合评估指标,TPGLDA算法的[Z1]同样高于其他方法。在ROC曲线和AUC值方面,TPGLDA算法的AUC达到了[W1],接近理想的完美预测模型(AUC=1),而其他方法的AUC值均低于TPGLDA算法。这表明改进后的TPGLDA算法在预测lncRNA-疾病相关性时,具有更高的准确性、召回率和综合性能,能够更有效地识别潜在的lncRNA-疾病关联关系。通过与现有方法的性能比较,充分验证了改进后的TPGLDA算法在lncRNA-疾病相关性预测中的优势和有效性。六、案例分析与结果讨论6.1具体疾病案例的非编码RNA-疾病相关性预测以癌症和心血管疾病这两种具有代表性的疾病为例,深入展示基于异质性网络链路预测算法的非编码RNA-疾病相关性预测模型在实际疾病研究中的应用及预测结果。在癌症方面,选择肺癌作为具体研究对象。肺癌是全球范围内发病率和死亡率最高的恶性肿瘤之一,严重威胁人类健康。通过构建“disease-miRNA-target”异质性网络,运用DMTHNDM算法进行潜在的miRNA-肺癌相关性预测。在构建网络时,从权威数据库获取了大量与肺癌相关的miRNA-疾病相互作用数据以及miRNA-靶基因相互作用数据。基于这些数据,将肺癌、miRNA和靶基因分别作为不同类型的节点,根据它们之间的相互作用关系建立边,并为边赋予相应权重。在预测过程中,算法从肺癌节点开始进行资源传播,通过多次迭代,充分利用网络的拓扑结构信息,计算每个miRNA-肺癌节点对之间的关联得分。预测结果显示,发现了多个与肺癌潜在相关的miRNA。其中,miR-195在预测结果中与肺癌的关联得分较高。查阅相关文献发现,已有研究表明miR-195在肺癌组织中表达显著下调,它可通过靶向调控多个癌基因(如Bcl-2、CCND1等),抑制肺癌细胞的增殖、迁移和侵袭,发挥抑癌作用。这一结果验证了预测模型的有效性,说明该模型能够准确预测出与肺癌相关的潜在miRNA。此外,预测结果还发现了一些尚未有明确研究报道的miRNA与肺癌的潜在关联,如miR-671-5p。这为后续的实验研究提供了有价值的线索,研究人员可进一步通过实验验证miR-671-5p与肺癌的关系,探索其在肺癌发生发展中的作用机制,为肺癌的诊断和治疗提供新的靶点。在心血管疾病方面,以冠心病为例进行研究。冠心病是一种常见的心血管疾病,其发病机制复杂,与多种因素相关。构建“lncRNA-disease-gene”异质性网络,运用改进后的TPGLDA算法进行潜在的lncRNA-冠心病相关性预测。在网络构建过程中,整合了lncRNA表达谱信息、疾病表型特征信息、lncRNA-疾病相互作用数据以及基因-疾病相互作用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学清廉教育工作制度
- 小学维稳长效工作制度
- 就业创业窗口工作制度
- 履行一岗双责工作制度
- 山西省派驻组工作制度
- 巡察工作制度机制汇编
- 巡视整改办工作制度
- 工会组织选举工作制度
- 工程技术部工作制度
- 工程部门日常工作制度
- 电子产品维修故障排除方案
- DB54∕T 0535-2025 高海拔公路冰雪气象指数等级
- (二模)咸阳市2026年高三高考模拟检测(二)历史试卷(含标准答案)
- 2026年及未来5年市场数据中国全实验室自动化(TLA)行业发展潜力预测及投资策略研究报告
- 《第3课 斑斓的色彩》课件2025-2026学年人教版美术二年级下册
- 新疆意识形态责任制度
- 物业公司内部晨会制度
- 中国历史研究院中国考古博物馆中文讲解员招聘1人考试参考试题及答案解析
- 《自我管理(第三版)》中职全套教学课件
- 2026年山东省济南市中考数学模拟试卷
- 2025果树栽培学经典试题及答案
评论
0/150
提交评论