基于机器学习的RNA结合蛋白多分类预测模型设计与研发_第1页
基于机器学习的RNA结合蛋白多分类预测模型设计与研发_第2页
基于机器学习的RNA结合蛋白多分类预测模型设计与研发_第3页
基于机器学习的RNA结合蛋白多分类预测模型设计与研发_第4页
基于机器学习的RNA结合蛋白多分类预测模型设计与研发_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要DNA和RNA结合蛋白在基因表达调控中发挥着关键作用,这些蛋白质识别并结合到特定的基因序列上,从而调控DNA和RNA的转录、翻译等过程。研究结合蛋白有助于医生以及医药企业理解细胞的生命活动、疾病的发生发展以及药物的研发。目前有两种主要的预测方法,包括传统生物实验方法和生物信息学方法。传统实验方法虽然可以提供关于DNA和RNA结合蛋白的直接信息,但通常耗时耗力,成本高昂,且难以应用于大规模的研究。此外,这些方法往往只能针对已知的蛋白质进行研究,对于未知的结合蛋白则无能为力。而生物信息学方法把生物学与人工智能相结合,加快了预测的效率以及准确率,更加节省了成本,但是不同的机器学习模型的选择,以及对序列特征提取方法的组合都会影响最终的预测准确率的高低。因此本篇论文首先对比不同的单一提取特征的方法在相同模型中表现的准确率的差别,实验结果表明GTPC在三种模型上表现最优,但是准确率不足60%,说明单一的提取特征的方法表现不佳,下一步用八种提取特征方法融合处理过的数据集RPI488在不同深度学习模型上进行实验,并采用十倍交叉验证。实验结果表明LSTM模型性能最好准确率可达91.84%,其余模型准确率均大于85%,说明多种提取特征方法融合实验结果更优,最后使用Deepbio网站运行大型数据集RBP_training,将结果可视化,呈现更详细的实验结果。关键词:RNA结合蛋白;特征提取;机器学习;蛋白质序列;自动编码器AbstractDNAandRNA-bindingproteinsplayakeyroleintheregulationofgeneexpression.TheseproteinsrecognizeandbindtospecificDNAorRNAsequences,therebyregulatinggenetranscription,translation,andRNAstability.Atpresent,thetwomainpredictionmethodsincludetraditionalbiologicalexperimentalmethodsandbioinformaticsmethods,whichprovideinformationaboutDNAandRNA-bindingproteins,butareusuallytime-consuming,labor-intensive,costly,anddifficulttobeappliedtolarge-scalestudies.Inaddition,thesemethodsareoftenonlyavailableforknownproteins,andarenotavailableforunknownbindingproteins.Bioinformaticscombinesbiologyandartificialintelligencetospeeduptheefficiencyandaccuracyofprediction,buttheselectionofdifferentmachinelearningmodelsandthecombinationofsequencefeatureextractionmethodswillaffectthefinalpredictionaccuracy.Therefore,thispaperfirstcomparestheaccuracyofdifferentsinglefeatureextractionmethodsinthesamemodel.TheexperimentalresultsshowthatGTPCperformsbestonthreemodels,buttheaccuracyislessthan60%,indicatingthatsinglefeatureextractionmethodsperformpoorly.ThenextstepistouseeightfeatureextractionmethodstofusetheprocesseddatasetRPI488ondifferentdeeplearningmodels,andadopttenfoldcross-validation.TheexperimentalresultsshowthattheLSTMmodelperformsbestwithanaccuracyof91.84%,whiletheaccuracyoftheremainingmodelsisgreaterthan85%,thefusionofmultiplefeatureextractionmethodsresultsinbetterexperimentalresults.Finally,usingtheDeepbiowebsitetorunthelargedatasetRBP_training,theresultsarevisualizedtopresentmoreexperimentalresults.Keywords:RNA-bindingproteins;featureextraction;machinelearning;proteinsequences;autoencoders目录TOC\o"1-2"\h\u160301.绪论 绪论近年来,各个领域都出现了人工智能的身影,随着深度学习和强化学习等技术的发展,新型交叉学科表现出惊人的发展潜力,例如:智慧农业学、计算金融学、数据科学、智能机器人技术等。除此之外人工智能在生物信息学中的应用已经越来越广泛,它不仅可以帮助研究人员快速分析大量的生物数据,还可以解决一些复杂的生物问题,提高数据分析的准确性和效率。1.1研究背景与意义随着生物信息学的发展,对DNA和RNA结合蛋白的研究日益深入。这些蛋白在转录调控、DNA复制、DNA修复等生物过程中扮演着关键角色。然而,传统的实验方法用于识别和分类这些蛋白往往耗时且成本高昂,无法满足大规模研究的需要。因此,开发一种高效、准确的计算方法来预测DNA和RNA结合蛋白,对于生物信息学、药物研发和基因组学等领域具有重要意义。近年来,机器学习应用于生物信息学领域的研究如火如荼,用于预测未知的生物现象。特别是深度学习技术,能够更深入地提取生物信息学特征,从而探索生物规律,这为DNA和RNA结合蛋白的预测提供了新的可能性。基于机器学习的DNA和RNA结合蛋白多分类预测模型的设计与研发,具有重要的理论和实践意义。从理论角度来看,这一研究可以推动机器学习算法在生物信息学领域的应用和发展。通过针对DNA和RNA结合蛋白的特殊性质设计适合的机器学习模型,可以进一步验证和完善现有的机器学习理论。从实践角度来看,这一研究可以为生物学家提供一种高效、准确的预测工具。通过输入蛋白质的序列或结构信息,模型可以快速预测其是否具有DNA或RNA结合功能,从而指导后续的实验研究。此外,该模型还可以用于大规模基因组数据的分析,帮助生物学家发现新的DNA和RNA结合蛋白,并理解它们在生物过程中的作用。综上所述,基于机器学习的DNA和RNA结合蛋白多分类预测模型的设计与研发,不仅有助于推动机器学习在生物信息学领域的应用和发展,还可以为生物学家提供一种强大的研究工具,促进生物学研究的进步。1.2国内外研究现状数据集的成工构建是完成实验的第一步,所以拥有完善丰富的数据集是非常重要的,目前为止大多部分数据集已经被公开,例如:NCBI、UCSCGenomeBrowser、SRA、PDB等;部分数据集的简要信息如表1所示。表1:RNA结合蛋白数据集部分列举数据集RBPs数量DBPs数量NBPs数量总数量PDB186[[]W.Lou,X.Wang,F.Chen,,SequencebasedpredictionofDNA-bindingproteinsbasedonhybridfeatureselectionusingrandomforestandGaussiannaïveBayes,PlosOne9(2014)e86703.[]W.Lou,X.Wang,F.Chen,,SequencebasedpredictionofDNA-bindingproteinsbasedonhybridfeatureselectionusingrandomforestandGaussiannaïveBayes,PlosOne9(2014)e86703.[]Y.Ming,H.Liu,Y.Cui,IdentificationofDNA-bindingproteinsbyKernelSparseRepresentationviaL2,1-matrixnorm,Comput.Biol.Med.159(2023)106849.93093186Human[[]X.Zhang,S.Liu,RBPPred:predictingRNA-bindingproteinsfromsequenceusing[]X.Zhang,S.Liu,RBPPred:predictingRNA-bindingproteinsfromsequenceusingSVM,Bioinformatics33(2017)854-862.09675971564A.thaliana[3]045637493S.cerevisiae[3]0354135489RPI488[[]X.Y.Pan,Y.X.Fan,J.Yan,IPMiner:hiddenncRNA-proteininteractionsequential[]X.Y.Pan,Y.X.Fan,J.Yan,IPMiner:hiddenncRNA-proteininteractionsequentialpatternminingwithstackedautoencoderforaccuratecompu-tationalprediction,BMCGenom.17(2016)582.243-245488RBP_training[[]J.Zhang,Q.Chen,B.Liu,iDRBP_MMC:IdentifyingDNA-BindingProteinsandRNA-BindingProteinsBasedonMulti-LabelLearningModelandMotif-BasedConvolutionalNeuralNetwork,J.Mol.Biol.432(2020)5860-5875.[]J.Zhang,Q.Chen,B.Liu,iDRBP_MMC:IdentifyingDNA-BindingProteinsandRNA-BindingProteinsBasedonMulti-LabelLearningModelandMotif-BasedConvolutionalNeuralNetwork,J.Mol.Biol.432(2020)5860-5875.2616目前识别、预测和分析RNA-蛋白质相互作用预测(RNA-ProteinInteraction,RPI)的机器学习方法已经逐步成熟。LPGNMF[[]T.Zhang,M.Wang,J.Xi,LPGNMF:predictinglongnon-codingRNAandproteininteractionusinggraphregularizednonnegativematrixfactorization,IEEE/ACMTrans.Comput.Biol.Bioinform.17(2020)189–197.]利用图正则化的非负矩阵因子分解框架,基于RNA的表达谱数据和蛋白质的基因本体信息准确预测RPI。PredPRBA[[]L.Deng,W.Yang,H.Liu,PredPRBA:predictionofprotein-RNAbindingaffinityusinggradientboostedregressiontrees,Front.Genet.10(2019)637.]提取了37种RNA和蛋白质的序列和结构特征,构建了基于梯度增强回归树(GBRT)的模型来分析和预测六种RPI。RPI-SAN[[]H.C.Yi,Z.H.You,D.S.Huang,Adeeplearningframe-workforrobustandaccuratepredictionofncRNA-proteininteractionsusingevolutionaryinformation,Mol.Ther.NucleicAcids.11(2018)337–344.]使用深度学习堆叠自动编码器网络以预测ncRNA结合蛋白。RPITER[[]C.Peng,S.Y.Han,H.Zhang,RPITER:ahierarchicaldeeplearningframe-workforncRNA-proteininteractionprediction,Int.J.Mol.Sci.20(2019)1070.]使用卷积神经网络(CNN)和堆叠自动编码器(SAE)两种基本的神经网络结构来设计RPI预测模型。NucleicNet[[]J.Wei,S.Chen,L.Zong,Protein-RNAinteractionpredictionwithdeeplearning:structurematters,Brief.Bioinform.23(2022)540.]可以从蛋白质结构表面的局部物理和化学特征预测RNA骨架成分和不同碱基的结合偏好等属性。Capsule-LP[[]Y.Li,H.Sun,S.Y.Feng,Capsule-LPI:aLncRNA-pro-teininteractionpredictingtoolbasedonacapsulenetwork,BMCBioinform.22(2021)246.]基于多通道胶囊网络框架对RPI进行分类和预测。Peng等人[[]X.Peng,X.Wang,Y.Guo,RBP-TSTLisatwo-stagetransferlearningframeworkforgenome-scalepredictionofRNA-bindingproteins,Brief.Bioinform.23(2022)bbac215.][]T.Zhang,M.Wang,J.Xi,LPGNMF:predictinglongnon-codingRNAandproteininteractionusinggraphregularizednonnegativematrixfactorization,IEEE/ACMTrans.Comput.Biol.Bioinform.17(2020)189–197.[]L.Deng,W.Yang,H.Liu,PredPRBA:predictionofprotein-RNAbindingaffinityusinggradientboostedregressiontrees,Front.Genet.10(2019)637.[]H.C.Yi,Z.H.You,D.S.Huang,Adeeplearningframe-workforrobustandaccuratepredictionofncRNA-proteininteractionsusingevolutionaryinformation,Mol.Ther.NucleicAcids.11(2018)337–344.[]C.Peng,S.Y.Han,H.Zhang,RPITER:ahierarchicaldeeplearningframe-workforncRNA-proteininteractionprediction,Int.J.Mol.Sci.20(2019)1070.[]J.Wei,S.Chen,L.Zong,Protein-RNAinteractionpredictionwithdeeplearning:structurematters,Brief.Bioinform.23(2022)540.[]Y.Li,H.Sun,S.Y.Feng,Capsule-LPI:aLncRNA-pro-teininteractionpredictingtoolbasedonacapsulenetwork,BMCBioinform.22(2021)246.[]X.Peng,X.Wang,Y.Guo,RBP-TSTLisatwo-stagetransferlearningframeworkforgenome-scalepredictionofRNA-bindingproteins,Brief.Bioinform.23(2022)bbac215.[]J.Zhang,K.Yan,Q.Chen,B.Liu,PreRBP-TL:predictionofspecies-specificRNA-bindingproteinsbasedontransferlearning,Bioinformatics38(2022)2135-2143.[]L.Shen,Y.Liu,J.Song,SAResNet:self-attentionresidualnetworkforpredictingDNA-proteinbinding,Brief.Bioinform.22(2021)bbab101.多个蛋白质特征的融合已被证明优于基于单个特征的方法。Zhou等人[[]L.Zhou,X.Song,D.J.Yu,Sequence-basedDetectionofDNA-bindingProteinsusingMultiple-viewFeaturesAlliedwithFeatureSelection,MolInform39(2020)e2000006.]使用多个特征提取蛋白质序列信息,然后使用降维(SVM-RFE+CBR)对其进行融合和嵌入,用于最终预测步骤。Hu等人[[]J.Hu,Y.S.Bai,L.L.Zheng,Protein-DNABindingResiduePredictionviaBaggingstrategyandSequence-basedCube-FormatFeature,IEEE/ACMTransComputBiolBioinform19(2022)3635-3645.]从蛋白质序列物种中提取PSFM、PSS和PPLBR。然后,他们应用滑动窗口技术为每个残差提取矩阵格式的特征,并随后使用平方根(SR)和平均值(AVE)策略将其转换为立方格式的特征。将得到的立方体格式的特征序列进行组合。Ali等人[[]F.Ali,M.Arif,Z.U.Khan,SDBP-Pred:Predictionofsingle-strandedanddouble-strandedDNA-bindingproteinsbyextendingconsensussequenceandK-segmentationstrategiesintoPSSM,Anal.Biochem.589(2020)113494.]应用k-分割策略对PSSM中隐藏的局部特征进行编码,并使用一致序列的概念提取全局潜在特征。Hu等人[[]J.Hu,L.Rao,Y.H.Zhu,TargetDBP+:EnhancingthePerformanceofIdentifyingDNA-BindingProteinsviaWeightedConvolutionalFeatures,J.ChemInfModel61(2021)505-515.]开发了TargetDBP+,他们没有使用直接融合算法,而是使用差分进化算法来学习所有元素的权重。对五个特征形成加权序列组合,然后使用SVM进行预测。Mishra等人[[]A.Mishra,R.Khanal,W.U.KabirAIRBP:AccurateidentificationofRNA-bindingproteinsusingmachinelearningtechniques,Artif.Intell.Med.113(2021)102034.]使用多种方法提取蛋白质特征,如CTD、CT等,然后在综合学习模型中用于预测RBP。Yang等人[[]H.Yang,Z.Deng,X.Pan,RNA-bindingproteinrecognitionbasedonmulti-viewdeepfeatureandmulti-labellearning,Brief.Bioinform.22bbaa174.[]L.Zhou,X.Song,D.J.Yu,Sequence-basedDetectionofDNA-bindingProteinsusingMultiple-viewFeaturesAlliedwithFeatureSelection,MolInform39(2020)e2000006.[]J.Hu,Y.S.Bai,L.L.Zheng,Protein-DNABindingResiduePredictionviaBaggingstrategyandSequence-basedCube-FormatFeature,IEEE/ACMTransComputBiolBioinform19(2022)3635-3645.[]F.Ali,M.Arif,Z.U.Khan,SDBP-Pred:Predictionofsingle-strandedanddouble-strandedDNA-bindingproteinsbyextendingconsensussequenceandK-segmentationstrategiesintoPSSM,Anal.Biochem.589(2020)113494.[]J.Hu,L.Rao,Y.H.Zhu,TargetDBP+:EnhancingthePerformanceofIdentifyingDNA-BindingProteinsviaWeightedConvolutionalFeatures,J.ChemInfModel61(2021)505-515.[]A.Mishra,R.Khanal,W.U.KabirAIRBP:AccurateidentificationofRNA-bindingproteinsusingmachinelearningtechniques,Artif.Intell.Med.113(2021)102034.[]H.Yang,Z.Deng,X.Pan,RNA-bindingproteinrecognitionbasedonmulti-viewdeepfeatureandmulti-labellearning,Brief.Bioinform.22bbaa174.[]J.Hu,W.W.Zeng,N.X.Jia,ImprovingDNA-BindingProteinPredictionUsingThree-PartSequence-OrderFeatureExtractionandaDeepNeuralNetworkAlgorithm,J.ChemInfModel63(2023)1044-1057.总之目前为止已经有了比较丰富的提取DBPs和RBPs的特征的方法和表现良好的机器学习模型,更好的融合RNA结合蛋白的多种特征和模型的创新更有助于提高识别的准确率。1.3本章小结本章主要介绍了DNA和RNA结合蛋白的研究背景及其意义、国内外研究现状和本章节的整体结构。研究背景及其意义主要是针对RNA结合蛋白在生物生命活动中的重要作用和对新药物研发的重要意义。国内外研究现状主要介绍了关于RNA结合蛋白预测的一些经典方法。主要是针对基于机器学习的方法的介绍,这也是本篇论文的主要研究方向。接下来介绍下一节的主要内容,在第二节将从宏观预测框架流程图入手,重点阐述提取特征的常用方法和常用机器学习模型的原理以及数据集情况。RNA结合蛋白预测方法2.1RNA结合蛋白预测方法框架RNA结合蛋白预测方法框架如图3.1所示,整个过程分为数据集准备,特征提取,功能选择,模型训练,模型评估五个阶段[[]XinyuZhang,YifeiWang,QinqinWei.DRBPPred-GAT:AccuratepredictionofDNA-bindingproteinsandRNA-bindingproteinsbasedongraphmulti-headattentionnetwork,Knowledge-BasedSystems,Volume285,2024,111354,ISSN0950-7051,/10.1016/j.knosys.2023.111354.]。[]XinyuZhang,YifeiWang,QinqinWei.DRBPPred-GAT:AccuratepredictionofDNA-bindingproteinsandRNA-bindingproteinsbasedongraphmulti-headattentionnetwork,Knowledge-BasedSystems,Volume285,2024,111354,ISSN0950-7051,/10.1016/j.knosys.2023.111354.图1RNA结合蛋白预测方法框架图2.1.1数据集准备收集数据集以后将数据集分为两部分训练数据集和测试集包括蛋白质序列和相应的标签,标签为“0”,“1”,是一个简单的二分类问题。2.1.2特征提取使用八种方法提取蛋白质特征,并将提取到的不同特征进行融合。下文中我们会介绍几种常见的提取特征的方法原理。2.1.3特征选择由于使用多特征融合的方式提取特征,很容易造成特征冗余,所以适度的进行特征选择,至关重要,有效且合理的降低特征维度,有助于提高效率和性能。2.1.4模型训练对于模型训练,目前可以选择的模型非常多,我们主要选择了传统机器学习模型,例如:KNN、DNN、CNN、LSTM、Adaboost模型等和深度学习模型进行训练,例如:BERT、BERT-GCN、HYPER-Attention等模型。2.1.5模型评估模型选择的好坏决定最终识别准确率的高低,也是验证本次实验是否有效的证据,所以在实验完成以后必须要通过一些评估指标分析数据集的优劣。2.2数据集介绍数据集的选择在模型构建中起着至关重要的作用。为此,本论文选择了数据集RPI488[4]、RBP_training[5]用于模型的训练和评估。数据集RPI488属于18种RNA-蛋白质复合物,由Pan等人从蛋白质数据库(PDB)中提取。该数据集包含243个RNA-蛋白质相互作用对(RPI对)和245个非相互作用的RNA-蛋白质对(非RPI配对)[[](X.Y.Pan,Y.X.Fan,J.Yan,H.B.Shen,IPMiner:hiddenncRNA-proteininterac-tionsequentialpatternminingwithstackedautoencoderforaccuratecompu-tationalprediction,BMCGenom.17(2016)582.)[](X.Y.Pan,Y.X.Fan,J.Yan,H.B.Shen,IPMiner:hiddenncRNA-proteininterac-tionsequentialpatternminingwithstackedautoencoderforaccuratecompu-tationalprediction,BMCGenom.17(2016)582.)提取蛋白质序列的特征使用了五种方法,连接三联体、蛋白质二级结构、进化差异位置特异性评分矩阵、还原位置特异性得分矩阵和分组三肽组成。提取RNA序列的特征使用了k-mer、RNA二级结构、KGap描述符和伪结构状态组成四种方法,深度融合了RNA结合蛋白的多个特征,总共生成了1367个维度的融合特征向量用于RPI预测,在后期实验中此数据集在传统机器学习模型上表现较好。RBP_training[5]数据集包括2616条信息,在数据集的构建中,使用GO本体论注释为“RNA结合”的蛋白质是从瑞士Prot数据库[[]B.Boeckmann,A.Bairoch,R.Apweiler,M.C.Blatter,A.Estreicher,E.Gasteiger,M.J.Martin,K.Michoud,C.O'Donovan,I.Phan,S.Pilbout,M.Schneider,TheSWISS-PROTproteinknowledgebaseanditssupplementTrEMBLin2003,NucleicAcidsRes.31(2003)365-70.]中获得的。然后去除长度小于40个氨基酸的蛋白质,并使BLASTClust[[]S.F.Altschul,W.Gish,W.Miller,Basiclocalalignmentsearchtool,J.Mol.Biol.215(1990)403-10.[]B.Boeckmann,A.Bairoch,R.Apweiler,M.C.Blatter,A.Estreicher,E.Gasteiger,M.J.Martin,K.Michoud,C.O'Donovan,I.Phan,S.Pilbout,M.Schneider,TheSWISS-PROTproteinknowledgebaseanditssupplementTrEMBLin2003,NucleicAcidsRes.31(2003)365-70.[]S.F.Altschul,W.Gish,W.Miller,Basiclocalalignmentsearchtool,J.Mol.Biol.215(1990)403-10.2.3提取特征的方法RNA结合蛋白作为蛋白质是通过转录-翻译-后期折叠和修饰形成的,整个过程如图所示,多个氨基酸通过肽键连接形成肽,最后多个肽以侧链相接聚合折叠成蛋白质。由此看出蛋白质是具有空间结构的,所以蛋白质的特征表示可以利用结构特征提取,例如:二级结构,三级结构、氨基酸间的空间距离、螺旋、凸起数目以及三肽组成等。其次氨基酸是构成蛋白质的基本单位,核苷酸又是组成氨基酸的基本单位,所以可以利用蛋白质的基因序列的最小单位核苷酸进行特征提取。总结一下可以利用蛋白质结构以及基因序列两类方法提取特征,下文将仔细介绍这两类方法。图1蛋白质结构图2.3.1k-mer频率特征提取方法不同物种的蛋白质最小单位均为氨基酸,氨基酸由4种核苷酸组成,分别是:腺苷酸(Adenosine,A)、尿苷酸(Uridine,U)、胸苷酸(Cytidine,C)鸟苷酸(Guanosine,G)。其中A、U、G、C在蛋白质中比例不同,就可以利用A、U、G、C的出现频率表征RNA序列,这种特征就是k-mer特征。RNA序列核苷酸组成信息的k-mer特征包含了RNA序列的局部序列信息,RNA序列的k-mer特征定义为:在上述公式中,fj(i=1,2,…,4k)代表RNA序列中k个相邻核苷酸的出现频率。由于k-mer内的每个位置可以是A、U、G或C,因此RNA序列可以产生4个k维的Rk-mer特征。这项研究将k设置在1到4的范围内,并生成总共2k=340维k-mer特征用于RNA序列的特征表示。2.3.2RNA二级结构RNA的二级结构如图2所示,二级结构和三级结构是蛋白质在不同阶段的体现,在一定程度上都可以用来表征蛋白质。不同核苷酸在结合形成氨基酸的过程中,会因为氢键,范德华力等作用力的影响形成不同的空间结构,三级结构则是蛋白质二级结构在三维空间中进行折叠,翻转等后形成的。这两种结构均可用于表征蛋白质。通过计算算法,如RNAfold、ViennaRNAPackage等,基于RNA序列来预测其二级结构,包括碱基配对、茎环结构等,从RNA二级结构提取特征包括碱基配对的数量、类型、位置,茎的长度和类型,环的大小和类型等。此外,还可以考虑结构的稳定性、能量变化等参数。在处理RPI488时候使用RNAfold来预测RNA序列片段的SS信息[[]R.Lorenz,S.H.Bernhart,C.H.Z.Siederdissen,ViennaRNApackage2.0,AlgorithmsMol.Biol.6(2011)26.],并且把k设置在1到4的范围内,并生成2k维SS特征用于RNA序列的特征表示。[]R.Lorenz,S.H.Bernhart,C.H.Z.Siederdissen,ViennaRNApackage2.0,AlgorithmsMol.Biol.6(2011)26.图2:蛋白质结构图2.3.3KGap描述符通过两个相同核苷酸之间的间隔(kgap,K),提取两个不同核苷酸之间的间隔从而获得核苷酸的相关性,并计算与核苷酸子序列结合时K的出现频率[[]R.Muhammod,S.Ahmed,D.M.Farid,PyFeat:apython-basedeffectivefeaturegenerationtoolforDNA,RNAandproteinsequences,Bioinformatics.35(2019)3831–3833.]。间隔K是一个正整数,表示考虑的核苷酸对之间的核苷酸个数。例如,当K=1时,描述符将考虑相邻的氨基酸对;当K>1时,将考虑间隔更远的氨基酸对。计算K频率:对于给定的K值,遍历整个RNA结合蛋白序列,计算所有可能的间隔为K的核苷酸对出现的频率。这些频率构成了KGap描述符,将不同K值下的KGap频率组合成一个特征向量。通常,会使用多个不同的K值来捕获序列中的不同尺度的信息。为了提高模型的性能,可以对提取的KGap描述符进行特征选择和优化。这可以通过使用统计方法、机器学习算法或领域知识来实现,以选择那些对预测RNA结合最相关的特征[]R.Muhammod,S.Ahmed,D.M.Farid,PyFeat:apython-basedeffectivefeaturegenerationtoolforDNA,RNAandproteinsequences,Bioinformatics.35(2019)3831–3833.在处理数据集RPI488时候,monoMonoKGap和monoDiKGap统称为KGap描述符,其中monoMonoKGap表示相同核苷酸之间的距离,monoDiKGap表示不同核苷酸之间的距离。在monoMonoKGap和monoDiKGap中分别设置K=4和K=2后,共生成192维KGap特征载体用于表征RNA序列。例如序列:“AUUGACCUGCCAU”,对于K=4,monoMonoKGap会计算“GACCUG”、“UGCCAU”这种序列出现的次数;对于K=2,monoDiKGap会计算“AUUG”、“UUGA”、“GCCA”等序列的出现次数。2.3.4伪结构状态组成PSC是一种从RNA结合蛋白序列中提取特征的方法,它结合了序列信息和RNA的潜在结构信息。这种方法假设RNA结合蛋白的序列中包含与RNA结构相互作用的线索,即使在没有明确知道RNA实际结构的情况下。RNA结合蛋白的序列转换为数值表示。这通常通过编码方案实现。接下来,定义一组代表不同RNA二级结构状态的伪结构状态。这些状态可能包括螺旋(Helix)、环(Loop)、茎(Stem)、凸起(Bulge)等。这些状态的选择应该基于RNA结构生物化学的先验知识。然后,将RNA结合蛋白的序列映射到这些伪结构状态。这通常涉及分析序列中的模式或基序(motifs),这些模式或基序可能与特定的RNA结构状态相关[30]。这种映射可以是基于经验的、基于统计的,或者是基于机器学习模型的预测。一旦序列被映射到伪结构状态,就可以提取特征了。这可能包括计算每种伪结构状态在序列中的频率、位置、连续性、以及不同状态之间的转换频率等。这些特征捕捉了RNA结合蛋白序列中与RNA结构相互作用相关的信息。2.3.5位置特异性得分矩阵位置特异性得分矩阵(PSSM)[[]D.T.Jones,Proteinsecondarystructurepredictionbasedonposition-specificscoringmatrices,J.Mol.Biol.292(1999)195–202.][]D.T.Jones,Proteinsecondarystructurepredictionbasedonposition-specificscoringmatrices,J.Mol.Biol.292(1999)195–202.在处理数据集RPI488时,PSSM是在使用PSI-BLAST[[]S.F.Altschul,T.L.Madden,A.A.Schaffer,GappedBLASTandPSI-BLAST:anewgenerationofproteindatabasesearchprograms,Nucleic.Acids.Res.25(1997)3389–3402.]将数据集中的所有蛋白质序列与SwissProt非冗余数据库对齐后生成的。在这个过程中,E值设置为0.001,[]S.F.Altschul,T.L.Madden,A.A.Schaffer,GappedBLASTandPSI-BLAST:anewgenerationofproteindatabasesearchprograms,Nucleic.Acids.Res.25(1997)3389–3402.其中,𝑝𝑖,𝑗表示进化过程中蛋白质序列中第i个特定位置上第j个氨基酸类型的出现频率。然后,利用logistic函数,𝑓(𝑥)=将该PSSM矩阵中的每一个元素规范化到(0,1)区间内。使用二级结构预测算法或软件,如DSSP、PREDITOR、PSIPRED等,这些算法或软件基于已知的蛋白质结构和序列信息,通过统计方法或机器学习模型来预测蛋白质的二级结构,然后进一步从二级结构中提取特征。2.3.6分组的三肽组合物分组三肽复合物(Groupedtri-peptidecomposition,GTPC)是三肽组合物(TPC)的一种变体。PTCP(r,s,t)=,r,s,t∈{A,C,DY}其中,Nrst表示三肽的数量,这个三肽是由r、s、t个氨基酸组成的。r、s、t的每个位置上可以是20个氨基酸中的任何一个。GTPC是在TCP方法的基础上生成出来的。首先,20种氨基酸根据其物理和化学性质分为五类,并用五个符号表示:{GAVLMI}-g1.{FYW}-g2.{KRH}-g3.{DE}-g4,{STCPNQ}-g5。其中任意三个符号可以组成新的三肽,可以得到5×5×5=125个不同的“三多肽”组合,Nrst就是对三多肽计数,其中N表示蛋白质的长度。最后,根据下图公式计算125维GTPC特征向量从而提取蛋白质序列信息。PGTPC(r,s,t)=,r,s,t∈{g1,g2,g3,g4,g5}GTPC的出现大大降低了经典TPC方法[[]C.Chen,Q.M.Zhang,B.Yu,Improvingprotein-proteininteractionspredictionaccuracyusingXGBoostfeatureselec-tionandstackedensembleclassifier,Comput.Biol.Med.123(2020)103899.][]C.Chen,Q.M.Zhang,B.Yu,Improvingprotein-proteininteractionspredictionaccuracyusingXGBoostfeatureselec-tionandstackedensembleclassifier,Comput.Biol.Med.123(2020)103899.2.3.7三联体CT(Conjointtriad,CT),三联体顾名思义,就是以任意三个相邻的氨基酸为一个整体,这样就可以概括出相邻的氨基酸的性质,在一定程度上表达出了蛋白质序列的信息[[]J.Shen,J.Zhang,X.Luo,Predictingprotein-proteininteractionsbasedonlyonsequencesinformation,Proc.Natl.Acad.Sci.104(2007)4337–4341.[]J.Shen,J.Zhang,X.Luo,Predictingprotein-proteininteractionsbasedonlyonsequencesinformation,Proc.Natl.Acad.Sci.104(2007)4337–4341.首先,根据20种氨基酸的偶极矩和侧链体积性质,将这些氨基酸分为7类,即{A,G,V}-1,{I,L,F,P}-2,{Y,M,T,S}-3,{H,N,Q,W}-4,{R,K}-5,{D,E}-6,{C}-7[[]4]S.F.Altschul,T.L.Madden,A.A.Schaffer,J.Zhang,Z.Zhang,W.Miller,D.J.Lip-man,GappedBLASTandPSI-BLAST:anewgenerationofproteindatabasesearchprograms,Nucleic.Acids.Res.25(1997)3389–3402.]。例如,蛋白质序列P=DQPSNIKRKTK可以表示为P’=6423442555[]4]S.F.Altschul,T.L.Madden,A.A.Schaffer,J.Zhang,Z.Zhang,W.Miller,D.J.Lip-man,GappedBLASTandPSI-BLAST:anewgenerationofproteindatabasesearchprograms,Nucleic.Acids.Res.25(1997)3389–3402.其中Ci,(i=1,2,…7k)表示蛋白质序列中k个相邻符号出现的频率。由于k长度子序列中的每个位置可以是7个符号中的任何一个,因此蛋白质序列可以生成7k维的PCT特征。2.3.8独热编码在大多部分机器学习模型中,特征是离散点,尤其是对于二分类问题,实质上他的特征仅仅只有“真”“假两种情况,对于RNA结合蛋白分类问题,对于是就可以用“1”来表示,对于“否”就可以用“0”来表示;对于多分类问题就可以用“0”、“1”、“01”、“10”、“11”等数来表示特征。由此可见用独热编码非常快捷,可是当特征过多时,就会导致数据非常庞大,不宜处理,此时就要与其他方法相结合,去降低冗余和特征维度。2.3.9其他蛋白质序列特征编码方式除了上述的一些经典的蛋白质特征编码方法,还有一些特征编码方式用于RNA结合蛋白预测。如自交协方差变换(autocrosscovariancetransformation)、二肽组成(dipeptidecomposition)、伪氨基酸组成(Pseudo-aminoacidcomposition,Pse-AAC)、全局蛋白质序列描述符(globalproteinsequencedescriptors)[[]ZhuY,JiaC,LiF.Inspector:alysinesuccinylationpredictorbasedoneditednearest-neighborundersamplingandadaptivesyntheticoversampling[J].AnalyticalBiochemistry,2020,593:113-122.]、全空间监督多任务模型EntireSpaceSupervisedMulti-taskModel(ESM2)[[]WenH,ZhangJ,WangY,Entirespacemulti-taskmodelingviapost-clickbehaviordecompositionforconversionrateprediction[C]//Proceedingsofthe43rdInternationalACMSIGIRconferenceonresearchanddevelopmentinInformationRetrieval.2020:2377-2386.]。以这类特征为基础的RNA[]ZhuY,JiaC,LiF.Inspector:alysinesuccinylationpredictorbasedoneditednearest-neighborundersamplingandadaptivesyntheticoversampling[J].AnalyticalBiochemistry,2020,593:113-122.[]WenH,ZhangJ,WangY,Entirespacemulti-taskmodelingviapost-clickbehaviordecompositionforconversionrateprediction[C]//Proceedingsofthe43rdInternationalACMSIGIRconferenceonresearchanddevelopmentinInformationRetrieval.2020:2377-2386.2.4机器学习模型2.4.1K最近邻算法(k-NearestNeighbors,KNN)KNN是一种主要用于分类和回归的有监督算法,其原理也比较简单,主要是利用不同类别数据点的距离来进行分类。首先就算目标项和其他项的距离,仔选择距离最小的K个点,最后根据K个点所代表的类别出现的最高频率来确定目标点的类别。由原理可知要利用好KNN模型关键是选择合适的K值,一般在试验前需要通过交叉验证等方法来找到最优的K值。其次,在数据量过大时,距离计算量很大,可能会降低预测效率。KNN的计算公式如下所示,其中x表示新样本的特征向量,Sim(x,di)表示距离,y(di,cj)则是类别归属函数。2.4.2卷积神经网络(ConvolutionalNeuralNetworks,CNN)CNN是一种十分流行的深度学习网络,具备强大的特征学习能力。他的优秀之处就在于模拟了人类视觉系统中的局部感知和层次化处理方式,在提取特征时卷积层会通过卷积核对输入的数据进行运算,进而提取出局部特征,再通过池化层对特征降维并提取关键特征,最后通过全连接层对前面提取到的特征整合或者分类。CNN的整体结构如图所示,其中卷积层是关键层,设置合适的卷积核大小很重要,常见的卷积核大小有:目前为了继续增加预测准确率,CNN网络不再只是单纯的4层结构,往往会再增加卷积层或者池化层等。图3CNN算法结构图2.4.3自适应增强(AdaptiveBoosting,AdaBoost)AdaBoost[[]YoavFreund,RobertESchapire,ADecision-TheoreticGeneralizationofOn-LineLearningandanApplicationtoBoosting,JournalofComputerandSystemSciences,Volume55,Issue1,1997,Pages119-139,ISSN0022-0000]是一种[]YoavFreund,RobertESchapire,ADecision-TheoreticGeneralizationofOn-LineLearningandanApplicationtoBoosting,JournalofComputerandSystemSciences,Volume55,Issue1,1997,Pages119-139,ISSN0022-0000首先,对训练数据集的每个样本都赋予权重,权重值均相等且为1/N,其中N为样本数量。然后,随着迭代次数增加样本的权重会有所变化,之前常被准确预测的样本权重会在下一轮减少,未被准确预测的样本在下一轮权重增加;每一轮迭代会根据目前样本的权重来训练多个弱分类器比如:决策树、逻辑回归等任意一个机器学习模型。其次,后根据各个弱分类器预测准确率来确定其权重,准确率高的则权重大,准确率小的权重小。最后,循环上述步骤在迭代结束后会根据各个分类器权重大小,集成一个强分类器,在预测新的样本时,强分类器会考虑多个弱分类器的结果。2.4.4基于Transformer的BERT预训练模型以及其加强模型(1)BERT模型\t"/m0_74693860/article/details/_blank"BERT模型[[]Devlin,Jacob,etal."Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding."

arXivpreprintarXiv:1810.04805

(2018).]是一种基于Transformer架构模型,通过联合调节所有层中的上下文来预训练深度双向表示。BERT模型主要运用在:词汇表示学习、文本分类、命名实体识别、关系提取、语义相似度计算、文本生成。BERT模型具有强大的表征学习能力和上下文理解能力,使其在多个自然语言处理任务中取得了优秀的性能。由于BERT的预训练模型可用性,它为各种NLP应用提供了强大的基础模型,并为领域专家和研究人员提供了便捷的工具。在蛋白质序列处理过程中运用BERT模型也有良好的效果。[]Devlin,Jacob,etal."Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding."

arXivpreprintarXiv:1810.04805

(2018).(2)ROBERTAwithGraphConvolutionalNetworks,ROBERTA_GCNROBERTA_GCN则是将图卷积网络(GCN)与ROBERTA模型相结合的一种尝试。ROBERTA是BERT的一个改进版,主要在训练策略和数据预处理方面进行了优化。而GCN则是一种处理图结构数据的神经网络,可以捕捉节点之间的复杂关系。通过将GCN引入ROBERTA,可以进一步提升模型在涉及图结构数据的任务上的性能,如社交网络分析、知识图谱补全等。(3)EnhancedRepresentationthroughkNowledgeIntEgration,ERNIEERNIE是百度开发的一个知识增强的语义表示模型。与BERT相比,ERNIE更注重知识的融入,通过引入实体、概念等外部知识来提升模型的语义理解能力。这使得ERNIE在处理涉及复杂知识和推理的任务时表现更佳,如实体识别、关系抽取等。其他改进模型Bert模型在文本处理方面具有比较好的性能,但是目前单一的模型已经无法满足我们的需要,在基于BERT模型上还有:RoBERTa、BERT+LSTM、SciBERT、bioBERT、ClinicalBERT等模型。2.4.5LongShort-TermMemory,LSTMLSTM是一种特殊的RNN结构[[]J.Becerra-Rico,M.A.Aceves-Fernández,K.Esquivel-Escalante,J.C.PedrazaOrtega,AirborneparticlepollutionpredictivemodelusingGatedRecurrentUnit(GRU)deepneuralnetworks,EarthSci.Inform.13(2020)821–834.[]J.Becerra-Rico,M.A.Aceves-Fernández,K.Esquivel-Escalante,J.C.PedrazaOrtega,AirborneparticlepollutionpredictivemodelusingGatedRecurrentUnit(GRU)deepneuralnetworks,EarthSci.Inform.13(2020)821–834.2.4自动编码器选择自动编码器去除融合特征中的噪声和冗余,获得最优特征集是最好的选择。融合多个特征可能导致噪声和冗余,以及特征维度的膨胀,这反过来削弱了模型的预测性能。这就是为什么为了减轻这些影响,特征选择至关重要。为此,我们采用了自动编码器(AE)[[]A.Sharma,B.Singh,AE-LGBM:Sequence-basednovelapproachtodetectinteractingproteinpairsviaensembleofautoencoderandLightGBM,Comput.Biol.Med.125(2020)103964.][]A.Sharma,B.Singh,AE-LGBM:Sequence-basednovelapproachtodetectinteractingproteinpairsviaensembleofautoencoderandLightGBM,Comput.Biol.Med.125(2020)103964.2.5模型评估独立测试[[]X.Wang,B.Yu,A.Ma,C.Chen,B.Liu,Q.Ma,Protein–proteininteractionsitespredictionbyensemblerandomforestswithsyntheticminorityoversamplingtechnique,Bioinformatics35(2019)2395-2402.]和K-fold交叉验证[[]T.Fushiki,EstimationofpredictionerrorbyusingK-foldcross-validation,Stat.Comput.21(2011)137-146.]是有效的模型评估方法。我们使用10倍交叉验证来评估模型。该程序包括10次训练。对于每次运行,选择十分之一的数据集作为测试集或保留集,其余数据用于训练。对于每个折叠,在heldout集合上测量性能,并计算10个折叠上的平均性能,将其确定为预测结果。选择准确度(ACC)、灵敏度(SN)、特异性(SP)和马修斯相关系数(MCC)[[]M.Wang,X.Cui,B.Yu,C.Chen,Q.Ma,H.Zhou,SulSite-GTB:identificationofproteinS-sulfenylationsitesbyfusingmultiplefeatureinformationandgradienttreeboosting,NeuralComputingandApplications32(2020)13843-13862.][]X.Wang,B.Yu,A.Ma,C.Chen,B.Liu,Q.Ma,Protein–proteininteractionsitespredictionbyensemblerandomforestswithsyntheticminorityoversamplingtechnique,Bioinformatics35(2019)2395-2402.[]T.Fushiki,EstimationofpredictionerrorbyusingK-foldcross-validation,Stat.Comput.21(2011)137-146.[]M.Wang,X.Cui,B.Yu,C.Chen,Q.Ma,H.Zhou,SulSite-GTB:identificationofproteinS-sulfenylationsitesbyfusingmultiplefeatureinformationandgradienttreeboosting,NeuralComputingandApplications32(2020)13843-13862.其中,TP表示RPI对的正确预测的数量,FN表示RPI对数的错误预测的数量。FP表示被视为RPI对中的非RPI对数,TN表示被视为非RPI对中的RPI对数。2.6本章小结本章节主要从宏观介绍了蛋白质预测模型的五个阶段:数据集准备,特征提取,功能选择,模型训练,模型评估。细节内容围绕特征提取方法以及模型原理来展开,可以发现特征提取方法多样且互不相同。单一特征提取方法对预测结果的影响,以及特征融合后对模型训练结果的提升,我们将在下一节通过实验结果来探讨。3实验结果对比3.1单一特征提取方法性能比较在对RNA结合蛋白的序列提取特征的方法有很多,我们利用对比试验主要针对于几种常用的方法:GTPC(Groupedtri-peptidecomposition),TPC(TripeptideComposition),ACC(AminoAcidsContent),本次实验使用数据集RBP_training数据集,因为数据集比较大使用python代码分为两部分:data_traing,data_testing,通过三种不同的提取特征的方法对同一个数据集处理以后可以发现数据集的规模不同,规模如下图所示:表2提取特征后的数据维度TPCGTPCAACData_training(1364,8000)(1364,125)(1364,20)Data_testing(1252,8000)(1252,125)(1252,20)在训练模型时,所有模型采用统一标准,使用十倍交叉验证。XGBoost模型中线程数为1,最大深度为6,学习率为0.3,深度范围为3:10:1。RF模型把子树设置为100个。最终得到的实验结果如下图所示。可以发现采用GTPC方法在三种常用模型上得到的结果都是最优的。由此可见选择特征提取方法与模型的种类对预测精度影响很大。表3不同提取特征方法对比结果模型提取特征的方法SensitivitySpecificityaccuracyXGBoostGTPC0.54740.49100.5198TPC0.46820.46270.4656ACC0.48970.46270.4765RFGTPC0.55900.42540.4934TPC0.47540.46120.4684ACC0.50720.42540.4670GBDTGTPC0.52870.48360.5066TPC0.48710.43580.4619ACC0.50720.50150.5044不同组实验的AUROC曲线如图4所示A图表示使用ACC特征提取方法的XGBoost模型,图B表示使用ACC提取特征的GBDT模型,图C表示使用GTPC提取特征的RF模型、图D表示使用GTPC提取特征的XGBoost模型。图中不同颜色线条表示十次训练的AUROC曲线,ABCD图中的AUC值均位于0.4~0.5之间。图43.2特征融合后的性能比较由上一部分实验可以发现AUROC值始终在0.5左右,并且使用最好的GTPC方法的模型准确率也均在50%左右,说明单一特征提取效果不好,所以为了提高模型准确率,尝试使用多特征融合的方法,并采用10倍交叉验证实验。图8:十倍交叉验证示意图为了比较单一特征和特征融合对RPI预测结果的影响,在数据集RPI48上,将四个RNA特征与五个蛋白质特征逐个组合,形成20个RPI特征向量组合。将数据集RPI488运行在朴素贝叶斯分类器(NB)、自适应提升(AdaBoost)[[]X.T.Lin,X.W.Chen,Het

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论