植物mirna序列及其功能的预测方法研究与实现_第1页
植物mirna序列及其功能的预测方法研究与实现_第2页
植物mirna序列及其功能的预测方法研究与实现_第3页
植物mirna序列及其功能的预测方法研究与实现_第4页
植物mirna序列及其功能的预测方法研究与实现_第5页
已阅读5页,还剩49页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TheresearchandimplementationofpredictionmethodofthentmiRNAsequenceandfunctionMicroRNA(miRNA)havebeenwidelyattendedinrecentyearsandareendogenoussmallnon-codingRNAwhioselengthisapproximay22nt(nucleotides),andtheytakepartinanumberofimportantlifeprocessesofntsandanimalsandpost-transcriptionalregulationbyinhibitingthecorrespondingtargetgenetranslationordegradingthem.Interdisciplinarystudybasedonthelifesciences,computerscienceandstatisticsproducedbiologicalinformationandithasyedanimportantroleinmakingthemiRNAresearchdevelopmentrapidly.Thispaperstudiesthepredictionofthepre-miRNAandmiRNAmaturesequences,functionalsimilaritybetweenmiRNAsandthepredictionofmiRNAfunctions,andweobtainedsomeinnovativeresults,theseresultsincludethefollowingthreeaspects:Firstly,weproposedanintegratedpredictionmodelwhichcanbeusedtopredictntpre-miRNAandmiRNAmature.Currently,asmostofpredictionmodelshavebeendevelopedforanimalsandevenhuman,andcanonlypredictpre-miRNA.Inordertoresolvethoseproblems,weproposednew152featuresandnewfeatureselectionalgorithm,calledB-SVM-RFE,byimprovingtheclassicalSVM-RFE,andobtainedanintegratedpredictionmodel,namelymirntPreMat,basedonSVMandthebestfeaturesetselectedbyB-SVM-RFE.Theproposedmodelobtainedthebetterperformancebycomparingwithotherpredictionmodelsandalsoobtainedsatisfactoryresultson9differentntspecies.Theaboveexperimentresultsexhibitthattheproposedpredictionmodelnotonlyhasefficientandreliableperformancebutalsogoodgeneralizationability.Secondly,weproposedacalculationmethodofthefunctionalsimilaritybetweenmiRNAs.Astheexistingmethodshavesomeproblemssuchasmostcannotbesuitablefornt,cannotobtainfiable esandthecalculationmethoditselfhassomedefects,etc,weproposedourcalculationmethod,calledPPImiRFS,fortheaboveproblems.ThemethodcomputesthefunctionalsimilaritybetweenmiRNAsbasedontheweightedprotein-proteininctionnetworkandrelatedgraphalgorithms,andthenetworkweightwascalculatedbasedonthesemanticsimilarityofGeneOntology(GO).Wealsoproposedanimprovedbreadth-firstsearchalgorithm.ThePPImiRFSissignificantlyoutperformsothermethodsbycomparingwithothermethods.ThemethodwasappliedtothedataofArabidopsistopredictthepotentialfunctionofmiRNAs,andachievedsatisfactoryresults.Finally,weproposedanewpredictionmethodofmiRNAfunctionbasedontheresearchresultsofthefunctionalsimilaritybetweenmiRNAsandthepredictionofproteinfunction.methodconstructedmiRNAfunctionalsimilaritynetworkbasedthefunctionalsimilarityscorescalculatedbyPPImiRFSandusingthresholdselectionalgorithmbasedclusteringcoefficient.TransductiveMultilabelclassificationalgorithmwasappliedtothatnetworktopredictthepotentialfunctionofmiRNAs.Experimentsshowthatthemethodachievedverysatisfactoryresultsonmultipleevaluationcriterions.

:nt;miRNA;sequenceprediction;functionalsiilarity; 绪 研究背景与意 研究现 植物miRNA序列预 植物miRNA功能预 本文的研究内容及结 基于SVM的植物miRNA序列预 植物miRNA预测模型的构建框 正负数据集选 正负样本数据选 类不平衡问题及SMOTE算 特征提取及特征选择算 植物miRNA前体及成熟体特 改进的SVM-RFE特征选择算 分类器性能分 性能评价指 实验结果与分 基于 ntPreMat的拟南芥miRNA预 实验数据 拟南芥成熟体miRNA预 本章小 基于权重蛋白质互作网络的miRNA功能相似性计 miRNA功能相似性计算的整体框 权重蛋白质相互作用网络的构 蛋白质相互作用网络的集 蛋白质相互作用网络权重计 靶间功能相似性计 网络最短路径相关算 靶间功能相似性计 miRNA功能相似性计 实验结果与分 实验数 及聚簇数据的实验结果及分 一致胁迫反应数据的实验结果及分 PPImiRFS性能评 与现存相似方法对 案例研 本章小 基于直推式多分类算法的miRNA功能预 miRNA功能预测的整体框 基于聚类系数的miRNA功能相似网络构 聚类系 基于聚类系数的阈值选择算 基于直推式多分类算法的miRNA功能预 直推式学 多分 直推式多分类算 实验结果与分 实验数据集及预处 算法性能评价指 功能预测算法的选择及性能比 本章小 参考文 攻读期间学术情 大连理工大学使用 随着后组时代的来临,越来越多的植物物种的组完成,使得研究人员能够更加全面的研究和了解生命进程。由于组计划及相关研究的催生,方法也在飞速发展进步,目前,高通量方法已经受到全球研究人员的重视,并得到广泛应用。因为该方法的快速和高通量的特点,使得我们现在能够更加快速的得到大量数据,这么大量的数据甚至是传统时无法。有了这么大量的研究数据,如果不能很好加以分析利用,那么这些数据将是一堆,毫无用处。在组计划提出后,学科,最终从大量生物学数据中挖掘出我们所感的知识,进而指导我们对于有关生得到足够的重视。但是,人类组结果显示,只有大约2%左右的编码序列,而长度很短的序列尤其受到研究人员的关注,这些序列被称为小RNA,其中包括microRNA、siRNA以及piRNA等。MicroRNA,又叫miRNA,是一种长度大20~25个核苷酸,参与转录后调控进而调控该mRNA的表达[1]miRNA要作用才逐渐们所关注[2]。许多研究都表明,miRNA在生物体中参与了生长、发育细胞的增殖与凋亡的形成等诸多生命过程[3]随着这么多年的发展对miRNA3万多条动植物的miRNA序列被公布,且每年数目还在不断增加[4]。所以,未来对miRNA的相关研究依然会是生物信息学里的热门领域。因为在植物中,miRNA参与了疾病的发生与发展,植物对于外界的各种刺激所作miRNA的调控有着密不可分的关系[3]miRNA小RNA更为简单和高效。所以,在对植物病虫害的诊断与防治,对的研发等在植物中miRNA的表达是一个多步骤的过程首先在RNA聚合酶II的作用下,miRNADNA处转录形成初始miRNA(pri-miRNApri-miRNA序列在Dicerpri-miRNA茎环结构中远离或是靠近环端的双链位点进行切割,形成前体miRNA序列(pre-miRNA),该序列长度大约为64~303pre-miRNA60~70个核苷酸的长度长,且pre-miRNA复杂。接下来,Dicer内切酶作用于另一端的双链位点,完成第二次切割,释放出由成熟体miRNA序列与来自pre-miRNA序列且互补于成熟体miRNA序列的片段组成的双链,即miRNA:miRNA*。随后,在Exportin-5HSTRNA诱导RISCArgonauteRNA解旋酶的作用,miRNA:miRNA*RISCmiRNA,miRNAmiRNAmiRNA与其靶mRNA互补配对良好,能达到近乎完全互补,所以,植物miRNA主要是通过使其靶mRNAmiRNA也存在一部分不完全互miRNAmRNA翻译以达到抑制表达的作用。miRNA与其靶mRNA互补配对时,主要是miRNA的5’端的2~8位碱基,即区域,与mRNA上的靶位点处的序列片段匹配[5]。miRNA目前,预测植物miRNA序列的方法主要分为两类:实验和计算方法预测。虽然实验方法能够明确鉴定miRNA的存在与否,但是它们仍然是费时和昂贵的。在短的RNA序列后,将其比对到参考组已经成为了一种首选方法[6],但是许多小RNA分子可能不是miRNA,而许多真实的miRNA可能只在极少数不易通过实验实现的情况下表达。由于这些原因,计算预测方法将在miRNA序列预测领域扮演至关重要的角色。但计算预测方法也只是miRNA预测的第一步,最后为了证实预测的结果,还下三类:比 组方法,基于同源方法和从头计算方法。比 组方法主要利了一些pre-miRNA的主要序列或二级结构的同源保守性。这些方法在pre-miRNA搜索过程中考虑了多重比对。基于这种方法的算法包括miRseeker[7],MiRFinder[8]和BayesMiRNAfind[9]等。随着miRBase中已知的pre-miRNA数量的不断增加,使得利构特征对潜在的pre-miRNA进行过滤,最终预测出新的pre-miRNA。ERPIN[11]使用RNA比对信息作为权重矩阵搜索同源pre-miRNA。比较组方法和基于同源性方法不能识别未知或是组中没有近同源性的pre-miRNA。因此,比较方法是无法应用于还没有相关物种被的新组。这种情况下,从头计算方法就显得十分必从头计算方法在预测miRNA时,不需要利用序列和结构的保守信息,也不需要比较序列分析。据统计,非保守的miRNA数量相对较多,这使得识别那些没有近同源性的全新的miRNA成为可能。在这类方法的发展中,生物信息学也扮演了重要的角色。从头计算方法可以分为三类:输入候选pre-miRNA序列,然后将其分类为真或假pre-miRNA;输入组序列和其他信息,然后在该组序列上预测pre-miRNA;只输入组序列,然后在该组序列上搜索预测所有可能的pre-miRNA。第一类方法目前有Triplet-SVM[12],MiPred[13]和microPred[14]等。第二类方法主要包括miR-abela[15]MIReNA[16]miRPara[17],miRPred[18]和miRANK[19]等。随着下一代技术的出现与普及,为miRNA的高通量识别提供了前所未有的机会,并且能够识别许多具有高可靠性的小RNA。下一代技术已经使得组织特异和发育阶段特异的miRNA以及低表达水平的miRNA的高灵敏度识别成为可能[20]。下一代数据主要是来自于Illumina/Solexa,ABI/SOLiD,and454/Roche产生的长度范围在200到300左右的序列片段。通过这些数据,我们能够以空前的灵敏度识别出已知的和全新的miRNA[21]。目前广泛使用的基于高通量技术的预测方法有miRDeep[21],miRDeep2[22]和miRyzer[23]等。miRNA目前,已经被证实的动植物miRNA3万多条,并且每年还在大量增加,但是,其中已知功能的miRNA数量却非常少,而我们研究miRNA的最终目的不仅仅是知道生物体中存在着哪些miRNA,更重要的是要知道这些miRNA都参与了什么生命进程,体现了什么功能,,才能指导我们理解生命的奥秘,指导我们疾病的,最终引领我们战胜各种疾病。在植物中,miRNA作为表达的显著调控者,参与了许多生物过程,例如发miRNA是成组的参与到许多生物过程[24]。因此,参与到相同生物过程中的miRNA应该有一致的或是相似的功能。据我们所知,目前已知功能的miRNA数量有限,一些miRNA也是仅仅知道部分功能。所以,miRNA功能的研究已经受到了越来越高的关注。最近几年,生物学家通过对比miRNA功能的方法,以及基于与已知分子功能或是参与某些特定胁迫反应的miRNA间的关系,预测到了许多未知功能miRNA的潜在功截至目前,已有一些推断miRNA功能相似性的方法出现。Wang2010年提出了一种基于人类miRNA与疾病关系数据计算miRNA功能相似性分数的方法[25]。该计算方法主要通过计算与miNA相关的疾病间的功能相似性进而得到miNA间的功能相似性,这里将miNA相关疾病数据组织成为有向无环图,且与之前通过计算本体(neOntology,)语义相似性权重来推断蛋白编码间的相似性方法相似[26]。2013年hn等人通过在人类遗传学数据(OI)上应用随机游走算法预测潜在的疾病与miNA关系[27]。该方法假设与表型相似疾病相关的miNA之间的功能也是相关的。以上两种方法充分利用了表型相似性疾病间的关系,并且在人类数据上获得了十分满意的性能。但是,目前并没有植物相关的疾病网络数据,因此,这两种方法无法应用到植物上。因为miNA是通过调控其靶转录参与到生物过程中的,因此,可以通过研究miNA的靶间的关系进而获得miNA之间的关系。目前已有一些基于靶间关系的计算方法,其中最简单的一个就是由Shlgi于2007年[28]。该方法使用rd相似性度量计算出两miNA的靶集间公共靶所占比例,用该比例值作为这两个miNA间的功能相似性值。因为相较于人类和其他动物miN,植物miNA调控的靶数量很少,并且很多植物miNA的靶集间没有交集,致使使用该方法计算出的结果很多为0,因此,该方法也不适合于植物。2010年由Yu等人提出了一个研究miNA功能相似性的系统化的方法[29]。该方法通过计算两个miNA靶间的O语义相似性权重来量化这两个miNA间的功能相似性。一个称为共调控功能模块的新定义由u等人于2011年提出,该功能模块具有以下三个特征:被一对miNA共同调控,富集与同一个O功能类,在蛋白质相互作用网络(proteinproteinin tionnwork,PPIN)中距离近[3]。在他们的方法中,认为如果一对miNA共调控至少一个功能模块,则这对miNA就是功能协同的。这个方法的缺点是,它的结果只是0或1,即是功能协同,不能给出一个数值结果评价功能协同的水平高低。最近,由哈工大的研究人员提出了一个采用靶基因网络计算miNA功能相似性的方法[31]。该方法不仅利用了靶在功能相似网络中的相互关系,同时还考虑到了miNA与靶结合的紧密程度,其中功能相似网络是通过计算各靶间的GO语义相似值构建的。目前,PPIN已经被广泛应用于预测蛋白质功能[32]、蛋白质复合物[33]以及功能相似性[34]等领域。并且,最近哈尔滨医学的研究人员已经利用PPIN计算人类miRNA功能相似性,并取得了非常满意的结果[35]。该方法首先将来自多个数据库的PPIN数据进行集成,然后利用靶在该集成网络中的距离关系计算出功能相似性,进而得到miRNA间的功能相miRNA序列预测方法中存在的问题,即大多数只适合于miRNApre-miRNAmiRNAmiRNA预测模型。我B-SVM-RFE152pre-miRNAmiRNAmiNA即PPImiFS该方法基于采用O语义相似性权重构建的PPIN和相关图理论,并且我们提出了一个改进的广度优先搜索算法用来计算PPN中靶基因间的功能相似性,进而通过两miNA的靶集间功能相似性获得miNA间的功能相似值。最后,我们还实现了一款方便可用的本地版程序,以便相关研究人员使用。通过在拟南芥数据上的实验,我们的方法取得了超于其他相似方法的性能。miRNA功能相似性问题上的研究成果,及受到蛋白质功能预测相关研究的启发我们还提出了一个基于miRNA功能相似网络及直推式多学习预测miRNA功miRNA间的功能相似值,然后miRNA功能相似网络,最后在该网络上应用直推式多标miRNA的潜在功能。通过实验,我们的方法在多个指标上都取得了令第一章绪论,介绍了miRNA相关理论背景及研究意义,详细介绍了目前在miRNA序列预测及功能预测上的研究成果,并分析了它们的优点与缺点,最后对第二章详细描述了我们所miRNA前体及成熟体序列预测方法,SMOTEB-SVM-RFE芥数据进行miRNA预测。miRNA功能预测方法的流程,具体描述了基于聚类系数的miRNA功能相似网络构建算法,直推式多分类算法,最后计算了在拟南芥数miRNA2.1图2.1集成分类器mirntPreMat构建流程Fig. Theflowchartofconstructingtheintegratedclassfier 有和真实的植物miRNA前体序列相似的二级结构且之前并没有被证实是真实的植ntPre(2开始,将这些序列作为正数据集;(6)miRNAB-SVM-RFE63;(8)最终,通过将mirntPre和mirntMat结合在一起来构建集成分类模型mirntPreMat。序列数据,而负集是由虚番茄、大豆和拟南芥数据组成。我们从miRBase数据库(19版本)[4]中总共获得了6378条植物miRNA成熟体序列和5166条植物前体,这些数据都经过了实验验证。然后,排除掉冗余的序列,将非冗余的序列数据作为正数据集,并采用Vienna[37]工具包中的RNAfold预测出这些序列的二级结构。在这些前体miRNA序列中,3126条非冗余且具有单一茎环结构的序列作为训练mirntPre模型的真实的数据样本。植物前体miRNA序53nt938ntmiRNAmiRNAmiRNAmiRNA*的位置。在本研究中,真实的植物前体miRNA在其已公布的成熟体miRNA的位置处截断,该位置既可能在5’端,也可能在3’端,截断后的前体miRNA序列作为训练模型mirntMat的真实的数据样本。进而,体miRNA序列上除了真实成熟体miRNA的位置外的其他任何位置截断所得的前体miRNA序列都可以作为虚数据样本截断后,miRNAmiRNA(CDSs),几乎所有被公布的miRNA的位置是分布在非转录区域或者是间隔区域在组中,miRNAmiRNAmiRNAmiRNA茎环结构,否则,分类模型将不能产生有意义的分类结果。我们从参考序列数据库(RefSeq)中获取了番茄、大豆和拟南芥的,并选取其中不具有可变剪切的上19xMFE

f(x)

b

其中:lengthmiRNAa1.339e12,b2.7783e13c45.843作为最合适的参数值。稳定性由f(x)计算得出,且选择标准为f(x)4.42。最终,我们获得8494条虚前体miRNA序列作为负集数据miRNAmiRNA*序列所在位置剪切的序列片段,然后将这些序应该包含mirntMat的训练集中正集样本,或是被正集样本包含。在虚假前体SMOTE2002,Chawla出了合成少数类过取样算法(Syntheticminorityover-samplingtechnique),SMOTE类问题[36]SMOTESMOTENx的kkNy1,

xyi(i12,Nzipixrand(0,1)(yix),i1,

)miRNAMiPred[13]2916XYX,YAC,U,G。%XY

XYXYL列相关的特征是%GC,表示体miRNA序列中鸟嘌呤G与胞嘧啶C的含量之和%(GC)(GC

L

GC表示其在该序列中的出现次数。该分类器所采用的二级结构相关特RNAfoldp-value0.01,37℃,所得的最小自MFE,最终获得如下特征:(1)dGMFEL[38]。MFEI1dG%(GCMFEI2dGn_stems,其中n_stems表示个茎[39](3)标准化的碱基对倾向dPtot_basesLtot_basesmiRNASS(x由P(SeE

ZZ

eERTESR8.31451Jmol1K1T表示温度(37℃)。碱基i与j的碱基对概率p

基对,则1,否则0

ijpijlog2(pijL

(

p2(5)标准化碱基对分布dD

i

L

[41]。(6)第二(菲尔德)特征值dF们可以通过一个树图GRNASL(G是树图GL(G的第二特征值dFdF[L(dF[L(G)]可以用作RNA二级结构的相似性度量(6)结构特征dG,dP,dQ,和dFzGzPzQzDzFRZ(dX)dXdX;2R

(dX

dX和dX是特征dX的样本均值和样本方差,是基于来自原始序列随R个序列计算得到的,随机序列是由”Altschul-Erickson”二核苷酸洗牌算法产生的[42],R103。microPred[14]RNAfoldMFEI3dGn_loops和MFEI4MFEtot_bases,其中n_loops是二级结构的数目;标准化集成自由能NEFEEFEL,其中EFERTln(Z[37Freqe(EFEMFE)RT[37i,i,

pij(1pij

MFEEFELMfolddS,标准化的结构熵dSL,结构焓dH,标准化结构焓dHL,结构的熔化能Tm100dHdS,标准化的结构熔化能TmL这些热力学相关特征都是由

A

L,G

LG

LX

XY数目,XYAUGC),(GU)

Avg_BP_Stemtot_basesn_stems%(AU

n_stems,%(G

n_stems和%(GU

n_stems第四组特征 ntMiRNAPred[44]新引入的特征,即最小自由能索MFEI5MFE%(GC_SMFEI6MFEstem_tot_bases,其中%(GC_SAvg_mis_numtot_mismatchesn_21nts。最后一组是我们在本研究中新引入的69个特征,包括最小自由能索引MFEI7

%(GC)_Begin_n_21nts,MFEI8

%(GC_End_n_21ntsMFEI9MFEAvg_mis_num,其中%(GC)_Begin_n_21nts是前21个碱基中碱基GC所占比例,%(GC)_End_n_21nts是后21个碱基中碱基GC所占比例;茎的前21个碱基中错配数Mis_num_begin和后21个碱基中的错配数Mis_num_end;从miRNA前体序列的前和后分别提取的Triplet-SVM 中的特征G(((_begin_SA(.(_begin_S和C(((_end_SG_end_SSVM-RFEnn

xT y;(2)初始化特征集s1,2,152和排列好的特征列表r,nTns为止;(3)根据特征集s中的特征在训练样本上计算相应的特征值XX0s)SVMSVMtrainXy;(4)为length(swyx;(5)对于所有的i计算排列索引cw)2kk k

argmin(crsfr(7)ss(1:f1,f1length(s;(8)s和r后,如果在rsr中ss2.22.2B-SVM-RFEFig. TheflowchartofB-SVM-RFE试错误识别率(TestErrorRate)52.32.3Fig. Thedecisionmethodofthebestfeature标,这些指标能很好的体现出一个分类器的真实性能,他们的计算如下所示,Acc

SESP

TPFNFPTN

TPFPFNSESE

其中,TP比例TN表示预测结果的真负率即在预测为结果中有多大比例的结果确实为FP例。FN关于预测前体的分类器研究已经发展了很多年,并且也提出了很多被大家公认的性能极优的分类器。这里,为了体现所前体分类器mirntPre的性能更miRabela,microPred)2.12.1Tab. Theperformancecomparisonof分类器性能指标分类 mir从表2.1中可以看出,mir ntPre在敏感性、特异性、准确率以及敏感性和特异性为了体现我们提出的mirntPreMat具有很好的推广能力,我们将玉米(zma)。mirntPre和mirntMat在这些植物上的准确率如表2.2所示。表2.2mirntPre和mirntMat在9种植物上的准确Tab. Accuracyof ntPreand ntMatonthenine不同物种下的准确率分类 表2.2的结果显示,mirntPre和mirntMat在9个植物物种中都得到了87%以 miRNAmiRNA物种间体现出了保守的进化关系[48]miRNA,一个是我们可以通过序列和结构相似性识别同源片段,另一个是可以使用已知的条拟南芥成熟体miRNA,来自于47个。大量物种可能包含相同的miRNA,miRNAmiRNAmiRNA据我们从miRBase(21版本)得到,总共包括8069条成熟体miRNA序列。为miRNA,miRNA芥组序列上,发现具有相似性的序列,进而预测拟南芥的miRNA,所以,我们还需要拟南芥的组数据,这些数据我们从拟南芥数据库TAIR[50]。miRNA基于其他植物的成熟体miRNA序列以及拟南芥组数据,并通过我们miRNAmiRNA比对到拟南芥组的每条序列上,依据一些条件来选择比对位点,基于比对的结果在序列上截取待预测的拟南芥前体miRNA序列,最后,通过我们提miRNA前体miRNAmiRNAmiRNA,miRNA。SEED[51]miRNA序列分为大致相等的四条短序列。然后,依次将这四条短序列比对到组miRNA1937配,并且没有未知碱基“N”4318miRNA将以上获得的待预测前体miRNA序列输入到我们的mirntPreMat预测模型中,744miRNA基于权重蛋白质互作网络的miRNA我们想要找到一种计算方法来预测miRNA的功能。目前,已有一些关于计算预测作用网络来计算miRNA间的功能相似性,并且实现了一个公共可用的计算工具由于miRNA的功能是通过调控其靶向的靶抑制或降现的。所以,我们通过计算出miRNA靶向的靶集间的功能相似性来计算miRNA间的功能相似性。miRNA3.1据库的蛋白质相互作用网络数据进行集成,通过计算蛋白质间的本体轮(GeneOntology,GO)[53]语义相似性为集成的相互作用网络,获得一个带有GO语义相似性权重的集成蛋白质相互作用网络。然后,由于实验证实的植物靶数据十分有限,所以,我们通过两个常用的植物靶预测工具(psRNATarget[54]和Targetfinder[55],参数使用它们的默认参数)预测miRNA的靶,获得每个miRNA的靶集。最后,基于构建的权重蛋白质相互作用网络及改进的广度优先搜索算法计算一对miRNA的靶集中任意两个靶间的功能相似性,得到一个功能相似性矩阵,进而通过平均最佳匹配方法(theaveragebest-matched,ABM)3.1PPImiRFSFig. TheflowchartofPPImiRFS在图3.1中,(A)是靶预测流程;(B)是集成的蛋白质相互作用网络构建流程;(C)是计算miRNA间功能相似性得分流程。其中,实心箭头表示的是PPImiRFS的工作流程,空心箭头表示的是在该步所使用的计算方法或数据集。目前,已有很多机构和发布了蛋白质相互作用网络数据,但是,这些数据从规使最终的计算结果的问题,为了解决这个问题,很多研究人员都采用了将多个的问题。在本部分研究中,我们从5个广泛被使用的数据库中 库分别 TAIR()[50], /pair/[57]BioGRID [58],IntAct()[59]。最终得到的集成数据集包含1098588484PPIN3.13.1PPINTab. TopologicalcharacteristicsoftheA.thaliana比例比例例7,11570,69912,8076,20412,7765,61916,94316,46314,1729,480110,98588,4841

关系数目及 由于每个蛋白质都具有与其功能相对应的语义注释,即GO注释,所以,GO络数据进行。本体论即GO,是为了跨所有物种统一表示及产物属性而componentCC即细胞或细胞外环境部分;分子功能(molecularfunction,MF),即产物在集合。本体论被构造成一个有向无环图,每个GO注释与在相同域中的一个体算法选择其中的基于图的语义相似性计算方法。实验中所使用的GO数据集是由权重,最终,构建集成的蛋白质相互作用网络。靶间功能相似性计在这个网络上计算任意靶间的功能相似性。在这部分中,我们假设两个靶在该迪杰斯特拉算法是由计算机科学家迪杰斯特拉于1956年,该算法目前存在弗洛伊德算法是一种寻找带有正或负边权值但没有负环的图中所有点对他于1962年提出了该算法。该算法的思想是由图的带权邻接矩阵开始,通过n搜索算法。但传统的广度优先搜索算法只适合于无权网络,而我们的问题是针对靶间功能相似性计为了计算miRNA间的功能相似性,我们首先需要计算出这两个miRNA的靶集

genei和genej,基于构建好的蛋白质相互作用网络及进的广度优先搜索算法获得genei和genej间的最短路径,采用最佳平均累积权重 Fi,jmax

weight(e)

其中,函数max(x)表示,当在蛋白质相互作用网络中genei和genej间存在不个,则Fi,j1。一个mn维的功能相似性矩阵。基于这个靶集间的功能相似性矩阵和改进的ABMmiRNAimiRNAjABM maxFx,y

maxFx,yFSTarSeti,

mm'nn

其中,n’和m’是两个靶集中不包括在蛋白质相互作用网络中的靶miRNAmRNA序列。我们从miRBase(21版本)到全部拟南芥成熟体miRNA序列,包括427条序列,成员数不小于1的有47个,可以聚成30个簇(对于两个miRNA基10kb,miRNA)[61]。拟南芥mRNA自拟南芥数据库TAIR,即其中的所有转录序列(版本10)。miRNAmiRNAmiRNA。由于,目前没有拟南芥针对生物和非生物胁迫反应的公共可用数据库。因此,我们从几十篇中搜集了属于相同的成熟体miRNA普遍表现出序列相似性和完全一致的区域,该区域是miRNA靶识别时的区域[62]。因此,相较于不同的miRNA,内miRNA[25,30,34]PPImiRFS拟南芥成熟体miRNA分为三类:内、间和随机选择的miRNA对,其中随机选择的miRNA对既不包括内的,也不包括间的miRNA对。然后,用PPImiRFS分miRNAWPPINs是分别针对GOWPPINsBP、CC和MF3.2AmiRNA性得分,发现他们之间存在着显著差异(克鲁斯卡尔-秩和检验,df=2,结果如表3.2所示)。内的miRNA间功能相似性得分显著高于间和随机选择的miRNA组(3.2)。表3.2内、间和随机选择的miRNA对的功能相似性统计分析结Tab.3.2 Thestatisticalysisresultoffunctionalsimilaryscoresofintrafamily,interfamilyandrandom-selectedmiRNApairsPPImiRFS1.41E-5.51E-PPImiRFS1.42E-2.39E-PPImiRFS9.28E-1.69E-1.2354E-1.06E-2.82E-1.40E-2.19E-

许多成熟体miRNA在组上的位置是极为接近的,进而形成一个聚簇。之前已miRNA模式[63],miRNA的。因此,我们也采用聚簇miRNA数据测试PPImiRFS的性能,实验方法与采用数BP、CCMF3.2BmiRNA(克鲁斯卡尔-秩和检验,df=2,结果如表3.3所示)。聚簇内miRNA组的功能相似性得分显著高于其他两组(3.3)。3.3miRNATab.3.3 Thestatistical ysisresultoffunctionalsimilaryscoresofintracluster,interclusterandrandom-selectedmiRNApairsPPImiRFS1.5538E-4.04E-3.88E-PPImiRFS7.2078E-1.57E-3.20E-PPImiRFS2.0064E-9.86E-8.14E-9.0311E-9.54E-1.07E-3.81E-1.28E-1.57E-

为了验证我们的结果,我们也将另两个方法(miRFunSim[34]GOSemSim[29])用在以上的和聚簇数据,获得的结果分别显示在图3.2C和D中,与我们的方法得到的结果相类似,结果的统计分析分别列在表中。最后,这两个方法的结果很好的验PPImiRFS图3.2基于miRNA和聚簇数据的PPImiRFS性能评Fig. TheperformanceevaluationofPPImiRFSbasedonmiRNAfamilyandclustermiRNA,它们间的324miRNA,它们反应于一致的生物或非生物胁迫;另一类是负测试324miRNA。为了获得更客观50PPImiRFSmiRNA3.3miRNA3.3miRNAmiRNAFig.3.3 ThestatisticalresultofmiRNApairsinresponsetotheidenticaltypesofstressandrandomlyselectedmiRNApairs3.3中,红色箭头表示的是参与同一胁迫反应的miRNA对的功能相似性平均值。正态分布曲线表示的是随机选择的miRNA对的平均功能相似性值。从图中可以明显看出,参与同一胁迫反应的miRNA对之间的功能相似性显著高于随机选择的miRNA对。PPImiRFSPPImiRFSmiRNA胁迫反应关系数据测试我们方法的计算性能。首先,从中整理好126个高miRNAmiRNAmiRNAmiRNA90951个miRNA对。在这些miRNA对中排除掉处于同一、同一聚簇和参与同一miRNAmiRNA99PPImiRFS100100miRNA324324性)绘制出受试者工作特征曲线(ROC),并计算出曲线下方面积(AUC)。AUCPPImiRFSAUC=100%,则表示所有正样本都被排在第一位。AUCPPImiRFSBP、CC和MFWPPINsAUC84.15%、79.49%79.07%。评估结果表明,我们提出PPImiRFSmiRNAmiRNABPWPPINPPImiRFSCCMFROC3.43.4GOPPImiRFSROCFig. ROCcurveschartofPPImiRFSbasedondifferentGOmiRNA择两款工具(miRFunSimGOSemSim)PPImiRFSmiRFunSim是2013年由哈尔滨医学一个研究小组,它主要依靠无权的蛋白质相互作用网络和靶在网络中的最短路径数计算miRNA间的功能相似性,该方法只是利用了PPI网络的机构特征。一项研究已经发现,蛋白质相互作用网络比无权的更加有效[64]。所以,我们的方法选择了的PPI网络。因为GO数据目前还不是很完整,导GOSemSimPPImiRFSPPIGOROCAUCmiRFunSimGOSemSimROCAUCPPImiRFS数据也是同样的数据,miRFunSimGOSemSimAUC81.2373.38%,都比PPImiRFS84.15%小,ROC3.53.5ROCFig. ROCcurvesofthethreecalculationmiRNA的聚类算法对427条成熟体miRNA序列进行聚类,并用47个作为标准聚簇对聚类PPImiRFS、miRFunSimGOSemSim427miRNAs90951miRNA建三个miRNA功能相似性网络。通过对clusterMaker[65]中的8个聚类算法(AffinityPropagationcluster,AutoSOMEnetworkclustering,ClusterFuzzifier,ConnectedComponentsCluster,FuzzyC-MeansCluster,MCLCluster,SCPSClusterandTransitivityClustering)ClusterONE[66]进行对比实验,我们发现,相较于其他聚类算法,ClusterONE和ConnectedComponentscluster427miRNAsClusterONEPPImiRFSmiRFunSim,2,最小密度0.45,GOSemSim,10.85PPImiRFS、miRFunSimGOSemSimClusterONE,分别得到的聚簇数57、7775PPImiRFS、miRFunSimGOSemSim,ConnectedComponentscluster0.4、0.550.9,所获得的聚簇数目50、516。我们采用在参考文献中使用的评估矩阵对聚类结果进行评估[67],该评估矩阵由精度、率、F-measure、敏感性、阳性预测值和准确率。对ClusterONEConnectedComponentsclusterClusterONEmiRNAFig.3.6 TheperformancecomparisonofClusterONEbasedonthemiRNAnetworksconstructedbythethreecalculationmethods3.7ConnectedComponentclustermiRNAFig.3.7 TheperformancecomparisonofConnectedComponentclusterbasedonthemiRNAnetworksconstructedbythethreecalculationmethods3.6ClusterONE,PPImiRFSPPImiRFS3.7ConnectedComponentclusterGOSemSim393miRNAsmiRNAs中,最终得到很高的敏感性;其他聚簇中的miRNAs大多出现在相同中,这就使得GOSemSimPPImiRFSmiRFunSim综上所述,相比于其他相似方法,PPImiRFSmiRNAPPImiRFS(非生物性)TMV-Cg胁迫反应(生物性)的miRNAs间的功能相似性。首先,参与TMV-Cg胁迫反应的miRNAs分为两个部分:miRNAs和测试miRNAs。测试miRNAs与剩余的拟miRNAs(TMV-CgmiRNAs)miRNAs。miRNAsmiRNAsmiRNA对进行排序。当阈值设为0.5时,我们重新找回miRNAs(miR823)TMV-CgmiRNAs,miR165、miR156、miR418、miR160miR393。针对参与miRNAs,0.5miRNAs,miRNA,miR418、miR166、miR160、miR841miR169miRNAs和高盐胁迫反应的,但是已有文章公布了它们中的一些参与其他胁迫反应[68,69,70]。在未来,通过生物学实验,可以对这些案例进行进一步的验证。实验的3.43.4参与高盐和TMV-Cg5Tab. Thetop5predictedmiRNAsinresponsetohigh-saltandTMV-Cg胁迫类 相似性得高 miRNA法,PPImiRFS,GOPPImiRNAsmiRNAs算内、间和随机选取的miRNAs,以及簇内、簇间和随机选取的miRNAs间的功能相似性值,我们发现,在相同和聚簇中的miRNAs具有更高的功能相似miRNAsmiRNAs间的功能相似性是,是基于PPI网络和预测的靶集。由于植物PPI的靶通常也具有较高的假正率。因此,随着PPI网络质量的不断提高和性能更好的靶预测工具的出现,我们的方法将能获得更高的性能。最后,如果PPI网络和GO,PPImiRFSmiRNAmiRNAmiRNAmiRNA算法计算miRNA间的功能相似性,这部分采用我们之前的研究成果,即miRNAPPImiRFS;miRNA功能相似网络;最后,在该网络上应用直推式多分类算法预测miRNA功能。在网络中,节点i的聚类系数CiCi

kiki

ni表示节点i前ki个邻居间边的数目,如果ki1,则定义Ci0。最后,该1NC NNN0,定义C0

miRNA010.01个阈值tmiRNA该是无规模的和高模块化的,因此,它的聚类系数ct应该比随机网络的聚类系数crt明显更高。定义ct和crt之间的差值为ctctcrt一个使得ct0.01ct0的那个阈值t。类系数,所以,采用统计学方法计算随机网络的聚类系数[71]。在使用阈值t构建的网络中,假定N是所有节点的数目,Ki是节点i的度,那么随机网络的聚类系数crt能 crt

k2kk3

k

NN

和k2

NNk2。最终,利用得到的阈值Tt1i1i1i1i

值大于或等于阈值TmiRNAWFSmiRmiRimiRjmiRNA4.14.1Fig. Thresholdselectionalgorithmbasedonclustering多分图像和注释[76]等。本文所研究的miRNA功能预测也属于多分类的范畴。直推式多分类算通过与其他多分类算法比较分析,最终采用在2011年直推式多分类算法预测miRNA功能[77]。该算法基于全体样本(包括有和无样本)间的 niUj

iji

0,

ij

ijiji其中,U表示无样本的索引集,L表示有样本的索引集,Ni表示样本的kWiz表示样本xi和xzW1

,

T表示样本x 组成,其中表示样本x

i

m在 组成中所占比例,并且保证ij1。由于在 分类问题中,无法获,训练样本的确切组成,所以,假定被标记的类拥有相同的权重,即ij,其定,

ifli

i

其中Yi表示样本xi的集。将(7)经过一系列的简化和推导变换,最终得 AjAj

UL UUAIWI为单位矩阵,WA

ALU 于LjLj,所以,可得最终计算如AUUUj

UU的平滑假设预测无样本的功能。该平滑假设认为,相似的样本应该有相同数量。因此, (7)类似,可以得到如下评估 样本功 数量的式1,

iWizz2 2

s.t.iYiiL.AUUU

其中

L nT nTU据5TAIR,AtPIN,PAIR,BioGRIDIntAct芥mRNA的GO数据自拟南芥数据库TAIR,总共包含28397条mRNA与5322GO间的329133对mRNA-GO数据,其中BP、CC和MF三个分支分别包含 和83468对mRNA-GO数据。将的拟南芥mRNA数据与集成的PPIN数据进行对比,将PPIN中不存在的mRNA数据去除。将输入到功能预测算法中的miRNA功能相似矩阵和miRNA功能矩阵中0RankingLossAveragePrecision和Coverage[78],假定测试集为,xn,,xn,

RankingLoss(排序损失)评估不相关类标相比于相关类标排序更高的平均比例, 111

YiYi

其中Yi为第i个样本的GO向量,Yi为Yi的补集,即第i个样本没有的GO标AveragePrecision(平均精度)评估预测类标中的类标排序等级高于实际类标中y'y'11

1coverage(f) maxrank

p

其中rankf(,f(,yYallf(xi ,Q上。例如,如果f(xi,y1)f(xi,y2),那rankf(xi,y1)rankf(xi,y2)。这里Yall和Q分别是所有可能的GO的向量和数目miRNAmiRNA法,即直推式多分类(TRAM)[77]、有重启的随机(RandomWalker)[79]和多K最近邻(MLKNN)[80]算法。将这三种算法分别应用于拟南芥数据构建的miRNA功能相似网络和miRNA-GO功能网络,通过对比三种方法的各项性能指标,miRNA有重启的RandomWalker算法中存在一个表示粒子每步时的重启概率,所0.050.950.05值进行实验,最终选出性能最好的一组结果作为最终比较的结果。MLKNNs和最近邻个数k,实验中分别对其赋值为s1和k10105GO的三个分支上分别构建了miRNA-GO功能矩阵,因此,分别在这三个矩阵上进行实验。三种算法在三个miRNA-GO功能矩阵上的实验4.1,4.24.3值越大,算法的性能越优;符号“↓”表示该指标的值越小,算法的性能越优,每个指标中的最优值用粗体表示。4.1BPTab. TheexperimentresultonBPRandom表4.1是三种算法针对于在BP分支上构建的miRNA-GO功能网络的实验结TRAM4.2CCTab. TheexperimentresultonCCRandom表4.2描述了三种算法应用于在CC分支上构建的miRNA-GO功能网络的实验RankingLossMLKNNTRAM4.3MFTab. TheexperimentresultonMFRandom由表4.3可知,在MF分支上构建的miRNA-GO功能网络上的实验结果中,三TRAM综合分析在三个miRNA-GO功能网络上的实验结果发现,TRAM的整体性能优于其余两种算法,进而证明该算法更加适合于本文miRNA功能预测方法。miRNAPPINmiRNAmiRNA能相似性网络,最后将直推式多分类算法应用于该网络上对miRNA的功能进行预miRNAPPINmiRNAPPIN 本文主要针对目前在生物信息学领域的研究热点,miRNA的序列及其功能预测进miRNA序列预测中的成果及不足,提出了我们的集成预测模型mirntPreMatpre-miRNA和成miRNA序列。我们还提出了一些新的序列和结构特征,通过实验证明我们所提的行特征选择时,我们分析了传统的SVM-RFE算法所存在的不足,提出了我们的改进算法B-SVM-RFESVM-miRNA功能相似性问题进行了研究,提出了基于权重集成蛋白质相互作用网络与相关图算法计算miRNA功能相似性的方法PPImiRFSGO语义相似性权重,实验结果表明,了一些miRNAs新的潜在功能。miRNA功能相似性问题上的研究成果及受到蛋白质功能预测相miRNA功能的方法。在这个研究中我们miRNA功能相似网络,该网络的权值是由我们PPImiRFS计算所得,然后,在该网络上应用了直推式多分类算法预测miRNA的潜在功能。实验结果证明,我们所新的miRNA功能预测方法在多个指miRNA序列及其功能预测方法的研究上取得了令人满意的成果。STEWARTBW,WILDCP.WorldCancerReport2014.WorldHealthOrganization,LUY,HANJ.Cancerclassificationusinggeneexpressiondata[J].InformationSystems,2003,28(4):243-268.GOLUBTR,SLONIMDK,TAMAYOP,etal.Molecularclassificationofcancer:classdiscoveryandclasspredictionbygeneexpressionmonitoring[J].science,1999,286(5439):531-537.PANF,WANGB,HUX,etal.Comprehensiveverticalsample-basedKNN/LSVMclassificationforgeneexpressionysis[J].JournalofBiomedicalInformatics,2004,37(4):240-248.KRS.MicroarrayDataClassificationUsingSupportVectorMachine[J].InternationalJournalofBiometricsandBioinformatics(IJBB),2011,5(1):KELEMENA,ZHOUH,LAWHEADP,etal.NaiveBayesianclassifierformicroarraydata[C]//NeuralNetworks,2003.ProceedingsoftheInternationalJointConferenceon.IEEE,2003,3:1769-1773.HORNGJT,WULC,LIUBJ,etal.Anexpertsystemtoclassifymicroarraygeneexpressiondatausinggeneselectionbydecisiontree[J].ExpertSystemswithApplications,2009,36(5):9072-9081.CHOJH,LEED,PARKJH,etal.Geneselectionandclassificationfrommicroarraydatausingkernelmachine[J].FEBSletters,2004,571(1):93-98.TANAC,GILBERTD.Ensemblemachinelearningongeneexpressiondataforcancerclassification[J].2003.DIETTERICHTG.Ensemblemethodsinmachinelearning[M]//Multipleclassifiersystems.SpringerBerlinHeidelberg,2000:1-15.OPITZDW.Featureselectionforensembles[C]//AAAI/IAAI.1999:379-LINWJ,CHENJJ.Class-imbalancedclassifiersforhigh-dimensionaldata[J].Briefingsinbioinformatics,2013,14(1):13-26.SAEYSY,ABEELT,VANdePeerY.Robustfeatureselectionusingensemblefeatureselectiontechniques[M]//Machinelearningandknowledgediscoveryindatabases.SpringerBerlinHeidelberg,2008:313-325.BOULESTEIXAL,SLAWSKIM.Stabilityandaggregationofrankedgenelists[J].Briefingsinbioinformatics,2009,10(5):556-568.WALDR,KHOSHGOFTAARTM,DITTMAND,etal.Anextensivecomparisonfeaturerankingaggregationtechniquesinbioinformatics[C]//InformationReuseandIntegration(IRI),2012IEEE13thInternationalConferenceon.IEEE,2012:377-384.DETTLINGM,BüHLMANNP.Boostingfortumorclassificationwithgeneexpressiondata[J].Bioinformatics,2003,19(9):1061-1069.DETTLINGM.BagBoostingfortumorclassificationwithgeneexpressiondata[J].Bioinformatics,2004,20(18):3583-3593.BERTONIA,FOLGIERIR,VALENTINIG.Bio-molecularcancerpredictionwithrandomsubspaceensemblesofsupportvectormachines[J]. 2005,63:535-539.HOTK.Therandomsubspacemethodforconstructingdecisions[J].PatternysisandMachineInligence,IEEETransactionson,1998,20(8):HUH,LIJ,WANGH,etal.Aallydiversifiedmultipledecisiontreealgorithmformicroarraydataclassification[C]//Proceedingsofthe2006workshoponInligentsystemsforbioinformatics-Volume73.AustralianComputerSociety,Inc.,2006:35-38.AHNH,MOONH,FAZZARIMJ,etal.Classificationbyensemblesfromrandompartitionsofhigh-dimensionaldata[J].ComputationalStatistics&Dataysis,2007,51(12):6166-6179.LIUH,LIUL,ZHANGH.Ensemblegeneselectionbygrouformicroarraydataclassification[J].Journalofbiomedicalinformatics,2010,43(1):81-PENGY.Anovelensemblemachinelearningforrobustmicroarraydataclassification[J].ComputersinBiologyandMedicine,2006,36(6):553-573.KIMKJ,CHOSB.AnevolutionaryalgorithmapproachtooptimalensembleclassifiersforDNAmicroarraydataysis[J].EvolutionaryComputation,IEEETrans

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论