




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DNA甲基化差异模式识别方法综述摘要:目前,微阵列芯片技术和重亚硫酸氢盐测序技术贡献了大量DNA甲基化实验数据,基于不同数据产生了众多识别差异甲基化位点及差异甲基化区域的方法。为了对DNA甲基化差异模式识别方法进行梳理,首先介绍了DNA甲基化研究现状,包括DNA甲基化检测方法和数据类型,以及两种DNA甲基化差异模式;接着详细阐述了芯片数据的差异甲基化位点和差异甲基化区域的识别方法,并介绍了基于八种不同算法原理的测序数据的差异甲基化模式识别方法,重点阐述了各种算法的原理、应用场景以及算法的优点和局限性;最后指出了现阶段DNA甲基化差异模式识别存在的问题和未来可能的发展趋势。关键词:DNA甲基化;甲基化差异模式;差异甲基化位点;差异甲基化区域;识别SurveyofDNAdifferentiallymethylatedpatternsidentificationAbstract:Atpresent,microarraychiptechnologyandsodiumbisulfitesequencingtechnologyhavecontributedalargeamountofDNAmethylationdata.Basedondifferentdatatype,therehavebeenmanymethodstoidentifydifferentiallymethylatedlocisandregions.Tosortoutthemethodsofdifferentiallymethylatedpatternidentification,thispaperfirstlyintroducedtheresearchstatusofDNAmethylation,includingdetectionmethodsanddatatypesofDNAmethylation,aswellastwokindsofdifferentiallymethylatedpatterns.Thenthepaperelaboratedontheidentificationmethodsofdifferentiallymethylatedlocisandregionsonthechipdata,andtheidentificationmethodsofdifferentiallymethylatedpatternsonthesequencingdatabasedoneightdifferentalgorithmprinciples.Thispaperfocusedontheprinciples,applicationscenarios,advantagesandlimitationsofthesealgorithms.Finally,thepaperpointedouttheproblemsofdifferentiallymethylatedpatternidentificationandpossiblefuturedevelopmenttrends.Keywords:DNAmethylation;differentiallymethylatedpattern;differentiallymethylatedloci;differentiallymethylatedregion;identification((i)DNA甲基化是指CpG位点中的胞嘧啶上第五位碳原子在DNA甲基转移酶(DNAmethyltransferase,DNMT)的催化作用下被甲基化修饰而产生的现象,修饰之后的碱基叫做5■甲基胞嘧啶(5mC)E,经过修饰之后的CpG位点称为甲基化位点(methylatedloci)。DNA甲基化作为生物体最重要的表观遗传修饰之一皿,对基因表达和基因组稳定性起着至关重要的作用。大量研究表明,DNA甲基化参与生物体的转录调控、基因组印记、X染色体失活、发育和癌症发生等多种过程E,因此对DNA甲基化的研究具有重要意义。1DNA甲基化研究现状1.1DNA甲基化检测方法及数据类型目前,基于微阵列芯片技术和重亚硫酸氢盐的测序技术是DNA甲基化检测的主流方法。微阵列芯片常用的是IlluminaHumanMethylation27k及IlluminaHumanYethylation450k,后者涵盖了45万个以上的CpG位点,基本包含了所有的基因区域和CpG岛区域,能够在每个CpG位点上都产生一个荧光信号,对该荧光信号进行处理之后,可以计算出每个CpG位点的甲基化水平,称为务值,如式(1)所示。!_ max(9,0)!=max(:,0)+max(9,0)+100其中:U为非甲基化荧光信号;9为甲基化荧光信号。!取值为从0(完全非甲基化)到1(完全甲基化)同。测序数据包括通过全基因组甲基化测序(whole-genomebisulfitesequencing,WGBS)及简并代表性重亚硫酸氢盐测序(reducedrepresentationbisulfitesequencing,RRBS)「5’获得的数据。WGBS是将重亚硫酸氢盐处理应用于DNA,可以将非甲基化的胞嘧啶转换为尿嘧啶,同时通过PCR过程替换为胸腺嘧啶(T)进行测序。甲基化的胞嘧啶不能转换为尿嘧啶并按胞嘧啶(C)的模式进行测序,根据测序结果就可以区分甲基化胞嘧啶和非甲基化胞嘧啶,WGBS能够在单碱基分辨率显现各个碱基位点甲基化情况,该技术大大提高了DNA甲基化的研究进展。RRBS的核心同样是亚硫酸盐处理,在酶切的基础上,前期使用MspI酶切,该酶切位点为CCGG,可对CpG位点进行富集,对于CpG的富集检测能够在节约成本的基础上检测到大部分动物中的甲基化分布血。重亚硫酸盐测序(bisulfitesequencing,BS#seq)的发展极大促进了当前大规模样本中的单碱基水平的DNA甲基化谱的测定,该技术能够覆盖基因组95%以上的胞嘧啶位点。从如此大规模的数据中提取生物信息的技术成为了当前表观遗传研究的瓶颈。1.2DNA甲基化差异模式DNA甲基化差异模式包括差异甲基化位点(differentiallymethylatedloci,DML)及差异甲基化区域(differentiallymethylatedregion,DMR),如图1所示。其中,DYL分析单一的差异甲基化位点,倾向于识别单个样本的序列本身;而DMR分析由一个或多个差异甲基化位点组成的连续区域,倾向于多组样本间的比较。两者的识别都很重要,并且很大程度上相互联系,由于单个DML的信息不能很好地传递甲基化差异模式的信息,很多研究者在识别DML后,继续展开了对DMR的识别。TOC\o"1-5"\h\z蛔, ,d,r|CpGICpGICpGI几|i 1! ! ! ! !i 二!III!I I i i i i ii i i i i i ii i i i i i ii i i i i i i图1DML和DMR的概念
Fig.1ConceptualdiagramofDMLandDMR基于微阵列芯片技术和重亚硫酸氢盐的测序技术获得的甲基化数据类型不同,故在进行差异模式识别采用的方法上也存在差别。接下来本文将分别介绍两类方法。2基于芯片数据的DNA甲基化差异模式识别方法2.1基于芯片数据的DML识别方法QDML在信息论中,常用相对熵弗(P||?)(即KL散度E)描述两个概率P和Q分布的差异,其计算公式为D=(P||Q)="P(a;)Xlog|>( (2)IA(a;))其中:Dkl(P||Q)表示当用概率分布Q来拟合真实分布P时产生的信息损耗,P表示真实分布,Q表示P的拟合分布。2016年,张媛媛对相对熵进行改进后提出了一种QDML方法,其引入了一个新的测量维度MDdm<(9;,90)(式3)对甲基化差异模式进行度量。其把甲基化看做一个随机变量,把它在两个不同组的甲基化值看做两个不同的概率分布,得9Dd9l=(91,9)=9D=l(91||9")-9D=<(9||9;)(3)其中:(91||9")和(9|9;)互为相反数,分别代表超甲基化和低甲基。由式(2)可知,该方法中差异甲基化直接由甲基化数据的务值来确定。为衡量DML的显著性,通过计算随机数据的9Dd9l设定一个差异阈值,当真实数据的差异值大于该阈值时就认为该位点是DNA甲基化差异位点。值得注意的是,QDML在进行DML识别时不依赖任何分布假设,故可将原始数据信息最大程度地保留。此外,对于由样本批次效应产生的高异质性数据,该方法也可以有效地处理。但QDML的局限性在于其无法处理实验组和对照组不匹配的样本。ElasticNet正则化该方法为2017年由宋应颐提出的一种识别DML的算法。为了消除组内误差和样本之间的批次效应(重复实验可能造成的生物变异),其在数据预处理过程中绘制了不同组别的不同位点的!值密度分布图,并且利用经验贝叶斯(empiricalBayes,EB)算法结合0值得到新的参数估计公式剔除异常点。与参数统计方法不同,该方法引入嵌入式的ElasticNet正则化算法进行特征选择。该方法认为DML是对分类器的分类性能有重要贡献的特征,即把DML的识别问题转换为特征选择问题,而该算法的目标就是找到尽可能多的重要特征(DML)八,为了找到尽可能多的对分类性能有着重要影响的特征子集,进一步提出了利用集成特征选择算法来进行DML的识别,并利用十折交叉验证提高该模型的泛化能力。该模型的稳定性优于传统的特征选择算法;但是由于其目标是寻找具有泛化能力的DML,实际上可能漏掉一部分泛化能力弱却仍为DML的位点,具有一定的局限性。3)csDML2019年,杭鹏“0‘提出了csDML(cosinesimilarityDML)方法。该方法基于余弦相似度理论cos"=(!-B)/(||!||X||"||)对甲基化芯片数据建模(如图3所示),即将每一个CPG位点与实验组和对照组中的甲基化!值组合起来,并用二维坐标系当中的向量$表示;同时,又构造了一个低甲基化的位点c,并把!的(0,1)的取值转换为两个向量夹角在(0,!/2)的变化;最后通过*对余弦值,即来衡量两个位点间的相似性。该方法引入偏态系数处理离群值,使识别结果更加精确;但其局限性在于要求实验样本和对照样本大小需要相同,且必须是一一匹配的,而T检验等方法没有此约束。1 * 1 * •$:;=*X"1cos〈V〜%=*X"1||V;,.||・||叮| (4)综上可知,早期基于芯片数据识别DML的方法主要包括T检验[11]、秩和检验[12]、方差分析(analysisofvariance,ANOVA)邱等统计方法。这些参数统计方法可识别出某个CPG位点是否为DML,但其弊端是往往假设甲基化数据服从某种分布(如正态分布),这在一定程度上会使那些与原来分布特征偏离程度过大的甲基化数据失效,不能很好地保留原始信息。而本文介绍的的几种方法则弥补了参数统计方法识别DML的缺陷,具有更好的应用前景,但同时也带来了一些其他问题。2.2基于芯片数据的DMR识别方法bumphunting2012年,Jaffe等人「14‘提出了用bumphunting方法来识别DMR。该方法以回归模型为基础,利用原始数据计算每个位点的差异性,对所有位点的差异用一条平滑的曲线拟合,通过寻找曲线中的突起区域来识别DMR"但是它只应用于微阵列数据,并且由于平滑步骤导致它不能识别单一碱基的变化。Ong2014年,Ong等人[15]提出了一种识别DMR的算法,并可以利用其研究DMR与年龄的关系。该算法为每个CPG位点分配一个可以用来衡量该位点与年龄关系的统计测度,以这种关系的强度为指标对位点进行聚类以划分区域。具体来说,其利用Pearson相关分析计算每个甲基化值与其位点间距离的相关性,利用一个最优的距离阈值对DMR的长度进行定义,并通过式(5)的回归模型来计算甲基化位点的甲基化值、协变量以及年龄之间的相互关系,最终获得候选DMR。Yij=#j+!jXi+ +error;,, (5)其中:D;,为个体;在基因组位置j的甲基化值;X;为个体;的年龄;为基因组位置]的甲基化值与年龄X;之间的Y;相关强度;F;,e为协变量(其他可能影响因素等);$.;为相应的回归系数;#;为当所有的X;为0的均值。对获得的候选DMR进行显著性检验,阈值的选取在使用FDR多次测试时进行校正。最后,将满足条件的区域作为DMR"这类算法的优点是在DMR识别过程中考虑了第三方因素的影响,其局限性在于如果一个区域整体差异显著,而区域中某几个位点的差异不显著,则该算法可能将较大的DMR截断,甚至将某些区域丢掉。DDA2015年,Zhang等人词提出基于判别分析的DDA(distancediscriminantanalysis)算法来识别DMR,将差异甲基化区域和非差异甲基化区域看做处理分类问题。具体来说,DDA是一种简单的二进制分类器,在已知类别样本的条件下,通过三个步骤识别DMR:a)设置一个滑动窗口,将每一个位点表示为一个种子,利用DDA计算每个种子的分类误差率,并设定阈值选择候选种子;b)根据一定的原则,将种子合并后
修剪为候选DMR;c)将在判别病例组和对照组的分类过程中具有较大贡献的候选DMR确定为DMR最后,为了确定功能性DMR,使用基因表达数据作为补充来源来分析差异表达基因。如果DMR的对应基因是差异表达基因,将其称为功能性DMR。该方法不仅能够较为准确地识别DMR,还进一步提高了识别出DMR的生物学意义,但其局限性在于算法对于阈值的选择较为敏感,且算法执行步骤过于繁琐,不适用于大规模数据的处理。4)SWKA在2016年,李华兵等人在DDA算法的基础上提出了SWKA(slidewindowsKNNalgorithm)算法。该方法基于KNN识别DMR,与DDA只能识别两个组别中的DMR不同,KNN算法可以处理多分类问题的特性,使得SWKA可以在多个组别中识别DMR"该算法的执行步骤与DDA算法大致相同,如图2所示,不但扩展了DMR的长度,并且识别出Ong算法未识别出的DMR"在生物数据挖掘领域中多组别问题是一个常见问题,故该算法具有一定的应用前景。染色体(a)(d)设定的窗口滑动步长』=一个常见问题,故该算法具有一定的应用前景。染色体(a)(d)(b)(c)利用KNN分类林计每佃子对样本的分类能力,选取分类误差率小于误差率阚值的种子为DMR种子在满足误差率条件下,合并有重叠的DMR种子。如(d)在满她离小于一定长度的相邻建DMR(b)(c)利用KNN分类林计每佃子对样本的分类能力,选取分类误差率小于误差率阚值的种子为DMR种子在满足误差率条件下,合并有重叠的DMR种子。如(d)??(e)??图2KNN算法识别DMR流程Fig.2KNNalgorithmidentificationDMRflowchart综上所述,基于芯片数据的DMR识别算法一般可分为三类:a)通过计算一个区域中每个位点的差异来识别一个DMR,如bumphunting和Slieker算法[18]等,其局限性在于过度删除了一些显著性弱的单个位点;b)通过相邻位点间的相关性对甲基化位点进行聚类,并通过估计每个簇之间的差异性来进行DMR的识别,如Ong和Avlusterin算法〔侦,其局限性在于可识别的DMR的长度受到限制,即无法识别一个基因组中长度较长的DMR;c)将差异甲基化模式识别问题转换为分类问题,基于分类的思想寻找DMR,如DDA和SWKA算法等。其中DDA只能处理两个组别,而SWKA可处理多组别问题。尽管SWKA对多组别问题的处理使其有更广泛的应用,但是方法中KNN算法对训练的数据依赖度很高,而且需要很大的计算能力,故在大规模数据集上的应用效果较差。3基于测序数据的DNA甲基化差异模式识别方法近年来,基于测序数据识别甲基化差异模式的方法主要包括基于逻辑回归、平滑化、贝塔一二项分布、隐马尔可夫、香农熵、混合统计、二进制分割、广义线性回归等模型的方法,具体如表1所示。在处理测序数据的过程中,识别DML和DMR算法的原理大致相同,且有一些算法(eDMR〔20〕、RADMeth〔21〕、methylSig[22]、DSSfingle^、DMAP[24]、BSmooth次、HMM-Fisher[26])可以识别DML和DMR两种甲基化差异模式,本文根据算法原理进行统一介绍。序号识别方法概念模型适用数据类型序号识别方法概念模型适用数据类型进行P值校正考虑测序覆盖考虑生物变异可以识别1methylKit口刃逻辑回归RRBS、WGBS$$XDML2eDMR】2。]逻辑回归RRBS、WGBS$$Xboth3dss[28]贝塔一二项分布RRBS、WGBSX$$DML4moabs[29]贝塔一二项分布RRBS、WGBSX$$DML5DSS-general[30]贝塔&二项分布RRBS$$$DML6RADMeth[21]贝塔&二项分布WGBSX$$both7methylSig】22]贝塔&二项分布RRBS、WGBSX$$both8DSS-dngle】23]贝塔&二项分布RRBS、WGBS$$$both9GetisDMR】31]贝塔&二项分布WGBS$$$DMR10BSmooth】25]平滑化WGBSXX$both11BiSeq[32]平滑化RRBS$$$DMR12ABBA勇平滑化WGBS$$$DMR13dmchmm[34]隐马尔可夫WGBS$$$DML14ComMet[35]隐马尔可夫RRBS、WGBSX$XDMR15HMM-Fisher[26]隐马尔可夫RRBS、WGBSXX$both16hmm-dm〔36]隐马尔可夫RRBS、WGBSXX$DMR17qdmr[37]香农嫡RRBSXX$DMR18SMART[38]香农嫡WGBSXX$DMR19jenkinsonG's〔39香农嫡WGBS$$$DMR20COHCAP】40】混合统计RRBS$X$DMR21DMAP〔24]混合统计RRBS、WGBS$$$both22swDMR."混合统计WGBS$$XDMR23metilene】42]二进制分割RRBS、WGBS$X$DMR24edgeR[43]广义线性回归RRBS$$$DMR表1基于测序数据的甲基化差异模式识别方法Tab.1Differentiallymethylatedpatternrecognitionmethodsbasedonsequencingdata基于逻辑回归模型的方法是通过模拟CpG位点的读数进而识别DML,其中最为常用的一种方法是methylKit^,该方法可用于识别DML"在考虑重复实验带来的生物变异时,methylKit使用逻辑回归来模拟给定区域的甲基化比例;而在不考虑生物变异的情况下,methylKit使用FET检验来识别DML,通过使用错误发现率(falsediscoveryrate,FDR)或滑动线性模型方法来对P值进行校正。它可以在模型中加入额外的协变量,并可同时应用于RRBS和WGBS数据,还提供了样本甲基化的总结、聚类、标注和DML可视化等功能。该算法的局限性在于只能从预定义区域识别DML,而不能从头开始识别。eDMR是对methylKit的扩展,可以识别DML和DMR两种甲基化差异模式。eDMR使用双峰正态分布模拟相邻CpG位点,使用加权函数估算区域边界,根据平均甲基化差异、DML数量和CpG位点数量决定DMR边界。DMR的显著性由联合使用Stouffer-Liptak方法[44]得到DML的P值,然后使用FDR多次比较计算校正DMR的P值决定。基于逻辑回归的方法将测序覆盖范围纳入考虑,并可将其他协变量纳入模型,其局限性在于没有考虑重复实验造成的生物变异。3.2平滑化基于平滑化模型的方法假设CpG位点的甲基化水平在整个基因组中的平滑变化。此类方法对样本或预定义的区域进行平滑处理,然后通过相邻位点的信息估算一个CpG位点甲基化水平,根据CpG位点的甲基化水平估计值来确定不同条件下的组间差异,最后利用不同的统计检验值识别DML和DMR"BSmooth是最常用的基于平滑化模型的方法之一,该方法可用于识别DML和DMR"它首先平滑处理每个样本中的基因组,并用类似于T检验的统计方法识别DML,最后把符合设定标准(例如T统计量的临界值、CpG位点之间的最大距离和CpG位点的最小数量符合一定的标准)的连续DML定义为DMR"它是第一个在DMR识别中考虑重复实验带来生物变异的方法,但由于缺乏合适的识别DMR中的错误测量标准,其仅限于两组条件之间的比较。B遥eq俱根据区域的错误控制量检测目标DMR。这种方法可以添加协变量到其他回归模
型中,其局限性是仅适用于分析具有预定义区域的实验数据"ABBA函是一种贝叶斯平滑方法,可用于识别DMR。其独特之处在于能够自动适应不同结构的DNA甲基化数据,同时将CpG位点之间的距离作为协变量考虑在内"与其他识别DMR结果受到窗口大小选择影响的方法不同,ABBA不需要任何用户定义平滑过程的相关参数"通常,该类方法的优势是考虑到甲基化CpG位点之间的空间相关性"通过执行平滑处理,可以减少由测序覆盖度不同带来的甲基化水平的差异"此外,这些方法还可以估计缺失的CpG位点的甲基化水平"但其局限性是无法检测到低甲基化CpG位点密度发生剧烈变化的区域"3.3贝塔一二项分布DSS㈤是基于贝塔一二项分布回归原理的一种方法,它依赖于贝塔一二项分布层次模型来识别DML"模型中,先验分布是识别DML的基础,且需要已知单个位点的甲基化情况"然后使用组均值参数化的贝塔分布和一个离散参数对CpG位点的真实甲基化比例进行建模"CpG位点甲基化比例相对于组均值的变化由离散参数捕获,离散参数由经验贝叶斯方法估计"当样本量较小时,采用收缩法估计色散参数,以提高整体性能"DML由沃尔德检验的P值确定,沃尔德检验则是通过比较两组之间的平均甲基化水平来进行的"DSS方法的关键贡献在于改进了色散参数估计的收缩过程,其考虑了生物变异和测序覆盖率"当样本量很小时,该方法能够取得很好的效果,但局限性在于无法处理大规模数据"同类别的DSS-general[30]、DSSfingle均是在传统DSS模型的基础上进行改进的,其中DSSfingle已经可以识别DMR,在识别DML后,用户根据DMR特征(其中包括P值、最小长度和CpG位点的最小数量)来指定阈值,定义候选DMR"MOABS[29]与DSS类似,可用于识别DML"其先验分布是由整个基因组构建的,结果是一个双峰分布"后验分布服从贝塔分布,贝塔分布由经验贝叶斯方法估计"当考虑重复实验带来的生物变异时,使用最大似然方法生成后验分布"两个样本间DML的显著性由一个名为可信甲基化差异的单一指标表示,该指标同时考虑了DML的生物学意义和统计学意义"RADMeth、methylSig、GetisDMR「3'J是基于贝塔一二项分布提出的可识别DMR的方法,其中RADMeth、methylSig可以同时识别UDML和DMR"3.4隐马尔可夫基于隐马尔可夫模型的方法将CpG位点的甲基化水平用甲基化状态(即高甲基化、低甲基化和无变化)进行模拟,而不是连续的甲基化值(如表2所示)。对于任意的-%++-3=1(]=1,2,3),利用过渡状态间的高转移概率和低转移概率对相邻的CpG位点分别进行高相似点和低相似点的甲基化水平建模"参数估计通常采用已有的机器学习算法,而势函数的估计则采用不同的统计算法"Shokoohi等人例提出了DMCHMM,其是基于传统隐马尔可夫模型的一种改进方法,可用于识别DML"其分别分析了每个样本的甲基化,从而利用样本内部CpG间的自相关识别DML"该方法比传统的隐马尔可夫模型更灵活,其允许多个隐藏状态"它使用隐马尔可夫作为平滑策略,并使用额外的基于读取深度和可变数目隐藏状态的权重来灵活构建模型"该方法能够同时处理连续和离散的协变量,从而允许同时调整含有几个固定和随机协变量的甲基化配置文件,并可以在一次运行中比较多个组"ComMet〔抖将同一组内的所有样本合并为一个样本,通过比较两个组来识别DMR。其优点是考虑了邻近CpG位点的空间分布和测序覆盖,而局限性是未考虑生物变异,可能导致假态,而不是所有样本的组合,其可用于识别DML和DMR。估计每个样本所有CpG位点的甲基化水平后,对识别出的DML进一步分组,如果CpG站点之间的距离小于100个单位,则转换为DMR"非连续的CpG位点在输出时被报告为DML"HMM-Fisher能够识别可变大小的DMR,而不是依赖于用户定义的边界阈值,并且考虑了生物变异,同时提供DML和DMR作为输出"表2两个相邻状态间转移概率H,,H,+1Tab.2TransitionprobabilitybetweentwoadjacentstatesH.,H+%H.H.+iIH(未甲基化)-11-12-13>(部分甲基化)-21-22-231(完全甲基化)-31-32-33HMM-DM[36]与HMM-Fisher原理类似,可以识别来自WGBS和RRBS数据的DMR,它也考虑了生物变异。总的来说,基于隐马尔可夫方法的主要优势是其可以在识别过程中改变DMR的大小,这比其他使用固定窗口大小的方法更具有灵活性。3.5香农熵香农熵常用来分析一系列变化或改变的定量测量事件,使用此类方法可跨越多个样本识别甲基化差异。QDMR耶是第一种使用香农熵的方法,它可以根据目标区域的平均甲基化水平从预定义的区域开始定量识别DMR"原始的熵公式可用于测量样本之间的甲基化差异,其中较低的熵表示较高的甲基化差异。但是,这种计算熵的方式误判概率很高。因此,QDMR引入了一步Tukey检验,使用双重加权取均值。最后,如果该区域的加权熵为小于某个临界值,列入候选DMR"QDMR考虑生物变异,除了提供DMR列表之外,QDMR还提供量化、可视化和注释每个样本的DMR"该方法的局限性是只能从预定义区域识别DMR,而无法从头开始识别区域°SMART例是一种识别DMR的方法,其无须用户定义阈值,而是通过量化CpG位点的甲基化水平,确定变量的DMR边界大小。它还提供了已识别甲基化区域的功能注释。Jenkinson等人[39]提出了一种基于一维统计物理伊辛模型闻的信息理论方法,该方法使用香农熵严格的量化甲基化随机性,并利用詹森一香农距离来评估测试组和参考样本之间甲基化的分布差异"它将伊辛模型⑶中的小磁针两极方向形象转换成非甲基化和甲基化两种状态(如图3所示),分别用白色圆圈和灰色圆圈表示"该方法对传统的联合概率模型进行了改进,其先估计整个区域的势能场,再利用伊辛模型估计等位位点的差异性,并将其纳入边缘统计概率"该方法考虑了甲基化的相关性,封装了WGBS数据的甲基化读段,可应用于覆盖率低的单个WGBS数据样本"该方法的局限性是当甲基化数据存在相关时会影响其中边缘统计的结果"基于熵的方法主要优势在于可直接识别DMR而无须识别DML,也可重新检测区域而不取决于经验边界估计"此外,这类方法还考虑了重复实验造成的样本中的生物学差异"3.6混合统计阳性",HMMEsher评估了每个样本CdG位点的甲基化状 7水平之间的空间相关性。此类方法依赖于已建立的统计检验,例如FET检验、T检验和ANOVA"通常先计算CpG位点的P值,再使用FDR方法校正P值以识别DML,最后根据用户定义的阈值进一步得到DMR"COHCAP[40]是一种识别DMR的方法,其只能从预定义区域进行分组,以获取对齐的读取计数开始(例如Bismark对齐器)作为输入用,而且不考虑测序覆盖。swDMR[41]克服了COHCAP的缺陷,还提供了DMR集群分析、可视化和注释等功能,但仅限用于无生物变异实验,其可用于识别DMR"基于混合统计方法的优势在于提供了不同统计检验的方法作选择,阳性",HMMEsher评估了每个样本CdG位点的甲基化状 7水平之间的空间相关性。uncorrelatedmethylationcorrelatedmethylation图3基于伊辛模型的信息熵方法原理Fig.uncorrelatedmethylationcorrelatedmethylation图3基于伊辛模型的信息熵方法原理Fig.3SchematicdiagramofinformationentropymethodbasedonIsingmodelMetilene由使用二进制分割算法来递归划分基因组,从中识别候选区域。无论是否存在生物变异,它都可以用于在包含多个样本的WGBS和RRBS数据中识别DMR。3.8广义线性回归edgeR方法"最初为RNA#seq数据设计,但经过设计指定矩阵后,可用此方法分析RRBS数据。与RNA#seq数据类似,在RRBS数据中也观察到了生物变异带来的差异。在edgeR的广义线性模型框架下,利用色散系数可以捕捉到这种可变性。利用edgeR中的estimateDisp函数,可以得到所有基因组的一般离散度估计,并可以采用从头开始的方式识别DMR"综上所述,基于测序数据的DNA甲基化模式识别方法大多基于传统的机器学习模型,并根据要解决的问题进行了一系列的改进与优化。这些算法适用的数据类型不同,可以识别的甲基化差异模式也有差别,且其在是否考虑测序覆盖、生物变异等方面也存在较大区别。研究者需要根据实际问题的需要,灵活地选择这些算法。4结束语根据DNA甲基化检测方法的不同,现有的甲基化数据类型分为芯片数据和测序数据两种。基于这两种数据,设计并实现了许多识别DML和DMR的方法。本文就其中的典型方法阐述了其算法的原理、应用场景以及算法的优缺点。可以看到,早期的甲基化差异模式识别方法以统计、检验的方法为主,这些方法在搜索有效特征的时候,往往没有考虑特征之间的相互关系,且忽略了特征之间的冗余问题,故其识别结果的准确率较低且可扩展性较差。近年来许多基于机器学习模型的方法被引入到甲基化差异模式识别中,很大程度上提高了甲基化差异模式识别的准确率和鲁棒性。尽管现阶段甲基化差异模式识别方法发展得较为成熟,但仍然存在以下几个问题需要改进:首先,应进一步扩展算法的适用性,使得一个算法可以处理不同的数据类型。由于两种数据类型包含的信息不同,即甲基化芯片数据只包含每个位点甲基化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化妆师考试试题及答案
- 计算机三级软件测试技术基础与公共政策试题及答案
- 软考网络工程师技术更新与应对试题及答案
- 西方国家医疗制度的政治分析试题及答案
- 新经济形态下的政策创新需求试题及答案
- 深入探讨西方国家的公共关系与政治制度试题及答案
- 如何设计有效的公共政策干预措施试题及答案
- 项目管理中的利益分析与规划试题及答案
- 机电工程跨学科整合的探索试题及答案
- 可再生能源利用试题及答案
- 枣庄学院教师招聘考试历年真题
- LCE-RB-3-004空调风柜保养指导书内容
- GB/T 26516-2011按摩精油
- 2023年燕舞集团有限公司招聘笔试模拟试题及答案解析
- 电机检测报告
- 上市合作合同协议书范本-IPO
- 最新消毒记录表每日消毒表
- 自发冠脉夹层诊疗指南解读
- 《一滴水经过丽江》的课件
- 三级医院服务能力指南2022
- 家庭室内装饰装修工程验收单
评论
0/150
提交评论