统计学在分子进化领域的应用.doc_第1页
统计学在分子进化领域的应用.doc_第2页
统计学在分子进化领域的应用.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物统计学小结 00811078 万俊男 2010-6-6统计学在分子进化领域的应用生命科学学院 00811078 万俊男分子进化是一门在进几十年才快速发展起来的生物学领域。产生这样的迅猛发展,得力于PCR、DNA测序等生化技术的发展,除此之外的另一个重要原因就是数据分析的统计方法以及计算机技术的发展。分子进化研究不同于生物学其他领域的一点在于,一项系统的研究往往需要海量的数据作支持,如何从庞大的蛋白质或DNA序列中获取想要的生物学信息,这就需要统计与数据分析来为分子进化的研究打开一扇大门。我就从一篇我看过的文献来谈谈我对统计学在分子进化领域的应用的看法。Ziheng Yang and Rasmus Nielsen. 200. Codon-Substitution Models for Detecting Molecular Adaptation at Individual Sites Along Specic Lineages. Molecular Biology and Evolution. 19:908917.在分子进化中,非同义替代与同义替代的比( = dN / dS )可以反映DNA是否受到达尔文正选择。如果有1,则可以认为该DNA的变异受到明显的正选择。但由于正选择往往只发生在几个特定的位点,正选择的作用会被其他位点的随机替换掩盖,一般都很难得到1的结果。这篇文章综合了以往用来分析正选择作用的分支特异模型(Branch-specic models)和位点特异模型(Site-specic models)的优缺点,建立了一种新的分支-位点模型(Branch-site models)。之后通过三个具体的例子,比较了三种模型的分析结果。在新的模型中,被考察的进化支被定义为前景支(the foreground branches),而进化树中其他的支被定义为背景支(the background branches)。新模型就是希望通过扣除背景支的影响,单独考察我们所感兴趣的进化支受正选择的情况。于是,不同位点的受选择情况就被划分为了四种(见Table 1):Class 0代表前景支与背景支中都高度保守的位点(0=0或01)。其中,Class 2和Class 3在整个DNA序列中的比例,可以由Class 0和Class 1的比例估计。在此基础上,就可以对得到的若干序列进行统计分析。由某一位点替代情况的观测数据集对应的条件概率,可以推断出该位点的非条件概率,并由此得到整个DNA序列的对数似然估计值l,这个值是之后对统计模型进行比较以及检验与1的关系的重要参数(2l服从分布,用来检验差异的显著性)。而之后就可以用贝叶斯公式计算某一位点情况的后验概率,以考察前景支那些位点是上面提到的Class 2和Class 3的情况,以确定具体受到正选择的位点。以上就是新的分支-位点模型的基本思想。之后,作者选取了灵长类中的溶菌酶基因,灵长类中的肿瘤抑制基因BRCA1以及被子植物中的植物色素基因家族来比较三种模型的效率。在比较模型间的是否有明显差别时,计算出两模型的2l,然后计算分布的尾区概率P,看某种模型是否明显优于另一种。以Table 2(最后一排的最后一个数据应该为=3.383)中的M0的one-ratio模型与分支模型的two-ratios模型间的比较为例(H0为两模型无差异),计算得2l =22.13=4.26,查分布表(df=1)可得P=0.0391后,也不能直接下结论认为有正选择作用,而需要检验该是否显著大于1。用到的方法就是再建立一个固定为1的模型,比较我们感兴趣的模型与假设的模型是否有显著差异,与上面的检验方法相同,还是对2l进行检验。以Table 2中的two-ratios模型得到的=3.383为例,计算得2l =21.33=2.66,P=0.100.05(df=1),接受H0,认为与1无显著差异,无法认定有正选择作用的存在。可见,即使得到了1,也无法直接判断有正选择,而应该进行进一步的统计检验。运用以上的方法,作者比较了三个例子中,三种模型的效率。结果显示,新的分支-位点模型,能够很好的清除背景的干扰,发现正选择的存在;并可以进一步通过计算相应位点的后验概率,确定正选择的作用位点。尤其是仅有极少的位点受到强的正选择时,其它两种模型都无法检测出正选择的效应,而分支-位点模型则可以很清晰的反映出那些位点受到了强的正选择作用。因此,分支-位点模型是一种非常有效的检测正选择的模型,而实际上,该模型目前也的确在分子进化领域广泛运用。从这篇文献的例子中,我们可以看出,面对已知的数据,我们是有着多种解读的方法的,但各种方法都有着自己的优缺点,想要得到好的生物学结论,方法的选取十分重要。从中我们可以看到统计学在其中发挥的重要作用:一方面,统计学提供了数据分析的手段,基于一定理论的好的统计模型,为我们指明了发现问题的方向,使得从海量数据中发掘生物学信息成为可能;另一方面,统计学还提供了比较不同统计模型的方法,使得我们能够从不同的模型中,比较发现出最适用的一种,提高了统计分析的效率,确保了得到结论的可靠。相较于别的生物学领域,分子进化尤其与统计学密切相关,可以说,统计学就是分子进化的重要基础之一。但分子进化还是生物学,而非数学,也非统计学,统计学只是分子进化领域研究生物学问题的强有力的工具。正如Efron和Tibshirani谈到分子进化时所说:“统计学是一门用途极为广泛的学科,但有效的应用者却寥寥无几。对于大多数人而言,传统的通往统计学知识之路被数学这堵令人望而生畏的高墙所阻挡。我们这里走的路就是避开这堵墙。”统计学,就是让我们能过绕过数学却依然能够走在分子进化之路上的重要工具。【参考文献】YANG. Z., and R. NIELSEN. 2002. Codon-substitution models for detecting molecular adaptation at individual si

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论