生物序列比对算法综述_第1页
生物序列比对算法综述_第2页
生物序列比对算法综述_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、word生物序列比对算法综述【摘 要】 随着生物信息学的快速开展,序列比对算法成为研究的热点问题。本文介绍序列比对算法的概念及研究,并针对几种常用的序列比对算法进行比拟。同时也简单说明序列比对算法的改良方向。【关键词】 生物信息学 序列比对 准确率 时空效率随着生命科学研究的兴起和计算机技术的飞速开展,生物信息学已成为自然科学的核心领域之一1。基因序列比对是生物信息处理的最根本方法,对发现基因功能、比拟基因、探究生物进化等具有非常重要的作用。1 序列比对算法概述所谓序列比对2,是指两个或多个序列按字母比拟,尽可能确切地反映它们之间的相似和相异性,用于说明序列之间的同源关系。通过序列比对,找出序

2、列之间的相似性,发现与结构相联系的保守序列片段,以及检测新测定序列与数据库中结构和功能的序列之间的相似性关系,从而以足够的可信度确定新序列的结构和功能信息。目前的序列比对方法很多。本文主要针对常用的算法,按照比对的序列数目进行相关介绍:1.1 双序列比对根据算法结构的不同,将双序列比对算法分为三类3:动态规划的优化方法,启发式算法和大型数据库搜索设计的概率方法。1.1.1 动态规划的优化算法Needleman-Wunsch算法是最早的序列比对算法,属于全局序列比对,在生物信息处理中应用广泛。Smith-Waterman算法是一种局部相似性的动态规划算法,在识别局部相似性时具有很高的灵敏度,是双

3、序列比对算法中最根本的算法。1.1.2 启发式算法1FASTA算法FASTA是双序列比对启发式算法,采用了改良的wilbllr和Lipmall算法以集中反映具有显著意义的比对结果。它的根本思想是:一个能揭示出真实序列关系的比对至少包含一个两条序列都拥有的片段,把查询序列中的所有片段编成Hash表,然后在数据库搜索时查询这个Hash表,以检索出可能的匹配,这样命中的片段就能很快地被鉴定出来。2BLAST算法BLAST算法可以兼顾搜寻的速度以及搜寻结果的精确度,它比FASTA速度更快。它的根本思想是:产生比FASTA更少而更有意义的增强点,以提高整个算法的速度。BLAST算法在不失敏感性的前提下大

4、大提高了算法的效率。3BLAT算法Blat算法最初用于人类基因组拼接和注释过程中的大规模数据比对任务上。其速度快、共线性输出结果简单易读,存在的局限性是对于特殊的任务需要选择适宜的软件,如:用于远亲缘物种间的核酸序列比对时,比对精度就不够高;在重复搜索短小匹配片段的同时,会产生过多的没有生物学意义的序列比对碎片。1.1.3 大型数据库搜索设计的概率方法为根底的算法MUMmer算法是一种基于后缀树数据结构的全基因组比对方法,利用后缀树的数据结构有效地将算法的时间和空间复杂度由N 3降到了N。与BLAST算法相比,其后缀树法在速度上快得多,且能处理大量的插入和删除片段,能识别重复片段和单核酸多态性

5、等多种全基因组序列中的复杂片段。1.2 多序列比对多序列比对的常用算法有累进算法、隐马尔科夫模型、迭代比对法等。累进方法是最常用的启发式多序列比对算法。其中的CLUSTAL算法是由Feng和Doolittle提出的,基于相似序列通常具有进化相关性这一假设的算法,它是多序列比对算法中使用最广泛的。隐马尔科夫模型是目前较先进的多序列比对方法,跟常规的方法相比,它可以发现序列久远的同源性。迭代方法也基于一个能产生比对的算法,并通过迭代方式精细多序列比对,直到比对结果不再改良为止。这类算法不能提供获得优化比对结果的保证,但却具有鲁棒性和对序列个数不敏感等特性。2 序列比对算法比拟通过上述介绍,本文对几

6、种最常用的基因序列比对算法进行如下比拟如表1:在实际试验中处理生物信息数据时,考虑各种序列比对算法的速度和适用范围,启发式算法的应用最为广泛。进一步,虽然BLAT算法的适用范围较BLAST小,但两者原理相似,且BLAT速度更快,便于处理大量的基因数据,在进行简单的DNA基因序列比对任务时,研究者更青睐BLAT算法。3 结语序列比对是生物信息学中最重要、最根本的方法,对于从大量生物数据中提取有价值的信息有重大的意义。我国在序列比对方面研究较为落后,且目前提出的算法较少,大多数都是在几种根本序列比对算法的根底上进行的改良。如:张涛涛、郭茂祖等介绍了一种参数序列比对方法4,该方法把最正确比对作为权值和罚分的函数,可以系统地得到参数的选择对最正确比对结果的影响。准确率和运算速度是评价序列比对算法的重要依据,因此,获得比对准确率更高、时间空间效率更好的序列比对算法是生物信息学研究的一个重要课题。参考文献:1许忠能著.生物信息学M.北京:清华大学出版社,2009.2何万双.双序列比对算法研究D.湖南:国防科技大学,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论