隐马尔科夫模型在多序列比对中的应用.docx_第1页
隐马尔科夫模型在多序列比对中的应用.docx_第2页
隐马尔科夫模型在多序列比对中的应用.docx_第3页
隐马尔科夫模型在多序列比对中的应用.docx_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

隐马尔科夫模型在多序列比对中的应用摘要:序列比对是生物信息学研究中的一个重要的方法, 是生物信息学的基础。随着测序技术及生物信息学的高速发展,目前已经获得了大量的生物序列和数据结构,传统研究生物序列的方法已经无法再满足人们的需求,而隐马尔科夫模型(HMM)也渐渐在生物序列分析中脱颖而出。隐马尔科夫模型是一个双重随机过程,具有一定状态数的隐马尔科夫链和显示随机函数集,该模型用于生物序列分析是生物信息学(Bioinformatics) 研究的新领域。本文主要介绍了HMM在多序列比对中的应用。关键词:隐马尔科夫模型(HMM);生物信息学;多序列比对1 生物序列比对的意义及概念序列比对是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。序列比对的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。研究序列相似性的目的之一是,通过相似序列的序列得到相似的结构或相似的功能。序列比对的理论基础是进化学说。许多生物学的事实表明:不同的核酸或蛋白质序列可能源于同一原始序列,经过序列内残基的取代、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。在残基-残基比对中,可以明显看到序列中某些残基比其他位置上的残基更保守,这些信息揭示了这些保守位点上的残基对序列的结构和功能是至关重要的。因此,序列比对可用于蛋白质的功能域识别、二级结构预测、基因识别以及分子系统发育分析等方面的研究。序列比对根据同时进行比对的数目分为双序列比对(Pair-Wise Sequence Alignment)和多重序列比对(Multiple Sequence Alignment)。双序列比对是将两个序列的各个字符按照对应等同或者置换的关系进行对比排列,其结果是找出两个序列共有的排列顺序,这是学列相似程度的一种定性描述。与序列两两比对不一样,多重序列比对研究的是多个序列的相似性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。2 隐马尔科夫模型隐马尔科夫模型(Hidden Markov Models, HMM)是一种概率论模型,这种方法已经成功地应用于多个领域,如语音识别、光学字符识别等。HMM在生物信息学领域中也有着重要的应用,如基因识别、序列分析、进化发育分析及蛋白质结构预测研究等。隐马尔科夫模型可以用五个元素来描述:(1)N,模型的隐状态数目。虽然这些状态是隐含的,但在许多实际应用中,模型的状态通常有具体的物理意义;(2)M,每个状态的不同观测值的数目;(3)A , 状态转移概率矩阵。描述了HMM模型中各个状态之间的转移概率。其中A_IJ= P(A_T+1 =S_J | Q_T=S_I),1I,JN. 表示在T时刻、状态为SI的条件下,在T+1时刻状态是SJ的概率;(4)B ,观测概率矩阵。其中BJ(K) = PVK(T) | QT = SJ; 1JN,1KM.表示在T时刻、状态是SJ条件下,观察符号为VK(T)的概率;(5) 初始状态概率矩阵 =_J| _J= PQ_1 = S_J;1JN.表示在初始T=1时刻状态为SJ的概率。一般的,可以用=(A,B,)来简洁的表示一个隐马尔科夫模型。给定了N,M,A,B,后,隐马尔科夫模型可以产生一个观测序列 O=O1O2O3OT。表示DNA序列的HMM如图1所示(方框表示各种状态,方框之间的连线表示状态转换):图1 DNA序列的HMM3 基于隐马尔科夫模型的多重序列比对算法迭代比对是另一类有效的多重序列比对策略。它基于一个能产生比对的算法,并通过一系列的迭代方式改进多重序列比对,直到比对结果不再改善为止。这类算法根据改善比对的策略可以分为确定型和随机迭代比对方法。最简单的迭代比对类型是确定性。随机迭代方法包括Prrp,隐马尔科夫模型,模拟退火,遗传算法以及其他方法。某些方法可能是渐进方法和迭代方法的混合。隐马尔科夫模型是最近几年在机器学习领域都得到成功应用的关于序列分析的重要统计模型。隐马尔科夫模型最早用于语音识别,在80年代末90年代初开始用于生物信息学,目前已经用于DNA模型构建,多重序列比对,蛋白质二级结构预测,基因预测等方向。生物的基因组可以认为是某祖先基因经过若干代的进化而来的,这个祖先基因经过插入、删除和匹配而不断进化,最终衍变为一个基因家族。因此,隐马尔科夫模型之所以在生物序列分析中得到普遍应用是因为它正好模拟了生物基因的突变、插入、缺失、匹配过程。3.1基于隐马尔科夫模型的多重序列比对具体实现过程解决多重序列比对问题,就是通过对序列碱基的匹配、插入和删除操作,获得一个在某个评价模型下比分最优的结果集。基于隐马尔科夫模型具体实现过程为:(1)预处理即序列特征统计。由于生物序列本身的统计学特征,在某一位置出现字母表中字符的概率并不是均等的,因此需要获得一组给定相似序列组S(i)的序列特征统计,一般被称为统计图谱或特征统计矩阵;(2)训练模型。即以一组给定序列相似组S(i)作为训练序列,采用期望最大算法获取该序列组的隐马尔科夫模型参数,构建隐马尔科夫模型M;(3)新序列评估。即采用前向-后向算法将未知序列X(i)与M比对,根据其相似成素,所得到的比对融入多重比对以完善模型;(4)构造多重比对。根据M进行多重序列的比对,及采用Viterbi算法求解在模型M条件下生成未知序列X(i)的状态序列,并根据状态序列构造多重序列比对结果X(i)。3.2 DNA序列的比对中的隐马尔科夫模型 定义一个长度为L的序列特征统计P是一系列的概率集合ei(b) , ei(b)表示在第i (1iL) 个位置上出现字母表中字符b的概率,并定义p(b)是字母b的背景出现频率。一个基因的HMM模型,有L个“匹配”状态的M1,M2,ML,它们对应于特征统计的匹配。所有这些状态顺序连接起来,即状态MJ 连接到后继MJ+1,如下图所示。其中,从状态MJ释放字符b的概率为eJ(b)。为了在比对中允许插入“空格”操作,在上述基本模型中加入“插入”状态I0 ,I1,IL,并假设bAeIj(b)=p(b) 对于每个插入状态IJ,有一个来自相应匹配状态MJ的连接,有一个匹配到状态MJ+1的连接,还有一个自循环连接。根据“空位”的惩罚原则,给这些状态转换赋予适当的概率。为了允许“删除”操作,可以进一步加入“删除”状态D1,D2 ,DL,这些状态不能释放任何字符。删除状态依然顺序裂解,同时增加从D1到IJ的连接以及从IJ到DJ+1的连接。完整的HMM模型如下图所示。图2 多重序列比对问题HMM图对于DNA多重序列比对,隐马尔科夫链可以看成在DNA序列上运动,从一个起始状态开始,以某概率进入配对、插入、删除状态之间的某一个,其中配对和插入状态将产生一个新的碱基,删除状态从原始DNA序列中去掉一个特定的碱基。每个状态结束之后,模型转换到下一个状态,同样,在新的状态,又可以进入配对、插入、删除状态。于是当隐马尔科夫链经历了从起始状态到结束状态时,便可得到两个学列,一是状态序列(观察不到),而是A,C,G,T组成的字母序列(可观察到)。对于与模型想复合的序列,能以较大的概率产生该序列;若不与该模型符合的序列,则按此模型产生改序列的概率会较小。采用上述模型具有以下优点:(1)模型中采用的是位置序列,每一个位置都考虑了所有氨基酸的分布;(2)在连续的两个位置之间考虑了忽略某一位置及插入额外的氨基酸;(3)允许连续的插入碱基。3.3 DNA 序列观察概率的计算:前向后向算法设O = O1 ,O2 , , OT 是一个观察序列( DNA 序列) ,记t时刻的状态为qt ,q0= s0 = Begin ,qT+1 = ST+1 = End。该序列O = O1 ,O2 , , OT的概率P( O | ) 的计算可用前向后向算法解决。定义前向变量:t( i) = P(O1 ,O2 , , Ot ,qt = si | ) (1)这就是说,前向变量t ( i) 是指在给定模型的条件下,产生t 以前的部分观察序列 O1 ,O2 , , Ot ,且t 时又处于状态si 的概率,前向变量t( i) 可按下列步骤进行迭代计算:1) 初始化1( i) = 0ibi(O1) 1 i N (3)2) 迭代计算t+1(j) = i=1Ntiijbjot+1 t=1,2,T-1 1jN (4)后向算法与前向算法相类似,定义后向变量:t( i) = P(Ot+1 ,Ot+2 , , Ot ,qt = si | ) (5)即在给定模型和t 时状态为si 的条件下,从t + 1 时到最后的部分观察序列 Ot+1 ,Ot+2 , Ot 的概率, 可按下步骤进行迭代计算:1) 初始化T(i)= i, T+11 i N (6) 2)迭代计算ti=j=1Nijbjot+1t+1j t=T-1,T-2,1 1iN (7)在给定模型下,产生观察序列O 的概率PO=i=1Ntiti 1tT(8)特别 PO=i=1NTii, T+1 (9)3.4 现有算法分析在理论上基于动态规划的同步算法可以求得多序列的精确解。但是,随着序列数量的增加,算法复杂度也不断增加,呈指数规律增长,因此这类方法对于计算机的系统资源要求较高。在实际应用中,比对三台哦序列是很容易实现。如果仅仅搜索N维空间上有限的区域(序列长度在100之内),7条和8条序列比对是可以管理的,但超过这个限度之后,组合数将剧增,外加上存储空间和计算时间的限制,通常不能满足大而长的序列比对需求。所以,同步法只能进行序列数目在10条之内,长度不超过100的少量、短序列的比对。CLUSTAL算法作为渐进比对算法中比较成功的算法,已经发展很成熟了,它的优点是算法简单,运算速度快,但仍然存在着一些不足之处。在给出的两条序列按照双序列的全局比对算法得到祖先序列的过程中,当对应位置的残基不用时,CLUSTAL算法的解决办法是任意取其中一个,这样就丢失了另一个序列中的信息。因此,其缺点是在这样进行选择的过程中往往要丢失一些信息,导致结果不很可靠,使其容易陷入局部最优化,这一点是它最致命的缺陷。基于隐马尔科夫模型的迭代比对算法是搜索全局最小值的随机方法,它是个概率模拟算法,在迭代步骤无限大,具有陷入局部最小值的危险。而采用并行隐马尔科夫模型算法可以大大提高运算速度,在一定程度上避免陷入局部最小值得危险。基于隐马尔科夫模型的多重序列比对算法的优点是:模型采用的是位置序列,每一个位置都考虑了所有残基的分布;对于进化过程中残基的缺失能更有效的修复。缺点是模型本身需要大量相似序列进行训练,在根据训练结果对目标序列进行匹配,需要占用大量的系统资源。4 总结随着测序技术的发展及生物信息学的广泛应用,大量的数据生物序列及生物数据不断积累,对于多重序列比对的需求也将逐渐上升,隐马尔科夫模型的应用将会越来越广泛。隐马尔科夫模型在生物信息学中的应用仍在不断深入, 并将出现新的模型结构以适应各种新的生物学问题,同时隐马尔科夫模型方法,还可以与其它一些序列分析手段相结合, 如, 贝叶斯方法、神经网络方法和形式语言方法等, 使得隐马尔科夫模型方法在生物信息学中应用的范围不断扩展,随着研究的不断深入,隐马尔科夫模型将在生物信息学中发挥了越来越大的作用。参考文献:1 杜世平,李海.隐马尔可夫模型在多序列比对中的应用J.四川教育学院学报,2004,20(9):90-92.2 罗泽举,宋丽红.隐马尔可夫模型的多序列比对研究J.计算机工程与应用,2010,46(7):171-174.3 周海延.隐马尔科夫过程在生物信息学中的应用J,生命科学研究,2002,6(3):204-210.4 邓志超.基于隐马尔可夫模型的并行多重序列比对D,东北师范大学,2007.5 蒋红敬.HMM及其在生物信息学中应用D,中南大学,2009.6 曹晓燕,徐安龙.生物信息学中的马尔可夫模型J,中山大学学报论丛,2000,20(1):1-9.7 张敏.生物序列比对算法研究现状与展望J,大连学报,2004,4:76-78.8 罗泽举,朱思铭,何淼.基于隐马尔可夫模型的多重序列分析J,中山大学学报,2005,3:10-12.9 刘河生,高小榕,杨福生.隐马尔可夫模型的原理与实现J,国外医学生物医学工程分册,2002,25(6):254-259.10 LAWRENCE R A. Tutorial on hidden Markov models and selected applications in speech recognition J.Proceedings of the IEEE, 1989, 77( 2) : 257- 286.11 KROGH M. Hidden Markov models in computational biology: Applications to protein modeling J . JMol Biol, 1994, 235: 1501- 1531.12 HUGHEY R, KROGH A.Hidden Markov models for sequence analysis: Extension and analysis of the basic method J.CABIOS, 1996, 12: 95- 107.13 Eld D G,Cient E.Methods for multiple sequence alignment with guaranteed error boundsJ.Bulletin of Mathematical Biology,1993,55:141-154.14

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论