第三章序列两两比对_第1页
第三章序列两两比对_第2页
第三章序列两两比对_第3页
第三章序列两两比对_第4页
第三章序列两两比对_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主要内容 序言 序列比对的方法 比对用到的得分矩阵 序列比对的统计学显著性 总结序 言 序列比较是生物信息分析的基础。它是分析新测定序列结构与功能的第一阶段。随着生物序列以指数级速度被测定出来,通过对新测定序列与数据库中已有的序列进行比较来推断新序列功能和进化关系变的方法变得越来越重要,这种比较最基本的方法是序列比对,也就是比较序列来找出一种共同的字符模式以建立相关序列的残基残基之间的一致性。序列两两比对就是对两条序列的比对,它是数据库相似性搜索的基础。序 言 进化基础 dna和蛋白质是进化的产物。它们可以被认为是编码数百万年进化史的分子化石。在进化史上,这些分子经历了随机变化过程,期中一些被

2、进化所选择而保留了下来。这些被选择的序列逐渐积累突变和交叉,进化的痕迹在序列的某些部分被保留下来从而可以识别它们共同的祖先。进化痕迹的存在是由于一些对序列结构和功能起关键作用的残基倾向于被自然选择所保留;而另一些不起关键作用的残基倾向于频繁的改变。例如,一个酵母家族的活性位点残基倾向于被保存下来是由于它们对催化功能起作用。所以,通过序列比对,保守的和改变了的序列模式就能被识别出来。在比对中序列的保守度体现了不同序列之间的进化关系。反之,序列之间的差别反映了在进化的过程中序列以替换、插入和删除残基的形式发生了变化。序 言 识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列的比对显示出了显

3、著的相似性,我们就认为它们属于同一个家族。如果这个家族中一个成员的结构或功能已知,那么它的这些信息就可以推广到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未知结构和功能的序列的结构和功能。 序列比对可以用来推断两条序列是否是相关的。如果两条序列显著相似,那么这种相似性是随机产生的可能性非常小,也就是说这两条序列有共同的进化起源。当一个序列比对被正确的做出来,它就反应了两条序列的进化关系:相同位置出现不同残基的区域代表残基替换;一条序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列出现过残基插入或删除。有一种情况也是可能的,那就是来源于同一祖先的两条序列在某种程度上分离

4、以至于它们有共同祖先的关系已经不能从序列的水平上识别了。如果那样的话,它们的进化距离就必须通过其它的方法识别了。序 言 序列同源(homology)与序列相似(similarity) 序列同源是序列分析的一个重要概念。当两条序列来源于共同的进化祖先我们就说它们是同源关系。一个相关但不同的术语是序列相似,它是指比对的残基在理化性质,如大小,带电,疏水性等方面相似的程度。 序列同源是根据序列比对时两条序列相似性高到一定程度推导出来的两条序列具有共同祖先的一种关系。而序列相似通过观察序列比对结果直接得出的一种结论。序列相似可以用百分比来量化,而序列同源只能取“是“或“不是“。 大体说来,如果两条序列

5、的相似性足够高,我们就可以认为它们是同源的。但是在实际问题中,到底多高的相似性才能认为是同源的是不清除的。答案依赖于被处理的序列类型和序列的长度。序 言 序列同源(homology)与序列相似(similarity) 对于dna序列,由于只存在四种碱基,两条不相关的序列同一位置至少有25%的机会相同,而对于蛋白质序列,一共有20中氨基酸,所以不相关的序列中出现同一氨基酸的概率为5%。序列长度也是一个关键因素。序列越短随机出现相同的残基的概率就高,序列越长随机相同的概率就越小。 这就要求对短的序列给予高的阈值来判断它们同源。例如,对于有100个氨基酸的蛋白质序列,如果全局比对有30%或更高的残基

6、相同,就认为它们很有可能同源,这个范围被称为“安全范围”;如果有20%30%的氨基酸相同,它们的同源关系就不那么肯定了,这个范围被称为“模糊范围”;如果有低于20%的氨基酸相同,那么就很难认为它们具有同源关系,这个范围被称为“黑暗范围”(p33图3.1)。这是一种不精确的方法,尤其是对模糊范围很难判定是否同源,后面介绍的序列比对的统计学上的显著性将会给出精确的方法判断序列是否同源。序 言 序列相似(similarity)与序列一致(identity) 序列比对中用到的另一对相关术语是序列相似与序列一致。这两个概念对于核苷酸序列是同义的。而对于蛋白质序列,这两个概念是非常不同的。在蛋白质序列比对

7、中,序列一致是指待比对的两条序列中相同残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替换具有相似理化性质残基匹配的比例。有两种方法计算序列相似/一致度。 一种方法是用两条序列的全部长度,而另一种是利用较短的序列进行标准化。第一种方法用如下公式计算序列相似度: s=(ls*2)/(la+lb)*100其中s是序列相似的百分比,ls是相似的残基数目,la和lb分别是两条序列的长度。序 言 序列相似(similarity)与序列一致(identity) 第一种方法用如下公式计算序列一致度: i=(li*2)/(la+lb)*100其中i是序列一致的百分比,li是一致的残基数目,la和lb分

8、别是两条序列的长度。 第二种方法利用如下公式计算序列的一致/相似度: i(s)%=li(s)/la% 其中la是较短序列的长度。序列比对的方法 序列两两比对的最终目的是找到两条序列的最佳匹配,也就是找到残基之间的最大相似。为了达到这个目标,一条序列需要相对于另一条序列移动以找到具有最大相似程度的位置。有两种经常用到的不同的比对策略:全局比对和局部比对。 在全局比对中,我们假定两条序列在整个长度上是相似的。全局比对时我们从头到尾的比较两条序列以找到最佳匹配。这种方法很适用于比对两条大体上长度相同且极度相似的序列。对于发散的不同长度的序列,这种方法不能产生最理想的结果因为它不能识别出两条序列中高度

9、相似的局部序列。 在局部比对中,我们不假设两条序列全局相似,只是找两条序列中高度相似的局部区域而不考虑其它区域。这种方法能比对比较分散的序列来找出dna或蛋白质序列中的保守模式。被比对的两条序列可以不等长。 这种方法很适合于比对包含相似模块的分散的生物序列, 以找出domain或motif。序列比对的方法 比对算法 比对算法,不管是全局比对还是局部比对,基本上是相似的,只是比对相似残基时最优化策略不同。所有比对算法都是基于以下三种方法的:点阵方法,动态规划方法和基于单词的方法。点阵法和动态规划算法在这章讲,而基于单词的方法将在下一章讲。序列比对的方法 点阵方法 最基本的序列比对方法是点阵法,也

10、叫点平面图法。这是一种在二维矩阵中比较两条序列的直观方法。待比较的两条序列被放在矩阵的横轴和纵轴上。我们通过扫描一条序列上的每一个残基与另一条序列的所有残基的相似性来比较两条序列。如果发现了一个残基匹配就在相应位置画一个点。而矩阵的其它位置保持空白。如果两条序列有大量的相似区域,就用直线沿着对角线将连续的点连接起来。如果对角线的中间出现断点,就表明有残基的插入和删除。矩阵中平行的对角线代表序列中的重复区域。序列比对的方法序列比对的方法序列比对的方法 点阵方法 用点阵法比较大序列时存在一个问题,那就是高噪音水平。在大多数点平面上,点被画的到处都是,使真正的比对难以被识别。对于dna序列,问题尤其

11、严重,因为dna序列中只有四种字符,所以每一个碱基都有1/4的机会与另一条序列的碱基匹配。为了降低噪音,我们不再直接扫描单个碱基的匹配,而是引进过滤技术。用一个适当长度的“窗口”来覆盖一段连续的残基。当使用过滤器时,窗口沿着两条序列滑动来比较所有可能的连续残基。只有当等于窗口长度的一段连续残基和另一条序列相同长度的残基匹配时才在矩阵中相应位置画点。这种方法在降低噪音水平上是有效的。窗口也被称作“tuple”,其大小是可以被操纵的以使它能识别特定模式的序列。然而,如果窗口被选的很长,比对的敏感性就降低了。序列比对的方法序列比对的方法序列比对的方法 点阵方法 点阵法有许多变形。例如,一条序列可以和

12、它自身比对以识别内部重复元素。在自比对当中会存在一条主对角线以表示其完美匹配。如果内部重复元素存在,会观察到在主对角线的上方或下方有短的对角线。dna序列的自补(也叫反向重复),例如那些存在发夹结构的家族,也能用点距阵法识别。在这种情况下,一条dna序列与它的反向补序列进行比较。平行的对角线代表反向重复。为了比较蛋白质序列,必须使用一个权重系统来描述氨基酸残基的相似度。序列比对的方法自我比较自我比较序列比对的方法 点阵方法 点阵法给出了两条序列关系的一种直观描述,它很容易识别出序列中高度相似的区域。这种方法的一个显著的优点是可以基于矩阵中存在的水平方向上或垂直方向上长度相同的对角线来识别序列中

13、的重复区域。因此这种方法在基因组学中有一定应用。它在识别染色体重复和比较两个高度相关的基因组中基因顺序的保守性非常有用。它在通过检测序列的自补性来识别核苷酸序列的二级结构也非常有用。 点阵法能显示所有可能的序列匹配。然而,它要求用户将邻近的对角线连接起来来构造带有残基插入和删除的全序列比对。这种方法的另一个缺点是它缺少评价比对质量的统计上的精确性。这种方法在两两比对中也存在局限性。它很难构造多序列比对。下面是几个利用点阵法设计的序列两两比对的工具。 dotmatcher(bioweb.pasteur.fr/seqanal/interfaces/dotmatcher.html) dottup(b

14、ioweb.pasteur.fr/seqanal/interfaces/dottup.html) dothelix(www.genebee.msu.su/services/dhm/advanced.html) matrixplot(www.cbs.dtu.dk/service/matrixplot/ )序列比对的方法 动态规划方法 动态规划是一种通过匹配两条序列中所有可能的字符对来确定最优比对的方法。它和点阵法基本相似,就是也需要构造一个二维的矩阵。而它确是通过将点阵转换为记录序列间匹配和失配的得分矩阵来找最优比对的定量的方法。通过寻找矩阵中的最高分数集合来精确的找到最佳联配序列比对的方法 动

15、态规划方法 动态规划的第一步是构造两个轴分别是两条待比对的序列的二维矩阵。残基的匹配是根据一个特殊的得分矩阵。每次计算一行分数。这个过程开始于一条序列的第一行,用这行扫描另一条序列的全部残基,紧接着处理第二行。这样匹配分数就被计算出来了。在扫描第二行的时候计算分数依赖于第一轮计算出来的分数。最优分数被放在矩阵的右下角。叠代这一过程直到矩阵的所有元素都被填上。因此,分数是沿着从左上角到右下角的对角线累加的。一但矩阵中的所有分数都被计算出来,下一步就是寻找代表最佳比对的路径。这一过程是沿着矩阵的右下角到左上角的相反的顺序来回溯完成的。最优匹配路径就是总分最高的路径。如果两条或更多的路径得到最高分,

16、就任选一条代表最佳比对。路径也可以在某一点水平或垂直移动,它代表引入空位,也就是在其中一条序列中有残基的插入或删除。序列比对的方法actgcctatgct11000000002222312333302234550233456最佳比对是:a c t g c c t a - t g - c t 序列比对的方法 空位罚分 在寻找最优比对时要用到代表插入和删除的空位。因为在自然进化过程中插入和删除发生的频率要比替换相对少,所以引进空位在计算上应该是比较谨慎的以反映在进化中插入和删除发生的少。然而实际中分配罚分值是比较任意的,因为没有革命性的理论来确定引进插入和删除所付出的精确的代价。如果罚分值设置的过

17、低,空位就会过多以至于无关序列也会得到很高的相似性得分;如果罚分值设置的过高,空位就很难被引进以至于很难找到合理的比对,这也是不切实际的。通过对球状蛋白的经验学习,我们已经得到了一组适合于大部分比对的罚分值。在大多数比对程序中它们可以被用作默认的罚分值。序列比对的方法 空位罚分 另一个要考虑的因素是新开始一个空位和扩展一个已经存在的空位所付出的代价是不同的。众所周知,扩展一个已经开始的空位是相对容易的。因此新开一个空位要比扩展一个空位设置更高的罚分值。这是根据这样一个基本原理,那就是一但插入和删除发生,那么一些临近的残基很可能一起被插入和删除。这种不同的罚分策略已经在纺射型空位罚分中被提到。基

18、本的策略就是根据预先调整好的空位罚分值来引进或扩展空位。例如,可以用-12/-1方案来进行空位罚分,也就是新开一个空位罚12分,扩展一个空位罚1分。总得罚分(w)用下面的公式计算: w=序列比对的方法 空位罚分 在序列末尾的空位我们经常不进行罚分,因为在实际中很多同源的序列是不等长的。因此末端的空位是允许自由出现的以避免得到不切实际的比对结果。例:例:s = agcacacat = acacacta 得分矩阵得分矩阵d (99 9)s s t tagcacaca0-1-2-3-4-5-6-7-8a-1c-2a-3c-4a-5c-6t-7a-8初始化初始化计算计算d(2,2)0-1-2-3-4-

19、5-6-7-8-110-20-3-1-4-2-5-3-6-4-7-5-8-6计算计算d(2,2)s s t tagcacaca0-1-2-3-4-5-6-7-8a-110-1-2-3-4-5-6c-20110-1-2-3-4a-3-101210-1-2c-4-2-1113210a-5-3-2022432c-6-4-3-113354t-7-5-4-202345a-8-6-5-3-11335最终的得分矩阵最终的得分矩阵及最佳序列比对及最佳序列比对0-1-2-3-4-5-6-7-8-110-1-2-3-4-5-6-20110-1-2-3-4-3-101210-1-2-4-2-1113210-5-3-

20、2022432-6-4-3-113354-7-5-4-202345-8-6-5-3-11335agcacac a| | |a cacacta序列比对的方法 全局比对的动态规划算法 经典的运用动态规划进行全局两两比对的算法是needleman-wunsch算法。在这个算法中,我们会得到一个基于两条序列全长的最佳的比对结果。它必须对序列从头到尾的进行计算以得到最高比对得分。换句话说,比对路径必须是从矩阵的最右下角一直到最左上角的原点。关注序列全长的最大比对得分的缺点是找不到局部的序列相似。这种策略适合于比对高度相关的等长序列。对于发散的序列或具有不同域结构的序列,用这种方法不能得到最理想的比对。一

21、个用于全局两两比对的web程序是gap。 gap(/aat/align/align.html)是一个基于web的序列两两全局比对程序。它比对序列时不进行末尾罚分,所以不同长度的相似序列可以被比对。为了能在比对中引入长的空位,这个程序运用固定罚分模型。这个程序适用于比对包含相同基因的染色体杂交品种中的cdna。序列比对的方法 局部比对的动态规划算法 在正常的序列比对中,两条被比对序列的分离水平是不容易知道的。两条序列的长度可能也不相同。在这种情况下,识别序列的局部相似性比比对包含所有残基的整个序列更有意义。第一个运用动态规划进行局部

22、序列比对的算法是smith-waterman算法。在这个算法中匹配的残基被赋予正的分数而失配的残基被赋予零分,不用负分。在这个算法中也用回溯的方法,然而,比对路径可能开始和结束于沿对角线的矩阵内部。它开始于矩阵中的最高分处向左上角回溯一直到第一个为零的位置结束。如果必要的话可以引入空位。如果有空位经常使用纺射型空位罚分。偶尔会找到几个具有最高得分的局部区域。在全局比对中,最终结果受到使用的得分矩阵的影响。而局部比对的目标是找到局部最高分,在扩展最高分的时候可能扩展到全序列。这种方法适用于比对分散的序列和具有多个来自于不同源的区域的序列。大多数两两比对程序都用局部比对策略,它们包括sim,sse

23、arch和lalign。序列比对的方法 局部比对的动态规划算法 sim(/aat/align/align.html)是一个基于web的运用smith-waterman算法寻找两条序列间无重叠的最佳局部比对的程序。它可以处理几十kbp的基因组序列。用户可以设置使用的得分矩阵和罚分模型。用它已经得到了很多高得分的比对。 ssearch(/pirwww/search/pairwise.html)是一个简单的基于web的运用smith-waterman算法进行序列两两比对的程序。它只能得到一

24、个最佳比对得分。用户不能设定使用的得分矩阵和罚分模型。 lalign(/software/lalign_form.html)是一个基于web的运用改进的smith-waterman算法进行序列比对的算法。不像ssearch只得到一个最佳比对得分,lalign给出一系列最佳比对得分。用户可以设置使用的得分矩阵和罚分模型。这个网页也给出了一个进行全局比对的程序align。比对用到的得分矩阵 在目前的动态规划算法中,比对程序必须使用打分系统,也就是用来量化一个残基被另一个残基替换的可能性的一组数值。打分系统也叫替换矩阵,他是通过统计分析对高度相似的序列进行可靠比对得

25、到的残基替换数据集得到的。 核苷酸序列的得分矩阵是相对简单的。对匹配的位置赋予一个正值或高分,对失配的位置赋予一个负值或低分。这种负值方法是基于所有碱基的变化频率相同的假设。然而,这种方法是不符合实际的;观察显示转换(transition)(嘌呤与嘌呤之间的或嘧啶与嘧啶之间的替换)发生的频率比颠换(transversion)(嘌呤与嘧啶之间的替换)发生的频率高。因此,需要一个反应不同的残基替换其发生的频率不同的更加复杂的统计模型。 氨基酸序列的得分矩阵比较复杂,因为分数必须反应氨基酸残基的理化性质和某种氨基酸被同源序列的残基替换的可能性。某一种氨基酸可以很容易的被具有相似理化性质的其它氨基酸替

26、换而很难被具有不同理化性质的氨基酸替换。相似残基之间的替换很容易保存结构和功能特 比对用到的得分矩阵 征。而不同理化性质的残基之间的替换很可能导致结构和功能分离。这种会产生分裂的替换是很少有可能被进化所选择的,因为这会导致蛋白质失去功能。 例如,苯丙氨酸,酪氨酸和色氨酸都具有芳香环结构。由于它们化学性质相似,所以很容易彼此替换而不会破坏蛋白质的正常结构和功能。类似的,精氨酸,赖氨酸和组氨酸都是大的碱性残基,所以它们很容易彼此替换。天冬氨酸和谷氨酸属于酸和酸的氨基化合物,因此可以以相对高的替换频率被联合在一起。疏水残基组包括甲硫氨酸,异亮氨酸,亮氨酸和缬氨酸。小的极性残基包括丝氨酸,苏氨酸和半胱

27、氨酸。这些组内的残基有很高的可能性彼此替换。而半胱氨酸包含一个硫基,所以它在金属的结合,活性位点以及二硫化物结合等方面扮演重要角色。因此别的氨基酸替换了半胱氨酸经常会彻底破坏酶的活性以及使蛋白质的结构不稳定。它是一个很少被替换的残基。小的非极性的残基像甘氨酸和脯氨酸也是独一无二的,它们的存在经常会破坏蛋白质正常的二级结构。因此和它们的替换也是很少发生的。有关氨基酸群组的理化性质的更多信息请看表12.1。比对用到的得分矩阵 氨基酸得分矩阵 氨基酸替换矩阵是一个20*20的矩阵,它用来反映氨基酸残基替换的可能性。存在两种类型的氨基酸替换矩阵。一种是基于基因编码或氨基酸性质的可交换性;另一种是通过对

28、氨基酸替换的经验学习得到的。尽管两种不同的方法都符合一定的范围,而第一种,也就是基于基因编码或氨基酸的理化性质的方法没有第二种方法,也就是基于对实际相关的蛋白质中氨基酸的替换的考察的方法准确。因此,经验上的方法在实际序列比对程序中得到普及,它也是我们下面将要讨论的。 经验上的矩阵,包括pam矩阵和blosum矩阵,是通过对高度相似序列的实际比对得到的。通过分析在这些比对中氨基酸替换的可能性,我们就能得到一个得分系统,这个系统对很可能发生的替换打高分,对很少发生的替换打低分。比对用到的得分矩阵 氨基酸得分矩阵 对于一个给定的矩阵,一个正的分数说明在一个同源序列的数据集中观察到的氨基酸替换频率比随

29、机替换频率高。它们代表非常相似的或是同源的氨基酸之间的替换。零分说明在一个同源序列的数据集中观察到的氨基酸替换频率和随机替换频率相同。这种情况表明氨基酸至多在理化性质方面是弱相似。一个负的分数说明在一个同源序列的数据集中观察到的氨基酸替换频率比随机替换频率低。这通常发生在不相似的残基之间。比对用到的得分矩阵 氨基酸得分矩阵 替换矩阵通过实施对数转换来描述氨基酸之间替换的可能性。转换值被称为所谓的对数几率分数,这个分数是观察到的突变频率比上随机替换频率的对数。这种转换的底数可以是10也可以是2。例如,在一个包括十条序列的比对中,每条序列只比对一个位点,其中九条序列都是f剩下的一条是i。那么观察到

30、的i被f替换的频率就是0.1,而i被f随机替换的可能性是0.05,因此两种可能性的比就是2(0.1/0.05)。然后把这个值转化成以2为底的对数,对数几率就是1。这个值就可以用来解释两种残基的替换可能性是21,即替换的可能性是随机替换的两倍。比对用到的得分矩阵 pam 矩阵 pam矩阵(也叫dayhoff pam矩阵)是由margaret dayhoff首先构建的,她通过对21组非常接近的相关蛋白质序列进行比对构造出了pam矩阵。pam的意思是“点接受突变”(尽管“可接受的点突变”或者apm更加合适,但是pam好发音)。因为使用的是非常接近的同源序列,观察到的突变不会显著的改变蛋白质的一般功能

31、。因此,观察到的氨基酸突变被认为是被自然选择接受了的。 这些蛋白质序列被基于用最大简约法构建的系统发育谱聚类。然后我们就可以得到基于同一类中序列的进化距离的pam矩阵。一个pam单位被定义为有1的氨基酸位点发生了变化。我们选择一组突变频率符合一个pam单位的非常相关的序列来构建一个pam1替换表。在收集这组序列的突变数据的基础上,我们就能得到一个突变矩阵。 比对用到的得分矩阵 pam 矩阵 构建一个pam1矩阵包括对一组序列进行全局比对和随后的运用简约原则构建系统发育树。这个过程需要计算每一个发育树内部节点的祖先序列。祖先序列信息用来计算沿每一个分支的替换数目。一个特定的残基对的pam分数是通

32、过一个多阶段过程得到的,这个过程包括:计算相对突变率(一个特定氨基酸被同源的氨基酸替换的总数除以在整个比对中这种氨基酸出现的总数),用随机替换率对预期的氨基酸替换频率进行标准化,把标准化后的突变率除以特定氨基酸出现频率然后取以10为底的对数。把结果取整然后填入替换矩阵,这个矩阵就可以反映氨基酸替换的可能性。这样就完成了计算对数几率分数的过程。在收集了所有可能的氨基酸替换后就可以建立一个20*20的pam矩阵。正的分数表示替换发生的频率比预期的进化中保存的替换频率高。负的分数表示替换发生的频率比预期的低。 比对用到的得分矩阵 pam 矩阵 对应于较分散序列的高阶的pam矩阵是通过对pam1矩阵相

33、乘推断出来的。例如,pam80是通过对pam1矩阵自乘80次得到的。这种数学转换是基于这样一种原理的,那就是它认为在进化过程中一个氨基酸位点发生了多次替换。例如,当观察到一个f被i替换的突变时,进化中的变化过程实际上可能经历了一系列的中间过程,比如f-m-l-i。基于这种原因,一个pam80矩阵只相当于观察到突变率的50。 一个pam单位被定义为有1的氨基酸发生改变或是每100个氨基酸中有一个突变。渐增的pam阶数把渐增的pam单位同蛋白质序列的进化距离联系起来。例如,pam250,有20的氨基酸一致,代表每100个残基就有250个突变。在理论上,进化中改变的数目大概符合25亿年的进化跨度。因

34、此,pam250通常被用于发散的序列。因此,低阶的pam矩阵更适用于比对高度相关的序列。pam250的氨基酸的替换矩阵的推断值可以见表3.5。比对用到的得分矩阵 blosum 矩阵 在pam矩阵构建过程中,只是直接观察了pam1中的基于一小堆极其相近序列中的残基替换。对于较分散序列的比对的统计是不可靠的。为了弥补这个缺点,产生了一种新的替换矩阵。这是一种氨基酸序列块的替换矩阵,所有的矩阵都是通过直接观察多序列比对中每种氨基酸替换的可能性而得到的。它们都是建立在代表500组蛋白质序列的2000个氨基酸模式基础上的。序列模式也叫块,是少于60个氨基酸残基长度的无空位比对。这些块中的氨基酸残基的替换

35、频率被计算出来形成一张数值表,或叫块替换矩阵。 blosum矩阵不用推断,而是用实际上所选序列的残基一致性的比例来构建矩阵。例如,blosum62表明被选择构建矩阵的序列有平均62%的一致性。人们也构建了其它一些基于各种不同的一致性水平序列的矩阵。和pam矩阵的阶数意义相反,blosum矩阵的阶数越低,它代表的序列就越分散。比对用到的得分矩阵 blosum 矩阵 一个特定残基对的blosum分数是一个对数几率分数,这个分数是通过观察到的残基替换频率比上随机的残基替换频率然后转化为以2为底的对数,而不像pam是以10为底的对数。计算的结果被取整后填入替换矩阵。像pam矩阵一样,正值和负值分别表示

36、替换的频率比进化中预期的替换频率高或低。blosum62矩阵的值可见表3.6。比对用到的得分矩阵 pam 矩阵与blosum 矩阵的比较 pam矩阵和blosum矩阵之间有很多不同。本质上的不同是pam矩阵,尤其是pam1矩阵是通过一个进化模型得到的, 而blosum矩阵完全是由直接观测值构成。因此,blosum矩阵可能没有pam矩阵那么强的进化上的实际意义。 这是pam矩阵常被用来重构系统发育树的原因。然而,由于使用了数学推断过程,pam矩阵对于发散的序列可能不符合实际。blosum矩阵是完全通过对保守序列的局部比对得到的;而pam1矩阵是通过对包含保守和变化区域的整个序列的全局比对得到的。

37、这是blosum矩阵更适用于搜索数据库和寻找蛋白质中的保守区域的原因。 一些经验上的测试表明blosum矩阵在局部比对的正确性方面胜过pam矩阵。这很可能是由于blosum矩阵是通过使用比pam矩阵更大更有代表性的数据集得到的。这使得blosum矩阵的值更加可靠。为了补偿pam系统的不足,基于更大数据集的使用相同方法构造的pam矩阵已经构造出来。这些矩阵包括gonnet矩阵和jones-taylor-throrton矩阵,它们在常规比对中显示了和blosum矩阵相同的性能,但是在构造系统发育树方面显示了更强的鲁棒性。序列比对的统计学显著性 当给出了显示一定相似度的序列比对时,知道这个观测到的序

38、列比对在随机状态下能否发生或者说这个比对是否在统计上是可靠的是非常重要的。在统计学上确实是显著的序列比对能提供序列同源的证据。 为了解决这个问题需要对等长但不相关的序列的比对得分进行统计测试。通过计算大量不相关序列对的比对得分,我们就能得到一个随机序列比对得分的分布模型。从这个分布中,我们就可以基于与平均得分的标准误差来进行统计测试了。许多研究已经证明相似性得分分布呈现出一侧带有长尾巴的高偏正态分布的特殊形状(见图3.7)。这种分布符合“坎贝尔极值分布”,这种分布可以用数学表达式计算。这意味着给定一个比对的相似性得分,通过极值分布的数学公式就可以准确地估计它的统计学显著性。序列比对的统计学显著性 对两条无关序列的统计测试可以通过下面的过程完成。首先得到两条序列的理想的比对。通过随机打乱两条序列中的一条这样一个随机过程来得到两条等长的无关序列。通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论