




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章数据搜索与
两两比对序列的比对、比较以及相似序列的数据库搜索等技术已经成为了生物学的基础任何两条或多条核苷酸或氨基酸序列之间的比对,从真正意义上讲,代表着有关这些序列进化历史的明确假设。直接对相关氨基酸和核苷酸序列比较的结果,使得近来对基因序列的信息含量以及功能的了解有了新的进展。序列比对为解决许多关键性的问题提供了重要的信息,这些问题包括:确定新发现基因的功能;确定基因间、蛋白质间乃至物种之间的进化关系;预测蛋白质的结构和功能等本章内容点阵图——图形方式、直观地、不考虑空位简单比对——数值方式比较两序列相似度空位打分矩阵动态规划——高效地序列比对全局比对与局部比对——根据特定需要,对动态规划的改进方法数据库搜索多重序列比对2.1点阵图
评估两条序列相似度最简单的方法之一是利用点阵图。
第一条被比较的序列排列在点阵图空间的横轴,第二条序列则排列在纵轴。点阵空间中两条序列中的残基相同时,在对应的位点上画上圆点,两条序列间连续相同的区域在图中会形成由圆点组成的上斜线。具有连续相似区域的两条DNA序列的简单点阵图AGTCCTGACTGAAGTC相同区域滑动窗口技术当对长且相似的序列进行比较时,这样的点阵图很快就会变得非常复杂和拥挤。使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记为圆点基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域。(a)对人类(Homosapiens)与黑猩猩(Pongopygmaeus)的β球蛋白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8。(a)(b)2.2简单比对比对就是两条序列字符间简单的两两匹配。比对可以反映出两条或多条同源序列间的进化关系。两天序列的相似度可以用一个数值来衡量序列给定位置可能发生的3种变异:插入删除替换由于在被比较的序列中没有与被插入或删除核苷酸序列同源的序列,因此通常在比对时加入空位来反映此类变化最简单的情况下即不考虑空位,当两条序列对比时,要做的仅是为较短的序列选择比对的起始点。考虑这样的两条核苷酸序列:AATCTATA和AAGATA仅有三种比对方式不考虑空位的简单比对,它的打分函数是由对比奖励和罚分的和来决定上例中三个比对从左至右分别是4、1、3匹配得分:1失配得分:02.3空位两条或多条序列比对时,如果考虑到插入与删除事件发生的可能性,那么候选的比对数量就会大大增加,也就导致了比对的复杂性。上节中两条核苷酸序列,在不考虑空位时仅有三种比对,而较短的那条加入了两个空位后,变产生了28种不同的比对,例如:等等……2.3.1简单空位罚分对含有空位的比对打分时,空位罚分就必须包含到打分函数中,空位比对的简单打分公式如下:例如:假设匹配得分为1,失配得分为0,空位罚分为-1三种空位比对的得分从左至右分别是1、3、32.3.2起始罚分与长度罚分使用简单空位罚分对两条序列进行比对时,经常能找到若干同是最优的比对。进一步区分这些比对的方法是找出哪些比对包含较多的不连续空位,哪些包含数量较少而长度较长的空位片段。考虑到竞争假说,那些不可能事件出现较少的比对就最可能是正确的比对。插入/删除事件假设两条序列长度分别是12和9假设这两条序列是真正的同源序列,那么它们之间长度的差异可以解释为(1)较长的序列有核苷酸的插入,或者(2)较短的序列发生了核苷酸的删除,或者(3)两者都发生了。在不知道原始父辈序列的情况下,无法判断导致空位的原因是由于一条序列的插入事件还是另一条的删除事件,通常把这类事件称为插入/删除事件。多联核苷酸的插入删除事件相对于单个核苷酸来说会较经常发生。统计结果表明,两条序列长度上的差异更可能是单个三联核苷酸的插入删除事件导致的,而多个不连续核苷酸插入删除事件的可能性比较小。具有较长连续空位的比对更能体现进化的观点,所以在建立比对打分函数时偏向于通过降低空位罚分来进行奖励空位罚分(由两部分相加组成)起始罚分:由序列中产生的新空位串引起长度罚分:根据缺少的字符数而定的。预设长度罚分小于起始罚分,以此建立的打分函数便能奖励空位连在一起的比对。假设起始罚分为-2,长度罚分为-1,匹配得分为+1,失配得分为0,则对于这三个比对,从左至右比对的得分分别是-3,-1,+1在后两种比对在使用简单空位罚分时,最后得分都是+3,现在却得到了不同的分数。2.4打分矩阵正如空位罚分可以奖励与进化相关的的比对,失配罚分也可以用来进一步区分相似比对。统计结果表明,两条同源的序列比对时,某些替换比其他替换常见的多。例:
两条蛋白质序列,其中一条在某一个位置上是丙氨酸,如果该位点被替换成另一个较小的且疏水的氨基酸,比如缬氨酸对蛋白质的影响很小,如果被替换成较大且带电的残基,比如赖氨酸,那么对蛋白质的影响可能就会非常大。直观的讲,比较保守的替换比随机替换更可能维持蛋白质的功能,更不容易被淘汰,因此在打分上更倾向于丙氨酸而不是赖氨酸。打分矩阵(ScoringMatrix)核酸打分矩阵设DNA序列所用的字母表为
={A,C,G,T}a.单位矩阵b.BLAST矩阵c.转换-颠换矩阵(transition,transversion)(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)ATCGA1000T0100C0010G0001ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51单位矩阵转换-颠换矩阵BLAST矩阵为氨基酸序列比对设计打分矩阵时,要考虑若干个因素。化学/物理的相似性以及替换率是最常见的两个:打分矩阵统一可以根据残基的疏水性、带电性、电负性以及大小来得到。例如,具有芳香族功能基团的氨基酸之间配对可能得分很高,而具有非极性功能基团的氨基酸与具有带电功能基团的氨基酸配对时,就要罚分。另一种基于相似度的矩阵是根据遗传编码来得到:当一种残基转变成为另一种残基时,根据编码它们的密码子所对应的核苷酸必须被替换的最小数目来为残基打分为了得到打分矩阵,更常用的方法是统计自然界各种氨基酸参加的相互替换率。如果两者特定的氨基酸间替换发生的比较频繁,那么对这两种残基比对位点的打分会比较优待;反之就要被罚分了常用氨基酸打分矩阵点接受突变(PAM)矩阵:(PointAcceptedMutation)一种基于统计替换率的常用打分矩阵BLOSUM矩阵:通过统计聚类技术来对相关蛋白质的无空位比对进行分类PAM矩阵构建:构建一个序列间相似度很高(>85%)的比对计算每个氨基酸j的相对突变率mj相对突变率:某种氨基酸被其他任意氨基酸替换的次数针对每个氨基酸对i和j,计算氨基酸j被氨基酸i替换的次数Aij将替换次数Aij除以相对替换率mj利用每个氨基酸出现的频度对其进行标准化,并将以上结果取自然对数,于是得到PAM-1矩阵中的元素Rij对矩阵中元素进行标准化可以使PAM矩阵通过一个进化的固定单位反映氨基酸间替换发生的可能性。对于PAM-1,这个单位就是每100个残基发生一次替换,即一个PAM单位将PAM矩阵与自身相乘,可以近似得到高阶PAM矩阵:PAM2,PAM3…针对不同的进化距离选择PAM矩阵序列相似度=40%50%60%
|||打分矩阵=PAM120PAM80PAM60PAM250→14%-27%
BLOSUM矩阵另一种常用打分矩阵,通过统计聚类技术来对相关蛋白质的无空位比对进行分类与PAM矩阵类似,可以根据亲缘关系的不同来选择不同的BLOSUM矩阵进行序列比较。然而,BLOSUM矩阵的意义与PAM矩阵正好相反:低阶BLOSUM矩阵更多是用来比较亲缘较远的序列。一般来说,BLOSUM-62矩阵适用于比较大约62%相似度的序列;BLOSUM-80更适用于比较相似度为80%左右的序列2.5动态规划:Needleman和Wunsch算法一旦选定了序列比对打分的方法,就可以为寻找最佳比对设计算法了。最显而易见的方法就是对每个可能的比对进行穷举搜索,但这一般是不可行的。比对的目的:在给定打分矩阵的情况下,仅仅获取最佳比对值仅仅获取与最佳比对值相对应的序列我们可以用动态规划解决这个问题,即把一个问题分解成计算量合理的子问题,并使用这些子问题的结果来计算最终答案。S.Needleman与C.Wunsch首次运用动态规划方法来进行序列分析。假设两条序列比对:CACGA和CGA,使用统一的空位和失配罚分
,则对于第一个元素比对时,有以下3种可能:给第一条序列加一个空位给第二条序列加一个空位两条序列都不加空位CACGACGACACGACGACACGACGA如果知道了ACGA与GA最佳比对的得分,就可以立即计算出表中第一行的得分。同样地,如果知道了表中第二、第三行剩余序列的最佳比对的得分,就可以计算出起始位点的不同的三种比对得分。
动态规划算法通过计算部分序列比对得分并填入一个表格,直到整个序列比对被计算出来,由此得到最优比对。第一位点得分待对比的剩余序列CC+1ACGAGA-C-1CACGAGAC--1ACGACGA(匹配得分为1,失配得分为0,空位罚分为-1)动态规划比对ACAGTAG与ACTCG空位罚分为-1匹配奖励为+1失配得分为00-1-2-3-4-5-1-2-3-4-5-6-7ACTCGACAGTAG用空位罚分的倍数对表格第一行与第一列进行初始化每一个格子保存子序列最优比对值填充表格0-1-2-3-4-5-1-2-3-4-5-6-7ACTCGACAGTAG表格中横向移动表示在纵轴序列中加入一个空位纵向移动表示在横轴序列中加入一个空位斜对角向移动表示两序列各自相应的核苷酸进行了比对横向移动纵向移动斜对角向移动0-1-2-3-4-5-1-2-3-4-5-6-7ACTCGACAGTAG-1-1=-2,表示在横向序列中插入一个空位,然后与纵向序列中的A比较,空位罚分-1。-1-1=-2,表示在纵向序列中插入一个空位,然后与横向序列中的A比较,空位罚分-1。0+1=1,表示两序列的第一个A进行对比,匹配奖励1。-2-2110-1-2-3-4-5-1-2-3-4-5-6-7ACTCGACAGTAG1-1=0,表示在横向序列中插入一个空位,然后与纵向序列中的C比较,空位罚分-1。-2-1=-3,表示在纵向序列中插入一个空位,然后与横向序列中的A比较,空位罚分-1。-1+0=-1,表示横向序列的A与纵向序列的C进行比较,失配得分0。-3-11000-1-2-3-4-5-1-2-3-4-5-6-7ACTCGACAGTAG-2-1=-3,表示在横向序列中插入一个空位,然后与纵向序列中的A比较,空位罚分-1。1-1=0,表示在纵向序列中插入一个空位,然后与横向序列中的C比较,空位罚分-1。-1+0=-1,表示横向序列的C与纵向序列的A进行比较,失配得分0。0-11-3000-1-2-3-4-5-1-2-3-4-5-6-7ACTCGACAGTAG0-1=-1,表示在横向序列中插入一个空位,然后与纵向序列中的C比较,空位罚分-1。0-1=-1,表示在纵向序列中插入一个空位,然后与横向序列中的C比较,空位罚分-1。1+1=2,表示横向序列的C与纵向序列的C进行比较,匹配奖励1。-1100-122●●●●0-1-2-3-4-5-110-1-2-3-20210-1-3-11210-4-20122-5-3-1112-6-4-2011-7-5-3-102ACTCGACAGTAG为了利用打分表重建比对,需要找出一条由表格中最右下角到最左上角的路径!动态规划途中箭头指示了部分打分表中的合法路径,每条路径代表若干等价最优比对路径自右下至左上排列自来分别是↖↖↖↑↑↖↖
根据这条线路,可以重建比对,可以得到以下这个得分为2的最优比对0-1-2-3-4-5-110-1-2-3-20210-1-3-11210-4-20122-5-3-1112-6-4-2011-7-5-3-102ACTCGACAGTAG2.6全局对比与局部比对
2.6.1准全部比对到目前为止,所有讨论的基本比对算法仅是做了全局比对。而比对两序列时,这并不总是可取的。假如从AAACACGTGTCT中搜寻段序列ACGT。在若干种两序列比对中,我们需要的是区别对待末端空位与序列内部空位这种比对称为准全局比对(semiglobalalignment)准全局比对(1)通过初始化部分打分表,表格第一行与第一列为零;(2)允许表格最后一行与一列横向与纵向的移动不被罚分;Needleman和Wunsch算法的改进(准全局比对)2.6.2Smith-Waterman算法准全局比对有时有点不能为序列搜索提供所需的适应性,比如给定一条很长的DNA序列,要求找出其中与酵母基因组具有相似部分的任何一条子序列需要进行局部比对例如:两条序列AACCTATAGCT和GCGATATA,用准全局比对算法,空位罚分为-1,匹配奖励为+1,失配得分为-1,得:2.6.2Smith-Waterman算法局部比对1981年,由F.Smith和M.Waterman首次提出;动态规划方法通过较少的改动便可以用来识别匹配的子序列,并且忽略匹配区域之前或之后的失配和空位;局部比对时,表中小于零的位置用零代替;得到的局部比对代表了被比两条序列间的最佳的匹配子序列;局部比对方法可以识别子序列的匹配,而这是全局与准全局比对不可能做到的。局部比对时,表中小于零的位置用零代替AACCTATAGCTGCGATATA
AACCTATAGCT2.7数据库搜索尽管序列比对是比较两条已知序列的极为重要的工具,然而序列比对的更为常见的用途是用来搜索大量序列的数据库,以找到与特定序列相似的那些序列。在数据库搜索过程中,由于被搜索序列很长,而且数量巨大,用简单而直接的方法将数据库中的每条序列与查询序列进行比对并返回得分最高的序列难以奏效。作为替代方法,各种索引方法与启发方式被用来加快搜索的过程,虽然不能保证与查询序列比对的最好的,但是能返回大部分与查询序列比对较好的,而且这些方法的效率很高。2.7.1BLAST及其家族序列数据库搜索最著名且常用的工具之一是BLAST算法,原始的BLAST算法是通过搜索序列数据库来找出最优的无空位局部比对。BLASTP是BLAST算法的一种变种为了有效地搜索大型数据库,BLASTP首先将查询序列打碎成一个个单词,通过查询序列上滑动与单词等长的窗口,来获取查询序列中所有可能的单词。那些由最常见氨基酸组成的单词会被弃之一边,然后从数据库中搜索余下单词出现的情况每当从数据库中找到一个单词的匹配,就从单词两端延伸该匹配,直到比对得分低于给定的阈值为止除了BLASTP,还有BLASTN和BLASTX等等….BLASTP搜索算法概述2.7.2FASTA及其相关算法FASTA算法及家族成员能够进行序列间含空位的局部比对。FASTA搜索非常细致,需要时间也长的多。FASTA搜索也是将搜索序列打碎成单词。对于基因组序列,单词一般只4至6个核苷酸,而对于多肽,单词长度一般为1至2个残基。下一步为查询序列建立一个表格,表格中记录了各个单词在序列中出现的位置对于氨基酸序列FAMLGFIKYLPGCM,假设单词长度为1,那么:为了与目标序列比较,我们建立了第二个表格,该表格用来比较目标序列与查询序列中氨基酸的相对位置目标序列TGFIKYLPGACT,那么123456789101112TGFIKYLPGACT3-2333-33-4-8210333单词ACDEFGHIKLMNPQRSTVWY位置2131578431196121014对照表格发现,甘氨酸(G)在第一个表中位置为5、12,在第二个表中为-4、3,再观察其它出现了很多距离为3的情况,这一现象暗示了一个可能的合理比对。通过两条序列的偏移表,即可发现相同的区域。然后利用Smith-Waterman算法对它们进行比对。因为这是对相似序列的已知区域进行比对,所以比起完全使用动态规划算法来进行查询序列与所有可能目标序列直接的比对,FASTA要快很多123456789101112TGFIKYLPGACT3-2333-33-4-82103332.7.3数据库搜索的比对得分与统计显著性数据库搜索总会产生一个结果的,如果没有更多的信息,被找出的序列不能认为与搜索序列有关比对得分可以基本说明搜索结果与查询序列间的相似度,然而由于数据库搜索算法不同,比对打分标准并不统一,而且得分本身并不能充分指明两序列间的关系假设某个数据库搜索结果的比对得分为S,那么可以问这样一个合理的问题:“假如有一组与查询序列不相关的序列(甚至是随机序列),那么在这些序列中随机找到一个得分同为S的比对的概率有大的?”为了回答这个问题,数据库搜索引擎一般都为每个搜索结果提供P得分和E得分E得分指的就是随机找出的序列的期望数目,这些序列与查询序列比对得分能大于等于SP得分指的是对于随机找出的一条或多条序列,其比对得分大于等于S的可能性P与E的值比较低说明该结果与查询序列具有进化上的关系。当E值不高于10-3时,搜索结果通常被认为具有统计上的显著性。对搜索算法来讲,得到的匹配所具有的E值在数量级上为10-50,这一点并不罕见,它意味着查询序列与搜索结果间具有进化关系的可能性非常大2.8多重序列比对
(multiplesequencealignment)到目前为止,所讨论的比对算法都是为进行序列两两比较而设计的,然而同时比对多条序列也是很重要的。当统计一组序列的替换率时,多重序列比对通常比两两比对更合适,因为多重比对尽可能地多考虑到了序列中的空位。多重比对对于打分矩阵的建立也很重要,比如本章前面讨论的PAM与BLOSUM矩阵。但是由于随着比对序列数量的增大,多重比对算法的复杂度呈指数级增加,就算是使用超级计算机或者工作站的分布式网络,要对20条以上具有一般长度与复杂度的序列进行比对,仍是非常棘手的问题。因此,利用启发式的比对方法被提出来,这类方法不能保证产生一个最优比对,但是能找出一个近似最优的比对。本章总结两条或多条基因或氨基酸序列间的比对代表着一个有关这些序列从共同祖先开始的进化路径的假设。尽管真正的进化路径无法被明确无误的推断出,但序列比对算法可以识别随机发生率很低的那些比对,多种技术可以用来左右打分函数,例如PAM与BLOSUM。Needleman与Wunsch首先提出的全局比对算法以及Smith与Waterman提出的局部比对算法已经成为了众多数据库搜索算法的基础,包括BLASTX等工具。这些算法利用了索引、启发式和快速比较等技术,使得整个数据库中的序列能与查询序列在很短的时间内完成。习题2.1
在怎样的情况下,分子生物学家会希望进行序列两两
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《书愤》教学设计 2023-2024学年统编版高中语文选择性必修中册
- 区域工程工作方案(3篇)
- 清理污泥池工程方案(3篇)
- 第五章 第一节 人教版必修二Unit I Cultural Heritage大单元整体教学设计;听说课-高中英语单元教学设计
- 成立维修服务中心协议书样板6篇
- 朋友介绍的工程方案(3篇)
- 2025年教师招聘之《幼儿教师招聘》考前冲刺练习题附参考答案详解ab卷
- 民宿泳池工程方案(3篇)
- 码头内侧清淤工程方案(3篇)
- 绿化工程交货方案(3篇)
- 保温车租赁合同6篇
- 2025外墙涂料喷涂机器人施工工艺
- 老年患者的安全管理课件
- DB11-T 2136-2023 婴幼儿托育机构服务规范
- 2025慢性阻塞性肺病(GOLD)指南更新要点解读课件
- 冠心病病例分享
- 《天体和天体系统》课件
- 英语开学第一课课件
- 足球场租赁合同样本
- 《民航旅客运输》课件
- 《生物制品连续制造指南》
评论
0/150
提交评论