第三章序列比较.pdf

上传人：n*** IP属地：河南上传时间：2020-01-17 格式：PDF 页数：58 大小：952.22KB 积分：0 举报 版权申诉

已阅读5页，还剩53页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第三章第三章第三章第三章序列比较序列比较序列比较序列比较序列比较是生物信息学中最基本最重要的操作通过序列比对可以发现生物序列中的功能结构和进化的信息序列比较的根本任务是通过比较生物分子序列发现它们的相似性找出序列之间共同的区域同时辨别序列之间的差异在分子生物学中 DNA 或蛋白质的相似性是多方面的可能是核酸或氨基酸序列的相似可能是结构的相似也可能是功能的相似一个普遍的规律是序列决定结构结构决定功能研究序列相似性的目的之一是通过相似的序列得到相似的结构或相似的功能这种方法在大多数情况下是成功的当然也存在着这样的情况即两条序列几乎没有相似之处但分子却折叠成相同的空间形状并具有相同的功能这里先不考虑空间结构或功能的相似性仅研究序列的相似性研究序列相似性的另一个目的是通过序列的相似性判别序列之间的同源性推测序列之间的进化关系这里将序列看成由基本字符组成的字符串无论核酸序列还是蛋白质序列都是特殊的字符串本章着重介绍通用的序列比较方法 3 13 13 13 1序列的相似性序列的相似性序列的相似性序列的相似性序列的相似性可以是定量的数值也可以是定性的描述相似度是一个数值反映两条序列的相似程度关于两条序列之间的关系有许多名词如相同相似同源同功直向同源共生同源等在进行序列比较时经常使用同源 homology 和相似 similarity 这两个概念这是两个经常容易被混淆的不同概念两条序列同源是指它们具有共同的祖先在这个意义上无所谓同源的程度两条序列要么同源要么不同源而相似则是有程度的差别如两条序列的相似程度达到30 或60 一般来说相似性很高的两条序列往往具有同源关系但也有例外即两条序列的相似性很高但它们可能并不是同源序列这两条序列的相似性可能是由随机因素所产生的这在进化上称为趋同 convergence 这样一对序列可称为同功序列直向同源 orthologous 序列是来自于不同的种属同源序列而共生同源 paralogous 序列则是来自于同一种属的序列它是由进化过程中的序列复制而产生的 Edited by Foxit Reader Copyright C by Foxit Software Company 2005 2008 For Evaluation Only 序列比较的基本操作是比对 align 两条序列的比对 alignment 是指这两条序列中各个字符的一种一一对应关系或字符对比排列序列的比对是一种关于序列相似性的定性描述它反映在什么部位两条序列相似在什么部位两条序列存在差别最优比对揭示两条序列的最大相似程度指出序列之间的根本差异 3 1 13 1 1 字母表和序列字母表和序列在生物分子信息处理过程中将生物分子序列抽象为字符串其中的字符取自特定的字母表字母表是一组符号或字符字母表中的元素组成序列一些重要的字母表有 1 4字符 DNA 字母表 A C G T 2 扩展的遗传学字母表或 IUPAC 编码见表2 3 3 单字母氨基酸编码见表2 1 4 上述字母表形成的子集下面所讨论的内容独立于特定的字母表首先规定一些特定的符号字母表 A 由字母表 A 中字符所形成的一系列有限长度序列或字符串的集合 a b c 单独的字符 s t u v x A 中的序列 s 序列 s 的长度 Edited by Foxit Reader Copyright C by Foxit Software Company 2005 2008 For Evaluation Only 为了说明序列 s 的子序列和 s 中单个字符我们在 s 中各字符之间用数字标明分割边界例如设 s ACCACGTA 则 s 可表示为 0A1C2C3A4C5G6T7A8 i s j 指明第 i 位或第 j 位之间的子序列当然 0 i j s 子序列0 s i 称为前缀即 prefix s i 而子序列 i s s 称为后缀 suffix s s i 1 有两种特殊的情况即 i j 或 i j 1 i s i 表示空序列 j 1 s j表示 s 中的第j个字符简记为 sj 一般认为子序列与计算机算法中子串的概念相当但是严格地讲子序列与子串的概念是有区别的子串是子序列而子序列不一定是子串可以通过选取 s 中的某些字符或删除 s 中的某些字符而形成 s 的子序列例如 TTT 是ATATAT的子序列而 s 的子串则是由 s 中相继的字符所组成例如 TAC 是 AGTACA 的子串但不是 TTGAC 的子串如果 t 是 s 的子串则称 s 是 t 的超串子串也可以称为连续子序列两条序列 s 和 t 的连接用 s t 来表示如 ACC CTA ACCCTA 字符串操作除连接操作之外另有一个 k 操作即删除一个字符串两端的字符其定义如下 prefix s l sk s l suffix s l k s ls i s j ki 1sk s j 序列比较可以分为四种基本情况具体任务和应用说明如下 1 假设有两条长度相近的来自同一个字母表的序列它们之间非常相似仅仅是有一些细微的差别例如字符的插入字符的删除和字符替换要求找出这两条序列的差别这种操作实际应用比较多例如有两个实验室同时测定某个基因的 DNA 序列其结果可能不一样需要通过序列比较来比较实验结果 2 假设有两条序列要求判断是否有一条序列的前缀与另一条序列的后缀相似如果是则分别取出前缀和后缀该操作常用于大规模 DNA 测序中序列片段的组装 3 假设有两条序列要求判断其中的一条序列是否是另一条序列的子序列这种操作常用于搜索特定的序列模式 4 假设有两条序列要求判断这两条序列中是否有非常相似的子序列这种操作可用于分析保守序列当然进行序列比较时往往还需要说明是采取全局比较还是采取局部比较全局比较是比较两条完整的序列而局部比较是找出最大相似的子序列 3 1 23 1 2 编辑距离编辑距离 EditEdit DistanceDistance 观察这样两条 DNA 序列 GCATGACGAATCAG 和 TATGACAAACAGC 一眼看上去这两条序列并没有什么相似之处然而如果将第二条序列错移一位并对比排列起来以后就可以发现它们的相似性如果进一步在第二条序列中加上一条短横线就会发现原来这两条序列有更多的相似之处上面是两条序列相似性的一种定性表示方法为了说明两条序列的相似程度还需要定量计算有两种方法可用于量化两条序列的相似程度一为相似度它是两条序列的函数其值越大表示两条序列越相似与相似度对应的另一个概念是两条序列之间的距离距离越大则两条序列的相似度就越小在大多数情况下相似度和距离可以交互使用并且距离越大相似度越小反之亦然但一般而言相似度使用得较多并且灵活多变最简单的距离就是海明 Hamming 距离对于两条长度相等的序列海明距离等于对应位置字符不同的个数例如图3 1是3组序列海明距离的计算结果使用距离来计算不够灵活这是因为序列可能具有不同的长度两条序列中各位置上的字符并不一定是真正的对应关系例如在 DNA 复制的过程中可能会发生像删除或插入一个碱基这样的错误虽然两条序列的其他部分相同但由于位置的移动导致海明距离的失真就图3 1 中例子最右边的情况海明距离为6 简单地从海明距离来看两条序列差别很大整个序列的长度只有8bp 但是如果从 s 中删除 G 从 t 中删除 T 则两条序列都成为 ACACACA 这说明两条序列仅仅相差两个字符实际上在许多情况下直接运用海明距离来衡量两条序列的相似程度是不合理的为了解决字符插入和删除问题引入字符编辑操作 Edit Operation 的概念通过编辑操作将一个序列转化为一个新序列用一个新的字符代表空位或空缺 Space 并定义下述字符编辑操作 Match a a 字符匹配 Delete a 从第一条序列删除一个字符或在第二条序列相应的位置插入空白字符 Replace a b 以第二条序列中的字符 b 替换第一条序列中的字符 a a b Insert b 在第一条序列插入空位字符或删除第二条序列中的对应字符 b 很显然在比较两条序列 s 和 t 时在 s 中的一个删除操作等价于在 t 中对应位置上的一个插入操作反之亦然需要注意的是两个空位字符不能匹配因为这样的操作没有意义引入上述编辑操作后重新计算两条序列的距离就成为编辑距离以上的操作仅仅是关于序列的常用操作在实际应用中还可以引入复杂的序列操作下面是两条序列的一种比对上述比对不能反映两条序列的本质关系但是如果将第二条序列头尾倒置可以发现两条序列惊人的相似再比如下面两条序列有什么关系如果将其中一条序列中的碱基替换为其互补碱基就会发现其中的关系 CTAGTCGAGGCAATCT GAACAGCTTCGTTAGT 3 1 33 1 3 通过点矩阵分析两条序列的相似之处通过点矩阵分析两条序列的相似之处进行序列比较的一个简单的方法是矩阵作图法或对角线作图这种方法是由 Gibb 首先提出的将两条待比较的序列分别放在矩阵的两个轴上一条在 X 轴上从左到右一条在 Y 轴上从下往上如图3 2所示当对应的行与列的序列字符匹配时则在矩阵对应的位置作出点标记逐个比较所有的字符对最终形成点矩阵图3 2序列比较矩阵标记图显然如果两条序列完全相同则在点矩阵主对角线的位置都有标记如果两条序列存在相同的子串则对于每一个相同的子串对有一条与对角线平行的由标记点所组成的斜线如图 3 3中的斜线代表相同的子串 ATCC 而对于两条互为反向的序列则在反对角线方向上有标记点组成的斜线如图3 4所示图3 3 相同子串矩阵标记图图3 4 反向序列矩阵标记图对于矩阵标记图中非重叠的与对角线平行斜线可以组合起来形成两条序列的一种比对在两条子序列的中间可以插入符号表示插入空位字符在这种对比之下分析两条序列的相似性如图3 5所示找两条序列的最佳比对对应位置等同字符最多实际上就是在矩阵标记图中找非重叠平行斜线最长的组合图3 5 多个相同连续子序列矩阵标记图除非已经知道待比较的序列非常相似一般先用点矩阵方法比较因为这种方法可以通过观察矩阵的对角线迅速发现可能的序列比对实例实例1 1 1 1 实例实例2 2 2 2 两条序列中有很多匹配的字符对因而在点矩阵中会形成很多点标记当对比较长的序列进行比较时这样的点阵图很快会变得非常复杂和模糊使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法假设窗口大小为10 相似度阈值为8 首先将 X 轴序列的第1 10 个字符与 Y 轴序列的第1 10个字符进行比较如果在第一次比较中这10个字符中有8个或者8 个以上相同那么就在点阵空间 1 1 的位置画上点标记然后窗口沿 X 轴向右移动一个字符的位置比较 X 轴序列的第2 11个字符与 Y 轴序列的第1 10个字符不断重复这个过程直到 X 轴上所有长度为10的子串都与 Y 轴第1 10个字符组成的子串比较过为止然后将 Y 轴的窗口向上移动一个字符的位置重复以上过程直到两条序列中所有长度为10的子串都被两两比较过为止基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声并且可以明确地指出两条序列间具有显著相似性的区域 3 1 43 1 4 序列的两两比对序列的两两比对序列的两两比对 Pairwise SequenceAlignment 就是对两条序列进行编辑操作通过字符匹配和替换或者插入和删除字符使得两条序列达到一样的长度并使两条序列中相同的字符尽可能地一一对应设两条序列分别是 s 和 t 在 s 或 t 中插入空位符号使 s 和 t 达到一样的长度图3 6是对序列 AGCACACA 和 ACACACTA 的两种比对结果以及对应的字符编辑操作下面就不同类型的编辑操作定义函数 w 它表示代价 cost 或权重 weight 对字母表 A 中的任意字符 a b 定义这是一种简单的代价定义在实际应用中还需使用更复杂的代价模型一方面可以改变各编辑操作的代价值例如在蛋白质序列比较时用理化性质相近的氨基酸进行替换的代价应该比完全不同的氨基酸替换代价小另一方面也可以使用得分 score 函数来评价编辑操作下面给出一种基本的得分函数在进行序列比对时可根据实际情况选用代价函数或得分函数即选用 3 1 式或 3 2 式下面给出在进行序列比对时常用的概念 1 两条序列 s 和 t 的比对的得分或代价等于将 s 转化为 t 所用的所有编辑操作的得分或代价总和 2 s 和 t 的最优比对是所有可能的比对中得分最高或代价最小的一个比对 3 s 和 t 的真实距离应该是在得分函数 p 值或代价函数 w 值最优时的距离使用前面代价函数 w 的定义可以得到下列比对的代价 s AGCACAC A t A CACACTA cost s t 2 而使用得分函数 p 的定义可以得到下列比对的得分 s AGCACAC A t A CACACTA score s t 5 进行序列比对的目的是寻找一个得分最高或代价最小的比对 3 1 53 1 5 用于序列相似性的打分矩阵用于序列相似性的打分矩阵 scoringscoring matrixmatrix 无论是3 1式还是3 2式都是简单相似性评价模型在计算比对的代价或得分时对字符替换操作只进行统一的处理没有考虑同类字符替换与非同类字符替换的差别实际上不同类型的字符替换其代价或得分是不一样的特别是对于蛋白质序列某些氨基酸可以很容易地相互取代而不用改变它们的理化性质例如考虑这样两条蛋白质序列其中一条在某一位置上是丙氨酸如果该位点被替换成另一个较小且疏水的氨基酸比如缬氨酸那么对蛋白质功能的影响可能较小如果被替换成较大且带电的残基比如赖氨酸那么对蛋白功能的影响可能就要比前者大直观地讲比较保守的替换比起较随机替换更可能维持蛋白质的功能且更不容易被淘汰因此在为比对打分时我们可能更倾向对丙氨酸与缬氨酸的比对位点多些奖励而对于丙氨酸与那些大而带电氨基酸比如赖氨酸的比对位点则相反理化性质相近的氨基酸残基之间替换的代价显然应该比理化性质相差甚远的氨基酸残基替换得分高或者代价小同样保守的氨基酸替换得分应该高于非保守的氨基酸替换这样的打分方法在比对非常相近的序列以及差异极大的序列时会得出不同的分值这就是提出打分矩阵或者称为取代矩阵的原由在打分矩阵中详细地列出各种字符替换的得分从而使得计算序列之间的相似度更为合理在比较蛋白质时我们可以用打分矩阵来增强序列比对的敏感性打分矩阵是序列比较的基础选择不同的打分矩阵将得到不同的比较结果而了解打分矩阵的理论依据将有助于在实际应用中选择合适的打分矩阵以下介绍一些常用的打分矩阵或代价矩阵 3 1 5 13 1 5 1 核酸打分矩阵核酸打分矩阵设核酸序列所用的字母表为 A C G T 1 等价矩阵等价矩阵见表3 1 是最简单的一种打分矩阵其中相同核苷酸匹配的得分为 1 而不同核苷酸的替换得分为 0 没有得分 2 BLAST 矩阵 BLAST 是目前最流行的核酸序列比较程序表3 2是其打分矩阵这也是一个非常简单的矩阵如果被比的两个核苷酸相同则得分为 5 反之得分为 4 3 转换颠换矩阵核酸的碱基按照环结构分为两类一类是嘌呤腺嘌呤 A 鸟嘌呤 G 它们有两个环另一类是嘧啶胞嘧啶 C 胸腺嘧啶 T 它们的碱基只有一个环如果 DNA 碱基的变化碱基替换保持环数不变则称为转换 transition 如 A G C T 如果环数发生变化则称为颠换 transversion 如 A C A T 等在进化过程中转换发生的频率远比颠换高而表3 3 所示的矩阵正好反映了这种情况其中转换的得分为 1 而颠换的得分为 5 3 1 5 23 1 5 2 蛋白质打分矩阵蛋白质打分矩阵设蛋白质的字母表为表2 1 见第二章 1 等价矩阵 3 3 其中 Rij代表打分矩阵元素 i j 分别代表字母表第 i 个和第 j 个字符 2 遗传密码矩阵 GCM GCM 矩阵通过计算一个氨基酸残基转变到另一个氨基酸残基所需的密码子变化数目而得到矩阵元素的值对应于代价如果变化一个碱基就可以使一个氨基酸的密码子改变为另一个氨基酸的密码子则这两个氨基酸的替换代价为1 如果需要2个碱基的改变则替换代价为2 以此类推见表3 4 注意 Met 到 Tyr 的转变是仅有的密码子三个位置都发生变化的转换在表3 4中 Glx 代表 Gly Gln 或 Glu 而 Asx 则代表 Asn 或 Asp X 代表任意氨基酸 GCM 常用于进化距离的计算其优点是计算结果可以直接用于绘制进化树但是它在蛋白质序列比对尤其是相似程度很低的序列比对中很少被使用表3 4遗传密码矩阵 ASGLKVTPEDNIQRFYCHMWZBX Ala A01122111112222222222222 Ser S10112211221121111221222 Gly G11022122112221221221222 Leu L21202121222111122111222 Lys K22220212121111222212122 Val V12112022112122122212222 Thr T11221201221121222212222 Pro P11212210222211222122222 Glu E12121122012212222222122 Asp D12122122101222212122212 Asn N21221212210122212122212 Ile I21211112221021122212222 Gln Q22211221122201222122122 Arg R21111211222110221111222 Phe F21212122222122011222222 Tyr Y21222222211222101132212 Cys C21122222222221110221222 His H22212221211211212022212 Met M22211112222121232202222 Trp W21112222222221221220222 Glx Z22221222122212222222122 Asx B22222222211222212122212 X 22222222222222222222222 3 疏水矩阵该矩阵见表3 5 是根据氨基酸残基替换前后疏水性的变化而得到得分矩阵若一次氨基酸替换疏水特性不发生太大的变化则这种替换得分高否则替换得分低表3 5蛋白质疏水矩阵 RKDEBZSNQGXTHACMPVLIYFW Arg R10 10 998866655555433333210 Lys K10 10 998866655555433333210 Asp D9910 10 8876665555544433321 Glu E9910 10 8876665555544433321 Asx B888810 10 88887777666555443 Glx Z888810 10 88887777666555443 Ser S66778810 10 10 10 9999887777664 Asn N66668810 10 10 10 9999888777664 Gln Q66668810 10 10 10 9999888777664 Gly G55668810 10 10 10 9999888877665 X555577999910 10 10 10 998888775 Thr T555577999910 10 10 10 998888775 His H555577999910 10 10 10 999888775 Ala A555577999910 10 10 10 999888775 Cys C4455668888999910 10 9999885 Met M3344668888999910 10 10 10 99887 Pro P33446678888899910 10 10 99987 Val V33445577788888910 10 10 10 10 987 Leu L3333557777888899910 10 10 998 Ile I3333557777888899910 10 10 998 Tyr Y2233446666777788999910 10 8 Phe F1122446666777788889910 10 9 Trp W001133444555556777888910 4 PAM 矩阵为了得到打分矩阵更常用的方法是统计自然界中各种氨基酸残基的相互替换率如果两种特定的氨基酸之间替换发生得比较频繁那么这一对氨基酸在打分矩阵中的互换得分就比较高 PAM 矩阵就是这样一种打分矩阵 PAM 矩阵是第一个广泛使用的最优矩阵它是基于进化原理的建立在进化的点接受突变模型 PAM PointAccepted Mutation 基础上通过统计相似序列比对中的各种氨基酸替换发生率而得到该矩阵 Dayhoff 和她的同事们研究了71个相关蛋白质家族的1572个突变发现蛋白质家族中氨基酸的替换并不是随机的由此断言一些氨基酸的替换比其他替换更容易发生其主要原因是这些替换不会对蛋白质的结构和功能产生太大的影响如果氨基酸的替换是随机的那么每一种可能的取代频率仅仅取决于不同氨基酸出现的背景频率然而在相关蛋白中存在取代频率大大地倾向于那些不影响蛋白质功能的取代换句话说这些点突变已经被进化所接受这意味着在进化历程上相关的蛋白质在某些位置上可以出现不同的氨基酸一个 PAM 就是一个进化的变异单位即1 的氨基酸改变但是这并不意味着经过100次 PAM 后每个氨基酸都发生变化因为其中一些位置可能会经过多次改变甚至可能变回到原先的氨基酸因此另外一些氨基酸可能不发生改变 PAM 有一系列的替换矩阵每个矩阵用于比较具有特定进化距离的两条序列例如 PAM 120矩阵用于比较相距120个 PAM 单位的序列一个 PAM N 矩阵元素 i j 的值反映两条相距 N 个 PAM 单位的序列中第 i 种氨基酸替换第 j 种氨基酸的概率从理论上讲 PAM 0是一个单位矩阵主对角线上的元素值为1 其它矩阵元素的值为0 其他 PAM N 矩阵可以通过统计计算而得到首先针对那些确信是相距一个PAM 单位的序列进行统计分析得到 PAM 1矩阵 PAM 1矩阵对角线上的元素值接近于1 而其它矩阵元素值接近于0 例如可以按下述方法构建 PAM 1矩阵首先构建一个序列间相似度很高通常大于85 的比对接着计算每个氨基酸 j 的相对突变率 mj 相对突变率就是某种氨基酸被其它任意氨基酸替换的次数比如丙氨酸的相对突变率是通过计算丙氨酸与非丙氨酸残基比对的次数来得到然后针对每个氨基酸对 i 和j 计算氨基酸 j 被氨基酸 i 替换的次数最后将以上替换次数除以对应的相对替换率利用每个氨基酸出现的频度对其进行标准化并将以上计算结果取常用对数于是得到了 PAM 1矩阵中的元素 PAM 1 i j 这种矩阵被称作对数几率矩阵 log odds matrix 因为其中的元素是根据每个氨基酸替换率的对数值来得到的将 PAM 1自乘 N 次可以得到矩阵 PAM N 虽然 Dayhoff 等人只发表了PAM 250 但潜在的突变数据可以外推至其他 PAM 值产生一组矩阵可以根据待比较序列的长度以及序列间的先验相似程度来选用特定的 PAM 矩阵以发现最适合的序列比对一般在比较差异极大的序列时通常在较高的 PAM 值处得到最佳结果比如在 PAM 200到 PAM 250之间而较低值的 PAM 矩阵一般用于高度相似的序列实践中用得最多的且比较折衷的矩阵是 PAM 250 5 BLOSUM 矩阵 BLOSUM矩阵是由 Henikoff 首先提出的另一种氨基酸替换矩阵它也是通过统计相似蛋白质序列的替换率而得到的 PAM 矩阵是从蛋白质序列的全局比对结果推导出来的而 BLOSUM 矩阵则是从蛋白质序列块短序列比对而推导出来的但在评估氨基酸替换频率时应用了不同的策略基本数据来源于 BLOCKS 数据库其中包括了局部多重比对包含较远的相关序列与在 PAM 中使用较近的相关序列相反虽然在这种情况下没有用进化模型但它的优点在于可以通过直接观察而不是通过外推获得数据同 PAM 模型一样也有一系列的 BLOSUM 矩阵可以根据亲缘关系的不同来选择不同的 BLOSUM 矩阵进行序列比较然而 BLOSUM 矩阵阶数的意义与 PAM 矩阵正好相反低阶 PAM 矩阵适合用来比较亲缘较近的序列而低阶 BLOSUM 矩阵更多是用来比较亲缘较远的序列一般来说 BLOSUM 62矩阵适于用来比较大约具有62 相似度的序列而 BLOSUM 80矩阵更适合于相似度为80 左右的序列第三章第三章第三章第三章序列比较序列比较序列比较序列比较 3 23 23 23 2两两比对算法两两比对算法两两比对算法两两比对算法进行序列的两两比对最直接的方法就是生成两条序列所有可能的比对分别计算得分或代价函数然后挑选一个得分最高或代价最小的比对作为最终结果但是两条序列可能的比对数非常多是序列长度的指数函数随着序列长度的增长计算量呈指数增长从算法时间复杂性的角度来看这种比对方法显然不合适用上一节中所介绍的点矩阵分析方法在寻找斜线及斜线组合时仍然需要较大的运算量因此必须设计高效的算法以找出最优的比对著名的Needleman Wunsch 算法就是针对寻求最佳序列比对这一问题所设计的动态规划寻优策略下面首先介绍基本的序列比较算法即动态规划算法 Dynamic Programming 该算法把一个问题分解成计算量合理的子问题并使用这些子问题的结果来计算最终答案这个算法是生物信息学的基本算法之一动态规划是一种常用的规划方法往往用于在一个复杂的空间中寻找一条最优路径对于一个具体的问题如果该问题可以被抽象为一个对应的图论问题并且问题的解对应于图中从起点到终点的最短距离那么就可以通过动态规划算法解决这个问题在运用动态规划时有以下几个要求 1 首先搜索问题能够划分成一系列相继的阶段 2 起始阶段包含基本子问题的解 3 在后续阶段中能够按递归方式逐步计算前面阶段的每个局部解 4 最后阶段包含全局解 3 2 13 2 1 序列两两比对基本算法序列两两比对基本算法设序列 s t 的长度分别为 m 和 n 考虑两个前缀 0 s i和0 t j i j 1 假如已知序列0 s i和0 t j 所有较短的连续子序列的最优比对即已知 1 0 s i 1 和0 t j 1 的最优比对 2 0 s i 1 和0 t j的最优比对 3 0 s i和0 t j 1 的最优比对则0 s i和0 t j的最优比对一定是上述三种情况之一的扩展即 1 替换 si tj 或匹配 si tj 这取决于 si是否等于 tj 2 删除 si 3 插入 tj 令S 0 s i 0 t j 为序列0 s i和与序列0 t j比对的得分可根据下列递归算式计算最大值 3 4 其初值为 3 5 按照这种方法对于给定的打分函数p si tj 两条序列所有前缀的比对得分值定义了一个 m 1 n 1 的得分矩阵 D di j 其中 di j S 0 s i 0 t j 对于一个长度为 n 的序列有 n 1个前缀包括一个空序列所以得分矩阵的大小为 m 1 n 1 其中矩阵的纵轴方向自上而下对应于第一条序列 s 横轴方向从左到右对应于第二条序列 t 矩阵横向移动表示在纵轴序列中加入一个空位纵向的移动表示在横轴序列中加入一个空位而斜对角向的移动表示两序列各自相应的字符进行比对注意各轴第一个元素的索引下标为0 di j的计算公式如下 3 6 di j最大值的三种选择决定了各矩阵元素之间的关系用图3 7表示矩阵右下角元素即为期望的结果 dm n S 0 s m 0 t n S s t 首先初始化得分矩阵 D 然后计算 D 的其它元素计算过程从d0 0开始可以是按行计算每行从左到右也可以是按列计算每列从上到下当然任何计算过程只要满足在计算di j 时di 1 j di 1 j 1和di j 1都已经被计算这个条件即可在计算di j后需要保存di j是从di 1 j d i 1 j 1或di j 1中的哪一个推进的或保存计算的路径以便于后续处理上述计算过程到dm n结束与计算过程相反求最优路径或最优比对时从dm n开始反向前推假设在反推时到达 di j 现在要根据保存的计算路径判断di j究竟是根据di 1 j di 1 j 1和di j 1中的哪一个计算而得到的找到这个点以后再从此点出发一直到d0 0为止走过的这条路径就是最优路径即得分最大路径其对应于两条序列的最优比对假设我们采用公式 3 2 的打分函数即序列字符匹配得分为 1 失配得分为0 空位罚分为 1 并且假设待比较的两条核苷酸序列分别是 s AGCACACA 和 t ACACACTA 从公式 3 4 或公式 3 6 来看动态规划算法的执行过程实际上是逐步计算得分矩阵 D 每一个元素的过程首先按照公式 3 5 对矩阵 D 进行初始化即首先计算矩阵第0行和第0列的元素值其中 d0 0代表序列 s 和 t 两个空前缀比对的得分其值显然为0 第0行的其它元素d0 j表示序列 s 空前缀与序列 t 前面连续 j 个字符组成的前缀比对的得分相当于在序列 s 前面插入了 j 个空位而每个空位的罚分为 1 所以d0 j j 即矩阵第0行元素值依次减1 同理矩阵第0列元素值也应该依次减1 矩阵初始化的结果见图3 8 t t s s A AC CA AC CA AC CT TA A 0 1 2 3 4 5 6 7 8 A A 1 G G 2 C C 3 A A 4 C C 5 A A 6 C C 7 A A 8 图3 8 序列 AGCACACA 和 ACACACTA 比对的初始化得分矩阵初始化以后假设逐行计算得分矩阵 D 的其它元素值假设现在计算矩阵第1行第1列的元素值即计算矩阵 1 1 的元素值可以通过三种途径到达该位置 1 从 0 0 出发经过两条序列第一个字符的比对 A A 2 从 0 1 出发在第二条序列加上的空位 A 3 从 1 0 出发在第一条序列加上的空位 A 因此矩阵 1 1 的元素值来自于下列三个值中最大的一个 1 左上方 0 0 位置的值加上匹配 A A 的得分1 和为1 2 上方 0 1 位置的值加上空位罚分 1 和为 2 3 左边 1 0 位置的值加上空位罚分 1 和为 2 最终矩阵 1 1 的元素值等于1 当所有元素值计算完以后形成图3 9所示的得分矩阵计算完得分矩阵 D 后从元素 8 8 所在的位置反推最优路径在图3 9中画出了一条穿越得分矩阵的路径该路径表明如何通过合理的比对达到最大的得分其中斜线表示匹配或替换垂直线表示删除而水平线则表示插入由该路径可以得到下面这种序列比对从图3 9可知总的比对得分为5 值得注意的一点是在有些情况下最优比对并非唯一亦即存在几条最优路径以上计算是在打分函数的基础上进行的得分值表示序列之间的相似程度在实际应用中也可以利用代价函数进行计算两条序列比对的代价越低序列就越相似比对的代价越高序列的差异就越大因为计算方式刚好与得分函数相反所以具体计算时应求出最小代价所对应的路径一般来讲由于比对的得分可正可负使用起来就更加灵活所以大量的序列比对实用程序在计算时都采用得分的概念在计算序列相似程度时还应该考虑序列长度的影响令 S s t 表示两条长度分别为 m 和 n 的序列的相似性得分假设 S s t 99 两条序列有99个字符一致如果 m n 100 则可以说这两条序列非常相似几乎一样但是如果 m n 1000 则仅有10 的字符相同所以在实际序列比较时使用相对长度的得分就更有意义定义 3 7 以 sim s t 作为衡量序列相似性的指标从所使用的数据结构 di j本身及其计算过程来看序列两两比对基本算法的空间复杂度和时间复杂度都是 O mn 如果两条序列的长度相近空间和时间复杂度就为 O n2 3 2 23 2 2 子序列与完整序列的比对子序列与完整序列的比对序列比较的基本动态规划算法找出两条序列的最佳比对而不在乎它是否具有生物学意义有些同源序列虽然全序列的相似性很小但是存在高度相似的局部区域如果在进行序列比对时注重序列的局部相似性则可能会发现重要的比对因此不能仅仅只关注全局最佳的那一个 Smith 和 Waterman 在 Needleman Wunsch 算法的基础上进行改进提出序列局部比对算法后来其他人又进一步改进形成改良 Smith Waterman 算法该算法将寻找多种最好的但不相互交叉的比对方式作为结果下面分别介绍各种局部比对方法在有些情况下我们需要将一个较短的序列或探测序列或模式序列与一个较长的完整序列比较试图找出局部的最优匹配假设我们希望在较长序列 ATGCAGCTGCTT 中搜寻短序列 AGCT 在所有可能的序列比对中我们感兴趣的是这之所以是我们最感兴趣的比对是因为它表明了较短的序列完整地出现在较长的序列之中我们有时希望避免对序列一端或两端出现的空位进行罚分例如在寻找一条短序列和整个基因组的最佳比对时就希望这样这是一种局部的比对 local alignment 其定义如下给定两条序列0 s m和0 t n 从 t 中寻找一个子列i t j使得S s i t j 最大 0 i j n 已有许多高效的算法可解决局部比对问题而动态规划算法也只要作一点小小的修改就可以用于局部比对假设在下面讨论局部序列比对时依然使用公式 3 2 的打分函数局部比对意味着不计删除序列 t 前缀或前缀0 t i与空位比对的得分这表明在对动态规划算法之得分矩阵进行初始化时按下述方式处理 3 8 局部比对也不计删除序列 t 后缀或后缀j t n与空位比对的得分即 3 9 由式 3 8 可知在得分矩阵初始化时对第0行进行如下处理 0 j n 3 10 而其他行除最后一行的计算不变由公式 3 9 可知最后一行的计算应该是 3 11 同样 dm n依然是最优局部比对的得分而匹配的子列i t j按如下方式寻找 j min k dm k dm n 然后由位置 m j 出发反推比对路径最终通过斜线非空位到达 0 i 3 2 33 2 3 寻找最大的相似子序列寻找最大的相似子序列上面讨论的是两条序列比对的第一种变化形式即从两条完整序列的比较演化为一条序列与另一条序列的一部分进行比对第二种变化形式是对两条序列都进行部分比较例如假设 s 和 t 是两条蛋白质序列并且已知 s 和 t 具有功能上相关的子序列而 s 和 t 的其他部分与该功能无关又如假设一条很长的黑猩猩 DNA 序列要求找出其中与人类基因组具有相似部分的任何一条子序列对于这种情况采用全局序列比对方法不可能找出高度相似的局部区域需要设计序列局部相似性的比较算法下面假设得分函数只奖励匹配即匹配奖励分值为 1 失配罚分为 1 空位罚分为 1 这里使用的数据结构依然是一个 m 1 n 1 的矩阵 D 但是对数组元素含义解释与基本算法的有所不同每个元素的值代表序列0 s i某个后缀和序列0 t j某个后缀的最佳比对同子序列与完整序列比对一样这种局部比对不计前缀的得分所以新的边界条件是另外由于0 s i和0 t j总有一个得分为 0 的空后缀比对见图3 10 因此矩阵 D 中的所有元素大于或等于 0 于是新的递归计算公式为 3 14 阈值 0 意味着矩阵中的 0 元素分布区域对应于不相似的子序列而正数区域则是局部相似的区域最后在矩阵中找最大值该值就是最优的局部比对得分它所对应的点为序列局部比对的末点然后反向推演前面的最优路径直到局部比对的起点 3 2 43 2 4准全局序列比对准全局序列比对所谓准全局比对就是在评价序列比对时不计终端空位 end space 的得分或代价在下面的讨论中以字符代表空位表示插入或删除操作我们仍然采用基本的比对算法但是改进对序列两端空位的打分函数终端空位是那些出现在序列第一个字符前或最后一个字符之后的空位例如图3 11 a 第二条序列中所有的空位都是终端空位这两条序列长度相差较大一条序列长度为8 而另一条序列的长度为18 如果两条序列的长度相差比较大那么在最终的比对中一定存在很多空位从而引起得分下降或代价增大然而如果忽略这些终端空位则图3 11 a 所示的比对相当好 6个匹配 1个失配 1个空位但是根据基本的序列比对算法图3 11 a 的比对不是最优的最优的比对似乎应该是图3 11 b 所示的比对因为其得分更高同样多的空位但除了空位以外全是匹配尽管具有更高的得分而且第二条序列的字符全部匹配但是从寻找相似区域的观点来看图3 11 b 所示的并不是我们所感兴趣的比对为了匹配更多的字符第二条序列被严重地割裂开如果我们在一段长序列中寻找一段与另一个短序列区域相似的区域无疑图3 11 a 所示的排列更好假设有两条序列 s 和 t 在这两条序列的比对中 s 后面的空位与 t 的后缀匹配如果去掉这部分比对仅保留 s 与 t 前缀的比对则被去掉的比对不再计分因此为了得到不计 s 右端空位得分的最优比对我们需要寻找 s 和 t 前缀的最优比对由于在基本的序列比对算法中矩阵元素di j代表0 s i和0 t j的相似性因而可以取最后一行的最大值取最后一行的最大值作为比对的得分就相当于不计序列 s 右端的空位得分负分注意这里矩阵元素di j代表0 s i和0 t j 的最大相似性并且计算公式就是 3 6 式按照上述方法我们可以同样取最后一列的最大值作为比对的得分从而达到不计序列 t 后面空位的目的进一步将两者结合起来形成一种不计两条序列末尾空位的最优比对方法现在我们再讨论序列的前端空白情况与末端空白相似只要在设置初始条件时将矩阵第0行和第0列元素的值设为 0 即达到不计序列前端空位得分的目的综合上述分析结果对两条序列进行准全局比较的算法如下将矩阵的第一行和第一列元素设置为 0 按行或列优先的次序计算矩阵 D 所有元素di j 0 i m 0 j n 取最后一行和最后一列的最大值而在搜索最优路径时从矩阵最后一行和最后一列的最大值出发按照基本算法中的方法返回准全局比较算法与基本算法在计算di j时的区别归纳为下列四个方面 1 第一行初始值为 0 表示不计第一条序列的前端空位 2 寻找最后一行的最大值表示不计第一条序列的末端空位 3 第一列初始值为 0 表示不计第二条序列的前端空位 4 寻找最后一列的最大值表示不计第二条序列的末端空位对于最后一行和最后一列的另一种处理办法是最后一行的横向移动不被空位罚分最后一列的纵向移动也不被罚分这样就可以允许在两条序列终端自由存在空位当矩阵 D 所有元素计算完以后其右下角的值即为两条序列准全局比对的得分反推路径即可得到序列的最佳比对 3 2 53 2 5关于连续空位的问题关于连续空位的问题我们定义 k 阶空位是一个具有连续空位字符的区域其空位字符的数目 k 1 对于序列的突变 k 阶空位出现的可能性要大于 k 个不连续的空位这是因为一个 k 阶空位对应于一串字符的插入或者删除对应于一个遗传突变事件不连续的空位可能对应于多个不同的突变事件而一个突变的发生比多个突变同时发生的可能性要大从这个意义上说我们希望将 k 阶空位与 k 个孤立空位在打分方面区别开来 k 阶空位的得分或代价应该比 k 个孤立空位的得分高或代价低另外在将 cDNA 与基因 DNA 比较时通过改进的空位打分方式可以正确处理内含子真核生物的基因是非连续的在编码区域的外显子之间插入了内含子在基因转录过程中内含子被剔除外显子连接起来形成完整的编码区域并表现为 mRNA 通过反转录根据 mRNA 形成 cDNA 因此同一个基因的 cDNA 序列与 DNA 序列的差别主要反映在内含子的删除这样在根据基因的 cDNA 寻找 DNA 时我们也希望对大片段连续空位的处理与孤立空位的处理有所区别然而直到现在我们在算法中还没有区分单个空位及连续的多个空位这意味着 k 阶空位所带来的得分是一个线性的函数设 p k 代表空位得分函数其中 k 是连续空位的个数则 p k kb 3 15 其中 b b 0 是单个空位得分的绝对值对应于罚分 b 在本节中将讨论解决序列比对连续空位问题的算法该算法的时间复杂性是 O n3 该算法与基本算法类似主要差别在于得分函数不具有加和性即不能将一个比对分成两个部分而希望总的得分是两个部分的和然而当比对的分割点跨越块 Block 边界时得分的加和性依然成立任何一个比对都可以被唯一地分为若干个相继的块有三类块它们各自的组成如下 1 两个字符的比对 2 与序列 s 的空位比对的 t 的最大连续字符序列 3 与序列 t 的空位比对的 s 的最大连续字符序列最大意味着不能再扩展图3 12显示了一个序列比对及块的分割上述第一类块的得分是 p a b a b 是两个比对的字符其他两类的得分是 p k k 为连续的空位数现在对于一个比对的打分不再是按照单个比对的列进行而是按块进行只有当打破块的边界时得分的加和性才成立对

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三章序列比较.pdf

文档简介

温馨提示

最新文档

评论

第三章 序列比较.pdf

文档简介

温馨提示

最新文档

评论

相关文档

第三章序列比较.pdf