第三章 序列比对.ppt_第1页
第三章 序列比对.ppt_第2页
第三章 序列比对.ppt_第3页
第三章 序列比对.ppt_第4页
第三章 序列比对.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 序列比对,第一节 引言,双序列比对的目的: 同源物鉴定,功能预测,基本假设: 1)所有的生物都起源于同一个祖先 (物种间序列存在同 源关系,同源序列功能往往是相似的) 2)序列不是随机产生,而是在进化上不断发生着演变(同源的序列存在高度相似性) 3)序列的相似性可以判断 序列的同源性,进而可以利用 同源物功能的相似性 来进行推断,序列比对的分类:双序列比对,多序列比对,多序列的目的:用于比较基因组研究1) 用于描述一组序列(基因家族)之间的 相似性关系, 以便了解一个基因家族的基本特征,寻找motif,保守区域等。2) 可构建HMM模型,搜索更多的同源序列,Pfam,prints,pr

2、osite,interPro等3) 分析结构用于构建进化树,如果两个序列有一个共同的进化祖先,那么它们是同源的。这里不存在同源性的程度问题。这两条序列之间要么是同源的,要么是不同源的,同源性(homology),第二节 序列比对的基本概念,相似性 (similarity),相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。 当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定是否具有同源性。,直系同源和旁系同源,直系同源(orthology)是指不同物种内的同源序列,它们来源于物种形成时的

3、共同祖先基因。 旁系同源(paralogy)是指同一物种中,由于基因的复制而产生的几个同源基因。,直系同源和旁系同源的图示:,1)编辑距离:两条序列对应位置上不同字符的个数 2)相似性得分:两条序列对应位置上相同字符的个数 相似分数越高,序列越相似,编辑距离越小,序列越相似 两条序列长度不一致时:空格(Gap),相似性分数的计算,编辑距离(edit distance),相似性得分,打分规则就是后面的打分矩阵,第三节 打分矩阵(替换记分矩阵),插入和缺失突变:序列比对采用空格(Gap)来处理 替换突变:替换计分矩阵即打分矩阵,(1)核酸打分矩阵设DNA序列所用的字母表为 = A,C,G,T a.

4、 等价矩阵 (unitary matrix) b. BLAST矩阵 c. 转换-颠换矩阵(transition-transversion matrix) (嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T),表3.1 等价矩阵表,表3.3 转移矩阵,表3.2 BLAST矩阵,(2)蛋白质打分矩阵,(i)等价矩阵 (ii) 遗传密码矩阵(genetic code matrix,GCM ) (iii)疏水性矩阵 (hydrophobic matrix) (iv)PAM矩阵(point accepted matrix,PAM) (v) BLOSUM矩阵 (BLOck SUbstitution M

5、atrix,BLOSUM),其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。,遗传密码矩阵 遗传密码矩阵通过计算一个氨基酸变成另一个氨基酸所需的密码子变化的数目而得到。通常为1 或 2,只有Met到Tyr为 3。,遗传密码矩阵 GCM矩阵,疏水矩阵,PAM & BLOSOM,这类矩阵列出同源蛋白质在进化过程中氨基酸变化的可能性(统计学inference)是基于进化原理的依据,更科学,PAM矩阵( point accepted mutaion) 基于氨基酸进化的点突变模型 如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高 PAM矩阵的制作步骤 构建序列

6、相似(大于85)的比对 计算氨基酸 j 的相对突变率mj(j被其他氨基酸替换的次数) 针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数 替换次数除以相对突变率(mj) 利用每个氨基酸出现的频度对j 进行标准化 取常用对数,得到PAM-1(i, j) 将PAM-1自乘N次,可以得到PAM-n,PAM矩阵与BLOSUM矩阵的选择,第四节 序列比对的算法,双序列比对的三种算法: 点阵分析法 动态规划法:Needleman-Wunsch、Smith-Waterman 词或K串法(BLAST or FASTA中应用,后面会提到),对序列从头到尾进行比较,试图使尽可能多的字符在同一列中匹配。

7、适用于相似度较高且长度相近的序列 如:Needleman-Wunsch算法,全局比对,局部比对,寻找序列中相似度最高的区域,也就是匹配密度最高的部分。 适用于在某些部分相似度较高,而其他部位差异较大的序列。 如:Smith-Waterman算法,多序列比对的算法: 1)动态规划算法 2)渐进多序列比对 3)迭代法,多序列比对基于双序列比对,存在两种比对方式: 1)局部比对 (local alignment) 2)整体比对(global alignment),一般选择局部比对和蛋白质序列比对 1)蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的

8、功能部位的序列往往具有相当大的保守性。而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。 2)蛋白质比对通常比DNA比对具有更丰富的信息 i) DNA序列的许多改变(特别是密码子的第三位)不会改变对应的氨基酸 ii)许多氨基酸具有相似的生物化学性质(亲疏水,酸碱等),在打分系统中会认为是相似的(positive),而不是不同,第五节 双序列比对的常用工具,数据库搜索:在分子生物学研究中,对于新测定的碱基序列或由此翻译得到的氨基酸序列,往往需要通过数据库搜索,找出具有一定相似性的同源序列,以推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。 数据库搜索的基础

9、是序列的相似性比对,即双序列比对,因此,数据库搜索是双序列比对的特例 BLAST, FASTA等常用的数据库搜索程序均采用局部相似性比对的方法,具有较快的运行速度,BLAST: basic local alignment search tool,BLAST子程序说明,gi|224983683|pdb|3GBN|B Chain B, Crystal Structure Of Fab Cr6261 In Complex With The 1918 H1n1 Influenza Virus Hemagglutinin GLFGAIAGFIEGGWTGMIDGWYGYHHQNEQGSGYAADQKST

10、QNAIDGITNKVNSVIEKMNTQFTAVGKEFNNLERRIENLNKKVDDGFLDIWTYNAELLVLLENERTLDFHDSNVRNLYEKVKSQLKNNAKEIGNGCFEFYHKCDDACMESVRNGTYDYPKYSEESKLNREEIDGVSGR,多结构域蛋白 (H1N1) 的BLAST检索,H1N1聚合酶序列,BLAST结果综述,BLAST结果表述,Bl2Seq双序列比对举例,特殊BLAST,蛋白质序列比对用blastp,DNA序列比对用blastn,例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对,粘贴sequence1,粘贴sequence2,竖线:一致性(identities),缺口(gap):不同之处,Cluster家族(ClusterW),第六节 多序列比对的常用工具,将要比对的多个序列以Fasta格式保存,以多个物种的抗坏血酸过氧化物酶的的蛋白质序列进行比对为例,载入多个序列后,选择输出选项,选择输出格式。或者在比对完成之后,在“文件”中选择“序列另存为”,同样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论