第三章序列比对_第1页
第三章序列比对_第2页
第三章序列比对_第3页
第三章序列比对_第4页
第三章序列比对_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 序列比对第一节 引言 双序列比对的目的:同源物鉴定,功能预测基本假设:1)所有的生物都起源于同一个祖先 (物种间序列存在同 源关系,同源序列功能往往是相似的)2)序列不是随机产生,而是在进化上不断发生着演变(同源的序列存在高度相似性)3)序列的相似性可以判断 序列的同源性,进而可以利用 同源物功能的相似性 来进行推断序列比对的分类: 双序列比对,多序列比对多序列的目的:用于比较基因组研究1) 用于描述一组序列(基因家族)之间的 相似性关系, 以便了解一个基因家族的基本特征,寻找 motif,保守区域等。2) 可构建 HMM模型,搜索更多的同源序列, Pfam, prints, prosite, interPro等3) 分析结构用于构建进化树 如果两个序列有一个共同的进化祖先,那么它们是同源的。这里不存在同源性的程度问题。这两条序列之间要么是同源的,要么是不同源的同源性( homology)第二节 序列比对的基本概念相似性 ( similarity) 相似性是指序列比对过程中用来描述检测序列和目标序列之间相同 DNA碱基或氨基酸残基顺序所占比例的高低。 当相似程度高于 50% 时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于 20% 时,就难以确定是否具有同源性。直系同源和旁系同源直系同源( orthology)是指不同物种内的同源序列,它们来源于物种形成时的共同祖先基因。旁系同源( paralogy)是指同一物种中,由于基因的复制而产生的几个同源基因。 直系同源和旁系同源的图示:1)编辑距离:两条序列对应位置上不同字符的个数2)相似性得分:两条序列对应位置上相同字符的个数相似分数越高,序列越相似,编辑距离越小,序列越相似两条序列长度不一致时:空格( Gap)相似性分数的计算编辑距离( edit distance)相似性得分 打分 规则 就是后面的打分矩 阵第三节 打分矩阵(替换记分矩阵) 插入和缺失突变:序列比对采用空格( Gap)来处理 替换突变:替换计分矩阵即打分矩阵 ( 1)核酸打分矩阵设 DNA序列所用的字母表为 = A, C, G, T a. 等价矩阵 (unitary matrix)b. BLAST矩阵c. 转换 -颠换矩阵( transition-transversion matrix)(嘌呤:腺嘌呤 A,鸟嘌呤 G;嘧啶:胞嘧啶 C,胸腺嘧啶 T) A T C GA 1 0 0 0T 0 1 0 0C 0 0 1 0G 0 0 0 1A T C GA 5 -4 -4 -4T -4 5 -4 -4C -4 -4 5 -4G -4 -4 -4 5A T C GA 1 -5 -5 -1T -5 1 -1 -5C -5 -1 1 -5G -1 -5 -5 1表 3.1 等价矩阵表 表 3.3 转移矩阵表 3.2 BLAST矩阵( 2)蛋白质打分矩阵 ( i) 等价矩阵 ( ii) 遗传密码矩阵( genetic code matrix,GCM ) ( iii)疏水性矩阵 ( hydrophobic matrix) ( iv) PAM矩阵( point accepted matrix,PAM) ( v) BLOSUM矩阵( BLOck SUbstitution Matrix, BLOSUM)其中 Rij代表打分矩阵元素i、 j分别代表字母表第 i和第 j个字符。 遗传密码矩阵遗传密码矩阵通过计算一个氨基酸变成另一个氨基酸所需的 密码子 变化的数目而得到。通常为 1 或 2,只有 Met到 Tyr为 3。 遗传密码矩阵GCM矩阵疏水矩阵R K D E B Z S N Q G X T H A C M P V L I Y F W R 10 10 9 9 8 8 6 6 6 5 5 5 5 5 4 3 3 3 3 3 2 1 0K 10 10 9 9 8 8 6 6 6 5 5 5 5 5 4 3 3 3 3 3 2 1 0D 9 9 10 10 8 8 7 6 6 6 5 5 5 5 5 4 4 4 3 3 3 2 1E 9 9 10 10 8 8 7 6 6 6 5 5 5 5 5 4 4 4 3 3 3 2 1B 8 8 8 8 10 10 8 8 8 8 7 7 7 7 6 6 6 5 5 5 4 4 3Z 8 8 8 8 10 10 8 8 8 8 7 7 7 7 6 6 6 5 5 5 4 4 3S 6 6 7 7 8 8 10 10 10 10 9 9 9 9 8 8 7 7 7 7 6 6 4N 6 6 6 6 8 8 10 10 10 10 9 9 9 9 8 8 8 7 7 7 6 6 4Q 6 6 6 6 8 8 10 10 10 10 9 9 9 9 8 8 8 7 7 7 6 6 4G 5 5 6 6 8 8 10 10 10 10 9 9 9 9 8 8 8 8 7 7 6 6 5X 5 5 5 5 7 7 9 9 9 9 10 10 10 10 9 9 8 8 8 8 7 7 5T 5 5 5 5 7 7 9 9 9 9 10 10 10 10 9 9 8 8 8 8 7 7 5H 5 5 5 5 7 7 9 9 9 9 10 10 10 10 9 9 9 8 8 8 7 7 5A 5 5 5 5 7 7 9 9 9 9 10 10 10 10 9 9 9 8 8 8 7 7 5C 4 4 5 5 6 6 8 8 8 8 9 9 9 9 10 10 9 9 9 9 8 8 5M3 3 4 4 6 6 8 8 8 8 9 9 9 9 10 10 10 10 9 9 8 8 7P 3 3 4 4 6 6 7 8 8 8 8 8 9 9 9 10 10 10 9 9 9 8 7V 3 3 4 4 5 5 7 7 7 8 8 8 8 8 9 10 10 10 10 10 9 8 7L 3 3 3 3 5 5 7 7 7 7 8 8 8 8 9 9 9 10 10 10 9 9 8I 3 3 3 3 5 5 7 7 7 7 8 8 8 8 9 9 9 10 10 10 9 9 8Y 2 2 3 3 4 4 6 6 6 6 7 7 7 7 8 8 9 9 9 9 10 10 8F 1 1 2 2 4 4 6 6 6 6 7 7 7 7 8 8 8 8 9 9 10 10 9W0 0 1 1 3 3 4 4 4 5 5 5 5 5 6 7 7 7 8 8 8 9 10PAM & BLOSOM 这类矩阵列出同源蛋白质在进化过程中氨基酸变化的可能性(统计学 inference)是基于进化原理的依据,更科学PAM矩阵( point accepted mutaion) 基于氨基酸进化的点突变模型 如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高PAM矩阵的制作步骤构建序列相似(大于 85)的比对计算氨基酸 j 的相对 突变率 mj( j被其他氨基酸替换的次数)针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数替换次数 除以 相对突变率 ( mj)利用每个氨基酸出现的 频度 对 j 进行 标准化取常用对数 ,得到 PAM-1(i, j)将 PAM-1自乘 N次 ,可以得到 PAM-nPAM矩阵与 BLOSUM矩阵的选择第四节 序列比对的算法双序列比对的三种算法: 点阵分析法 动态规划法 :Needleman-Wunsch 、 Smith-Waterman 词或 K串法 (BLAST or FASTA中应用,后面会提到 ) 对序列从头到尾进行比较 ,试图使尽可能多的字符在同一列中匹配。 适用于相似度较高且长度相近的序列 如: Needleman-Wunsch 算法全局比对局部比对 寻找序列中相似度最高的区域 ,也就是匹配密度最高的部分。 适用于在某些部分相似度较高,而其他部位差异较大的序列。 如: Smith-Waterman 算法多序列比对的算法:1)动态规划算法2) 渐进多序列比对3)迭代法多序列比对基于双序列比对,存在两种比对方式:1)局部比对 ( local alignment)2)整体比对( global alignment)一般选择局部比对和蛋白质序列比对1) 蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。2)蛋白质比对通常比 DNA比对具有更丰富的信息i) DNA序列的许多改变(特别是密码子的第三位)不会改变对应的氨基酸ii)许多氨基酸具有相似的生物化学性质(亲疏水,酸碱等),在打分系统中会认为是相似的( positive),而不是不同第五节 双序列比对的常用工具数据库搜索: 在分子生物学研究中,对于新测定的碱基序列或由此翻译得到的氨基酸序列,往往需要通过数据库搜索,找出具有一定相似性的同源序列,以推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。数据库搜索的基础是序列的相似性比对,即双序列比对 ,因此, 数据库搜索是双序列比对的特例BLAST, FASTA等常用的数据库搜索程序均采用局部相似性比对的方法,具有较快的运行速度BLAST: basic local alignment search toolBLAST子程序说明程序名程序名 查询查询 序列序列 数据数据 库类库类 型型 方方 法法 Blastp 蛋白蛋白 质质 蛋白蛋白 质质 用用 检测检测 序列蛋白序列蛋白 质质搜索蛋白搜索蛋白 质质 序列数序列数据据 库库 Blastn 核酸核酸 核酸核酸 用用 检测检测 序列核酸搜序列核酸搜索核酸序列数据索核酸序列数据 库库 Blastx 核酸核酸 蛋白蛋白 质质 将核酸序列按将核酸序列按 6条条 链链翻翻 译译 成蛋白成蛋白 质质 序列序列后搜索蛋白后搜索蛋白 质质 序列序列数据数据 库库 Tblastn 蛋白蛋白 质质 核酸核酸 用用 检测检测 序列蛋白序列蛋白 质质搜索由核酸序列数搜索由核酸序列数据据 库库 按按 6条条 链链 翻翻 译译成的蛋白成的蛋白 质质 序列数序列数据据 库库 Tblastx 核酸核酸 核酸核酸 将核酸序列按将核酸序列按 6条条 链链翻翻 译译 成蛋白成蛋白 质质 序列序列后搜索由核酸序列后搜索由核酸序列数据数据 库库 按按 6条条 链链 翻翻译译 成的蛋白成的蛋白 质质 序列序列数据数据 库库 gi|224983683|pdb|3GBN|B Chain B, Crystal Structure Of Fab Cr6261 In Complex With The 1918 H1n1 Influenza Virus H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论