




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章序列比对
第一节引言双序列比对的目的:同源物鉴定,功能预测基本假设:1)所有的生物都起源于同一个祖先(物种间序列存在同源关系,同源序列功能往往是相似的)2)序列不是随机产生,而是在进化上不断发生着演变(同源的序列存在高度相似性)3)序列的相似性可以判断序列的同源性,进而可以利用同源物功能的相似性来进行推断序列比对的分类:双序列比对,多序列比对多序列的目的:用于比较基因组研究
1)用于描述一组序列(基因家族)之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。
2)可构建HMM模型,搜索更多的同源序列,Pfam,prints,prosite,interPro等
3)
分析结构用于构建进化树
相似性(similarity)相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定是否具有同源性。直系同源和旁系同源直系同源(orthology)是指不同物种内的同源序列,它们来源于物种形成时的共同祖先基因。旁系同源(paralogy)是指同一物种中,由于基因的复制而产生的几个同源基因。直系同源和旁系同源的图示:编辑距离(editdistance)相似性得分打分规则就是后面的打分矩阵第三节打分矩阵(替换记分矩阵)插入和缺失突变:序列比对采用空格(Gap)来处理替换突变:替换计分矩阵即打分矩阵(2)蛋白质打分矩阵(i)等价矩阵(ii)遗传密码矩阵(geneticcodematrix,GCM)(iii)疏水性矩阵
(hydrophobicmatrix)(iv)PAM矩阵(pointacceptedmatrix,PAM)(v)BLOSUM矩阵(BLOckSUbstitutionMatrix,BLOSUM)其中Rij代表打分矩阵元素i、j分别代表字母表第i和第j个字符。遗传密码矩阵遗传密码矩阵通过计算一个氨基酸变成另一个氨基酸所需的密码子变化的数目而得到。通常为1或2,只有Met到Tyr为3。疏水矩阵RKDEBZSNQGXTHACMPVLIYFWR1010998866655555433333210K1010998866655555433333210D9910108876665555544433321E9910108876665555544433321B8888101088887777666555443Z8888101088887777666555443S667788101010109999887777664N666688101010109999888777664Q666688101010109999888777664G556688101010109999888877665X555577999910101010998888775T555577999910101010998888775H555577999910101010999888775A555577999910101010999888775C4455668888999910109999885M334466888899991010101099887P33446678888899910101099987V3344557778888891010101010987L33335577778888999101010998I33335577778888999101010998Y2233446666777788999910108F1122446666777788889910109W001133444555556777888910PAM&BLOSOM
这类矩阵列出同源蛋白质在进化过程中氨基酸变化的可能性(统计学inference)是基于进化原理的依据,更科学PAM矩阵(pointacceptedmutaion)
基于氨基酸进化的点突变模型
如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高PAM矩阵的制作步骤构建序列相似(大于85%)的比对计算氨基酸j的相对突变率mj(j被其他氨基酸替换的次数)针对每个氨基酸对i和j,计算j
被i
替换次数替换次数除以相对突变率(mj)利用每个氨基酸出现的频度对j
进行标准化取常用对数,得到PAM-1(i,j)将PAM-1自乘N次,可以得到PAM-n第四节序列比对的算法双序列比对的三种算法:点阵分析法动态规划法:Needleman-Wunsch、Smith-Waterman词或K串法(BLASTorFASTA中应用,后面会提到)对序列从头到尾进行比较,试图使尽可能多的字符在同一列中匹配。适用于相似度较高且长度相近的序列如:Needleman-Wunsch算法全局比对局部比对寻找序列中相似度最高的区域,也就是匹配密度最高的部分。适用于在某些部分相似度较高,而其他部位差异较大的序列。如:Smith-Waterman算法多序列比对的算法:1)动态规划算法2)渐进多序列比对3)迭代法多序列比对基于双序列比对,存在两种比对方式:1)局部比对(localalignment)2)整体比对(globalalignment)一般选择局部比对和蛋白质序列比对1)蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。2)蛋白质比对通常比DNA比对具有更丰富的信息i)DNA序列的许多改变(特别是密码子的第三位)不会改变对应的氨基酸ii)许多氨基酸具有相似的生物化学性质(亲疏水,酸碱等),在打分系统中会认为是相似的(positive),而不是不同
BLAST:basiclocalalignmentsearchtoolBLAST子程序说明程序名查询序列数据库类型方法Blastp蛋白质蛋白质用检测序列蛋白质搜索蛋白质序列数据库Blastn核酸核酸用检测序列核酸搜索核酸序列数据库Blastx核酸蛋白质将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库Tblastn蛋白质核酸用检测序列蛋白质搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库Tblastx核酸核酸将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库BLAST结果综述BLAST结果表述Bl2Seq双序列比对举例特殊BLAST蛋白质序列比对用blastp,DNA序列比对用blastn例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对粘贴sequence1粘贴sequence2竖线:一致性(identities)缺口(gap):不同之处Cluster家族(ClusterW)第六节多序列比对的常用工具将要比对的多个序列以Fasta格式保存以多个物种的抗坏血酸过氧化物酶的的蛋白质序列进行比对为例载入多个序列后,选择输出选项,选择输
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025新员工试用期合同书
- 2025承诺的合同范本
- 2025南京房屋租赁合同范本
- 2025华夏银行社会招聘模拟试卷及答案详解(考点梳理)
- 2025年济柴动力有限公司春季高校毕业生招聘(10人)考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025黑龙江伊春市铁力市招聘城市社区工作者笔试考前自测高频考点模拟试题及答案详解(易错题)
- 2025年武警安徽总队医院招聘41人考前自测高频考点模拟试题参考答案详解
- 2025年中国化妆品抗氧化剂行业市场分析及投资价值评估前景预测报告
- 2025年中国滑雪靴固定器行业市场分析及投资价值评估前景预测报告
- 2025年中国户外折叠床行业市场分析及投资价值评估前景预测报告
- 2025年教育系统学校中层后备干部选拔考试题(含答案)
- DB32-T 5192-2025 工业园区碳排放核算指南
- 湖南省九校联盟2026届高三上学期9月第一次联考日语试题(含答案)
- 时事政治讲座课件
- 锅炉工安全培训知识课件
- 天津地区高考语文五年高考真题汇编-文言文阅读
- 《新概念英语》第三册课文详解及课后答案
- 聚氨酯管道保温施工方案
- 金匮要略-黄芪桂枝五物汤
- J17J177 钢丝网架珍珠岩复合保温外墙板建筑构造
- 酒店账单-水单-住宿
评论
0/150
提交评论