




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一节引言双序列比对的目的:同源物鉴定,功能预测基本假设:1)所有的生物都起源于同一个祖先(物种间序列存在同源关系,同源序列功能往往是相似的)2)序列不是随机产生,而是在进化上不断发生着演变(同源的序列存在高度相似性)3)序列的相似性可以判断序列的同源性,进而可以利用同源物功能的相似性来进行推断序列比对的分类:双序列比对,多序列比对多序列的目的:用于比较基因组研究
1)用于描述一组序列(基因家族)之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。
2)可构建HMM模型,搜索更多的同源序列,Pfam,prints,prosite,interPro等
3)
分析结构用于构建进化树
如果两个序列有一个共同的进化祖先,那么它们是同源的。这里不存在同源性的程度问题。这两条序列之间要么是同源的,要么是不同源的同源性(homology)第二节序列比对的基本概念相似性(similarity)相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定是否具有同源性。直系同源和旁系同源直系同源(orthology)是指不同物种内的同源序列,它们来源于物种形成时的共同祖先基因。旁系同源(paralogy)是指同一物种中,由于基因的复制而产生的几个同源基因。直系同源和旁系同源的图示:1)编辑距离:两条序列对应位置上不同字符的个数2)相似性得分:两条序列对应位置上相同字符的个数相似分数越高,序列越相似,编辑距离越小,序列越相似两条序列长度不一致时:空格(Gap)相似性分数的计算编辑距离(editdistance)相似性得分打分规则就是后面的打分矩阵第三节打分矩阵(替换记分矩阵)插入和缺失突变:序列比对采用空格(Gap)来处理替换突变:替换计分矩阵即打分矩阵(1)核酸打分矩阵设DNA序列所用的字母表为
={A,C,G,T}a.等价矩阵(unitarymatrix)b.BLAST矩阵c.转换-颠换矩阵(transition-transversionmatrix)(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)ATCGA1000T0100C0010G0001ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51表3.1等价矩阵表表3.3转移矩阵表3.2BLAST矩阵(2)蛋白质打分矩阵(i)等价矩阵(ii)遗传密码矩阵(geneticcodematrix,GCM)(iii)疏水性矩阵
(hydrophobicmatrix)(iv)PAM矩阵(pointacceptedmatrix,PAM)(v)BLOSUM矩阵(BLOckSUbstitutionMatrix,BLOSUM)其中Rij代表打分矩阵元素i、j分别代表字母表第i和第j个字符。遗传密码矩阵遗传密码矩阵通过计算一个氨基酸变成另一个氨基酸所需的密码子变化的数目而得到。通常为1或2,只有Met到Tyr为3。遗传密码矩阵
GCM矩阵疏水矩阵RKDEBZSNQGXTHACMPVLIYFWR1010998866655555433333210K1010998866655555433333210D9910108876665555544433321E9910108876665555544433321B8888101088887777666555443Z8888101088887777666555443S667788101010109999887777664N666688101010109999888777664Q666688101010109999888777664G556688101010109999888877665X555577999910101010998888775T555577999910101010998888775H555577999910101010999888775A555577999910101010999888775C4455668888999910109999885M334466888899991010101099887P33446678888899910101099987V3344557778888891010101010987L33335577778888999101010998I33335577778888999101010998Y2233446666777788999910108F1122446666777788889910109W001133444555556777888910PAM&BLOSOM
这类矩阵列出同源蛋白质在进化过程中氨基酸变化的可能性(统计学inference)是基于进化原理的依据,更科学PAM矩阵(pointacceptedmutaion)
基于氨基酸进化的点突变模型
如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高PAM矩阵的制作步骤构建序列相似(大于85%)的比对计算氨基酸j的相对突变率mj(j被其他氨基酸替换的次数)针对每个氨基酸对i和j,计算j
被i
替换次数替换次数除以相对突变率(mj)利用每个氨基酸出现的频度对j
进行标准化取常用对数,得到PAM-1(i,j)将PAM-1自乘N次,可以得到PAM-nPAM矩阵与BLOSUM矩阵的选择第四节序列比对的算法双序列比对的三种算法:点阵分析法动态规划法:Needleman-Wunsch、Smith-Waterman词或K串法(BLASTorFASTA中应用,后面会提到)对序列从头到尾进行比较,试图使尽可能多的字符在同一列中匹配。适用于相似度较高且长度相近的序列如:Needleman-Wunsch算法全局比对局部比对寻找序列中相似度最高的区域,也就是匹配密度最高的部分。适用于在某些部分相似度较高,而其他部位差异较大的序列。如:Smith-Waterman算法多序列比对的算法:1)动态规划算法2)渐进多序列比对3)迭代法多序列比对基于双序列比对,存在两种比对方式:1)局部比对(localalignment)2)整体比对(globalalignment)一般选择局部比对和蛋白质序列比对1)蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。2)蛋白质比对通常比DNA比对具有更丰富的信息i)DNA序列的许多改变(特别是密码子的第三位)不会改变对应的氨基酸ii)许多氨基酸具有相似的生物化学性质(亲疏水,酸碱等),在打分系统中会认为是相似的(positive),而不是不同
第五节双序列比对的常用工具数据库搜索:在分子生物学研究中,对于新测定的碱基序列或由此翻译得到的氨基酸序列,往往需要通过数据库搜索,找出具有一定相似性的同源序列,以推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。数据库搜索的基础是序列的相似性比对,即双序列比对,因此,数据库搜索是双序列比对的特例BLAST,FASTA等常用的数据库搜索程序均采用局部相似性比对的方法,具有较快的运行速度BLAST:basiclocalalignmentsearchtoolBLAST子程序说明程序名查询序列数据库类型方法Blastp蛋白质蛋白质用检测序列蛋白质搜索蛋白质序列数据库Blastn核酸核酸用检测序列核酸搜索核酸序列数据库Blastx核酸蛋白质将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库Tblastn蛋白质核酸用检测序列蛋白质搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库Tblastx核酸核酸将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库>gi|224983683|pdb|3GBN|BChainB,CrystalStructureOfFabCr6261InComplexWithThe1918H1n1InfluenzaVirusHemagglutininGLFGAIAGFIEGGWTGMIDGWYGYHHQNEQGSGYAADQKSTQNAIDGITNKVNSVIEKMNTQFTAVGKEFNNLERRIENLNKKVDDGFLDIWTYNAELLVLLENERTLDFHDSNVRNLYEKVKSQLKNNAKEIGNGCFEFYHKCDDACMESVRNGTYDYPKYSEESKLNREEIDGVSGR多结构域蛋白(H1N1)的BLAST检索H1N1聚合酶序列BLAST结果综述BLAST结果表述Bl2Seq双序列比对举例特殊BLAST蛋白质序列比对用blastp,DNA序列比对用blastn例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对粘贴sequence1粘贴sequence2竖线:一致性(identities)缺口(gap):不同之处Cluster家族(ClusterW)第六节多序列比对的常用工具将要比对的多个序列以Fasta格式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 碳排放评估方法-第2篇-洞察与解读
- 2025年事业单位教师招聘考试英语学科专业知识试卷(英语教学论文发表趋势)试题
- 2025年山西省事业单位招聘考试综合类专业能力测试试卷(文秘类)
- 2025年事业单位文秘类岗位招聘考试综合试卷解析
- 老师讲证券从业人员考试及答案解析
- 质量安全环保测试题及答案解析
- 商业用地转让合同
- 上海安全b证模拟考试题库及答案解析
- Unit 1 The balloons are flying away!教学设计小学英语六年级下册外研版(三起)(陈琳主编)
- 本册综合说课稿-2025-2026学年小学信息技术(信息科技)三年级下册人教版
- 部编人教版五年级上册语文各单元习作范文汇编(作文范文汇编)(每单元3篇)
- 建筑工程安全防护文明施工措施费用及使用管理规定
- 项目实施保密方案
- 胃管的注意事项、脱管与护理
- 小学创新精神主题班会课件
- 知识产权争议的仲裁与诉讼途径
- 英语试卷讲评课课件
- DB36-T 1941-2024 老年人轻度认知障碍筛查与干预指南
- chatGPT 在股票市场辅助应用-已翻译
- 《汽车涂装》2024-2025学年第一学期工学一体化课程教学进度计划表
- DB45T 2178-2020 甘蔗产量现场测定操作规程
评论
0/150
提交评论