版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于序列比对与算法第1页,共114页,2023年,2月20日,星期四第一节双序列比对第2页,共114页,2023年,2月20日,星期四31.序列比对基本概念2.空位罚分3.双序列比对方法点阵序列比较(DotMatrixSequenceComparison)动态规划算法(DynamicProgrammingAlgorithm)4.记分矩阵第3页,共114页,2023年,2月20日,星期四41.什么是序列比对?
序列比对(SequenceAlignment)是通过在序列中搜索一系列单个性状或性状模式来比较2个(双序列比对)或更多(多重序列比对)序列的方法。按比对序列条数分类双序列比对:两条序列的比对多序列比对:三条或以上序列的比对第4页,共114页,2023年,2月20日,星期四51.我们为什么关注序列比对?相似的序列可能具有相似的功能与结构;发现一个基因或蛋白哪些区域容易发生突变,哪些位点突变后对功能没有影响;发现生物进化方面的信息。第5页,共114页,2023年,2月20日,星期四61.序列比对两种类型全局序列比对定义:在全局范围内对两条序列进行比对打分的方法。适合于非常相似且长度近似相等的序列。局部序列比对定义:一种寻找匹配子序列的序列比对方法。适合于一些片段相似而另一些片段相异的序列。第6页,共114页,2023年,2月20日,星期四71.序列比对两种类型第7页,共114页,2023年,2月20日,星期四82.空位罚分(GapPenalties)空位为了获得两个序列最佳比对,必须使用空位和空位罚分。空位罚分分类:空位开放罚分(Gapopeningpenalty)空位扩展罚分(Gapextensionpenalty)最优的序列比对通常具有以下两下特征:尽可能多的匹配尽可能少的空位插入任意多的空位会产生较高的分数,但找到的并不一定是真正相似序列。第8页,共114页,2023年,2月20日,星期四91GTGATAGACAC|||1GTGCATAGACAC
2.空位罚分允许空位但不罚分
不允许有空位
match=5mismatch=-41GTG-ATAGACAC|||||||||||1GTGCATAGACAC
1GTG--ATAGACAC|||||||||||1GTGC-ATAGACAC
?Score:-21Score:55第9页,共114页,2023年,2月20日,星期四102.空位罚分公式
ATGTTATACTATGTGCGTATA
Score=4参数:匹配=1非匹配=0g=3 r=0.1 x=3
score:8-3.2=4.8
Wx=g+r(x-1)Wx: 空位总记分g: 空位开放罚分r: 空位扩展罚分x: 空位长度TATGTGCGTATA
insertion/deletionATGT---TATACWx=3+0.1*(3-1)=3.2第10页,共114页,2023年,2月20日,星期四113.双序列比对方法点阵序列比较(DotMatrixSequenceComparison)动态规划算法(DynamicProgrammingAlgorithm)词或K串方法(WordorK-tupleMethods)第11页,共114页,2023年,2月20日,星期四123.1点阵序列比较点阵(DotMatrix)分析是一种简单的图形显示序列相似性的方法。沿X轴上序列1中的每一个单元(核苷酸或氨基酸)与沿Y轴的第二个序列中的每一个单元进行比较,相同的区域在点阵图中显示为由点组成的对角线,对角线之外零散的点为背景噪音。第12页,共114页,2023年,2月20日,星期四IONIZATIONIONIZATION第13页,共114页,2023年,2月20日,星期四14点阵分析的应用自身比对寻找序列中的正向或反向重复序列蛋白质的重复结构域(domain)相同残基重复出现的低复杂区(LowComplexity)RNA二级结构中的互补区域等对两条序列的相似性作整体的估计第14页,共114页,2023年,2月20日,星期四点阵分析中的插入或删除TACTGTCAT
TACTGTTCATSequence1Sequence2TACTG
-
TCAT|||||||||TACTGTTCAT插入空位第15页,共114页,2023年,2月20日,星期四16点阵分析的应用人类低脂受体(humanlow-densitylipoproteinreceptor)自身比对发现正向重复序列具有连续相似区域的两条DNA序列的简单点阵图正向重复第16页,共114页,2023年,2月20日,星期四17点阵分析实例编码噬菌体λcⅠ(水平轴)和噬菌体P22c2(垂直轴)的氨基酸序列间的点阵分析相同的点全部打印,很难找到有用的信息第17页,共114页,2023年,2月20日,星期四18使用滑动窗口技术降低噪声TACGGTATGACAGTATCTACGGTATG
ACAGTATCTACGGTATG
ACAGTATCTACGGTATG
ACAGTATCC
T
A
T
G
A
C
A
T A C G G T A T GWindow=3WordSize=3第18页,共114页,2023年,2月20日,星期四19ATACTACAAGACACGTACCGGCGATGCATTGAGTATCATAWindowsize=5Stringency=3Match=1Mismatch=0第19页,共114页,2023年,2月20日,星期四20ATACTACAAGACACGTACCGGCGATGCATTGAGTATCATAWindowsize=5Stringency=3Match=1Mismatch=0第20页,共114页,2023年,2月20日,星期四21ATACTACAAGACACGTACCGGCGATGCATTGAGTATCATAWindowsize=5Stringency=3Match=1Mismatch=0第21页,共114页,2023年,2月20日,星期四22GCGATGCATTGAGTATCATAATACTACAAGACACGTACCGWindowsize=5Stringency=3Match=1Mismatch=0第22页,共114页,2023年,2月20日,星期四23GCGATGCATTGAGTATCATAATACTACAAGACACGTACCG第23页,共114页,2023年,2月20日,星期四24GCGATGCATTGAGTATCATAATACTACAAGACACGTACCG第24页,共114页,2023年,2月20日,星期四使用滑动窗口技术降低噪声(a)对人类(Homosapiens)与黑猩猩(Pongopygmaeus)的β球蛋白基因序列进行比较的完整点阵图(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8,即10个核苷酸中有8个相同时就打一个点ab第25页,共114页,2023年,2月20日,星期四26点阵分析的优缺点优点直观性,整体性;点阵分析不依赖空位(gap)参数,可寻找两序列间所有可能的残基匹配;不依赖任何先决条件,是一种可用于初步分析的理想工具;点阵分析允许随时动态地改变最高和最低界限值,可以用来摸索区分信号和背景标准的严格程度。第26页,共114页,2023年,2月20日,星期四27点阵分析的优缺点缺点不能很好地兼容打分矩阵;滑动窗口和域值的选择过于经验化;信噪比低;不适合进行高通量的数据分析。第27页,共114页,2023年,2月20日,星期四28点阵分析程序DNAStrider(Macintosh)/soft.htm
Dotter(Unix/Linux,X-Windows)COMPARE,DOTPLOT(GCG软件)PLALIGN(FASTA)Dotlethttp://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html第28页,共114页,2023年,2月20日,星期四293.2动态规划算法动态规划算法(DynamicProgrammingAlgorithm)是一种计算方法,它的主要思路是把一个问题分成若干个小问题来解决。在生物学中应用的两种动态规划算法:Needleman-Wunsch算法(全局比对)和Smith-Waterman算法(局部比对)。第29页,共114页,2023年,2月20日,星期四30序列比对中某一位点匹配的三种可能性Eg.匹配=1,非匹配=0,空位罚分=-1Sequence1:CACGASequence2:CGA第一个位点得分剩余序列CC+1ACGAGA-C-1CACGAGAC--1ACGACGA第30页,共114页,2023年,2月20日,星期四31动态规划算法的数学形式Sij=max{Si-1,j-1,+s(aibj),
max
x≥1(Si-x,j-wx),
max
y≥1(Si,j-y-wy)
}Sij=max{Si-1,j-1,+s(aibj),
max
x≥1(Si-1,j-wx),max
y≥1(Si,j-1-wy)
}公式一的简化公式一公式二说明:Sij是序列a在位置i和序列b在位置j的分值,s(aibj)是位置i和j上比对分值,wx是在序列a中长度为x的间隔罚分,wy是序列b中长度为y的间隔罚分第31页,共114页,2023年,2月20日,星期四32动态规划算法实例ACTTCGACTAG匹配=3错配=-1空位=-2第32页,共114页,2023年,2月20日,星期四33ACTTCG0ACTAG动态规划算法实例匹配=3错配=-1空位=-2第33页,共114页,2023年,2月20日,星期四34ACTTCG0-2ACTAG动态规划算法实例匹配=3错配=-1空位=-2第34页,共114页,2023年,2月20日,星期四35ACTTCG0-2-4-6-8-10-12ACTAG动态规划算法实例匹配=3错配=-1空位=-2第35页,共114页,2023年,2月20日,星期四36ACTTCG0-2-4-6-8-10-12A-2CTAG动态规划算法实例匹配=3错配=-1空位=-2第36页,共114页,2023年,2月20日,星期四37ACTTCG0-2-4-6-8-10-12A-2C-4T-6A-8G-10动态规划算法实例?S(2,2)-2+(-2)-2+(-2)0+3匹配=3错配=-1空位=-2第37页,共114页,2023年,2月20日,星期四38ACTTCG0-2-4-6-8-10-12A-23C-4T-6A-8G-10动态规划算法实例?S(2,3)-4+(-2)3+(-2)-2+(-1)匹配=3错配=-1空位=-2第38页,共114页,2023年,2月20日,星期四39动态规划算法实例ACTTCG0-2-4-6-8-10-12A-231C-4T-6A-8G-10匹配=3错配=-1空位=-2第39页,共114页,2023年,2月20日,星期四40动态规划算法实例ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-14?A-8-32G-10-50S(4,4)4+(-2)4+(-2)6+3匹配=3错配=-1空位=-2第40页,共114页,2023年,2月20日,星期四41动态规划算法实例ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149A-8-32G-10-50匹配=3错配=-1空位=-2第41页,共114页,2023年,2月20日,星期四ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-327864G-10-505679GGT-CATTCCAA回溯第42页,共114页,2023年,2月20日,星期四ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-327864G-10-505679GGT-CATTCCAA第43页,共114页,2023年,2月20日,星期四ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-327864G-10-505679GGTAC-TTCCAA第44页,共114页,2023年,2月20日,星期四45比对结果1. ACTTCG AC-TAG2. ACTTCG ACT-AG3. ACTTCG ACTA-G哪一个是最优比对(optimalalignment)呢?记分矩阵第45页,共114页,2023年,2月20日,星期四46记分矩阵与空位罚分DNA计分矩阵蛋白质计分矩阵广泛使用的两种矩阵
PAMBLOSUM空位罚分第46页,共114页,2023年,2月20日,星期四47DNA计分矩阵actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagactSequence1Sequence2
A G C TA
1 0 0 0G 0 1 0 0C 0 0 1 0T 0 0 0 1匹配:1错配:0分值:5第47页,共114页,2023年,2月20日,星期四48转换和颠换CTAG嘧啶嘌呤表示转换(transition),表示颠换(transversions)转换比颠换更容易发生第48页,共114页,2023年,2月20日,星期四转换和颠换AGTCA0.99G0.0060.99T0.0020.0020.99C0.0020.0020.0060.99转换速率是颠换3倍时的模型第49页,共114页,2023年,2月20日,星期四蛋白质计分矩阵PTHPLASKTQILPEDLASEDLTIPTHPLAGERAIGLARLAEEDFGMSequence1Sequence2记分矩阵T:G =-2T:T =5Score =48 C S T P A G N D
. .C 9 S -1 4T -1 1 5P -3 -1 -1 7A 0 1 0 -1 4G -3 0 -2 -2 0 6N -3 1 0 -2 -2 0 5D -3 0 -1 -1 -2 -1 1 6.. C S T P A G N D
. .C 9 S -1 4T -1 1 5P -3 -1 -1 7A 0 1 0 -1 4G -3 0 -2 -2 0 6N -3 1 0 -2 -2 0 5D -3 0 -1 -1 -2 -1 1 6..第50页,共114页,2023年,2月20日,星期四51PAM(PercentAcceptedMutation)矩阵氨基酸容易被其它生化、物理特性相似的氨基酸替换。PAM1(1个PAM单位)被定义为每100个残基出现一个被接受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化)。PAMn是PAM1自乘n次。PAM250、PAM120、PAM80和PAM60矩阵可用于相似性分别为20%、40%、50%和60%的序列比对。第51页,共114页,2023年,2月20日,星期四
ARNDCQEGHILKMFPSTWYVBZA2-200-2001-1-1-2-1-1-3111-6-3021R-260-1-41-1-32-2-330-400-12-4-212N0022-41102-2-31-2-3010-4-2-243D0-124-52311-2-40-3-6-100-7-4-254C-2-4-4-512-5-5-3-3-2-6-5-5-4-30-2-80-2-3-4Q0112-542-13-2-21-1-50-1-1-5-4-235E0-113-52401-2-30-2-5-100-7-4-245G1-301-3-105-2-3-4-2-3-5010-7-5-121H-1221-331-26-2-20-2-20-1-1-30-233I-1-2-2-2-2-2-2-3-252-221-2-10-5-14-1-1L-2-3-3-4-6-2-3-4-226-342-3-3-2-2-12-2-1K-1310-510-20-2-350-5-100-3-4-222M-10-2-3-5-1-2-3-224060-2-2-1-4-22-10F-3-4-3-6-4-5-5-5-212-509-5-3-307-1-3-4P100-1-30-100-2-3-1-2-5610-6-5-111S10100-101-1-1-30-2-3121-2-3-121T1-100-2-100-10-20-1-3013-5-3021W-62-4-7-8-5-7-7-3-5-2-3-40-6-2-5170-6-4-4Y-3-4-2-40-4-4-50-1-1-4-27-5-3-3010-2-2-3V0-2-2-2-2-2-2-1-242-22-1-1-10-6-2400B2145-33423-1-22-1-3122-4-2065Z1234-45513-1-120-4111-4-3056
PAM250第52页,共114页,2023年,2月20日,星期四
模块替换矩阵BLOSUM以序列片段为基础,它是基于蛋白质模块(Block)数据库而建立起来的
在模块比对的每一列中,分别计算两两氨基酸的变化情况,来自所有模块的数值被用来计算BLOSUM矩阵矩阵后面的数字表示构建此矩阵所用的序列的相似程度,如BLOSUM62表示由相似度为62%的序列构建AACECA-C=0A-E=-1C-E=-4A-A=4C-C=9AACECBLOSUM矩阵
(BlocksSubstitutionMatrix)
第53页,共114页,2023年,2月20日,星期四54BLOSUM62
第54页,共114页,2023年,2月20日,星期四55如何选择合适的评分矩阵?
一般来说,在局部相似性搜索上,BLOSUM矩阵较PAM要好当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵;当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵。对于数据库搜索来说一般选择BLOSUM62矩阵PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域第55页,共114页,2023年,2月20日,星期四564.相似性与同源性同源性(HomologousGenes):序列来自共同的祖先,相似的序列往往具有同源性。相似性(Similarity):两序列根据某种参数设定而表现出来的相近性。第56页,共114页,2023年,2月20日,星期四57相似性与同源性的区别相似的序列并不一定同源;相似性是可以被量化的“计分表”,它是匹配的数量除以比对的长度,通常以百分比%表示;同源性一定是指序列来自共同的祖先;同源性是一个定性的概念,不能使用序列间具有百分之多少同源性来定义。第57页,共114页,2023年,2月20日,星期四58同源性分类直系同源(Orthologs):具有共同祖先与相似功能的同源基因(无基因复制事件)。旁系同源(Paralogs):两个物种A和B的同源基因,分别是共同祖先基因组中由复制事件而产生的不同拷贝的后代。第58页,共114页,2023年,2月20日,星期四59Sothismeans…第59页,共114页,2023年,2月20日,星期四第二节多序列比对
(MultipleAlignments)第60页,共114页,2023年,2月20日,星期四寻找蛋白质家族,识别多个序列的保守区域;相似的蛋白质序列往往具有相似的结构与功能;辅助预测新序列的二级或三级结构;可以直观地看到基因的哪些区域对突变敏感;PCR引物设计;我们为什么做多序列比对?第61页,共114页,2023年,2月20日,星期四分析多个序列的一致序列;用于进化分析,是用系统发育方法构建进化树的初使步骤;寻找个体之间单核苷酸多态性(SNPs);通过序列比对发现直系同源(Orthologs)与旁系同源(Paralogs)基因;寻找同源基因(相似的序列往往具有同源性)。我们为什么做多序列比对?第62页,共114页,2023年,2月20日,星期四多序列比对与进化研究例子图中NYLS为树根第63页,共114页,2023年,2月20日,星期四一个多序列比对例子VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--第64页,共114页,2023年,2月20日,星期四多序列比对方法全局序列比对动态规划算法
(DynamicProgrammingAlgorithm)分而治之方法
(DivideandConquerMethods)SP方法
(SumofPairsMethods)
累进方法
(ProgressiveMethods)迭代方法
(IterativeMethods)局部序列比对概形分析
(ProfileAnalysis)区块分析
(BlockAnalysis)统计学方法
(StatisticalMethods)第65页,共114页,2023年,2月20日,星期四在多序列比对前要考虑的问题比对的优劣与序列条数正相关每个亚群应分别先比对,然后再整体比对第66页,共114页,2023年,2月20日,星期四一、全局序列比对
动态规划算法
(DynamicProgrammingAlgorithm)分而治之方法
(DivideandConquerMethods)SP方法
(SumofPairsMethods)
累进方法
(ProgressiveMethods)迭代方法
(IterativeMethods)遗传算法
(GeneticAlgorithms)第67页,共114页,2023年,2月20日,星期四序列长度为n
的双序列比对n2
比对比对数目成指数增长例如:序列长度为n,序列数为N
的多序列比对数目是nN对于数目较少且较短的序列来说都不切实际1.动态规划算法(DynamicProgramming)第68页,共114页,2023年,2月20日,星期四Sequence1Sequence2Sequence3多维的动态规划算法第69页,共114页,2023年,2月20日,星期四分而治之
(DivideandConquer,DCA)方法将MSA(MeasurementSystemAnalysis)的空间复杂度减小DCA在线MSAhttp://bioweb.pasteur.fr/seqanal/interfaces/dca-simple.html
2.分而治之方法第70页,共114页,2023年,2月20日,星期四Soineffect…Sequence1Sequence2Sequence3第71页,共114页,2023年,2月20日,星期四3.SP(SumofPairs)方法为了找到最佳比对,并解决动态规则算法的计算复杂问题,Carrillo&Lipman(1988)发明了SP(SumofPairs)方法SP方法通过对一个随机数据矩阵中氨基酸对的所有可能组合的记分求和来获得矩阵记分第72页,共114页,2023年,2月20日,星期四4.累进算法(ProgressiveMethods)针对基于动态规划算法的MSA程序比对序列数目有限,Feng&Doolittle(1987)发明了累进算法CLUSTAL和PILEUP是目前常用的基于累进算法的比对软件CLUSTAL是免费软件,目前应用非常广泛
http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html第73页,共114页,2023年,2月20日,星期四1对所有序列做双序列比对,构建距离矩阵计算相似性分数值2基于双序列距离矩阵,构建一个进化树
Scer
Cele
Dmel
Mouse
Human3依据进化树进行渐进比对
•依据进化树,开始对关系较近的序列进行两两比对
•逐渐加入关系较远的序列进行比对
•构建多序列比对MultiplealignmentScerevisiae[1]Celegans[2]0.640Drosophia[3]0.6340.327Human[4]0.6300.4080.420Mouse[5]0.6190.4050.4690.289累进算法原理第74页,共114页,2023年,2月20日,星期四一般累进比对方法132513131325254droot第75页,共114页,2023年,2月20日,星期四果仁糖累进方法
(Pralineprogressivestrategy)13213131325254d4第76页,共114页,2023年,2月20日,星期四累进算法的一些问题比对的准确性高度依赖于开始选择的双序列比对序列关系越远发生的错误可能越高选择合适的打分矩阵和罚分准则较困难第77页,共114页,2023年,2月20日,星期四ClLUSTALW/X简介ClLUSTAL最初初由Higgins等于1988年创立并不断完善用来多序列比对、概形(Profile)分析和创建进化树ClLUSTAL分为ClLUSTALW和CLUSTALX两种类型ClLUSTAL有用于WINDOWS和UNIX/LINUX的各种版本第78页,共114页,2023年,2月20日,星期四CLUSTAL方法进行所有序列间的双序列比对基于双序列比对分数产生一个相邻连接进化树(neighbor-jointree)根据进化树提供的序列间关系按顺序对序列进行比对比对可以用以下两种方法:-slow/accurate-fast/approximate第79页,共114页,2023年,2月20日,星期四********CLUSTALW(1.8)MultipleSequenceAlignments********
1.SequenceInputFromDisc2.MultipleAlignments3.Profile/StructureAlignments
4.PhylogenetictreesS.ExecuteasystemcommandH.HELPX.EXIT(leaveprogram)Yourchoice:1<rtn>CLUSTALW第80页,共114页,2023年,2月20日,星期四Sequencesshouldallbein1file.7formatsaccepted:NBRF/PIR,EMBL/SwissProt,Pearson(Fasta),GDE,Clustal,GCG/MSF,RSF.Enterthenameofthesequencefile:anti.fasta<rtn>SequenceformatisPearsonSequencesassumedtobePROTEINSequence1:ANP4_PSEAM 85aaSequence2:ANP_LIMFE 97aaSequence3:ANPA_PSEAM 82aaSequence4:ANPX_PSEAM 91aaSequence5:ANPY_PSEAM 91aa
CLUSTALW第81页,共114页,2023年,2月20日,星期四********CLUSTALW(1.8)MultipleSequenceAlignments********1.SequenceInputFromDisc2.MultipleAlignments3.Profile/StructureAlignments4.PhylogenetictreesS.ExecuteasystemcommandH.HELPX.EXIT(leaveprogram)Yourchoice:2<rtn>
CLUSTALW第82页,共114页,2023年,2月20日,星期四Clustal
W*********************MULTIPLEALIGNMENTMENU******
***************1.Docompletemultiplealignmentnow(Slow/Accurate)2.Produceguidetreefileonly3.Doalignmentusingoldguidetreefile4.ToggleSlow/Fastpairwisealignments=SLOW5.Pairwisealignmentparameters6.Multiplealignmentparameters7.Resetgapsbetweenalignments?=OFF8.Togglescreendisplay=ON9.OutputformatoptionsS.ExecuteasystemcommandH.HELPorpress[RETURN]togobacktomainmenuYourchoice:1<rtn>第83页,共114页,2023年,2月20日,星期四EnteranamefortheCLUSTALoutputfile[anti.aln]:<rtn>
EnternamefornewGUIDETREEfile[anti.dnd]:<rtn>StartofPairwisealignmentsAligning...Sequences(1:2)Aligned.Score:62Sequences(1:3)Aligned.Score:59Sequences(1:4)Aligned.Score:84Sequences(1:5)Aligned.Score:83Sequences(2:3)Aligned.Score:68Sequences(2:4)Aligned.Score:80Sequences(2:5)Aligned.Score:79Sequences(3:4)Aligned.Score:81Sequences(3:5)Aligned.Score:80Sequences(4:5)Aligned.Score:98Guidetreefilecreated:[anti.dnd]StartofMultipleAlignmentThereare4groupsAligning...Group1:Sequences:2Score:1476Group2:Sequences:3Score:1499Group3:Sequences:4Score:1190Group4:Sequences:5Score:1404AlignmentScore3470Consensuslength=102CLUSTAL-Alignmentfilecreated[anti.aln]
第84页,共114页,2023年,2月20日,星期四MacVector界面的ClustalW第85页,共114页,2023年,2月20日,星期四Clustal
X介绍第86页,共114页,2023年,2月20日,星期四ClustalX介绍第87页,共114页,2023年,2月20日,星期四ClustalX介绍第88页,共114页,2023年,2月20日,星期四ClustalX介绍第89页,共114页,2023年,2月20日,星期四ClustalX介绍第90页,共114页,2023年,2月20日,星期四ExampleMultiplesequencealignmentof7neuroglobinsusingclustalx第91页,共114页,2023年,2月20日,星期四PILEUPPILEUP是GCG(GeneticsComputerGroup)软件包中的MSA分析工具;与CLUSTAL一样使用累进式整体比对方法(ProgressiveGlobalAlignment);PILEUP开始的双序列比对使用Needleman-Wunsch动态规划算法,所以是全局序列比对,善于比较相似度较高的序列。第92页,共114页,2023年,2月20日,星期四OutputofPileup
401
OATNFA1TTCAG......ACACTCAGGTCATCTTCTCAAGCOATNFARTTCAG......ACACTCAGGTCATCTTCTCAAGCBSPTNFATTCAA......ACACTCAGGTCCTCTTCTCAAGCCEU14683TTCAG......ACCCTCAGGTCATCTTCTCAAGCHSTNFRCCCAG......GCAGTCAGATCATCTTCTCGAACSYNTNFTRPCCCAG......GCAGTCAGATCATCTTCTCGAACCATTNFAACCCAG......ACACTCAGATCATCTTCTCGAACCFTNFATCCAG......ACAGTCAAATCATCTTCTCGAACRABTNFMCCCAGATGGTCACCCTCAGATCAGCTTCTCGGGCRNTNFAACCCAGACCCTCACACTCAGATCATCTTCTCAAAA第93页,共114页,2023年,2月20日,星期四OutputofPileup第94页,共114页,2023年,2月20日,星期四ClUSTAL和PILEUP存在的问题最终的比对结果取决于最初的双序列比对,起初的序列相似度越高比对越准确;如果比对序列间长度差异较大则会生成异常的引导树(guidetrees)从而严重影响多序列比对;所选的记分与罚分标准并不一定适合一组序列中的所有序列。第95页,共114页,2023年,2月20日,星期四对累进比对方法的改进迭代方法策略在比对过程中不断重新比对各亚组序列把亚组序列再排成包括所有序列在内的整体比对获得最优的总比对分数(由成对比对分数相加而成)5.迭代方法
(IterativeMethods)第96页,共114页,2023年,2月20日,星期四二、局部序列比对局部比对(LocalAlignment)方法能够确定序列中高度保守的区域。概形分析(ProfileAnalysis)区块分析(BlockAnalysis)第97页,共114页,2023年,2月20日,星期四1.概形分析
(ProfileAnalysis)通过对一组序列进行整体MSA分析,把其中高度保守的区域提出分成小的MSA。这些小的MSA根据其序列与结构的比对得到一个记分矩阵。根据这个矩阵列出每个位置上的残基分数,称为位置特异记分表(PositionSpecificScoringTable)或概形(Profile)。概形(Profile)类似于一个小的MSA,包括匹配、错配、插入和缺失。第98页,共114页,2023年,2月20日,星期四概形分析
(ProfileAnalysis)优势:用来寻找一个可能与之匹配的目标序列;用来在一个数据库中搜索一个可能的新的蛋白(pfsearch);通过搜索一个profile数据库来找到提交的序列属于哪一家族(pfscan);比对两个MSA(profiletoprofile)。缺点:所产生的概形仅仅代表MSA本身的序列族变异,如果MSA中的几个序列相似,则衍生的概形将偏向于这些序列。
第99页,共114页,2023年,2月20日,星期四不同物种HSP70蛋白的profile图左边第一列为一致序列(consensussequence),其余的行的数值表示一致序列中每一个氨基酸出现的频率的对数与随机频率对数的比值,如出现空位,则必须减去空位行在相应位置上的数值。如用其寻找一个长度为100aa的序列,则检查的串为1~10,2~11,…,最高记分区段将是概形最相似部分。图中Z表示谷氨酸or谷氨酰胺;B表示天
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国会展档期优化与资源配置效率分析报告
- 中国会展医疗健康领域展会前景分析报告
- 中国会展产业链整合与协同发展策略分析报告
- 中国会展中小企业数字化转型痛点与解决方案报告
- 2026高铁牵引系统技术创新趋势与投资风险分析报告
- 蒸压加气混凝土条板施工方案
- 建筑工程项目临电、临水施工方案
- 2026年宁波财经学院单招职业适应性考试题库及答案详解(有一套)
- 2026年塔城职业技术学院单招职业倾向性考试题库带答案详解(a卷)
- 2026年宁夏工业职业学院单招职业倾向性测试题库带答案详解
- 仪表检测报告
- 网贷答辩状文档
- 新能源汽车电机及控制系统检修高职全套教学课件
- GB/T 26203-2023纸和纸板内结合强度的测定(Scott型)
- 旅行社运营实务电子课件 2.1 走进旅行社门市
- 《健身气功八段锦》教案
- 乳腺良性肿瘤日间手术临床路径临床路径
- (完整版)简单儿童对比涂色画画-可打印(干货)
- GB/T 16924-2008钢件的淬火与回火
- 中考语文专题复习专题一汉字读写课件
- 交管12123驾照学法减分题库200题(含答案完整版)
评论
0/150
提交评论