核酸氨基酸序列相似性比较_第1页
核酸氨基酸序列相似性比较_第2页
核酸氨基酸序列相似性比较_第3页
核酸氨基酸序列相似性比较_第4页
核酸氨基酸序列相似性比较_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

BLAST核酸/氨基酸序列相似性比较Blast(BasicLocalAlignmentSearchTool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。BLAST采用一种局部的算法获得两个序列中具有相似性的序列。如果您想进一步了解BLAST算法,您可以参考NCBI的BLASTCourse,该页有BLAST算法的介绍。BLAST的功能BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的能比对上的序列。BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。从最初的BLAST发展到现在NCBI提供的BLAST2O已将有缺口的比对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。BLAST包含的程序:1、 BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。2、 BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。3、 BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。4、 TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。5、 TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。假如是作核酸一核酸查询,有两种BLAST供选择,通常默认为BLASTN0如要用TBLASTX也可,但记住此时不考虑缺口。BLAST适用于本地查询。可以下载公共数据库,对于该数据库的更新和维护是必不可少的。如果要直接到网上查询也可以(即NetBlast),但记住如果你认为自己的序列很有价值的话,还是谨慎为宜。如何访问在线的BLAST功能服务?您只要通过浏览器访问Blast主页(http://blast.ncbi.nI/)。所有的查询和分析都通过浏览器来完成,就象您在您的本地机上一样方便和快捷。BLAST采用一种局部的算法获得两个序列中具有相似性的序列。Blast中常用的程序介绍:1、 BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。2、 BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。3、 BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。4、 TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。5、 TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。NCBI的在线blast:/Blast.cgi进入在线blast界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。粘贴fasta格式的序列。选择一个要比对的数据库。关于数据库的说明请看NCBI在线blast数据库的简要说明。一般的话参数默认。blast参数的设置。注意显示的最大的结果数跟E值,E值是比较重要的。筛选的标准。最后会说明一下。注意一下你输入的序列长度。注意一下比对的数据库的说明。blast结果的图形显示。没啥好说的。blast结果的描述区域。注意分值与E值。分值越大越靠前了,E值越小也是这样。blast结果的详细比对结果。注意比对到的序列长度。评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上长度的话,就有四个标准了。如图中显示,比对到的序列长度为1405,看Identities这一值,才匹配到1344bp,而输入的序列长度也是为1344bp(看上面的图),就说明比对到的序列要长一点。由Qurey(起始1)和Sbjct(起始35)的起始位置可知,5'端是是多了一段的。有时也要注意3'端的。附:E值(Expect):表示随机匹配的可能性,e值越大,随机匹配的可能性也越大。e值接近零或为零时,具本上就是完全匹配了。一致性(Identities):或相似性。匹配上的碱基数占总序列长的百分数。缺失或插入(Gaps):插入或缺失。用"一"来表示。BlastN/MegaBlast/DiscontiguousMegaBlast的区别:三者之间的共同之处就是BlastN/Megablast/Discontiguousmegablast都是BlastN,就是核酸序列比对核酸序列的算法。简单而言BlastN:应该是出现较早的算法。比对的速度慢,但允许更短序列的比对(如短到7个碱基的序列)。MEGABLAST:主要用来鉴定一段新的核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。速度快。同一物种间的。DiscontiguousMEGABLAST:灵敏度(sensitivity)更高,用于更精确的比对。主要用于跨物种之间的同源比对。详细解释1,MEGABLAST常被用于鉴定核酸序列MEGABLASTisthetoolofchoicetoidentifyanucleotidesequenee.MegaBLAST也是一种BLASTN程序,不过它主要是用来在非常相似的序列之间(来自同一物种)比对同源性的。鉴定某一段核酸序列是否存在于数据库,最好的方法是选择MEGABLAST。如果比对到的序列在数据库中注释完整的话,那该序列丰富的注释可以当作新序列的参考。当然,BlastN/MEGABLAST/DiscontiguousMEGABLAST,都可以完成这种事情。但MEGABLAST就是特别设计用于非常相似序列之间的比对,可用于寻找查询序列的最佳匹配的序列。2,DiscontiguousMEGABLAST更好地用于查找不同物种的相似的核酸序列,而不是与查询序列相同(identical)物种的。DiscontiguousMEGABLASTisbetteratfindingnucleotidesequencessimilar,butnotidentical,toyournucleotidequery.DiscontiguousMEGABLAST,用于跨物种核酸序列快速比对。它使用非重叠群字段匹配算法(noncontiguouswordmatch)来进行核酸比对。DiscontiguousMegaBLAST比blastx等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。但是需要指出的是,核酸与核酸之间的比对并不是发现同源蛋白编码区域的最佳方法,直接在蛋白水平用Blastp比对更好。这是因为密码子的简并性。(Lc•注:翻译得有些拗口,多多见谅!)DiscontiguousMEGABLAST详细介绍:www.ncbi.nlm.n/blast/discontiguous.html原文:/blast/producttable.shtml#tab31本文详细出处参考:/1009/#more-10091,Blastp:标准的蛋白序列与蛋白序列之间的比对StandardproteinBLASTisdesignedforproteinsearches.Blastp用于确定查询的氨基酸序列在蛋白数据库中找到相似的序列。跟其它的Blast程序一样,目的是要找到相似的区域。2,PSI-BLAST:敏感度更高的蛋白序列与蛋白序列之间的比对PSI-BLASTisdesignedformoresensitiveprotein-proteinsimilaritysearches.Position-SpecificIterated(PSI)-BLAST,是一种更加高灵敏的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员非常有效。当你使用标准的Blastp比对失败时,或比对的结果仅仅是一些假基因或推测的基因序列时("hypotheticalprotein"or"similarto..."),你可以选择PSI-BLAST重新试试。3,PHI-BLAST:模式发现迭代BLASTPHI-BLASTcandoarestrictedproteinpatternsearch.PHI-BLAST,模式发现迭代BLAST,用蛋白查询来搜索蛋白数据库的一个程序。仅仅找出那些查询序列中含有的特殊模式的对齐。PHI的语法详细介绍看这里:http://www.ncbi.nI/blast/html/PHIsyntax.htmlPeptideSequenceDatabases蛋白序列的数据库nrAllnon-redundantGenBankCDStranslations+RefSeqProteins+PDB+SwissProt+PIR+PRF所有非冗余的的GenBankCDS区的翻译序列+参考序列的蛋白+PDB数据库+SwissProt蛋白数据库+PRF蛋白数据库refseqRefSeqproteinsequencesfromNCBI'sRefereneeSequeneeProject■所有NCBI的参考序列swissprotLastmajorreleaseoftheSWISS-PROTproteinsequeneedatabase(noupdates),swissprot的蛋白数据库patProteinsfromthePatentdivisionofGenPept■专利的蛋白数据库pdbSequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBank.PDB数据库monthAllneworrevisedGenBankCDStranslation+PDB+SwissProt+PIR+PRFreleasedinthelast30days.一个月内新增加的蛋白序列env_nrProteinsequencesfromenvironmentalsamples.来自environmentalsamples的蛋白序列NucleotideSequenceDatabases核酸数据库nrAllGenBank+RefSeqNucleotides+EMBL+DDBJ+PDBsequences(excludingHTGS0,l,2,EST,GSS,STS,PAT,WGS).NoIonger"non-redundant"■所有GenBank的核酸序列+参考序列中的核酸序列+EMBL+DDBJ+PDB核酸序列(但不包括HTG,EST,GSS等序列)refseq_rnaRNAentriesfromNCBI'sRefereneeSequeneeprojectNCBI参考序列中的核酸序列refseq_genomieGenomieentriesfromNCBI'sRefereneeSequeneeprojectNCBI参考序列中的基因组序列estDatabaseofGenBank+EMBL+DDBJsequencesfromESTDivisions来自GenBank+EMBL+DDBJ的EST序列est_humanHumansubsetofest■人的EST序列est_mouseMousesubset■小鼠的EST序列est_othersNon-Mouse,non-Humansubsetofest.、除了人与小鼠之外的EST序列gssGenomeSurveySequenee,ineludessingle-passgenomicdata,exon-trappedsequenees,andAluPCRsequences.htgsUnfinishedHighThroughputGenomicSequences:phases0,1and2(finished,phase3HTGsequencesareinnr)未发布的高通量的基因组测序patNucleotidesfromthePatentdivisionofGenBank.专利的核酸序列pdbSequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBankPDB核酸序列monthAllneworrevisedGenBank+EMBL+DDBJ+PDBsequencesreleasedinthelast30days.一个月内新增的核酸序列dbstsDatabaseofGenBank+EMBL+DDBJsequencesfromSTSDivisions.STS数据库chromosomeAdatabasewithcompletegenomesandchromosomesfromtheNCBIRefereneeSequeneeproject..NCBI参考序列计划中所有的完整基因组和染色体序列wgsAdatabaseforwholegenomeshotgunsequeneeentries.基因组鸟枪法测序得到的序列env_ntNucleotidesequencesfromenvironmentalsamples,includingthosefromSargassoSeaandMineDrainageprojects■来自environmentalsamples的核酸序列。NCBI中Blast可以用来进行序列比对、检验引物特异性Blast导航主页面主体包括三部分BLASTAssembledGenomes选择你要对比的物种,点击物种之后即可进入对比页面BasicBLAST包含5个常用的Blast,每一个都附有简单介绍SpecializedBLAST是一些特殊目的的Blast,如Primer-BLAST、IgBLAST根据需要做出选择本学期学习了最基本的核苷酸序列的比对点击BasicBLAST部分的nucleotide链接到一个新的页面,打开后的页面特征:大体上包括三个部分EnterQuerySequence部分可以让我们输入序列,其中的JobTitle部分可以为本次工作命一个名字ChooseSearchSet部分可以选择要与目的序列比对的物种或序列种类。其中的EntrezQuery可以对比对结果进行适当的限制。ProgramSelection部分可以选择本次对比的精确度,种内种间等等。其次Blast按钮下面有一个“Algorithmparameters"算法参数,可设置参数。点击Blast后,出现的页面大体上包括四个部分所询问和比对序列的简单信息1•询问序列的简单信息 名称、描述、分子类型、序列长度2.所比对数据库的名称、描述和所用程序GraphicSummary blast结果图形显示相似度颜色图(黑、蓝、绿、粉红、红,相似度由低到高)Descriptions blast结果描述区1•到其他数据库的链接2•描述以表格的形式呈现(以匹配分值从大到小排序)⑴Accession下程序比对的序列名称,点击相应的可以进入更为详细的mapviewer⑵Descriptions下是对所比对序列的简单描述接下来是5个结果数值:Maxscore匹配分值,点击可进入第四部分相应序列的blast的详细比对结果Totalscore总体分值Querycoverage覆盖率⑹Evalue E(Expect)值,表示随机匹配的可能性。E值越大,随机匹配的可能性也越大。E值接近零或为零时,具本上就是完全匹配了。(7)Maxident 匹配一致性,即匹配上的碱基数占总序列长的百分数。⑻Links——到其他数据库的链接。各序列blast的详细比对结果数据库中不同序列比对的详细结果,每一个结果大体上包括3部分1•所比对序列的名称、简单描述、长度。到其他数据库的链接。2•比对结果的5个数值:score打分矩阵计算出来的值,由搜索算法决定的,值越大说明询问序列跟目标序列匹配程度越大Expect是输入序列被随机搜索出来的概率,该值越小越好。Identities是相似程度,即输入序列和搜索到序列的匹配率Gaps就是空白,即比对序列只有一条链上有碱基⑸strand=plus/minus即询问序列和数据库里面序列的互补链匹配3•输入序列和库中对比到的序列每个碱基的详细对比Blast2Sequences,在很早前NCBI就有提供这种工具的了。最近在2008年底又重新改版了,改版后的功能更加强大。有许多非常实用,但你可能不是太清楚的功能。这里大概提一下,具体的详细用法,还是要靠你自己慢慢摸索。功能介绍:1,两个序列之间的比对(BLAST2Sequences),这是最初的功能2,BLAST多个序列。3,BLAST2Sequences时,还能用点矩阵图(DotMatrix)查看4,BLAST多个序列时,还能进一步做进化树分析。BLAST主页:/现在在任何一个Blast

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论