ncbi blast.doc_第1页
ncbi blast.doc_第2页
ncbi blast.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

NCBI中Blast种类简介1 Blast Assembled Genomes在一个选择的物种基因组序列中去搜索。2Basic Blast 2.1 nucleotide blast- 用核酸序列到核酸数据库中进行搜索,包括3个程序2.1.1 Blastn-核酸序列(n)到核酸序列数据库中搜索,是一种标准的搜索。2.1.2 megablast-该程序使用“模糊算法”加快了比较速度,可以用于快速比较两大系列序列。 可以用来搜索一匹ESTs序列和大的cDNA或基因组序列, 适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较2.1.3 discontiguous megablast-与megablast不同的是主要用来比较来自不同物种之间的相似性较低的分歧序列。2.2 Protein Blast 2.2.1 Blastp -蛋白质序列到蛋白质序列数据库中搜索,是一种标准的搜索。 2.2.2 psi-blast-位点特异迭代BLAST 用蛋白查询来搜索蛋白资料库的一个程式。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。这个矩阵被用来搜索资料库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。2.2.3 PHI-BLAST-以常规的表达模型为特别位置进行PSI - BLAST检索,找出和待查询序列具有一样的表达模型且具有同源性的蛋白质序列。2.3 Translating BLAST 2.3.1 blastx-先将待查询的核酸序列按6 种读框翻译成蛋白质序列,然后将翻译出的蛋白质序列与NCBI 蛋白质序列数据库比较。 2.3.2 tblastn-先将核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后将待查询的蛋白质序列与翻译结果进行比较。 2.3.3 tblastx-先将待查询的核酸序列和核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后再将两种翻译结果在蛋白质水平上进行比较3Specialized Blast Specialized BLAST pages 可以对特殊生物或特殊研究领域的序列数据库进行检索。 例:CD - SearchCD - Search 是使用RPS - BLAST程序以一个蛋白质序列与保守结构域数据库(Conserved Domain Database) 做比较。 Pairwise BLASTPairwise BLAST是用BLAST程序实现两个序列之间的比较。选择“序列1”为待比较序列,则“序列2”就是被比较序列。IgBLAST IgBLAST被开发出来以便於分析在GenBank中的免疫球蛋白的序列。它允许用blastp或blastn来搜索nr资料库或一个由免疫球蛋白生殖系变化区基因的特殊的资料库。搜索可以限制在人类或小鼠的基因。IgBLAST执行三个主要的功能1)报告与查询序列最相似的可变,D,或J区,2)根据Kabat et al.来注解免疫球蛋白domains(从FWR1到FWR3),3)对於搜索核酸或蛋白nr资料库,通过匹配IgBLAST的发现和最接近的生殖系变化区基因来简化识别相关序列的过程。 等等。 在线BLAST的使用方法1、登陆blast主页:/BLAST/2、根据数据类型,选择合适的程序3、填写表单信息序列的输入、比对搜索区域的选择、数据库的选择:_/ &限制调节、打分矩阵及其他参数的设置: 图中各参数的含义:(不同的平台有少许差异,请对比参照)9 L4 N3 I) u+ N0 $ qWord siez选项:4 c, r* F* g t g) B, j9 u BLAST 程序是通过比对未知序列与数据库序列中的短序列来发现最佳匹配序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短序列(定义为“word”,即字)的联配得分总和来决定。联配时,“字”的每个碱基均被计分:如果碱基对完全相同(如 A 与 A),得某一正值;如果碱基对不很匹配(W与A或 T),则得某一略小的正值;如果两个碱基不匹配,则得一负值。总的 合计得分便决定了序列间的相似程度。得分高的匹配序列被称为高比值片段对(high-scoring segment pairs, HSP)。BLAST 程序在两个方向扩展 HSP,直至序列结束或联配已变为不显著。替 换矩阵在扫描(scanning)和扩展过程被应用。最后在 BLAST 报告中被列出的序列 都是所有得分最高的序列。 以上述及的初始字长便是由Word siez值设定。BLAST只对字长为W的“字”进行扩展联配。BLAST 的字长缺省值为 11,即 BLASTN 将扫描数据库,直到发现那些与未知序列的 11 个连续碱基完全匹配的11个连续碱基长度片段为止。然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源性和几乎所有随机产生的显著联配。 “Filter”(过滤器)选项: BLAST 2.0版本的新功能,过滤器将锁定诸如组成低复杂(low compositional complexity)序列区(如Alu序列),用一系列N(NNNNNN)替代这些程序。N 代表任意碱基(IUB-code)。只有未知待检序列被过滤替代,而数据库的序列将不被过滤。过滤对绝大多数序列都是有益的,例如,多A 碱基的尾部和脯氨酸富积的序列,会得到人为的高联配得分而误导分析。这是因为这类序列数量极大,遍布整个基因组,直至整个数据库。# p$ r4 W! O1 x5 n8 i! j3 m “Matrix”(矩阵)选项: 联配的显著性是由返回的比对分值决定的,该分值反映的是所得到的联配随机产生的概率有多大。矩阵被用于鉴别数据库中的序列,同时又用来预测匹配的显著性大小。一般应接受运行程序推荐的矩阵。BLAST系列程序主要使用两种类型矩阵(PAM和BLOSUM,前面都有介绍)。要准确地选择矩阵,必须了解矩阵和矩阵的具体计分方式。值得注意的是,直接比较使用不同替换矩阵而获得的联配得分是没有意义的。 “EXPECT”选项: 您可以为搜索设定一个期望值阀值(EXPECT),例如缺省值设为10。这一设置则表示联配结果中将有10个匹配序列是由随机产生,如果联配的统计显著性值(E值)小于该值(10),则该联配将被检出。换句话说,比较低的阀值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。 “Score Value”(分值)选项:(有些平台上没有此选项)6 - q+ J# k9 ?6 N( M( d0 a 在“wordsize”选项中曾论及碱基对匹配程度的赋分问题,其赋分的标准可由分值选项的M和N 两个参数设置。M 参数为匹配碱基的赋值,必需为一正整数;N 参数为不匹配碱基的赋值,必需为一负整数。M/N 的比率决定了你所接受的进化分歧程度(degree of divergence),M 和N 的缺省值为5和-4。该比率(1.25)相当于在100个残基中约有47可以观测到的核酸点突变(PAM)。PAM 是被用来预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论