BLAST相似序列的数据库搜索.doc_第1页
BLAST相似序列的数据库搜索.doc_第2页
BLAST相似序列的数据库搜索.doc_第3页
BLAST相似序列的数据库搜索.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实习 4 : BLAST相似序列的数据库搜索 学号 20090* 姓名 * 专业年级 生命生技* 实验时间 2012.6.19 提交报告时间 2012.6.20 实验目的:学习使用BLAST在数据库中搜索相似序列实验内容:使用NCBI上面的BLAST程序进行相似性序列搜索:1. 把核酸序列利用BLASTN搜索相似核酸序列;2. 把蛋白质序列对应的蛋白质利用BLASTP搜索相似蛋白质序列;3. 把核酸序列利用BLAST搜索相似蛋白质序列并与BLASTP比较,体会差异:4. 把蛋白质序列利用TBLASTN搜索相似核酸序列并与BLASTN比较,体会差异:5. 把核酸序列利用TBLASTX搜索相似核酸序列并与BLASTN比较,体会差异。作业:1. 找一条你感兴趣的核酸序列(可以是前面搜索到的同源核酸序列中任意一条),通过BLASTN搜索NR数据库,说明你的参数如何设置,分析搜索结果包含哪些信息。答:使用的序列为:智人胰岛素(INS)gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA。Algorithm parameters设置如下:参数:Enter Query SequenceNM_001185098Choose Search SetDatabase: Nucleoctide collection(nr); Exclude: Models(XM/XP),Uncultured/environmental ample sequencesProgram SelectionOptimize fot: Highly similar sequences展开“Algorithm parameters”,依次设置:General ParametersMax target sequence:100; Short queries: ; Expect threshold:10;Word size:28; Max matches in a query range:0Scoring ParametersMatrix/Mismatch Scores:1,-2; Gap Costs: LinearFilters and MaskingFilter: Low complexity regions; Mask: mask for lookup table only搜索结果分析:使用智人胰岛素(INS)gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA搜索NR数据库,搜索出100条符合条件的序列,序列来自的物种包括了Homo sapiens,Pan troglodytes,Gorilla gorilla,Pongo abelii,Pongo pygmaeus,Mus musculus等,其中根据得分高低排列,前7条序列如下所示:NM_001185098.1 Homo sapiens insulin (INS), transcript variant 3, mRNANM_001185097.1 Homo sapiens insulin (INS), transcript variant 2, mRNANM_000207.2 Homo sapiens insulin (INS), transcript variant 1, mRNANG_007114.1 Homo sapiens insulin (INS), RefSeqGene on chromosomeAC132217.15 Homo sapiens chromosome 11, clone RP11-889I17, complete sequenceBC005255.1 Homo sapiens insulin, mRNAJ00265.1 Human insulin gene, complete cds上述序列的“Max ident”均为100%或99%,且E-Value值很低,可见搜索出来的序列与QUERY序列匹配的相似度很高。2. 将上题中核酸序列对应的蛋白质序列,分别进行BLASTP和PSI-BLAST搜索,说明你的参数设置,简明操作步骤,分析搜索结果,体会PSIBLAST的优势。答:对应的蛋白质序列为:gi|297374823|ref|NP_001172027.1| insulin preproprotein Homo sapiens(1)BLASTP搜索简明步骤:在搜索到的NP_001172027.1页面选择“Run BLAST”链接,进入blastp搜索界面,设置合适参数,点击BLAST按钮参数:Enter Query SequenceNP_001172027.1Choose Search SetDatabase: Non-redundant protein sequences(nr);Exclude: Models(XM/XP),Uncultured/environmental ample sequencesProgram SelectionAlgorithm: blastp展开“Algorithm parameters”,依次设置:General ParametersMax target sequence:100;Short queries: ;Expect threshold:10;Word size:3;Max matches in a query range:0Scoring ParametersMatrix:BLOSUM62;Gap Costs:Existence:11Extension:1;Compositional adjustments: Conditional compositional score matrix adjustmentFilters and MaskingFilter: Low complexity regions结果分析:预测的保守结构域如下图所示:用insulin preproprotein Homo sapiens.蛋白序列搜索到了Homo sapiens insulin synthetic construct,insulin preproprotein Pan troglodytes,insulin (predicted) Oryctolagus cuniculus等序列,其中打分最高的七条序列截图所示如下:上述序列Query coverage均为78%,Max ident均为100%,可见搜索到的序列和QUERY序列相似性很大,且其中一些为人工合成序列(synthetic construct),一些为其他物种的相似性匹配序列,由E-Value等参数看出,上述序列的相似性都很高,但是是否同源应该通过系统发育分析来进一步判断。(2)PSI-BLASTP搜索:简明步骤同BLASTP类似,仅仅在Program Selection处选AlgorithmPSI-BLAST (Position-Specific Iterated BLAST),其他参数与BLASP相同。第一次搜索后结果和BLASTP结果一致,接着进行第1轮迭代搜索:Run PSI-Blast iteration 2 with max100,结果如下所示:由搜索出的结果看出,搜索出的上述序列和QUERY序列相似性很大,和QUERY序列具有同源关系。PSI-BLASTP搜索结果和BLASTP搜索结果的排列顺序有所改变,说明通过迭代矩阵搜索出来的结果和通过BLOSUM62打分矩阵搜索出来的结果有差异,但是打分较高的序列中均为第一次已经搜索出来的序列,仅在在打分值较低的序列中出现很多第一次搜索时没搜索出来的新序列。进行第2轮迭代搜索,Run PSI-Blast iteration 3with max100,得到的结果中,搜索出来的新基因比上一次明显减少,虽然搜索结果中序列排列不一样,但是相似度高的序列依然是排在前面。这也说明上次迭代矩阵搜索出来的结果准确度较高。同时,从利用PSI-BLASTP搜索的结果看出,PSI-BLASTP可以搜索出一些BLASTP搜索不出来的序列,同时由于PSI-BLASTP考虑了核酸替换的概率差异性问题,可以使得搜索结果更接近蛋白质进化的真实情况。3. 将第2题中的蛋白质序列利用TBLASTN程序进行搜索,说明你的参数设置,比较它与BLASTN结果有无差异。答:在blastp程序界面输入序列ID:NP_001172027.1,设置参数,运行BLAST。参数设置如下所示:Enter Query SequenceNP_001172027.1Choose Search SetDatabase: Nucleoctide collection(nr)Exclude: Models(XM/XP),Uncultured/environmental ample sequencesAlgorithm parameters参数设置和BLASTN一致。搜索结果如下图所示:由以上搜索结果看出,TBLASTN搜索结果和BLASTN搜索结果存在差异性,虽然大部分BLASTN搜索出来的相似性核酸序列通过TBLASTN都能搜索出来,但是由于打分的差异导致搜索排列不一致,同时由上图看出,TBLASTN搜索出来的结果中很多人工合成的序列排在了前面。通过改变选择的数据库比如选refseq数据库,可以消除这种现象。另外,BLASTN搜索结果和TBLASTN搜索结果的不一致之处在于匹配的序列起始位点不一致,比如下图为BLASTN搜索结果:下图为TBLASTN搜索结果:BLASTN搜索结果和TBLASTN搜索结果显示匹配信息的不一致可能是由于核酸序列中仅有编码区翻译成相应的蛋白质,所以TBLASTN搜索相当于利用了核酸序列的编码区搜索,而BLASTN搜索则是把核酸序列的全长搜索核酸数据库。4. 将第1题中的核酸序列利用BLASTX程序进行搜索,说明你的参数设置,比较它与BLASTP搜索结果有无差异。答:在blastx程序界面输入序列ID:NM_001185098.1,设置参数,运行BLAST。参数设置为:Enter Query SequenceNM_001185098Genetic code:Standard(1)Choose Search SetDatabase: Non-redundant protein sequences(nr);Exclude: Models(XM/XP),Uncultured/environmental ample sequences其他参数设置和第2题相同。搜索结果如下图所示:BLASTX搜索是把核酸序列按6条链翻译为蛋白质后搜索蛋白质序列数据库。BLASTX搜索通过搜索蛋白质数据库进行序列相似性搜索,可以更好地匹配功能上有联系的核酸序列。上述搜索结果显示,和BLASTP搜索结果相比,BLASTX搜索结果相似,但是也存在差异。下图分别显示了BLASTP搜索结果和BLASTX搜索结果。通过上述搜索结果的对比可以发现,BLASTP搜索的时候是利用蛋白质序列的全长在蛋白质数据库里搜索蛋白质序列的,而BLASTX是利用核酸翻译后在蛋白质数据库搜蛋白质序列。由于核酸翻译蛋白质的序列仅仅是CDS,所示上述“Query coverage”值存在差异。5. 将第题中的核酸序列利用TBLASTX程序在默认数据库进行搜索,简要说明操作步骤,体会它与BLASTN搜索的差异。答:在tblastx程序界面输入序列ID:NM_001185098.1,设置参数,运行BLAST。 参数设置:Enter Query SequenceNM_001185098Choose Search SetDatabase: Nucleoctide collection(nr); Exclude: Models(XM/XP),Uncultured/environmental ample sequences其他设置和第4题相同。搜索结果如下图所示:TBLASTX搜索是先将核酸序列翻译成蛋白质序列后再搜索数据库中核酸序列翻译成蛋白质数据库。由以上搜索出来的核酸序列看出,TBLASTX搜索结果与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论