BLAST相似序列的数据库搜索_第1页
BLAST相似序列的数据库搜索_第2页
BLAST相似序列的数据库搜索_第3页
BLAST相似序列的数据库搜索_第4页
BLAST相似序列的数据库搜索_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实习_4_: BLAST相似序列的数据库搜索学号20090****姓名******专业年级 生命生技****实验时间 2012.6.19提交报告时间2012.6.20实验目的:学习使用BLAST在数据库中搜索相似序列实验内容:使用NCBI上面的BLAST程序进行相似性序列搜索:把核酸序列利用BLASTN搜索相似核酸序列;把蛋白质序列对应的蛋白质利用BLASTP搜索相似蛋白质序列;把核酸序列利用BLAST搜索相似蛋白质序列并与BLASTP比较,体会差异:把蛋白质序列利用TBLASTN搜索相似核酸序列并与BLASTN比较,体会差异:把核酸序列利用TBLASTX搜索相似核酸序列并与BLASTN比较,体会差异。作业:1.找一条你感兴趣的核酸序列(可以是前面搜索到的同源核酸序列中任意一条),通过BLASTN搜索NR数据库,说明你的参数如何设置,分析搜索结果包含哪些信息。答:使用的序列为:智人胰岛素(INS)>gil297374822lreflNM_001185098.1lHomosapiensinsulin(INS),transcriptvariant3,mRNA。Algorithmparameters设置如下:参数:EnterQuerySequence NM_001185098ChooseSearchSet Database:Nucleoctidecollection(nr);Exclude:VModels(XM/XP),JUncultured/environmentalamplesequencesProgramSelection Optimizefot:Highlysimilarsequences展开“Algorithmparameters”,依次设置:GeneralParameters Maxtargetsequence:100;Shortqueries:V;Expectthreshold:10;Wordsize:28;Maxmatchesinaqueryrange:0ScoringParameters Matrix/MismatchScores:1,-2;GapCosts:LinearFiltersandMasking Filter:VLowcomplexityregions;VMask:maskforlookuptableonly搜索结果分析:使用智人胰岛素(INS)>gil297374822lreflNM_001185098.1lHomosapiensinsulin(INS),transcriptvariant3,mRNA搜索NR数据库,搜索出100条符合条件的序列,序列来自的物种包括了Homosapiens,Pantroglodytes,Gorillagorilla,Pongoabelii,Pongopygmaeus,Musmusculus等,其中根据得分高低排列,前7条序列如下所示:NM_001185098.1Homosapiensinsulin(INS),transcriptvariant3,mRNANM_001185097.1Homosapiensinsulin(INS),transcriptvariant2,mRNANM_000207.2Homosapiensinsulin(INS),transcriptvariant1,mRNANG_007114.1Homosapiensinsulin(INS),RefSeqGeneonchromosomeAC132217.15Homosapienschromosome11,cloneRP11-889I17,completesequenceBC005255.1Homosapiensinsulin,mRNAJ00265.1Humaninsulingene,completecds上述序列的“Maxident',均为100%或99%,且E-Value值很低,可见搜索出来的序列与QUERY序列匹配的相似度很高。2.将上题中核酸序列对应的蛋白质序列,分别进行BLASTP和PSI-BLAST搜索,明你的参数设置,简明操作步骤,分析搜索结果,体会PSI-BLAST的优势。答:对应的蛋白质序列为:>gi|297374823|ref|NP_001172027.1|insulinpreproprotein[Homosapiens](1)BLASTP搜索简明步骤:在搜索到的NP_001172027.1页面选择“RunBLAST”链接,进入blastp搜索界面,置合适参数,点击BLAST按钮参数:EnterQuerySequence NP_001172027.1ChooseSearchSet Database:Non-redundantproteinsequences(nr);Exclude:Models(XM/XP),VUncultured/environmentalamplesequencesProgramSelection Algorithm:blastp展开“Algorithmparameters',依次设置:GeneralParameters Maxtargetsequence:100;Shortqueries:V;Expectthreshold:10;Wordsize:3;Maxmatchesinaqueryrange:0ScoringParameters Matrix:BLOSUM62;GapCosts:Existence:11Extension:1;Compositionaladjustments:ConditionalcompositionalscorematrixadjustmentFiltersandMasking Filter:VLowcomplexityregions结果分析:预测的保守结构域如下图所示:用insulinpreproprotein[Homosapiens].蛋白序列I搜索至|了Homosapiensinsulin[syntheticconstruct,insulinpreproprotein[Pantroglodytes],insulin(predicted)[Oryctolaguscuniculus]等序列,其中打分最高的七条序列截图所示如下:Sequencesproducingsignificantalignments:AccessionDescriptionMaxTotalscoreQuerycoveracie_EvalveMaxidentAAP36446.]Homosapiensinsulin[syntheticconstruct]>qb|AAX29480.ilinsulin17717778%7e-&0100%NPinsulinpreproprotein[Homosapiens]>ref|NP_001172026.11insulinp17717778%&e-60100%NP001008996.1insulinpreproprotein[Pantroglodytes]>sp|P30410.11INS_PANTRRet17717778%le-59100%QJHXVN.lRecName:Full=Insulin;Contains:RecName:Full=InsulinBchain;Con17717778%le-59100%AAA72172.1syntheticpreproinsulin[syntheticconstruct]17717778%le-59100%AEG19452.1insulin[Homosapiens]17517678%2e-59100%CAA23424.1unnamedproteinproduct[syntheticconstruct]>qb|AAA72531.1|pr17517578%3e-59100%上述序列Querycoverage均为78%,Maxident均为100%,可见搜索到的序列和QUERY序列相似性很大,且其中一些为人工合成序列(syntheticconstruct),一些为其他物种的相似性匹配序列,由E-Value等参数看出,上述序列的相似性都很高,但是是否同源应该通过系统发育分析来进一步判断。

(2)PSI-BLASTP搜索:简明步骤同BLASTP类似,仅仅在ProgramSelection处选Algorithm——PSI-BLAST(Position-SpecificIteratedBLAST),其他参数与BLASP相同。第一次搜索后结果和BLASTP结果一致,接着进行第1轮迭代搜索:RunPSI-Blastiteration2withmaxlOO,结果如下所示:AccessionDescriptionMax Totalgenre 号匚oi巳MPD8HXV2.1Homosapiensinsulin[syntheticconstruct]>qb|AAX29480.11insulininsulinpreproproteinAccessionDescriptionMax Totalgenre 号匚oi巳MPD8HXV2.1Homosapiensinsulin[syntheticconstruct]>qb|AAX29480.11insulininsulinpreproprotein[Homosapiens]>ref|NP_001172026.11insulinpRecName:Full=Insulin;Contains:RecName:Full=InsulinBchain;ConRecName:Full=Insulin;Contains:RecName:Full=InsulinBchain;Coninsulinpreproprotein[Pantroqlodytes]>sp|P30410.11INS_PANTRReiRecName:Full=Insulin;Contains:RecName:Full=InsulinBchain;Consyntheticpreproinsulin[syntheticconstruct]insulin[Homosapiens]1531531531531521521521491531531531531521521521497B%3e-500%78%3e-500%78%3e-500%78%4e-500%78%4e-500%78%5e-500%78%5e-500%78%3e-490%由搜索出的结果看出,搜索出的上述序列和QUERY序列相似性很大,和QUERY序列具有同源关系。PSI-BLASTP搜索结果和BLASTP搜索结果的排列顺序有所改变,说明通过迭代矩阵搜索出来的结果和通过BLOSUM62打分矩阵搜索出来的结果有差异,但是打分较高的序列中均为第一次已经搜索出来的序列,仅在在打分值较低的序列中出现很多第一次搜索时没搜索出来的新序列。进行第2轮迭代搜索,RunPSI-Blastiteration3withmaxlOO,得到的结果中,搜索出来的新基因比上一次明显减少,虽然搜索结果中序列排列不一样,但是相似度高的序列依然是排在前面。这也说明上次迭代矩阵搜索出来的结果准确度较高。同时,从利用PSI-BLASTP搜索的结果看出,PSI-BLASTP可以搜索出一些BLASTP搜索不出来的序列,同时由于PSI-BLASTP考虑了核酸替换的概率差异性问题,可以使得搜索结果更接近蛋白质进化的真实情况。将第2题中的蛋白质序列利用TBLASTN程序进行搜索,说明你的参数设置,比较它与BLASTN结果有无差异。答:在blastp程序界面输入序列ID:NP_001172027.1,设置参数,运行BLAST。参数设置如下所示:EnterQuerySequence NP_001172027.1ChooseSearchSet Database:Nucleoctidecollection(nr)Exclude:JModels(XM/XP),JUncultured/environmentalamplesequencesAlgorithmparameters参数设置和BLASTN一致。搜索结果如下图所示:Sequencesproducingsignificantalignments:AccessionDescriptionMaxscoreT(j0lgpjreQuerycoverag_EvalueMaxidentABS时皿.1SyntheticconstructDNAZclone:pFlKB8864zHomosapiensINSqene17817878%2e-57100%DQ893040.2SyntheticconstructcloneIMAGE:100005670;FLH192922.01X;RZPD17817878%2e-57100%DO896283.2SyntheticconstructHomosapienscloneIMAGE:100010743;FLH192<17&17878%2e-57100%BT007778.1SyntheticconstructHomosapiensinsulinmRNA,partialcds17717778%2e-57100%AY892S64.1SyntheticconstructHomosapienscloneFLH013499.01Linsulin(INS'17717778%2e-57100%AY892563.1SyntheticconstructHomosapienscloneFLH013498.01Linsulin(INS'17717778%2e-57100%AY899304.1HomosapiensproinsulinmRNA,completecds,alternativelyspliced17817878%3e-57100%BTU08的8.1HomosapiensinsulinmRNA,completecds17717778%3e-57100%AY890084.1SyntheticconstructHomosapienscloneFLH013503.01Xinsulin(INS17717778%3e-57100%AY890083.1SyntheticconstructHomosapienscloneFLH013502.01Xinsulin(INS17717778%3e-57100%由以上搜索结果看出,TBLASTN搜索结果和BLASTN搜索结果存在差异性,虽然大

部分BLASTN搜索出来的相似性核酸序列通过TBLASTN都能搜索出来,但是由于打分的差异导致搜索排列不一致,同时由上图看出,TBLASTN搜索出来的结果中很多人工合成的序列排在了前面。通过改变选择的数据库比如选refseq数据库,可以消除这种现象。另外,BLASTN搜索结果和TBLASTN搜索结果的不一致之处在于匹配的序列起始位点不一致,比如下图为BLASTN搜索结果:Query1<4040-5050-8080-200>=200Colorkeyforalignmentscores100Query1<4040-5050-8080-200>=200Colorkeyforalignmentscores100200300400500600下图为tBLastn搜索结果:<4040-5050-8080-200>=200■|ColorkeyforalignmentscoresQuery:BLASTN搜索结果和TBL—■■■ waKUI的码区—■■■ waKUI的码区传"用BLASTX程序进行搜索^说,"用BLASTX程序进行搜索^说,明你的参数设詈^比较它将第1题中的核酸序列彳BLASTP搜索结果有无差异。: 答:在blastx程序界面输入序列ID.NM_001185098.1,诙置参数,运育DLA【ST?参数设置为:EnterQuerySequence NM_001185098Geneticcode:Standard(1)ChooseSearchSet Database:Non-redundantproteinsequences(nr);Exclude:JModels(XM/XP),JUncultured/environmentalamplesequences其他参数设置和第2题相同。搜索结果如下图所示:Sequencesproducingsignificantalignments:AccessionDescriptionMaxscoreTotalscoreQueryeverge—vtIueUAA23424.1unnamedproteinproduct[syntheticconstruct]>qb|AAA72531.11pi18218239%le-60100%AEG194SN1insulin[Homosapiens]18218239%le-60100%NP。口WD8996.Linsulinpreproprotein[Pantroglodytes]>sp|P30410.11INS_PANTRRe18218239%2e-60100%insulinpreproprotein[Homosapiens]>ref|NP_001172026.11insulinp18218239%2e-60100%DSHXVN.LRecName:Full=Insulin;Contains:RecName:Full=InsulinBchain;Cor18218239%2e-60100%AAP3gE.]Homosapiensinsulin[syntheticconstruct]>qb|AAX29480.11insulin18218239%2e-60100%AAA721龙.1syntheticpreproinsulin[syntheticconstruct]18218239%3e-60100%BLASTX搜索是把核酸序列按6条链翻译为蛋白质后搜索蛋白质序列数据库°BLASTX

搜索通过搜索蛋白质数据库进行序列相似性搜索,可以更好地匹配功能上有联系的核酸序列。上述搜索结果显示,和BLASTP搜索结果相比,BLASTX搜索结果相似,但是也存在差异。下图分别显示了BLASTP搜索结果和BLASTX搜索结果。QueQueQueQue蛋白质序列的全长在蛋通过上述搜索结果的对比可以发现,BLASTP搜索的时候是利白质数据库里搜索蛋白质序列的,而BLASTX是利用核酸翻译后在蛋白质数据库搜蛋白质序列。由于核酸翻译蛋白质的序列仅仅是CDS,所示上述“Querycoverage”蛋白质序列的全长在蛋将第1题中的核酸序列利用TBLASTX程序在默认数据库进行搜索,简要说明操作步骤,体会它与BLASTN搜索的差异。答:在tblastx程序界面输入序列ID:NM_001185098.1,设置参数,运行BLAST。参数设置:EnterQuerySequence NM_001185098ChooseSearchSet Database:Nucleoctidecollection(nr);Exclude:VModels(XM/XP),JUncultured/environmentalamplesequences其他设置和第4题相同。搜索结果如下图所示:Sequencesproducingsignificantalignments:AccessionDescriptionMax

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论