多序列比对与的使用_第1页
多序列比对与的使用_第2页
多序列比对与的使用_第3页
多序列比对与的使用_第4页
多序列比对与的使用_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多序列比对与的使用第一页,共六十三页,编辑于2023年,星期五内容提要第一部分:多序列比对意义、方法、算法Clustal的使用

1.Clustalx2.Clustalw第二部分:常见的序列分析软件分类简介第二页,共六十三页,编辑于2023年,星期五第一部分:

多序列比对及Clustal的使用第三页,共六十三页,编辑于2023年,星期五序列相似性比较和序列同源性分析序列相似性比较:就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;序列同源性分析:是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;第四页,共六十三页,编辑于2023年,星期五多序列比对的意义用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。其他应用,如构建profile,打分矩阵等。第五页,共六十三页,编辑于2023年,星期五同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下。多序列比对的方法第六页,共六十三页,编辑于2023年,星期五多序列比对的方法基本上多序列比对可以分为

1.手工比对(辅助编辑软件如bioedit,seaview,Genedoc等)通过辅助软件的不同颜色显示不同残基,靠分析者的观察来改变比对的状态。

2.计算机程序自动比对

通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序列比对状态。第七页,共六十三页,编辑于2023年,星期五自动多序列比对的算法1.同步法将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。第八页,共六十三页,编辑于2023年,星期五自动多序列比对的算法2.步进法最常见的就是clustal所采用的方法。

其基本思想就是基于相似序列通常具有进化相关性的这一假设。

第九页,共六十三页,编辑于2023年,星期五Clustal的渐进比对过程在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值。根据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。第十页,共六十三页,编辑于2023年,星期五多序列比对工具

-clustalClustal是一个单机版的基于渐进比对的多序列比对工具,由HigginsD.G.等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlw,clustalx等。第十一页,共六十三页,编辑于2023年,星期五Clustal简介CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。第十二页,共六十三页,编辑于2023年,星期五Clustalx的工作界面

(多序列比对模式)第十三页,共六十三页,编辑于2023年,星期五Clustalx的工作界面

(剖面(profile)比对模式)第十四页,共六十三页,编辑于2023年,星期五Clustal的工作原理Clustal输入多个序列快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。邻接法(NJ)构建一个树(引导树)根据引导树,渐进比对多个序列。第十五页,共六十三页,编辑于2023年,星期五Clustal的应用1.输入输出格式。输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。第十六页,共六十三页,编辑于2023年,星期五2.两种工作模式。

a.多序列比对模式。

b.剖面(profile)比对模式。3.一个实际的例子。Clustal的应用第十七页,共六十三页,编辑于2023年,星期五多序列比对实例输入文件的格式(fasta):>KCC2_YEASTNYIFGRTLGAGSFGVVRQARKLSTN……>DMK_HUMANDFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK…….>KPRO_MAIZETRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN……>DAF1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD……>1CSNHYKVGRRIGEGSFGVIFEGTNLLNN……第十八页,共六十三页,编辑于2023年,星期五第一步:输入序列文件。第十九页,共六十三页,编辑于2023年,星期五第二步:设定比对的一些参数。第二十页,共六十三页,编辑于2023年,星期五参数设定窗口。第二十一页,共六十三页,编辑于2023年,星期五第三步:开始序列比对。第二十二页,共六十三页,编辑于2023年,星期五第二十三页,共六十三页,编辑于2023年,星期五第四步:比对完成,选择保存结果文件的格式第二十四页,共六十三页,编辑于2023年,星期五第二十五页,共六十三页,编辑于2023年,星期五Clustalw的使用(一)第二十六页,共六十三页,编辑于2023年,星期五

Clustalw还提供了命令调用形式的使用方式,方便于批处理过程,下面是一个典型的执行多序列比对的clustalw命令:$./clustalw–infile=dna.fa–type=dna–gapopen=10–gapext=2–output=gcg–outfile=align.gcg-alignClustalw的使用(二)第二十七页,共六十三页,编辑于2023年,星期五在线的clustalw分析EBI提供的在线clustalw服务http://www.ebi.ac.uk/clustalw/第二十八页,共六十三页,编辑于2023年,星期五EBI提供的在线Clustalw服务第二十九页,共六十三页,编辑于2023年,星期五更为详细的教程可以在这里得到更多关于clustal的帮助:http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html

第三十页,共六十三页,编辑于2023年,星期五实际操作(练习)使用clustalx程序,对给定的多序列,选择合适的参数,进行多序列比对,输出结果文件维phylip格式。相同的文件,使用ebi和我们提供的在线服务,进行多序列比对。对上述计算机程序比对的结果进行手工改动(bioedit,seaview),使得多序列比对结果跟符合要求。第三十一页,共六十三页,编辑于2023年,星期五>SIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAISAAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVC>TIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIAAAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC>WIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWTELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVNAASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ>CzIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWPELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVTAAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL>CIVMSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASISRAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFTTPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQFHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQTAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHHTTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTASPAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL练习序列第三十二页,共六十三页,编辑于2023年,星期五第二部分:

常见的序列分析软件分类简介第三十三页,共六十三页,编辑于2023年,星期五GCGEMBOSS(免费)VectorNTIDNAstarBioedit(免费)其他1.综合序列分析软件包第三十四页,共六十三页,编辑于2023年,星期五GCG(商业软件)

GCG(GeneticsComputerGroup)是生物信息界最广为人知的分子序列分析软件包,最早是在美国的威斯康辛大学麦迪逊校区(UniversityofWisconsin-Madison)内发展起来的,后来独立成为一个商业公司,期间曾经是OxfordMolecular的分支机构,在2000年又由Pharmacopeia所并构。第三十五页,共六十三页,编辑于2023年,星期五

GCG软件包包括了超过130个独立的序列分析程序,大致上可以分成以下12个类别:

1.SequenceComparison2.DatabaseSearchingandRetrieval3.DNA/RNASecondaryStructurePrediction4.EditingandPublication5.EvolutionaryAnalysis6.FragmentAssembly7.GeneFindingandPatternRecognition8.ImportingandExporting9.Mapping10.PrimerSelection11.ProteinAnalysis12.Translation第三十六页,共六十三页,编辑于2023年,星期五

除了分析程序以外,GCG同时也提供多种生物学数据库。 核酸相关的: GenBank(/)EMBL(http://www.ebi.ac.uk/)

蛋白质相关的:

SWISS-PROT(http://www.expasy.ch/sprot/)PIR(/pir/)SP-TrEMBL(http://www.expasy.ch/sprot/)

使用者可以输入自己实验获得的分子序列,或者从这些数据库中来获取得到分子序列,再用到GCG的分析程序进行分析。第三十七页,共六十三页,编辑于2023年,星期五

GCG的工作方式(S-C)

安装在基于Unix系统的服务器上,目前可以安装的平台(platform)有SGI的IRIX操作系统,SUN的Solaris操作系统,及Compaq的Tru64操作系统,用户可以通过网络连接的方法来使用GCG提供的分析程序以及数据库。第三十八页,共六十三页,编辑于2023年,星期五1.传统的命令行形式,这种情况要求用户熟悉程序的命令。2.借助SeqLab的用户窗口界面,通过各类表单的操作来实现分析任务。以上两个执行GCG的方法都是通过telnet来实现的。3.借助于WWW服务的SeqWeb,是最为简单和方便的使用方式。

虽然命令行的操作需要一些操作,但是对于熟悉GCG的用户来说,却是最为快捷和有效的方法,此外这种方法还可以扩展到批处理中。执行GCG程序的方法第三十九页,共六十三页,编辑于2023年,星期五EMBOSS(免费软件)

EMBOSS(EuropeanMolecularBiologyOpenSoftwareSuite)源于1988年的EGCG(主流商业软件GCG的扩展),由于版权等原因,EGCG不再发行,开发人员在此基础上开发出来公开源代码的EMBOSS软件包。http://www.sanger.ac.uk/Software/EMBOSS

第四十页,共六十三页,编辑于2023年,星期五VectorNTI

由Informax公司(现在已经归入Invitrogen公司旗下)开发的一种高度集成、功能齐全的分子生物学应用软件,可以对DNA、蛋白质分子进行大量分析和操作。第四十一页,共六十三页,编辑于2023年,星期五主要功能:1.DNA序列的ORF、Motif、功能区搜索,限制酶图谱,蛋白质翻译。2.PCR引物、测序引物、杂交探针的设计和评价。3.DNA测序片断的拼接4.同源比较和系统发育树构建5.蛋白质结构预测:三维结构、化学键、翻译后修饰位点、结构域等6.模拟电泳:琼脂糖、PAGE第四十二页,共六十三页,编辑于2023年,星期五DNAstar

DNASTAR有限公司开发了Lasergen程序组,可在计算机上进行DNA和蛋白分析。它们是易于使用且对用户友好的软件,可进行分子生物学中的小规模序列分析和多序列比较。Lasergen有PCWindows和Macintosh两种版本。Lasergen的一个主要功能是它有针对不同应用的7种程序。用户可根据自己需要选择购买。第四十三页,共六十三页,编辑于2023年,星期五主要功能:

1.Editseq,可以从键盘、数据库或数字序列输入和编辑。

2.PrimerSelect,PCR引物和探针设计。

3.MapDraw,限制性位点分析和图谱绘制。

4.MegAlign,多个和成对蛋白或DNA序列比对。

5.GeneMan,生物数据库和数据库检索。

6.Protean,蛋白结构分析。

7.SeqMan,序列装配和毗连(序列)群管理。第四十四页,共六十三页,编辑于2023年,星期五Bioedit 是一个性能优良的免费的分子生物学应用软件,可以对核酸序列和蛋白质序列进行常规的分析操作,并提供了很多网络程序的分析界面和接口。

/BioEdit/bioedit.html第四十五页,共六十三页,编辑于2023年,星期五2.快速同源性数据库搜索工具BlastFastaHMMer第四十六页,共六十三页,编辑于2023年,星期五HMMER

HMMer是一个采用隐马可夫模型HMMs(HiddenMarkovModels)来识别不同基因之间的结构相似性程度的工具。可以快速的在数据库中寻找与特定基因具有一定相似性的基因结构。/

第四十七页,共六十三页,编辑于2023年,星期五3.多序列比对工具Clustal

基于渐进算法的多序列比对优化算法,由HigginsD.G.等开发。Clustlw,clustalx等。其他:T_coffee第四十八页,共六十三页,编辑于2023年,星期五PHYLIPPAUP*其他:Mega2,MrBayes,tree-puzzlePAML,treeview4.分子进化分析工具第四十九页,共六十三页,编辑于2023年,星期五PHYLIP

Phylip是一个免费的系统发生(phylogenetics)分析软件包。由华盛顿大学遗传学系开发,1980年首次公布,目前的版本是3.6。包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。

Phylip有多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。http://evolution.genetics,/phylip.html第五十页,共六十三页,编辑于2023年,星期五PAUP* 最早是在苹果机上开发的具有菜单界面的进化分析软件,早先版本只有MP法,后续版本已经包括距离法和ML法,现今有mac,win,linux等多种版本,该软件不是免费软件,使用者需要向开发者购买。第五十一页,共六十三页,编辑于2023年,星期五5.其他工具模式识别:Meme,signalscan,

domainFinder等测序分析与序列拼接:Chromas, Phred+Phrap+cross_match+consed, contigExpress等引物设计:Oligo,Primer3,

PrimerPremier5.0等三维分子:PDBviewer,CN3D,RASMOL等第五十二页,共六十三页,编辑于2023年,星期五序列分析工具的网络资源生物软件网NCBIExpasy//

第五十三页,共六十三页,编辑于2023年,星期五生物软件网由华北制药集团的谈杰创建,是一个具有丰富生物信息学资源的站点,提供了大量的生物信息学分析软件下载。第五十四页,共六十三页,编辑于2023年,星期五NCBI美国国立生物技术信息中心(NCBI)成立于1988年11月4日。是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。主要资源包括:数据库和软件,以及相关的教育 和培训资源第五十五页,共六十三页,编辑于2023年,星期五Expasy由位于瑞士日内瓦的SwissInstituteofBioinformatics所建立的,是全世界最重要的蛋白质数据库之一,也是GCG最主要的蛋白质序列来源。

Expasy的主要有蛋白质序列、结构、2-DPAGE(Two-dimentionalpolyacrylamidegelelectrophoresis)等多个数据库,还有大量的蛋白质序列与结构分析工具以及FTP资源等。蛋白质分析工具主要有蛋白质的功能预测,序列搜索与比对,二级、三级和四级结构的预测等等。

/第五十六页,共六十三页,编辑于2023年,星期五操作系统Unix(Linux),Windows,Macintosh编程语言:perl,C,php,VB算法:动态规划,启发式,各类模型数据结构:表,栈,树,图数据库Mysql,Oracle,SQLserver,Sybase网络局域网构架与管理,并行化,网络应用(http,ftp,telnet)计算机相关知识第五十七页,共六十三页,编辑于2023年,星期五Lin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论