多序列比对与Clustal的使用.ppt

上传人：j*** IP属地：河南上传时间：2020-02-15 格式：PPT 页数：63 大小：880.50KB 积分：20 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多序列比对与Clustal的使用以及各类常见的序列分析工具介绍中山大学生科院2004年10月内容提要第一部分多序列比对意义方法算法Clustal的使用1 Clustalx2 Clustalw第二部分常见的序列分析软件分类简介第一部分多序列比对及Clustal的使用序列相似性比较和序列同源性分析序列相似性比较就是将待研究序列与DNA或蛋白质序列库进行比较用于确定该序列的生物属性也就是找出与此序列相似的已知序列是什么完成这一工作只需要使用两两序列比较算法常用的程序包有BLAST FASTA等序列同源性分析是将待研究序列加入到一组与之同源但来自不同物种的序列中进行多序列同时比较以确定该序列与其它序列间的同源性大小这是理论分析方法中最关键的一步完成这一工作必须使用多序列比较算法常用的程序包有CLUSTAL等多序列比对的意义用于描述一组序列之间的相似性关系以便了解一个基因家族的基本特征寻找motif 保守区域等用于描述一个同源基因之间的亲缘关系的远近应用到分子进化分析中其他应用如构建profile 打分矩阵等同源性分析中常常要通过多序列比对来找出序列之间的相互关系和blast的局部匹配搜索不同多序列比对大多都是采用全局比对的算法这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程特别是序列数目多且序列长的情况下多序列比对的方法多序列比对的方法基本上多序列比对可以分为1 手工比对辅助编辑软件如bioedit seaview Genedoc等通过辅助软件的不同颜色显示不同残基靠分析者的观察来改变比对的状态 2 计算机程序自动比对通过特定的算法如同步法渐进法等由计算机程序自动搜索最佳的多序列比对状态自动多序列比对的算法 1 同步法将序列两两比对时的二维动态规划矩阵扩展到三维矩阵即用矩阵的维数来反映比对的序列数目这种方法的计算量很大对于计算机系统的资源要求比较高一般只有在进行少数的较短的序列的比对的时候才会用到这个方法自动多序列比对的算法 2 步进法最常见的就是clustal所采用的方法其基本思想就是基于相似序列通常具有进化相关性的这一假设 Clustal的渐进比对过程在比对过程中先对所有的序列进行两两比对并计算它们相似性分值然后根据相似性分值将它们分成若干组并在每组之间进行比对计算相似性分值根据相似性分值继续分组比对直到得到最终比对结果在比对过程中相似性程度较高的序列先进行比对而距离较远的序列添加在后面多序列比对工具 clustal Clustal是一个单机版的基于渐进比对的多序列比对工具由HigginsD G 等开发有应用于多种操作系统平台的版本包括linux版 DOS版的clustlw clustalx等 Clustal简介 CLUSTAL是一种渐进的比对方法先将多个序列两两比对构建距离矩阵反应序列之间两两关系然后根据距离矩阵计算产生系统进化指导树对关系密切的序列进行加权然后从最紧密的两条序列开始逐步引入临近的序列并不断重新构建比对直到所有序列都被加入为止 Clustalx的工作界面多序列比对模式 Clustalx的工作界面剖面 profile 比对模式 Clustal的工作原理 Clustal输入多个序列快速的序列两两比对计算序列间的距离获得一个距离矩阵邻接法 NJ 构建一个树引导树根据引导树渐进比对多个序列 Clustal的应用 1 输入输出格式输入序列的格式比较灵活可以是前面介绍过的FASTA格式还可以是PIR SWISS PROT GDE Clustal GCG MSF RSF等格式输出格式也可以选择有ALN GCG PHYLIP和NEXUS等用户可以根据自己的需要选择合适的输出格式 2 两种工作模式 a 多序列比对模式 b 剖面 profile 比对模式 3 一个实际的例子 Clustal的应用多序列比对实例输入文件的格式 fasta KCC2 YEASTNYIFGRTLGAGSFGVVRQARKLSTN DMK HUMANDFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK KPRO MAIZETRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN DAF1 CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD 1CSNHYKVGRRIGEGSFGVIFEGTNLLNN 第一步输入序列文件第二步设定比对的一些参数参数设定窗口第三步开始序列比对第四步比对完成选择保存结果文件的格式 Clustalw的使用一 Clustalw还提供了命令调用形式的使用方式方便于批处理过程下面是一个典型的执行多序列比对的clustalw命令 clustalw infile dna fa type dna gapopen 10 gapext 2 output gcg outfile align gcg align Clustalw的使用二在线的clustalw分析 EBI提供的在线clustalw服务http www ebi ac uk clustalw EBI提供的在线Clustalw服务更为详细的教程可以在这里得到更多关于clustal的帮助 http www igbmc u strasbg fr BioInfo ClustalX Top html 实际操作练习使用clustalx程序对给定的多序列选择合适的参数进行多序列比对输出结果文件维phylip格式相同的文件使用ebi和我们提供的在线服务进行多序列比对对上述计算机程序比对的结果进行手工改动 bioedit seaview 使得多序列比对结果跟符合要求 SIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAISAAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVC TIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIAAAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC WIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWTELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVNAASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ CzIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWPELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVTAAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL CIVMSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASISRAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFTTPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQFHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQTAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHHTTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTASPAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL 练习序列第二部分常见的序列分析软件分类简介 GCGEMBOSS 免费 VectorNTIDNAstarBioedit 免费其他 1 综合序列分析软件包 GCG 商业软件 GCG GeneticsComputerGroup 是生物信息界最广为人知的分子序列分析软件包最早是在美国的威斯康辛大学麦迪逊校区 UniversityofWisconsin Madison 内发展起来的后来独立成为一个商业公司期间曾经是OxfordMolecular的分支机构在2000年又由Pharmacopeia所并构 GCG软件包包括了超过130个独立的序列分析程序大致上可以分成以下12个类别 1 SequenceComparison2 DatabaseSearchingandRetrieval3 DNA RNASecondaryStructurePrediction4 EditingandPublication5 EvolutionaryAnalysis6 FragmentAssembly7 GeneFindingandPatternRecognition8 ImportingandExporting9 Mapping10 PrimerSelection11 ProteinAnalysis12 Translation 除了分析程序以外 GCG同时也提供多种生物学数据库核酸相关的 GenBank http www ncbi nlm nih gov EMBL http www ebi ac uk 蛋白质相关的 SWISS PROT http www expasy ch sprot PIR http www nbrf georgetown edu pir SP TrEMBL http www expasy ch sprot 使用者可以输入自己实验获得的分子序列或者从这些数据库中来获取得到分子序列再用到GCG的分析程序进行分析 GCG的工作方式 S C 安装在基于Unix系统的服务器上目前可以安装的平台 platform 有SGI的IRIX操作系统 SUN的Solaris操作系统及Compaq的Tru64操作系统用户可以通过网络连接的方法来使用GCG提供的分析程序以及数据库 1 传统的命令行形式这种情况要求用户熟悉程序的命令 2 借助SeqLab的用户窗口界面通过各类表单的操作来实现分析任务以上两个执行GCG的方法都是通过telnet来实现的 3 借助于WWW服务的SeqWeb 是最为简单和方便的使用方式虽然命令行的操作需要一些操作但是对于熟悉GCG的用户来说却是最为快捷和有效的方法此外这种方法还可以扩展到批处理中执行GCG程序的方法 EMBOSS 免费软件 EMBOSS EuropeanMolecularBiologyOpenSoftwareSuite 源于1988年的EGCG 主流商业软件GCG的扩展由于版权等原因 EGCG不再发行开发人员在此基础上开发出来公开源代码的EMBOSS软件包 http www sanger ac uk Software EMBOSS VectorNTI 由Informax公司现在已经归入Invitrogen公司旗下开发的一种高度集成功能齐全的分子生物学应用软件可以对DNA 蛋白质分子进行大量分析和操作主要功能 1 DNA序列的ORF Motif 功能区搜索限制酶图谱蛋白质翻译 2 PCR引物测序引物杂交探针的设计和评价 3 DNA测序片断的拼接4 同源比较和系统发育树构建5 蛋白质结构预测三维结构化学键翻译后修饰位点结构域等6 模拟电泳琼脂糖 PAGE DNAstar DNASTAR有限公司开发了Lasergen程序组可在计算机上进行DNA和蛋白分析它们是易于使用且对用户友好的软件可进行分子生物学中的小规模序列分析和多序列比较 Lasergen有PCWindows和Macintosh两种版本 Lasergen的一个主要功能是它有针对不同应用的7种程序用户可根据自己需要选择购买主要功能 1 Editseq 可以从键盘数据库或数字序列输入和编辑 2 PrimerSelect PCR引物和探针设计 3 MapDraw 限制性位点分析和图谱绘制 4 MegAlign 多个和成对蛋白或DNA序列比对 5 GeneMan 生物数据库和数据库检索 6 Protean 蛋白结构分析 7 SeqMan 序列装配和毗连序列群管理 Bioedit 是一个性能优良的免费的分子生物学应用软件可以对核酸序列和蛋白质序列进行常规的分析操作并提供了很多网络程序的分析界面和接口 http www mbio ncsu edu BioEdit bioedit html 2 快速同源性数据库搜索工具 BlastFastaHMMer HMMER HMMer是一个采用隐马可夫模型HMMs HiddenMarkovModels 来识别不同基因之间的结构相似性程度的工具可以快速的在数据库中寻找与特定基因具有一定相似性的基因结构 http hmmer wustl edu 3 多序列比对工具 Clustal基于渐进算法的多序列比对优化算法由HigginsD G 等开发 Clustlw clustalx等其他 T coffee PHYLIPPAUP 其他 Mega2 MrBayes tree puzzlePAML treeview 4 分子进化分析工具 PHYLIP Phylip是一个免费的系统发生 phylogenetics 分析软件包由华盛顿大学遗传学系开发 1980年首次公布目前的版本是3 6 包含了35个独立的程序这些独立的程序都实现特定的功能这些程序基本上包括了系统发生分析的所有方面 Phylip有多种不同平台的版本包括windows Macintosh DOS Linux Unix和OpenVMX http evolution genetics washington edu phylip html PAUP 最早是在苹果机上开发的具有菜单界面的进化分析软件早先版本只有MP法后续版本已经包括距离法和ML法现今有mac win linux等多种版本该软件不是免费软件使用者需要向开发者购买 5 其他工具模式识别 Meme signalscan domainFinder等测序分析与序列拼接 Chromas Phred Phrap cross match consed contigExpress等引物设计 Oligo Primer3 PrimerPremier5 0等三维分子 PDBviewer CN3D RASMOL等序列分析工具的网络资源生物软件网http www bio NCBIhttp www ncbi nlm nih govExpasyhttp www expasy org 生物软件网由华北制药集团的谈杰创建是一个具有丰富生物信息学资源的站点提供了大量的生物信息学分析软件下载 http www bio NCBI 美国国立生物技术信息中心 NCBI 成立于1988年11月4日是在NIH的国立医学图书馆 NLM 的一个分支 NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的而且这可以建立一个内部的关于计算分子生物学的研究计划 NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解主要资源包括数据库和软件以及相关的教育和培训资源 http www ncbi nlm nih gov Expasy 由位于瑞士日内瓦的SwissInstituteofBioinformatics所建立的是全世界最重要的蛋白质数据库之一也是GCG最主要的蛋白质序列来源 Expasy的主要有蛋白质序列结构 2 DPAGE Two dimentionalpolyacrylamidegelelectrophoresis 等多个数据库还有大量的蛋白质序列与结构分析工具以及FTP资源等蛋白质分析工具主要有蛋白质的功能预测序列搜索与比对二级三级和四级结构的预测等等 http www expasy org 操作系统Unix Linux Windows Macintosh编程语言 perl C php VB算法动态规划启发式各类模型数据结构表栈树图数据库Mysql Oracle SQLserver Sybase网络局域网构架与管理并行化网络应用 http ftp telnet 计算机相关知识

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多序列比对与Clustal的使用.ppt

文档简介

温馨提示

最新文档

评论

多序列比对与Clustal的使用.ppt

文档简介

温馨提示

最新文档

评论

相关文档