多序列比对与Clustal的使用.ppt_第1页
多序列比对与Clustal的使用.ppt_第2页
多序列比对与Clustal的使用.ppt_第3页
多序列比对与Clustal的使用.ppt_第4页
多序列比对与Clustal的使用.ppt_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多序列比对与Clustal的使用 以及各类常见的序列分析工具介绍 中山大学生科院2004年10月 内容提要 第一部分 多序列比对意义 方法 算法Clustal的使用1 Clustalx2 Clustalw第二部分 常见的序列分析软件分类简介 第一部分 多序列比对及Clustal的使用 序列相似性比较和序列同源性分析 序列相似性比较 就是将待研究序列与DNA或蛋白质序列库进行比较 用于确定该序列的生物属性 也就是找出与此序列相似的已知序列是什么 完成这一工作只需要使用两两序列比较算法 常用的程序包有BLAST FASTA等 序列同源性分析 是将待研究序列加入到一组与之同源 但来自不同物种的序列中进行多序列同时比较 以确定该序列与其它序列间的同源性大小 这是理论分析方法中最关键的一步 完成这一工作必须使用多序列比较算法 常用的程序包有CLUSTAL等 多序列比对的意义 用于描述一组序列之间的相似性关系 以便了解一个基因家族的基本特征 寻找motif 保守区域等 用于描述一个同源基因之间的亲缘关系的远近 应用到分子进化分析中 其他应用 如构建profile 打分矩阵等 同源性分析中常常要通过多序列比对来找出序列之间的相互关系 和blast的局部匹配搜索不同 多序列比对大多都是采用全局比对的算法 这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程 特别是序列数目多 且序列长的情况下 多序列比对的方法 多序列比对的方法 基本上多序列比对可以分为1 手工比对 辅助编辑软件如bioedit seaview Genedoc等 通过辅助软件的不同颜色显示不同残基 靠分析者的观察来改变比对的状态 2 计算机程序自动比对通过特定的算法 如同步法 渐进法等 由计算机程序自动搜索最佳的多序列比对状态 自动多序列比对的算法 1 同步法将序列两两比对时的二维动态规划矩阵扩展到三维矩阵 即用矩阵的维数来反映比对的序列数目 这种方法的计算量很大 对于计算机系统的资源要求比较高 一般只有在进行少数的较短的序列的比对的时候才会用到这个方法 自动多序列比对的算法 2 步进法最常见的就是clustal所采用的方法 其基本思想就是基于相似序列通常具有进化相关性的这一假设 Clustal的渐进比对过程 在比对过程中 先对所有的序列进行两两比对并计算它们相似性分值 然后根据相似性分值将它们分成若干组 并在每组之间进行比对 计算相似性分值 根据相似性分值继续分组比对 直到得到最终比对结果 在比对过程中 相似性程度较高的序列先进行比对而距离较远的序列添加在后面 多序列比对工具 clustal Clustal是一个单机版的基于渐进比对的多序列比对工具 由HigginsD G 等开发 有应用于多种操作系统平台的版本 包括linux版 DOS版的clustlw clustalx等 Clustal简介 CLUSTAL是一种渐进的比对方法 先将多个序列两两比对构建距离矩阵 反应序列之间两两关系 然后根据距离矩阵计算产生系统进化指导树 对关系密切的序列进行加权 然后从最紧密的两条序列开始 逐步引入临近的序列并不断重新构建比对 直到所有序列都被加入为止 Clustalx的工作界面 多序列比对模式 Clustalx的工作界面 剖面 profile 比对模式 Clustal的工作原理 Clustal输入多个序列 快速的序列两两比对 计算序列间的距离 获得一个距离矩阵 邻接法 NJ 构建一个树 引导树 根据引导树 渐进比对多个序列 Clustal的应用 1 输入输出格式 输入序列的格式比较灵活 可以是前面介绍过的FASTA格式 还可以是PIR SWISS PROT GDE Clustal GCG MSF RSF等格式 输出格式也可以选择 有ALN GCG PHYLIP和NEXUS等 用户可以根据自己的需要选择合适的输出格式 2 两种工作模式 a 多序列比对模式 b 剖面 profile 比对模式 3 一个实际的例子 Clustal的应用 多序列比对实例 输入文件的格式 fasta KCC2 YEASTNYIFGRTLGAGSFGVVRQARKLSTN DMK HUMANDFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK KPRO MAIZETRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN DAF1 CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD 1CSNHYKVGRRIGEGSFGVIFEGTNLLNN 第一步 输入序列文件 第二步 设定比对的一些参数 参数设定窗口 第三步 开始序列比对 第四步 比对完成 选择保存结果文件的格式 Clustalw的使用 一 Clustalw还提供了命令调用形式的使用方式 方便于批处理过程 下面是一个典型的执行多序列比对的clustalw命令 clustalw infile dna fa type dna gapopen 10 gapext 2 output gcg outfile align gcg align Clustalw的使用 二 在线的clustalw分析 EBI提供的在线clustalw服务http www ebi ac uk clustalw EBI提供的在线Clustalw服务 更为详细的教程 可以在这里得到更多关于clustal的帮助 http www igbmc u strasbg fr BioInfo ClustalX Top html 实际操作 练习 使用clustalx程序 对给定的多序列 选择合适的参数 进行多序列比对 输出结果文件维phylip格式 相同的文件 使用ebi和我们提供的在线服务 进行多序列比对 对上述计算机程序比对的结果进行手工改动 bioedit seaview 使得多序列比对结果跟符合要求 SIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAISAAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVC TIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIAAAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC WIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWTELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVNAASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ CzIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWPELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVTAAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL CIVMSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASISRAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFTTPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQFHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQTAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHHTTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTASPAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL 练习序列 第二部分 常见的序列分析软件分类简介 GCGEMBOSS 免费 VectorNTIDNAstarBioedit 免费 其他 1 综合序列分析软件包 GCG 商业软件 GCG GeneticsComputerGroup 是生物信息界最广为人知的分子序列分析软件包 最早是在美国的威斯康辛大学麦迪逊校区 UniversityofWisconsin Madison 内发展起来的 后来独立成为一个商业公司 期间曾经是OxfordMolecular的分支机构 在2000年又由Pharmacopeia所并构 GCG软件包包括了超过130个独立的序列分析程序 大致上可以分成以下12个类别 1 SequenceComparison2 DatabaseSearchingandRetrieval3 DNA RNASecondaryStructurePrediction4 EditingandPublication5 EvolutionaryAnalysis6 FragmentAssembly7 GeneFindingandPatternRecognition8 ImportingandExporting9 Mapping10 PrimerSelection11 ProteinAnalysis12 Translation 除了分析程序以外 GCG同时也提供多种生物学数据库 核酸相关的 GenBank http www ncbi nlm nih gov EMBL http www ebi ac uk 蛋白质相关的 SWISS PROT http www expasy ch sprot PIR http www nbrf georgetown edu pir SP TrEMBL http www expasy ch sprot 使用者可以输入自己实验获得的分子序列 或者从这些数据库中来获取得到分子序列 再用到GCG的分析程序进行分析 GCG的工作方式 S C 安装在基于Unix系统的服务器上 目前可以安装的平台 platform 有SGI的IRIX操作系统 SUN的Solaris操作系统 及Compaq的Tru64操作系统 用户可以通过网络连接的方法来使用GCG提供的分析程序以及数据库 1 传统的命令行形式 这种情况要求用户熟悉程序的命令 2 借助SeqLab的用户窗口界面 通过各类表单的操作来实现分析任务 以上两个执行GCG的方法都是通过telnet来实现的 3 借助于WWW服务的SeqWeb 是最为简单和方便的使用方式 虽然命令行的操作需要一些操作 但是对于熟悉GCG的用户来说 却是最为快捷和有效的方法 此外这种方法还可以扩展到批处理中 执行GCG程序的方法 EMBOSS 免费软件 EMBOSS EuropeanMolecularBiologyOpenSoftwareSuite 源于1988年的EGCG 主流商业软件GCG的扩展 由于版权等原因 EGCG不再发行 开发人员在此基础上开发出来公开源代码的EMBOSS软件包 http www sanger ac uk Software EMBOSS VectorNTI 由Informax公司 现在已经归入Invitrogen公司旗下 开发的一种高度集成 功能齐全的分子生物学应用软件 可以对DNA 蛋白质分子进行大量分析和操作 主要功能 1 DNA序列的ORF Motif 功能区搜索 限制酶图谱 蛋白质翻译 2 PCR引物 测序引物 杂交探针的设计和评价 3 DNA测序片断的拼接4 同源比较和系统发育树构建5 蛋白质结构预测 三维结构 化学键 翻译后修饰位点 结构域等6 模拟电泳 琼脂糖 PAGE DNAstar DNASTAR有限公司开发了Lasergen程序组 可在计算机上进行DNA和蛋白分析 它们是易于使用且对用户友好的软件 可进行分子生物学中的小规模序列分析和多序列比较 Lasergen有PCWindows和Macintosh两种版本 Lasergen的一个主要功能是它有针对不同应用的7种程序 用户可根据自己需要选择购买 主要功能 1 Editseq 可以从键盘 数据库或数字序列输入和编辑 2 PrimerSelect PCR引物和探针设计 3 MapDraw 限制性位点分析和图谱绘制 4 MegAlign 多个和成对蛋白或DNA序列比对 5 GeneMan 生物数据库和数据库检索 6 Protean 蛋白结构分析 7 SeqMan 序列装配和毗连 序列 群管理 Bioedit 是一个性能优良的免费的分子生物学应用软件 可以对核酸序列和蛋白质序列进行常规的分析操作 并提供了很多网络程序的分析界面和接口 http www mbio ncsu edu BioEdit bioedit html 2 快速同源性数据库搜索工具 BlastFastaHMMer HMMER HMMer是一个采用隐马可夫模型HMMs HiddenMarkovModels 来识别不同基因之间的结构相似性程度的工具 可以快速的在数据库中寻找与特定基因具有一定相似性的基因结构 http hmmer wustl edu 3 多序列比对工具 Clustal基于渐进算法的多序列比对优化算法 由HigginsD G 等开发 Clustlw clustalx等 其他 T coffee PHYLIPPAUP 其他 Mega2 MrBayes tree puzzlePAML treeview 4 分子进化分析工具 PHYLIP Phylip是一个免费的系统发生 phylogenetics 分析软件包 由华盛顿大学遗传学系开发 1980年首次公布 目前的版本是3 6 包含了35个独立的程序 这些独立的程序都实现特定的功能 这些程序基本上包括了系统发生分析的所有方面 Phylip有多种不同平台的版本 包括windows Macintosh DOS Linux Unix和OpenVMX http evolution genetics washington edu phylip html PAUP 最早是在苹果机上开发的具有菜单界面的进化分析软件 早先版本只有MP法 后续版本已经包括距离法和ML法 现今有mac win linux等多种版本 该软件不是免费软件 使用者需要向开发者购买 5 其他工具 模式识别 Meme signalscan domainFinder等测序分析与序列拼接 Chromas Phred Phrap cross match consed contigExpress等引物设计 Oligo Primer3 PrimerPremier5 0等三维分子 PDBviewer CN3D RASMOL等 序列分析工具的网络资源 生物软件网http www bio NCBIhttp www ncbi nlm nih govExpasyhttp www expasy org 生物软件网 由华北制药集团的谈杰创建 是一个具有丰富生物信息学资源的站点 提供了大量的生物信息学分析软件下载 http www bio NCBI 美国国立生物技术信息中心 NCBI 成立于1988年11月4日 是在NIH的国立医学图书馆 NLM 的一个分支 NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的 而且这可以建立一个内部的关于计算分子生物学的研究计划 NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解 主要资源包括 数据库和软件 以及相关的教育和培训资源 http www ncbi nlm nih gov Expasy 由位于瑞士日内瓦的SwissInstituteofBioinformatics所建立的 是全世界最重要的蛋白质数据库之一 也是GCG最主要的蛋白质序列来源 Expasy的主要有蛋白质序列 结构 2 DPAGE Two dimentionalpolyacrylamidegelelectrophoresis 等多个数据库 还有大量的蛋白质序列与结构分析工具以及FTP资源等 蛋白质分析工具主要有蛋白质的功能预测 序列搜索与比对 二级 三级和四级结构的预测等等 http www expasy org 操作系统Unix Linux Windows Macintosh编程语言 perl C php VB算法 动态规划 启发式 各类模型数据结构 表 栈 树 图数据库Mysql Oracle SQLserver Sybase网络局域网构架与管理 并行化 网络应用 http ftp telnet 计算机相关知识

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论