多序列比对与Clustal的使用以及各类常见的序列分析工具介绍.ppt_第1页
多序列比对与Clustal的使用以及各类常见的序列分析工具介绍.ppt_第2页
多序列比对与Clustal的使用以及各类常见的序列分析工具介绍.ppt_第3页
多序列比对与Clustal的使用以及各类常见的序列分析工具介绍.ppt_第4页
多序列比对与Clustal的使用以及各类常见的序列分析工具介绍.ppt_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多序列比对与Clustal的使用,以及各类常见的序列分析工具介绍,中山大学生科院 2004年10月,内容提要,第一部分:多序列比对 意义、方法、算法 Clustal的使用 1.Clustalx 2.Clustalw 第二部分:常见的序列分析软件分类简介,第一部分: 多序列比对及Clustal的使用,序列相似性比较和序列同源性分析,序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等; 序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;,多序列比对的意义,用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。 用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。 其他应用,如构建profile,打分矩阵等。,同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下。,多序列比对的方法,多序列比对的方法,基本上多序列比对可以分为 1.手工比对(辅助编辑软件如bioedit,seaview,Genedoc等) 通过辅助软件的不同颜色显示不同残基,靠分析者的观察来改变比对的状态。 2.计算机程序自动比对 通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序列比对状态。,自动多序列比对的算法,1.同步法 将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。,自动多序列比对的算法,2.步进法 最常见的就是clustal所采用的方法。 其基本思想就是基于相似序列通常具有进化相关性的这一假设。,Clustal的渐进比对过程,在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值。根据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。,多序列比对工具 clustal,Clustal是一个单机版的基于渐进比对的多序列比对工具,由Higgins D.G. 等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlw,clustalx等。,Clustal简介,CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。,Clustalx的工作界面 (多序列比对模式),Clustalx的工作界面 (剖面(profile)比对模式),Clustal的工作原理,Clustal输入多个序列,快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。,邻接法(NJ)构建一个树(引导树),根据引导树,渐进比对多个序列。,Clustal的应用,1.输入输出格式。 输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。 输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。,2.两种工作模式。 a.多序列比对模式。 b.剖面(profile)比对模式。 3.一个实际的例子。,Clustal的应用,多序列比对实例,输入文件的格式(fasta): KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK. KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD 1CSN HYKVGRRIGEGSFGVIFEGTNLLNN,第一步:输入序列文件。,第二步:设定比对的一些参数。,参数设定窗口。,第三步:开始序列比对。,第四步:比对完成,选择保存结果文件的格式,Clustalw的使用(一),Clustalw还提供了命令调用形式的使用方式,方便于批处理过程,下面是一个典型的执行多序列比对的clustalw命令: $ ./clustalw infile=dna.fa type=dna gapopen=10 gapext=2 output=gcg outfile=align.gcg -align,Clustalw的使用(二),在线的clustalw分析,EBI提供的在线clustalw服务 http:/www.ebi.ac.uk/clustalw/,EBI提供 的在线 Clustalw 服务,更为详细的教程,可以在这里得到更多关于clustal的帮助: http:/www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html,实际操作(练习),使用clustalx程序,对给定的多序列,选择合适的参数,进行多序列比对,输出结果文件维phylip格式。 相同的文件,使用ebi和我们提供的在线服务,进行多序列比对。 对上述计算机程序比对的结果进行手工改动(bioedit,seaview),使得多序列比对结果跟符合要求。,SIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW HELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAIS AAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVC TIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW HELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIA AAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC WIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW TELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVN AASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ CzIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW PELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVT AAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL CIV MSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASIS RAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFT TPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQ FHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQ TAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHH TTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTAS PAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL,练习序列,第二部分: 常见的序列分析软件分类简介,GCG EMBOSS(免费) Vector NTI DNAstar Bioedit(免费) 其他,1.综合序列分析软件包,GCG(商业软件),GCG (Genetics Computer Group)是生物信息界最广为人知的分子序列分析软件包,最早是在美国的威斯康辛大学麦迪逊校区(University of Wisconsin-Madison)内发展起来的,后来独立成为一个商业公司,期间曾经是Oxford Molecular 的分支机构,在2000 年又由Pharmacopeia 所并构。,GCG 软件包包括了超过130个独立的序列分析程序,大致上可以分成以下12个类别: 1. Sequence Comparison 2. Database Searching and Retrieval 3.DNA/RNA Secondary Structure Prediction 4.Editing and Publication 5.Evolutionary Analysis 6.Fragment Assembly 7.Gene Finding and Pattern Recognition 8.Importing and Exporting 9.Mapping 10.Primer Selection 11.Protein Analysis 12.Translation,除了分析程序以外, GCG 同时也提供多种生物学数据库。 核酸相关的: GenBank(/ ) EMBL (http:/www.ebi.ac.uk/) 蛋白质相关的: SWISS-PROT (http:/www.expasy.ch/sprot/) PIR (/pir/) SP-TrEMBL (http:/www.expasy.ch/sprot/ ) 使用者可以输入自己实验获得的分子序列, 或者从这些数据库中来获取得到分子序列,再用到GCG的分析程序进行分析。,GCG的工作方式(S-C) 安装在基于Unix系统的服务器上,目前可以安装的平台(platform)有SGI 的IRIX 操作系统,SUN 的Solaris操作系统,及Compaq 的Tru64操作系统,用户可以通过网络连接的方法来使用GCG提供的分析程序以及数据库。,1.传统的命令行形式,这种情况要求用户熟悉程序的命令。 2.借助SeqLab的用户窗口界面,通过各类表单的操作来实现分析任务。 以上两个执行GCG的方法都是通过telnet来实现的。 3. 借助于WWW服务的SeqWeb,是最为简单和方便的使用方式。 虽然命令行的操作需要一些操作,但是对于熟悉GCG的用户来说,却是最为快捷和有效的方法,此外这种方法还可以扩展到批处理中。,执行GCG程序的方法,EMBOSS(免费软件),EMBOSS(European Molecular Biology Open Software Suite)源于1988年的EGCG(主流商业软件GCG的扩展),由于版权等原因,EGCG不再发行,开发人员在此基础上开发出来公开源代码的EMBOSS软件包。 http:/www.sanger.ac.uk/Software/EMBOSS,Vector NTI,由Informax公司(现在已经归入Invitrogen公司旗下)开发的一种高度集成、功能齐全的分子生物学应用软件,可以对DNA、蛋白质分子进行大量分析和操作。,主要功能: 1.DNA序列的ORF、Motif、功能区搜索,限制酶图谱,蛋白质翻译。 2.PCR引物、测序引物、杂交探针的设计和评价。 3.DNA测序片断的拼接 4.同源比较和系统发育树构建 5.蛋白质结构预测:三维结构、化学键、翻译后修饰位点、结构域等 6.模拟电泳:琼脂糖、PAGE,DNAstar,DNASTAR有限公司开发了Lasergen程序组,可在计算机上进行DNA和蛋白分析。它们是易于使用且对用户友好的软件,可进行分子生物学中的小规模序列分析和多序列比较。Lasergen有PC Windows和Macintosh两种版本。Lasergen的一个主要功能是它有针对不同应用的7种程序。用户可根据自己需要选择购买。,主要功能: 1. Editseq,可以从键盘、数据库或数字序列输入和编辑。 2. PrimerSelect,PCR引物和探针设计。 3. MapDraw,限制性位点分析和图谱绘制。 4. MegAlign,多个和成对蛋白或DNA序列比对。 5. GeneMan,生物数据库和数据库检索。 6. Protean,蛋白结构分析。 7. SeqMan,序列装配和毗连(序列)群管理。,Bioedit,是一个性能优良的免费的分子生物学应用软件,可以对核酸序列和蛋白质序列进行常规的分析操作,并提供了很多网络程序的分析界面和接口。 /BioEdit/bioedit.html,2.快速同源性数据库搜索工具,Blast Fasta HMMer,HMMER,HMMer 是一个采用隐马可夫模型 HMMs(Hidden Markov Models)来识别不同基因之间的结构相似性程度的工具。可以快速的在数据库中寻找与特定基因具有一定相似性的基因结构。 /,3.多序列比对工具,Clustal 基于渐进算法的多序列比对优化算法,由Higgins D.G. 等开发。Clustlw,clustalx等。 其他:T_coffee,PHYLIP PAUP* 其他:Mega2,MrBayes,tree-puzzle PAML,treeview,4.分子进化分析工具,PHYLIP,Phylip是一个免费的系统发生(phylogenetics)分析软件包。 由华盛顿大学遗传学系开发,1980年首次公布,目前的版本是3.6。包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。 Phylip有多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。 http:/evolution.genetics,/phylip.html,PAUP*,最早是在苹果机上开发的具有菜单界面的进化分析软件,早先版本只有MP法,后续版本已经包括距离法和ML法,现今有mac,win,linux等多种版本,该软件不是免费软件,使用者需要向开发者购买。,5.其他工具,模式识别:Meme,signalscan, domainFinder等 测序分析与序列拼接:Chromas, Phred+Phrap+cross_match+consed, contigExpress等 引物设计:Oligo,Primer3, Primer Premier5.0等 三维分子:PDBviewer,CN3D,RASMOL等,序列分析工具的网络资源,生物软件网 NCBI Expasy /,生物软件网,由华北制药集团的谈杰创建,是一个具有丰富生物信息学资源的站点,提供了大量的生物信息学分析软件下载。 ,NCBI,美国国立生物技术信息中心(NCBI) 成立于1988年11月4日。是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。 主要资源包括:数据库和软件,以及相关的教育 和培训资源,,Expasy,由位于瑞士日内瓦的 Swiss Institute of Bioinformatics 所建立的,是全世界最重要的蛋白质数据库之一 ,也是 GCG 最主要的蛋白质序列来源。 Expasy的主 要 有蛋白质序列、结构、2-D PAGE (Two-dimentional polyacrylamide gel electrophoresis ) 等多个数据库 ,还有大量的蛋白质序列与结构分析工具以及FTP资源等。 蛋白质分析工具主要有蛋白质的功能预测,序列搜索与比对,二级、三级和四级结构的预测等等。 /,操作系统 Unix(Linux),Windows, Macintosh 编程 语言:perl,C,php,VB 算法:动态规划,启发式,各类模型 数据结构:表,栈,树,图 数据库 Mysql,Oracle,SQL server,Sybase 网络 局域网构架与管理,并行化,网络应用(http,ftp,telnet),计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论