![[医学]第四章 bioedit多序列比较的实际应用.ppt_第1页](http://file.renrendoc.com/FileRoot1/2019-1/3/8c907ab7-5e8d-40ea-99fe-6efbbc8055d1/8c907ab7-5e8d-40ea-99fe-6efbbc8055d11.gif)
![[医学]第四章 bioedit多序列比较的实际应用.ppt_第2页](http://file.renrendoc.com/FileRoot1/2019-1/3/8c907ab7-5e8d-40ea-99fe-6efbbc8055d1/8c907ab7-5e8d-40ea-99fe-6efbbc8055d12.gif)
![[医学]第四章 bioedit多序列比较的实际应用.ppt_第3页](http://file.renrendoc.com/FileRoot1/2019-1/3/8c907ab7-5e8d-40ea-99fe-6efbbc8055d1/8c907ab7-5e8d-40ea-99fe-6efbbc8055d13.gif)
![[医学]第四章 bioedit多序列比较的实际应用.ppt_第4页](http://file.renrendoc.com/FileRoot1/2019-1/3/8c907ab7-5e8d-40ea-99fe-6efbbc8055d1/8c907ab7-5e8d-40ea-99fe-6efbbc8055d14.gif)
![[医学]第四章 bioedit多序列比较的实际应用.ppt_第5页](http://file.renrendoc.com/FileRoot1/2019-1/3/8c907ab7-5e8d-40ea-99fe-6efbbc8055d1/8c907ab7-5e8d-40ea-99fe-6efbbc8055d15.gif)
已阅读5页,还剩94页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章 多序列比较的实际应用 l多序列比较就是把两条以上可能有系统进化关 系的序列进行比较的方法。目前对多序列比较 的研究还在不断前进中,现有的大多数算法都 基于渐进比较的思想,在序列两两比较的基础 上逐步优化多序列比较的结果。进行多序列比 较后可以对比较结果进行进一步处理,尤其是 在寻找基因和致力于发现新蛋白的努力中,人 们习惯于把新的序列同已知功能的蛋白序列作 比较。 l由于这些比较通常都希望能够推测新蛋白的功能 ,不管它们是双重比较还是多序列比较,都可以 回答大量的其它的生物学问题。例如:在搜集的 比较序列中,可以看出隐含于蛋白之中的物种进 化关系,以便于更好地理解蛋白的进化。研究一 个家族中的相关蛋白的差异,分析进化压力和生 物秩序对于功能相关的蛋白进化影响。研究完多 序列比较中的高度保守区域,我们可以对蛋白质 的整个结构进行预测,并且猜测这些保守区域对 于维持三维结构的重要性。 l分析一群相关蛋白质时,很有必要了解 比较正确的构成。发展用于多序列比较 的程序是一个很有活力的研究领域,绝 大多数方法都是基于渐进比较( progressive alignment)的概念。渐进比 较的思想依赖于使用者用作比较的序列 之间确实存在的生物学上的或者更准确 地说是系统发生学上的相互关联。 与上一章的关系 l1、对数据库比较,比较结果未知; l2、比较后寻找到一组相似序列; l3、构建进化树 第一节渐进比较方法 l1. CLUSTAL W lCLUSTAL W算法是一个最广泛使用的多序列比 较程序,在任何主要的计算机平台上都可以免费 使用。这个程序基于渐进比较的思想,将得到的 一系列序列输入,对于每两个序列进行双重比较 并且计算结果。基于这些比较,计算得到一个距 离矩阵,反映了每对序列的关系,然后,基于邻 近加入方法,这个矩阵被用来计算出一个系统发 生辅助树。 l这个辅助树,加权后可以证实极相近的 序列,然后以双重比较极相近的序列开 始,为组建比较提供基础,重新比较下 一个加入的比较序列,依次类推。如果 加入的序列较多,那么毫无疑问,必须 加入空位以适应序列的差异,但是加入 空位必须接受空位开放罚分和空位扩展 罚分。 l在绝大多数情况下,使用者不会在比较 时加入结构信息,但是空位开放补偿利 用了可以出现在-螺旋或-折叠末端的特 殊残基以及空位罚分所偏好的残基。已 经存在的空位的扩展原则很简单,只是 要在那些极有可能在结构中形成弯曲的 位点扩展空位,这些空位扩展罚分计算 是由位置决定的。 l为了介绍CLUSTAL W的使用,考察一下 从四种不同物种来源的matrix metalloproteinase 9 preproprotein蛋白( Homo sapiens,Paralichthys olivaceus, Rattus norvegicus,Bos taurus)。将下列 蛋白序列放入一个独立的文件中。 lgi|14786152|ref|XP_029934.1| matrix metalloproteinase 9 preproprotein Homo sapiens lMSLWQPLVLVLLVLGCCFAAPRQRQSTLVLFPGDLRTNLTDRQLAEEYLYRYGYTRVAEMRGESKSLGPALLLLQKQLSLPETGELDSA TLKAMRTPRCGVPDLGRFQTFEGDLKWHHHNITYWIQNYSEDLPRAVIDDAFARAFALWSAVTPLTFTRVYSRDADIVIQFGVAEHGDG YPFDGKDGLLAHAFPPGPGIQGDAHFDDDELWSLGKGVVVPTRFGNADGAACHFPFIFEGRSYSACTTDGRSDGLPWCSTTANYDTD DRFGFCPSERLYTQDGNADGKPCQFPFIFQGQSYSACTTDGRSDGYRWCATTANYDRDKLFGFCPTRADSTVMGGNSAGELCVFPF TFLGKEYSTCTSEGRGDGRLWCATTSNFDSDKKWGFCPDQGYSLFLVAAHEFGHALGLDHSSVPEALMYPMYRFTEGPPLHKDDVN GIRHLYGPRPEPEPRPPTTTTPQPTAPPTVCPTGPPTVHPSERPTAGPTGPPSAGPTGPPTAGPSTATTVPLSPVDDACNVNIFDAIAEI GNQLYLFKDGKYWRFSEGRGSRPQGPFLIADKWPALPRKLDSVFEERLSKKLFFFSGRQVWVYTGASVLGPRRLDKLGLGADVAQVT GALRSGRGKMLLFSGRRLWRFDVKAQMVDPRSASEVDRMFPGVPLDTHDVFQYREKAYFCQDRFYWRVSSRSELNQVDQVGYVTY DILQCPED lgi|15718389|dbj|BAB68366.1| gelatinase Paralichthys olivaceus lMRCCALAVCLVLVIVQDGWSLPLRSISVTFPGDILKNVTDTDLAETYLKRFGYLDKMHRSGFQSMVSTAKALKMMQRQMGLKETGKLD KSTLEAMKQPRCGVPDVANYQTFEGDLKWDHNDVTYRTLNYSPDMESSLIDDAFARAFKVWSDVTPLTFTRLYEGTADIMISFGKADH GDPYPFDGRNGLLAHAYPPGEGVQGDAHFDDDEHWTLGNGPAVKTLYGNADGAMCHFPFTFEGKSYTSCTTDGRTDNLPWCATTAD YSRDGKYGFCPSELLYTVGGNADGAKCVFPFVFLEKEYDSCTKEGRSDGYRWCATTANFDQDQKYGFCPSRDTAVFGGNSEGEPCH FPFVFLGKEYDSCTSEGREDGKLWCSTTDNYDEDAKWGFCDDEGYSLFLVAAHEFGHALGLDHSNIREALMYPMYTYVEDFSLHKDDI EGIQYLYGRGTGPDPTPPQPTSTTTTPNPTEEPEPTTPQPVDPTRDACKLTKFDTITMIENELHFFENGNYWKMPSRGDGGLKGPFSLS ERWPALPAVIDSAFEDLLTKNMYFFSGNRFWVYTKEGVLGPRSIEKLGLPTSIQKVEGALQRGKGKVLLFTEESFWKFDLKSQKMDKGY PKSTDYVFGGVPNDAHDVFQYKGHMYFCRDSFYWRMNSRRQVDRVGYVKYDLLKCSDSY lgi|13591993|ref|NP_112317.1| matrix metalloproteinase 9 (gelatinase B, 92-kDa type IV collagenase) Rattus norvegicus lMNPWQPLLLVLLALGYSFAAPHQRQPTYVVFPRDLKTSNLTDTQLAEDYLYRYGYTRAAQMMGEKQSLRPALLMLQKQLSLPQTGELD SETLKAIRSPRCGVPDVGKFQTFEGDLKWHHHNITYWIQSYTEDLPRDVIDDSFARAFAVWSAVTPLTFTRVYGLEADIVIQFGVAEHGD GYPFDGKDGLLAHAFPPGPGIQGDAHFDDDELWSLGKGAVVPTYFGNANGAPCHFPFTFEGRSYLSCTTDGRNDGKPWCGTTADYD TDRKYGFCPSENLYTEHGNGDGKPCVFPFIFEGHSYSACTTKGRSDGYRWCATTANYDQDKLYGFCPTRADVTVTGGNSAGEMCVF PFVFLGKQYSTCTGEGRSDGRLWCATTSNFDADKKWGFCPDQGYSLFLVAAHEFGHALGLDHSSVPEALMYPMYHYHEDSPLHEDDI KGIQHLYGRGSKPDPRPPATTAAEPQPTAPPTMCPTAPPMAYPTGGPTVAPTGAPSPGPTGPPTAGPSEAPTESSTPVDNPCNVDVFD AIADIQGALHFFKDGRYWKFSNHGGSQLQGPFLIARTWPALPAKLNSAFEDPQSKKIFFFSGRKMWVYTGQTVLGPRSLDKLGLGSEVT LVTGLLPRRGGKALLISRERIWKFDL KSQKVDPQSVTRLDNEFSGVPWNSHNVFHYQDKAYFCHDKYFWRVSFHNRVNQVDHVAYVTYDLLQCP lgi|467621|emb|CAA55127.1| matrix metalloproteinase 9 Bos taurus lMSPLQPLVLALLVLACCSAVPRRRQPTVVVFPGEPRTNLTNRQLAEEYLYRYGYTPGAELSEDGQSLQRALLRFQRRLSLPETGELDST TLNAMRAPRCGVPDVGRFQTFEGELKWHHHNITYWIQNYSEDLPRAVIDDAFARAFALWSAVTPLTFTRVYGPEADIVIQFGVREHGDG YPFDGKNGLLAHAFPPGKGIQGDAHFDDEELWSLGKGVVIPTYFGNAKGAACHFPFTFEGRSYSACTTDGRSDDMLWCSTTADYDAD RQFGFCPSERLYTQDGNADGKPCVFPFTFQGRTYSACTSDGRSDGYRWCATTANYDQDKLYGFCPTRVDATVTGGNAAGELCVFPF TFLGKEYSACTREGRNDGHLWCATTSNFDKDKKWGFCPDQGYSLFLVAAHEFGHALGLDHTSVPEALMYPMYRFTEEHPLHRDDVQ GIQHLYGPRPEPEPRPPTTTTTTTTEPQPTAPPTVCVTGPPTARPSEGPTTGPTGPPAAGPTGPPTAGPSAAPTESPDPAEDVCNVDIF DAIAEIRNRLHFFKAGKYWRLSEGGGRRVQGPFLVKSKWPALPRKLDSAFEDPLTKKIFFFSGRQVWVYTGASLLGPRRLDKLGLGPEV AQVTGALPRPEGKVLLFSGQSFWRFDVKTQKVDPQSVTPVDQMFPGVPISTHDIFQYQEKAYFCQDHFYWRVSSQNEVNQVDYVGYV TFDLLKCPED l这四种输入序列放在一个单独的文件中,作成7种可以 接受的格式中的一种, lClustalW currently supports 7 multiple sequence formats. These are: lNBRF/PIR lEMBL / UniProtKB/Swiss-Prot lPearson (Fasta) lGDE lALN/ClustalW lGCG/MSF lRSF l然后进入http:/www.ebi.ac.uk/clustalw/ 站 点,将需要比较的序列输入工具程序中 ,在图4.1中的“序列输入窗口”输入或粘贴 需要比较的序列,也可以在“文件输入窗 口”将含有需要比较序列的文件名输入 Clustalw运行程序中,进行多序列比较。 结果输出可以在网页中获得,也可以通过电子 邮件发到用户的信箱。 通过改变输出结果下拉菜单,用户可以根据需 要获得多种形式的输出结果。用户在执行多序 列比较时有很多选择的自由,用户可以设定空 位开放和扩展的罚分,指出在组建辅助树时分 歧到什么程度证明可以跳过一个序列,选择一 个分值矩阵(BLOSUM或PAM),并且可以 选择当一个亲水残基出现(或缺失)在一个特 异位点时,是否要执行特异性罚分,如果需要 ,要罚多少分。 程序会在屏幕上显示构建辅助树的过程,然后 开始真正的多序列比较。 G 7 P -2 9 D -1 -1 7 E -2 0 2 6 N 0 -2 2 0 6 H -2 -2 0 0 1 10 Q -2 -1 0 2 0 1 6 K -2 -1 0 1 0 -1 1 5 R -2 -2 -1 0 0 0 1 3 7 S 0 -1 0 0 1 -1 0 -1 -1 4 T -2 -1 -1 -1 0 -2 -1 -1 -1 2 5 A 0 -1 -2 -1 -1 -2 -1 -1 -2 1 0 5 M -2 -2 -3 -2 -2 0 0 -1 -1 -2 -1 -1 6 V -3 -3 -3 -3 -3 -3 -3 -2 -2 -1 0 0 1 5 I -4 -2 -4 -3 -2 -3 -2 -3 -3 -2 -1 -1 2 3 5 L -3 -3 -3 -2 -3 -2 -2 -3 -2 -3 -1 -1 2 1 2 5 F -3 -3 -4 -3 -2 -2 -4 -3 -2 -2 -1 -2 0 0 0 1 8 Y -3 -3 -2 -2 -2 2 -1 -1 -1 -2 -1 -2 0 -1 0 0 3 8 W -2 -3 -4 -3 -4 -3 -2 -2 -2 -4 -3 -2 -2 -3 -2 -2 1 3 15 C -3 -4 -3 -3 -2 -3 -3 -3 -3 -1 -1 -1 -2 -1 -3 -2 -2 -3 -5 12 G P D E N H Q K R S T A M V I L F Y W C Blosum 45 Matrix lCLUSTA W结束时,会显示最终的比较结果,上 述的例子的结果显示在图4.3中。在比较下方, 一些位点被标记为星号或圆点,这些标记分别显 示这些残基在序列中是绝对或是高度保守的。结 果输出的最后部分是进化树,可以看出,比较的 四种源自不同种属的蛋白进化关系。如果返回的 比较出现太多的空位或是不考虑这些蛋白的任何 已知信息,用户就可以再修正参数,然后返回程 序,看它是否影响最终的比较。 l2.MultAlin lMultAlin方法也是基于用一系列双重比较 开始的思想,然后基于双重比较的打分值 进行一个分层次的聚类。当序列都分成 类后,开始进行多序列比较,计算出多 序列比较中的两个序列比较的新值,基 于这些新值,重新构建一棵树。这个过 程不断进行,直到分值不再上升,此时 所有序列比较也就结束了。 lMultAlin(http:/www.toulouse.inra.fr/cgi-bin/multalin/; http:/prodes.toulouse.inra.fr/multalin/multalin.html)可以 在INRA Toulouse的一个环球网点上很容易地执行,要 比较的序列按照FASTA的格式被粘贴到序列输入框内, 也可以在文件输入窗口输入文件名, 将序列提交给服务 器。在提交序列之前,用主界面的一系列下拉菜单,用 户定义适当的参数,比如输出格式,可选的输入格式, 引用的分值矩阵以及空位开放和扩展罚分的分值。大多 数用户只会根据输入序列的远近关系,选择不同的分值 矩阵。 l然后,序列被提交到服务器上,当多序 列比较返回时,会计算一个一致序列并 显示在比较的下方。举例来说,如图4.4 所示的用CLUSTAL W比较的同样的序列 被提交给MultAlin服务器,接受缺省的比 较参数。 l其结果如图4.5所示,在一致序列中,所 有序列都匹配的残基相应的位置用此残 基的大写字母表示,大多数都匹配的用 小写字母表示,同样地,符号!、$、% 和#分别表示保守取代, 很明显,用两种方法分别得到的比较结果并 不完全一样。这并不以为这一种方法比另外 一种方法优越,根据实际情况,从输入序列 的性质出发,应用不同的方法会得到不同程 度的成功。用户应该选择若干个工具同时使 用,并且对最终的比较结果作手工修正以期 达到最佳效果。 第二节 基序和模式比较 l上述的方法对于多序列比较是非常有用的,缺点是用户 必须事先搜集好需要比较的输入序列,要么通过一系列 的BLAST或其它的数据库搜索,要么在实验室里直接作 出决定。但是,在实际工作中我们常常可以获取一个单 独的序列,并且基于此序列中的任何基序或模式,针对 所有的蛋白质家族,完成某个特异方法所定义的最佳比 较。很多时候,这些方法所揭示的距离关系并不能从标 准的数据库搜索中轻易获取。在这一部分,我们讨论两 种方法,都是搜索特殊数据库以获取序列的基序和模式 的,当然也是两种从最少的序列信息中进行蛋白质家族 分类的强有力的方法。 l1、ProfileScan l基于经典的模式分析的Gribskov方法 ,ProfileScan使用一种称为pfscan的方法寻 找一个蛋白质或核酸的查询序列同一个 模式库的相似性,因此,在搜索中需要有模 式库 l第一个是PROSITE(http:/www.expasy.ch/prosite/ ),一个ExPASy(http:/www.E)数 据库,通过使用基序和序列模式(诸如指纹)将 生物学意义重大的位点收集分类; l第二个是Pfam( http:/www.sanger.ac.uk/Software/Pfam/search.shtm l) ,收集了蛋白质结构域家族,与其它收集方法 有很大不同的是,最初的蛋白质结构域的比较完 全是用手工完成的,而不是依靠自动化的处理方 法,正因为这样,Pfam几年前,只拥有500多条款 目,但这些款目的质量极好。现在拥有 8957条 目. l基于PROSITE和Pfam的搜索可以通过访 问ProfileScan的主页完成,它只需要一条 简单的输入序列(用文本格式),或者 一个标号,比如一个SWISS-PROT ID。 用户可以选择搜索的敏感度,选择返回 显著的匹配或者所有匹配,甚至包括边 界的情况。 l为了说明输出的格式,我们现在向PROSITE系统 提交人类matrix metalloproteinase 9 preproprotein Homo sapiens蛋白序列。返回的PROSITE条目 显示蛋白的功能区,数字“Start”和“End”是显示 出查询序列和匹配的模式重叠的位点, Bits是序列 比较可靠性评分,Evalue是序列比较错误概率。 2.BLOCKS lBLOCKS数据库利用了模块的概念,对蛋白质家族进行 鉴定,而不是只依赖于单个的序列本身。模块的思想来 源于更加普遍的概念基序(motif),基序通常是指一 段氨基酸序列保守的伸展,拥有一定的蛋白质
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课文主题研讨:古诗文赏析:山水田园诗选高一语文
- 学习雷锋做好学生写人作文(13篇)
- 一碳化合物中试平台建设的市场需求与发展趋势分析
- 高校会计核算创新路径与业财融合模式探讨
- 2025年音乐表演专业考试试卷及答案
- 2025年医药营销与管理考试试卷及答案
- 2025年外语教学专业考试试卷及答案
- 2025年企业战略管理硕士入学考试试题及答案
- 2025年旅游经济与管理课程测试卷及答案
- 2025年计算机编程与算法基础测试题及答案
- 合伙或养鸡协议书
- 2024年西安高新区公办学校教师招聘真题
- 2023-2024学年上海市浦东区八年级(下)期末数学试卷 (含答案)
- 会务技能测试题及答案
- 公司办公用品管理规程:申购、领用与报废流程详解
- 2024北京朝阳区四年级(下)期末英语试题及答案
- 公安外宣工作培训
- 光伏组件清洗合同
- 作风建设学习教育心得体会:在深入学习中校准思想坐标持续转变工作作风(3篇)
- 胸腔积液教案
- 非营利组织财务管理制度与流程
评论
0/150
提交评论