山大生物信息学课件06-3序列比较3_第1页
山大生物信息学课件06-3序列比较3_第2页
山大生物信息学课件06-3序列比较3_第3页
山大生物信息学课件06-3序列比较3_第4页
山大生物信息学课件06-3序列比较3_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生 物 信 息 学序列比较3多序列比对(multiple alignment),对两条以上的生物序列进行全局比对。多序列比对介绍 多序列比对的主要用途:确认:一个未知的序列是否属于某个家族建立:系统发生树(分子树),查看物种间或者序列间的关系模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守片段及其序列模式(pattern)已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列 片段是否也具有该功能。其他:预测蛋白质/RNA二级结构等等。 多序列比对的用途及算法 多序列比对的算法目前所有的多序列比对工具都不是完美的,它们

2、都使用一种近似的算法。PYMNVI0-1-2-3-4-5-6P-1765432Y-261413121110E-351312131211L-441215141414F-5311141313143条序列 = 3Dseq1seq2seq2seq1seq32条序列 = 2DN条序列 = nD 多序列比对的用途及算法 对要进行多序列比对的序列的几点要求:太多的序列受不了。不要超过50条。关系太远的序列受不了。两两之间序列相似度低于30%的一组序列,作多序列比对会有麻烦。关系太近的序列受不了。两两之间序列相似度大于90%的序列,有再多条都等于只有一条。短序列受不了。多序列比对支持一组差不多长的序列,个别很

3、短的序列属于捣乱分子。有重复域的序列受不了。如果序列里包含重复域, 大多数多序列比对的程序都会出错,甚至崩溃。 多序列比对的注意事项 序列的名字有几点建议:名字里不要有“空格”,用“_”代替“空格” 。不要用特殊字符,(比如中文, , #, &, 等) 。名字的长度不要太长。一组序列里,不要有重名的序列。如果不按上述几点建议命名的话,多序列比对的工具会在不告知你的情况下修改你的序列名称。 e.g. My Seq 1 My_Seq_1e.g. 我的序列壹 Seq1 e.g. This_is_my_favorite_sequence_about_mouse 多序列比对的注意事项 多序列比对的工具C

4、lustal 最常用的多序列比对工具 TCOFFEE 最新的多序列比对工具之一 MUSCLE 最快的多序列比对工具之一 网站名称服务器位置网址链接EBIClustal-Omegahttp:/www.ebi.ac.uk/Tools/msa/clustalo/ ExpasyClustal W/software/ClustalW.html Sfi-ClustalClustal O/W2/ (仅下载)EBITcoffeehttp:/www.ebi.ac.uk/Tools/msa/tcoffee/TCOFFEETcoffee/ EBIMusclehttp:/www.ebi.ac.uk/Tools/msa

5、/muscle/MUSCLEMuscle/muscle/(仅下载) 部分提供多序列比对在线使用的网站 在线多序列比对工具 http:/www.ebi.ac.uk/Tools/msa EMBL 多序列比对工具:Clustal Omega多序列比对中各个序列的排列顺序:aligned-比对过程中自动创建的顺序input-输入序列的原始顺序比对输出格式人Toll样受体110胞内域 保存比对结果Red: 疏水的 Blue: 酸性的 Magenta: 碱性的 Green:羟基+胺+碱性 Gray: 其他 *完全保守的一列,即,这一列的残基完全相同。:这一列的残基有大致相似的分子大小及相同亲疏水性,即这一

6、列残基或相同或相似。.在进化过程中,残基的分子大小及亲疏水性被一定程度上保留了,但是有替换发生在不相似的残基间。完全不保守的一列。序列两两之间的一致度列表一致度最高的一对序列这个树 不是 真正的系统发生树!Tcoffee :多序列比对工具,算法上与Clustal系列类似,准确度上比Clustal系列略高,但计算耗时也比Clustal系列略高。 http:/tcoffee.crg.cat T-Coffee 镜像网站SIBhttp:/tcoffee.vital-it.ch EBIhttp:/www.ebi.ac.uk/Tools/msa/tcoffee CNRSrs-mrs.fr/Tcoffee/

7、tcoffee_cgi/ index.cgi Max-Planckhttp:/toolkit.tuebingen.mpg.de/t_coffee CBSU/t_coffee.aspx EMBnet/Services/MolBio/t-coffee TCOFFEE 多序列比对工具:Expressohttp:/tcoffee.crg.cat给序列加入结构信息的多序列比对。把多个比对工具的结果整合成一个。专为穿膜蛋白打造的多序列比对。专为远源序列打造的多序列比对。http:/tcoffee.crg.cathttp:/tcoffee.crg.cathttp:/tcoffee.crg.cathttp:/

8、tcoffee.crg.cat如果要做比对的序列有结构信息的话(包括未发表的非PDB里的结构),可以把这些结构的PDB文件上传。用网页提供的示例序列指定哪个序列对应哪个PDB结构。已上传的结构会根据序列信息自动匹配是哪个序列,不需要列出。或者偷个懒,自动给每条序列通过BLAST搜索从数据库中找到序列水平上相似的结构。要算很久,留个email很必要!Expresso做出的比对结果TCOFFEE做出的比对结果多序列比对的保存格式score_html file clustalw_aln file fasta_aln file phylip file 在选择保存格式之前,需要问自己几个问题: 大多数软

9、件都支持我要选的这个格式吗? 我的同事们能直接使用我选的这个格式吗? 这个格式能保存我所需要的所有信息吗? 这个格式适合我进一步加工吗?如果比对工具输出的格式里没有我想要的哪种,可以通过第三方软件进行格式转换,比如: 到底保存哪个格式呢?多序列比对的保存格式为了能对多序列比对的结果进行彩色显示和手工编辑,人们开发了多序列比对结果编辑器。Jalview是一个特别常用的编辑器。 多序列比对的编辑和发布:Jalview点击这里下载在线运行完整版Jalview软件打开后,会自动展示许多示例。之前让大家保存的Clustal Omega比对结果保守度比对质量共有序列根据每一列的保守程度分配深浅不同的蓝色设

10、定保守程度阈值,阈值以上的才给赋予不同的蓝色,阈值以下白色常见的Clustal系列配色方案将后四条序列的第53列移至第54列:1.选中后四条序列:按住 Ctrl 键,选中后四条序列的名字。选中后,序列名字的底色由白变灰。2.移动后四条序列:再次按住 Ctrl 键,把鼠标放在第53列的字母上,向右拖动到第54列。再用同样的方法,把原来的第57列向左拖动回原位。设置字体换行显示打开/关闭注释行为任意一对序列做双序列全局比对按照各种规则排序为选中的一组序列创建系统发生树预测一条蛋白质序列的二级结构把序列比对保存成图片可以发布漂亮的序列比对了!多序列比对美化工具名称网址特点JalView JAVA,可

11、嵌入网页 Boxshade/software/BOX_form.html 擅长黑白作图ESPripthttp:/espript.ibcp.fr/ESPript/ESPript功能强大,很牛MView 擅长转换成HTML源码多序列比对的编辑和发布:Jalview你想要找到序列中重要的位置 !用一句话来描述你究竟想从多序列比对中获得什么:寻找保守区域保守区域序列标识图(sequence logo)是以图形的方式依次绘出序列比对中各个位置上出现的残基。每个位置上残基的累积可反应出该位置上残基的一致性。每个残基对应图形字符的大小与残基在该位置上出现的频率成正比。 但图形字符的大小并不等于频率百分比,而

12、是经过简单统计计算后转化的结果。一款流行的创建序列标识图的软件:WebLogo 3 /序列标识图:WebLogo对于某一列来说, 每个字母的高度 Height = fi * R ,其中 i=1,20 (f是出现频率) R = log2(20) (entropy + en) entropy = -fi*log2(fi)en = (20 - 1) /(2 * ln 2 * n)entropy: 熵(熵越大越混乱)en: 小样本检验修正n:序列个数20:残基种类,蛋白质是20,核酸是4TRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIK TRVGNYEMGRTLGEGSFAKVKY

13、AKNTVTGDQAAIK TRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIK KQTISYMAERVVGTGSFGIVFQAKCLETGESVAIK KQTISYMAERVVGTGSFGIVFQAKCLETGESVAIK VVGGKFKLGRKLGSGSFGEIFLGVNVQTGEEVAVK VIGGKFKLGRKIGSGSFGELYLGINVQTGEEVAVK VSKKYVPPLRPIGRGASGIVCAAWNSETGEEVAIK MGADDFELLTMIGKGAFGEVRVVREINTGHVFAMK 序列标识图:WebLogo/ FASTA格式的多序列比对结果20-3

14、0这一段有明显的序列特征,其他地方没有。在真核生物和古细菌的转录启动子上,有一个特殊的DNA片段,叫做TATA box。这段序列通常是 5-TATAAT-3 或者略有变化。TATA box是RNA聚合酶的结合位点。利用WebLogo,可以快速、直观地找到这一结合位点的位置。在核酸/蛋白质序列中存在有特定模式(pattern)的序列片段,这些片段称为序列的基序(motif)。序列基序与生物功能密切相关。例如,N-糖基化位点基序(N-glycosylation site motif)总是符合以下特定模式:Asn开始, 然后紧跟除了Pro之外的任何一个氨基酸,再紧跟Ser或者Thr,再紧跟除Pro外

15、的任何一个氨基酸。这个特定模式可通过正则表达式(Regular expression)来表述:NPSTP 其中 N=Asn, P=Pro, S=Ser, T=Thr; X代表除X外的任意氨基酸; XY代表X或者Y。MEME是一款可以自动从一组相关的DNA或蛋白质序列中发现序列基序的软件。 / 序列基序:MEME按得分高低,给出排名前三的基序给入一组序列找到的基序在在每条序列中的位置排名前三的基序获得基序的具体信息提交基序给其他软件提交基序到其他数据库,针对该基序进行序列相似性搜索。一个蛋白质的指纹(Prints)就是一组保守的序列基序,用于刻画蛋白质家族的特征。这些基序由多序列比对结果获得,且他们在氨基酸序列上是不相邻的,但是在三维结构中,他们可能紧密结合在一起。PRINTS是蛋白质序列指纹图谱数据库,存储了目前已发现的绝大多数蛋白质家族的指纹图谱。对于一个陌生的蛋白质,只要看看它的序列是否符合某个家族的图谱就可以对它进行分类并预测它的功能。PRINTS指纹图谱数据库http:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/ 通过关键词搜索,直接浏览某一蛋白质家族的指纹图谱TRANSFERRIN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论