蛋白质序列分析ppt课件_第1页
蛋白质序列分析ppt课件_第2页
蛋白质序列分析ppt课件_第3页
蛋白质序列分析ppt课件_第4页
蛋白质序列分析ppt课件_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蛋白质序列分析,胡松年2005基因表达序列标签(EST)数据分析手册第八章吴祖建等2011生物信息学分析实践第五章,蛋白质序列结构信息蛋白质序列的基本性质分析结构域分析及motif搜索蛋白质二级结构蛋白质三级结构,蛋白质序列分析,.,一、蛋白质序列的基本性质分析,理化性质分析疏水性分析跨膜区分析信号肽预测Coil区分析亚细胞定位,蛋白质序列分析,蛋白质理化性质分析,Protparam工具/tools/protparam.html计算以下物理化学性质:相对分子质量理论pI值氨基酸组成原子组成消光系数半衰期不稳定系数脂肪系数总平均亲水性,蛋白质序列分析,主要选项/参数,序列在线提交形式:如果分析SWISS-PORT和TrEMBL数据库中序列直接填写Swiss-Prot/TrEMBLAC号(accessionnumber)如果分析新序列:直接在搜索框中粘贴氨基酸序列,蛋白质序列分析,输入Swiss-Prot/TrEMBLAC号分不同的功能域肽段,输出结果,蛋白质序列分析,点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果,蛋白质序列分析,蛋白质序列分析,ProtScale工具/tools/protscale.html氨基酸标度表示氨基酸在某种实验状态下相对其他氨基酸在某些性质的差异,如疏水性、亲水性等收集50多个文献中提供的氨基酸标度默认值为Hphob.Kyte&Doolittle,做疏水性分析,蛋白质疏水性分析,蛋白质序列分析,.,20种氨基酸的疏水K-D标度,主要选项/参数序列在线提交形式:如果分析SWISS-PORT和TrEMBL数据库中序列直接填写Swiss-Prot/TrEMBLAC号(accessionnumber)如果分析新序列:直接在搜索框中粘贴氨基酸序列,蛋白质序列分析,输出结果输入Swiss-Prot/TrEMBLAC号分不同的功能域肽段,蛋白质序列分析,点击不同功能域或直接粘贴氨基酸序列的方式得到以下结果蛋白质序列疏水区域分布预测图,蛋白质序列分析,跨膜区分析,膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难确定其结构膜蛋白跨膜区可能作为膜受体,也可能是定位在膜上的锚定蛋白或离子通道蛋白预测跨膜螺旋主要基于已知的跨膜螺旋信息,应用统计模型或神经网络方法使用单一的预测软件准确性不太高,综合不同的软件预测结果并结合疏水性图,可以获得较好的预测,对于跨膜螺旋和膜向性预测准确率达80%95%,蛋白质序列分析,跨膜区在线分析工具,蛋白质序列分析,跨膜蛋白数据库Tmbase来源于Swiss-Prot数据库,提供如跨膜结构区的数量、位置及其侧翼序列等信息。数据库下载地址:http:/www.isrec.isb-sib.ch/ftp-server/tmbase,跨膜区实例分析,蛋白质序列分析,使用TMHMMserver2.0对水稻瘤矮病毒(RGDV)外层衣壳P8蛋白进行跨膜区分析。TMHMM基于隐马尔可夫模型预测,综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,可对跨膜区及膜内外区进行整体预测。TMHMM在区分可溶性蛋白和膜蛋白方面尤为见长,常用于判定一个蛋白是否为膜蛋白。,贴入RGDVp8.txt蛋白质序列,P8蛋白的1405位氨基酸位于细胞膜表面406425位氨基酸形成一个典型的跨膜螺旋区,.,信号肽预测,蛋白质合成后要运送到细胞中不同的部位,有的蛋白质要通过内质网膜进入内质网腔内,最终成为分泌蛋白。分泌蛋白的N端都有一段约1535个氨基酸的疏水性肽段,其功能是引导蛋白质多肽链穿过内质网膜进入腔内,称为信号肽(signalpeptide)。按照氨基酸组成及其位置特征,可将信号肽分为4大类:分泌信号肽2.脂蛋白信号肽3.Pilin-like信号肽4.细菌素和细菌素信号肽,蛋白质序列分析,.,信号肽主要由三个domain组成:N-region、H-regin和C-region.N-region为正电荷区域,至少含有一个精氨酸(R)或赖氨酸(K).H-region为疏水核,一般长为1214个氨基酸.C-region包含信号肽酶(SPase)的剪切位点,在剪切位点的-1位和-3位上多为中性的丙氨酸,该区域也称为富含丙氨酸区域.NHCN端C端,蛋白质序列分析,.,信号肽预测在线分析工具,蛋白质序列分析,.,水稻条文病毒NSVc2蛋白信号肽预测,蛋白质序列分析,SignalP3.0Server主页NSVc2序列输出结果:Cscore:剪切位点分值Sscore:信号肽分值Yscore:综合剪切位点分值综合两种算法,NSVc2含有信号肽序列,为MHFKSYFIYTTIFNMAWG,说明NSVc2蛋白可能在跨膜运输中起信号识别作用剪切位点位于第1819位氨基酸,表明成熟肽始于第18位氨基酸,.,Coil区分析,卷曲螺旋(coiledcoil)是蛋白质中由27条螺旋链缠绕成麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件,含有卷曲螺旋结构的蛋白质主要是一些转录因子、骨架蛋白、动力蛋白、膜蛋白、酶等,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。七肽重复区(heptadrepeat,HR)是典型的卷曲螺旋结构类型之一,由多个七肽单元连接而成的重复序列,每个重复序列中的7个氨基酸残基依次用a-b-c-d-e-f-g表示。,蛋白质序列分析,.,a、d位多为非极性疏水氨基酸,位于卷曲螺旋结构的内侧;e、g多为极性带电氨基酸,与a、d位残基相互作用形成疏水核心的外侧。a、d、e、g位置上的氨基酸对于整个卷曲螺旋结构的稳定性及特异性具有重要作用。COILSServer:/software/COILS_form.html根据卷曲螺旋蛋白结构数据库和包含球状蛋白序列的PDB次级数据库,可计算出目的序列形成卷曲螺旋的概率。使用COILSServer对RGDVP2蛋白卷曲螺旋预测分析。,蛋白质序列分析,.,已有文献研究表明,RDV的P2蛋白含有一个N端的疏水肽、两个七肽重复区和一个跨膜区。RGDVP2蛋白与RDVP2蛋白在病毒粒体中位置相同、大小相似,具有高度保守的氨基酸序列和相似的一级结构,表明两者可能具有相似的结构。使用COILSServer分析RGDVP2是否由七肽重复区。COILSServer网页MTK:根据肌球蛋白、原肌球蛋白和角蛋白得到的打分矩阵MTIDK:由肌球蛋白、原肌球蛋白、中间纤维类蛋白、桥立蛋白和角蛋白得到的打分矩阵,蛋白质序列分析,.,COILS_20424_6595.txt,.,亚细胞定位,亚细胞定位与蛋白质的功能存在着密切的联系通过氨基酸组成进行亚细胞定位主要基于如下原理:不同的细胞器多具不同的理化环境,根据蛋白质的结构及表面理化特征选择性容纳蛋白蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成,蛋白质序列分析,.,亚细胞定位预测步骤:抽取一个高质量的亚细胞定位数据集并分为训练集和测试集从选取的蛋白质数据中抽取出特征信息选择合适的算法预测用测试数据集对预测结果进行评价,蛋白质序列分析,.,常用的亚细胞定位在线工具,蛋白质序列分析,.,使用TargetP对RSVNSVc2蛋白进行亚细胞定位TargetP是预测真核蛋白亚细胞定位软件,主要基于叶绿体转运肽(chloroplasttransitpeptide,cTP)、线粒体导肽(mitochondrialtargetingpeptide,mTP)及分泌通路信号肽(secretorypathwaysignalpeptide,SP)的N端序列进行预测预测结果:蛋白NSvc2的分泌途径为“-”型,即定位到其他细胞器。,蛋白质序列分析,.,二、蛋白质结构域及motif搜索,结构域分析Motif搜索,蛋白质序列分析,.,结构域分析,结构域(structuredomain)是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。结构域通常由25300个氨基酸组成,不同蛋白质结构域数目或同一蛋白质结构域相似度差异较大,蛋白质序列分析,.,常见的结构域主要有5种:全平行结构域反平行结构域+结构域/结构域其他折叠类型结构域是蛋白质的功能、结构和进化单元,结构域分析对于蛋白质结构的分类和预测有着重要作用。,蛋白质序列分析,.,结构域分析工具及数据库,蛋白质序列分析,.,使用SMART(SimpleMolecularArchitectureResearchTool)分析RGDVP8蛋白的结构功能域。两种搜索模式:常规模式和基因组模式在常规模式下粘贴RGDVP8序列,选PFAMdomain,蛋白质序列分析,.,预测结果:第1426位是个高度保守的结构功能域Phytoero_P8,该结构域由多个植物呼肠孤病毒属外层衣壳蛋白P8序列组成,具有结构分子活性,蛋白质序列分析,点击,.,.,motif搜索,motif(模体)是序列中局部的保守区域。motif通常由2、3个二级结构单位组成,二级结构一般为螺旋、折叠和环(loop)motif作为结构域中的亚单位,表现结构域的各种生物学功能。有几十个motif类,详见:/wiki/Category:Protein_structural_motifs/,蛋白质序列分析,.,几种motif空间结构图,蛋白质序列分析,亮氨酸拉链(Leucinezipper)Aleucinezipper,akaleucinescissors,isacommonthree-dimensionalstructuralmotifinproteins.ThesemotifsareusuallyfoundaspartofaDNA-bindingdomaininvarioustranscriptionfactors,andarethereforeinvolvedinregulatinggeneexpression.Leucinezippersarefoundinbotheukaryoticandprokaryoticregulatoryproteins,butaremainlyafeatureofeukaryotes.,.,几种motif空间结构图,蛋白质序列分析,螺旋-转角-螺旋(Helix-turn-helix)Inproteins,thehelix-turn-helix(HTH)isamajorstructuralmotifcapableofbindingDNA.Itiscomposedoftwohelicesjoinedbyashortstrandofaminoacidsandisfoundinmanyproteinsthatregulategeneexpression,.,几种motif空间结构图,蛋白质序列分析,锌指(Zincfinger)CartoonrepresentationoftheCys2His2zincfingermotif,consistingofanhelixandanantiparallelsheet.Thezincion(green)iscoordinatedbytwohistidineresiduesandtwocysteineresidues,几种motif空间结构图,蛋白质序列分析,罗斯曼折叠(Rossmannfold)TheRossmannfoldisaproteinstructuralmotiffoundinproteinsthatbindnucleotides,especiallythecofactorNAD.Thestructurewithtworepeatsiscomposedofsixparallelbetastrandslinkedtotwopairsofalphahelicesinthetopologicalorderbeta-alpha-beta-alpha-beta.,.,常见的motif数据库,蛋白质序列分析,.,Motif搜索方法有两种:序列模式(Pattern)和序列特征谱(Profile)序列模式方法直接搜索关键的几个保守残基,如L-x(6)-L-x(6)-L-x(6)-L(x表示任意的氨基酸)序列特征谱搜索是基于蛋白质序列多重比对结果,考虑了保守氨基酸在相应位置上的权重,可以检测到进化距离较远蛋白质的motif。使用PROSITE数据库对RGDVP2蛋白进行motif搜索点击ScanProsite链接,进行高级搜索,蛋白质序列分析,.,参数设置:排除高频率出现的motif:选中后,N-糖基化位点、酪蛋白激酶II磷酸化位点等33种常见motif序列模式将被排除在外。不进行序列特征谱搜索搜索自定义的motif,这里设置序列模式为:RK-x(2,3)-DE-x(2,3)-Y输出结果:RGDVP8蛋白中有1处与指定的序列模式相匹配,为142148位的氨基酸序列:KAYDIPY,蛋白质序列分析,.,三、空间结构预测,蛋白质的二级结构预测蛋白质的三级结构预测蛋白质结构预测方法评价,蛋白质序列分析,.,蛋白质的二级结构预测,蛋白质的二级结构是指多肽链借助于氢键沿一维方向排列成具有周期性结构的构象,主要有螺旋折叠转角无规则卷曲,蛋白质序列分析,.,-螺旋,(1)螺旋走向,稳定以氢键连接,氢键与轴平行。(2)侧基R伸向螺旋外侧。(3)棒状结构,高度压缩,紧密排列。(4)规律排列(5)由1条充分伸展的肽链的肽键平面折叠成的右手螺旋。(6)每隔3.6个氨基酸残基螺旋上升一圈,螺距0.54nm。(7)1个螺圈内有13个原子。,Hydrogenbonds(yellowdots)stabilizinganalpha-helix,.,-折叠,.,两种-折叠方式,反平行:肽链的N端不处于同一端,氢键与肽链走向垂直。如:丝心蛋白。,.,平行:所有肽链的N端处于同一端,氢键不与肽链走向垂直。如:-角蛋白。,.,4种二级结构,.,蛋白质二级结构预测网络资源,蛋白质序列分析,.,使用SSPro服务器预测RGDVPns10蛋白质二级结构SSPro使用神经网络和同源分析混合进行蛋白质二级结构预测Email接收的预测结果:双行显示,上行为目的序列,下行为对应的二级结构,其中C表示Coil(无规则卷曲),H表示Helix(螺旋),E表示Extented(折叠),蛋白质序列分析,蛋白质二级结构预测实例1,.,使用PORTER服务器预测HCVE蛋白质二级结构由于膜蛋白难以纯化,丙型肝炎病毒膜蛋白的三维至今未知,预测其膜蛋白的二级结构有利于三级结构的模建和功能研究本例使用丙型肝炎病毒中国湖北株(GI:149389442)Email接收的预测结果:双行显示,上行为目的序列,下行为对应的二级结构,其中C表示Coil(无规则卷曲),H表示Helix(螺旋),E表示Extented(折叠),蛋白质序列分析,蛋白质二级结构预测实例2,.,蛋白质的三级结构预测,蛋白质的生物学功能很大程度取决于蛋白质的空间结构通过X射线晶体衍射、NMR核磁共振等物理方法测定蛋白质的三级结构以及通过生化方法研究蛋白质的功能,成本高、速度慢、效率低,无法满足蛋白质序列飞速增长的需要生物信息学方法可对一个未知结构的蛋白质序列作出分析,预测其空间结构蛋白质三级结构预测方法:同源模建、折叠识别和从头预测,蛋白质序列分析,.,同源模建,同源模建(homologymodeling)是目前较为成功的而且比较实用的蛋白质结构预测方法同源模建的前提是已知一个或多个同源蛋白质的结构。当两个蛋白质的序列相似性大于35%,一般认为它们具有相同的三维结构。同源模建的四个步骤:搜索与目的蛋白序列相匹配的模板模建目的蛋白结构保守区的主链、结构变异区的主链目的蛋白侧链的模建及其优化对模建的结构进行优化和评估,蛋白质序列分析,.,同源建模法分析步骤:多序列比对与已有晶体结构的蛋白质序列比对确定是否有可以使用的模板序列相似度25%序列相似度25%,结合功能,蛋白质一级序列、二级结构或结构域信息构建三维模型三维模型准确性检验Whatcheck程序Ramachandranplot计算检验手工调整多序列比对,重新拟和,构建新的模型*,蛋白质序列分析,.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论