版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学第六章蛋白质结构预测及分子设计第一页,共六十四页,2022年,8月28日引子单个蛋白涉及的问题结构预测(2D,3D)物理化学性质功能空间位置研究方法提取纯化制作晶体,决定结构理解机制,功能多个蛋白涉及的问题表达过程(DNARNA蛋白,调控网络)相互作用(yeasttwo-hybrid,亲和层析)蛋白家族(family)检测(2D,质谱仪,蛋白质芯片)研究方法基因组测序蛋白预言计算机分析结构理解机制,功能第二页,共六十四页,2022年,8月28日一级结构(primary):氨基酸序列二级结构(secondary):α螺旋、β片层、...三级(维)结构(tertiary):亚基,结构域四级结构(quaternary):亚基之间特定的空间关系蛋白质的结构第三页,共六十四页,2022年,8月28日一些单氨基酸(aa)突变可引起蛋白结构的重大变化CFTR的ΔF508突变改变螺旋结构,从而改变其功能另一些变化则不明显一些蛋白引起的疾病囊肿性纤维化(cysticfibrosis):CFTR镰刀性贫血:血红蛋白疯牛病:朊蛋白阿尔兹海默氏征:淀粉样前体蛋白蛋白结构与人类疾病(重要性)第四页,共六十四页,2022年,8月28日蛋白结构的主要仓库–PDB始建于1971>32000个结构数据(其中约3万是蛋白)读取PDB文件的门户网站Swiss-Prot,NCBI,EMBLPDBCATH,Dali,SCOP,FSSP解释PDB文件的数据库第五页,共六十四页,2022年,8月28日用”PubMed”搜蛋白结构(NCBI)1、进入”PubMed”2、选择”Structure”3、输入要找的蛋白名称或ID号等(如RecBCD,E.coliDNArepair)4、点击”Go”5、点击感兴趣的结果(1W36,进入MMDB)结果列表中包含相关蛋白(poweredbyBLAST)、文献、结构域(domain)、配体(ligand)、3D缩略图、三维查看器第六页,共六十四页,2022年,8月28日在MMDB看搜到蛋白的结构(NCBI)MMDB(MolecularModelingDatabase):NCBI的大分子三维结构数据库,数据来自PDB打开的单个蛋白的页面中包括文献、简单描述、入库日期、物种(taxonomy)该蛋白的PDB,
VAST链接(entirechain/View3DAlignment)三维查看器(Cn3D)分子成分(图):chain,3Ddomain,classification/family,ligand第七页,共六十四页,2022年,8月28日点击其中的PDB(RCSB)链接,显示三维结构实验数据蛋白分类SCOP链接:结构域(家族,超家族)CATH链接:域,Class,Architecture,Topology,HomologyGO链接:功能,过程,细胞组成更多信息生化性质,配体,SNP(SequenceDetails)图形显示各域的分布,类别,DSSP二级结构,PDP域更多外部链接(对于RecBCD多达26个)第八页,共六十四页,2022年,8月28日更多有用的链接PDB的外部链接中ComputepIMw点击ChainB(可计算各链分子量)在打开的ComputepI/Mw页面中点击EX5B_ECOLI(ExPASy,大量信息,链接)在打开的UniProtKB/Swiss-Prot页面中点击EcoCyc:EG10824-MONOMER(biocyc,参与的反应/路径图)第九页,共六十四页,2022年,8月28日蛋白质结构分析蛋白质一级结构蛋白质基本理化性质分析蛋白质亲疏水性分析蛋白质跨膜区结构预测蛋白质二级结构蛋白质二级结构预测(α螺旋,β折叠等)蛋白质超二级结构蛋白质结构域分析蛋白质三级结构蛋白质三维结构模拟蛋白质结构预测及分析的主要内容第十页,共六十四页,2022年,8月28日蛋白质结构预测过程ORF翻译实验数据蛋白质序列蛋白质理化性质和一级结构数据库搜索结构域匹配已知结构的同源蛋白?三维结构模型可用的折叠模型?同源建模有二级结构预测无串线法有从头预测无第十一页,共六十四页,2022年,8月28日蛋白质的基本性质第十二页,共六十四页,2022年,8月28日蛋白质的基本性质:相对分子质量氨基酸组成等电点(pI)消光系数半衰期不稳定系数总平均亲水性…….工具网站备注AACompldent/tools/aacomp/利用未知蛋白质的氨基酸组成确认具有相同组成的已知蛋白ComputepI/Mw/tools/pi_tool.html计算蛋白质序列的等电点和分子量ProtParam/tools/protparam.html对氨基酸序列多个物理和化学参数(分子量、等电点、吸光系数等)进行计算PeptideMass/tools/peptide-mass.html计算相应肽段的pI和分子量SAPShttp://www.isrec.isb-sib.ch/software/SAPS_form.html利用蛋白质序列统计分析方法给出待测蛋白的物理化学信息蛋白质理化性质分析工具第十三页,共六十四页,2022年,8月28日ProtParam工具简介基于蛋白质序列的组分分析氨基酸亲疏水性等分析为高级结构预测提供参考Expasy开发的针对蛋白质基本理化性质的分析:ProtParam工具计算以下物理化学性质:相对分子质量氨基酸组成等电点(pI)消光系数半衰期不稳定系数总平均亲水性……第十四页,共六十四页,2022年,8月28日如果分析Swiss-Prot和TrEMBL数据库中序列直接填写Swiss-Prot/TrEMBLAC号(accessionnumber)如果分析新序列:直接在搜索框中粘贴氨基酸序列输入Swiss-Prot/TrEMBLAC号将protein.txt蛋白质序列粘贴在文本框中第十五页,共六十四页,2022年,8月28日返回结果氨基酸数目相对分子质量氨基酸组成正/负电荷残基数第十六页,共六十四页,2022年,8月28日消光系数半衰期原子组成分子式总原子数E(Prot)=Num(Tyr)*Ext(Tyr)+Num(Trp)*Ext(Trp)+Num(Cystine)*Ext(Cystine)proteinsinwatermeasuredat280nm:Ext(Tyr)=1490,Ext(Trp)=5500,Ext(Cystine)=125Absorb(Prot)=E(Prot)/Molecular_weight第十七页,共六十四页,2022年,8月28日不稳定系数脂肪系数总平均亲水性<40stable>40unstable注意:ProtParam没有考虑蛋白质翻译后修饰、蛋白质多聚体等情况,故用户在预测和分析此类特定蛋白质的基本理化性质时需要仔细审视反馈结果。第十八页,共六十四页,2022年,8月28日蛋白质结构预测第十九页,共六十四页,2022年,8月28日跨膜区预测:膜蛋白是一类结构独特的蛋白质,在各种细胞中普遍存在,同时发挥着重要的生理功能。一、跨膜区分析(a)-TypeImembraneprotein(b)-TypeIImembraneprotein(c)-Multipasstransmembraneproteins(d)-Lipidchain-anchoredmembraneproteins(e)-GPI-anchoredmembraneproteins第二十页,共六十四页,2022年,8月28日蛋白质跨膜区特性典型的跨膜螺旋区主要是由20~30个疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成;亲水残基往往出现在疏水残基之间,对功能有重要的作用;基于亲/疏水量和蛋白质跨膜区每个氨基酸的统计学分布偏好性。跨膜蛋白序列“边界”原则胞外末端:Asp(天冬氨酸)、Ser(丝氨酸)和Pro(脯氨酸)胞外-内分界区:Trp(色氨酸)跨膜区:Leu(亮氨酸)、Ile(异亮氨酸)、Val(缬氨酸)、Met(甲硫氨酸)、Phe(苯丙氨酸)、Trp(色氨酸)、Cys(半胱氨酸)、Ala(丙氨酸)、Pro(脯氨酸)和Gly(甘氨酸)胞内-外分界区:Tyr(络氨酸)、Trp(色氨酸)和Phe(苯丙氨酸)胞内末端:Lys(赖氨酸)和Arg(精氨酸)第二十一页,共六十四页,2022年,8月28日常用蛋白质跨膜区域分析工具工具网站备注DAShttp://www.sbc.su.se/~miklos/DAS/用DenseAlignmentSurface(DAS)算法来预测无同源家族的蛋白跨膜区HMMTOPhttp://www.enzim.hu/hmmtop/由Enzymology研究所开发的蛋白质跨膜区和拓扑结构预测程序SOSUIhttp://bp.nuap.nagoya-u.ac.jp/sosui/由Nagoya大学开发一个具有图形显示跨膜区的程序TMAPhttp://bioinfo.limbo.ifm.liu.se/tmap/基于多序列比对来预测跨膜区的程序TMHMMhttp://www.cbs.dtu.dk/services/TMHMM-2.0基于HMM方法的蛋白质跨膜区预测工具TMpred/software/TMPRED_form.html基于对TMbase数据库的统计分析来预测蛋白质跨膜区和跨膜方向TopPredhttp://bioweb.pasteur.fr/seqanal/interfaces/toppred.html是一个位于法国的蛋白质拓扑结构预测程序第二十二页,共六十四页,2022年,8月28日TMpred工具简介依靠跨膜蛋白数据库TMbase预测跨膜区和跨膜方向第二十三页,共六十四页,2022年,8月28日主要参数/选项序列在线提交形式:直接贴入蛋白序列填写SwissProt/TrEMBL/EMBL/EST的ID或AC输出格式最短和最长的跨膜螺旋疏水区长度输入序列名(可选)选择序列的格式贴入protein.txt蛋白质序列第二十四页,共六十四页,2022年,8月28日输出结果可能的跨膜螺旋区相关性列表可能的跨膜螺旋区位置分值片段中点位置相关性列表第二十五页,共六十四页,2022年,8月28日建议的跨膜拓扑模型最优拓扑结构每一位置计算分值第二十六页,共六十四页,2022年,8月28日26TMHMM第二十七页,共六十四页,2022年,8月28日二、信号肽分析信号肽:指分泌蛋白表达时氨基端(N-,有时不在N端)的20余个氨基酸,将引导该蛋白质最终分泌到细胞外,但这段信号肽会被信号肽酶切掉,所以成熟的分泌蛋白是不含这段信号肽的。信号肽可以指导蛋白质的跨膜转移。信号肽预测工具:SignalPserver()第二十八页,共六十四页,2022年,8月28日第二十九页,共六十四页,2022年,8月28日第三十页,共六十四页,2022年,8月28日三、蛋白质二级结构分析(α螺旋、β折叠)蛋白质二级结构及类型二级结构取决于氨基酸侧链结构,由氢键形成1、α螺旋(helix):4-40aa2、β折叠(sheet):5-10aa,平行或反平行(C,N端方向一致或相反)3、转角(turn)4、无规则卷曲(randomcoil)第三十一页,共六十四页,2022年,8月28日工具网站备注BCMSearchLauncher/包括了常见的蛋白质结构分析程序入口,一般分析可以以此服务器作为起点Profhttp://www.aber.ac.uk/~phiwww/prof/基于多重序列比对预测工具PSIpredhttp://bioinf.cs.ucl.ac.uk/psipred/psiform.html提供跨膜蛋白拓扑结构预测和蛋白profile折叠结构识别工具nnPredict/~nomi/nnpredict.html预测蛋白质序列中潜在的亮氨酸拉链结构和卷曲螺旋PredictProtein/提供多项蛋白质性质分析,并有较好准确性PREDATORhttp://bioweb.pasteur.fr/seqanal/interfaces/predator-simple.html预测时考虑了氨基酸残基间的氢键蛋白质二级结构分析工具第三十二页,共六十四页,2022年,8月28日PredictProtein(/)可以获得功能预测、二级结构、基序、二硫键结构、结构域等许多蛋白质序列的结构信息。该方法的平均准确率超过72%,最佳残基预测准确率达90%以上。因此,被视为蛋白质二级结构预测的标准。用户需要注册ID、验证E-mail后,才能使用PredictProtein工具。第三十三页,共六十四页,2022年,8月28日如何使用PredictProtein工具第三十四页,共六十四页,2022年,8月28日第三十五页,共六十四页,2022年,8月28日将protein.txt蛋白质序列粘贴在文本框中分析方法重要的算法:PROFsec(α螺旋,β折叠等基本二级结构预测)PHDhtm(典型跨膜螺旋区预测)ProSite(特征Motif识别方法)第三十六页,共六十四页,2022年,8月28日结果名称说明SecondaryStructure蛋白质二级结构预测Transmembrane典型跨膜螺旋区预测CoiledCoils卷曲螺旋预测Lowcomplexitysegments低复杂区域识别Non-OrdinarySecondaryStructure非典型二级结构预测Localization蛋白质定位预测DisulphideBonds二硫键位置预测Trans-MembraneBeta-Barrelβ-桶状跨膜区预测(细菌)ProteinDisorder蛋白质结果无序性分析AmbivalentSwitches识别构象变化的氨基酸Protein-Proteinbinding蛋白质-蛋白质结合位点识别Protein-DNAbinding蛋白质-DNA结合位点识别Globular球状蛋白预测结果Prosite基序(Motif)识别和分类AlignmnetPSI-BLAST分析第三十七页,共六十四页,2022年,8月28日PROSITE中的ID号Motif名称Motif模式提交序列中出现该Motif的位置ProSitemotif搜索结果第三十八页,共六十四页,2022年,8月28日置信度二硫键位置二硫键位置预测结果第三十九页,共六十四页,2022年,8月28日PHD跨膜螺旋区预测结果跨膜螺旋区非跨膜螺旋区第四十页,共六十四页,2022年,8月28日PROF二级结构预测结果螺旋结构片层结构无规则卷曲第四十一页,共六十四页,2022年,8月28日四、蛋白质结构域预测结构域(StructuralDomain)是蛋白序列的功能、结构和进化单元。结构域通常都是几个超二级结构单元的组合,即蛋白质多肽链在二级结构的基础上进一步卷曲折叠成几个相对独立的近似球形的组装体。结构域是介于二级和三级结构之间的另一种结构层次。结构域的实质是二级结构的组合体,充当三级结构的元件。第四十二页,共六十四页,2022年,8月28日基本类型:
α折叠β折叠α/β折叠α+β折叠第四十三页,共六十四页,2022年,8月28日工具网站备注CDD/sites/entrez?db=cdd通过比较目标序列和一组位置特异性打分矩阵进行RPS-BLAST来确定目标序列中的保守结构域HAMAP/sprot/hamap/families.html通过专家预测系统产生的微生物家族同源蛋白数据InterProhttp://www.ebi.ac.uk/interpro/蛋白质家族、结构域和功能位点的联合资源数据库,整合了多个数据库和工具的结果,并提供相应的链接Pfamhttp://pfam.sanger.ac.uk/每个蛋白家族包含了多序列比对、profile-HMMs和注释文件ProDomhttp://prodom.prabi.fr/从SWISS-PROT/TrEMBL数据库中的非片段蛋白序列数据构成,每条记录包含一个同源结构域多重比对和家族保守一致性序列SMARThttp://smart.embl-heidelberg.de/由EMBL建立,集成了大部分已知蛋白功能域数据,注释包括了功能类型、三维结构、分类信息蛋白质结构域数据库第四十四页,共六十四页,2022年,8月28日InterPro数据库简介InterPro数据库由EBI开发,整合蛋白质家族、结构域和功能位点等资源。整合UniProt、PROSITE、Pfam等12个成员数据库,检索结果准确。目前最新的InterPro34.0版本包含22245个条目,涵盖6309个结构域、14854个蛋白质家族(截至2011年11月底)。第四十五页,共六十四页,2022年,8月28日序列提交框InterProScan:提供在线提交和本地分析工具(Linux系统)分析工具第四十六页,共六十四页,2022年,8月28日InterProScan工具结果反馈图形化结果(VisualOutput)以示意图的形式显示保守区和结构域表格式结果(SummaryTable)显示保守区和结构域的具体位置以及蛋白家族信息和GO分类号GO分类号:GO【GeneOntology(基因本体论)】,用于蛋白的功能分类。包含基因产物的相关分子功能、生物学途径和细胞学组件,根据这三个方面的内容对基因进行分类。第四十七页,共六十四页,2022年,8月28日保守区示意图第四十八页,共六十四页,2022年,8月28日保守区位置第四十九页,共六十四页,2022年,8月28日InterPro蛋白家族信息AC号,家族名称蛋白家族信息其他数据库中的收录情况相关的其他家族条目类型GO术语注释说明结构链接数据库链接第五十页,共六十四页,2022年,8月28日该家族蛋白在不同种类生物体中出现情况其他家族与该家族的重叠情况第五十一页,共六十四页,2022年,8月28日五、蛋白三级结构研究方法实验方法1、X光晶体衍射2、核磁共振(NMR)计算方法1、从头算方法(abinitio/denovo)/理论分析法分子动力学能量最低假设2、比较建模(comparativemodeling)基于同源性第五十二页,共六十四页,2022年,8月28日1、从头算方法(abinitio/denovo)/理论分析法根据物理化学原理(如原子之间作用力),建立模型,预测结构一些问题自然的蛋白质结构和未折叠的蛋白质结构,两者之间的能量差非常小(1kcal/mol数量级)蛋白质可能的构象空间庞大,针对蛋白质折叠的计算量非常大计算模型中力场参数的不准确性待测蛋白没有同源性时可用此法第五十三页,共六十四页,2022年,8月28日2、比较建模/同源模型化方法(统计方法)通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元,如:锌指结构、螺旋-转角-螺旋结构、DNA结合区域等(motif)原理:许多不同的序列会采用同一个基本的折叠,具有相似序列的蛋白倾向于有相似结构,一对自然进化的蛋白,如果它们的序列具有>25~30%的等同部分,可以假设它们结构相似。步骤Step1、识别结构保守域Step2、将待测蛋白与模板比对,保留>30%同源性的结果Step3、建模Step4、评价模型,一般而言,同源性越高,结构预言越精确,>50%同源性,精确度可达1埃第五十四页,共六十四页,2022年,8月28日比较建模网站方法特点工具同源建模法(Homology/Comparativemodelling)基于序列同源比对,对于序列相似度>30%的序列模拟比较有效,最常用的方法SWISS-MODELCPHmodels
串线法/折叠识别法
(Threading/Foldrecognition)“穿”入已知的各种蛋白质折叠骨架内,适于对蛋白质核心结构进行预测,计算量大THREADER3D-PSSM从头预测法(Abinitio/Denovomethods)基于分子动力学,寻找能量最低的构象,计算量大,只能做小分子预测HMMSTRROSSETA第五十五页,共六十四页,2022年,8月28日蛋白质结构预测精度第五十六页,共六十四页,2022年,8月28日同源建模法分析步骤:1、多序列比对与已有晶体结构的蛋白质序列比对2、确定是否有可以使用的模板序列相似度>30%序列相似度<30%,结合功能,蛋白质一级序列、二级结构或结构域信息3、构建三维模型4、三维模型准确性检验Whatcheck程序Ramachandranplot计算检验5、手工调整多序列比对,重新拟合,构建新的模型第五十七页,共六十四页,2022年,8月28日SWISS-MODEL工具()同源建模方法与PDB数据库已知结构的蛋白质序列比对进行预测SWISS-MODEL工具简介第五十八页,共六十四页,2022年,8月28日自动模式比对模式工程模式SWISS-MODEL工作模式第五十九页,共六十四页,2022年,8月28日主要参数/选项粘贴SWISS-MODEL.txt中的蛋白质序列输入
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年黄冈麻城市事业单位统一公开招聘工作人员166人笔试备考试题及答案解析
- 四川大学华西公共卫生学院华西第四医院 中毒科肾脏内科高压氧技师招聘笔试备考题库及答案解析
- 2026年南阳农业职业学院单招综合素质笔试参考题库含详细答案解析
- 2026贵州黔东南州特种设备检验所招聘1人笔试备考题库及答案解析
- 2026年西安航空职业技术学院招聘(34人)笔试备考题库及答案解析
- 2026中国武夷实业股份有限公司招聘笔试备考试题及答案解析
- 2026云南昆明市西山区图书馆招聘3人笔试备考试题及答案解析
- 2026上半年四川文理学院考核招聘博士人才15人笔试备考试题及答案解析
- 2026四川宜宾市高县国盛劳务派遣有限责任公司招聘劳务派遣人员1人笔试备考题库及答案解析
- 2026北京师范大学广州实验学校招聘临聘教师的笔试备考试题及答案解析
- 华为手机品牌营销策略研究毕业论文
- 2025年高等传热学试题及答案
- 2025年排版设计考试题库及答案
- 2024 四川省城镇管道燃气安全隐患分类和分级标准
- DB11∕T 637-2024 房屋结构综合安全性鉴定标准
- 2025届新疆乌鲁木齐市高三下学期三模英语试题(解析版)
- JJF 1183-2025 温度变送器校准规范
- 部编四年级道德与法治下册全册教案(含反思)
- 个人人身保险投保单
- 成本与管理会计学 课件 第7、8章 短期成本与经营决策、存货成本与存货管理
- YY/T 0313-2014医用高分子产品包装和制造商提供信息的要求
评论
0/150
提交评论