生物信息学 第六章 蛋白质结构预测及分子设计_第1页
生物信息学 第六章 蛋白质结构预测及分子设计_第2页
生物信息学 第六章 蛋白质结构预测及分子设计_第3页
生物信息学 第六章 蛋白质结构预测及分子设计_第4页
生物信息学 第六章 蛋白质结构预测及分子设计_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学生物信息学第六章第六章 蛋白质结构预测蛋白质结构预测及分子设计及分子设计.引子引子单个蛋白n 涉及的问题结构预测(2D, 3D)物理化学性质功能空间位置n 研究方法提取纯化制作晶体,决定结构理解机制,功能多个蛋白n 涉及的问题表达过程(DNARNA蛋白,调控网络)相互作用(yeast two-hybrid,亲和层析)蛋白家族(family)检测(2D-PAGE,质谱仪,蛋白质芯片)n 研究方法基因组测序蛋白预言计算机分析结构理解机制,功能. 一级结构(primary):氨基酸序列 二级结构(secondary):螺旋、片层、. 三级(维)结构(tertiary):亚基,结构域 四级结

2、构(quaternary):亚基之间特定的空间关系蛋白质的结构蛋白质的结构.n 一些单氨基酸(aa)突变可引起蛋白结构的重大变化n CFTR的F508突变改变螺旋结构,从而改变其功能n 另一些变化则不明显n 一些蛋白引起的疾病n 囊肿性纤维化(cystic fibrosis): CFTRn 镰刀性贫血: 血红蛋白n 疯牛病: 朊蛋白n 阿尔兹海默氏征: 淀粉样前体蛋白蛋白结构与人类疾病蛋白结构与人类疾病 (重要性重要性).蛋白结构的主要仓库蛋白结构的主要仓库 PDB PDB 始建于1971 32000个结构数据(其中约3万是蛋白)读取读取PDB文件的门户网站文件的门户网站解释解释PDB文件的数

3、据库文件的数据库.用用”PubMed”PubMed”搜蛋白结构搜蛋白结构(NCBI)(NCBI)1、进入”PubMed”2、选择”Structure”3、输入要找的蛋白名称或ID号等(如RecBCD, E. coli DNA repair)4、点击”Go”5、点击感兴趣的结果(1W36,进入MMDB)n 结果列表中包含相关蛋白(powered by BLAST)、文献、结构域(domain)、配体(ligand)、3D缩略图、三维查看器.在在MMDBMMDB看搜到蛋白的结构看搜到蛋白的结构(NCBI)(NCBI) MMDB (Molecular Modeling Database): NCBI

4、的大分子三维结构数据库,数据来自PDB 打开的单个蛋白的页面中包括 文献、简单描述、入库日期、物种(taxonomy) 该蛋白的PDB, VAST链接(entire chain/View 3D Alignment) 三维查看器(Cn3D) 分子成分(图): chain, 3D domain, classification/family, ligand.点击其中的点击其中的PDB (RCSB)PDB (RCSB)链接,显示链接,显示 三维结构实验数据 蛋白分类pSCOP链接: 结构域(家族,超家族)pCATH链接: 域, Class, Architecture, Topology, Homolo

5、gypGO链接: 功能,过程,细胞组成 更多信息p生化性质,配体,SNPp(Sequence Details)图形显示各域的分布,类别,DSSP二级结构,PDP域p更多外部链接(对于RecBCD多达26个).更多有用的链接更多有用的链接 PDB的外部链接中Compute pI Mw点击Chain B (可计算各链分子量) 在打开的Compute pI/Mw页面中点击EX5B_ECOLI (ExPASy,大量信息,链接) 在打开的UniProtKB/Swiss-Prot页面中点击EcoCyc:EG10824-MONOMER (biocyc,参与的反应/路径图).蛋白质结构分析蛋白质结构分析蛋白质

6、一级结构蛋白质一级结构蛋白质基本理化性质分析蛋白质基本理化性质分析蛋白质亲疏水性分析蛋白质亲疏水性分析蛋白质跨膜区结构预测蛋白质跨膜区结构预测蛋白质二级结构蛋白质二级结构蛋白质二级结构预测蛋白质二级结构预测(螺旋,螺旋,折叠等)折叠等)蛋白质超二级结构蛋白质超二级结构蛋白质结构域分析蛋白质结构域分析蛋白质三级结构蛋白质三级结构蛋白质三维结构模拟蛋白质三维结构模拟.蛋白质结构预测过程蛋白质结构预测过程ORF翻译翻译实验数据实验数据蛋白质理化性质蛋白质理化性质和一级结构和一级结构数据库搜索数据库搜索结构域匹配结构域匹配已知结构的已知结构的同源蛋白?同源蛋白?三维结构模型三维结构模型可用的折可用的折

7、叠模型?叠模型?同源同源建模建模有有二级二级结构预测结构预测无无串线法串线法有有从头从头预测预测无无.蛋白质的基本性质:蛋白质的基本性质:相对分子质量 氨基酸组成 等电点(pI) 消光系数半衰期 不稳定系数 总平均亲水性 .AACompldent利用未知蛋白质的氨基酸组成确认具有相同组成的已知蛋白Compute pI/Mw计算蛋白质序列的等电点和分子量ProtParam对氨基酸序列多个物理和化学参数(分子量、等电点、吸光系数等)进行计算PeptideMass计算相应肽段的pI和分子量SAPS利用蛋白质序列统计分析方法给出待测蛋白的物理化学信息蛋白质理化性质分析工具蛋白质理化性质分析工具.Pro

8、tParam 工具简介工具简介基于蛋白质序列的组分分析基于蛋白质序列的组分分析氨基酸亲疏水性等分析为高级结构预测提供参考氨基酸亲疏水性等分析为高级结构预测提供参考Expasy 开发的针对蛋白质基本理化性质的分析:开发的针对蛋白质基本理化性质的分析: ProtParam 工具工具 计算以下物理化学性质:计算以下物理化学性质:相对分子质量 氨基酸组成等电点(pI) 消光系数半衰期 不稳定系数总平均亲水性 . 如果分析如果分析Swiss-ProtSwiss-Prot和和TrEMBLTrEMBL数据库中序列数据库中序列 直接填写直接填写Swiss-Prot/TrEMBL ACSwiss-Prot/Tr

9、EMBL AC号号(accession number)(accession number) 如果分析新序列:如果分析新序列: 直接在搜索框中粘贴氨基酸序列直接在搜索框中粘贴氨基酸序列.proteins in water measured at 280 nm: Ext(Tyr) = 1490, Ext(Trp) = 5500, Ext(Cystine) = 125.注意:注意:ProtParamProtParam没有考虑蛋白质翻译后修饰、蛋白质多聚体等情况,故用没有考虑蛋白质翻译后修饰、蛋白质多聚体等情况,故用户在预测和分析此类特定蛋白质的基本理化性质时需要仔细审视反馈结果。户在预测和分析此类特

10、定蛋白质的基本理化性质时需要仔细审视反馈结果。蛋白质结构预测蛋白质结构预测.跨膜区预测:跨膜区预测:膜蛋白是一类结构独特的蛋白质,在各种细胞中普遍存在,同时发膜蛋白是一类结构独特的蛋白质,在各种细胞中普遍存在,同时发挥着重要的生理功能。挥着重要的生理功能。一、跨膜区分析一、跨膜区分析(a)-Type I membrane protein(b)-Type II membrane protein(c)-Multipass transmembrane proteins(d)-Lipid chain-anchored membrane proteins(e)-GPI-anchored membrane

11、 proteins.蛋白质跨膜区特性蛋白质跨膜区特性 典型的跨膜螺旋区主要是由2030个疏水性疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成; 亲水残基往往出现在疏水残基之间,对功能有重要的作用; 基于亲/疏水量和蛋白质跨膜区每个氨基酸的统计学分布偏好性。跨膜蛋白序列跨膜蛋白序列“边界边界”原则原则 胞外末端胞外末端:Asp(天冬氨酸)、Ser(丝氨酸)和Pro(脯氨酸) 胞外胞外- -内分界区内分界区:Trp(色氨酸) 跨膜区跨膜区:Leu(亮氨酸)、Ile(异亮氨酸)、Val(缬氨酸)、Met(甲硫氨酸)、Phe(苯丙氨酸)、Trp(色氨酸)、Cys(半胱氨酸)、Al

12、a(丙氨酸)、Pro(脯氨酸)和Gly(甘氨酸) 胞内胞内- -外分界区外分界区:Tyr(络氨酸)、 Trp(色氨酸)和Phe(苯丙氨酸) 胞内末端胞内末端:Lys(赖氨酸)和Arg(精氨酸).DAS用Dense Alignment Surface(DAS)算法来预测无同源家族的蛋白跨膜区HMMTOP由Enzymology研究所开发的蛋白质跨膜区和拓扑结构预测程序SOSUI由Nagoya大学开发一个具有图形显示跨膜区的程序TMAP基于多序列比对来预测跨膜区的程序TMHMM基于HMM方法的蛋白质跨膜区预测工具TMpred基于对TMbase数据库的统计分析来预测蛋白质跨膜区和跨膜方向TopPred

13、是一个位于法国的蛋白质拓扑结构预测程序.TMpred 工具简介工具简介 依靠跨膜蛋白数据库依靠跨膜蛋白数据库TMbaseTMbase 预测跨膜区和跨膜方向预测跨膜区和跨膜方向.主要参数主要参数/ /选项选项序列在线提交形式:序列在线提交形式:直接贴入蛋白序列直接贴入蛋白序列填写填写SwissProt/TrEMBL/EMBL/EST的的ID或或AC.输出结果输出结果可能的跨膜螺旋区可能的跨膜螺旋区相关性列表相关性列表.26.二、信号肽分析二、信号肽分析信号肽:信号肽:指分泌蛋白表达时氨基端(指分泌蛋白表达时氨基端(N-N-,有时不在,有时不在N N端)的端)的2020余个氨基酸,将引余个氨基酸,

14、将引导该蛋白质最终分泌到细胞外,但这段信号肽会被信号肽酶切掉,所以成熟的分导该蛋白质最终分泌到细胞外,但这段信号肽会被信号肽酶切掉,所以成熟的分泌蛋白是不含这段信号肽的。信号肽可以指导蛋白质的跨膜转移。泌蛋白是不含这段信号肽的。信号肽可以指导蛋白质的跨膜转移。信号肽预测工具:信号肽预测工具:SignalP server SignalP server ( ).三、蛋白质二级结构分析(三、蛋白质二级结构分析(螺旋、螺旋、折叠折叠)蛋白质二级结构及类型蛋白质二级结构及类型.BCM SearchLauncher 包括了常见的蛋白质结构分析程序入口,一般分析可以以此服务器作为起点Prof基于多重序列比对

15、预测工具PSIpred提供跨膜蛋白拓扑结构预测和蛋白profile折叠结构识别工具nnPredict预测蛋白质序列中潜在的亮氨酸拉链结构和卷曲螺旋PredictProtein提供多项蛋白质性质分析,并有较好准确性PREDATOR预测时考虑了氨基酸残基间的氢键.PredictProtein PredictProtein ( () 可以获得功能预测、二级结构、基序、二硫键结构、结构域等许多蛋白质序列的结构信息。 该方法的平均准确率超过72%,最佳残基预测准确率达90%以上。因此,被视为。 用户需要注册注册IDID、验证验证E-mailE-mail后,才能使用PredictProtein工具。.重要

16、的算法:重要的算法:PROFsecPROFsec( 螺旋,螺旋, 折叠等折叠等基本二级结构预测)基本二级结构预测)PHDhtmPHDhtm(典型跨膜螺旋区预(典型跨膜螺旋区预测)测)ProSiteProSite(特征(特征MotifMotif识别方法)识别方法).结果名称结果名称说明说明Secondary Structure蛋白质二级结构预测蛋白质二级结构预测Transmembrane典型跨膜螺旋区预测典型跨膜螺旋区预测Coiled Coils卷曲螺旋预测Low complexity segments低复杂区域识别Non-Ordinary Secondary Structure非典型二级结构预

17、测Localization蛋白质定位预测Disulphide Bonds二硫键位置预测二硫键位置预测Trans-Membrane Beta-Barrel-桶状跨膜区预测(细菌)Protein Disorder蛋白质结果无序性分析Ambivalent Switches识别构象变化的氨基酸Protein-Protein binding蛋白质-蛋白质结合位点识别Protein-DNA binding蛋白质-DNA结合位点识别Globular球状蛋白预测结果Prosite基序(基序(Motif)识别和分类)识别和分类.四、蛋白质结构域预测四、蛋白质结构域预测结构域结构域(Structural Doma

18、inStructural Domain)是蛋白序列的)是蛋白序列的功能功能、结构结构和和进化单元。进化单元。结构域通常结构域通常都是几个超二级结构单元的组合,即蛋白质多肽链在二级结构的基础上进一步卷都是几个超二级结构单元的组合,即蛋白质多肽链在二级结构的基础上进一步卷曲折叠成几个相对独立的近似球形的组装体。曲折叠成几个相对独立的近似球形的组装体。结构域是介于二级和三级结构之间结构域是介于二级和三级结构之间的另一种结构层次。的另一种结构层次。结构域的实质是二级结构的组合体,充当三级结构的元件。结构域的实质是二级结构的组合体,充当三级结构的元件。. .工具工具网站网站备注备注CDD通过比较目标序列

19、和一组位置特异性打分矩阵进行RPS-BLAST来确定目标序列中的保守结构域HAMAP通过专家预测系统产生的微生物家族同源蛋白数据InterPro蛋白质家族、结构域和功能位点的联合资蛋白质家族、结构域和功能位点的联合资源数据库,整合了多个数据库和工具的结源数据库,整合了多个数据库和工具的结果,并提供相应的链接果,并提供相应的链接Pfam每个蛋白家族包含了多序列比对、pro和注释文件ProDom从SWISS-PROT/TrEMBL数据库中的非片段蛋白序列数据构成,每条记录包含一个同源结构域多重比对和家族保守一致性序列SMART由EMBL建立,集成了大部分已知蛋白功能域数据,注释包括了功能类型、三维

20、结构、分类信息.InterPro: InterPro数据库由EBI开发,整合蛋白质家族家族、结构域结构域和功能位点功能位点等资源。整合UniProt、PROSITE、Pfam等12个成员数据库,检索结果准确。目前最新的InterPro 34.0版本包含22245个条目,涵盖63096309个结构域个结构域、14854个蛋白质家族(截至2011年11月底)。.InterProScan: InterProScan: http:/http:/提供在线提交和本地分析工具(提供在线提交和本地分析工具(LinuxLinux系统)系统).Gene Ontology(基因本体论)】,用于蛋白的功能分类。包含基

21、因产物的相关分子功能、生物学途径和细胞学组件,根据这三个方面的内容对基因进行分类。.保守区位置保守区位置.AC号,家族名称号,家族名称蛋白家族信息蛋白家族信息其他数据库中的收录情况其他数据库中的收录情况相关的其他家族相关的其他家族条目类型条目类型GO术语注释术语注释说明说明结构链接结构链接数据库链接数据库链接.该家族蛋白在不该家族蛋白在不同种类生物体中同种类生物体中出现情况出现情况其他家族与该其他家族与该家族的重叠情家族的重叠情况况.五、蛋白三级结构研究方法五、蛋白三级结构研究方法实验方法1、X光晶体衍射2、核磁共振(NMR)计算方法1、从头算方法(ab initio/de novo)/理论分

22、析法p 分子动力学p 能量最低假设2、比较建模(comparative modeling)p 基于同源性.1 1、从头算方法、从头算方法(ab initio/de novo)/(ab initio/de novo)/理论分析法理论分析法 根据物理化学原理(如原子之间作用力),建立模型,预测结构 一些问题p 自然的蛋白质结构和未折叠的蛋白质结构,两者之间的能量差非常小(1kcal/mol数量级)p 蛋白质可能的构象空间庞大,针对蛋白质折叠的计算量非常大p 计算模型中力场参数的不准确性 待测蛋白没有同源性时可用此法.2 2、比较建模比较建模/ /同源模型化方法同源模型化方法( (统计方法统计方法)

23、 )通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元,如: 锌指结构、螺旋-转角-螺旋结构、DNA结合区域等(motif)原理:许多不同的序列会采用同一个基本的折叠,具有相似序列的蛋白倾向于有相似结构,一对自然进化的蛋白,如果它们的序列具有2530%的等同部分,可以假设它们结构相似。步骤Step 1、识别结构保守域Step 2、将待测蛋白与模板比对,保留30%同源性的结果Step 3、建模Step 4、评价模型,一般而言,同源性越高,结构预言越精确,50%同源性,精确度可达1埃.比较建模比较建模网站网站基于序列同源比对,对于序列的序列模拟比较有效,最常用的方法 CPHmodels

24、“穿”入已知的各种蛋白质折叠骨架内,适于对蛋白质核心结构进行预测,计算量大THREADER3D-PSSM基于分子动力学,寻找能量最低的构象,计算量大,只能做小分子预测HMMSTRROSSETA.同源建模法分析步骤:同源建模法分析步骤:1 1、多、多序列比对序列比对与已有晶体结构的蛋白质序列比对2 2、确定、确定是否有可以使用的模板是否有可以使用的模板p序列相似度30%p序列相似度30%,结合功能,蛋白质一级序列、二级结构或结构域信息3 3、构建、构建三维模型三维模型4 4、三维、三维模型准确性检验模型准确性检验pWhatcheck 程序pRamachandran plot计算检验5 5、手工、手工调整多序列比对,重新拟调整多序列比对,重新拟合,构建新的模型合,构建新的模型. SWISS-MODELSWISS-MODEL工具工具 () 同源建模方法同源建模方法 与与PDBPDB数据库已知结构的蛋白质序列比对进行预测数据库已知结构的蛋白质序列比对进行预测.Anolea(Atomic Non-Local Environment Assessment):):is a server that performs energy calculations

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论