结构生物信息学第二部分_第1页
结构生物信息学第二部分_第2页
结构生物信息学第二部分_第3页
结构生物信息学第二部分_第4页
结构生物信息学第二部分_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、蛋白质结构预测与建模 一维信息预测 跨模蛋白预测 特殊的超二级结构预测(coiled-coils) 二级结构预测 溶剂可接近性预测 三维结构预测 比较建模 折叠识别 从头预测结构预测的原理物理假设:蛋白质天然结构自由能最低自由能最低的结构-天然结构进化:同源蛋白有相似的结构物理原理和进化原理结合: 目前可回答的问题 比较建模: 以高同源性蛋白的空间结构为模板,可以建立高分辨的三维结构模型-分子设计 可以利用结构信息建立更准确的序列比对 可以利用结构信息找出仅根据序列难以发现的相似性膜的物理化学特性:表面:极性、带电内部:疏水氨基酸侧链的疏水指数(Kyte and Doolittle hydro

2、phobicity scale)Ala1.8Arg-4.5Asn-3.5Asp-3.5Cys2.5Gln-3.5Glu-3.5Gly-0.4His-3.4Ile-4.5Leu3.8Lys-3.9Met1.9Phe2.8Pro-1.6Ser-0.8Thr-0.7Trp-0.9Try-1.3Val4.2跨膜蛋白的拓扑结构: positive-inside 规则跨膜蛋白跨膜区、拓扑结构预测 疏水指数 (Kyte and Doolittle) 疏水矩(两亲性) (Eisenberg) 内正规则 利用多序列比对信息方法与程序:PHDhtm (利用神经网络和多序列比对)DAS: Consensus pro

3、file use alignment of known TM proteinsHMMTOP, TMHMM跨膜螺旋:侧链的水-脂性溶剂的转移自由能必须有利长度:19个残基左右程序/服务器 HMMTOP http:/www.enzim.hu/hmmtop (无法连接) TopPred http:/bioweb.pasteur.fr/seqanal/interfaces/toppred.htmlCoiled-coils COILS /software/COILS_form.htmlOther programs: paircoil multicoil程序二

4、级结构预测 为什么进行二级结构预测 结构单元划分 功能位点预测 比较建模与折叠识别二级结构预测的基本原理 不同氨基酸残基在不同二级结构中出现的倾向性不同。 由于二级结构上氨基酸的环境可能周期性变化,使不同类型氨基酸排列呈现一定周期性。 二级结构的起始/终止位置有常见模式。 进化过程中的上述规律的保守性。Protein secondary structure predictionChou-Fasman method三态:alpha-helix, beta-strands, turns: 1. 氨基酸残基的二级结构倾向性 probability of a in secondary structur

5、e s probability of any residue in structure s 2. for alpha and beta, find short “core” based on propensity extend the prediction until the prediction for 4 residues drop below 1. 3. Turns are predicted as tetrapeptide, GOR methodUse score matrices 17residuesC20 amino-acid types)(/ )|(log);(SPaSPaSIS

6、: structure; a: amino acids);()(1)();(1);()(/ )(1log);(1/);(log);();();(aSIeSPSPaSPaSPSPSPaSPaSPaSnotIaSIaSIThe program combines several explicit parameters in order to get a meaningfull prediction. It runs the GOR3 algorithm (Gibrat et al., (1987), based on information theory applied to local inter

7、actions) on every sequences, to provides mean potentials for the three states. In addition, DSC uses the presence of insertions/deletions, the distance from the end of the chain, the moment of conservation and the moment of hydrophobicity (the two last parameters given an a-helical structure and a b

8、-strand structure). A linear combination of these different attributes gives an output which is subsequently filtered. DSCNeural net work methodinput layerhidden layerhidden layers are used to identifypossible higher order correlationsbetween positions in input layersNearest neighbor MethodsLibrary

9、of fragments of sequences with known secondary structuresQuery match the fragments, prediction based on most similar fragments二级结构预测 应用多序列信息,正确率可以达到80%以上 但是不同蛋白的预测正确率差别很大 很多方法不但给出定性预测结果,还给出能在一定程度上反映结果可靠性的记分值。将分值对氨基酸位置作图常常能够使你对预测结果进行更为客观的判断。 采用多种方法,选择一致预测 人工观察Mannual InterventionConsensus picture of

10、predictions/Predict proteinType MethodsPrediction server PredictProtein Databases searched for homologues SWISS-PROT TrEMBL PDB BIG (SWISS+TrEMBL+PDB) Alignment and database searching methods MaxHom BLASTP PSIblast Sequence motif searching methods ProSite ProDom SEG Predi

11、ctNLS Prediction of protein structure PHD PHDsec PHDacc PHDhtm PROF PROFsec PROFacc GLOBE TOPITS COILS DISULFIND ASP Tools used for PP MView Tools available with PP output ESPript 比较建模已知蛋白的三分之一以上有已知结构的同源蛋白结构基因组:测定所有有代表性的模板结构(10%的蛋白)比较建模的基本步骤1. 模板辨识2. 模板与目标序列的比对3. 建立并修正目标序列的三维结构模型4. 模型评估每一步的难度和对结果精度的

12、影响在很大程度上取决于目标序列与模板的同源程度、loop区的比例、插入缺失情况等sequences of known structuressequences of known proteinstarget sequence模板识别 (容易:BLAST搜索 困难:见折叠识别部分)known structures(1) 通过序列比对的数据库检索(blasp、fasta)sequences of known structuressequences of known proteinstarget sequenceidentify templatesknown structures(2) databas

13、e search based on multiple sequence alignment: PSI-blastsequences of known structuressequences of known proteinstarget sequenceidentify templatesknown structures(2)通过序列profile搜索 (psiblast)profileprofileThreading 方法已知结构threading目标序列基于结构特征的残基替换矩阵 已知结构比对(e.g. Dali、CE) 按位点的结构特征进行分类(如二级结构、包埋于暴露程度) 对不同类型的

14、位点构建残基替换矩阵 Example: FUQUE另一类方法: 用二级结构预测程序如PHD对目标序列的二级结构、溶剂暴露程度等进行预测。 根据预测结果进行比对。既用于折叠识别,也用于比较建模。模板识别可靠性依赖于模板与目标序列同源程度即使是低精度的模型也可能对实验有所帮助可以通过对多个可能模板建模等建立多个可能模型。在模型评估或实验检验中选择出正确模型。模板与序列的比对高同源序列(40% identity): 相对统一低同源性: (30% identity): 误差较大 (序列比对的结果与结构比对结果不一致)是目前比较建模中误差较大的一步。目前最好的方法:利用结构信息的比对方法 这在一些自动的

15、比较建模程序中(如modeller)已经得以实现。建立初始模型刚性片段组装坐标重构约束修正比较建模的误差/错误来源Wrong templateWrongly aligned regionsRegions cannot be aligneddistortions of correctly aligned regionsErrors in side-chain packing精度依赖于目标与模板的同源程度40%: 90% main chain atoms 1angstrom RMSD30%40%: 80% main chain atoms, 1.5 angstrom RMSD3 A RMSD 模型

16、评估PROCHECK:可以检查稽核构型、空间堆积等有无明显错误。检查二面角分布是否在容许区域。多个模型: 可以尝试用经验的能量函数进行区分。折叠类型识别给予序列profile比对的方法 建立目标序列与同源序列的多序列比对及序列profile 建立模板序列与同源序列的多序列比对及序列profile 通过比较profile识别目标序列的蛇叠类型基于能量函数的方法基本假设: 蛋白质的天然结构对应于自由能最低的折叠状态 通过threading找出将目标序列“映射”到模板的最低自由能的映射方式 比较threading到不同模板的能量,找出能量最低的模板 计算量较大目前绝大多数程序均采用杂合的方法。问题: 给定蛋白质序列(目标序列) 蛋白质空间结构模板(模板库)目标序列折叠成与模板库中哪个蛋白类似的结构?3D-shotgunhttp:/bioinfo.pl/meta/http:/bioinfo.pl/meta/livebench.plLivebench: 对网上服务器的动态评测结果Meta server:根据其他服务器返回的最优预测结果选择/组合三维预测。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论