第六章 蛋白质结构预测的原理与方法.ppt_第1页
第六章 蛋白质结构预测的原理与方法.ppt_第2页
第六章 蛋白质结构预测的原理与方法.ppt_第3页
第六章 蛋白质结构预测的原理与方法.ppt_第4页
第六章 蛋白质结构预测的原理与方法.ppt_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章蛋白质结构预测的原理与方法 2 主要内容 6 1概述 6 2蛋白质结构分析 6 3二级结构预测 6 4三级结构预测 3 http www expasy org proteomics expasy 主要分析软件资源 4 6 1概述 6 一 基本概念 蛋白质结构预测 指从蛋白质的氨基酸序列预测出其三维空间结构 蛋白质折叠 指蛋白质的氨基酸序列可折叠成具有生物活性的三维空间结构 第二套遗传密码 蛋白质的氨基酸序列与其三维空间结构间的关系 7 序列模体 motif 通常指蛋白质序列中相邻或相近的一组具有保守性的残基 或称基序 它与蛋白质分子及其家族的功能有关 8 二 蛋白质结构数据的获得 圆二色性 circulardichroism cd 描绘了不对称分子的用左右圆偏振光吸收差异谱表示的光学活性 在160 240nm的cd光谱可以快速了解蛋白质的二级结构 因为 螺旋 折叠和卷曲产生不同的cd谱 x射线晶体衍射核磁共振光谱 nuclearmagneticresonancespectroscopy nmr 9 三 蛋白质结构预测要解决的问题 蛋白质结构预测问题 序列 结构 功能 三者之间的关系 gly ala glu phe function 10 又称蛋白质侵染因子 朊病毒是一类能侵染动物并在宿主细胞内复制的小分子无免疫性疏水蛋白质 目前发现的由朊病毒引起的疾病并不多 主要有 人类中的库鲁病 kuru病 克 雅氏综合症 cjd 格斯特曼综合症 gss 及致死性家族性失眠症 ffi 动物中的水貂脑软化病 羊搔症 马鹿和鹿的慢性消瘦病 萎缩病 猫的海绵状脑病 疯牛病 这些疾病主要是引起神经系统和肌肉组织的损坏 案例 朊病毒 11 折叠 正常3 致病43 12 致病机理1982年普鲁辛纳提出了朊病毒致病的 蛋白质构象致病假说 以后魏斯曼等人对其逐步完善 其要点如下 朊病毒蛋白有两种构象 细胞型 正常型prpc 和瘙痒型 致病型prpsc 两者的主要区别在于其空间构象上的差异 prpc仅存在a螺旋 而prpsc有多个 折叠存在 后者溶解度低 且抗蛋白酶解 prpsc可胁迫prpc转化为prpsc 实现自我复制 并产生病理效应 基因突变可导致细胞型prpsc中的 螺旋结构不稳定 至一定量时产生自发性转化 片层增加 最终变为prpsc型 并通过多米诺效应倍增致病 13 gly ala glu phe 结构预测问题 function 关键限制因素 14 解决方法 gly ala glu phe function 解决方案 15 四 蛋白质预测的一般流程 16 五 影响蛋白质折叠的因素 影响蛋白质结构稳定性的非共价键有 范德华力 偶极相互作用 部分电荷或完整电荷间静电相互作用 氢键 氢键是形成蛋白质中规则二级结构的主要作用力 熵效应 除了原子间的共价连接以外 蛋白质结构的形成及稳定性在很大程度上依赖于非键相互作用 17 熵效应 是热力学的一个概念 它是指在一个封闭的并存在能量差异的系统中 虽然系统内总能量保持守衡 但能量却总是不可逆转地由高能区向低能区流动 最终达到能量的分散与平衡的一种状态和趋势 6 2蛋白质结构分析 19 一 蛋白质结构分类 蛋白质结构依据不同的层次可以分为四类 1 一级结构 氨基酸序列 2 二级结构 规则结构 如a螺旋 折叠 3 三级结构 简单蛋白质的三维空间结构 或复杂蛋白质亚基的三维空间结构 4 四级结构 亚基的组装 20 gly ala glu phe 一级结构 二级结构 三级结构 四级结构 21 四级结构 quaternarystructure 由多个亚基组成的蛋白质分子的空间结构 五级结构 quinternarystructure 蛋白质与蛋白质 蛋白质与核酸相互作用时的空间位置关系 22 二 周期性的二级结构 1 螺旋是蛋白质结构中最常见的二级结构 由于在 螺旋内部每隔3 4个氨基酸残基形成氢键 因而本身的稳定性较好 螺旋由于与溶剂的作用或中间有脯氨酸等也会发生弯曲 不同的残基对于 螺旋中间部位及n端或c端出现的倾向性不同 2 折叠片是由带状的 折叠股间形成氢键而构成的 在氨基酸序列上往往是不连续的 几乎所有的 折叠片在沿着 折叠股的方向均发生右手的扭曲 在 折叠股间形成左手的扭曲 某些残基倾向于出现在 折叠中 23 三 非周期性的二级结构 连接规则二级结构间的区域统称为环区 loop或coil 简写为c 这些环区本身的结构也是遵循一定规律的 转角是由四个残基构成的 使得蛋白质主链的走向形成180度的回折 转角可以分为几种特定的类型 并具有一定的氨基酸残基倾向性 由三个残基构成的主链的回折称之为 转角 反平行的 折叠形成的 发夹具有特定的结构 螺旋间的短连接具有特定的结构与堆积 当较大的环区的n端与c端靠近时就形成 环 非规则性环区也可以按照其平面性 手性及n端与c端的相对位置进行分类 24 折叠 折叠 折叠 折叠 25 四 超二级结构 二级结构间特定的组合构成超二级结构 1 螺旋一般以特定的角度相堆积 使得一个螺旋的突出部分及凹槽部分与另外一个螺旋的凹槽部分及突出部分相嵌合 2 折叠片 折叠片 螺旋 折叠片间的堆积有常出现的特定模式 折叠片中的 折叠股以多种拓扑结构相连接 如希腊钥匙型结构等 平行的 折叠股间的连接 特别是 单元 总是右手型的 随着已知蛋白质结构的增加 不断有新的超二级结构类型出现 26 五 蛋白质结构域的折叠模式与蛋白质结构分类数据库 蛋白质结构域 domain 是蛋白质分子中介于二级结构和三级结构之间的结构层次 在分子量较大的球形蛋白质分子中 一条多肽链可能折叠成两个或多个空间上互相独立的区域 称为结构域 结构域可以按照二级结构的种类及排列方式进行分类 主要含有 螺旋的 结构 主要含有 折叠片的 结构 以 螺旋和 折叠交替出现的 结构 混和型的 结构 小于100残基的不含有明显规则二级结构的小蛋白 1蛋白质结构域的折叠模式 27 2蛋白质折叠模式的有限性 研究表明 一些序列 功能很不同的蛋白质采用类似的结构 这就提示人们蛋白质折叠模式的种类可能是有限的 当务之急发展快速的能够对蛋白质的折叠类型进行识别的方法 28 3蛋白质分类数据库 蛋白质结构分类数据库对于蛋白质预测具有重要的意义 两个重要的蛋白质结构分类数据库 1 scop数据库2 cath数据库 29 六 蛋白质的进化 1 同源性的蛋白质 homologousprotein 是从一个共同的祖先进化而来的 往往具有相关的功能 例如丝氨酸蛋白酶 并采取相似的三维结构 2 序列的相似性有时可低到20 以下 但三维结构在总体上是保守的 3 蛋白质结构的核心在序列上及三维结构上均比表面环区更保守 同源的蛋白质往往具有相似的三维结构 但具有相似的三维结构的蛋白质序列不一定是同源的 6 3二级结构预测 31 蛋白质序列 二级结构 蛋白质二级结构预测是蛋白质结构预测的主要组成部分之一 32 一 蛋白质二级结构预测概述 蛋白质的二级结构预测的基本依据是 每一段相邻的氨基酸残基具有形成一定二级结构的倾向 二级结构预测问题是模式分类问题二级结构预测的目标 判断每一段中心的残基是否处于 螺旋 折叠 转角 或其它状态 之一的二级结构态 即三态 33 基本策略 1 相似序列 相似结构 qlmgerirarrkklk qlmgaerirarrkklk 34 二 蛋白质二级结构预测的意义 蛋白质二级结构预测不仅仅可以给出二级结构信息 在实际工作中有广泛的用途 由蛋白质二级结构统计分析得到的规则可用于全新蛋白质设计或蛋白质突变体的设计 当序列同源性较低时 二级结构的指认有助于确定蛋白质间结构与功能的关系 在同源蛋白质模建中 二级结构预测有助于建立正确的序列比对关系 在基于二级结构片段堆积的三级结构预测中正确的二级结构预测是第一步 二级结构的预测有助于多维核磁共振中二级结构的指认 同时也有助于晶体结构的解析 35 三 蛋白质二级结构预测的主要方法 二级结构预测的方法大体分为三代 第一代是基于单个氨基酸残基统计分析从有限的数据集中提取各种残基形成特定二级结构的倾向 以此作为二级结构预测的依据 第二代预测方法是基于氨基酸片段的统计分析统计的对象是氨基酸片段片段的长度通常为11 21片段体现了中心残基所处的环境在预测中心残基的二级结构时 以残基在特定环境形成特定二级结构的倾向作为预测依据 36 第一代和第二代预测方法对三态预测的准确率都小于70 而对 折叠预测的准确率仅为28 48 其主要原因是只利用局部信息第三代方法 考虑多条序列的同源进化信息运用长程信息和蛋白质序列的进化信息准确度有了比较大的提高 37 1chou fasman方法chou fasman方法曾经是 现在仍然是最为普遍应用的方法 其基本出发点在于对于蛋白质20种不同的氨基酸残基在不同的二级结构中出现的几率进行统计分析得出在不同二级结构中出现的倾向性 2gor方法gor garnier osguthorpe robson 方法基于信息论算法 是所有统计算法中理论基础最好的 3最近邻居方法在最近邻居方法 nearestneighbormethod 中新测定的序列被归类于与已知的最相近的序列具有相同的二级结构 38 4神经网络方法相对而言神经网络方法便于应用 有较高的预测准确度 最大的缺点是没有明确的物理化学意义 其中phd方法是广泛应用的预测方法 5基于多重序列比对的二级结构预测基于单个序列的二级结构预测方法的预测准确度相对较低 大约在58 左右 而基于多重序列比对的二级结构预测方法psi pred的预测准确度可达到77 39 四 二级结构预测的准确度 二级结构预测方法针对不同蛋白质所给出的准确度可能会有很大差别 1 单序列的预测准确度在60 左右 2 应用多重序列对比信息的二级结构预测准确度在65 85 之间 40 五 二级结构在线预测 许多蛋白质二级结构预测程序可以从因特网上免费下载至本地计算机进行蛋白二级结构预测 另外 还可以进行在线计算 可以通过送email的方式 也可以在因特网上实时计算 可以进行二级结构在线预测两个网站为 1 phd算法predictprotein网站的地址为 http www predictprotein org 2 sspro4 0 神经网络 http scratch proteomics ics uci edu 41 predictproteinhttp www predictprotein org 可以获得功能预测 二级结构 基序 二硫键结构 结构域等许多蛋白质序列的结构信息该方法的平均准确率超过72 最佳残基预测准确率达90 以上 因此 被视为蛋白质二级结构预测的标准 需要学术邮箱注册 42 predictprotein提交界面 43 分析方法程序详解 44 跨膜区 非跨膜区 45 46 47 结果发送至邮箱 48 结果直接发送至邮箱 如下 49 a typeimembraneprotein b typeiimembraneprotein c multipasstransmembraneproteins 多通道跨膜蛋白 d lipidchain anchoredmembraneproteins 链吸附酯膜蛋白 e gpi anchoredmembraneproteins gpi吸附膜蛋白 糖基磷脂酰肌醇 六 蛋白质跨膜区分析 50 螺旋跨膜区主要是由20 30个疏水性氨基酸 leu ile val met gly ala等 组成 亲水残基往往出现在疏水残基之间 对功能有重要的作用 基于亲 疏水量和蛋白质膜区每个氨基酸的统计学分布偏好性量 蛋白质跨膜区特性 51 跨膜蛋白序列 边界 原则 landoltmarticorenaetal 1993 胞外末端 asp 天冬氨酸 ser 丝氨酸 和pro 脯氨酸 胞外 内分界区域 trp 色氨酸 跨膜区 leu 亮氨酸 ile 异亮氨酸 val 缬氨酸 met 甲硫氨酸 phe 苯丙氨酸 trp 色氨酸 cys 半胱氨酸 ala 丙氨酸 pro 脯氨酸 和gly 甘氨酸 胞内 外分界区域 tyr 酪氨酸 trp 色氨酸 和phe 苯丙氨酸 胞内末端 lys 赖氨酸 和arg 精氨酸 常用蛋白质跨膜区域分析工具 53 tmpred tmpred工具 http www ch embnet org software tmpred form html依靠跨膜蛋白数据库tmbase预测跨膜区和跨膜方向 在expasy网站上有链接 http expasy org tools 54 55 主要参数 选项 序列在线提交形式 直接贴入蛋白序列填写swissprot trembl embl est的id或ac 56 输出结果 包含四个部分可能的跨膜螺旋区相关性列表 57 57 跨膜拓扑模型及图示 58 tmhmm http www cbs dtu dk services tmhmm 59 输出结果 6 4三级结构预测 61 三维结构数据与一维序列数据在量上增长速度严重不协调 原因 1直接测定法 速度慢2预测法 在方法上 还没有一个方法或程序可以真正做到所谓的 从头 预测蛋白的三维结构 62 一 同源蛋白质结构预测 又称同源模型化方法主要思想 对于一个未知结构的蛋白质 找到一个已知结构的同源蛋白质 以该蛋白质的结构为模板 为未知结构的蛋白质建立结构模型 依据 任何一对蛋白质 如果两者的序列等同部分超过30 则它们具有相似的三维结构 即两个蛋白质的基本折叠相同 只是在非螺旋和非折叠区域的一些细节部分有所不同 63 同源蛋白质结构预测的方法 1 片段组装法 swiss model2 距离几何法 modeller swiss model http swissmodel expasy org swiss model html 64 65 66 最后的预测结果 67 模板序列与查询序列的装载 结构的精细比对 分子骨架的形成 侧链形成和优化 加入氢原子 优化回环 能量最小化 结构封装 swiss model的工作过程 68 二 蛋白质折叠类型识别 又称线索化方法有很多蛋白质具有相似的空间结构 但它们的序列等同部分小于25 即远程同源 对于这类蛋白质 很难通过序列比对找出它们之间的关系 必须设计新的分析方法 69 对于一个未知结构的蛋白质 u 如果找到一个已知结构的远程同源蛋白质 t 那么可以根据t的结构模板通过远程同源模型化方法建立u的三维结构模型 u t 远程同源 70 线索化的主要思想 利用氨基酸的结构倾向 如形成二级结构的倾向 疏水性 极性等 评价一个序列所对应的结构是否能够适配到一个给定的结构环境中 71 线索化方法一般有5个基本组成部分 1 已知三维折叠结构的数据库 2 一种适合于进行序列 结构比对的三维折叠信息的表示方法 3 一个序列 结构匹配函数 该函数对匹配程度进行打分 4 建立最优线索的策略 或者是进行序列 结构比对的策略 5 一种评价序列 结构比对显著性的方法 72 假设存在有限数目的核心折叠 corefolds 核心折叠实际上是构成蛋白质空间形状的基本模式 建立核心折叠数据库预测 建立线索 u序列 与数据库核心折叠比对 取最佳核心折叠 u结构模型 73 http www sbg bio ic ac uk phyre index cgi phyre 与已知折叠子比对 74 三 蛋白质结构从头预测 在既没有已知结构的同源蛋白质 也没有已知结构的远程同源蛋白质的情况下 上述两种蛋白质结构预测的方法都不能用 这时只能采用从头预测方法 即直接或仅仅根据序列本身来预测其结构 75 从头预测方法一般由下列3个部分组成 1 一种蛋白质几何的表示方法由于表示和处理所有原子和溶剂环境的计算开销非常大 因此需要对蛋白质和溶剂的表示形式作近似处理 2 一种势函数及其参数通过对已知结构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论