




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精品文档 1欢迎下载 第第 7 7 章章 蛋白质结构预测蛋白质结构预测 一种生物体的基因组规定了所有构成该生物体的蛋白质 基因规定了蛋白质的氨基酸序列 虽 然蛋白质由氨基酸的线性序列组成 但是它们只有折叠成特定的空间构象才能具有相应的活性和生 物学功能 了解蛋白质的空间结构不仅有利于认识蛋白质的功能 也有利于认识蛋白质是如何执行 其功能的 确定蛋白质的结构对于生物学研究是非常重要的 目前 蛋白质序列数据库的数据积累 的速度非常快 但是已知结构的蛋白质相对比较少 尽管蛋白质结构测定技术有了较为显著的进展 但是通过实验方法确定蛋白质结构的过程仍然非常复杂 代价较高 因此实验测定的蛋白质结构比 已知的蛋白质序列要少得多 另一方面 随着 DNA 测序技术的发展 人类基因组及更多的模式生物 基因组已被或将被完全测序 DNA 序列数量将会急增 而由于 DNA 序列分析技术和基因识别方法的 进步 我们可以从 DNA 推倒导出大量的蛋白质序列 这意味着已知序列的蛋白质数量和已测定结构 的蛋白质数量 如蛋白质结构数据库 PDB 中的数据 的差距将会越来越大 人们希望产生蛋白质结 构的速度能够跟上产生蛋白质序列的速度 或者减小两者的差距 那么如何缩小这种差距呢 不能 完全依赖现有的结构测定技术 需要发展理论分析方法 这对蛋白质结构预测提出了极大的挑战 20 世纪 60 年代后期 Anfinsen 首先发现去折叠蛋白或者说变性 denatured 蛋白质在允许重新折 叠的实验条件下可以重新折叠到原来的结构 这种天然结构 native structure 对于行使生物功能 具有重要作用 大多数蛋白质只有在折叠成它们天然结构的时候才能具有完全的生物活性 自从 Anfinsen 提出蛋白质折叠的信息隐含在蛋白质的一级结构中 科学家们对蛋白质结构的预测进行 了大量的研究 分子生物学家将有可能直接运用适当的算法从氨基酸序列出发 预测蛋白质的结构 本章主要着重介绍蛋白质二级结构及空间结构预测的方法 7 17 1 引言引言 基因是生命的蓝图 蛋白质是生命的机器 来自于四种字符字母表 A T U C G 的核酸 序列中蕴藏着生命的信息 而蛋白质则执行着生物体内各种重要的工作 如生物化学反应的催化 营养物质的输运 生长和分化控制 生物信号的识别和传递等工作 蛋白质序列由相应的核酸序列 所决定 通过对基因的转录和翻译 将原来四字符的 DNA 序列 根据三联密码翻译成 20 字符的蛋 白质氨基酸序列 蛋白质具有不同的长度 不同的氨基酸排列和不同的空间结构 实验分析表明蛋白质能够形成 特定的结构 蛋白质中相邻的氨基酸通过肽键形成一条伸展的链 肽链上的氨基酸残基形成局部的 二级结构 各种二级结构组合形成完整的折叠结构 蛋白质分子很大 其折叠的空间结构会将一些 区域包裹在内部 而将其它的区域暴露在外 在蛋白质的空间结构中 序列上相距比较远的氨基酸 可能彼此接近 在水溶液中 肽链折叠成为特定的三维结构 主要的驱动力来自于氨基酸残基的疏 水性 氨基酸残基的疏水性要求将氨基酸疏水片段放置于分子的内部 图 7 1 a 是酪氨酸磷酸 酶的蛋白质序列 图 7 1 b 是对应的二级结构 其中 H 代表螺旋 E 代表折叠 B 表示 桥 G 表示 310 螺旋 I 表示 螺旋 T 表示氢键转角 S 代表转向 图 7 1 c 显示的是该蛋白质的折 叠结构 研究蛋白质的结构意义重大 分析蛋白质结构 功能及其关系是蛋白质组计划中的一个重要组 成部分 研究蛋白质结构 有助于了解蛋白质的作用 了解蛋白质如何行使其生物功能 认识蛋白 质与蛋白质 或其它分子 之间的相互作用 这无论是对于生物学还是对于医学和药学 都是非常 重要的 对于未知功能或者新发现的蛋白质分子 通过结构分析 可以进行功能注释 指导设计进 行功能确认的生物学实验 通过分析蛋白质的结构 确认功能单位或者结构域 可以为遗传操作提 供目标 为设计新的蛋白质或改造已有蛋白质提供可靠的依据 同时为新的药物分子设计提供合理 的靶分子及结构 精品文档 2欢迎下载 1AAX PROTEIN TYROSINE PHOSPHATASE 1B 321 MEMEKEFEQIDKSGSWAAIYQDIRHEASDFPCRVAKLPKNKNRNRYRDVSPFDHSRIKLH QEDNDYINASLIKMEEAQRSYILTQGPLPNTCGHFWEMVWEQKSRGVVMLNRVMEKGSLK CAQYWPQKEEKEMIFEDTNLKLTLISEDIKSYYTVRQLELENLTTQETREILHFHYTTWP DFGVPESPASFLNFLFKVRESGSLSPEHGPVVVHSSAGIGRSGTFCLADTCLLLMDKRKD PSSVDIKKVLLEMRKFRMGLIQTADQLRFSYLAVIEGAKFIMGDSSVQDQWKELSHEDLE PPPGHIPPPPRPPKRILEPHN a H helix B residue in isolated beta bridge E extended beta strand G 310 helix I pi helix T hydrogen bonded turn S bend b c 图 7 1 酪氨酸磷酸酶的序列及结构 a 氨基酸序列 b 二级结构 c 空间结构 精品文档 3欢迎下载 生物信息学的一个基本观点是 分子的结构决定分子的性质和分子的功能 因此 生物大分子 蛋白质的空间结构决定蛋白质的生物学功能 但是 蛋白质的空间结构又是由什么决定的呢 当一 个蛋白质的空间结构被破坏以后 或者蛋白质解折叠 可以恢复其自然的折叠结构 大量的实验结 果证明 蛋白质的结构由蛋白质序列所决定 虽然影响蛋白质空间结构的另一个因素是蛋白质分子 所处的溶液环境 但是决定蛋白质结构的信息则是被编码于氨基酸序列之中 然而 这种编码是否 能被破译呢 或者说是否能够直接从氨基酸序列预测出蛋白质的空间结构呢 蛋白质结构预测的问题从数学上讲 是寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子 三维坐标的一种映射 典型的蛋白质含有几百个氨基酸 上千个原子 而大蛋白质 如载脂蛋白 的氨基酸个数超过4500 所有可能的序列到结构的映射数随蛋白质氨基酸残基个数而呈指数增长 是天文数字 然而幸运的是 自然界实际存在的蛋白质是有限的 并且存在着大量的同源序列 可 能的结构类型也不多 序列到结构的关系有一定的规律可循 因此蛋白质结构预测是可能的 蛋白质结构预测主要有两大类方法 一类是理论分析方法或从头算方法 Ab initio 通过理 论计算 如分子力学 分子动力学计算 进行结构预测 该类方法假设折叠后的蛋白质取能量最低 的构象 从原则上来说 我们可以根据物理 化学原理 通过计算来进行结构预测 但是在实际中 这种方法往往不适合 主要有几个原因 一是自然的蛋白质结构和未折叠的蛋白质结构 两者之间 的能量差非常小 1kcal mol 数量级 二是蛋白质可能的构象空间庞大 针对蛋白质折叠的计算 量非常大 另外 计算模型中力场参数的不准确性也是一个问题 另一类蛋白质结构预测方法是统计的方法 该类方法对已知结构的蛋白质进行统计分析 建立 序列到结构的映射模型 进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构 映射 模型可以是定性的 也可以是定量的 这是进行蛋白质结构预测较为成功的一类方法 这一类方法 包括经验性方法 结构规律提取方法 同源模型化方法等 所谓经验性方法就是根据一定序列形成一定结构的倾向进行结构预测 例如 根据不同氨基酸 形成特定二级结构的倾向进行结构预测 通过对已知结构的蛋白质 如蛋白质结构数据库 PDB 蛋 白质二级结构数据库 DSSP 中的蛋白质 进行统计分析 发现各种氨基酸形成不同二级结构的倾向 形成一系列关于二级结构预测的规则 与经验性方法相似的另一种办法是结构规律提取方法 这是更一般的方法 该方法从蛋白质结 构数据库中提取关于蛋白质结构形成的一般性规则 指导建立未知结构的蛋白质的模型 有许多提 取结构规律的方法 如通过视觉观察的方法 基于统计分析和序列多重比对的方法 利用人工神经 网络提取规律的方法 同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元 如锌指 结构 螺旋 转角 螺旋结构 DNA 结合区域等 其原理是基于下述事实 每一个自然蛋白质具有 一个特定的结构 但许多不同的序列会采用同一个基本的折叠 也就是说 具有相似序列的蛋白质 倾向于折叠成相似的空间结构 一对自然进化的蛋白质 如果它们的序列具有 25 30 的等同部分 或者更多 则可以假设这两个蛋白质折叠成相似的空间结构 这样 如果一个未知结构的蛋白质与 一个已知结构的蛋白质具有足够的序列相似性 那么可以根据相似性原理给未知结构的蛋白质构造 一个近似的三维模型 如果目标蛋白质序列的某一部分与已知结构的蛋白质的某一结构域区域相似 则可以认为目标蛋白质具有相同的结构域或者功能区域 在蛋白质结构预测方面 预测结果最可靠 的方法是同源模型化方法 蛋白质的同源性比较往往是借助于序列比对而进行的 通过序列比对可以发现蛋白质之间进化 的关系 在蛋白质结构分析方面 通过序列比对可以发现序列保守模式或突变模式 这些序列模式 中包含着非常有用的三维结构信息 利用同源模型化方法可以预测所有 10 30 蛋白质的结构 然 而 有许多具有相似结构的蛋白质是远程同源的 它们的等同序列不到 25 也就是说 具有相似 空间结构的蛋白质序列等同程度可能小于 25 这些蛋白质的同源性不能被通过传统的序列比对方 法所识别 如果按照一个未知序列搜索一个蛋白质序列数据库 并且搜索条件为序列等同程度小于 25 的话 那么将会得到大量不相关的蛋白质 因此 搜索远程同源蛋白质就像在干草堆里寻找一 根针 寻找远程同源蛋白质是一项困难的任务 处理这个困难任务的技术称为 线索 THREADING 技术 对于一个未知结构的蛋白质 仅当我们找不到等同序列大于 25 的已知结构 的同源蛋白质时 才通过线索技术寻找已知结构的远程同源蛋白质 进而预测其结构 找到一个远 程同源蛋白质后 利用远程同源建模方法来建立蛋白质的结构模型 如果既没有找到一般的同源蛋白质 又没有找到远程同源蛋白质 那么如何进行结构预测呢 一种可行的办法就是充分利用现有数据库中的信息 包括二级结构和空间结构的信息 首先从蛋白 精品文档 4欢迎下载 质序列预测其二级结构 然后再从二级结构出发 预测蛋白质的空间结构 或者采用从头算方法进 行结构预测 7 27 2 蛋白质二级结构预测蛋白质二级结构预测 蛋白质的二级结构预测的基本依据是 每一段相邻的氨基酸残基具有形成一定二级结构的倾向 因此 进行二级结构预测需要通过统计和分析发现这些倾向或者规律 二级结构预测问题自然就成 为模式分类和识别问题 蛋白质二级结构的组成规律性比较强 所有蛋白质中约 85 的氨基酸残基 处于三种基本二级结构状态 螺旋 折叠和转角 并且各种二级结构非均匀地分布在蛋白质中 在有些蛋白质中含有大量的 螺旋 如血红蛋白和肌红蛋白 而另外一些蛋白质中则不含或者仅含 很少的 螺旋 如铁氧蛋白 有些蛋白质的二级结构以 折叠为主 如免疫球蛋白 二级结构预测的 目标是判断每一段中心的残基是否处于 螺旋 折叠 转角 或其它状态 之一的二级结构态 即 三态 至今人们已经发展了几十种预测方法 7 2 17 2 1 利用的信息及预测准确性利用的信息及预测准确性 蛋白质二级结构的预测开始于 20 世纪 60 年代中期 二级结构预测的方法大体分为三代 第一 代是基于单个氨基酸残基统计分析 从有限的数据集中提取各种残基形成特定二级结构的倾向 以 此作为二级结构预测的依据 第二代预测方法是基于氨基酸片段的统计分析 使用大量的数据作为 统计基础 统计的对象不再是单个氨基酸残基 而是氨基酸片段 片段的长度通常为 11 21 片段 体现了中心残基所处的环境 在预测中心残基的二级结构时 以残基在特定环境形成特定二级结构 的倾向作为预测依据 这些算法可以归为几类 1 基于统计信息 2 基于物理化学性质 3 基于序列模式 4 基于多层神经网络 5 基于图论 5 基于多元统计 6 基于 机器学习的专家规则 7 最邻近算法 第一代和第二代预测方法有共同的缺陷 它们对三态预 测的准确率都小于 70 而对 折叠预测的准确率仅为 28 48 其主要原因是这些方法在进行二级 结构预测时只利用局部信息 最多只用局部的 20 个残基的信息进行预测 二级结构预测的实验结 果和晶体结构统计分析都表明 二级结构的形成并非完全由局域的序列片段决定 长程相互作用不 容忽视 蛋白质的二级结构在一定程度上受远程残基的影响 尤其是 折叠 从理论上来说 局部 信息仅包含二级结构信息的 65 左右 因此 可以想象只用局部信息的二级结构预测方法 其准确 率不会有太大的提高 二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化 信息 使二级结构预测的准确程度有了比较大的提高 特别是对 折叠的预测准确率有较大的提高 预测结果与实验观察趋于一致 一般 75 的氨基酸残基可以被置换而不改变蛋白质的结构 然而有时改变几个关键的残基则可 能导致破坏蛋白质的结构 这好像是两个矛盾的结论 但解释又非常简单 一个蛋白质在其进化过 程中探查了每个位置上氨基酸可能的与不可能的变化 不可能变化的部分是进化保守区域 可变部 分的变化不改变结构 而不可变部分的变化则改变蛋白质的结构 由此失去蛋白质原有的功能 因 而也就难以延续下去 这些不可变部分体现了蛋白质功能对结构的特定要求 这样 从一个蛋白质 家族中提取的残基替换模式高度反映了该家族特异的结构 通过序列的比对可以得到蛋白质序列的 进化信息 得到蛋白质家族中的特定残基替换模式 此外 通过序列的比对也可以得到长程信息 目前 许多二级结构预测的算法都是基于序列比对的 通过序列比对可以计算出目标序列 待预测 其二级结构的序列 中每个氨基酸的保守程度 对于二级结构三态 none 预测准确率首先 达到 70 的方法是基于统计的神经网络方法 PHDsec PHDsec 利用通过多重序列比对得到的进化信 息作为神经网络的输入 另外采用了一个全局的描述子 即所有氨基酸组成 20 种氨基酸中每个 所占的比例 作为蛋白质序列的全局信息 这类算法预测的准确率能达到 70 至 75 各种方法预测的准确率随蛋白质类型的不同而变化 例如 一种预测方法在某些情况下预测的 准确率能够达到 90 而在最差的情况下仅达到 50 甚至更低 在实际应用中究竟使用那种方法 还需根据具体的情况 虽然二级结构预测的准确性有待提高 其预测结果仍然能提供许多结构信息 尤其是当一个蛋白质的真实结构尚未解出时更是如此 通过对多种方法预测结果的综合分析 再结 合实验数据 往往可以提高预测的准确度 二级结构预测通常作为蛋白质空间结构预测的第一步 例如 二级结构预测是内部折叠 内部残基距离预测的基础 更进一步 二级结构预测可以作为其 它工作的基础 例如 用于推测蛋白质的功能 预测蛋白质的结合位点等 精品文档 5欢迎下载 7 2 27 2 2 Chou FasmanChou Fasman 方法方法 Chou Fasman 方法是一种基于单个氨基酸残基统计的经验参数方法 由 Chou 和 Fasman 在 20 世纪 70 年代提出来 通过统计分析 获得的每个残基出现于特定二级结构构象的倾向性因子 进 而利用这些倾向性因子预测蛋白质的二级结构 每种氨基酸残基出现在各种二级结构中倾向或者频率是不同的 例如 Glu 主要出现在 螺旋中 Asp 和 Gly 主要分布在转角中 Pro 也常出现在转角中 但是绝不会出现在 螺旋中 因此 可以根 据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测 另外 不同的多肽片段 有形成不同二级结构的倾向 例如 肽链 Ala A Glu E Leu L Met M 倾向于形成 螺旋 而肽 链 Pro P Gly G Tyr Y Ser S 则不会形成 螺旋 一个氨基酸残基的二级结构倾向性因子定义为 i t c 7 1 式中下标 i 表示二级结构态 如 螺旋 折叠 转角 无规卷曲等 Ti是所有被统计残基处于二 级结构态 i 的比例 Ai是第 A 种残基处于结构态 i 的比例 Pi大于 1 0 表示该残基倾向于形成二 级结构 i 小于 1 0 则表示倾向于形成其它二级结构 通过对大量已知结构的蛋白质进行统计 为每个氨基酸残基确定其二级结构倾向性因子 在 Chou Fasman 方法中 这几个因子是P P 和Pt 它们分别表示相应的残基形成 螺旋 折 叠和转角的倾向性 另外 每个氨基酸残基同时也有四个转角参数 f i f i 1 f i 2 和 f i 3 这四个参数分别对应于每种残基出现在转角第一 第二 第三和第四位的频率 例如 脯 氨酸约有 30 出现在转角的第二位 然而出现在第三位的几率不足 4 表 7 1 中显示了 Chou Fasman 预测方法中所用到的各种参数 其中参数值P P 和Pt是分别在原有相应倾向性因子的基 础上乘以 100 而得到的 根据P 和P 的大小 可将 20 种氨基酸残基分类 如谷氨酸 丙氨酸是最强的螺旋形成残基 而缬氨酸 异亮氨酸则是最强的折叠形成残基 除各个参数之外 还有一些其它的统计经验 如 脯氨酸和甘氨酸最倾向于中断螺旋 而谷氨酸则通常倾向中断折叠 表 7 1 20 种常见氨基酸的 Chou Fasman 参数 氨基酸 P P Ptf i f i 1 f i 2 f i 3 丙氨酸 A 14283660 060 0760 0350 058 精氨酸 R 9893950 0700 1060 0990 085 天冬酰胺 N 67891560 1610 0830 1910 091 天冬氨酸 D 101541460 1470 1100 1790 081 半胱氨酸 C 701191190 1490 0500 1170 128 谷氨酸 E 15137740 0560 0600 0770 064 谷氨酰胺 Q 111110980 0740 0980 0370 098 甘氨酸 G 57751560 1020 0850 1900 152 组氨酸 H 10087950 1400 0470 0930 054 异亮氨酸 I 108160470 0430 0340 0130 056 亮氨酸 L 121130590 0610 0250 0360 070 赖氨酸 K 114741010 0550 1150 0720 095 甲硫氨酸 M 145105600 0680 0820 0140 055 苯丙氨酸 F 113138600 0590 0410 0650 065 脯氨酸 P 57551520 1020 3010 0340 068 丝氨酸 S 77751430 1200 1390 1250 106 苏氨酸 T 83119960 0860 1080 0650 079 色氨酸 W 108137960 0770 0130 0640 167 酪氨酸 Y 691471140 0820 0650 1140 125 缬氨酸 V 106170500 0620 0480 0280 053 i i i T A P 精品文档 6欢迎下载 在统计得出氨基酸残基倾向性因子的基础上 Chou 和 Fasman 提出了二级结构的经验规则 其 基本思想是在序列中寻找规则二级结构的成核位点和终止位点 在具体预测二级结构的过程中 首 先扫描待预测的氨基酸序列 利用一组规则发现可能成为特定二级结构成核区域的短序列片段 然 后对于成核区域进行扩展 不断扩大成核区域 直到二级结构类型可能发生变化为止 最后得到的 就是一段具有特定二级结构的连续区域 下面是 4 个简要的规则 1 螺旋规则 沿着蛋白质序列寻找 螺旋核 相邻的 6 个残基中如果有至少 4 个残基倾向于形成 螺旋 即有 4 个残基对应的P 100 则认为是螺旋核 然后从螺旋核向两端延伸 直至四 肽片段P 的平均值小于 100 为止 按上述方式找到的片段长度大于 5 并且P 的平均值大 于P 的平均值 那么这个片段的二级结构就被预测为 螺旋 此外 不容许 Pro 在螺旋内 部出现 但可出现在 C 末端以及 N 端的前三位 这也用于终止螺旋的延伸 2 折叠规则 如果相邻 6 个残基中若有 4 个倾向于形成 折叠 即有 4 个残基对应的P 100 则 认为是折叠核 折叠核向两端延伸直至 4 个残基P 的平均值小于 100 为止 若延伸后片段 的P 的平均值大于 105 并且P 的平均值大于P 的平均值 则该片段被预测为 折叠 3 转角规则 转角的模型为四肽组合模型 要考虑每个位置上残基的组合概率 即特定残基在四肽模 型中各个位置的概率 在计算过程中 对于从第 i 个残基开始的连续 4 个残基片段 将上述 概率相乘 根据计算结果判断是否是转角 如果f i f i 1 f i 2 f i 3 大于 7 5 10 5 四肽片段Pt的平均值大于 100 并且Pt 的均值同时大于P 的均值以及P 的均 值 则可以预测这样连续的 4 个残基形成转角 4 重叠规则 假如预测出的螺旋区域和折叠区域存在重叠 则按照重叠区域P 均值和P 均值的相对 大小进行预测 若P 的均值大于P 的均值 则预测为螺旋 反之 预测为折叠 Chou Fasman 预测方法原理简单明了 二级结构参数的物理意义明确 该方法中二级结构的成 核 延伸和终止规则基本上反映了真实蛋白质中二级结构形成的过程 该方法的预测准确率在 50 左右 7 2 37 2 3 GORGOR 方法方法 GOR 是一种基于信息论和贝叶斯统计学的方法 方法的名称以三个发明人姓名的第一个字母组 合而成 Garnier Osguthorpe Robson 信息论是于 1950 1960 期间发展起来的 其基本理论 由 Shannon 首先提出 主要针对解决信息传递和处理问题 GOR 方法将蛋白质序列当作一连串的信息值来处理 该方法不仅考虑了被预测位置本身氨基酸 残基种类的影响 而且考虑了相邻残基种类对该位置构象的影响 GOR 针对长度为 17 的残基窗进 行二级结构预测 对序列中的每一个残基 GOR 方法将与它 N 端紧邻的 8 个残基和 C 端紧邻的 8 个 残基与它放在一起进行考虑 与 Chou Fasman 方法一样 GOR 方法也是通过对已知二级结构的蛋白 样本集进行分析 计算出中心残基的二级结构分别为螺旋 折叠和转角时每种氨基酸出现在窗口中 各个位置的频率 从而产生一个 17 20 的得分矩阵 然后利用矩阵中的值来计算待预测的序列中 每个残基形成螺旋 折叠或者转角的概率 GOR 方法是基于信息论来计算这些参数的 下面介绍 GOR 方法的数学基础 首先考虑两个事件S和R的条件概率P S R 即在R发生的条件下 S发生的概率 定义信息 为 7 2 log SPRSPRSI 若S和R无关 即 则 若R的发生有利于S的发生 即 SPRSP 0 RSI 则 如果R的发生不利于S的发生 则有 SPRSP 0 RSI SPRSP 0 RSI 使用对数的优点在于可将概率的乘积变为信息值的加和 在二级结构预测过程中 S表示特殊 精品文档 7欢迎下载 的二级结构类型 R代表氨基酸残基 就是残基R处于二级结构类型S的概率 P S 是在 RSP 统计过程中观察到二级结构类型S的概率 根据条件概率的定义 7 3 P S R 是同时观察到S和R的联合概率 而P R 是R的出现概率 对现有蛋白质序列数据库和二级 结构数据库进行数学统计分析 很容易得到I S R 如果令N为数据库中总的氨基酸残基的个数 fR为残基R的总个数 fS为处于二级结构类型S的残基总数 fS R为残基R处于二级结构类型S的 总数 则 7 4 R处于二级结构类型S的信息值按下式计算 7 5 Robson 提出一种信息差的计算公式 7 6 log log SSRSRS ffffRSIRSIRSI 这里 S 表示除S之外的其它所有二级结构类型 例如 如果S代表 螺旋 则在三态情况下 S 代表 折叠或者转角 公式 7 6 从正反两个方面给出关于氨基酸残基R与二级结构S关系的 信息值 若R可分为两个较简单的事件R1和R2 则有 7 7 log log log 1121 2121 SPRSPRSPRRSP SPRRSPRRSIRSI 式中第一项表示在R1发生的条件下 R2对事件S的影响 第二项则表示R1对S的影响 上式可改 写为 7 8 112 RSIRRSIRSI 同理 若R可分解为一系列的简单事件R1 R2 Rn 则有 7 9 121 123121 nn RRRRSI RRRSIRRSIRSIRSI 这里 R1 R2 Rn代表蛋白质序列中一组连续的残基 预测的对象是中心残基 判断它处于什 么样的构象态 其它残基作为环境 GOR 方法只考虑待预测残基及其两侧各 8 个残基 最早期的 GOR 方法采用了独立事件近似 即 7 10 21n RSIRSIRSIRSI RP RSP RSP NfSP NfRP NfRSP S R RS log NfffRSI SRRS 精品文档 8欢迎下载 后来的改进 GOR 方法则考虑了中心残基R1的影响 信息计算公式如下 7 11 113121 RRSIRRSIRRSIRSIRSI n 通过统计 可以得出各种残基R处于中心残基周围各位置 i 时的信息值或 i RSI 它们反应了周边残基对中心残基形成特定二级结构的影响 再通过近似公式 7 10 或 1 RRSI i 7 11 就可计算出 对于一条肽链中任一位置残基 r 的构象预测过程包括三个步骤 RSI 1 以 r 为中心 取其左右两侧共 17 个残基作为计算的窗口 记为 R 2 取窗口内每个残基 的信息值 并按照公式 7 10 或者公式 7 11 加和 得到 3 中心残基 r i RSI RSI 的二级结构预测为最大的二级结构类型 S RSI 假定数据库中有 1830 个残基 780 个处于螺旋态 1050 个处于非螺旋态 库中共有 390 个丙 氨酸 A 有 240 个 A 处于螺旋态 其余 150 个 A 处于非螺旋态 可得 根据公式 7 6 有 这里 H 代表二级结构螺旋态 而 H 代表除 H 以外的其它类型二级结构 I H A 就是丙氨酸 A 处 于中心位置时的螺旋信息值 早期 GOR 方法假设窗口内 17 个残基 包括中心残基及左右两侧各 8 个残基 是相互独立的 每个残基独立地影响中心残基的二级结构 在此基础上统计了 75 个蛋白质的结构 总共有 12757 个残基 所作统计结果为 螺旋 29 7 折叠 19 7 转角 12 2 无规卷曲 38 3 根据所得到 的信息值 发现有些残基的信息值中心对称 在窗口中心处其值取最大或者最小 例如 i RSI A 的螺旋信息值 I 的折叠信息值在窗口中心处取最大 这类残基越靠近窗口中心 中心残基就越 容易形成特定二级结构 又如 G 螺旋信息值 L 的转角信息值在窗口中心处取最小 这类残基离 窗口中心越近 中心残基形成特定构象的机会越小 有些残基的信息值是不对称的 在一端为正 而在另一端为负 有的残基在 N 端为正 C 端为负 这类残基位于 N 端时有利于中心残基形成特定 构象 例如 E 对于螺旋支持程度属于这种情况 有的残基在 N 端为负 C 端为正 当这类残基位 于 C 端时有利于中心残基形成特定构象 比如 K 对于螺旋的支持程度属于这种情况 GOR 方法中的信息值构成了 20 种氨基酸出现在不同位置时的直接信息量表 根据该表和相关 计算公式 就可以对一条肽链中任一位置残基的构象进行预测 GOR 方法的物理意义明确 数学上 比较严格 但计算过程较为复杂 应用 GOR 方法预测蛋白质的二级结构为螺旋 折叠或者转角的准 确率大约为 65 20 种常见氨基酸的疏水参数 7 2 47 2 4 基于氨基酸疏水性的预测方法基于氨基酸疏水性的预测方法 这种方法是一种用物理化学方法进行二级结构预测的方法 或称为立体化学方法 在蛋白质中 氨基酸的理化性质对蛋白质的二级结构影响较大 因此在进行结构预测时考虑氨基酸残基的物理化 学性质 如疏水性 极性 侧链基团的大小等 根据氨基酸残基各方面的性质及残基之间的组合预 测可能形成的二级结构 疏水性 是氨基酸的一种重要性质 疏水性的氨基酸倾向于远离周围水 390 150 390 240 1830 1050 1830 780 AH AH H H f f f f 7650 0 1830 780 1830 1050log 390 150 390 240log log log HHAHAH ffffAHI 精品文档 9欢迎下载 分子 将自己包埋进蛋白质的内部 这一趋势加上空间立体条件和其它一些因素决定了一个蛋白质 最终折叠成的三维空间构象 20 种氨基酸的疏水参数见表 7 2 其中 高正值的氨基酸具有更大的 疏水性 而低负值的氨基酸则更加亲水 表7 2 20种常见氨基酸的疏水参数 序号序号氨基酸氨基酸疏水值疏水值 1 Ala A 1 8 2 Arg R 4 5 3 Asn N 3 5 4 Asp D 3 5 5 Cys C 2 5 6 Gln Q 3 5 7 Glu E 3 5 8 Gly G 0 4 9 His H 3 2 10 Ile I 4 5 11 Leu L 3 8 12 Lys K 3 9 13 Met M 1 9 14 Phe F 2 8 15 Pro P 1 6 16 Ser S 0 8 17 Thr T 0 7 18 Trp W 0 9 19 Tyr Y 1 3 20 Val V 4 2 随着蛋白质结构数据的积累 人们开始注意到一些较简单的序列与结构关系 可以通过疏水氨 基酸出现的周期性预测蛋白质的二级结构 利用各种氨基酸的疏水值定位蛋白质的疏水区域 Lim 等人很早就对 螺旋和 折叠归纳出了一套预测模式 例如 螺旋的轮状结构特征 轮的一侧 通常处于蛋白质的疏水核心 另一侧则常处于亲水表面 如图 7 2 所示 因此 螺旋中亲疏水 氨基酸残基的出现位置也就有一定的规律性 亲水残基多出现在亲水侧面 而疏水残基则多出现在 疏水侧面 反映在序列上就是一些特征的亲疏水残基间隔模式 疏水性氨基酸的位置有助于推断蛋白质中二级结构的定位 通过显示疏水氨基酸的分布分析二 级结构 例如 图 7 2 利用 HELICALWHEEL 程序画出的蛋白质蜂毒素旋轮图 图中各个氨基酸沿螺 旋排布 相邻氨基酸之间的旋转角度为 100o 疏水性氨基酸 L I 和 V 位于螺旋的一侧 而亲水性 氨基酸则分布在另外一侧 显示这个螺旋的两亲特性 根据蛋白质序列中疏水性氨基酸出现模式 可以预测局部的二级结构 例如 当我们在一段序 列中发现第 i i 3 i 4 位是疏水氨基酸时 这一片段就被可以预测为 螺旋 当我们发现第 i i 1 i 4 位为疏水氨基酸时 这一片段也可以被预测为 螺旋 同样 对于 折叠 也存在 着一些特征的亲疏水残基间隔模式 埋藏的 折叠通常由连续的疏水残基组成 一侧暴露的 折 叠则通常具有亲水 疏水的两残基重复模式 不过 由于 折叠受结构环境的影响较大 序列的亲 疏水模式不及 螺旋有规则 原则上 通过在序列中搜寻特殊的亲疏水残基间隔模式 就可以预 测 螺旋和 折叠 精品文档 10欢迎下载 图 7 2 利用 HELICALWHEEL 程序画出的蛋白质蜂毒素的旋轮图 代表疏水氨基酸 在 Biou 等人提出的点模式方法中 将 20 种氨基酸残基分为亲水 疏水以及两性残基三类 用 八残基片段表征亲疏水间隔模式 以一个二进制位代表一个残基 疏水为 1 亲水为 0 共八位 这样 八残基片段的亲疏水模式就可用 1 个 0 255 的数值来表示 螺旋的特征模式对应的值为 9 12 13 17 201 205 217 219 237 折叠的特征模式则由连续的 1 或交替的 01 构成 在进行二级结构预测时 根据氨基酸片段计算点模式 如果点模式的值为 螺旋的特征数 则片段预测为 螺旋 若为 折叠的特征数 则片段预测为 折叠 其余的预测为无规则卷曲 这种方法的三态预测准确率为 55 左右 其中对无规则卷曲预测过多 而对 折叠则预测不足 当序列长度小于 50 时 准确率较高 上述方法定性描述序列片段的亲 疏水特征 通过特征模式识别来预测蛋白质的二级结构 另 一种方法是直接计算序列片段的疏水性和疏水矩 并根据定量计算结果预测该片段对应的二级结构 序列片段疏水性计算的方法依赖于各个氨基酸残基疏水值 对于一条蛋白质序列 用一个滑动窗口 扫描该序列 计算滑动窗口下各个氨基酸的平均疏水值和疏水矩 窗口的宽度是可以调整的 HH 一般取 9 15 残基的窗口宽度 以获得较多的信息和较小的噪声干扰 平均疏水值的计算公式如H 下 7 12 其中Hi是片段第 i 残基的疏水值 疏水矩的计算公式如下 H 7 13 其中 S Si是 碳原子到侧链中心的单位矢量 按照公式 7 12 的计算结果 画出整个蛋白质的疏水曲线 形成疏水性图 图 7 3 是人类视 紫质蛋白的疏水图 与蛋白质疏水图相对应的是蛋白质的疏水矩图 通过分析这些图谱 可以帮助 预测蛋白质的二级结构 n i i H n H 1 1 1 i n i i SHH 精品文档 11欢迎下载 7 2 2 47 2 2 4 最邻近方法 最邻近方法 NearestNearest NeighboringNeighboring methodsmethods 早期 由于数据的缺乏 预测方法多基于单条序列 随着序列和结构数据的增加 人们的研究 转向同源序列分析 充分利用隐藏在同源序列中的结构信息 使得结构预测的准确率得到了较大的 提高 同源分析的基础是序列比较 通过序列比较发现相似的序列 根据相似序列具有相似结构的 原理 将相似序列 或者序列片段 所对应的二级结构作为预测的结果 在 Levitt 等人建立的相 似片段方法中 将待预测的片段与数据库中已知二级结构的片段进行相似性比较 利用打分矩阵计 算出相似性得分 根据相似性得分以及数据库中的构象态 构建出待预测片段的二级结构 这一方 法对数据库中同源序列的存在非常敏感 若数据库中有相似性大于 30 的序列 则预测准确率可大 大上升 另一种更为合理的方法是将待预测二级结构的蛋白质 U 与多个已知结构的同源序列 Ti进 行多重比对 对于 U 的每个残基位置 其构象态由多个同源序列对应位置的构象态决定 或取出现 次数最多的构象态 或对各种可能的构象态给出得分值 基于上述的策略 最邻近方法在预测二级结构方面包括两个过程 一是学习过程 二是预测过 程 在学习阶段 用一个滑动窗口 例如长度为 15 扫描已知结构的训练序列 序列个数为几百 个 并且这些序列彼此之间的相似性很小 通过窗口扫描形成大量的短片段 称为训练片段 记 录这些片段中心氨基酸残基的二级结构 在预测阶段 利用同样大小的窗口扫描给定的序列 U 将 在每一个窗口位置下的序列片段 U 与上述训练片段相比较 找出 50 个最相似的训练片段 假设 这些相似片段中心残基各种二级结构的出现频率分别为f f 和fc 用它们预测片段 U 中心残 基的二级结构 可以取频率最高的构象态作为 U 中心残基的二级结构 或者直接以f f 和fc 反应 U 中心残基各种构象态可能的分布 根据处理过程的特点 最邻近方法又称为相似片段法 7 2 57 2 5 人工神经网络方法人工神经网络方法 人工神经网络是一种复杂的信息处理模型 随着神经网络研究的兴起 科学家们也将神经网络 用于生物信息学 其中包括二级结构的预测 蛋白质结构的分类 折叠方式的预测以及基因序列的 分析等等 将神经网络用于二级结构预测的最早是由 Qian 和 Sejnowskit 提出的 他们受到神经网 络在文字语言处理方面应用的启发 将蛋白质序列看作是由各种氨基酸字符组成的字符序列 将氨 基酸残基片段作为输入的一串语言字符 二级结构即为对应的输出 神经网络可以有效地学习蛋白 质二级结构形成的复杂规律或模式 提取更多的信息 并利用所掌握的信息进行预测 利用神经网 图 7 3 人类视紫质蛋白疏水图 氨基酸序列 疏水值 4 3 2 1 0 1 2 3 50 100 150 200 250 300 精品文档 12欢迎下载 络方法可以提高二级结构预测准确率 早期的神经网络方法能够得到 63 65 的二级结构预测准确 率 利用多序列比对的信息对二级结构预测的准确率能够达到 70 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络 包括输入层 隐含层以及输 出层 每一层由若干神经元组成 输入层神经元与隐含层的神经元是完全连接的 即任何一个输入 层神经元都与任何一个隐含层的神经元连接 在图 7 4 中用一个大箭头表示 同样 隐含层神经元 与输出层的神经元也是完全连接的 输入层用于接收蛋白质窗口序列数据 沿蛋白质的氨基酸序列 依次取一定大小的窗口 将窗口内的序列片段进行编码 窗口包括中心氨基酸残基及左右 m 个 共 2m 1 个 残基 每一个残基用 21 个神经元编码 因此 输入层共有 21 2m 1 个神经元 输出层 有 3 个神经元 分别对应于窗口中心残基的 H E C 三态 输入层中编码一个残基的 21 个神经元 只有一个处于激发状态 即设置为 1 其余为 0 对应于一种氨基酸残基 类似地 代表中心残基 二级结构状态的输出单元的期望输出为 1 其它两个单元为 0 在这样一种神经网络模型中 隐含 层的神经元是完成从氨基酸序列到蛋白质二级结构映射的关键 这种映射是非线性的 通过隐含层 的信息处理 可以检测残基及所处环境与二级结构的复杂关系 隐含层的神经元个数一般从 2 个变 化到几十个 隐含层的神经元越多 则神经网络对训练实例的记忆能力越强 但是神经网络的推广 能力将越弱 对新蛋白质二级结构预测的准确率越低 因此 在实际应用中需要通过大量实验 选 择合适的隐含层神经元个数 用于蛋白质二级结构预测的人工神经网络结构如图 7 4 所示 用 21 个神经元为每个残基编码 仅画出 个神经元 在实际应用中 窗口的大小影响预测结果 Qian 和 Sejnowskit 实验结果表明窗口的大小取 13 个残基为佳 神经网络通过神经元之间的连接存贮信息或知识 因此 神经网络学习的过程实际上是调整网 络中各连接权值的过程 神经网络中各层之间的连接权值调整采用反向传播 BP 算法 相应的网络 称为 网 在训练或学习过程中 将结构已知的蛋白质序列由输入层输入 不断调整神经网络 神经元之间的连接权重及网络节点的偏置 直至实际输出与期望值差别最小为止 在训练过程的每 一步 取一个窗口中的序列及窗口中心氨基酸所对应的二级结构作为已知的映射结果 调整网络映 射行为 使之与已知映射关系相一致 训练完毕后 得到一个已确定参数并且可以进行结构预测的 实际神经网络 与前述其它方法相比 神经网络具有应用方便 计算能力强 预测准确率较高的特点 网络一 旦训练完毕 就可以进行快速预测 目前二级结构预测识别率不高的主要因素是许多预测方法没有使用足够的进化信息和全局信息 蛋白质序列家族中氨基酸的替换模式是高度特异的 如何利用这样的进化信息是二级结构预测的关 键 这里介绍蛋白质二级结构预测软件系统 PHDsec 所使用的方法 输出层 隐层 输入层 T G A V H 蛋白质序列 窗口 图 7 4 用于蛋白质二级结构预测的人工神经网络 精品文档 13欢迎下载 PHDsec 的第一步工作是形成同源序列的多重对比排列 对于一个待预测的蛋白质 PHDsec 首 先利用 BLAST 在 SWISS PROT 数据库中搜索同源序列 然后再利用 MaxHom 程序将这些同源序列对比 排列起来 并对每个比对的位置进行统计分析 PHDsec 的第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算 这里的神经 网络是一个多层的前馈网络 如图 7 5 所示 整个网络模型包括两个层次 第一层网络进行序列到 结构的映射 对于第一层网络的输入包括两个部分 如图 7 5 a b 所示 一部分是序列的 局部信息 取自窗口内 w 缺省值为 13 个氨基酸残基 另一部分是来自整个序列的全局信息 首 先 取多重序列比对的 w 列 如图 7 5 a 所示 这里 w 7 然后 计算序列局部统计数据以及序 列全局数据 局部数据有 24 个 其中 20 个数据对应于 20 种氨基酸 1 个数据对应于 空缺 氨 基酸 这使得窗口位置可以在序列的两端 蛋白质的第一个或最后一个氨基酸都可以作为窗口的中 心 不存在的部分用 空缺 符号代替 2 个数据分别表示多重序列比对中该位置的插入 ins 和删除 del 的次数 1 个数据表示该位置的保守程度 cons 全局数据有 32 个 其中 20 个数 据表示各种氨基酸所占百分比 表示蛋白质长度的数据有 4 个 分别对应与 4 个区间 见图 7 5 b 当前窗口到蛋白质 N 端和 C 端的距离分别有 4 个 第一层次网络的输出是窗口中心残 基二级结构的状态 H 代表螺旋 E 代表折叠 L 代表其它 第二层次网络是一个结构到结构的映射 作用是对前一层网络的输出进行校正 第二层网络的 输入主要是第一层网络的输出 同时还包括所有全局信息以及局部的保守信息 cons 所有第二 层网络的输入表示为 3 二级结构 1 空缺 1 cons 32 全局数据 第二层网络输出的含 义与第一层网络的输出一样 建立好系统的模型后 开始的时候系统仅仅是一个空壳 PHDsec 对神经网络进行训练 通过 训练教会神经网络如何正确地预测蛋白质二级结构 训练是一个反复的过程 要求神经网络至少能 够正确处理训练数据 PHDsec 的训练数据是随机选取的 输入层 隐层 输出层 H H E E L L 第一层网络 第二层网络 Local AAA Alignment AA of LLL 13 LII adjacent AAG residues CCS GVV Global AA Statistics Len Whole N term Protein C term 序列中局部信息输入 A C L I G S V ins del cons 100 0 0 0 0 0 0 0 0 1 17 100 0 0 0 0 0 0 3 0 0 42 0 0 100 0 0 0 0 0 0 33 0 92 0 0 33 66 0 0 0 0 0 0 74 66 0 0 0 33 0 0 0 0 1 17 0 66 0 0 0 33 0 0 0 0 74 0 0 0 33 0 0 66 0 0 0 48 序列中全局信息输入 蛋白质中各个氨基酸的百分比 蛋白质长度 60 120 240 240 到 N 端的距离 40 30 20 10 到 C 端的距离 40 30 20 10 a b c 图 7 5 PHDsec 模型 a 由蛋白质家族得到的序列信息 b 对一个窗口 序列进行多重比对得到的统计数据 作为神经网络的输入 c 神经网络结 构 21 3 20 4 4 4 4 4 1 20 4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 键盘的使用课件
- 土建现场安全培训
- 小学语文《太阳》教学课件设计
- 少儿拼音班课件
- 钓鱼分类游戏课件
- 广东河北自考试题及答案
- 广东广东美学自考试题及答案
- 冷库考试题及答案大全
- 烤灯考试题及答案
- 抗震减灾考试题及答案
- 陕旅版小学六年级上册全册英语教案
- 海洋工程装备概述
- 第5章 相交线与平行线 复习课件
- 幼儿园玩具售后服务承诺及保证措施方案
- 2025年江苏省高考招生统一考试高考真题物理试卷(真题+答案)
- CJ/T 191-2004板式换热机组
- 《智能机电系统设计与开发》课件 第三章-机械系统设计与开发
- 食品卫生考试试题及答案
- T/CECS 10187-2022无机复合聚苯不燃保温板
- 睾丸常见肿瘤超声诊断要点
- 重症医学科肺康复综合体系建设
评论
0/150
提交评论