




已阅读5页,还剩62页未读, 继续免费阅读
(计算机软件与理论专业论文)基于hmm的蛋白质侧链建模及其应用的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
苏州大学学位论文使用授权声明 f j y i7 3 2 1 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属在年_ 月解密后适用本规定。 非涉密论文口 , 论文作者签名:龇 日 期:型巴笸:丝 导师签名:墨至垒日期:2 2 芝。笸。丝 基于h m m 的蛋白质侧链建模及其应用的研究 摘要 基于h m m 的蛋白质侧链建模及其应用的研究 摘要 从蛋白质的氨基酸序列预测蛋白质三维结构是当前生物信息学领域中的一个非 常具有挑战性的问题。而蛋白质侧链预测是蛋白质结构预测以及蛋白质设计中非常 重要的子问题。 本文提出一种基于隐马尔科夫模型的蛋白质侧链建模技术,构建了侧链的基于 序列和基于序列骨架的两个模型。基于序列的侧链模型以氨基酸串作为主要的观测 数据;而基于序列骨架的侧链模型则再增加骨架扭转角作为主要观测数据,建立观 测数据到侧链构象的对应关系。通过精心选择的训练集,对上述两个模型进行训练。 训练完成后的两个模型就可以通过采样产生针对某个氨基酸串的侧链旋转异构体库。 与流行的建模方法比较,经采样得到的旋转异构体库更加接近于天然构象。 根据本文提出的两个模型分别产生的旋转异构体库,我们分别将其应用到流行 的侧链预测系统中,并与现有两种蛋白质侧链预测领域的权威方法进行了多角度的 比较。与基于传统的骨架相关旋转异构体库的侧链预测结果相比,在预测精度上有了 一定的提高。 综合实验表明,基于序列相关和序列骨架相关的两个模型,可以很充分地把序列 氨基酸对特定氨基酸的侧链构象的影响进行挖掘,分别生成序列相关旋转异构体库 和序列骨架相关的旋转异构体库,从而为蛋白质侧链预测提供良好的支持。 关键词:侧链建模,旋转异构体库,隐马尔科夫模型,序列相关,序列骨架相关 作者:温炜 指导教师:吕强 t h es t u d yo nm o d e l i n gp r o t e i ns i d e - - c h a i nw i t h h m ma n di t sa p p l i c a t i o n a b s t r a c t i th a sb e e nac h a n e n g eo fb i o i n f e r m a t i c st op r e d i c tt h ep r o t e i ns t r u c t u r ef r o mi t s a m i n oa c i ds e q u e n c ef o ral o n gp e r i o do ft i m e s i d e - c h a i np r e d i c t i o ni sa ni m p o r t a n t s u b p r o b l e mo fp r o t e i ns t r u c t u r ep r e d i c t i o na n dd e s i g n t h et h e s i sp r o p o s e sas t r a t e g yo fm o d e l i n gp r o t e i ns i d e - c h a i nb a s e do nh i d d e n m a r k o vm o d e l w ec o n s t r u c ts e q u e n c e - d e p e n d e n tm o d e la n ds e q u e n c e - b a c k b o n e - d e p e n d e n tm o d e lf o rp r o t e i ns i d e - c h a i n t h es e q u e n c e - d e p e n d e n tm o d e lt a k e sa m i n o a c i d ss e q u e n c ei n f o r m a t i o na sm a i no b s e r v e dd a t a ;w h i l et h es e q u e n c e - b a c k b o n e - d e p e n d e n t m o d e lc o n s i d e r sn o to n l ya m i n oa c i d ss e q u e n c ei n f o r m a t i o nb u ta l s ob a c k b o n ed i h e d r a l a n g l e sa so b s e r v e dd a t a t h em o d e l sa x et r a i n e dt ol e a r nt h er e l a t i o n s h i p sa m o n g t h e o b s e r v e dd a t aa n ds i d e - c h a i nc o n f o r m a t i o n a f t e rb e i n gt r a i n e db a s e do nc o m p a r a - t i r et r a i n i n gd a t a ,t h e s et w om o d e l sc a np r o d u c et h es p e c i f i cr o t a m e rl i b r a r yg i v e n t h et a r g e ta m i n oa c i d ss e q u e n c eb ys a m p l i n gt h et w ot r a i n e dm o d e l s c o m p a r i n gt o r o t a m e rh b r a r yp r o d u c e db yt h eo t h e rp o p u l a rs i d e - c h a i nm o d e l i n gm e t h o d s ,o u r sa r e m o r ec l o s et on a t i v ec o n f o r m a t i o n w ea p p l yt h er o t a m e rl i b r a r i e sg e n e r a t e db yo u rm o d e l st ot h es t a t e - o f - t h e - a x t s y s t e mo fs i d e - c h a i np r e d i c t i o n w ec o m p a r et h ea c c u r a c yo fp r e d i c t e dp r o t e i ns i d e - c h a i nb a s e do nd i f f e r e n tr o t a m e rl i b r a r i e sg e n e r a t e db yd i f f e r e n ts i d e - c h a i nm o d e l s w e f i n dt h a tt h ep r e d i c t i o na c c u r a c yo u t p e r f o r m so na l lt h et e s tt a r g e t st oac e r t a i ne x t e n t c o m p a r i n gw i t ht h a tb a s e do nt r a d i t i o n a lb a c k b o n ed e p e n d e n tr o t a m e rh b r a r i e s t h i st h e s i sv e r i f i e st h a tt h es e q u e n c e d e p e n d e n tm o d e la n ds e q u e n c e - a n db a c k b o n e - d e p e n d e n tm o d e lw i l le n a b l ef u l l yt a k i n gi n t oa c c o u n tt h ep o s s i b l ea f f e c t i o n o fs e q u e n c e a m i n oa c i d st ot h es p e c i f i ca m i n oa c i ds i d e - c h a i n t h er o t a m e rl i b r a r i e sg e n e r a t e db y s e q u e n c e 卜d e p e n d e i l tm o d e l sp r o v i d es o l i ds u p p o r tt op r o t e i ns i d e - c h a i np r e d i c t i o n k e y w o r d s :s i d e - c h a i nm o d e l i n g ,r o t a m e rl i b r a r y , h m m ,s e q u e n c e - d e p e n d e n t ,s e q u e n c e - a n db a c k b o n e - d e p e n d e n t m w r i t t e nb y :w e iw e n a b s t r a c t t h es t u d yo nm o d e l i n gp r o t e i ns i d e - c h a i nw i t hh m ma n di t sa p p l i c a t i o n i v s u p e r v i s e db y :q i a n gl i 基于h m m 的蛋白质侧链建模及其应用的研究目录 第一章 1 1 1 2 1 3 1 4 1 5 第二章 2 1 2 2 2 3 2 4 目录 引言 课题背景 研究现状 课题内容 研究意义 本文的组织结构 蛋白质侧链建模概述 蛋白质结构介绍 2 1 1 氨基酸和肽链的表示 2 1 2 蛋白质侧链结构及其表示 2 1 3 蛋白质骨架及其侧链 侧链建模简介 h m m 简介 本章小结 第三章基于h m m 的蛋白质侧链建模 3 1 模型选择 3 2 训练集的选择与处理 3 3 测试集的选择与处理 3 4 模型训练和采样 3 4 1 模型概述 3 4 2b i c 打分函数 3 4 3 采样过程 3 5 模型评价 3 5 1 与天然结构侧链的聚集度比较 3 5 2 旋转异构体库比较 1 1 3 4 5 6 7 7 7 0 3 5 7 8 9 9 0 1 2 2 5 5 7 7 8 1 1 3 4 5 6 7 7 7 加坞 玷 掩 均 均 俎 勉 盟 沥 弱 行 卯 嚣 目录 基于h m m 的蛋白质侧链建模及其应用的研究 3 5 3 实验小结2 9 3 6 本章小结3 0 第四章基于蛋白质侧链建模的侧链预测3 3 4 1 侧链预测平台3 3 4 2 旋转异构体库生成3 4 4 3 侧链预测结果3 5 4 3 1蛋白质侧链构象预测结果3 5 4 3 2 氨基酸侧链预测结果3 7 4 3 3 综合比较3 9 4 3 4 实验小结3 9 4 4 本章小结4 1 第五章总结与展望4 3 5 1 工作总结4 3 5 2 研究展望4 4 参考文献4 5 发表文章目录及科研项目5 1 致谢5 3 基于h m m 的蛋白质侧链建模及其应用的研究插图 插图 2 1 赖氨酸结构示意图 9 2 2 肽链示意图1 0 2 3 蛋白质骨架和侧链的扭转角1 1 2 4 氨基酸结构及其侧链1 2 2 5 蛋白质4 个结构层次示意图1 4 2 6 旋转异构体x 角分布1 6 2 7 隐马尔科夫模型状态变迁图1 8 3 1 用d b n 方式表示的h m m 2 2 3 2 s e q d e p s c m 状态变迁图2 3 3 3 s e q b a c d e p s c m 状态变迁图2 4 3 4t 5 1 3 - d 2 和t 4 4 3 - d 1 中不同方法产生的旋转异构体库正确率2 9 4 1 四种方法得到的侧链x 1 精度比较4 0 4 2 四种方法得到的侧链x 1 + 2 精度比较4 0 基于h m m 的蛋白质侧链建模及其应用的研究 表格 表格 2 12 0 种氨基酸的中英文名称及其缩写8 3 1目标蛋白质定义及相关情况 3 2 序列相关旋转异构体聚集度比较 3 3 序列骨架相关旋转异构体聚集度比较 4 1 基于s e q r o t l i b 误差4 0 度时预测精度 4 2 基于s e q r o t l i b 误差2 0 度时预测精度 4 3 基于s e q b a c r o t l i b 误差4 0 度时预测精度 4 4 基于s e q b a c r o t l i b 误差2 0 度时预测精度 4 5 基于s e q r o t l i b 的1 3 个蛋白质所含氨基酸的精度标准 4 6 基于s e q b a c r o t l i b 的1 3 个蛋白质所含氨基酸的精度标准 2 1 2 8 2 9 3 6 3 7 3 8 3 9 4 1 4 2 基于h m m 的蛋白质侧链建模及其应用的研究第一章引言 第一章引言 1 1 课题背景 蛋白质“p r o t e i n 源于希腊文“p r o t e i o s ,单词原意是“头等重要 ,表明就人们 很早意识到蛋白质对生命活动的重要作用。随着研究的深入,大量研究成果已经证明 蛋白质是生命的基础物质之一,是生物体多种功能的执行者,它对于维持生物的正常 生存必不可少。在基因组学取得重大突破之后,目前的主要任务是分析这些海量的基 因组信息中编码蛋白质的基因的功能,测定每一个蛋白质甚至是蛋白质复合物的结 构和功能。诺贝尔化学奖获得者a n f i n s e n 通过核糖核酸酶的变性和复性实验,发现 该蛋白质折叠成天然构象的全部信息都在其一维结构中,这也就是现在通过计算技 术进行蛋白质结构预测的基础理论一热力学假说 1 】。这一结论后来通过大量的球蛋 白结构实验方法测定所证实。正是基于这个理论,对于目前海量尚未获得其空间结构 的蛋白质,可以通过其序列和一些已经被证实的序列结构之间的关系来计算或建立 三维结构模型。而目前只能是通过实验方法测定一些比较重要且具有代表性的蛋白 质结构,在此基础上,我们可以通过建立模型的方法预测其他蛋白质的结构。尤其是 在目前已知海量蛋白质序列信息的基础上,蛋白质的三维结构就显得更为迫切,因为 它是对以后了解并利用蛋白质功能进行蛋白质设计和药物设计的重要基础。 随着生物信息学的发展,利用生物信息学手段直接从氨基酸序列预测蛋白质空 间结构的效率和精度不断提高。一般来说,预测蛋白质结构的方法主要有三类: 同源建模 当少数的蛋白质结构通过x 射线晶体法或核磁共振波谱学( n m r ) 等实验方法 测定后,我们可以通过序列比对软件,如b l a s tf 2 1 ,对目标序列和已知结构序列 进行比对。经比对发现同源蛋白质之间虽然存在着变异,但仍保持着基本相似 的折叠形状( 如二级结构种类及其排列顺序) 。因此我们可以把需要测定结构的 目标蛋白质映射到其同源蛋白质家族中已知结构的蛋白质上来,将这个已知结 构的同源蛋白质做为模板,建立目标蛋白质的总体折叠形状,然后通过一些插 入、替换、删除等操作来得到目标蛋白质的可能结构。此种预测方法称为同源 建模( h o m o l o g ym o d e l i n g ) 【3 】,该方法预测速度较快,精度比较高,但是由于已 知结构的蛋白质数量较少而且许多蛋白质没有同源序列,导致该预测方法具有 一定的局限性。该预测方法最具代表性的是s w i s s m o d e lf 4 】。 折叠识别 iiii。l 第一章引言基于h m m 的蛋白质侧链建模及其应用的研究 又称穿线法( t h r e a d i n g ) ,它是在同源建模基础上发展而来的。在对某些未知结 构的蛋白质进行同源序列比对时,有可能找不到与其同源的蛋白质。这说明该 类型的蛋白质还没有被用实验方法测定出来。此时,同源建模方法就无法发挥 作用。由于找不到同源蛋白质,故只有从一个已经定义好的包含整个蛋白质或 者结构域的结构库中搜索具有相似折叠形状的折叠模板,设计一个评分函数来 找到一个最为相似的结构。该方法最具代表性的是i - t a s s e r 5 1 。 从头预测 1 9 7 3 年,a n f i n s e n 提出热力学假说,蛋白质的天然构象处于全局自由能最小 的状态。这种方法不需要上述两种方法都用到的模板,而是以自由能作为理 论基础来预测蛋白质的折叠类型。它通过各种优化算法来搜索自由能最小的 构象,作为所要预测蛋白质的空间构象。此种预测方法称为从头预测( d en o v o p r e d i c t i o n ) 6 1 ,这种预测方法原则上适合所有的蛋白质类型,包括没有合适模 板存在的蛋白质。能量函数设计和最低自由能的确定是决定从头预测方法准确 度高低的关键。最具权威性的是r o s e t t a 【7 】。 为了客观评价不同预测方法的性能,国际上被广大学者所认同的是c a s p ( c r i t i c a la s s e s s m e n to ft e c h n i q u e sf o rp r o t e i ns t r u c t u r ep r e d i c t i o n ) | 8 1 8 ,它是一个全 球性的蛋白质结构预测方法比赛,自1 9 9 4 年起每两年举行一次。它已经成为蛋白质 结构预测领域的世界最前沿水平间的竞争。c a s p 组织方将收集到的已完成结构测 定但尚未公开的蛋白质做为目标蛋白质,将这些蛋白质的序列发给各预测小组,各个 小组在一定期限内将预测结果说发送回评估中心,该组织对所有预测结果进行评估, 并召开大会后讨论公布评估结果。在最近两届的c a s p 评测中,中国学者张阳连续 名列第一,所使用的方法是i - t a s s e r 。 上述种种预测方法,不管是从头预测的代表性方法r o s e t t a 还是折叠识别的代 表性方法i - t a s s e r ,完成骨架预测之后在进行侧链预测时候,都不约而同的使用 了d u n b r a c k 的骨架相关旋转异构体库( b a c k b o n e - d e p e d e n tr o t a m e rl i b r a r y ) 【9 来 做为侧链预测时候的搜索空间,i - t a s s e r 更是直接把d u n b r a c k 的侧链预测工具 s c w r l 4f 1 0 做为其侧链预测手段。 蛋白质侧链预测不仅仅是骨架预测之后的一个后续环节,侧链预测反过来也可 以对骨架预测进行改进,从而在整体上提高全原子预测精度;自然界中的上百亿种蛋 白质均由2 0 种氨基酸组成却表现出各自极为特殊的生物学活性和如此广泛而又各不 相同的功能的原因是:组成蛋白质分子的2 0 种氨基酸具有不同的侧链,侧链基团的 理化性质和空间排列各不相同【1 1 】,当按照不同的序列关系组合时,就可以形成多种 多样的空间结构和不同生物学活性的蛋白质分子。在生命活动过程中不同的多肽和 2 基于h m m 的蛋白质侧链建模及其应用的研究 第一章引言 蛋白质执行不同的生物功能,这种生物功能的实现不仅决定于一级结构,同时还决定 于空间结构。 随着蛋白质结构理论预测水平的不断提高,在蛋白质骨架预测技术逐渐成熟的 情况下,许多学者开始将研究重点开始逐步转移到侧链预测上来。根据序列决定结 构,结构决定功能的理论,在已有蛋白质骨架的前提下进行侧链预测研究,对于彻底 理解蛋白质结构以及接下来的蛋白质功能预测都具有极为重要的意义。侧链预测精 度的高低直接影响到了蛋白质设计、药物分子设计等学科【1 2 】。因而蛋白质侧链预测 是蛋白质结构预测核心和关键之一。 1 2 研究现状 自从用实验方法测定出第一个蛋白质结构起,就开始对侧链构象进行研究【1 3 1 。 即便是最开始的研究,也注意到一个现象一蛋白质侧链构象的扭转角的取值并不是 均匀分布的,而是在某些特定取值区域内。随着被解析结构的蛋白质数目的增加, 使得通过统计分析手段来寻找最常见的侧链构象成为可能。而且在可以通过拉式 ( r a m a c h a n d r a nm a p ) 1 4 对骨架构象由了充分了解之后,我们能够在基于已知侧 链构象知识的基础上对实验方法测定的结构进行优化以及对蛋白质结构预测和蛋白 质设计这些研究方向提供帮助。 正是由于蛋白质侧链构象的扭转角并不是均匀分布的,而是集中出现在某些特 定值域范围内,所以在做蛋白质侧链预测时候,首先是对已知蛋白构象的侧链通过对 所观察到的侧链扭转角度值进行离散化后统计分析得到旋转异构体( r o t a m e r ) ,英文 全称是r o t a t i o n a li s o m e r ,它是用一组数值来表示某一侧链构象,每一个数值代表一 个扭转角。每一个旋转异构体都被认为是在能量图上的一个局部最小构象。旋转异构 体库就是包含各种类型残基的旋转异构体的集合。它通常包括侧链构象信息以及相 应的出现频率信息。旋转异构体库一般分为骨架相关( b a c k b o n e - d e p e n d e n t ) 和骨架 无关( b a c k b o n e - i n d e p e n d e n t ) 。它们的区别主要在于旋转异构体的扭转角及其统计 信息是否依赖于局部骨架构象。其中骨架无关库在构建时候没有借鉴骨架信息而是 只就该类型侧链构象角度加以计算和统计;而骨架相关库则是将骨架信息( 如骨架扭 转角和矽) 和侧链构象角度信息都加以使用。 早在1 9 7 0 年就有学者进行旋转异构体库研究f 1 5 1 ,只是当时已测定结构的蛋白 质只有三个,设计出的是骨架无关旋转异构体库。文献 1 6 】首次对较多数量的蛋白质 构象进行分析,除了计算出骨架无关扭转角分布外,还发现了骨架扭转角西和砂的拉 式图对每种残基旋转异构体的x 1 关系,证实了骨架构象和侧链构象之间的强烈的相 关性。 3 第一章 引言基于h m m 的蛋白质侧链建模及其应用的研究 直到1 9 9 3 年,d u n b r a c k 【9 1 提出了可用于侧链构象预测的骨架相关旋转异构体 库。该库包含了在拉式 ( r a m a c h a n d r a n ) 分布较为密集区域中的各种残基的旋转异 构体x 】和x 2 出现频率的统计,而且是将骨架扭转角和砂进行了2 0 度为一个单位的离 散化。到了1 9 9 7 年,d u n b r a c k 1 7 通过贝叶斯统计在各个骨架扭转角上对每种侧链 都进行了计算分析,它是基于和妒相关性的先验概率分布,它用贝叶斯公式将步妒相 关性似然值和用狄利克雷函数表示的先验概率分布结合在一起。在图中的分布较密 集的区域,通过上述计算得到的结果与真实数据十分接近,而在较为稀疏的区域,先 验概率分布决定预测得到的结构和扭转角。 而在侧链预测方法方面,最主要的是r o s e t t a 【7 ,1 8 和s c w r l 4 【1 0 】。r o s e t t a 中选 择模拟退火方法作为优化算法,在需要预测的蛋白质序列上对每个残基随机选择一 个旋转异构体,然后使用全原子能量函数来计算当前构象的能量,并用具有较低能量 的旋转异构体替换当前位置的旋转异构体。 而s c w r l 4f 1 0 1 则是由设计骨架相关旋转异构体库的d u n b r a c k 所提供的工具,由 于其预测速度较快、精度较高、易于使用等优点,现在经常被其他蛋白质预测小组借 鉴来做为侧链预测工具。它使用骨架相关旋转异构体库、十分简单的基于库中旋转异 构体出现频率和空间碰撞检测的能量函数和一种用来解决组合排列问题的图压缩方 法来实现。它将图论应用到蛋白质侧链预测的组合问题中来,它将每个残基的侧链看 做是无向图中的顶点,任意两残基之间若有相互作用,则将此相互作用看成是图中的 一条边。通过此种方法生成的图可以分解成若干个连通子图,这些连通子图又可以继 续分解为重连通图,即在该图中没有关节点。这样就把组合优化问题转化为搜索具有 局部最小能量的重连通图以及将这些子图连接起来搜索全局能量最小的构象。 1 3 课题内容 相比于传统的骨架相关旋转异构体库构造方法中使用的频率统计方法,本文提 出基于h m m 对观测数据进行建模,根据已有蛋白质中的氨基酸种类a a 、二级结构 类型s 8 、骨架扭转角和妒、侧链扭转角x 1 和x 2 等信息来学习概率生成模型。训练得 到模型之后对于需要侧链预测的蛋白质侧链进行采样,得到专属于该蛋白质的旋转 异构体集合,在此基础上根据现有的能量函数以及优化方法进行预测,从而得到最低 能量构象。为衡量本方法得到的旋转异构体库是否能够在同样能量函数以及优化方 法的基础上比原有的骨架相关的旋转异构体库提高侧链预测精度,本文采用蛋白质 预测程序r o s e t t a 做为预测侧链平台,该程序采用蒙特卡洛和模拟退火方法来进行蛋 白质侧链预测,实验中所需要的蛋白质初始骨架也是由本课题组通过对r o s e t t a 进行 改进之后预测得到的f 1 9 】。在该平台上可以实现相同能量函数以及相同优化策略下比 较旋转异构体库的计划。 4 基于h m m 的蛋白质侧链建模及其应用的研究 第一章引言 本文提出的蛋白质侧链预测中序列一骨架相关的旋转异构体库的研究主要包括以 下三部分内容: 1 序列相关的旋转异构体库建模的研究 在本方法中,对训练集中的蛋白质序列采集它们的氨基酸种类信息a a 、二级结 构信息s 8 、侧链扭转角x 1 和x 2 这四种属性数据来训练模型,并根据此需要对标 准h m m 进行了必要的扩展;然后对需要预测蛋白质侧链结构的序列进行采样; 最后用现有的优化算法在构建出的旋转异构体库的基础上进行组合优化。 2 序列及骨架相关的旋转异构体库建模的研究 在上述思想的基础上进行扩展,将骨架扭转角西和砂也加入到模型训练时候所需 的属性数据中来,为模型训练提高更多有用的信息,使得训练得到的模型更加 拟合实际情况;接着对需要预测侧链的蛋白质序列进行采样;最后使用现有预 测平台上的优化算法找出最优解。 3 基于上述两种建模方法的应用研究 针对上述两种通过训练模型得到的旋转异构体库,与现有的骨架相关旋转异构 体库在同样的优化算法基础上进行比较。评价本文提出模型的性能。 1 4 研究意义 蛋白质侧链预测是蛋白质结构预测和蛋白质设计中不可或缺的一个环节。在已 有蛋白质骨架的基础上预测蛋白质侧链,得到蛋白质的全原子结构之后才能对理解 蛋白质功能以及接下的蛋白质设计和药物设计起到基础性作用。 基因组学的发展使得蛋白质的序列信息极具膨胀,到2 0 1 0 年5 月为止, u n i p r o t k b 已经有1 1 ,3 8 4 ,8 9 8 条【2 0 】,而已知的蛋白质三维结构只有6 5 ,5 2 7 个【2 1 ,二者相比相差甚远。 现有的蛋白质结构测定方法主要有两种,分别是x 射线晶体学或者核磁共振 波谱方法( n m r ) 。x 射线晶体学首先要将蛋白质结晶,然后记录来自晶体 的x 射线衍射图案,接着再进行修正得到最终的原子模型:但是由于此时的蛋 白质是已经结晶的,所以观测得到的只是某一时刻的状态,不能完全反映蛋白 质的形态。而核磁共振方法( n m r ) 是针对溶液中的蛋白质进行的,它能在更 宽范围的时间尺度上测定蛋白质的某些动力学特性;不过对于比较大的蛋白质, 用n m r 方法的效果不是很好【2 2 1 。上述两种实验测定方法的不足之处在蛋白 质侧链构象测定上有同样的表现。 5 第一章 引言 基于h m m 的蛋白质侧链建模及其应用的研究 对于构成蛋白质的2 0 种氨基酸来说,能够相互区别的只是在侧链部分,其余部 分是完全相同的,不同的侧链会有不同的功能。 预测蛋白质侧链的空间构象可以为接下来的蛋白质设计、药物设计、蛋白质对 接提供基础。 1 5 本文的组织结构 型好 别就 扩展 两种 行蛋 全原 链预 基于h m m 的蛋白质侧链建模及其应用的研究第二章蛋白质侧链建模概述 第二章蛋白质侧链建模概述 2 1蛋白质结构介绍 2 1 1 氨基酸和肽链的表示 蛋白质是由氨基酸经肽键连接而成的多聚物。虽然目前从各种生物体中发现 的氨基酸有1 8 0 多种,但天然蛋白质主要由2 0 种标准氨基酸组成f 2 3 1 。包括1 9 种氨基 酸和1 种亚氨基酸即脯氨酸。它们有共同的特点:构成蛋白质的2 0 种氨基酸都至少 有一个氨基和一个羧基,蛋白质中氨基都是以n h 丰形式存在,而羧基以c o o 一形式 存在,中间是q 碳原子,即c q 。它连接一个氨基、一个羧基、一个氢原子和一个侧 链r 基。r 就是该氨基酸侧链,它是从多肽链的主链上伸展出去的化学基团。每个氨 基酸前三个部分都相同,唯一的区别就是各种氨基酸的侧链r 基不同。在蛋白质中, 侧链与主链的q 碳原子相连,赋予了2 0 种氨基酸中每个氨基酸独特的化学性质。氨基 酸之间的差异就在于该氨基酸的侧链,其他部分是完全相同的。氨基酸侧链在参与氨 基酸间相互作用以及和水的相互作用时有不同的倾向性。这些不同特性对于蛋白质 的稳定性及功能都造成了复杂的影响。通常我们用一个字母或者三字母来表示氨基 酸,具体情况如表2 1 所示。 根据r 基的不同极性性质,可将2 0 种氨基酸分出四组: 1 非极性r 基氨基酸 包括丙氨酸、缬氨酸、亮氨酸、异亮氨酸、甲硫氨酸、脯氨酸、苯丙氨酸和色氨 酸。此种类型氨基酸的侧链是疏水的,所以在水中的溶解性比极性r 基氨基酸 小,而相互之间或与其他原子间可以发生疏水相互作用。所有蛋白质分子内部 都有一部分此类氨基酸,形成疏水内核。 2 不带电荷的极性氨基酸 此类氨基酸包括丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、组氨酸和酪 氨酸。它们比非极性的r 基氨基酸易溶于水。它们的侧链中含有不解离的极性 基团,能与水形成氢键,也可以是氢键的给体或受体。 3 带电荷的极性氨基酸 包括3 种带正电荷的r 基氨基酸:赖氨酸、精氨酸、组氨酸,2 种带负电荷的r 基 氨基酸:天冬氨酸和谷氨酸。其中带正电荷的是一组碱性氨基酸,而带负电荷 的是一组酸性氨基酸。 7 第二章 蛋白质侧链建模概述基于h m m 的蛋白质侧链建模及其应用的研究 表2 1 :2 0 种氨基酸的中英文名称及其缩写 英文名称中文名称三字母缩写单字母缩写 a l a n i n e丙氨酸 a l a a g l y c i n e 甘氨酸 g l y g v a u l i e 缬氨酸 v a lv l e u c i n e亮氨酸 l e u l i s o l e u c i n e异亮氨酸i l ei s e r i n e丝氨酸 s e r s t h r e o n i l i e苏氨酸t h rt p r o l i n e脯氨酸 p r o p a s p a x t a t e 天冬氨酸 a s p d a s p a r a g i n e 天冬酰胺 a s nn g l u t a m a t e谷氨酸g l ue g l u t a m i n e 谷酰胺 g l n q l y s i n e 赖氨酸 l y s k a r g i n i n e 精氨酸 a r g r c y s t e i n e 胱氨酸 c y s c m e t h i o n i n e 甲硫氨酸 m e tm h i s t i d i n e组氨酸 h i 8h t r y p t o p h a n 色氨酸t r pw p h e n y l a l a n i n e 苯丙氨酸 p h ef t y r o s i l i e 酪氨酸 t y r y 蛋白质的三维结构是体现其生化功能和细胞功能的基础。借助蛋白质的三维结构,可 以研究蛋白质的生物角色、分子间相互作用等重要特征。图2 1 是赖氨酸的结构模型, 从图中可以看到相应的氨基( a m i n og r o u p ) 、羧基( c a r b o x y lg r o u p ) 、r 基和氢基。目 前实验测定方法f x 射线和n m r ) 仍然是获得蛋白质空间结构的最可靠的方法。已经 测定的蛋白质三维结构的数目一直少于已经测定的蛋白质序列的数目。这是由于蛋 白质结构的测定方法决定的:x 射线方法需要高纯度的蛋白质晶体,而且只能观察蛋 白质的某一特定状态;而核磁共振方法只能测定较小蛋白质三维结构。 肽是氨基酸的线性聚合物,称为肽链( p e p t i d ec h a i n ) ,蛋白质是由2 0 种不同的氨 基酸经肽键连接而成的一条或者多条肽链构成的多聚物。氨基酸同时含有氨基和 羧基,它们以首尾相连的方式进行缩合反应,一个氨基酸的及n h 2 与另一个氨基酸 的a c o o h 缩合脱去一分子水,由称为肽键( p e p t i d eb o n d ) 的酰胺键共价连接,得到 的产物就是肽。由两种氨基酸形成的肽称为二肽,多个氨基酸连接就形成多肽。故蛋 白质也被称为多肽链( p o l y p e p t i d e ) 。一般情况下,氨基酸的主链都是一样的,由氨基 8 基于h m m 的蛋白质侧链建模及其应用的研究第二章蛋白质侧链建模概述 a m i t l o 黛萍c o o i - o i i p i 瑟f 嘎 i 了f 如i i 6 f h 2i | f 心 j 曼受娶 图2 1 :赖氨酸结构示意图 基团、q 碳原子和羧基基团组成,不同氨基酸的侧链r 不一样。氨基酸在连接形成多 肽链时,每形成一个肽键就丢失一分子的水,已经不是原来完整的分子,故称为氨基 酸残基。通过肽键将多个氨基酸连接在一起构成多肽链,如图所示。多肽链的第一个 残基具有自由的n h 2 ,称为n 端;而另外一段的羧基是自由的,称为c 端。多肽链中由 肽键连接的部分称为骨架,它在所有蛋白质分子中是相同的,2 0 种不同的侧链从这个 主链上伸展出去。氨基酸残基侧链之间的相互作用对于稳定一个蛋白质分子的空间 结构具有重要影响。 氨基酸之间通过肽键相互连接,如图2 2 所示。肽键是由一个氨基酸的羧基与相 邻氨基酸的氨基通过脱去一个水分子形成的。通过这样的重复连接从而形成肽链。蛋 白质就是一条或者多条肽链的集合。具有生物活性的蛋白质是由共价键相连接的氨 基酸组成的聚合体。 由于部分双键性质,肽键连接的基团处于同一平面,具有确定的键长和夹角。 9 第二章 蛋白质侧链建模概述基于h m m 的蛋白质侧链建模及其应用的研究 图2 2 :肽链示意图 肽键是一种酰胺键,连接的基团是酰胺基( 由4 个原子组成,- c o n h 一) ,称为肽 单位。有序连接的肽单位就是多肽链的主链,肽键的平面性质在肽链折叠成三维 结构中起着重要作用。肽单位之间是通过两个共价单键c a c 7 ( c 7 是羧基中的c 原 子) 和c q n 连接,由于这两个单键都可以自由旋转,而肽单位是不能旋转的刚性平 面基团,所以肽单位绕着这两个单键的旋转就可以形成多肽链骨架的不同构象。若固 定两个单键中的一个,旋转另一个单键,就可以使两个相邻的肽单位或肽平面间形成 一定的角度,称为扭转角或者二面角,其变化范围是土1 8 0 0 。在多肽链中,绕c 口一n 单 键形成的扭转角称为西角,绕c 口c 7 单键形成的扭转角称为矽角。一个蛋白质多肽链 主链的构象就是可以用其所有组成氨基酸的那一套( ,矽) n 角度值来描述。一个氨基 酸残基的特定构象就可以用一对( ,妒) 角来表示。同样的氨基酸残基中的侧链构象可 以用侧链中的扭转角来表示,中心旋转角就是侧链中的共价单键。 2 1 2蛋白质侧链结构及其表示 侧链的度量同样是用二面角来表示的f 1 1 1 。在每个氨基酸残基中,只有两个键 是可以旋转的而且是有限度旋转的。其中一个是q 碳原子与该残基的氨基之间的键, 另外一个是q 碳原子与该残基的羧基之间的键。蛋白质骨架和侧链的扭转角如图2 3 所示。对于图中的第i 号残基来说,骨架的扭转角也和纸分别用c 卜l n t c 乒一c t 和 n t c c i n 件1 来定义;而侧链的x 1 则是用原子n i c 一c 7 x 来定义 1 1 】。此处的原 子x 指的是若有多个原子与c p 相连接时优先级最高的一个。优先级的定义规则如 下:原子顺序高的优先级高;若有两个相同的原子与c 卢相连接时,与这两个原子相 连的配体常用来决定优先级;双键的优先级比单键的高;若两个分支是相同的,则具 1 0 7 n o 毡八 hc上r一 7 蚀一 甲h , hc上rh 如由 基于h m m 的蛋白质侧链建模及其应用的研究第二章蛋白质侧链建模概述 图2 3 :蛋白质骨架和侧链的扭转角 有较小正值或者负值的优先级较高;若两分支的扭转角分别是9 0 0 和- - 9 0 0 ,则前者的 优先级较高。 氨基酸侧链决定其生物化学功能,根据构成蛋白质的2 0 种氨基酸不同的性质,可 以将其分为若干类,如图2 4 所示。疏水性( h y d r o p h o b i c ) 氨基酸仅有范德华力作用。 它们倾向于聚合在起,避免和水分子接触,构成了疏水作用的基础。丙氨酸和亮氨 酸强烈倾向于形成q 螺旋,而脯氨酸则很少出现在螺旋中,这是因为其主链氮原子不 能形成螺旋所需要的氢键。苯丙氨酸的芳香族侧链有时可以参与弱的极性相互作用。 亲水性( h y d r o p h i l i c ) 氨基酸残基可以在彼此之间,或者与肽键主链、极性有机分子和 水分子之间形成氢键。这种形成氢键的趋势主导了它们所参与的相互作用。两亲性( a m p h i p a t h i c ) 残基同时具有极性和非极性,是形成界面的理想分子。 从图2 4 可以看出甘氨酸( g l y ) 的侧链最为简单,只有一个氢原子。而其他氨基 酸则有多个原子,最中心的碳原子被命名为c a ,侧链上的碳原子则根据希腊字母表 第二章蛋白质侧链建模概述基于h m m 的蛋白质侧链建模及其应用的研究 等一 ;。m 一毒一 l、 茎丙饺;、| l 。j 天冬酸胺 璺n 前 电 麓 餐甄陵接整铤黢 g i n t y r 天冬甄袭 谷镪麓 缸p g l u p ”“1 一 。“1 番 鬟i 缝 摄 性 色甄馥 t r p 荔鲺陵 t h r 麓瓴葭 p r o 誊兢氮袋 c y s 口磺 侧链 l f l 酸懿馥 勘t 图2 4 :氨基酸结构及其侧链 1 2 擎丙链酸 p h e 一划 _ ;下一 厂b l一受 厂;一。一 o, 移一 酸一 吒 盟k 一 =一型 k;c,o。 一 一 r ;隧。 一c ! ,移一 | 冀譬譬 ,。一= 攀 基于h m m 的蛋白质侧链建模及其应用的研究 第二章蛋白质侧链建模概述 顺序依次命名为c 卢、c 7 、c 6 、c 。等。 2 1 3 蛋白质骨架及其侧链 蛋白质中不同的氨基酸顺序是直接由基因的核苷酸顺序编码的,称为一级结构, 而它也决定了蛋白质如何折叠成更高级的结构。蛋白质的二级结构可以是q 螺旋
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 供热热源规划汇报
- 社工末期评估工作汇报
- 生管半年度工作总结
- 果洛市重点中学2026届英语九年级第一学期期末质量检测试题含解析
- 幼儿园轮状病毒培训
- 有效沟通培训心得
- 山东泰安2026届英语九年级第一学期期末复习检测试题含解析
- 2026届河北省承德市丰宁满族自治县九上化学期中质量检测模拟试题含解析
- 品质主管工作总结
- 内蒙古鄂尔多斯附属学校2026届九年级英语第一学期期末检测模拟试题含解析
- 2025秋教科版(2024)科学三年级上册教学设计(附目录)
- 2025年人教版三年级数学上册全册教案
- 《中国人首次进入自己的空间站》导学案 部编语文八年级上册
- Unit 2 My friends (Period 3) 课件2025-2026学年人教版英语四年级上册
- 烟花爆竹经营安全管理知识培训考核试题及答案
- 西游记第16回课件
- 医院微笑服务培训
- 2025年河南省住院医师规范化培训结业理论考核(外科)历年参考题库含答案详解(5卷)
- 2024年佛山市公务员考试行测试卷历年真题完整答案详解
- 2025年人武专干军事考试题库及答案
- 疲劳综合征治疗研究-洞察及研究
评论
0/150
提交评论