




已阅读5页,还剩100页未读, 继续免费阅读
(管理科学与工程专业论文)蛋白质结构预测方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 蛋白质结构和功能预测是后基因组时代的重要研究内容,它不仅需要生物学 者为之奋斗,同时为数学、计算机科学、信息科学、物理学、系统科学和管理科 学等学科提出了挑战。围绕这一主题,本文进行了一些研究和讨论。主要研究成 ,集如下: 1 利用氨基酸序列预测蛋白质结构可以归结为一个复杂系统的全局优化问题, 建立一个合理的预测模型是关键性的第一步。预测模型的目标函数通常采用 基于物理理论的经验势能函数或基于统计理论的平均势能函数。深入研究了 这两类势能函数的特点,系统分析了一个具有综合特点的联合残基势能函数, 建立了四个预测模型,目标函数分别包含不同的能量项,可以分析比较它们 对预测结果的影响。 2 计算时间是蛋白质结构预测中的主要问题,在常规的最优构象搜索过程中, 采用经典优化算法的能量极小化过程需耗用9 5 以上的计算时间。针对蛋白 质结构预测模型中目标函数多变量、多极值的特点和现有算法的不足,提出 了一种改进的连续函数模拟退火算法。该算法t e 现有算法具有更好的收敛性, 可以有效地解决3 0 0 0 个变量的连续函数全局优化问题。该算法被应用于脑啡 肽和牛胰岛素b d 链的结构的预测,得到了合理的结果;避免了局部能量极 小化过程,节省了构象搜索过程的计算时间。用一种简洁的方法分析了算法 的收敛性。 3 现有的蛋白质结构类预测方法大多没有考虑氨基酸残基的排列顺序,从而使 预测质量受到限制。本文结合子序列分布和f d o d 函数,给出了一种新的蛋 白质结构类预测方法,和现有的预测方法相比,它考虑了氨基酸残基的排列 顺序,从而显著提高了预测精度,与张春霆院士的最新结果相比,两类检验 的总预测精度分别提高了3 3 和5 3 。同时它不需要引入其它物化参数, 且计算简单快速,作为一种新的多序列比较工具还可以用于其它问题的研究。 建立了一个序列冗余性低于3 0 的数据集,利用该数据集验证了本文方法对 于非同源蛋白质的敏感性,并分析比较了子序列长度对预测精度的影响。 4 支持向量机( s v m ) 是近年来迅速发展的一种机器学习方法,它在蛋白质亚 细胞定位预测中得到了成功的应用,预测能力明显优于其它预测方法。基于 f d o d 函数和氨基酸组成,本文构造了一种新的蛋白质亚细胞定位预测方法, 预测结果与支持向量机等方法预测结果进行了比较,对于真核生物蛋白质总 预测精度比支持向量机方法得到的结果高2 6 ,对于原核生物蛋白质预测结 果基本一致。重点分析了预测结果和细胞结构分类的关系。构造了层次预测 博士学位论文:蛋白质结构预测方法研究 方法,这不仅能够帮助我们进一步了解氨基酸组成与蛋白质定位的关系,而 且能够根据对蛋白质不同层次的了解更灵活地进行预测。 5 总结了不同氨基酸序列的特征描述方法,以f d o d 函数作为判别函数,比较了 其中几种描述方法对蛋白质结构类和亚细胞定位预测结果的影响。在蛋白质 结构类预测中,考虑氨基酸残基不同的物化性质可以作为氨基酸组成的补充, 提高预测精度:然而,残基在序列中的顺序可以更好地描述序列与结构类之 间的关系,尤其是a 声和a + 口类蛋白质对残基顺序更敏感。在蛋白质的亚蜘 胞定位预测中,氨基酸组成仍然是最重要的特征,蛋白质的亚细胞位置与序 列同源性的关系没有结构与序列同源性的关系强。另外氨基酸指数在亚细胞 定位预测中可以作为氨基酸组成的补充,提高预测精度。 关键词:蛋白质结构预测;优化模型:模拟退火;蛋白质结构类预测:f d o d 函 数;蛋白质亚细胞定位预测;序列特征描述 摘要 a b s t r a c t t h ep r e d i c t i o no fp r o t e i ns t r u c t u r e sa n df u n c t i o n si sa nu r g e n tt a s ki nt h ee r ao f p o s t - g e n o m e t h i si n t e r d i s c i p l i n a r y f i e l d b e g s f o r k n o w l e d g e o f m a t h e m a t i c s , c o m p u t e rs c i e n c e ,i n f o r m a t i o ns c i e n c e ,p h y s i c s ,s y s t e ms c i e n c e ,m a n a g e m e n ts c i e n c e a sw e l la s b i o l o g y c o n c e r n i n gt h ep r o b l e mo fp r o t e i ns t r u c t u r ep r e d i c t i o n ,s o m e r e s e a r c h e sa n dd i s c u s s i o n sa r em a d ei nt h i s d i s s e r t a t i o n t h em a i nw o r ki s s u m r t l a r i z e da sf o l l o w s : 1 t h ea bi n i t i o p r e d i c t i o no fp r o t e i ns t r u c t u r e i st os o l v eag l o b a lo p t i m i z a t i o n p r o b l e m p e rs e ,i nw h i c h t h ef i r s ts t e pi st ob u i l dam a t h e m a t i c a lm o d e l t y p i c a l l y , t h e o b j e c t i v e f u n c t i o ni nt h em o d e li sa p o t e n t i a le n e r g yf u n c t i o n ,e i t h e r p h y s i c s b a s e dp o t e n t i a l so rs t a t i s t i c b a s e dp o t e n t i a l s t h ec h a r a c t e r so f t h e s et w o t y p e so fp o t e n t i a lf u n c t i o na r er e v i e w e d ;t h eu n i t e dr e s i d u ef o r c ef i e l d ,w h i c h c o m b i n e dt h ef e a t u r e so fb o t h ,i ss c r u t i n i z e d b a s e do nt h i sr e s e a r c hf o u r o p t i m i z a t i o nm o d e l sa r ec o n s t r u c t e d t h e s em o d e l sc o n s i s to fd i f f e r e n te n e r g y t e r m s ;t h e r e f o r et h e yc a nb eu s e dt oe v a l u a t et h ei m p a c t so ft h et e r m so nt h e p r e d i c t i o n s 2 i nt h ep r e d i c t i o no fp r o t e i ns t r u c t u r e s ,t i m ec o n s u m p t i o ni so n eo ft h ep r i n c i p a l p r o b l e m s i nt h e t r a d i t i o n a l p r o c e s s o fc o n f o r m a t i o ns e a r c h i n g ,l o c a l e n e r g y m i n i m i z a t i o nc o n s u m e sa b o u t9 5 o ft h ec o m p u t i n gt i m e c o n s i d e r i n gt h a tt h e o b j e c t i v ef u n c t i o no ft h ep r e d i c t i o nm o d e li so fm u l t i p l ev a r i a b l e sa n dm u l t i p l e m i n i m a ,a r ti m p r o v e ds i m u l a t e da n n e a l i n ga l g o r i t h mf o rc o n t i n u o u so p t i m i z a t i o n p r o b l e m si sd e v e l o p e d t h i sa l g o r i t h mi sa d v a n t a g e o u so v e r t h ef o r m e r a l g o r i t h m s i nt h a ti tc a l le f f i c i e n t l ys o l v el a r g e s c a l ec o n t i n u o u s g l o b a lo p t i m i z a t i o np r o b l e m s ( 3 0 0 0 v a r i a b l e sa s d e m o n s t r a t e d ) w h e n t h i s a l g o r i t h m i s a p p l i e d t ot h e p r e d i c t i o no fp r o t e i ns t r u c t u r e s ,t h et i m e c o n s u m i n ge n e r g ym i n i m i z a t i o nc a nb e a v o i d e d ;t h e r e f o r e t h ec o n f o r m a t i o n s e a r c h i n gp r o c e s s i s s p e e d e du p t h e s t r u c t u r e so fm e t - e n k e p h a l i na n db o v i n ed e s p e n t a p e p t i d ei n s u l i na r ep r e d i c t e d w i t ht h i sa l g o r i t h ms u c c e s s f u l l y i na d d i t i o n ,i t sc o n v e r g e n c e p r o p e r t i e sa r ep r o v e d w i t hac o n c i s ea p p r o a c h 3 m o s to ft h ee x i s t i n gp r e d i c t i o nm e t h o d sf o rp r o t e i ns t r u c u a r a lc l a s s e sd on o tt a k e i n t oa c c o u n tt h er e s i d u eo r d e r a l o n g t h e p r o t e i ns e q u e n c e s ;t h e r e f o r e t h e i r p r e d i c t i v ea c c u r a c i e sa l el i m i t e d i nt h i sp a p e r , an e wp r e d i c t i o na p p r o a c hb a s e d o nt h e s u b s e q u e n c e d i s t r i b u t i o na n dt h ef d o df u n c t i o ni s p r o p o s e d i t i s s u p e r i o r st o t h ef o r m e rm e t h o d sf o rt h a ti ti n c l u d e st h ei n f o r m a t i o no fr e s i d u e o r d e r s c o m p a r e d w i t ht h eb e s tp e r f o r m a n c ep u b l i s h e d ,i ti m p r o v e dt h ep r e d i c t i v e 博士学位论文:蛋白质结构预测方法研究 a c c u r a c i e sb y3 3 a n d5 3 f o rt w o t y p e so f t e s t so nt h es a m ed a t as e tm o r e o v e r , i td o s en o tt l s ep h y s i c o c h e m i c a lp a r a m e t e r s ;i ti s f a s ta n de a s yt o i m p l e m e n t a d a t as e tu n d e rt h el i m i t a t i o no f 3 0 s e q u e n c er e d u n d a n c yi sd e r i v e d t e s t so nt h i s d a t as e ts h o wt h a tt h en e w a p p r o a c hi ss e n s i t i v et on o n - h o m o l o g o u sp r o t e i n s i ti s a l s oc o n c l u d e dt h a tt h e l e n g t h o fs u b s e q u e n e e sa f f e c t st h e p r e d i c t i v er e s u l t s , e s p e c i a l l yf o rt h ep r o t e i n sw i t hm i x e ds e c o n d a r ys t r u c t u r e s s i n g l ed a t as e tt e s t s g i v e t h ep r e d i c t i v ea c c u r a c yo f 7 3 4 s u p p o r tv e c t o rm a c h i n e ( s v m ) i s an e wm a c h i n e l e a r n i n gm e t h o d i t ss u c c e s s f u l a p p l i c a t i o n t ot h ep r e d i c t i o no f p r o t e i ns u b c e l l u l a rl o c a t i o n sd e m o n s w a t e st h a ti ti s m o r ep o w e r f i a lt h a no t h e ra p p r o a c h e s i nt h i s p a p e ra na l t e r n a t i v em e t h o di s d e v e l o p e db a s e d o nt h ef d o df u n c t i o na n da m i n oa c i d c o m p o s i t i o n t h e p e r f o r m a n c e s o ft h en e wm e t h o da n dt h es v mm e t h o da r e c o m p a r e d f o r e u k a r y o t i ep r o t e i n st h ep r e d i c t i v ea c c u r a c yb yu s i n gt h en e wm e t h o di sa b o u t 2 6 h i g h e rt h a n t h a tb y u s i n gs v m ;f o rp r o k a r y o t i cp r o t e i n a l lo v e r a l l p r e d i c t i v e a c c u r a c yo f8 9 。9 i so b t a i n e d b a s e do nt h ec e l l a r c h i t e c t u r e ah i e r a r c h i c a l p r e d i c t i o ns c h e m ei sc o n s t r u c t e d t h i si saf l e x i b l ep r e d i c t i o nm e t h o d ,b a s e do n w h i c ht h ek n o w l e d g eo ft h eq u e r ys e q u e n c ec a l lb eu t i l i z e da n dt h ep r e d i c t i v e a c c u r a c yb ei m p r o v e d a sar e s u l t 5 ,t h ed e s c r i p t o r so fa m i n oa c i ds e q u e n c e sa r es u m m a r i z e d h o wt h e s ed e s c r i p t o r s i n f l u e n tt h ep r e d i c t i o n so f p r o t e i ns t r u c t u r a lc l a s s e sa n ds u b c e u u l a rl o c a t i o n sa r e i n v e s t i g a t e d i nt h ep r e d i c t i o no fp r o t e i ns t r u c t u r a lc l a s s e s ,t h er e s i d u eo r d e ra l o n g t h e s e q u e n c e st a k e s a l l i m p o r t a n tr o l e ;w h i l e a s ;i nt h e p r e d i c t i o no fp r o t e i n s u b c e l l u l a rl o c a t i o n s ,t h ea m i n oa c i dc o m p o s i t i o ni st h em o s ti m p o r t a n tf a c t o r b e s i d e s ,t h ep h y s i c o c h e m i c a lp r o p e r t i e sc a r lb eu s e da sac o m p l e m e n t t oi m p r o v e t h e p r e d i c t i v eq u a l i t i e s , k e y w o r d s :p r o t e i ns t r u c t u r ep r e d i c t i o n ;o p f i m i z a t i o nm o d e l ;s i m u l a t e da n n e a l i n g ; p r e d i c t i o n o fp r o t e i ns t r u c t u r a l c l a s s e s ;f d o df u n c t i o n ;p r e d i c t i o n o f p r o t e i n s u b c e l l u l a rl o c a t i o n s ;d e s c r i p t i o no f s e q u e n c ec h a r a c t e r s 创新点摘要 1 模拟退火算法是一种有效的组合优化算法,模拟退火算法应用于连续函数的 研究尚不多,现有算法往往仅适用于小靓模问题,连续函数模拟退火算法的 理论分析也缺少理想的结果。针对蛋白质结构预测模型中目标函数具有多变 量、多极值的特点,本文提出了一种改进的连续函数模拟退火算法,数值试 验表明,该算法能够解决变量数目达到3 0 0 0 的全局优化问题,这远远超过了 现有算法解决问题的规模。该算法被成功地应用于蛋白质结构预测避免了 常规构象搜索中的局部能量极小化过程耗用的大量计算时间。采用一种简洁 的方法,分析了算法的收敛性。 2 现有的蛋白质结构类预测方法大多没有考虑氨基酸序列中残基的排列顺序, 从而使预测精度受到限制。本文结合子序列分布和f d o d 函数,给出了一种 新的蛋白质结构类预测方法。和现有的预测方法相比,它考虑了氨基酸残基 的排列顺序,从而显著提高了预测精度,对于相同的数据集预测精度比张春 霆院士的最新结果提高了5 - 3 。同时它不需要弓l 入其它物化参数,且计算简 单快速,为多序列分析提供了一种新的有效工具,在其它序列分析问题中也 具有广阔的应用前景。 3 支持向量机( s v m ) 是近年来迅速发展的一种机器学习方法,它在蛋白质亚 细胞定位预测中得到了成功的应用,预测能力明显优于其它方法。本文基于 f d o d 函数和氨基酸组成,结合最邻近法则,构造了一种新的蛋白质亚细胞 定位预测方法。对于真核生物蛋白质总预测精度比支持向量机方法得到的结 果高2 6 ,对于原核生物蛋白质预测结果基本一致。另外,按照蛋白质所处 环境构造了层次预测方法,这不仅能够帮助我们进一步了解氨基酸组成与蛋 白质亚细胞定位的关系,而且是一种更灵活的预测方法。 4 在蛋白质结构类预测和亚细胞定位预测中,氨基酸序列的特征描述起着关键 作用,但由于采用不同的数据集和算法,对不同的描述方法,还没有进行过 系统的分析比较。本文利用统一的数据集和算法,通过分析比较几种描述方 法对预测结果的影响,迸一步了解了蛋白质结构类及亚细胞位置与不同序列 特征之间的关系。在蛋白质结构类预测中,残基在序列中的顺序可以更好地 描述序列与结构类之间的关系。在蛋白质的亚细胞定位预测中,氮基酸组成 仍然是最重要的特征,蛋白质的亚细胞位置与序列同源性的关系没有结构类 与序列同源性的关系强。 第一章绪论 第一章绪论 1 ,1引言 人类有史以来在探索的基本问题之一是生命的本质,从系统科学的观点来 看,生命系统是自然界的一个复杂的巨系统,开创复杂巨系统研究的钱学森院士 将复杂巨系统的研究方法概括为:从定性到定量的综合集成方法,实质就是将专 家群体、数据和各种信息与计算技术有机地结合起来( 戴汝为,1 9 9 7 ) 。世纪之 交迅速发展起来的生物信息学正是一门集多学科专家知识,利用信息和计算技术 探索生命系统奥秘的一门交叉学科。 在生命系统中,核酸和蛋白质包含了调控和维持各种生命现象的所有信息, 构成生命的信息系统。以核酸和蛋白质为核心研究内容的分子生物学技术在二十 世纪迅速发展,为整个生物学和医学领域带来了各种各样对揭示生命本质的期 望,同时完全改变了生命科学的研究模式,它不再是单纯依靠生物学家的实验来 了解生命,生命系统研究已经积累了复杂的、海量的数据,仅人类基因组就包含 了3 0 亿个碱基对的数据,而且其它生物的基因组数据也在爆炸式增长,如何管 理和解释这些数据成为摆在科学家面前的一个重大问题,它呼唤着数学、计算机 科学、信息科学、管理科学等多学科学者的共同参与,于是一门新兴的交叉学 科一一生物信息学应运面生。生物信息学的砑究不仅仅局限于开发数据库系统维 护和管理数据,更重要的是对现有数据进行计算和分析,发现其中的规律和生物 学意义,蛋白质结构和功能预测正是其中一个核心研究内容。 理论上,从氨基酸序列预测蛋白质空间结构可以归结为一个复杂系统的全局 优化问题。2 0 世纪5 0 6 0 年代,a i l f f l n s e n 等对牛胰核糖核酸酶进行了变性和复 性实验,发现在一定条件下蛋白质的氨基酸序列可以自发地再折叠形成天然的酶 分子,这发现揭示了氨基酸序列到蛋白质结构的折叠是一个热力学过程,而且 氨基酸序列包含了形成蛋白质空间结构的必要信息。蛋白质的空间结构也称构 象,普遍认为蛋白质天然构象是热力学最稳定的构象,即自由能最小的构象。所 以,如果能够建立一个表征蛋白质结构与能量关系的函数,利用最优化方法在蛋 白质构象空间找到能量函数的全局极小点,蛋白质结构预测的问题便可以得到解 决。然而,由于蛋白质分子空间结构极其复杂,蛋白质结构预测中的两个难题至 今仍没有得到解决:如何建立一个能正确区分蛋白质天然结构和其它结构的能量 函数:如何发展一种有效的全局优化方法。本文第二章重点讨论蛋自质结构预测 的优化模型,建立了四个预测模型,用于分析不同能量项对预测结果的影响:第 三章针对蛋自质结构预测模型中目标函数多极瞧多变量的特点,提出了一种适用 于大规模连续函数全局优化问题的改进的模拟退火算法:利用第二章的预测模型 博士学位论文蛋白质结构预测方法研究 将算法成功地应用于脑啡肽和牛胰岛素的空间结构预测;并对算法的收敛性进行 了讨论。 截止2 0 0 1 年1 2 月蛋白质序列数据库p i p 中序列超过了2 7 4 ,0 0 0 条,蛋白 质结构数据库p d b 中测定的蛋白质结构仅大约1 7 ,0 0 0 卜,而且p d b 数据库中 存在大量的冗余。从海量的序列数据中挖掘生物学新知识是计算机科学、信息科 学、数学、统计学等多学科共同面临的重要问题。利用现代信息技术分析蛋白质 序列与结构之间关系以及序列与功能的关系是本文后一部分的主要研究内容。尽 管蛋白质的三维结构极其复杂,很多蛋白质却具有相同的折叠方式,从而可以将 蛋白质划分为不同的结构类。分析蛋白质序列与结构的关系不仅可以为蛋白质结 构预测提供有用的信息,提高预测精度,而且可以帮助我们认识序列一结构一功 能之间的关系。论文第四章讨论一种新的信息论方法及其在蛋白质结构类预测中 的应用。细胞是生命的基本单位,细胞中不同部分专一的结构和功能是由其特定 的蛋白质决定的,蛋白质的亚细胞定位是与蛋白质结构和功能密切相关的一个重 要性质。本文第五章讨论信息论方法在蛋白质亚细胞定位预测中的应用。理论上, 根据氨基酸序列预测蛋白质的结构类和亚缅施定位都是多类模式识剐问题,预测 方法是否成功,不仅取决于识别算法的灵敏性,如何从序列中提取结构和功能信 息同样起着决定性作用。本文第六章对现有的氨基酸序列描述方法进行了总结, 并且分析比较了它们在蛋白质结构类预测和亚细胞定位预测中的性能。 1 。2 蛋白质结构预测的意义 储存在d n a 中的遗传信息,通过自我复制,转录为r n a ,然后翻译为蛋 白质的氨基酸序列,三联密码的破译使人们掌握了这秘从d n a 戮氨基酸序列的 信息传递关系,即分子生物学中心法则。基因组测序计划产生了大量氨基酸序列, 然而要了解蛋白质在生物体中的作用,仅有这些序列是不够的,还必须掌握蛋白 质的结构和功能( b a k e r & s m i ,2 0 0 1 ) 。蛋白质的结构和功能是统一的,一种特定 的蛋白质之所以能够行使其特定的生物功能,是由它特定的结构决定的,弄清楚 蛋白质的结构是真正理解其作用机理不可缺少的。例如对生物催化剂酶的研究, 只有在彻底弄清酶的活性中心与底物如何结合,如何反应之后,才能真正了解酶 的催化机理, 蛋白质结构预测是分子生物学的一个基本问题。蛋白质从氨基酸序列折叠到 其特定的天然结构是一个不可思议的过程,对于一个由1 0 0 个氨基酸残基组成的 蛋白质,假设每个残基仅有两种结构可选择,那么这个1 0 0 残基的蛋白质可能采 取的构象数有多少昵? 大于1 0 3 0 种,也就是说,即使每次构象转换仅需l o 。秒, 搜索完所有的构象也需要1 0 撙秒( 1 0 u 年) 。然而自然界中的蛋白质都具有它特 第一荦绪论 定的空间结构,一种蛋白质从去折叠状态到天然构象的折叠过程仅用几秒的时 间。这就是讨论了3 0 年的l e v i n t h a l 悖论( d o b s o n k a r p l u s ,1 9 9 9 :s a l i e ta 1 , 1 9 9 9 ) 。最近,s c i e n c e 杂志发表文章指出,蛋白质的折叠并没有一条特定的路线, 一条序列可能通过各种不同的途径折叠,但是最终的构象是相同的。那么,蛋白 质从氨基酸序列到高级结构的折叠受到什么机制的支配呢? 这一问题在蛋白质 领域被称为蛋白质的折叠问题,也称为折叠密码和中心法则的第二遗传密码( 邹 承鲁,1 9 9 9 :r i c h a r d s ,1 9 9 1 ;c h a r t & d i l l ,1 9 9 2 ) 。图1 1 表示了遗传信息从 d n a 到蛋白质结构的信息传递过程。蛋白质结构预测,尤其是基于热力学定律 的蛋白质结构预测能够帮助我们认识蛋白质折叠机理,揭示折叠密码。 d n a - _ 竺笃d n a 墨r n a 三氨基酸序列兰竺争蛋白质生命活动 反转录i 复 山制 r n a 图l l 遗传信息的传递 实验方法测定蛋白质结构的速度远远落后于测序速度,利用计算技术预测蛋 白质结构势在必行。x 射线衍射分析法和多维核磁共振技术是测定蛋白质空间结 构的两种主要实验方法。x 射线衍射分析方法能得到高分辨率的蛋白质晶体结 构,但不能测定溶液中蛋白质分子的三维结构。另外,该方法对蛋白质晶体制备 要求苛刻,所以带来成本高、周期长的缺点。多维核磁共振技术能够测定溶液中 蛋白质分子结构,但是对样品的需求量大,样本蛋白质分子量也受到一定限制( 来 鲁华,1 9 9 3 ;阎隆飞,孙之荣,1 9 9 9 ) 。尽管实验技术不断改进,但实验测定的 蛋白质结构和已知序列之间的差距仍在不断增大( 参见表l - 1 ) ,所有蛋白质的空 间结构都通过实验测定是不现实的,有必要发展一种可靠的理论预测方法。 表1 1 实验方法测定蛋白质序列与结构的数量对比 f 1 9 9 4 年1 9 9 7 篮2 0 0 2 年1 0 月j j 序列( s w i s s p o r t ) 4 00 0 06 80 0 01 1 40 3 31 f结构( p d b ) 40 4 570 0 01 88 3 8 1 1 9 6 1 年a n 矗n s c n 等根据变性的核糖核酸酶a 在一定条件下可以自发地再折 叠形成天然酶分子的实验( 邹承鲁,1 9 9 9 ) ,提出蛋白质分子的一级序列完全决 定其三维结构的著名论断,并因此获得了诺贝尔奖,后来这一论断多次被实验证 实,在蛋白质领域被广泛接受。尽管近些年对蛋白质折叠过程的研究发现有分 子伴侣参与折叠过程,但是分子伴侣可能只是起到稳定折叠中间体的作用, 并不影响蛋白质的最终折叠构象,蛋白质的一级结构决定高级结构是蛋白质结构 博士学位论文蛋白质结构预测方法研究 预测的基础( 来鲁华,1 9 9 3 ) 。 蛋白质分子结构预测除了它自身的理论意义外,同时又是设计全新蛋白质的 基础,在制药、食品、农业、环境等诸多领域都有广阔的应用前景,具有重要的 现实意义。例如,酶具有优良的催化功能,但是由于在较剧烈的条件下难以保持 稳定,不能在工业中应用,改造蛋白质的稳定性,可以使其在特定条件下保持活 性。美国的c h a r l e s ,e b u g g 等人用分子设计的方法花费三年时间找到了嘌呤核 苷磷酸化酶( p n p ) 的抑制剂,p n p 在体内破坏抗癌剂和抗病毒剂,从而使药物 失效,这种抑制剂和药物一起使用,就能够抑制p n p 的作用,使药物有足够的 时间完成治疗。a b b o t t 和m e r c k 实验室使用结构预测方法,用4 年时间创制了 一种药物,它能抑制诱发艾滋病的人类免疫缺损病毒h 所产生的酶,该药物 已经用于人体实验。而传统方法发明一种酶抑制剂通常需要十年时间,合成上千 种侯选化合物,耗费上千万美圆。目前国际上许多著名制药公司都投入了大量的 人力、物力从事基于蛋白质分子结构预测的药物分子设计研究。美国还出现了主 要利用结构预测方法设计药物的公司( 邹承鲁,1 9 9 9 :郝柏林,刘寄星,1 9 9 7 ) 。 人类基因组全序列草图的完成是分子生物学的一个里程碑,与此同时一些其 它生物的基因组序列数据也与日俱增,人们研究的工作重心转向基因组功能的研 究,此时蛋白质结构预测研究尤为重要( j o n e s d t ,2 0 0 0 ) 。在分子生物学领域, 理论预测蛋白质结构的研究已有三十多年的历史,尽管科学家们的奋斗取得了卓 著的成果,但是由于蛋白质系统的复杂性,以及人们对蛋白质折叠的机理尚不清 楚,到现在还没有找到一种完善的预测方法。然而,由于计算技术的发展,以及 生物学家、数学家、信息科学家、计算机专家以及物理学家等的共同参与,最近 在蛋白质分子结构预测领域取得了可喜的进展,人们相信这一难题终将被攻克。 到那时人们将清楚各种疾病的发生机制、各种生命现象的根源,并能够预测、控 制它们,为人类创造更美好的生活。 1 3 蛋白质结构预测的若干基础知识 1 3 1 蛋白质的结构层次 早在二十世纪三十年代,人们已经开始研究蛋白质的空间结构,然而,直 到1 9 5 2 年丹麦生物化学家l i n d e r s t r o m l a n g 提出蛋白质一级结构、二级结构和 三级结构的概念,才使蛋白质结构研究走上了正确道路。后来随着越来越多的蛋 白质结构被测定,又提出了四级结构、超二级结构和结构域等概念( 阎隆飞,孙 之荣,1 9 9 9 ) 。尽管蛋白质结构十分复杂,蛋白质清晰的结构层次使得了解蛋白 质折叠规律和蛋白质结构预测的研究成为可能。 4 第一章绪论 r - - c c o o l 1 毛 图i - 2 氨基酸结构式图i - 3 肽腱的形成 自然晃中所有蛋白质的基本组成单位 是2 0 种基本的n 氨基酸,每个氨基酸都是 由一个氨基c h 2 、一个羧基c o o h 、一个 碳原子c4 和一个r 基团组成( 图1 2 ) , r 基团通常是氨基酸的侧链,它决定了氨 基酸的种类。一个氨基酸的羧基和另一个 氨基酸的氨基缩合脱水形成肽键( 图1 3 ) 。 一定数目的氨基酸以肽键的形式连接而成 一条多肽链,多肽链中的氨基酸由于参加 肽键的形成已经不是原来完整的氨基酸分 子了,称为残基。蛋白质的一级结构 虱1 - - 4 nb 类结构域 ( p r i m a r ys t r u c t u r e ) 一般指构成蛋白质肽 链的氨基酸残基的排列顺序,是一个没有空间概念的结构。氨基酸序列在空间折 叠为一定的三维空间结构,包括二级结构、三级结构和四级结构,通称为蛋白质 的高级结构。二级结构( s e c o n d a r ys t n l c t u r e ) 也称构象单元,是蛋白质复杂空间 构象的基础,是多肽链骨架在局部形成的结构单元( 。螺旋、6 折叠、转角、无 规则卷曲等) ,这些构象单元在所有的蛋白质中普遍存在。不同数目、不同尺寸 的二级结构和其它无规则段以不同的方式排布连接成完整的蛋白质空间结构,即 蛋白质的三级结构( t e n i a r ys t r u c t u r e ) 。蛋白质的三级结构包括组成蛋白质的所有 原子在空间的位置,也称蛋白质的三维结构、空间结构或构象( c o n f o r m a t i o n ) 。 如果一个蛋白质仅包含一条多肽链,这个蛋白质就只有三级结构。某些更复杂的 蛋白质包含两条或者多条多肽链,每一条单链形成特定的三级结构,称为亚基, 亚基通过非共价键形成蛋白质的四级结构。除此之外,二级结构和三级结构之间 还存在一些过渡结构层次,如超二级结构和结构域。超二级结构( s u p c r s c c o n d a r y s t n l c t u r e ) 一般为两个或几个二级结构单元迸一步组成的具有特殊几何排列的局 域空间结构,例如1 0 0 p b 表示一个a 螺旋经过多肽与一个b 折叠连接起来形 成的超二级结构;结构域( d o m a i n ) 是由二级结构单元或超二级结构折叠成的 局部区域,它们往往有特定的空间组织方式,很多结构域具有不完全的生物功能。 l 博士学位论文蛋白质结构预铡方法研究 一些小分子量的球蛋白只有一个结构域,蛋白质的三级结构就是结构域的三级结 构,大分子量的蛋白质的三级结构是多个结构域组合的结果。图1 - 4 为一个条带 状表示的蛋自质结构域实例,从图中可以清楚地看出规则的q 螺旋、b 折叠以及 它们有规律的排列方式。图1 - 5 以树状表示了蛋白质的结构层次( 阎隆飞,孙之 荣,1 9 9 9 :陶慰孙等,1 9 9 5 ) 。 蛋白质 结构域 翘二级结构 二级结构 氟基馥序列 图卜5 蛋白质结构层次 1 3 2 维持蛋白质结构的主要作用力 蛋白质多肽链为什么能形成二级结构和三级结构呢? 这涉及到多肽链上残 基侧链之间的相互作用,以及侧链与溶剂环境的相互作用。侧链相互作用一般包 括疏水作用、静电相互作用( 离子键) 、氢键和范德华力,有时还有二硫键和配 位键起到稳定蛋白质结构的作用。这些相互作用的方式与侧链的种类有关。2 0 种氨基酸中,除g l y 而外,都有自己特殊的侧链,按照极性和带电性可以分为四 类( 阎隆飞,孙之荣,1 9 9 9 陶慰孙等,1 9 9 5 ;沈同等,1 9 9 0 ) : 非极性侧链:l e u ,i t e ,v a l ,a l a ,p h e ,t r p ,p r o ,m e t 的侧链: 极性不带电荷的侧链:t h r ,s e r ,t y r ,c y s ,a s h ,g l n 的侧链; 极性带正电荷的侧链:l y s ,a r g ,h i s 的侧链; 极性带负电荷的侧链:a s p ,g l u 的侧链。 1 疏水相互作用:水分子是极性的,在水溶液中,极性侧链容易和水作用形成 氢键;非极性侧链则具有相反的性质,为了避开水它们表现出与同类侧链相 互接触的倾向,这种现象被称作疏水作用。疏水作用是水溶性球蛋白分子折 叠的重要驱动力,疏水性残基总是倾向于埋藏在蛋白质分子内部以最大限度 地减少与水分子的接触。疏水相互作用大约为一3 k j m o l 。 2 静电相互作用:静电相互作用也称盐键或离子键,是带正电的侧链与带负电 的侧链之间的相互作用。静电相互作用严格服从库仑定律,其作用强度与电 量的乘积成正比,与电荷间距离的平方成反比。由于介电常数的不同,蛋白 质表面残基间离子对形成的离子键能较低,大约在0 。5 - 1 5 k j m o l 之间,埋 6 胍爪瓤 第一章绪论 藏在内部的残基间离子键键能高达1 5 k j m o l 。 3 氢键:由电负性原子和氢形成的基团如n - h 和o - h ,在遇到另一个电负性很 强的原子时就产生静电吸引,即氢键。氢键在维持蛋白质结构中起着极其重 要的作用,多肽主链上羰基氧和酰胺基之间形成的氢键是维持二级结构的主 要作用力;另外氢键还可以在侧链与侧链、侧链与水分子、主链肽基与侧链 或主链肽基与水之间形成。氢键具有方向性,当参与形成氢键的三个原子位 于一条直线时,作用力最强。蛋白质分子上大多数氢键是在主链上c = o 与n h 基团间形成,在水溶液中,这种类型的氢键对于稳定蛋白质构象所提供的能 量大约为5 k j m 0 1 ,其变化范围为2 7 5 k j m o l 。 4 范德华力:蛋白质中所有原子不断运动,原子中的电子也绕原子核不停运动。 为此,一些原子的正负电荷在一瞬间也可能有相对的偏移,造成瞬间偶极。 瞬间偶极之间也发生相互作用,称为色散力,也称范德华力。范德华力是一 种较弱的相互作用,一般在0 4 1 8 - 0 8 3 6 k j m o l 之间。尽管这种作用力很弱, 只能在很短的距离内有作用,但是由于蛋白质分子原子数目巨大,所以也不 容忽视。 j 二硫键:二硫键是一种共价键,多数蛋白质具有二硫键。新生肽链合成后, 两个半胱氨酸的侧链巯基氧化成胱氨酸,肽链中才形成二硫键,它是蛋白质 翻译后加工的结果。二硫键的形成使蛋白质的空间结构更加紧密,对稳定蛋 白质结构起重要作用。 6 配位键:一些蛋白质中含有一些金属,组成蛋白质的氨基酸中,可参与氢键 的很多基团都和一些金属形成配位键,对稳定蛋白质结构也有一定的作用。 1 4 蛋白质结构预测模型、方法及研究进展 蛋白质的一级结构决定其空间结构是蛋白质结构预测的理论基础。通过分析 已知的蛋白质结构和氨基酸序列的关系发现,蛋白质的三维结构比一级结构更保 守,一级结构相似的蛋白质往往具有相似的三维结构。一般地,将序列相似性大 于3 0 的蛋白质分子归属于一个家族,认为是由同一祖先进化而来,具有相似的 结构和功能,称同源蛋白质。同源模建方法是基于该理论发展起来的一种较为成 功的方法,然而该方法的局限性是仅适用于同源蛋白质。某些蛋白质在结构数据 库中找不到同源蛋白质,但是许多序列同源性很差( 2 5 以下) 的蛋白质却存在 相同的骨架结构一折叠子( f o l d s ) ,此时折叠识别方法往往能得到较好的结果。 以结构已知的蛋白质折叠子为模板,寻找目标氨基酸序列可能采取的折叠类型, 即折叠识别。可以看出,同源模建方法和折叠识别方法都需要结构已经测定的蛋 7 博士学位论文蛋白质结构预测方法研究 白质结构作为模板,而且不能产生全新结构。和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- ccs变更点管理办法
- 贵州国省道管理办法
- 中央厨房运作管理办法
- 财务公司管理办法讲解
- 维保修工作管理办法
- 规范课程实施管理办法
- 试验室操作管理办法
- 装修消费管理办法细则
- 苏水基建设管理办法
- 中国收养儿童管理办法
- 2024年陕西数字教育年度发展报告-陕西省教育厅
- 探针卡基础知识培训课件
- 2025年留置看护队考试题库及答案
- 幽门螺旋杆菌教学课件
- 《管理学基础与实务》 课件 曾宪达 第1-5章 管理与管理者- 目标与计划
- 高三秋季开学第一课:语你相遇文暖我心+课件+2025-2026学年统编版高一语文必修上册
- 心内科常见疾病健康宣教
- 闭经中医课件
- 煤粉锅炉培训课件
- 面塑教学 课件
- 2025年小学体育课程标准考试测试卷及参考答案
评论
0/150
提交评论