(计算机应用技术专业论文)面向蛋白质折叠结构问题的粒子群优化算法的改进研究.pdf_第1页
(计算机应用技术专业论文)面向蛋白质折叠结构问题的粒子群优化算法的改进研究.pdf_第2页
(计算机应用技术专业论文)面向蛋白质折叠结构问题的粒子群优化算法的改进研究.pdf_第3页
(计算机应用技术专业论文)面向蛋白质折叠结构问题的粒子群优化算法的改进研究.pdf_第4页
(计算机应用技术专业论文)面向蛋白质折叠结构问题的粒子群优化算法的改进研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机应用技术专业论文)面向蛋白质折叠结构问题的粒子群优化算法的改进研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉科技大学 硕士学位论文第1 页 摘要 蛋白质的生物功能是由其空间折叠结构决定的,因此预测蛋白质的折叠结构是生物信 息学领域中极具挑战性的问题之一。近年来,许多研究者从事蛋白质简化模型的研究,这 些模型基于热力学假说,即蛋白质的天然构象是自由能最低的构象。蛋白质折叠结构中最 为典型的数学模型之一是t o y 模型,基于t o y 模型的蛋白质折叠结构预测问题是一个典型 的n p 问题。 在t o y 模型的基础上,已经有各种优化算法用于蛋白质折叠结构的预测。但是这些方 法仍存在着不足,在蛋白质序列长度较长的情况下,算法容易产生早熟收敛,难以收敛到 全局最优解,从而影响预测的精度和效率。 针对t o y 模型多变量多极值的特点,本文基于粒子群优化算法( 以下简称为p s o 算法) 对连续型函数求解的较大优势,通过修改算法结构,提出了两种改进的p s o 算法,并应用 于二维t o y 模型进行蛋白质折叠结构预测。提出的改进算法包括多种群粒子群优化算法( 以 下简称为m p s o 算法) 和自适应分工粒子群优化算法( 以下简称为a d p s o 算法) 。前者主 要是将每一代的种群分为精英子种群、开采子种群和勘探子种群三部分分别进化,改善种 群的局部开采能力和全局勘探能力来提高算法的性能;而后者主要是引入一个局部环境因 数从而动态调整子种群规模,能更为有效的利用有限的计算资源进行蛋白质折叠结构的预 测。 实现的系统分别采用f i b o n a c c i 蛋白质测试序列和真实蛋白质序列做了实验检测。实验 结果表明,与其他优化算法比较,两种改进的p s o 算法不仅提高了极值解的质量,并且增 强收敛效率,体现算法良好的性能。同时,通过改进的p s o 算法预测得到的蛋白质序列的 构形能够在一定程度上反映蛋白质天然结构的一些空间结构特点,即在蛋白质序列的构象 中,疏水性残基形成束,总是被亲水性残基包围这一典型特征。两种改进的p s o 算法能够 精确地进行蛋白质折叠结构预测,为生物科学研究提供了一条有效途径。 关键词:蛋白质折叠;t o y 模型;粒子群优化算法;多种群;自适应分工 第1 i 页武汉科技大学硕士学位论文 a b s t r a c t t h eb i o l o g i c a lf u n c t i o n so fp r o t e i na r ed e t e r m i n e db yt h e i rd i m e n s i o n a lf o l d i n gs t r u c t u r e s , a n du n d e r s t a n d i n gt h ef o l d i n go fn a t u r a lp r o t e i nr e m a i n so n eo ft h em o s tc h a l l e n g i n gp r o b l e m si n b i o i n f o r m a t i c sr e s e a r c h i nr e c e n ty e a r st h e r eh a sb e e na ni n c r e a s i n gi n t e r e s ti ni n t r o d u c i n g m i n i m a l i s t i cm o d e l sb a s e do nt h e r m o d y n a m i ch y p o t h e s i st h a tt h en a t i v es t r u c t u r eo fp r o t e i ni s t h eo n ei nw h i c ht h ef r e ee n e r g yo ft h ew h o l es y s t e mi sl o w e s t t o ym o d e li so n eo ft h em o s t t y p i c a lm a t h e m a t i c a lm o d e l s h o w e v e r , p r o t e i nf o l d i n gp r e d i c t i o np r o b l e mb a s e do nt o y m o d e l i sa t y p i c a ln pp r o b l e m a m a j o r i t yo fv a r i o u so p t i m i z a t i o nc o m p u t i n ga p p r o a c h e sh a v eb e e na p p l i e dt op r o t e i n f o l d i n gp r e d i c t i o n n e v e r t h e l e s s ,t h e s em e t h o d ss t i l l h a v es o m ed i s a d v a n t a g e si np r a c t i c a l a p p l i c a t i o n s t h e yc a l lh a r d l yc o n v e r g et ot h eg l o b a lo p t i m u m w i t ht h ei n c r e a s i n go fp a r a m e t e r s a n dd i m e n s i o n s f o rt h em u l t i v a r i a b l e sa n dm u l t i - e x t r e m u mc h a r a c t e r i s t i c so fp r o t e i nf o l d i n gp r e d i c t i o n ,a n d o nt h eb a s i so ft h el a r g ea d v a n t a g e so fp a r t i c l es w a r mo p t i m i z a t i o na l g o r i t h m ( h e r e i n a f t e rp s o ) i ns o l v i n gc o n t i n u o u sf u n c t i o n s ,t w ot y p e so fi m p r o v e dp s oa l g o r i t h mb ym o d i f y i n gt h e a l g o r i t h ms t r u c t u r ea r ep r o p o s e df o rp r o t e i nf o l d i n gp r e d i c t i o nb a s e do nt o ym o d e l i m p r o v e d a l g o r i t h m sp r o p o s e di n c l u d ei nm u t l i p s oa l g o r i t h m ( h e r e i n a f t e rm p s o ) a n da d a p t i v ed i v i s i o n p s oa l g o r i t h m ( h e r e i n a f t e ra d p s o ) i nt h ef o r m e ra l g o r i t h m ,t h ep o p u l a t i o ne v e r yg e n e r a t i o ni s d i v i d e di n t ot h r e ep a r t s :t h ee l i t e ,e x p l o i t a t i o n ,a n de x p l o r a t i o ns u b g r o u p s a sar e s u l t ,t h e a l g o r i t h mi m p r o v e st h el o c a le x p l o i t a t i v ea n de x p l o r a t i v ec a p a b i l i t i e sa n d i tw i l li n c r e a s et h e p e r f o r m a n c eo f t h i sa l g o r i t h m i nt h el a t t e ro n e ,i tc a nm a k et h ea l g o r i t h mm o r ee f f e c t i v ei nu s e o fl i m i t e dc o m p u t i n gr e s o u r c e ,t h r o u g hi n t r o d u c t i o no fal o c a le n v i r o n m e n tf a c t o ra n da d j u s t i n g t h es u b p o p u l a t i o ns i z e i nt h ee n d ,t h ee x p e r i m e n ta d o p t st h ef i b o n a c c ia n dr e a lp r o t e i ns e q u e n c e sr e s p e c t i v e l y a sa r e s u l to ft h ee x p e r i m e n t ,c o m p a r e dw i t ho t h e ra l g o r i t h m s ,t h er e s u l ts h o w st h a tb o t hi m p r o v e d a l g o r i t h m s n o to n l yi m p r o v et h eq u a l i t yo fl o c a le x t r e m es o l u t i o n ,b u ta l s oe n h a n c et h e c o n v e r g e n c ee f f i c i e n c y t oa ne x t e n t ,i ts h o w st h a tt h ei m p r o v e da l g o r i t h m sa r ea b l et or e f l e c t a n dc o n f i r mt h a tt h es p a c es t r u c t u r eo ft h en a t u r a lp r o t e i n i tm e a n st h a th y d r o p h o b i cr e s i d u e s f o r m sb e a ma n dh y d r o p h i l i cr e s i d u e sa l w a y ss u r r o u n d e d m o r e o v e r ,i tc a nb em o r ea c c u r a t ef o r t h ea l g o r i t h mt op r e d i c tt h ep r o t e i n f o l d i n gs t r u c t u r e ,a n dp r o v i d ea ne f f e c t i v ew a y f o rb i o l o g i c a l r e s e a r c h k e y w o r d s :p r o t e i nf o l d i n g ;t o ym o d e l ;p s o ;m u l t is w a r m ;a d a p td i v i s i o n 武汉科技大学硕士学位论文第1 页 1 1 课题背景及其意义 第一章绪论 生命是物质运动的高级形式,这种运动形式是通过蛋白质来实现的。蛋白质是生物体 细胞中最丰富,功能最多的生物大分子,约占人体固体成分的4 5 ,它分布于几乎所有生 物体的细胞、组织中【。蛋白质由碳、氢、氧、氮及少量的硫组成,此外在某些蛋白质中 还含有微量的磷、铁、锌、铜和铝等元素。蛋白质是构成细胞内原生质的主要成分,是生 命现象的主要物质基础。所有的生命活动,呼吸、运动、消化、甚至感知、思维记忆等都 是依靠蛋白质来实现的,所以蛋白质是生命的物质基础。 生物信息学是随着人类基因组计划( h u m a ng e n o m ep r o j e c t ,h g p ) 发展起来的。2 0 世纪生物学最宏伟的人类基因组计划的顺利实施,大大加速了生命科学各方面的发展。2 1 世纪初,人及其他一些模式生物( 微生物、果蝇、线虫、水稻) 等基因组作图和测序的陆 续完成,标志着生物学进入了“后基因时代 ( p o s t g e n o m ee r a ) ,或者说进入功能基因 组和蛋白质组时代。随着人类基因组计划( h g p ) 在世界范围内的顺利展开与随着人类基 因组计划的顺利完成,蛋白质氨基酸序列的测序速度大大加快,x 射线晶体衍射技术和多 维核磁共振方法是测定蛋白质空间结构的主要方法,然而这些方法不仅耗资耗时,还受到 实验条件的限制,因此蛋白质分子结构测定的速度远远落后于氨基酸序列测定的速度 【2 l ,1 3 】,【4 】目前蛋白质序列数据库中大约有2 4 万个蛋白质的序列数据,但在蛋白质结构数据 库中,仅有大约2 万多个蛋白质的空间结构数据。面对巨大而复杂的数据,运用计算机管 理数据、控制误差、加速分析过程势在必行。 2 0 世纪7 0 年代初a n f i n s e n 提出假说,认为蛋白质的一级结构完全决定其空间结构【5 j , 并因此获得诺贝尔奖。虽然这一论断现在已被广泛接受,而且大量实验充分说明氨基酸序 列与蛋白质空间结构之间确实存在着一定的关系,但是氨基酸序列的多肽链是如何决定蛋 白质空间折叠结构,这一过程又怎样遵循热力学和动力学规律的,这些都是分子生物学中 心法则至今尚未解决的一个非常重要的问题,这一问题称为蛋白质折叠问题,也称为中心 法则的第二遗传密码【6 j 。蛋白质结构预测,尤其是基于热力学定律的蛋白质结构预测能够 帮助人们认识蛋白质折叠机理,揭示折叠密码。 1 2 国内外研究现状与意义 目前结构预测的方法【4 】大致可分为两大类。一类是假设蛋白质分子天然构象处于热力 学最稳定、能量最低状态,考虑蛋白质分子中所有原子间的相互作用以及蛋白质分子与溶 剂之间的相互作用,采用分子力学的能量极小化方法,计算出蛋白质分子的天然空间结构。 第二类方法是找出数据库中已有的蛋白质的空间结构与其一级序列之间的联系总结出一 第2 页武汉科技大学硕士学位论文 定的规律,逐步从一级序列预测二级结构,再建立可能的三维模型,根据总结出的空间结 构与其一级序列之间的规律,排除不合理的模型,再根据能量最低原理得到修正的结构, 这也就是所谓基于知识的预测方法i 刀。 近些年来,利用第一类方法来研究蛋白质问题取得了很大的成绩,人们相继提出了许 多简化模型。这些模型的求解最后都转化为了n p 问题的求解。因此,蛋白质折叠问题也 就成为了计算机理论科学中的核心问题。 通过理论抽象,蛋白质被认为是由疏水性氨基酸( h y d r o p h o b i c ) 和亲水性氨基酸 ( h y d r o p h i l i c ) 组成。目前主要有两类模型,一类是国际上广泛认同的格点模型( l a t t i c e m o d e l ) ,另一类是非格点模型( o f f - l a t t i c em o d e l ) 。d i l l 等人提出的h p 格点模型【8 l 是最 简单的格模型,因为它模拟了体积、疏水性和构象的灵活性,而蛋白质的其他性质都被忽 略了。重要的是它是一种在格上表示的聚合物链,当两个疏水残基在链上不相邻而在格上 相邻的时候,它们有稳定的相互作用。然而即使是简化模型,找出蛋白质序列的最低能量 构象仍然是n p 困难的i 引,其求解时间呈指数增长,随着序列长度的增大,求解变得十分 困难。1 9 9 3 年,s t i l l i n g e r 等人提出t o y 模型i l o l ,不同于格模型的是它的折叠角度。其中, 连接三个氨基酸残基的两个键之间的角度是可以任意变化的,即两两相邻的键是可以任意 转动的,而且该模型同时考虑了链上不相邻单体之间的势能,以及相邻两键之间的势能。 虽然上述这些模型比蛋白质折叠问题本身大大简化,但是利用这些模型计算出来的结 果与实际蛋白质构形仍然具有较强的一致性1 1 1 】,而且因为模型比较简单,影响因素也比较 小,对弄清楚影响蛋白质结构预测和蛋白质折叠的原理非常有利。不过,由于蛋白质系统 的复杂性,以及人们对蛋白质折叠机理尚不清楚,人们试图从蛋白质一级序列直接预测其 空间结构时,仍遇到了种种困难。 目前,已经有许多启发式算法应用到t o y 模型中进行结构预测。文献1 1 2 】是用 m o n t e c a r l o 模拟方法来进行蛋白质折叠预测。它的优点在于基本概念简单、易于实现,但 随着模拟次数逐渐增多,其计算分析效率较低,对于有较高复杂度的确定性分析过程,这 一缺点尤其明显。文献 1 3 1 将遗传算法( g a ) 应用于此问题。g a 算法与其他传统搜索方 法相比具有更强的鲁棒性,良好的全局搜索能力,减少了陷于局部最优解的风险,但同时 也具有局部开采能力不足的缺点。文献【1 4 】结合模拟退火算法和遗传算法提出了g a a 算 法,虽然该算法在性能上有一定的改进,但是仍然没有从根本上改变g a 的局部开采能力 较弱的问题。 蛋白质结构预测目前存在的主要问题是,预测精度不够高,计算速度不够快,对蛋白 质折叠模式认识不够清楚,预测模型与真实蛋白质还有一定的距离。近年来发展起来的群 集智能理论与方法的发展为上述问题的解决带来了新的希望,特别是,在复杂问题求解方 面体现出动态性、适应性、鲁棒性,有助于弥补上述现有蛋白质结构预测问题中存在的缺 陷。 武汉科技大学 硕士学位论文第3 页 群集智能是指众多行为简单的个体相互作用过程中涌现产生的整体智能行为【1 5 】。目 前,有关群集智能( s w a r mi n t e l l i g e n c e ) 的研究主要集中在复杂问题求解方面,从这个角 度可将“s w a r m 定义为“一组相互之间可以进行直接通信或( 通过改变局部环境) 间接通 信的主体( a g e n t ) ,这组主体能够合作进行分布式问题求解”。而群集智能则是指简单的 主体通过交互作用所表现出的不可预见的宏观智能行为的特性。大多数具有群居生活习性 的生物系统一般都有比较相似的群集智能表现,而从中提炼形成的人工系统模型主要反映 的是蚁群【1 6 1 、鸟群【1 7 】( 粒子群) 、蜂群【1 8 l 、鱼群【1 9 】和狼群【2 0 1 等行为特征。就优化而言, 最为典型的群集智能算法主要包括蚁群优化算法【2 ( a n tc o l o n yo p t i m i z a t i o n ,a c o ) 和粒 子群优化算法f 1 7 1 ( p a r t i c l es w a r mo p t i m i z a t i o n ,p s o ) 两个大类。而前者主要用于离散优 化问题,前者主要用于连续优化问题。 针对蛋白质序列预测问题的求解复杂性和基于p s o 算法的优化特性,本文选用p s o 算法作为本文的主要研究方法。p s o 算法是一种基于群智能方法的演化计算( e v o l u t i o n a r y c o m p u t a t i o n ) 技术。p s o 算法同遗传算法类似,是一种基于群体( p o p u l a t i o n ) 的优化工 具。系统初始化为一组随机解,通过迭代搜寻最优值。但是并没有遗传算法用的交叉 ( c r o s s o v e r ) 以及变异( m u t a t i o n ) 操作,而是微粒( 潜在的解) 在解空间追随最优的微粒 进行搜索。与遗传算法比较,p s o 算法的优势在于简单容易实现同时又有深刻的智能背景, 既适合科学研究,又特别适合工程应用。因此,p s o 算法一提出,立刻引起了演化计算等 领域的学者们的广泛关注,并在短短的几年时间里出现大量的研究成果,形成了一个研究 热点。 目前,p s o 算法的研究大致可分为以下几个领域:算法的原理研究、算法的改进研究 以及算法的应用研究。 1 p s o 算法的原理研究 原理研究即粒子之间是如何相互作用与运动而最终达到全局优化的,与相对鲜明的生 物社会特性基础相比,p s o 算法的数学基础显得相对薄弱,缺乏深刻且具有普遍意义的理 论分析。因此,对数学基础的研究非常重要,如粒子运动轨迹研究、算法收敛性研究和粒 子群分布与演化研究等等。3 礅 2 2 1 , f j 用微分方程和差分方程为工具对单个粒子的运动轨 迹进行研究发现:单个粒子其轨迹是各种正弦波的随机的叠加组合。关于p s o 算法的收敛 性研究比较多的集中在一些简化条件下的结果,采用的主要工具是动态系统理论,其它还 有采用集合论的方法【2 3 】来研究此问题。文献【2 4 】采用f o k k e r p l a n c k 方程和l a n g e v i n 方程对 粒子群算法的运行机理有比较深入的分析研究。 2 p s o 算法的改进研究 p s o 算法的改进研究可以说是p s o 算法研究的最重要的分枝,其内容十分庞大,但大 多数改进方案都基于与其它优化算法的结合。 p s o 算法由于其简单和解决问题的有效能力而被应用到很多的领域。但在实际应用当 第4 页武汉科技大学硕士学位论文 中,也表现出了一些不尽人意的问题。这些问题中最主要的是它容易产生早熟收敛、局部 寻优能力较差等。实际上这些缺点也是几乎所有随机算法的弊病。梯度法、爬山法、直接 搜索法、模拟退火算法等一些优化算法却具有很强的局部搜索能力,而另一些含有问题域 相关知识的启发式算法的运行效率也比较高。可以说,大多数优化方法的全局搜索能力和 局部搜索能力单靠一种算法往往无法得到有效利用与平衡,从而影响了算法的求解精度和 效率。因此,如何合理结合不同算法的优点来构造新算法,对于有效性和优化性同样重要 的工程领域,具有很强的吸引力。自然地,人们想到了混合两种算法或者多种算法在一个 模型当中,尽量发挥各个算法的优点,从而形成了一个研究混合算法的方向。因此,在p s o 算法搜索过程中融合其他优化方法的思想,构成混合p s o 算法成为p s o 算法改进的最常 见的思路。 3 p s o 算法的应用研究 算法的有效性必须在应用中才能体现,尽管p s o 算法已经在一些领域得到了很好的应 用,但是在其他一些应用领域都还处于研究阶段,因此,广泛地开拓的应用领域,也对深 化研究算法非常有意义。 许多实际的工程问题本质上是函数优化问题或者可以转化为函数优化问题进行求解, 对于函数优化已经有一些成熟的解决方法如遗传算法等,但是对于超高维、多局部极值的 复杂函数而言,遗传算法往往在优化的收敛速度和精度上难以达到期望的要求。而蛋白质 折叠结构预测正是可是转化为这类函数优化问题。 a n g e l i n e 经过大量的实验研究发现,p s o 算法在解决一些典型的函数优化问题时,能 够取得比遗传算法更好的优化结果瞄l 。这就说明p s o 算法在解决实际问题时同样具有很好 的应用前景。 通过对p s o 算法的研究可以发现,与遗传算法类似,应用p s o 算法解决优化问题有 两个重要步骤:问题解的编码和适应性函数的选择。应用p s o 算法进行函数优化不仅可以 避免选择、交叉、变异等进化操作,而且可以大大简化上述两个步骤。s h i 与e b e r h a r t 的 实验【2 6 】证明,对大多数的非线性标准测试函数,p s o 在收敛速度和解的精度上均较遗传算 法有一定的改善。 另外,p s o 算法在系统设计、分类、模式识别、信号处理、机器人技术应用、决策制 定、模拟和证明等领域的应用,大量的学者和工程技术人员也进行了一系列的研究。 1 3 本文工作概述 本文主要在蛋白质结构预测模型与优化方法方面做了一些研究: 1 s t i l l i n g e r 等人于1 9 9 3 年提出了t o y 模型,此模型又称为a b 模型或h p 非格点模 型,主要根据蛋白质的氨基酸的疏水性和亲水性把氨基酸残基合并成两类,因此2 0 种氨 基酸就被分成两类。根据主链势能和非相邻键作用提出了能量函数,建立了模型,此问题 武汉科技大学 硕士学位论文第5 页 就归结为一个连续函数的全局优化问题。在此基础上,用p s o 算法来解决这个函数极小值 问题。p s o 算法是一种有效的组合优化算法,本文采用两种适用于连续函数的改进p s o 算 法求能量函数极小值问题。通过计算,能得到较好的结果,并且从蛋白质的构形图中发现 蛋白质的一些简单的性质:疏水性氨基酸形成束,总是被亲水性氨基酸所包围。 2 p s o 算法是一种启发式的全局优化算法,是局部搜索算法的一种推广,己被成功 地应用于许多组合优化问题,但是求解连续函数优化问题的研究还不成熟。针对连续函数 优化问题,特别是蛋白质折叠结构中的高维函数优化问题,本文给出了两种新的改进p s o 算法。两种算法都是在不改变原有算法的数学模型的基础上,针对算法结构方面进行的改 进。将改进后的算法用于仿真实验,实验分为两个部分数值实验,其一是标准人工的蛋白 质测试序列的仿真实验,其二是真实蛋白质序列的仿真实验。结果表明,改进p s o 算法要 优于原有p s o 算法,并且比文献中提到的算法的结构更优。在一定程度上,说明两种算法 的有效性和可行性,是比较好的启发式全局优化算法。 1 4 本文结构安排 本文分为六章,各章内容组织如下: 第1 章简要的介绍了蛋白质折叠结构预测的研究背景及意义、分析了国内外的研究现 状,并介绍了本文的主要工作及结构安排。 第2 章介绍了蛋白质折叠结构预测中的相关知识,其中包括蛋白质结构功能的关系、 蛋白质结构预测问题的发展及其重要性、蛋白质结构预测的方法及其蛋白质折叠结构预测 的优化模型。, 第3 章介绍了p s o 算法的起源、基本原理,同时分析了了算法的行为特性并与传统 的遗传算法进行了比较,深入的分析了p s o 算法中存在的根本问题。 第4 章对粒子群优化算法的优缺点进行了分析,提出了多种群粒子群优化算法 ( m u t l i p s o m p s o ) ,重点描述了在针对蛋白质折叠结构预测问题提出的三个策略,给 出了详细的算法描述,并将m p s o 方法应用在二维t o y 模型中进行蛋白质折叠结构预测, 采用人工数据进行实验,搜索蛋白质序列自由能最低时的构形,并与同类方法进行了比较。 第5 章在第四章实验的基础上,提出了自适应粒子群优化算法( a d a p t i v ed i v i s i o np s o , a d p s o ) ,重点描述了自适应分工的原理和局部环境因子的概念,以及自适应分工的策略, 并将a d p s o 方法应用在二维t o y 模型中进行蛋白质折叠结构预测,采用真实蛋白质数据 进行实验,搜索蛋白质序列自由能最低时的构形,并与同类方法进行了比较。 第6 章总结了本文的工作创新点及不足之处,并对将来的工作内容做出了展望。 第6 页武汉科技大学硕士学位论文 第二章蛋白质折叠结构预测问题及其研究模型 在天然蛋白质中,最终构形是由氨基酸序列唯一决定。一个给定的氨基酸序列对应一 个空间构形,而蛋白质的生物学功能在很大程度上依赖于其空间构形,蛋白质的空间构形 是其功能活性的基础,构形发生变化,其功能活性也随之改变。蛋白质变性时,由于其空 间构形被破坏,故引起功能活性丧失,变性蛋白质在复性后,构形复原,活性即能恢复。 在生物体内,当某种物质特异地与蛋白质分子的某个部位结合,触发该蛋白质的构象发生 一定变化,从而导致其功能活性的变化,这种现象称为蛋白质的变构效应( a l l o s t e r y ) 。 蛋白质( 或酶) 的变构效应,在生物体内普遍存在,这对物质代谢的调节和某些生理功能 的变化都是十分重要的。 因而进行蛋白质结构预测对于理解蛋白质结构与功能的关系,并在此基础上进行蛋白 质复性,突变设计以及基于结构的药物设计具有重要意义。蛋白质的空间构形比单纯的序 列信息能提供更强的进化联系,所以如果蛋白质功能无法基于序列相似性得到,可以首先 预测蛋白质结构然后由结构预测其功能。通过分析比较蛋白质的一级结构,可以判断哪些 氨基酸残基对保持蛋白质的空间构象和生物功能是必需的,哪些是可以取代的;而通过分 析比较蛋白质的空间结构,可以判断哪些结构域是与蛋白质的功能紧密联系的,对蛋白质 发挥正常的功能是必不可少的,哪些空间结构部分是可以变化的。当然,对于同一个蛋白 质,在不同的条件下可能处于不同的构象,因而具有不同的功能【z7 。 2 1 蛋白质折叠结构预测问题 研究蛋白质的功能需要深入了解他们的结构,特别是空间结构,因为结构决定功能。 蛋白质的功能和它的结构二者是统一的,有什么样的结构必定有什么样的功能,反之亦然。 只有了解蛋白质的结构,才能对现有蛋白质进行结构改造,从而有目的地改变其功能,例 如设计艾滋病病毒转蛋白酶抑制剂,就必须对该酶蛋白质的结构有相当的了解。当今,如 果没有蛋白质结构的确切知识,很难对生物学很多领域进行深入的研究。蛋白质空间结构 己经成为生物学家迫切要求了解和掌握的知识了。 世界上第一个蛋白质晶体结构的测定和解析发生在5 0 年代末6 0 年代初。蛋白质二级 结构预测工作开始于6 0 年代中期,也就是说,在解析出第一个蛋白质的三维立体结构不 久,科学家们便开始了蛋白质结构预测研究工作。这件事本身就足以说明蛋白质结构预测 工作的重要性。可以说蛋白质结构预测与蛋白质晶体结构测定是同一年代出现,相伴而发 展的【矧。 大多数蛋白质从一条生长的肽链折叠成有其特定结构的、有活性的蛋白质,并不是一 步完成的,而要经过很多的折叠中间状态。一般来说,自然界中功能性蛋白质有着些相 武汉科技大学 硕士学位论文第7 页 似的结构特征( 仅讨论功能性的球蛋白) ,如同水溶液中的同质高分子一样,天然蛋白质 在生理环境下都能聚集成一团,形成一个紧密的球形状态,但与同质分子不同的是,蛋白 质的异质特性使得某一特定的堆积方式表现出特别优越,以至自然的蛋白质都自觉地选择 或冻结在这种稳定的构型,这种稳定的状态称为蛋白质的自然状态。但是,在外界环境偏 离生理条件超过一定阈值时,蛋白质分子的形状会由于外界因素的扰动而发生改变,蛋白 质分子的一些生理功能就相应地随着折叠结构的破坏而丧失,这样导致的结构状态集合被 称为蛋白质的变性态( d e n a t u r e ds t a t e s ) 。在外界条件适合时,蛋白质分子又可以从变性 态重新回到自然状态,这样的过程就称为蛋白质的折叠( p r o t e i nf o l d i n g ) 。 蛋白质的折叠问题就是通过蛋白质的氨基酸序列来预测蛋白质的空间结构。研究表 明,蛋白质折叠过程非常短暂,而且过程极为复杂,是一个既涉及热力学控制又涉及动力 学控制的过程。所谓热力学控制指的是:自然结构仅由最后的自然条件确定而不是由初始 的变性条件确定,折叠与路径无关。在单纯的热力学控制下,蛋白质折叠需要很长的时间。 动力学控制指的是:折叠是在具有生物学时间尺度内快速完成的,这是由于折叠是与路径 有关的,最后的结构也许是不同的并依赖于折叠开始时的变性条件,因此,蛋白质也许仅 仅只达到一些相应局域极小的状态【矧。总的来说,蛋白质的折叠是遵循“热力学假说 的, 从能量高的状态向能量低的状态转变,但在这个过程中会受到动力学上的控制。热力学控 制与动力学控制在蛋白质多肽链的折叠反应中是统一的,尽管不同的蛋白质在其折叠过程 中所体现出来的二者所起作用的大小可能有所不同。对一些小分子单结构域的蛋白质来 说,折叠过程比较简单,在热力学控制下较易完成;而一些结构较复杂的蛋白质特别是一 些在折叠时需要二硫键重排,脯氨酞顺反异构化的蛋白质在折叠过程中从总体上是受热力 学控制,但折叠途径更受动力学控制1 3 0 j 。 尽管目前对蛋白质折叠的机制缺乏更加深刻的理解,但是蛋白质折叠还是有一些普遍 的特点。大量的研究表明,蛋白质折叠形成的原因主要有三个:疏水作用、二级结构的形 成和一些特殊的作用力,如二硫键等等。其中,二级结构的形成起着决定蛋白质折叠途径 的作用。肽链中近程肽段的折叠是些二级结构形成的过程。近程肽段的相互作用形成折 叠的核心和基础,它在肽链卷曲中的作用就像结晶时的晶核。另有研究表明【3 1 j ,蛋白质折 叠形成过程主要有三种机理:第一,无规则的有机链经过一个简单的反应,折叠为天然状 态。第二,蛋白质从一端开始逐渐卷曲,经过一系列连续的中间过程,最后形成折叠。第 三,蛋白质折叠时,先在链内形成一个有机结构的核心,再在此核心上折叠形成其余部分, 进而形成一个完整的折叠。 研究蛋白质折叠的过程,就是研究蛋白质一级结构中的氨基酸序列是如何折叠成空间 结构的,可以说是破译“第二遗传密码”折叠密码( f o l d i n gc o d e ) 的过程,是分子生 物学研究中尚未揭示的奥秘之一,吸引着许多物理学家、化学家和生物学家。天津大学和 中国科学院生物物理所的科学家已经做出了优秀的研究成果。他们预测,蛋白质的种类虽 第8 页武汉科技大学硕士学位论文 然成千上万,但它们的折叠类型却只有有限的6 5 0 种左右。我国科学家在分子伴侣和折叠 酶方面有特色的研究成果,也已经赢得了国际同行的认可。 蛋白质折叠问题的研究,比较狭义的定义就是研究蛋白质特定空间结构形成的规律、 稳定性和与其生物活性的关系。这个问题的解决,将使人们更好地了解生物体中各种蛋白 质的作用机理,理解蛋白质结构与功能的关系,而且可以在此基础上进行蛋白质复性、突 变体设计,并帮助人们创造具有新型生物功能的蛋白质。 2 2 蛋白质结构预测的方法综述 总体上蛋白质结构的理论预测方法可以分为3 大类,即同源建模法( h o m o l o g o u s m o d e l i n g ) 、折叠识别法( f o l dr e c o g n i t i o n ) 和从头预测法( a bi n i t i op r e d i c t i o n ) 。这些 方法都是建立在氨基酸的一级结构决定高级结构的理论基础上的。 2 2 1 同源建模法( h o m o l o g o u sm o d e l i n g ) 同源建模方法也称为比较建模法( c o m p a r a t i v em o d e l i n g ) ,是一种基于知识的蛋白质 结构预测方法。目前主要是指同源结构预测,它是在未知蛋白质有同源结构可以参考的情 况下应用的一种技术,是目前最为成熟的蛋白质结构预测方法,并且已有商业化软件可以 使用,如b i o s y m m s 工公司的h o m o l o g y 和p r o t e i nd e s i g n 等。 蛋白质根据序列同源性可以分为不同的家族,一般认为,序列相似性大于3 0 的蛋白 质可能由同一祖先进化而来,称为同源蛋白质,同源建模的理论基础是在进化过程中蛋白 质的结构的保守性远大于序列的保守性,因此,己知同源蛋白质家族中某些蛋白质的结构, 就可以预测其它一些序列已知而结构未知的同源蛋白质的结构,可以用同源建模的方法预 测未知蛋白质的三级结构。一般而言对于同源性为6 0 的蛋白质可以建立高精度的模建模 型,主链原子的预测误差大约为1 埃;同源性大于6 0 的蛋白质其预测结果将接近于试验 得到的测试结果;同源性低于3 0 的蛋白质难以得到理想的结构模型,并且随着同源性的 降低,模型误差会迅速增加。 2 2 2 折叠识别法( f o l dr e c o g n i t i o n ) 折叠识别( f o l dr e c o g n i t i o n t h r e a d i n g ) 是近年来发展起来的一种比较新的方法。它可 以应用到没有同源结构的情况中,并且不需要预测二级结构,便可以直接预测蛋白质的三 级结构,是一种很有潜力的预测方法。折叠识别方法的主要原理是把未知蛋白的序列和己 知的结构进行匹配,找出一种或几种匹配最好的结构作为未知蛋白质的预测结构。它的实 现过程是总结出己知的独立的蛋白质结构模式作为未知结构进行匹配的模板,然后用经过 对现有的数据库的学习总结出的可以区分正误结构的平均势函数( m e a nf o r c ef i e l d ) ,作 为判别标准来选择出最佳的匹配方式。这种方法的局限性在于它假设蛋白质的折叠类型是 武汉科技大学 硕士学位论文第9 页 有限的,所以只有未知蛋白质和已知蛋白质结构相像的情况下,才有可能预测出未知的蛋 白质结构。如未知蛋白质结构是现在还没有出现的结构类型时,这种方法将不能被应用。 折叠识别方法的准确率介于同源模建和从头预测方法之间,目前广泛应用的软件系统主要 t h r e a d e r ,3 d - p r o f i l e 和p r o s p e c t 等。 折叠识别技术目前还不是特别可靠的技术,只有在序列相同比率在3 0 5 0 时,才有 可能获得准确的估计。相关程序的结果也相当粗糙,大多数情况下难以作为同源性建模研 究的依据,但是它是大多数蛋白质结构预测信息唯一可利用的工具。 2 2 3 从头预测方法( a bl n i t i op r e d i c t i o n ) 在既没有己知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,上述 两种蛋白质结构预测的方法都不能用,这时只能采用从头预测方法,即仅仅根据序列本身 来预测其结构。a n f i n s e n 提出的蛋白质的天然构象对应于自由能最低时的结构这一热力学 假设【捌,是从头预测方法预测蛋白质结构的理论基础,也由此揭开了用最优化思想预测蛋 白质结构的序幕。 从头预测主要包括两方面的工作:建立预测模型及模型的求解。从头预测可细分为:二 级结构预测、超二级结构预测、蛋白质结构类型预测、蛋白质折叠结构预测、详细的蛋白 质三级结构的直接预测等。 从理论上说,从头预测法是最为理想的蛋白质结构预测方法。它要求方法本身可以只 根据蛋白质的氨基酸序列来预测蛋白质的二级结构和高级结构,但现在还不能完全实现这 个要求。从头预测方法一般由下列3 个部分组成: 1 由于用一种蛋白质几何的表示方法表示和处理所有原子和溶剂环境的计算代价非 常大,因此需要对蛋白质和溶剂的表示形式作近似处理,例如,使用一个或少数几个原子 代表一个氨基酸残基。 2 确定势函数,同时通过对己知结构的蛋白质进行统计分析确定势函数中的参数。 3 设计出一种有效的构象空间搜索技术,基于表示蛋白质能量的势函数,能快速对 蛋白质的构象进行搜索。 在蛋白质折叠结构预测的问题中,所采用的就是从头预测的方法。而势能函数的建立 和构象空间搜索是从头预测方法的重点,也是目前制约从头预测方法进展的两个主要方 面。因此,如何寻找到一个有效的势函数和一种高效的构象空间搜索技术是解决蛋白质折 叠结构预测问题的关键,也是本文探讨的重点。 2 3 蛋白质折叠结构预测的优化模型 目前蛋白质折叠结构的预测问题的难点主要是在于折叠空间存在的局部极小值随着 蛋白质序列长度的增长呈指数级增长,因此利用计算机技术进行蛋白质结构预测具有十分 第l o 页 武汉科技大学硕士学位论文 重要的意义。不知道天然蛋白质折叠的普遍规律,很难找到一个普遍有效的方法解决这个 问题,当前工作主要有两个难点:如何获得一个能正确反映蛋白质结构和能量关系的势函 数,从而区分蛋白质天然构形和非天然构形,这是第一难点;第二个难点是在建立了势函 数后,如何寻找一种高效的优化算法用于蛋白质构象的搜索。为了解决前一个问题许多学 者提出了简化数学模型,目前简化模型中使用最广泛的是二维h p 格点模型和二维t 0 y 模 型。 2 0 1 二维h p 格点模型 格点模型的种类很多,d i l l 提出的h p 格点模型是最简单的一种,也是应用较为广泛 的一种【8 l 1 3 2 1 。它的理论基础是:对于蛋白质结构疏水性氨基酸和极性氨基酸起主要作用动 力,疏水作用是蛋白质折叠的驱动力,氨基酸的疏水性是小球状蛋白质的天然构象形成的 主要动力。 h p 格点模型中,2 0 种氨基酸按疏水性和亲水性被分为两类:疏水性残基( 或非极性 残基,用h 表示) 和亲水性残基( 或极性残基,用p 表示) ,因此蛋白质序列被抽象为一 个由h 和p 组成的序列。这个序列根据自避归的原则被限制在一种格上:序列中相邻的氨 基酸位于网格中相邻的格上,且每一个格点最多只能被一个氨基酸占有。 h p 格点模型中,一个长度为刀的序列可以表示为:s = 乳。品,其中s e h ,p ) 。一 个构象可以用序列中每个氨基酸& ,在网格中的位置n 表示,构象的能量定义为所有在序 列中不相邻但是在网格中相邻的氨基酸接触能量的和1 3 3 1 ,也就是: e 一气,( 一o ) l j 其中是残基研和町间的接触能量,由下面的矩阵【蚓给出: 其中( r f l ) 的值为: ( 2 1 ) 武汉科技大学硕士学位论文第1 1 页 ( r - r j ,2 器 相邻,l i - j i 1 否则 ( 2 2 ) 简单说来,一个构象的能量也就是序列中不相邻,但是拓扑相邻的疏水残基对( h h 接触) 数目。也就是说,一个有m 个h h 接触的构象c 的自由能e ( c ) = 肌木( 一1 ) 。例如, 图2 1 啦所示长度为2 0 的蛋白质序列h p h p p h h p h p p h p h h p p h p 的构象,黑色的方格表 示疏水性氨基酸( h ) ,白色的方格表示亲水性氨基酸( p ) ;图2 1 击说明此蛋白质序列 的能量值是一9 ,同时也是该序列的最优构象。粗黑实线表示在序列中不相邻但是在网格中 相邻的疏水性氨基酸的对数,也就是代表h h 接触的对数为9 对,根据公式( 2 1 ) 可以知道 这个蛋白质序列构象的能量值是一9 。 口口 一 一书 h p 格点模型蛋白质构象( b ) h p 格点模型蛋白质构象的能量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论