(理论物理专业论文)基于蛋白质疏水残基有效距离的模拟退火方法.pdf_第1页
(理论物理专业论文)基于蛋白质疏水残基有效距离的模拟退火方法.pdf_第2页
(理论物理专业论文)基于蛋白质疏水残基有效距离的模拟退火方法.pdf_第3页
(理论物理专业论文)基于蛋白质疏水残基有效距离的模拟退火方法.pdf_第4页
(理论物理专业论文)基于蛋白质疏水残基有效距离的模拟退火方法.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 蛋白质折叠和结构预测是生物信息学研究中最富有挑战性的研究领域,对于 人们进一步了解蛋白质的结构和功能具有非常重要的意义。蛋白质折叠的计算机 模拟和预测作为一种辅助手段,可直接应用于新的功能蛋白质的设计和研究。正 是由于理论和应用方面的重要性,使得该领域的研究工作越来越受到重视。随着 各种随机算法的兴起并应用到各个领域,人们发现随机算法对于解决蛋白质折叠 问题有其特有的优点。特别是模拟退火方法由于它本身的优点( 方法能接受一定 程度的恶化解,避免陷入局部最小) 渐渐引起了人们的兴趣。各种改进的模拟退 火方法( s a ) 成为计算机模拟蛋白质折叠的重要工具。 本文的工作是在三维h p 模型( 3 - d i m e n s i o n a lh y d r o p h o b i c h y d r o p h i l i cm o d e l ) 的基础上开展的。首先讨论蛋白质链中各个疏水残基的之间的关系,得出了蛋白 质链上的疏水残基之间如果要能在最优的的空间构象中贡献一个疏水键的话,它 们之间必须满足关系:i x , - x j l + i y , - y j l + l z , - z j l = l i - j l 一2 n ( n = l ,2 ,3 ) 。然后我们根据这个 关系得出了有效关联系数矩阵进而得出有效距离矩阵,最后将总有效距离作为一 个约束条件应用到模拟退火方法中,得到了改进的基于有效距离约束的模拟退火 方法。 利用本文的方法对一系列的蛋白质链的空间结构进行了预测,通过对模拟退 火过程的分析和与其它方法的预测结果的对比,我们发现本文中的方法在能量的 收敛性上比其它方法更好。同时,因为引入了新的约束,模拟退火过程中产生的 新的构象具有更佳的合法性,也减少了无效构象产生的几率,所以能更快地找到 合法的能量最低的构象,意味着本文的算法在时间上的开销要小于其它几种文中 提及的算法。 关键词:模拟退火方法;蛋白质折叠:关联系数:有效距离 a b s t r a c t t h ep r e d i c t i o no fp r o t e i nf o l d i n ga n dp r o t e i ns t r u c t u r ei so n eo ft h em o s tc h a l l e n g i n gr e s e a l - c h e si nb i o i n f o r m a t i c sa n di sv e r yi m p o r t a n tf o rf a r t h e ru n d e r s t a n d i n go f p r o t e i ns t r u c t u r ea n dp r o t e i nf u n c t i o n a sa l la c c e s s o r i a lm e t h o d , c o m p u t e rs i m u l a t i o nc o u l db ed i r e c t l ya p p l i e dt op r o t e i n d e s i g na n dr e s e a r c h b e c a u s eo ft h ei m p o r t a n c eo ft h e o r ya n da p p l i c a t i o n , t h i sw o r ki sp a i dm o r e a n dm o r ea t t e n t i o n w h e nm o r ea n dm o r es t o c h a s t i ca l g o r i t h m s b e i n ga p p l i e d ,t h e i rs p e c i a la d v a n t a g e so ns o l v i n gp r o t e i nf o l d i n ga r ea l s od i s c o v e r e d e s p e c i a l l yt h es am e t h o d ,w h i c hd o e s n tb ei n f l u e n c e db y l o c a le n e r g ym i n i m u m ,i sa t t r a c t i n gg r o w i n gi n t e r e s tf r o mp e o p l e al o to fn e ws am e t h o d sa r e b e c o m i n gt h em a i nt o o l so fp r o t e i nf o l d i n gs i m u l a t i o n s i nt h i sp a p e r a l lw o r ka l ed e v e l o p e db a s e do f fh pm o d e l ( 3 - d i m e n s i o n a lh y d r o p h o b i c h y d r o p h i l i cm o d e l ) a tf i r s t , t h er e l a t i o n sb e t w e e nt h eh y d r o p h o b i cr e s i d u e sw e r ed i s c u s s e da n da r e s u l t ,t w oh y d r o p h o b i cr e s i d u e sf u l f i l lt h er e l a t i o no fi x , - x a + i v r y a + l z , - z a = i f 胡一2 n ( n = l ,2 ,3 ) i f t h e yc o n t r i b u t eah hb o n d ,w a sg a i n e d a n dt h e n ,t h ev a l i d c o r r e l a t i v e m a t r i xw a si n d u c e d b a s e do na b o v er e l a t i o n s f i n a l l y ,t h ev a l i d d i s t a n c e - m a t r i xw a se d u c e df r o mt h ev a l i d g o i t e l a t i v e m a t r i xa n dt h ev a l i d d i s t a n c e sw e r ea p p l i e da sar e s t r i c t i o ni nt h es a v a tt h ee n do fp a p e r , t h es a - vw e r ea p p l i e di ns o m ep r o t e i ns e q u e n c e ,v i aa n a l y s i so fp r o c e s s o f s a va n dc o n t r a s tt h er e s u l t so f s a va n do t h e ra l g o r i t h m sm e n t i o n e di nt h i sp a p e r , a s t d n g e n - c yo f e n e r g yo f s a vi sb e t t e rt h a no t h e ra l g o r i t h m sm e n t i o n e d a tt h es a n l et i m e ,t h et e n t a t i v e c o n f o r m so f s a vw e r em o r ev a l i dt h a no t h e ra l g o r i t h m sm e n t i o n e da n dp r o b a b i l i t yo f p r o d u c i n g i n v a l i dw a sl a r g e l yr e d u c e db e c a u s eo fi n t r o d u c i n gr e s t r i c t i o no fv a l i d - d i s t a n c e s s os a vc a l l f i n do u tl o w e s te n e r g yv a l i dc o n f o r m , t h a tm e a nt h es p e n d i n go ft i m ei sl e s st h a no t h e ra l g o d t h m s m e n t i o n e di nt h i sp a p e r k e y w o r d s :s aa l g o r i t h m ;p r o t e i nf o l d i n g ;c o e f f i c i e n t so fc o r r e l a t i o n s ;v a l i d - d i s t a n c e s 2 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 的成果,除文中注明引用的内容外,本论文不包含任何其他或集体已经发表或撰 写过的科研成果。对本文的研究做出重要贡献的个人和集体,均已在文中明确标 明。本人完全意识到本声明的法律责任由本入承担。 论文作者签名: 日期:硼年s 月 关于学位论文使用授权的声明 本人完全了解贵州大学有关保留、使用学位论文的规定,同意学校保留或向 有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权 贵州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或其他复制手段保存和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:导师签名: 4 7 日期:? 口。孑年j 尹月 第一章绪论 1 人类基因组计划以及生物信息学 人类基因组计划( h u m a ng e n o m i cp r o j e c th g p ) 是人类自然科学史上最伟大 的创举之一,2 0 0 1 年上半年人类基因组测序任务已经完成。随着人类基因组计划 的实施,通过基因组测序、蛋白质序列测定和结构解析等实验,分子生物学家提 供了大量的有关生物分子的原始数据,生物信息学就是为了对这些数据进行管理 和解释而产生的。生物信息学的研究不仅仅局限于开发、维护数据库系统和管理 数据,更重要的是对现有的数据进行计算和分析,发现其中的规律和生物学意义。 蛋白质折叠问题正是其中核心研究的一个内容,它的研究正是在人类基因组计划 的完成与生物信息学的长足发展的基础之上的。 1 1 人类基因组计划 从人类社会诞生以来,人类就没有停止过对自身的思考。人类在探索、认识 世界的过程中也不断地提高对人类自身的认识。2 0 世纪7 0 年代人类疾病的“基因 论”之说无疑是人类基因组计划的主要思路:不仅疾病与基因有关,人类的出生、 生长、衰老、死亡以及精神、行为等活动都与d n a 序列有关。正如著名的生物学 家,诺贝尔奖获得者雷纳托杜尔贝克( r e n a t od u l b e c c o ) 在他的一篇文章中写道 的:“人类的d n a 序列是人类的真谛。这个世界上所发生的一切,都与之息息相 关”。所以搞清楚核苷酸顺序无疑将对人类最终完全解开遗传之谜提供最直接的 帮助,人类基因组计划便应运而生。1 9 8 6 年杜尔贝克在s c i e n c e 杂志上率先提出 “人类基因组计划 n 一1 ,提出了一个前所未有的大胆说法,指出要从整体上搞 清楚人类的整个基因组,集中力量先认识人类的所有基因。这篇文章后来被称为 “人类基因组计划”的“标书 ,而人类基因组计划则与之前的曼哈顿原子弹计 划以及阿波罗登月计划并称人类科学史上的“三计划”,但其意义远远超过了前 两者。 1 9 9 0 年,美国国会批准的美国“人类基因组计划 于1 0 月1 日正式启动,其 总体规划是:拟在1 5 年内至少投入3 0 亿美元,进行对人类全基因组的分析。此计 划在1 9 9 3 年做了修订,主要内容包括:人类基因组的基因图构建与序列分析:人类 基因的鉴定:基因组研究技术的建立。此外,还有人类基因组研究的社会、法律 与伦理问题,交叉学科的技术训练,技术转让,研究计划的外延等九方面内容。 这样庞大的工作是任何一个国家难以独自承担的,它是国际级的计划,需要 世界各国的共同努力,继美国之后,英、日、德、法也迅速跟进,先后加入到此 项意义重大的研究中。我国也于1 9 9 9 年7 月在国际人类基因组注册,并承担了人 类基因组l 的测序任务,简称“1 项目”,我国是唯一参与人类基因组计划的发 展中国家。 由于各个国家积极地参与,共同地协作,人类基因组计划进展迅速,2 0 0 0 年6 月2 6 日完成了工作草图,2 0 0 1 年上半年人类基因组测序任务基本完成,2 0 0 3 年4 月1 6 日,美、中、法、日、英、德六国联合宣布:除了现有技术无法解决的部 分( 约占基因组的o 0 1 ) 外,人类基因组计划测序任务全部完成。从此人类基因组 计划进入了后基因组时代,开始了结构与功能方面的研究。 随着基因组研究的日益深入,生物学数据的积累出现了前所未有的飞跃。首 先,数据增长的速度之快,已经只有计算机芯片计算能力的增长能与之相匹配: 其次,数据的本质出现了从生理生化数据向遗传信息飞跃以及进一步向遗传与结 构功能相互关系信息的飞跃口。生物学数据在量( 海量) 与质( 复杂性) 方面所提出 的挑战是严峻的,如何对这些原始数据进行收集、整理以及如何对数据进行比对、 分析,建立计算模型,进行仿真、预测与验证等都是摆在科学家面前的重大问题, 它不仅需要生物学家的努力,也呼唤着数学、物理、计算机科学、信息科学、管 理科学、系统科学等多学科学者共同参与,于是- f 新兴的交叉学科生物信息学 应运而生。 1 2 生物信息学 生物信息学( b i o i n f o r m a t i c s ) 是- f 新兴的交叉学科“引。它所研究的材料是 生物学的数据,而它进行研究所采用的方法,则是从各种计算技术衍生出来的。 在历史上,生物信息学也曾被称为“计算生物学”。广义地说,生物信息学从事 对生物信息的获取、加工、储存、分配、分析和释读,并综合运用数学、计算机 科学和生物学工具,以达到理解数据中的生物学含义的目的。具体地说,生物信 息学是把基因组d n a 序列信息分析作为源头,找到基因组序列中代表蛋白质和r n a 4 基因的编码区,阐明非编码区的信息实质,破译隐藏在d n a 序列中的遗传规律: 同时,归纳、整理基因组遗传信息,释放及其调控相关的转录谱和蛋白质谱的数 据,从而认识代谢、发育、分化、进化的规律。生物信息学综合基因信息和大规 模蛋白质空间结构测定及蛋白质相互作用检测的数据,进行蛋白质空间结构的模 拟和蛋白质功能的预测。进而将此类信息与生物体和生命过程的生理生化信息相 结合,阐明其分子机制,最终进行分子设计、药物设计和个体化的医疗保健设计。 因此,在基因组研究时代,生物信息学至少应包含三个层次上的重要内容:基因 组信息学、蛋白质的结构计算与模拟以及分子与药物设计。这三者紧密地围绕着 遗传信息传递的中心法则,因而必然有机地连接在一起。 目前归入生物信息学领域的大致有以下几个方面: ( 1 ) 各种生物数据库的建立和管理: ( 2 ) 数据库接口和检索工具的研制: ( 3 ) 研究新算法、发展方便适用的程序,是生物信息学的日常任务: ( 4 ) 生物信息学最重要的任务,是从海量数据中提取新知识。从己经积累的 数据和知识出发,预测蛋白质的结构和功能,成为常规的研究任务。 ( 5 ) d n a 芯片和微阵列的发展,把一定组织或生物体内万千基因时空表达的研 究提上日程。只有掌握己有数据发展崭新算法,才能创造新的知识。 第二章蛋白质与蛋白质折叠 蛋白质是山1 7 f 多氨基酸聚台而成的q 三物大分子化台物,为生命的最基本物质 z 一。蛋白质广泛存 于各种生物组织细胞,是生物细胞最重要的组成物质。1 9 世纪有机化学发腮厉,人们a 逐渐认训蚩自质的化学本质,同时也认识到蛋自质 是人类生活中不r 叮缺少的物质。难是由于这个原因随若人类对客观世界的认识 不断加深,随着生物信息学的发展,埘蛋白质的研究特别足蛋白质折叠的研究逐 渐成为一个重要的,极具研究价值的研究方向, 21 蛋白质简介 蛋白质有比较复杂的组成,通过科学家的不断研究,刘其组成己有了比较正 确的认识。 211 氨基酸及其基本结构 氨罄酸的种类有2 0 种,它是由3 个碱基所构成的密码子形成的。碱基一共彳_ t 种,分为嘌呤( 腺嘌呤 、乌嘌呤g ) 和嘧啶( 胸腺嘧啶i 、胞嘧啶c ) 两类。碱革在自 然界中是以配对的j 移式存在的。配对万式是确定的即腺嘌岭a 与胸腺嘧啶1 配对 ( at ) 和乌嘌呤g 与胞嘧啶c 配对( gc ) 氨基酸的基本结构可分为三个部分,分别为 胺基( 一n h :) ,羧基( c o o h ) ,支链( s i d ec h a i n ) 。 一般的形式为图2 一l2 0 种氨基酸的三个部分之q j ,只有支链不同,也就是r 不同,但是这个支链对蛋白质的空阃结构与理化性质有非常重要的本质影响。 图2 1 氨基酸的基本结掏 2 1 2 蛋白质的基本组成及结构 蛋白质是由氨基酸组成的。一个氨基酸的胺基和一个氨基酸的羧基缩合形成 肽键,二定数目的氨基酸以肽键的形式形成一条多肚链。多肽链中的氨基酸由于 脱水形成了部分残缺,所以叫做残基。这条多肽链是蛋白质的基本组成,是蛋白 质的一级结构。图2 2 显示了两个氨基酸脱水的过程。 0 i ( :n 一) l n 鹄一p 一墓; 虽霉t i | 一c h 一。出n h ,一p 3 一下 宁h c 。叫 r h r zr i 璺! r 3 蛋白质是一种生物大分子,是由2 0 种氨基酸以肽键连接成的肽链。肽键连接 成肽链称为蛋白质的一级结构。不同蛋白质根据其肽链的长度不同,肽链中不同 氨基酸的组成和排列顺序也各不相同。肽链在空间卷曲折叠成为特定的三维空间 结构,包括二级结构和三级结构二个主要层次。有的蛋白质由多条肽链组成,每 条肽链称为亚基,亚基之间又有特定的空间关系,称为蛋白质的四级结构。所以 蛋白质分子有非常特定的复杂的空间结构。一般认为,蛋白质的一级结构决定二 级结构,二级结构决定三级结构叫。 一级结构:蛋白质中的氨基酸序列; 二级结构:蛋白质多肽链中有规则重复的区域,如螺旋,折叠,转角: 超二级结构:相邻二级结构单元组成的结构单位,常为蛋白质三维结构的构 件,如单元,折叠桶等; 三级结构:由二级结构和超二级结构组成,是蛋白质的基本功能单位: 四级结构:由几条多肽链组成的蛋白质分子,每一个肽链为一个亚基: 五级机构:由独立的生物大分子组成的聚合体,如蛋白质一蛋白质聚合体、 蛋白质一核酸聚合体。 首先,一定顺序的氨基酸聚合成多肽链也就是蛋白质的一级结构,然后,多 7 链借助于氢键沿一维方向排列成具有一定周期性的结构如螺旋或者折叠,接着, 在二级结构的基础上依靠多肽链中氨基酸侧链基团参与的氢键离子键,疏水相互 作用范德华力以及二硫键构建起蛋白质的立体三级结构,最后,个或多个蛋白 质分子通过亚基与亚基之间的疏水相互作用结合成有序排列的特定空间结构。对 于一段d n a 序列来说,经翻译和转录过程后,被表达成一段由2 0 种氨基酸中的数 种氨基酸按特定顺序排列的肽链,它构成了蛋白质的一级结构。在溶液中肽链会 在三维空间形成特定的结构。随着温度、p h 值或溶液中不同成分的变化,特定的 蛋白质三级结构会迅速变性成为一个相对松散无序而柔性较高的结构。相反,。倘 若发生条件可逆的变化蛋白质分子会回到生理条件下的特定结构。这种由特定二 级结构组成的较紧密而有序的结构称为天然结构。 2 1 3 蛋白质的功能 蛋白质是生物体中的一类非常重要的物质,是生命的承担者,它主要有以下 一些功能例: 1 催化功能:蛋白质的最重要的功能是作为生物体内生化反应的催化剂。 生物体内的很多生化反应都需要催化剂,而蛋白质恰恰是一种非常好的 催化剂。 2 运输功能:蛋白质在生物体内具有传递的功能。它是氧、氨基酸分子、 葡萄糖分子以及其它的一些物质的载体。 3 收缩与运动的功能:有些蛋白质赋予生物体的细胞收缩与运动的功能。 比如动物与人的肌肉可以自由的收缩就是因为肌肉是由蛋白质构成的。 4 营养和储存功能:有一类蛋白质可以储存氨基酸,这种蛋白质被用于生物 体中的一些组织的生长。 5 免疫功能:蛋白质具有帮助生物体内的机体抵御外来物质的侵害的功 能,它能区别生物体内的物质与生物体外的物质,有效地保护生物体内 的机体。 6 调控功能:蛋白质具有调控生物体内的物质的生长功能。 7 结构组织功能:蛋白质是生物体的细胞与多数机体组织的组成部分,是 生物体组织的物质构成形态。 8 蛋白质还有一些其它的功能。总的说来,蛋白质的功能是非常复杂的。随着 生物学的发展人类对蛋白质原有功能的认识不断加深,同时还不断地发现蛋白 质的一些新的功能。 2 1 4 蛋白质三维结构预测的研究背景和意义 随着人类基因组计划的完成与生物学和生物信息学的发展,人类已经得到了 大量的生物信息序列这些生物信息序列为人类进一步探索生物界的奥秘奠定了 坚实的基础。但是这些生物序列只是生物物质的组成和一维排列,现在的主要任 务就是要得到这些信息的意义。在这种研究背景下,d n a 的序列比对和蛋白质的 三维结构与功能的预测就成为一个当今生物信息学的中心问题。随着人类的努力 探索,序列比对的问题取得了较大的进展,现在己经有了一些方法来进行序列比 对分析阳1 例,在这一领域还存在一些软件,并且这些软件已经得到了较为广泛的 应用。但是蛋白质三维结构与功能的预测却始终没有取得突破性的进展。现在蛋 白质序列数据库的容量非常之大,而且以惊人的速度在增长,但是蛋白质结构与 功能数据库的增长速度却非常之慢。在这种情况下,就急需设计好的算法来进行 蛋白质三维结构与功能的预测,模拟蛋白质的折叠过程。相信在不远的将来,人 类最终可以解决这个问题。 蛋白质的生物学功能在很大程度上取决于其空间结构,蛋白质结构构象多样 性导致了不同的生物学功能。蛋白质结构与功能关系的研究是进行蛋白质功能预 测及蛋白质设计的基础。蛋白质的结构与功能是统一的,蛋白质分子只有处于它 自己特定的三维空间结构情况下,才能获得它特定的生物活性:三维空间结构稍 有破坏,就很可能会导致蛋白质生物活性的降低甚至丧失,因为它们的特定的结 构允许它们结合特定的配体分子。知道了基因密码,科学家们可以得到组成某种 蛋白质的氨基酸序列,却无法绘制蛋白质空间结构。因而,揭示人类每一种蛋白 质的空间结构,己成为后基因组时代的制高点,这也就是结构基因组学的基本任 务。这一任务可以归结为找到蛋白质从氨基酸到空间结构的折叠机理,也叫做中 心法则的第二遗传密码。对于蛋白质空间结构的了解,将有助于对蛋白质功能的 确定。更迸一步,弄清楚蛋白质的结构对于理解蛋白质的作用机理,理解蛋白质 结构与功能的关系,并在此基础上进行蛋白质复性、突变体设计,以及基于结构 9 的药物设计具有非常重要的意义。而且蛋白质结构的预测,尤其是基于热力学机 制的蛋白质结构预测能够帮助我们认识蛋白质的折叠机理,揭示折叠密码n 卜“1 。 2 2 得到蛋白质三维结构分析的两种方法 根据现代生物学的观点,蛋白质的结构决定蛋白质的功能,具有不同结构的 蛋白质具有不同的功能。要想知道某一种蛋白质的功能,必须要知道这种蛋白质 的结构,所以得到蛋白质的结构是一个现代生物学家必须解决的问题。根据现在 生物学及其生物信息学的发展,现在存在两种得到蛋白质结构的方法:一种是蛋 白质序列的分析方法,另一种就是从头预测的方法,也就是本论文所要研究的蛋 白质折叠问题。 2 2 1 蛋白质序列分析方法 蛋白质的序列分析方法也叫蛋白质的模式识别方法n 5 q 扪。根据现代生物信息 学的基本原理,一种蛋白质中的组成并不对蛋白质的功能都有决定性贡献。在这 所有的构成中,只有少许的部分对蛋白质的功能有决定性的作用。这少许的对蛋 白质的功能有决定性的影响的部分叫做蛋白质的特征模式。这种特征模式具有保 守性,它与蛋白质的活性有关,同时与蛋白质的折叠方式有关。正是这种特征模 式的保守性可以用来得到蛋白质的结构与功能。所谓的蛋白质的序列分析方法就 是将己知的一些蛋白质的序列模式与结构模式收集起来,建立蛋白质的模式数据 库与蛋白质的结构数据库,测定了一种新的蛋白质后,看这种蛋白质中是否具有 特定的序列模式与结构模式,然后将这种特征模式与蛋白质序列模式数据库和蛋 白质结构数据库中的已知模式进行比对,辨别这一种蛋白质属于哪一种蛋白质家 族。这种方法也叫做模式识别,根据蛋白质的序列模式数据库的方法叫做序列模 式识别,根据蛋白质的结构模式数据库的方法叫做结构模式识别。现在利用已有 的蛋白质序列模式数据库与蛋白质结构模式数据库来判断蛋白质所在的蛋白质 家族,从而得到蛋白质的结构与功能,已经成为得到蛋白质结构与功能的常用方 法n p 引。 2 2 2 蛋白质折叠与蛋白质序列分析方法的区别 1 0 大多数蛋白质从一条生长的肽链折叠成有其特定结构的,有活性的蛋白质, 并不是一步完成的,而要经过很多的折叠中间状态。蛋白质折叠是一个复杂的过 程,一个蛋白质特定的三维空间结构是由多种力:共价的和非共价的,长程的和 短程的等复杂又精细的作用力共同作用而成。可以采用x 光晶体衍射和n m r 共振技 术测定蛋白质的三维空间结构,以及用生化方法来研究蛋白质的功能。但是这些 方法的效率并不高,无法适应蛋白质序列数量飞速增长的需要,因此,近几十年 来科学家致力于研究用理论的方法预测蛋白质的三维结构与功能。蛋白质的折叠 问题就是通过蛋白质的一级结构利用计算机来预测蛋白质的三维结构,常用方法 也叫从头预测方法。蛋白质的一级结构唯一地决定蛋白质的三维结构,而且天然 的蛋白质结构的能量是最小的。蛋白质在溶液中快速地折叠,这个折叠过程非常 短暂、极为复杂,是一个热力学控制和动力学控制共同作用的过程。所谓热力学 控制的折叠意指一个蛋白质达到它的能量全局极小并且折叠是路径无关的,即自 然结构仅由最后的自然条件确定而不是由初始的变性条件确定。热力学控制的折 叠需要大量的组态搜索。动力学控制的折叠意指:折叠是在具有生物学时间尺度 内快速完成的,这是由于折叠是路径有关的,最后的结构也许是不同的,并依赖 于折叠开始时的变性条件,因此,蛋白质也许仅仅只达到一些相应局域极小的状 态n 9 。2 。正是基于上述的基本事实,需要设计好的算法在计算机上模拟它的折叠 过程和预测它的三维结构。 从现代生物信息学与分子生物学的研究内容来说,蛋白质折叠包含两个方 面:1 ) 变性的蛋白质或多肽链的折叠:2 ) 通过三联密码翻译成的氨基酸序列链 ( 新生肽链) 的折叠。因为蛋白质折叠是一个十分复杂涉及动力学和热力学的问 题,为简单起见一般我们只关心第一个方面( 因第二个方面更为复杂) 。第一个 方面的研究就是通常说的蛋白质折叠问题。它的研究是进一步研究新生肽链折叠 的基础,也是分子生物学中最有兴趣的问题之一,具有重大的生物学意义。蛋白 质折叠问题是生物信息学的中心问题,被列为“2 1 世纪的生物物理学 的重要课 题,是分子生物学中心法则尚未解决的一个重大生物学问题。由于蛋白质折叠问 题是从蛋白质的一级序列通过计算机算法直接得到其三维结构,而根据现有的理 论,蛋白质的一维序列唯一地决定蛋白质的三维结构,蛋白质的拓扑结构决定蛋 白质的折叠机制,这为蛋白质折叠问题的研究提供了理论基础。 按照a n 佑e n 原理,对r 一条具有确定氧鹱酸排则的多h k 钍,在定的外界 条件下,它的折叠各足自由能艟低的最稳定的构型,而1 1 这个构型是睢一的。此 折叠巷称为j 列的自然态,1 j 之相对应的结构称为自然结构。自然结构足具有生 物功能的折叠结构,订了a n i i s e n 原耻,似乎生白质折叠的任务就足找到自由能 最小的自然态。然而,退却足不容易的,因为多从链具有的组态空间数目是非常 巨大的。组态数随氩基酸个数指数增k 。组念空间的争局搜索几乎是不可能的。 实验告诉我们,蛋白质折叠晌时问人约在1 0 1 1 秒左右,此时问大约比它在组态 空间作全局搜索的时删小十几个数量级。显然,可阻推测蛋白质没有在它的组态 空削做全局搜索。蛋白质足怎样在没有作组态空划的全局搜索而找到它的折叠态 的? 现在已有理论提出蛋h 质折叠也许是沿着某一特定路径进行的,蛋曰质折叠 问题的一个关键难血就足要找到这个折叠路径。现有理论认为,蛋向质的折羟是 在一个能量的高维曲丽中完成的,那么这个折叠路径也就存在于个高维曲面 中,这个高维曲面q 做蛋门质折叠的能量漏斗能量漏斗的最底端就是蛋白质天 然态对应的能量。o ”“。图2 3 是能量漏斗示意围。 圈2 - 3 能量漏斗示意h 蛋白质折叠问题与蛋白质朐序列分析是两种不同的分析蛋白质序列的方法。 蛋白质的序列分析是要借助于蛋白质序列数搬库,无论是序列模式识别还是结构 模式识别,都是以已知的蛋白质序列与结构为基础的。相比之下,蛋白质的序列 模式识别要简单一些,结构模式谀别要司靠一些,但是较为田难“”。而蛋白 质折叠不需要蛋白质的序列模式数据库与蛋白质的结构模式数据库,直接从蛋白 质的一维序列通过一定的计算机算法直接预测蛋白质的三维结构。 2 3 本论文关于蛋白质折叠的研究 在人类基因组计划已经完成与生物信息学迅猛发展的基础之上,现在蛋白质 折叠问题已成为生物信息学中的重要研究课题,同时也是一个非常难以解决的问 题。本论文试图在这一研究领域做一些工作,文中的所有研究都是在三维h p 模型 的基础上开展的。 在蛋白质折叠问题的研究中,用得最为广泛的模型是h p 格子模型( h y d r o p h o b i c h y d r o p h i l i cm o d e l ) 晒1 。h p 格子模型将蛋白质中的氨基酸进行离散化,同 时保留了蛋白质的一些最为基本的性质,是现在蛋白质研究中一个用得最为广泛 且较为有效的一个模型。h p 格子模型的折叠方向只能是垂直的,分别为上,下, 左,右,前,后共6 个方向。这种格子模型基本上能够体现蛋白质的基本性质, 并且对蛋白质中的氨基酸的空间位置进行了离散化,基本满足需要。但是,在真 实的情况中,各种残基的疏水和亲水程度都不一样,并且它们之间的作用距离也 不同,所以真实的蛋白质三维空间结构并不完全是格子模型,格子模型只能近似 地模拟蛋白质的真实空间结构。 本文研究了在h p 立方格子的情况下的模拟退火方法协删方法,同时,研究了 蛋白质的最优构象中的疏水残基之间的关系。本文所做的创新的工作有以下几 点: ( 1 ) 研究了三维空间中能够形成一个疏水键的两个疏水残基在序列上的 位置应该满足的关联关系;利用得到的关联关系得到一个有效关联系 数矩阵,这个矩阵包含了所有疏水残基的长程及短程相互作用,通过 这个矩阵可以很容易地发现在序列上能够形成一个疏水键的任意两 个疏水残基;在有效关联系数矩阵的基础上得出了有效距离矩阵,该 有效距离矩阵包含了一条蛋白质链上的所有疏水残基的长程及短程 作用特征; ( 2 ) 将有效距离作为一个约束条件应用到模拟退火方法中,极大地改善了 构象能量的收敛情况以及产生有效构象的质量的控制问题,并且对避 免构象陷入局部最小值也有一定作用。 1 4 第三章序列的关联关系 3 1h p 格子模型简介 建立蛋白质折叠的数学模型是进行蛋白质折叠问题研究的关键。目前这一方 面比较好的数学模型是d i l l 等人8 0 年代提出来的h p 格子模型。当前用得较为广 泛的h p 格子模型是立方格子模型,这个模型能够反映蛋白质的一些结构特性。 为了进一步扩大蛋白质的三维组态空间,本章就对这个模型及其在本算法的应用 做一个详细地介绍。 h p 格子模型是一种粗粒化的模型。它将蛋白质中的氨基酸分别放到空间的格 子中,蛋白质的氨基酸链由在二维或者三维的正方形格子空间中的自回避行走轨 迹表示。蛋白质的氨基酸链中相邻的两个氨基酸占据空间的两个格子,格子中的 距离即是正方格子空间中最邻近的距离。格子模型将蛋白质分子内部的连续性空 间离散化,并且分子内部的自由度减小d 2 川。根据氨基酸的基本属性,可以将氨 基酸分为两类:一类是疏水性的氨基酸,一类是亲水性的氨基酸。这个模型体现 了蛋白质折叠过程的主要驱动力为蛋白质内部的疏 水性相互作用。 3 2h p 格子模型中的能量 在蛋白质折叠的h p 格子模型中,对一个h p 序列所对应的特定结构,可以计算 出它的能量。在h p 格子模型中,只保留最临近的相互作用,当两个在序列上不相 邻的节点在空间上相邻时,便提供给体系一个相互作用能量,相互作用能量依h p 模型可以分为3 种1 疏水性氨基酸与疏水性氨基酸之间的能量:记作:咖 疏水性氨基酸与亲水性氨基酸之间的能量:记作 e l - i p 亲水性氨基酸与亲水性氨基酸之间的能量:记作:i :p p 这三种不同的能量的大小关系:h h i :h p s p p 。 根据以上的叙述,可知对于一个特定的三维结构,它的总的能量为e 。 i 0 1 8 这个条件可以得出入i j ,1 j _ i ,o 卜2 入,定义n j 为蛋白质链残基间的关联余数。 因为一个疏水残基与本身的关联系数为零,所以该矩阵的对角元素都为零。又由 于关联项( 入r ) 。产( 入r ) 所以关联矩阵关于对角线对称,只取矩阵的左 下部分或右上部分 以序列s = ( h p h p p h h p h p p h p h h p p h p h ) 为例,利用上面的方法,我们 得到一个矩阵x 泓m 见表3 - 1 。 表3 - 1 序列h p h p p h h p h p p h p h h p p h p h 的关联矩阵 x k 瓣lh 3h 6 薹7 h 9h 1 2奠1 4h 1 5h l s氆o h 1 0 0 22 i2 23 25 l6 16 28 19 l h 3 o1 1l 趁2 趁4 15 l5 趁影l8 1 i - 1 6 o0 11 12 趁3 趁4 15 26 2 h 700 22 l3 l3 2 5 16 i h 9 0 1 12 12 24 l5 1 h 1 2 o0 21 12 23 ,2 h 1 4 00 l1 22 2 h 1 5 ol 董2 i h 1 8 0 o 2 h 2 0 0 3 7 蛋白质链关联矩阵的特征 通过3 6 节的介绍,一条蛋白质链的关联矩阵已经可以容易地被求出来了, 下面将分析关联矩阵有什么特点。 如果蛋囱质链中两个疏水残基的关联余数以产l ,则表示这两个残基有可能相 邻,考虑到有时候两个疏水残基在序列上是相邻的,这种情况下关联余数虽然 咒= l ,但是关联系数入;j - o 。由此可见关联矩阵中所有形如a ! ( 驴o ) 的项对应 的两个疏水残基都有可能在最优空闻构象中贡献一个疏水键,属于有效项。按照 上述的原理,得到一个有效的关联系数矩阵,见表2 。在去除无效项后,矩阵中 有效项的数鼹极大地减少了。这里的关联系数的大小代表嚣个残基的相互作用的 距离大小,同时,我们知道在鬣白质折叠过程中长程相互作用占主导地位,处于 诸多影响因素的首位渤啦! ,这个结论是显悉易冤的:有缀多蛋白质序列的局部残 基排列顺序完全相同的,但是它们的空间构象却完全不同口卜疏心4 3 1 。同时也不要忽 略短程相互作用的重要性,因为它是提高蛋自矮结构预测准确率豹重要影响因 1 9 素,是蛋白质二级结构形成的基础阳扎矧因此,在蛋白质折叠的过程中,既要充 分考虑长短程作用各自的倾向性,同时也要充分考虑二者结合的重要性口“3 副。 通过分析有效关联系数矩阵后,得到了它的一些特征: ( 1 ) 由蛋白质的最优构象是疏水键最多和有效关联系数对应的两个残基可能 在最优构象中贡献一个疏水键这两个条件可知,最优关联系数组包含的系 数最多,且系数的个数既是最优构象的能量; ( 2 ) 由于每个疏水残基只可能与两个疏水残基形成疏水键,所以每个疏水残 基最多只能有4 个最优关联系数( 首末两端的疏水残基最多有5 个) ; ( 3 )在蛋白质链中,为了能形成更多的疏水键,会产生一些疏水键较多的紧 密区域,这些区域在表3 2 中则对应着相邻的几个关联系数,如表中的a 、b 区域。同时因为长程作用对空间机构的影响占主导地位,处于诸多影响因素 的首位,所以在蛋白质的空间结构中长程作用太多会影响空间结构的稳定 性。基于以上分析,我们在选择疏水键较多的紧密区域时优先考虑关联系 数小的区域。 a 表3 - 2 有效关联系数矩阵 入 h lh 3h 6 h , h 9h 1 2h 1 4h t5h 1 8h 2 0 h l 0 厂2 、 5 6 89 h 3 07 、1 , 457 步

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论