(计算机应用技术专业论文)基于计算智能技术的蛋白质结构预测方法研究.pdf_第1页
(计算机应用技术专业论文)基于计算智能技术的蛋白质结构预测方法研究.pdf_第2页
(计算机应用技术专业论文)基于计算智能技术的蛋白质结构预测方法研究.pdf_第3页
(计算机应用技术专业论文)基于计算智能技术的蛋白质结构预测方法研究.pdf_第4页
(计算机应用技术专业论文)基于计算智能技术的蛋白质结构预测方法研究.pdf_第5页
已阅读5页,还剩116页未读 继续免费阅读

(计算机应用技术专业论文)基于计算智能技术的蛋白质结构预测方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

il,-lllt, lll111l li o 、 c l a s s i f i e di n d e x : u d c : ad is s e r t a ti o nf o r t h ed e g r e eo fd e n g r e s e a r c ho np r o t e i ns t r u c t u r ep r e d i c t i o n ba s e do nc o m p u t a t i o n i n t e l l i g e n c e t e c h n o l o g y c a n d i d a t e :s u np e n g f e i s u p e r v i s o r :p r o f z h a n gj i a n p e i a c a d e m i cd e g r e ea p p li e df o r :d o c t o ro fe n g i n e e r i n g s p e c i a l t y :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y d a t eo fs u b m i s s i o n :d e c e m b e r ,2 0 0 9 d a t eo fo r a le x a m i n a t i o n : j u n e ,2 0 1 0 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s it y 2川2590m 8 iiiii舢y 一 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用己在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :孙溅飞 日期:皿f0年6 月d 日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存7 r r ;l 编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文好在授予学位后即可口在授予学位1 2 个月后 口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :孙司1 8 鸟飞 日期:如d 年6 月oh 翩湓字) 莎啡 ? 巾年厂月t 日 基丁计算杆能技术的蛋白质结构预测方法研究 摘要 生物信息学是在生物科学的研究过程中,以计算机为工具对海量生物数 据进行存储、检索与解析的科学,通过对生物学实验数据的存储利用及信息 挖掘,达到揭示这些数据背后所蕴含的生物学知识的目的。蛋白质的生物学 功能与其空间结构有着密切的关系,因此掌握蛋白质的空间结构信息对于研 究蛋白质的功能及其作用机理具有重要意义。然而由于目前用于测定蛋白质 结构的生物学试验方法存在代价高、速度慢等缺点,因此开发理论层面上的 蛋白质结构预测方法势在必行。本文以现代计算智能技术为基础,对蛋白质 空间结构预测方法进行了较为深入的研究,本文主要从以下几个方面进行了 研究与探讨: 针对离散型蛋白质h p 格点模型,本文提出了一种融合改进量子遗传算 法及局部搜索策略的蛋白质h p 格点模型预测方法。该方法在传统的量子遗 传算法基础上引入动态调整量子门旋转角步长机制用来提高算法的优化性 能,并且按照一定规则对量子遗传算法的优化结果进行局部结构变换,这种 结构变换只需通过移动较少的节点就可以实现,实验表明该方法能够有效改 善算法的优化结果。 针对连续型蛋白质h p 非格点模型,本文提出了一种融合改进模拟退火 算法与序列二次规划法的预测策略。将序列二次规划法加入具有回火功能的 模拟退火算法中,利用其局部最优化的能力对由模拟退火算法求得的优化结 果进行二次优化,进而求得全局最优化结果,并且针对不同的优化过程分别 设计了不同的扰动方式。实验结果表明,该方法能够有效提高蛋白质h p 非 格点模型的优化结果。 针对蛋白质填充结构,本文提出了一种基于样本选择的蛋白质填充结构 预测方法,该方法首先根据蛋白质填充结构定义从立体结构已知的蛋白质中 抽取用于分类学习的样本集并对其进行编码,然后基于信息粒度理论运用聚 类分析的方法将编码后的训练样本划分为若干类别,进而使用最近邻算法从 分类后的初始训练样本集中选择最具有代表性的样本作为分类器的训练样 本,构建蛋白质填充结构预测模型。实验结果表明,该方法能够有效提高蛋 白质填充结构的预测精度。 哈尔滨t 群人学博十学何论文 针对蛋白质二硫键结构,本文提出了一种基于分类器融合技术的蛋白质 二硫键结构预测方法。该方法基于f d o d 函数、蛋白质氨基酸序列以及蛋白 质生物化学属性,采用不同的编码方式分别设计了三种不同的蛋白质二硫键 结构分类器,然后依据多分类器融合理论,对它们进行分类器融合,获得最 终的蛋白质二硫键结构预测结果。实验结果表明,该方法能够有效的提高蛋 白质二硫键结构的预测精度。 关键词:蛋白质结构预测;计算智能;蛋白质h p 格点模型;蛋白质h p 非格 点模型;蛋白质填充;蛋白质二硫键 a b s t r a c t b i o i n f o r m a t i c si st h es c i e n c et h a tt a k e st h ec o m p u t e ra st h et 0 0 1 t os t o r e r e t r i e v ea n da n a l y z em a g n a n i m o u sb i o l o g i c a ld a t a i nt h eb i o l o g i c a lr e s e a r c h p r o c e s s t h r o u g ht h ea n a l y s i sa n dd a t am i n i n go fb i o l o g i c a ld a t a ,t h ep u r p o s et h a t r e v e a l sb i o l o g i c a lk n o w l e d g et h a ti si n c l u d e di nb i o l o g i c a ld a t ac a nb ea c h i e v e d b e c a u s ep r o t e i nf u n c t i o nh a st h ec l o s er e l a t i o nw i t hp r o t e i ns t r u c t u r e ,m a s t e r i n g t h ep r o t e i ns t r u c t u r ei s v e r yi m p o r t a n tf o rs t u d y i n gp r o t e i nf u n c t i o na n di t s m e c h a n i s m b u tn o wt h eb i o l o g i c a lm e t h o d st h a ts t u d yt h ep r o t e i ns t r u c t u r eh a y e t h es h o r t c o m i n gt h a tt h e i rp r i c ei sh i g h ,s p e e di ss l o wa n ds oo n ,a n dt h e r e f o r et h e t h e o r e t i c a lp r e d i c t i o nm e t h o do f p r o t e i ns t r u c t u r em u s tb ed e v e l o p e d i nt h i sp a p e r , t h es t u d yo fp r o t e i ns t r u c t u r ep r e d i c t i o nm e t h o db a s e do nm o d e m c o m p u t a t i o n i n t e l l i g e n c et e c h n o l o g yi sc a r r i e do nt h o r o u g h l y ;t h ep a p e ri n c l u d e st h ef o l l o w i n g r e s e a r c hc o n t e n t s : f o rh pl a t t i c em o d e l ,a p r e d i c t i o ns t r a t e g yo nt h eb a s i so fi m p r o v e dq u a n t u m g e n e t i ca l g o r i t h ma n dl o c a ls e a r c hw a sb r o u g h tf o r w a r d i nt h i sm e t h o d ,d y n a m i c s t e pl e n g t hi na d j u s t m e n to fa n g l eo fq u a n t u mg a t ei si n t r o d u c e d ;t h e r e f o r eh i g h p e r f o r m a n c ef o ro p t i m i z a t i o ni sa c h i e v e d l o c a ls t r u c t u r a lt r a n s f o r m a t i o nb a s e d o ns o m er u l e sf o ro p t i m a lr e s u l tg a i n e db yq u a n t u mg e n e t i ca l g o r i t h mi sc a r d e d o u ti nt h el o c a ls e a r c h b e c a u s et h i ss t r u c t u r a l t r a n s f o r m a t i o nc a nb eg o r e n t h r o u g hm o v i n gf e wv e r t i c e s ,t h e e f f i c i e n c y f o r o p t i m i z a t i o ni si n c r e a s e d s i m u l a t i o ne x p e r i m e n t a lr e s u l t ss h o w e dt h em e t h o dc a r l e f f e c t i v e l yi m p r o v et h e p r e d i c t i o na c c u r a c yo fp r o t e i nh pl a t t i c em o d e l b yc o m p a r i s o nw i t ho t h e r m e t h o d s f o rh po f f - l a t t i c em o d e l ap r e d i c t i o ns t r a t e g y o nt h eb a s i so fi m p r o v e d s i m u l a t e da n n e a l i n ga l g o r i t h ma n ds e q u e n t i a lq u a d r a t i c p r o g r a m m i n gw a sb r o u g h t f o r w a r d i nt l l i s s t r a t e g y , s e q u e n t i a lq u a d r a t i cp r o g r a m m i n gw a si o i n e di n s i m u l a t e d a n n e a l i n ga l g o r i t h mw i t ht e m p e r i n ga n n e a l i n gf u n c t i o n ,i t sl o c a l o p t i m i z a t i o nc a p a c i t yw a su s e dt oo p t i m i z ea g a i nt h eo p t i m a lr e s u l tg a i n e db y s i m u l a t e da n n e a l i n ga l g o r i t h ma n df o u n dt h eg l o b a lo p t i m i z a t i o n ,a n dt h ed i f f e r e n t 哈尔滨 - r f i 大学博十学位论文 p a r a m e t e rp e r t u r b a t i o nm e t h o d sw e r ed e s i g n e di nt h ed i f f e r e n to p t i m a lp r o c e s s s i m u l a t i o ne x p e r i m e n t a lr e s u l t ss h o w e dt h em e t h o dc a ne f f e c t i v e l yi m p r o v et h e p r e d i c t i o na c c u r a c yo fp r o t e i nh po f f - l a t t i c em o d e lb yc o m p a r i s o nw i t ho t h e r m e t h o d s f o rp r o t e i nc o n t a c tm a p s ,ap r e d i c t i o nm e t h o do nt h eb a s i so fp a t t e m s e l e c t i o nw a sb r o u g h tf o r w a r di nt h ep a p e r ;t h em e t h o df i r s ts e l e c t e dt r a i n i n g s a m p l e sf r o mt h ep r o t e i n st h a ti t ss t r u c t u r ew a sm a s t e r e da c c o r d i n gt op r o t e i n c o n t a c td e f i n i t i o na n dc o d e dt h e m ,a n dt h e nt h em e t h o du s e dc l u s t e r i n ga n a l y s i st o c l a s s i f yt r a i n i n gs a m p l e si n t os e v e r a lc l a s s i f i c a t i o n sb a s e do ng r a n u l a rc o m p u t i n g , l a s tt h em o s tr e p r e s e n t a t i v es a m p l e sw e r es e l e c t e do nt h eb a s i so nn e a r e s t n e i g h b o ra l g o r i t h ma st r a i n i n gs a m p l e st oc o n s t r u c tc o r r e s p o n d i n gp r e d i c t i o n m o d e l sb yu s i n gi m p r o v e db pn e u r a ln e t w o r k s i m u l a t i o ne x p e r i m e n t a lr e s u l t s s h o w e dt h em e t h o dc a ne f f e c t i v e l yi m p r o v et h ep r e d i c t i o na c c u r a c yo fp r o t e i n c o n t a c tb yc o m p a r i s o nw i t ho t h e rm e t h o d s f o rp r o t e i nd i s u l f i d e b o n d i n g ,ap r e d i c t i o nm e t h o dw a sb r o u g h tf o r w a r do n t h eb a s i so ft h ef u s i o no fm u l t i p l ec l a s s i f i e r s t h em e t h o ds e p a r a t e l yd e s i g n e d t h r e ek i n d so fd i f f e r e n tc l a s s i f i e r so nt h eb a s i so ff d o df u n c t i o n ,p r o t e i n s e q u e n c e sa n dp r o t e i nb i o l o g i c a lp r o p e r t i e s ,a n dt h e nf u s e dt h e ma c c o r d i n gt o f u s i o ns t r a t e g yo fm u l t i p l ec l a s s i f i e r st ob u i l dt h ep r e d i c t i o nm o d e lo fp r o t e i n d i s u l f i d e b o n d i n g s i m u l a t i o ne x p e r i m e n t a lr e s u l t ss h o w e dt h em e t h o dc a l l e f f e c t i v e l yi m p r o v et h ep r e d i c t i o na c c u r a c yo fp r o t e i nd i s u l f i d e - b o n d i n g b y c o m p a r i s o nw i t ho t h e rm e t h o d s k e yw o r d s :p r o t e i ns t r u c t u r ep r e d i c t i o n ;c o m p u t a t i o ni n t e l l i g e n c e ;p r o t e i nh pj l a t t i c em o d e l ;p r o t e i nh po f f - l a t t i c em o d e l ;p r o t e i nc o n t a c t ; p r o t e i nd i s u l f i d e - b o n d i n g 。 基丁计算知i1 厶匕ij g , 技术的货自质结构预测方法研究 目录 第1 章绪论1 1 1 研究背景1 1 2 蛋白质结构基础知识3 1 2 1 蛋白质的组成3 1 2 2 蛋白质的结构5 1 3 蛋白质结构预测研究7 1 4 蛋白质数据库介绍1 4 1 5 论文的组织结构1 6 第2 章计算智能技术理论基础18 2 1 计算智能技术1 8 2 2 人工神经网络1 9 2 2 1 神经元结构模型19 2 2 2b p 神经网络结构及学习方法2 0 2 3 模拟退火算法一2 2 2 3 1 模拟退火算法运行过程2 2 2 3 2 模拟退火算法参数设定方法2 3 2 4 量子遗传算法2 5 2 4 1 量子计算基础知识一2 5 2 4 2 量子遗传算法。2 7 2 5 本章小结2 9 第3 章蛋白质折叠结构预测3 0 3 1 离散型蛋白质折叠结构预测3 0 3 1 1 蛋白质h p 格点模型3 1 3 1 2 问题的提出。3 5 3 1 3 基于量子遗传算法的h p 格点模型预测3 5 哈尔滨t 程大学博十学位论文 3 1 4 实验与结果分析4 2 3 2 连续型蛋白质折叠结构预测4 5 3 2 1 蛋白质h p 非格点模型4 6 3 2 2 问题的提出4 9 3 2 3 相关研究基础一5 0 3 2 4 基于混合优化策略的h p 非格点模型预测5 4 3 2 5 实验与结果分析5 7 3 3 本章小结6 0 第4 章蛋白质填充结构预测6 l 4 1 蛋白质填充结构预测研究现状6 l 4 2 问题的提出6 4 4 3 相关研究基础6 5 4 3 1 粒度计算基础理论。6 5 4 3 2k - m e a n s 聚类算法6 6 4 3 3 最近邻算法6 7 4 4 基于样本选择的蛋白质填充结构预测6 8 4 4 1 蛋白质属性选取及编码方式6 9 4 4 2 样本数据分组策略7 l 4 4 3 基于最近邻算法的样本选择方法7 2 4 5 实验与结果分析7 4 4 5 本章小结7 6 第5 章蛋白质二硫键结构预测7 7 5 1 蛋白质二硫键结构预测研究现状7 7 5 2 问题的提出7 9 5 3 相关研究基础8 0 5 3 1 完全信息集和f d o d 函数8 0 5 3 2 分类器融合算法8 2 基丁计算智能技术的货n 质结构预测方法研究 5 4 基于分类器融合的蛋白质二硫键结构预测8 5 5 4 1 基于f d o d 函数的蛋白质二硫键结构分类器8 6 5 4 2 基于蛋白质序列的蛋白质二硫键结构分类器8 7 5 4 3 基于蛋白质属性的蛋白质二硫键结构分类器8 8 5 5 实验与结果分析8 9 5 6 本章小结9 l 结 论9 2 参考文献9 4 攻读博士学位期间发表的论文和取得的科研成果1 0 4 致 谢10 6 个人简历10 7 第1 章绪论 1 1 研究背景 第1 章绪论 2 0 世纪后期,生命科学与医学获得快速发展,特别是人类基因组计划 ( h u m a ng e n o m ep r o j e c t ,h g p ) 的顺利实施,产生了数量庞大的生物分子数据, 而在这些海量数据中包含有丰富的生命科学信息,非常多的目前尚未被人类 所了解的生物学知识隐藏在其背后【l 埘。如何对这些生物分子数据进行处理、 分析,挖掘其中所包含的知识表示,使研究人员能够从海量数据中迅速地获 得重要的生命科学信息,是数学家、生物学家与计算机科学家所面临的一个 巨大的挑战,生物信息学( b i o i n f o r m a t i c s ) 就是为迎接这个挑战而发展起来的一 门新兴学科。生物信息学是在生命科学的研究过程中,使用计算机对所获得 的生物数据进行储存、检索和分析的科学,它通过对生命科学实验数据的获 取、加工、存储以及信息挖掘,从而达到揭示这些数据背后所蕴含的生物学 知识的目的。目f j i 在国际上对生物信息学进行了明确的定义,即它是系统发 展并将计算系统与计算技术应用于解决生命现象中的实际问题,采用高级计 算方法来管理、分析生物学数据并从中挖掘发现知识的- - 1 7 学科【3 】。生物信 息学已成为现代生命科学研究的核心方法之一,随着当前生物学数据量的不 断增长,它在生命科学研究中的重要性得以日益提高,这使得生物信息学成 为了在当今生命科学研究中最具活力的新兴前沿学科之一。 当前生物信息学主要是由分子生物学推动发展的,它主要侧重进行基因 组学( g e n o m i c s ) 和蛋白组学( p r o t e o m i c s ) 两个方面的研究工作,具体来说就是 从d n a 序列和蛋白质序列出发,研究序列组成中所包含的结构与功能方面 的生物信息。目前蛋白组学是生物信息学领域中的一个重要研究内容,生物 体的d n a 中携带着生物的遗传信息,通过对其表达生成对应的蛋白质,而 生物体所表现出的各种生物功能的具体实现,都是由其所生成的蛋白质来完 成的,因此面向蛋白质相关领域的研究就显得非常重要了。通过研究发现蛋 白质分子结构与其功能的异常改变是导致疾病发生的主要原因,只有对相关 哈尔滨t 程大学博十学位论文 蛋白质分子的空间立体结构及其形成原理进行深入的研究才能够正确理解疾 病发生的原因所在,研发有效的诊断与治疗方法,进而在药物开发方面获得 实质性突破,因而蛋白质相关研究成为今后重点研究方向之一【4 】。 蛋白质分子在生物体内担当着完成各项生理机能正常运转的任务,如生 化反应的催化、营养成分的运输、生物信号的识别与传递等,因此揭示生物 体内成千上万种蛋白质的具体功能以及其完成功能的机理是蛋白质研究的核 心内容,也是在后基因组时代生命科学研究中极富挑战的领域之一。虽然蛋 白质是由氨基酸按照一定的顺序线性排列组成的,但是它们只有被折叠成某 种特定的空间构象后才具有相应的活性和生物学功能,判明蛋白质的空间立 体结构不仅有利于了解蛋白质的功能,而且有利于认识蛋白质是如何实现具 体功能的,因此研究蛋白质空间结构的确定方法具有重要的理论及实践意义。 当前通过实验确定蛋白质结构的方法主要有x 射线结晶学、核磁共振( n u c l e a r m a g n e t i cr e s o n a n c e ) 以及电子显微镜( e l e c t r o nm i c r o s c o p e ) 等技术,但这些 实验方法都具有昂贵、费力并且花费时间长的缺点,一般需几个月甚至几年 的时间,通过实验方法判明空间结构的蛋白质数量的增长速度远远慢于蛋白 质序列产生的速度。到目前为止仅仅有几万个蛋白质通过实验方法己判明其 结构,而立体结构未知的蛋白质序列则己达到几百万并且仍在不断地快速增 长着,因此如果想要缩小这种差距,就不能完全依赖现有的结构测定技术, 需要发展理论分析方法。 2 0 世纪6 0 年代后期,a n f i n s e n 首先发现去折叠蛋白或者说变性( d e n a t u r e d ) 蛋白质在合适的折叠环境下能够重新折叠成原来的结构,这一现象说明了蛋 白质的线性序列中隐含了蛋白质空间立体结构的所有信息,由此提出了著名 的蛋白质的折叠信息隐含在蛋白质一级结构中的论断【5 】。这一发现为蛋白质 立体结构的预测提供了重要理论依据,也就是说在完全掌握了蛋白质序列信 息与其立体结构之间的关系后,就可以通过蛋白质一级序列信息直接预测其 立体结构【6 】。蛋白质立体结构预测主要是解决蛋白质的氨基酸序列最终是如 何折叠成特定的空间结构的问题,从数学的角度来讲就是寻找一种从蛋白质 的氨基酸序列到蛋白质原子三维坐标的一种映射。生物体中d n a 序列转换 为蛋白质序列的遗传密码转换方式已经基本被人类所了解,然而蛋白质序列 信息与蛋白质空间结构之间也存在着一定的对应关系,蛋白质序列信息决定 2 第1 章绪论 着蛋白质空问构象,因此有的研究者将蛋白质序列与蛋白质空间结构之问的 关系规则称为第二部遗传密码。准确而快速地掌握蛋白质空间结构有助于了 解蛋白质的生物功能以及蛋白质如何行使其生物功能,并且对于认识蛋白质 与蛋白质( 或其它分子) 之间的相互作用也具有重要指导作用,这无论是对 于生物学还是对于医学以及药学都是非常重要的。对于功能未知或者新发现 的蛋白质分子,通过对蛋白质进行结构分析可以对其进行功能注释,指导研 究者设计进行功能确认的生物学实验;通过分析蛋白质的空间结构,能够确 认功能执行单位或者结构域,这可以为遗传操作提供目标,为合成新的蛋白 质或改造已有蛋白质提供可靠的依据;同时为新的药物分子设计提供合理的 靶分子以及空间结构。蛋白质的空间结构预测是“后基因组时代”的一个非 常重要研究课题,作为当前分子生物学首要解决的难题,被列为2 l 世纪生物 学的首要研究任务。 1 2 蛋白质结构基础知识 1 2 1 蛋白质的组成 蛋白质这一概念最早是由瑞典化学家永斯呗采利乌斯于1 8 3 8 年提出的, 但当时研究者们对于蛋白质在生物体中的作用并不了解,直到1 9 2 6 年詹姆 斯b 萨姆纳的研究成果表明尿素酶是一种蛋白质,据此首次提出了酶是 蛋白质,而世界上第一个被测序的蛋白质是胰岛素,这是由弗雷德里克桑 格完成的,并且因此他获得了1 9 5 8 年度的诺贝尔化学奖。而第一个立体结构 被判明的蛋白质为血红蛋白和肌红蛋白的立体结构,是由马克斯佩鲁茨和 约翰肯德鲁于1 9 5 8 年分别使用x 射线晶体学方法完成的,他们也因此获 得1 9 6 2 年度的诺贝尔化学奖。 蛋白质是一种非常复杂的有机化合物,它由氨基酸分子按照一定的顺序 线性排列所形成,相邻氨基酸的羧基和氨基之间形成肽键从而连接在一起, 多个氨基酸通过这种肽键相互连接形成一条肽链。由于氨基酸具有非对称性, 因此蛋白质链具有方向性,在蛋白质链的起始端有一个自由的氨基,因此被 哈尔滨t 稃大学博十学位论文 称为端或氨基端,而尾端则因为具有自由的羧基,因此被称为c 端或羧基 端。在自然界中组成生物体所必需的蛋白质分子的氨基酸共有2 0 种( 表1 1 ) , 由于任意蛋白质都有自己特定的氨基酸组成以及氨基酸排列顺序,因此蛋白 质分子组成也呈现出多样性,从理论上说一条长度为的蛋白质多肽链可以 有2 0 种组成可能。 表1 1 氨基酸表 t a b 1 1a m i n oa c i dt a b l e 丙氨酸 a l a n i n e a l a 脂肪族类 精氨酸 a r g i n i n e a r g碱性氨基酸类 天冬酰胺 a s p a r a g i n e s a $ 1 1 酰胺类 天冬氨酸 a s p a r t i ca c i da s p 酸性氨基酸类 ! 卜胱氨酸 c y s t e i n ec y s 含硫类 谷氨酰胺 g l u t a m i n e g l n 酰胺类 谷氨酸 g l u t a m i ca c i dg l u 酸性氨基酸类 甘氨酸 g l i c i n e g l y 脂肪族类 组氨酸 h i s t i d i n eh i s 碱性氨基酸类 异亮氨酸 i s o l e u c i n el i e 脂肪族类 亮氨酸 l e u c i n el e u 脂肪族类 赖氨酸 l y s i n e l y s 碱性氨基酸类 甲硫氨酸m e t h i o n i n e m e t 含硫类 苯丙氨酸 p h e n y l a l a n i n e p h e 芳香族类 脯氨酸p r a l i n ep r o 亚氨基酸 丝氨酸s e r i n es e r 羟基类 苏氨酸t h r e o n i n et h r 羟基类 色氨酸 t r y p t o p h a nt r p 芳香族类 酪氨酸 t y r o s i n et y r 芳香族类 缬氨酸 v a l i n ev a l 脂肪族类 4 第1 章绪论 i i 1 2 2 蛋白质的结构 在自然界中组成蛋白质的多肽链并不是呈线形伸展的,而是按照一定的 规则进行折叠,从而构成特有的比较稳定的空间结构存在的。蛋白质要发挥 生物学功能,就必须正确折叠成一个特定构象,这主要是通过大量的非共价 相互作用来实现的( 如氢键、离子键、范德华力及疏水作用等) ,此外在一些 蛋白质折叠过程中,二硫键也起到关键作用。为了从分子水平上了解蛋白质 的生物学功能及其作用机制,常常需要测定蛋白质的三维结构,目前通过实 验方式测定蛋白质空间结构的方法主要包括x 射线晶体学、核磁共振等技术。 研究者们首先在1 9 6 0 年代通过x 射线晶体学的方法获得了原子分辨率水平 的蛋白质结构,目前在专门用来存储蛋白质和核酸分子结构的蛋白质空间结 构数据库中,接近于9 0 的蛋白质空间结构数据是使用x 射线晶体学的方法 进行测定而得到的,x 射线晶体学方法是指通过测定蛋白质分子在晶体中电 子密度的空间分布,从而在一定分辨率下解析蛋白质分子中所有原子的三维 坐标。到了2 0 世纪8 0 年代,核磁共振( n m r ) 技术也被应用于蛋白质空间 结构解析,目前大约9 左右的已知蛋白质结构是通过核磁共振技术测定得 到的。冷冻电子显微技术是近年来新兴起的一种获得较低分辨率( 低于5 埃) 蛋白质立体结构的方法,该方法最大的优点是可以适用于大型蛋白质复合物 ( 如病毒外壳、核糖体以及类淀粉蛋白纤维等) 的空间结构测定,并且该方 法在一些特定情况下也可获得较高分辨率的蛋白质立体结构,如具有高对称 性的病毒外壳和膜蛋白二维晶体等。 1 、蛋白质一级结构 蛋白质的一级结构是指组成蛋白质的氨基酸残基的排列顺序,它是最基 本的蛋白质分子结构,它是根据基因上遗传密码的排列顺序获得的,将各种 氨基酸残基按遗传密码的顺序通过肽键连接起来,从而获得蛋白质的一级结 构。将蛋白质分子中的氨基酸排列顺序视为一个整体构造,是一种运用有机 化学方法来描述蛋白质的完全方法,通过对多种不同蛋白质的氨基酸顺序分 析可以看出每种蛋白质都具有其独特的结构,其中氨基酸的排列顺序即为该 种系的特性。蛋白质一级结构是空间结构的基础,不同蛋白质的特定空间构 象主要是由蛋白质分子中的肽链以及由侧链r 基团形成的次级键来维持,在 5 哈尔滨t 稃人学博十学何论文 生物体内,蛋白质的多肽链一旦被合成后,该多肽链将根据一级结构的特点 进行自然折叠和盘曲,从而形成一定的空间构象,即蛋白质空间结构。研究 表明一级结构相似的蛋白质,其基本构象及功能也非常相似,例如,不同种 属的生物体分离出来的同一功能的蛋白质,其一级结构只有极少的差别,而 且在系统发生上进化位置相距愈近的差异愈小。 2 、蛋白质二级结构 蛋白质的二级结构是指蛋白质的多肽链借助于氢键沿一维方向排列成具 有周期性的结构构象,是多肽链局部的空间结构。生物学家p u a h n g 以及c o r y e 于1 9 5 1 年提出蛋白质中具有仅螺旋和1 3 折叠这两种周期性结构的假设,这个 假设在1 9 5 7 年由另一组生物学家用x r a y 晶体衍射的方法所证型7 。a 螺旋 和1 3 折叠都是使多肽链主链上的氢键供体和受体形成饱和的一种方式,这两 个二级结构的形成仅依赖于主链骨架结构,即所有氨基酸序列的共同部分, 除了这两种有规则的二级结构以外,主链骨架上的其他部分就被称为无规则 卷曲。蛋白质二级结构主要是指多肽链中主链上的各个原子在局部空间的排 列分布情况,并不涉及各氨基酸残基侧链的空间分布,由此可见蛋白质一级 结构被用来描述其化学组成成分,而二级结构则被用来描述肽链中的一个局 部区域的空间结构。 3 、蛋白质三级结构 蛋白质的多肽链以其二级结构为基础,再进一步折叠或盘曲从而形成具 有一定规律的三维空间结构,该结构被称为蛋白质的三级结构,目前也有研 究者认为蛋白质的三级结构是指在蛋白质主链折叠盘曲形成构象的基础上, 蛋白质中各个侧链所形成一定的构象,蛋白质三级结构的稳定性主要依靠次 级键( 氢键、疏水键、盐键以及范德华力等) 维系。蛋白质的三级结构主要 被用来描述其二级结构的空间拓扑关系,是指每一条多肽链内的全部二级结 构总和与所有侧链原子的空间排布以及它们之间的相互作用,包括了肽链中 主链和侧链的全部构象内容,而这些肽链之所以会进行折叠与盘曲,主要是 因为肽链上的氨基酸侧链之间的相互作用。一般来说,蛋白质的三级结构决 定了蛋白质的功能( 如三级结构中的m o t i f , d o m a i n 等都与蛋白质功能密切相 关) ,蛋白质三级结构的解明对于蛋白质功能的研究具有重要意义。 6 第1 章绪论 1 3 蛋白质结构预测研究 在当今生物信息学领域中,关于蛋白质的空间结构与其功能的研究无疑 是最具有挑战性的问题,而蛋白质的功能与其空间结构有着密切的关系,所 以了解蛋白质的结构信息对于研究蛋白质的功能及其作用机理具有重要意 义。目前,x 射线晶体学方法和多维核磁共振技术是目前通过试验方式测定 蛋白质结构的主要方法,但它们具有着一定的局限性:获得能够对x 射线产 生强衍射作用的晶体是使用x 射线晶体学方法测定蛋白质结构的前提,而蛋 白质晶体的表达、提纯以及结晶则增加了结构测定的难度;另一方面核磁共 振技术的出现为蛋白质三维结构的测定提供了另一个强有力的手段,但这一 方法目前还只能局限于规模较小的蛋白质的结构测定。虽然近年来测定蛋白 质结构的实验方法获得了一定地发展,但蛋白质结构测定的速度还远远赶不 上蛋白质序列产生的速度,因此为了缩小两者之间的差距,开发理论层面上 的蛋白质结构预测方法势在必行,其研究对于基础理论和实际应用都有着重 大意义。该研究也有助于研究者掌握蛋白质的功能,认识蛋白质功能的执行 机理,了解蛋白质与蛋白质( 或其它分子) 之间的相互作用,这些无论是对 于生物学还是对于医学以及药学,都具有非常重要的意义,并且使人们有能 力解决疾病等问题,设计具有新型生物功能的蛋白质,这将对医疗卫生、农 牧业等产生极大的促进作用。 2 0 世纪5 0 年代美国的a n f i n s e n d , 组根据变性的核糖核酸酶a 在一定环境 下能够自发的折叠,再次形成天然酶分子的实验提出:蛋白质的三级结构由 其氨基酸序列唯一决定,并因该论断获得诺贝尔奖,并且在其后的一些研究 中,包括多链蛋白质的复性研究和一系列体外化学合成活性蛋白质的成功也 支持这一经典论断。这一论断为从蛋白质序列预测蛋白质空间结构提供了重 要的理论依据,目前蛋白质空间结构的预测方法从理论上被分为两大类【8 l : 基于分子动力学的预测方法以及基于知识的预测方法。第一类是采用分子力 学以及分子动力学的方法,根据自然界中存在的物理化学基本原理,从理论 上直接计算出蛋白质分子的空间结构, 象处于热力学最稳定、能量最低状态, 7 这一方法首先假定蛋白质分子天然构 在这个假设的基础上只要能够计算蛋 哈尔滨t 稃大学博十导:何论文 白质分子内部所有原子问的相互作用以及蛋白质分子与溶剂的相互作用,然 后应用能量最小化方法,就可以成功的模拟蛋白质分子的天然构象。然而在 实际应用过程中,存在着蛋白质分子与溶剂系统之间的力场与能量函数描述 困难,以及由于蛋白质分子与溶剂系统之间能量函数极为复杂,所以存在着 大量的局部极小点,难以求得其全局最优值等问题,事实上目前应用理论计 算的方法还不能正确地预测蛋白质分子的天然构象。第二类预测方法是通过 对空间结构已知蛋白质的结构数据进行研究与分析,寻找蛋白质序列与其空 间结构之间的联系,从而总结出一定的规律并建立一些经验规则用以蛋白质 结构预测,这类方法被称为基于知识的预测方法。基于知识的预测方法根据 蛋白质结构的层次性,将蛋白质结构预测过程划分为以下几个子步骤:( 1 ) 以蛋白质的氨基酸序列为基础预测其二级结构;( 2 ) 依据预测得到的二级结 构构建可能存在的蛋白质立体结构模型;( 3 ) 根

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论