




已阅读5页,还剩68页未读, 继续免费阅读
(系统分析与集成专业论文)蛋白质系统突变分析及系综优化算法的计算机实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕士学位论文 摘要 随着后基因组时代的到来,蛋白质组学以及功能蛋白质相关研究的兴起, 蛋白质作为重要的生物大分子,其结构与功能之间关系的研究越来越引起人们 的重视。蛋白质结构与功能之间关系的阐明,将有助于理解蛋白质行使其特有 生物功能的结构基础,以及蛋白质与其他分子相互作用的机理,其中包括对蛋 白质与蛋白质相互作用机理的认识和理解。 对蛋白质进行基于结构信息的研究,包括一级结构和三级结构,将有助于 预测分析蛋白质结构与功能的关系,以及蛋白质一级结构的改变对蛋白质高级 结构及其功能的影响。对蛋白质结构与功能的认识过程始于蛋白质中重要功能 残基及蛋白质与其他分子相互作用的确定。在蛋白质功能研究过程中,专一性 突变产物的设计起到了至关重要的作用,通过定位突变替换单独的氨基酸残基 是分析功能残基的有力工具。 本文实现了基于自治系综优化理论的蛋白质系统突变的计算机模拟。自治 系综最优化方法基于平均场能理论,在蛋白质热系综空间中进行概率矩阵的优 化。概率矩阵代表了蛋白质的热系综状态,表示特定位置采取可能的氨基酸类 型及其构象的可能性大小。根据统计力学理论,对于一个正确的热系综存在以 下的自治条件,即平均场能矩阵和概率矩阵之间满足玻尔兹曼分布,这就为寻 找正确的热系综空间提供了一种稳健的迭代过程。 通过计算机模拟蛋白质定点系统突变,然后对野生型蛋白及每一个突变体 蛋白进行自由能计算,并利用自治系综优化算法进行自治迭代。在第四章中详 细介绍了整个计算,这中间包括了系统突变的计算机实现、自治系综优化理论、 自由能评价、溶剂可及表面积、降温机制、归一化、阈值以及评价标准。最后, 还分别给出了酶活性突变分析、蛋白质相互作用突变分析以及蛋白质系统突变 分析的计算结果。结果显示,本文的计算机模拟计算可以获得较好的精度,因 此本文开发的程序是一个有用的蛋白质研究的辅助工具。文中还详细叙述了我 们利用j a 、,a 语言编码的蛋白质系统突变及系综优化算法的应用程序的总体设 计流程,着重介绍了软件系统框架中的各个功能模块,包括突变脚本模块、d s s p 模块、自治系综优化模块以及结果比对模块。 关键词:自治系综优化;蛋白质系统突变;突变分析;可及表面积 v i 上海大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fp o s tg e n o m i c s ,p m t e o m i c sa n dt h es p r i n gu po ft h ep r o t e i n f u n c t i o na n a l y s i s o n eo ft h ei m p o r t a n tb i o - m o l e c u l e s - 一p r o t e i n , a n dt h ec o r r e l a t i o n b e t w e e ni t ss t r u c t u r ea n df u n c t i o na r i s e sm o r ea n dm o r ea t t e n t i o n i l l u s t r a t i n gt h e c o r r e l a t i o nb e t w e e ns t r u c t u r ea n df u n c t i o n , i th e l p st ou n d e r s t a n db o t ht h es t r u c t u r e r e q u i r e m e n t sf o rt h eb i o l o g i c a lf u n c t i o no fp r o t e i na n dt h ei n t e r a c t i o nm e c h a n i s m b e t w e e n p r o t e i na n d o t h e rm o l e c u l a r , i n c l u d i n gp r o t e i n - p r o t e i ni n t e r a c t i o n m e c h a n i s m s t r u c t u r a lb a s e dr e s e a r c ho np r o t e i n s ,b o t hp r i m a r ys t r u c t u r ea n dt e r t i a r y s t r u c t u r e ,h e l p st oa n a l y z ea n dp r e d i c t t h ec o r r e l a t i o nb e t w e e ns t m c t i i ma n df u n c t i o n , a n dh o wi ta f f e c t st h es t e r i cs t r u c t u r ea n df u n c t i o nw h i l ei t sp r i m a r ys t r u c t u r ea l t e r e d i nt h er e s e a r c ho fp r o t e i ns t r u c t u r ea n df u n c t i o n , i ti st h ee v e rb e g i n n i n gt of i xo u tt h e i m p o r t a n tr e s i d u e sa n dt h ec o r r e l a t e di n t e r a c t i o n s i ti n v o l v e s t h ed e s i g no f s p e c i a l i z e dm u t a n tp l a y sa ni m p o r t a n tr o l ei nt h er e s e a r c ho fp r o t e i nf u n c t i o n i ti sa n e f f i c i e n tw a yf o rf u n c t i o na n a l y s i st os u b s t i t u t es i n g l ea m i n oa c i db ys i t e - d i r e c t e d m u t a t i o n i nt h i sp a p e r , w ei m p l e m e n tt h es i m u l a t i o no ft h ep r o t e i ns y s t e m a t i cm u t a t i o ni n s i l i c o n e v a l u a t et h ef r e ee n e r g yf o re a c hm u t a n t , a f t e rw h i c ha no p t i m i z a t i o nb a s e d o ns e l f - c o n s i s t e n te n s e m b l eo p t i m i z a t i o n ( s c = e o ) i sc a r r i e do u t t h eb a s i ct h e o r yo f s c e oi sm e a nf o r c et h e o r y , o p t i m i z i n gt h ep r o b a b i l i t ym a t r i xi np r o t e i ne n s e m b l e s p a c e t h ep r o b a b i l i t ym a t r i xd e s c r i b e st h ee n s e m b l es t a t u so fp r o t e i n ;i tm e a n s t h e p r o b a b i l i t yf o ra na m i n oa c i da n di t sc o n f o r m a t i o na tag i v e ns i t e a c c o r d i n gt ot h e s t a t i s t i cm e c h a n i c s ,t h e r eh a sac o n s i s t e n tc o n d i t i o nf o rap r o p e rt h e r m oe n s e m b l e ; t h a ti st h em e a nf o r c ee n e r g ym a t r i xa n dt h ep r o b a b i l i t ym a t r i xs a t i s f yt h e b o l t z m a m md i s t r i b u t i o n ,w h i c hp r o v i d e sas t a b l ei t e r a t i o nt os e a r c hf o rt h ec o r r e c t t h e r m oe n s e m b l es p a c e i nt h i sp a p e r , w eb e g i no u rs t u d yf r o mt h es i m u l a t i o no fp r o t e i ns i t e d i r e c t e d s y s t e m a t i cm u t a t i o ni ns i l i c o n t h e n ,e v a l u a t et h ef r e ee n e r g y f o re a c hm u t a n t , v i i 上海大学硕士学位论文 i t e r a t e db ys c e oa l g o r i t h m s e ed e t a i l sf o r t h ew h o l ec o m p u t a t i o ni nc h a p t e rf o u r , i n c l u d i n gt h ei m p l e m e n t a t i o no fs y s t e m a t i cm u t a t i o ni ns i l i c o n , s c e o , e v a l u a t i o n o f f r e ee n e r g y , a c c e s s i b l es u r f a c ea r e a , c o o l i n gp r o c e d u r e ,s t a n d a r d i z a t i o n , t h r e s h o l d a n dt h ee v a l u a t i o nc r i t e r i o n t h ec o m p u t a t i o nr e s u l t sa r es h o w e di nc h a p t e rf o u r , i n c l u d i n gm u t a t i o na n a l y s i sf o re n z y m ea c t i v i t ya n dp r o t e i n p r o t e i ni n t e r a c t i o n ,a n d p r o t e i ns y s t e m a t i cm u t a t i o n a st h er e s u rs h o w s ,o u rm e t h o dp r o v i d e s ag o o d a c c u r a c ya n dt h ep r o g r a mw ed e v e l o p e di s au s e f u lt o o lf o rr e s e a r c h i ti sa l s o i n t r o d u c e di nd e t a i lo ft h ed e s i g no ft h ep r o g r a mf o rp r o t e i ns y s t e m a t i cm u t a t i o na n d s c e o ,e s p e c i a l l yt h ef r a m e w o r ka n dt h em o d u l eo ft h ep r o g r a m t h e ya r em u t a t i o n s c r i p t sm o d u l e ,d s s pm o d u l e ,s c e o m o d u l ea n dt h ec o m p a r i s o nm o d u l e s e ed e t a i l i nc h a p t e rf i v e k e y w o r d s :s e l f - c o n s i s t e n t e n s e m b l e o p t i m i z a t i o n ( s c e o ) ;p r o t e i n s y s t e m a t i cm u t a t i o n ;m u t a t i o na n a l y s i s ;a s a ( a c c e s s i b l es u r f a c ea r e a ) i i 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人己发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名: 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:导师签名: n 日期: 上海大学硕士学位论文 第一章绪论 1 1 生物信息学简介 无论是从构成还是从生命活动方面考察,生命体无疑都是一个高度复杂的 动力学系统。生命动力学系统的基本框架是具有方向性的d n a r n a 一蛋白质 的结构,它是一个高度有序的( 从结构和生命活动上看都是这样) 、开放的( 新 陈代谢) 、具有耗散特征的( 生命的维持需要不断地伴随着物质和能量的消耗) , 而又是远离平衡态的( 在生长、发育、世代交替、生态结构变迁中,生命不断 地否定自己) 动力学系统。因此,从系统科学的角度看,生命体是一个开放的 复杂巨系统。在生命科学的研究中,人们已经逐渐认识到生物信息学对于理解 生命的工作机制,揭示生命的奥秘有着重要的作用1 1 1 。 1 1 1 什么是生物信息学 生物信息学是b i o i n f o r m a t i c s 的直接翻译,这一术语在不同场合下被赋予不 同含义,它是由生物学、数学、计算机科学相互交叉所形成的学科,是当今生 命科学和自然科学的重大前沿领域之一1 2 】。在学科兴起之初,生物信息学主要 从事基因组研究产出的生物序列数据的获取、加工、储存、分配、分析、解释 和传播,包括对海量序列数据的收集、整理与服务;以及通过数据分析,揭示 这些数据的内涵,从中发现新的规律,获取对人类有用的信息。随着生命科学 研究的不断深入,生物信息学所涉及的研究范畴也在不断地得到扩充,如生物 芯片技术、蛋白质质谱技术和蛋白质结构测定技术的快速发展,特别是自上世 纪9 0 年代以来在人类基因组计划的带动下,r n a 结构、蛋白质序列和结构、 表达图谱等新形式的实验数据的不断产出,形成了各种生物信息学数据库。现 在,对这类新形的生物学实验数据的信息挖掘也已纳入了生物信息学的研究范 畴,这不仅大大扩展了生物信息学的工作内容,同时也逐渐成为生物信息学重 要的研究领域 3 1 。 上海大学硕士学位论文 综上所述,生物信息学就是一门信息及计算机科学、数学同现代分子生物 学相结合的新兴交叉学科。它的目的在于运用信息技术收集、存储、管理和传 播生物学信息资源,并利用各种可行的数学方法和模型来处理、分析和挖掘生 物学数据以破解其中蕴涵的具体生物学意义,同时为实验生物学、医学、农业、 环境等相关学科的发展提供帮助i 蟠j 。与生物信息学一同发展壮大的还有各种生 物信息相关的数据库,图1 1 显示了新世纪以来分子生物学数据库的增长态势。 资料表明,数据库的数量从2 0 0 0 年的2 2 5 个【4 2 】,增长到2 0 0 5 年的7 1 9 个【6 l , 而根据2 0 0 7 年最新的统计,现在实际运行的分子生物学数据库已达到9 6 8 个【4 3 l 。 图1 1 全世界实际运行的分子生物学数据库的增长情况 2 上海大学硕士学位论文 1 1 2 结构生物信息学 结构生物信息学( s t r u c t u r a lb i o i n f o r m a t i c s ) 是生物信息学的一个分支,主 要集中在原子和亚细胞空间尺度上研究大分子结构信息的表示、存储、检索、 分析和显示,其主要目标是创造通用方法处理生物大分子信息并应用这些方法 解决生物学问题,产生新知识 7 1 。生物信息学是随着能生成大量数据的d n a 测 序、质谱以及基因芯片表达分析等高通量实验技术的出现而发展起来的,与此 类似,结构基因组计划 s l 以高通量的方式收集和分析大分子结构信息,形成了 p d b ( p r o t e i nd a t ab a n k ) 这样的三维大分子结构数据库,促进了结构生物信息 学的出现和发展。根据p d b 网站2 0 0 5 年1 1 月的统计,p d b 数据库存放了3 3 3 6 7 套原子坐标1 3 1 ,而在2 0 0 7 年6 月1 2 日的统计数目已经增长到了4 4 0 1 8 套原子 坐标,其中蛋白质结构4 0 4 4 1 套,蛋白质核酸复合体结构1 7 8 5 套【9 】。显然,p d b 中已有的大量蛋白质结构提供了一个学习“训练集”。在此基础上,对于结构未 知的蛋白质可以开展结构预测方面的工作,如采用同源建模方法( h o m o l o g y m o d e l i n g ) 和反向折叠方法( i n v e r s ef o l d i n go rt h r e a d i n g ) ;除此之外,还可以对 数据库中的蛋白质结构进行生物信息学分析和数据挖掘,以获得更多、更有价 值的信息,包括结构信息、功能信息( 功能位点等) ,以及两者之间的关系。本 文的工作主要集中在对于数据库中已有的蛋白质结构数据的分析和挖掘,通过 对p d b 中蛋白质结构进行系统突变的计算机模拟和分析,达到研究蛋白质功能 位点的目的。同时,面对这样一个快速增长的蛋白质结构数据,利用生物信息 学的方法,从计算的角度对蛋白质结构数据进行分析,从中挖掘出更多的信息 成了结构生物信息学中的一个重要问题。 1 1 3 生物信息学的研究意义 生物信息学的研究是从理论上认识生物本质的必要途径,通过生物信息学 研究和探索,可以更为全面和深刻地认识生命科学中的本质问题,了解生物分 子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。破译和阐 3 上海大学硕士学位论文 明生物信息的本质将使得人类对生物界的认识跨越一个新台阶【“。 生物信息学的出现将改变生物学的研究方式。传统的生物学是一门实验科 学,传统的分子生物学实验往往是集中精力研究一个基因、一条代谢路径,手 工分析完全能够胜任。然而,随着分子生物学技术的发展,已经出现一些高通 量的实验方法,如基因芯片,利用基因芯片一次可以获取上万个基因的表达数 据。生物学已经从一次只分析一个生物分子的时代跃迁到同时分析成千上万个 生物分子的时代。对于高通量的实验结果,必须利用计算机进行自动分析。目 而,在高通量实验技术出现的时代,生物信息学必然要介入生物学研究和实验。 再者,从生物分子数据本身来看,各种数据之间存在着密切的关系,如d n a 序列与蛋白质序列、基因突变与疾病等,这些关系反映了生物学的规律。但是, 这些关系可能是非常复杂的,是我们未知的,是简单的多元统计方法难以分析 的。对于这些复杂的关系,必须运用现代信息学的方法去分析,去研究。因而, 随着分子生物学研究的深入,必然需要生物信息学。另外,现在全世界每天都 会产生大量的核酸和蛋白质序列数据,不可能用实验的方法去详细研究每一条 序列,必须首先进行信息处理和分析,去粗取精,去伪存真。通过预处理,发 现有用的线索,在此基础上进行有针对性、有明确目的的分子生物学实验。因 而,生物信息学在指导实验、精心设计实验方面将会发挥重要的作用【1 0 1 。 生物信息学研究在医学上也有重要的意义。通过生物信息学分析,可以了 解基因与疾病的关系,了解疾病产生的机理,为疾病的诊断和治疗提供依据。 研究生物分子结构与功能的关系将是研制新药的基础,可以帮助确定新药作用 的目标和作用的方式,从而为设计新药提供依据,揭示人类及重要动植物种类 的基因的信息,继而开展生物大分子结构模拟和药物设计,是当今国际上正在 迅速发展的自然科学领域最重大的课题之一。这方面的研究不仅对认识生物的 起源及对认识生物遗传、发育与进化的本质有重要意义,而且将为人类疾病的 科学诊断和合理治疗开辟全新的途径,还可为动植物的物种改良提供坚实的理 论基础i 。 4 上海大学硕士学位论文 1 2 蛋白质与蛋白质分子突变 蛋白质是一类非常有用的物质。在人体的进化过程中蛋白质执行了在体内 及体外的许多重要任务。例如,绝大多数酶是催化反应的蛋白质;抗体起到了 防护的作用;角蛋白和胶原蛋白用于稳定结构;激素用于传递信号,作为电子 传递及氧输送的载体,等等。 在蛋白质工程以及蛋白质设计领域,对于蛋白质结构与功能的关系的认识 是至关重要的,蛋白质的结构涉及一级结构( 序列) 和三维结构。随着分子生 物学的迅速发展,特别是定位突变( s i t e d i r e c t e dm u t a g e n e s i s ) 及p c r ( p o l y m e r a s e c h a i nr e a c t i o n ,聚合酶链式反应) 使得蛋白质可能工程化【n 1 。 专一性突变产物的设计,在整个蛋白质功能研究过程中起到至关重要的作 用。而通过分子生物学实验方式,对于合适的突变体的选择仍然是困难的,即 使蛋白质三维结构是已知的。同时,从实验手段获得突变体,又过于费时费力, 因此,计算机模拟蛋白质位点突变,并对突变的效果作合理的评价就显得尤为 重要【1 1 1 。 对于结构未知的蛋白质而言,可以通过计算机模拟技术来建立蛋白质三维 结构模型,确立突变位点区域以及预测突变后的蛋白质的结构与功能。对于结 构已经测定的蛋白质而言,可以利用p d b 数据库中的蛋白质结构信息,实现蛋 白质特定位点的突变,模拟、预测突变后的结构与功能。进而可以通过计算机 模拟蛋白质特定位点的系统突变( s y s t e m a t i cm u t a t i o n ) ,通过将特定位点的突变 成2 0 种常见氨基酸,来研究该位点上不同氨基酸类型对于蛋白质结构以及功能 的影响【1 l j 。 上海大学硕士学位论文 1 3 论文工作与安排 随着近年来蛋白质领域研究的不断深入,蛋白质的序列,三维结构、热力 学性质以及生物学功能之间的关系成为目前广泛关注的热点,这方面的研究有 助于理解蛋白质序列与高级结构的关系,以及结构与功能的关系。本文主要是 针对结构已测定的蛋白质,即利用p d b 数据库中的蛋白质结构信息,实现对蛋 白质给定位点的系统突变的计算机模拟计算,并对各个突变体进行自由能评估, 利用系综优化算法对各个突变体的能量进行评价分析之后,得到该位点对于不 同突变体的能量及其概率,同时给出突变的有效性的评价。我们用j a v a 语言 开发了相应的应用软件,该软件能够实现蛋白质的定位系统突变,以及系综优 化算法的模拟。通过试验证明,该系统可以用于蛋白质系统突变模拟以及突变 效用评价,是蛋白质研究的有用的辅助工具。 本论文共分六章,具体安排如下: 本章,阐述了生物信息学的背景,简要的介绍了蛋白质以及蛋白质分子突 变的研究意义,同时阐述了利用生物信息学方法,通过计算计算机模拟蛋白质 定位系统突变以及突变效用评价的重要意义。 第二章,介绍了蛋白质基本理论,包括蛋白质的基本组成、一级结构、二 级结构、三级结构、四级结构以及影响蛋白质空间构象的因素;同时还介绍了 蛋白质序列数据库和三维结构数据库。在本章最后,还介绍了蛋白质工程以及 蛋白质分子突变的基本理论。 第三章,主要介绍了自治系综优化算法的理论,以及应用于蛋白质三维结 构模拟的自治优化算法。本章给出了自治系综优化算法的计算公式以及简单的 算法流程图。 第四章,主要介绍了基于自治系综优化理论的蛋白质系统突变的计算模拟, 涵盖了本文实现的应用程序的流程图,以及各个流程的介绍,包括系统突变的 计算机实现、自治系综优化理论、自由能评价、溶剂可及表面积、降温机制、 归一化、阈值以及评价标准。同时,本章还分别给出了酶活性突变分析、蛋白 质相互作用突变分析以及蛋白质系统突变分析的计算结果。结果显示通过计算 机模拟,可以获得较好准确率的计算结果。 6 上海大学硕士学位论文 第五章,主要介绍了应用程序的软件系统结构,以及各个模块的介绍,主 要包括突变脚本模块、d s s p 模块、自治系综优化模块以及结果比对模块。 第六章,对全文工作进行总结,指出存在的问题,并对今后的研究工作进 0 行了展望。 7 上海大学硕士学位论文 第二章蛋白质概述以及蛋白质分子突变 理论 2 1 蛋白质解说 生物体的基因组能够提供构建机体所需的全部信息,但其本身在建造机体 时不担任任何主动角色。而蛋白质则有的参与形成组织的部分结构,有的被赋 予构建组织结构的能力,有的负责执行生命必须的新陈代谢反应。可以说,蛋 白质几乎在所有生物过程中起作关键性作用,是生命的主要基础物质。蛋白质 由氨基酸组成,有着复杂的空间结构。而蛋白质的构象又同它的功能密切有关。 了解蛋白质结构与功能的关系不仅是生物学实验研究的重要课题,也是生物信 息学研究的重要课题。本章对蛋白质的各个不同的结构层次作简要的介绍。 2 1 1 蛋白质是由氨基酸组成的 蛋白质是含氮的有机化合物,是由氨基酸构成的生物大分子。通过分析各 种不同来源的蛋白质的氨基酸组成,发现构成蛋白质的氨基酸共有2 0 种。这些 氨基酸在结构上都有一个共同的特点,即在与羧基相连的。一碳原子上含有一 个氨基,故把这些氨基酸称为a 一氨基酸,其一般结构如图2 1 所示。这些氨 0 基酸之间的差别仅在侧链r 基上,不同的r 在基决定蛋白质的结构、性质和功 能方面起着重要的作用。这2 0 种氨基酸都由相应的遗传密码子编码,因此常把 这些氨基酸称为“标准”氨基酸,表2 1 给出了加种氨基酸符号表剥”2 , , 1 3 , 1 4 。 8 上海大学硕士学位论文 表2 1 氨基酸的三字母简写与单字母符号 名称三宁嘴单字粥名称三字粥单字嘴 丙氨酸( a l a n i n e ) a l a a 亮氨酸( 1 e u c i n e ) i e ul 精氨酸( a r g i n i n e )趣 r 赖氨酸0 y s i n e ) i 筘 k 天冬酰胺( a s p a r a g i n e ) a m n 甲硫氨酸( m e t h i o n i n e ) m e tm 天冬氨酸苯丙氨酸 娜d h ef ( a s p a r t i ca c i d )( p h e n y l a l a n i n e ) 半胱氨酸( c y s t e i n e ) o s c 脯氨酸( p r o l i n e ) f r op 谷酰胺( g l u t a m i n e ) g h 0丝胺酸( s e r i n e ) s a s 谷氨酸( g l u t a m i ca c i d )陆 e 苏氨酸( t h r e o n i n e ) i k t 甘氨酸( g n c i n e )回 g 色氨酸( t r y p t o p h a n ) 1 砸 w 组氨酸( h i s f i d i n e )臁h酪氨酸( t y r o s i n e ) 1 i r y 异亮氨酸( i s o l e u c i n e ) t i el缬氨酸( v a l i n e ) v a lv 2 1 2 蛋白质一级结构 曰 n o c ih c o h r 图2 1 氨基酸结构 像所有多聚物分子一样,蛋白质的结构水平也是可以分级的。其结构可分 为一级、二级、三级和四级。蛋白质的一级结构( p r i m a r ys t r u c t u r e ) 是指蛋白 质多肽链的氨基酸顺序;蛋白质的二级结构、三级结构和四级结构统称为空间 结构或空间构象,代表着蛋白质多肽链不同层次的折迭结构1 3 , 1 2 , 1 3 , 1 4 】。 氨基酸与氨基酸之间可以通过a 一羧基与a 一氨基脱水缩合形成的酰胺键 共价结合在一起,这样形成的产物叫做肽( p e p t i d e ) 。这是氨基酸的一个非常重 要的性质,因为蛋白质就是通过酰胺键把氨基酸聚合起来的多肽大分子。在蛋 9 上海大学硕士学位论文 白质化学中,这种酰胺键称为肽键( p e p t i d e b o n d ) 。例如,氨基酸1 与氨基酸2 通过肽键结合在一起形成了二肽: 曰曰9 曰 h 2 n 一甲h c o h + h 2 n 一午h c o h -心n 一甲h c n h 一午h c o h r ,r 2只,f 1 2 氨基酸l氨基酸2 二肽 在二肽分子中仍然保留一个自由的a 一氨基和一个自由的a 一羧基,因此 原则上这个二肽可以进一步与其他氨基酸反应,形成三肽、四肽或更大的肽, 这样就形成了一条线性的链状分子一肽链( p e p t i d ec h a i n ) 。在肽链中,由于每 个氨基酸都参与了肽链的形成,不是原来完整的氨基酸,因此,肽链中的氨基 酸单位称为氨基酸残基( r e s i d u e ) 。多肽链自由的q 一氨基和a 羧基位于肽链相 反的两个末端,分别称为氨基末端( n 末端) 和羧基末端( c 末端) 【”2 , 1 3 , 1 4 1 。 目前收集蛋白质一级结构的数据库( 即序列数据库) 主要有p i r ( p r o t e i n i n f o r m a t i o nr e s o u r c e ,蛋白质信息资源) 、s w i s s p r o t 、t r e m b l 及u n i p r o t 。u n i p r o t ( u n i v e r s a lp r o t e i nr e s o u r c e ,全球蛋白质资源) 是全球有关蛋白质方面信息最 全面的资源库,是蛋白质序列以及功能信息的集中资源,且其具有最小的冗余。 u n i p r o t 是对p i r 、t r e m b l 以及s w i s s p r o t 的信息进行组合而构成的。u n i p r o t 提供了完全分类的、有丰富且准确注释信息的基于知识的蛋白质序列信息,且 有广泛的交叉引用以及多种查询界面 3 , 1 2 , 1 3 , 1 4 1 。 2 1 3 蛋白质二级结构 虽然不同的蛋白质有不同的氨基酸组成和排列序列,但是,这并不是蛋白 质之间区别的全部。事实上,通过对蛋白质结构的研究,发现每种蛋白质都能 在其特定的一级结构基础上选择它特有的空间构象去完成其特定的功能 3 , 1 2 , 1 3 j 4 l 。 蛋白质分子具有一条或多条肽链,肽链既不是直线,也不是随机卷曲的, 而是在空间上具有特定的排列与走向。简单地说,蛋白质的空间构象就是指蛋 白质多肽链主链在空间的走向以及所有原子或基团在空间中的排列与分布。蛋 上海大学硕士学位论文 白质空间构象包括二级、三级或四级等不同层次的结构。蛋白质的二级结构 ( s e c o n d a r ys t r u c t u r e ) 是指蛋白质多肽链主链在空间中的走向,一般呈有规律 的空间折迭。这级结构水平不涉及侧链基团在空间的位置。常见的二级结构有 n 一螺旋、b 折迭和1 3 一转角【3 , 1 2 , 1 3 , 1 4 】。 2 1 4 球状蛋白和三级结构 球状蛋白质构成了蛋白质种类的大多数。在天然状态,它们都是以紧密的 球形分子形式存在的,并且细胞内的大多数生物化学过程都是由它们完成的。 球状蛋白质比纤维状蛋白要复杂得多,这是与它们作为生物活性物质的功能密 切相关的。蛋白质的三级结构( t e r t i a r ys t r u c t u r e ) 和四级结构通常是针对球状 蛋白质而言的。蛋白质三级结构是指蛋白质分子中的所有原子的三维空间排列, 包括二级结构要素( 如a 一螺旋和6 一折迭) 和侧链在空间上的相互关系 【3 ,1 2 1 31 4 1 。 2 1 5 寡聚蛋白质和四级结构 生物体内的许多蛋白质都含有两条或多条折迭的多肽链,它们彼此聚集, 构成一个完整的、有功能的实体,这种蛋白质称为寡聚蛋白质( o l i g o m e r i c p r o t e i n ) 。在寡聚蛋白质中,每一个折迭的多肽链称为亚基( s u b u n i t ) ,亚基可 以相同,也可以不相同,这取决于寡聚蛋白质的亚基组成。由于寡聚蛋白质是 由多个亚基组成,而每个亚基有其本身的折迭结构( 三级结构) ,那么研究寡聚 蛋白质中的亚基数目和亚基问的相互关系( 即它们的空间位置) 就构成了寡聚 蛋白质四级结构研究的主要内科3 , 1 2 , 1 3 , 1 4 。 1 1 上海大学硕士学位论文 2 1 6 蛋白质空间构象稳定的因素 蛋白质多肽链在生理条件下折迭形成特定的空间构象显然是热力学上的一 种有利的过程,是各种作用力相互抵消、精巧平衡的结果【”z , 1 3 , 1 4 1 。 2 1 6 1 离子相互作用 蛋白质分子的相反电荷基团的结合称盐键或离子键( 离子对) 。蛋白质分子 的大多数带电基团都位于分子的表面,由于水分子的偶极性质,暴露在水溶剂 中的带电基团与水分子的相互作用对蛋白质结构起着稳定作用。位于分子内部 的离子对虽然有强烈的静电相互作用,但离子对形成所产生的作用力并没能补 偿侧链熵的减少和溶剂化自由能的损失。这就揭示了这样一个事实,即在蛋白 质的疏水内部很少存在非溶剂化的离子对1 3 , 1 2 , 1 3 1 4 】。 2 1 6 2 氢键 氢键是一种由弱酸性的供体( d h ) 和一个具孤对电子的原子( a ) 之间形 成的最显著的静电作用力。蛋白质具有众多的氢键供体和受体,包括主链上的 羰基和酰氨基以及极性侧链基团。蛋白质分子内部的氢键基团几乎都有可能形 成氢键,显然氢键对蛋白质的结构有很大的影响,这种影响主要体现在蛋白质 的内部氢键为蛋白质的天然折迭格局提供了结构基础,而不在于为蛋白质的稳 定提供能量 3 , 1 2 , 1 3 , 1 4 1 。 2 1 6 3 偶极与偶极间的相互作用 在电中性分子之间的非共价结合统称为范德华力。这种力产生于永久的或 诱导的偶极之间的静电相互作用,与那些非键合的邻近原子间的相互作用有关。 偶极与偶极间的相互作用包括永久偶极( 如主链上的羰基和酰氨基) 问的相互作 用、永久偶极与诱导偶极间的相互作用和瞬时偶极间的相互作用,这其中以瞬 时偶极的相互作用对蛋白质结构的稳定起着更为重要的作用。虽然非极性分子 在任何距离上都几乎是电中性的,但是,由于它们的电子的快速波动可以产生 上海大学硕士学位论文 小的瞬时偶极,短暂的瞬时偶极使邻近基团的电子极化,因而也产生一种瞬时 偶极,结果使得那些接近范德华力接触距离的基团彼此吸引。这种范德华力称 为l o n d o n 分散力。l o n d o n 分散力很弱,但是在蛋白质分子中,众多原子间的 接触使得这种分散力在决定其构象中成为一种重要的影响因素”2 j 3 , t 4 。 2 1 6 4 疏水作用 非极性物质都有避开水而彼此聚集的倾向。蛋白质通常含有相当数量的非 极性残基,如i l e 、l e u 、p h e 等。当多肽链处在未折迭状态时,这些疏水的残 基与水接触,引起周围水的结构有序化;但是疏水残基具有避开水的倾向,当 它们减少与水接触时,它们就会从水中转入到蛋白质分子内部,这时,疏水残 基周围氢键结合的水分子就会从有序状态中释放出来,变成自由水分子,从而 导致熵的增加。这样,疏水残基内聚化能增加整个系统( 蛋白质加水) 的混乱 度,导致折迭时的熵增加。这从能量上有利于加强蛋白质的稳定性。蛋白质疏 水残基疏水的相互作用是蛋白质折迭成特定构象的主要作用力1 3 1 2 a 3 , 1 4 。 2 1 6 5 二硫键 二硫键也是某些蛋白质维持结构稳定的重要因素。它是由两个半胱氨酸残 基的侧链- - s h 氧化形成的。但是相对还原的细胞质特性会极大地降低细胞内二 硫键的稳定性。事实上,几乎所有含二硫键的蛋白质( 如核糖核酸酶和胰岛素) 都分泌到比较氧化的细胞外的特定部位,在那里,蛋白质二硫键才能有效地发 挥稳定蛋白质结构的作用。细胞内的环境趋于使巯基保持还原状态,这可能是 细胞内的蛋白质很少含有二硫键的原因。核糖核酸酶a 的变性与复性试验证明 二硫键的形成是在蛋白质折迭成它的天然结构后形成的。也就是说,二硫键的 形成不是任意的,只有那些因肽链折迭而处在特定部位的半胱氨酸的侧链巯基 才能形成二硫键【3 ,1 2 1 3 , 1 4 。 上海大学硕士学位论文 2 1 7 蛋白质结构数据库 蛋白质空间结构数据是生物大分子结构数据库的主要组成部分。蛋白质结 构数据库是随x 射线晶体衍射分子结构测定技术的出现而诞生的,其基本内容 为实验测定的蛋白质分子空间结构的原子坐标。9 0 年代以来,随着x 射线晶体 衍射和m n r ( 核磁共振) 技术的进步,越来越多的蛋白质分子结构被测定,这 大大扩充了蛋白质结构数据库的蓄积量,而蛋白质结构分类研究的不断深入, 则衍生出蛋白质家族、折叠模式、结构域等分类结构相关的数据库1 3 1 。 p d b ( 蛋白质数据银行,p r o t e i nd a t ab a n k ) 是目前最主要的蛋白质分子结 构数据库。随着x - 射线晶体衍射技术的不断改进,结构测定的速度和精度也逐 步提高。9 0 年代以来,多维核磁共振溶液构象测定方法的成熟,使那些难以结 晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上 升。 下图显示的是从1 9 7 2 年到2 0 0 7 年之间,p d b 数据库数据增长情况图( 图 2 2 ) 1 4 上海大学硕士学位论文 图2 2p d b 数据量年增长图 红色代表当年递交到p d b 的结束数据量;蓝色代表当年p d b 数据库存储 的数据量【3 1 。 上海大学硕士学位论文 p d b 数据库以p d b 文件的方式存放数据,每个分子各用一个独立的文件。 除了原子坐标外,还包括物种来源、化合物名称、结构递交者以及有关文献等 基本注释信息。此外,还给出分辨率、结构因子,温度系数、蛋白质主链数目、 配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。p d b 数据库以p d b 文件格式存放,可以利用生物分子结构视图软件直观地了解生物 分子的空间结构。除了大型的商品化软件外,目前已有若干共享的分子图形软 件,如s w i s s p d b v i e w e r 、r a s m o l 、c n 3 d 等。这些软件同时具有分析和图形 显示功能1 3 】。 2 2 蛋白质与分子突变 在之前的叙述中,已经有所提到蛋白质的序列、三维结构、热力学性质以 及生物学功能之间的关系已经成为广泛关注的研究热点。而今,随着蛋白质序 列以及三维结构的测定技术日益成熟,序列数据库和结构数据库中的数据也在 与日俱增。而作为生命体中具有重要意义、执行各种重要生物学功能的蛋白质 分子,仅仅了解序列和结构的知识是远远不够的,从而在继蛋白质组学之后, 又出现了结构蛋白质组学、功能蛋白质组学等。然而,传统的实验技术手段不 仅费时费力,而且难以实现高通量试验以及系统突变实验。因此,如何利用生 物信息学方法,尤其是结构生物信息学方法,在已有的蛋白质数据基础上( 序 列和结构) ,开展蛋白质功能相关的研究成了广泛关注的研究热点。 对蛋白质进行基于结构信息的研究,将有助于预测分析蛋白质结构与功能 的关系,以及蛋白质一级结构的改变对于蛋白质高级结构和功能的影响。对蛋 白质结构与功能的认识过程始于蛋白质中重要功能残基及蛋白质与其他分子相 互作用的确定。通过定位突变替换单独的氨基酸残基是分析功能残基的有力工 具。选择突变残基,最重要的信息来自结构特征。因此如果蛋白质的立体结构 是未知的,则突变功能残基的研究带有不确定性,不能很好的区别蛋白质构象 扭曲变化的影响与原有功能残基突变的影响,而对于三维结构已经经过x 射线 测定或n m r 谱测定的蛋白质,可以根据氨基酸来推测专一性残基的功能作用, 上海大学硕士学位论文 可以根据蛋白质上的氨基酸与配件上的受体基团间的距离与取向决定它们之间 形成氢键、离子对或疏水相互作用。也可以根据原先的生物化学实验进行突变 残基的选择【1 1 】。 定位突变可以在蛋白质中引入特殊的替代氨基酸并显示蛋白质功能的损失 及变化。因此它是鉴定蛋白质功能残基的重要手段。对于蛋白质中某些已经通 过结构及生物化学实验证明其功能重要性的残基,通过定位突变则可以探测它 们的作用机理。这些研究为认识蛋白质一蛋白质相互作用及酶催化的本质提供 理论基础,也为蛋白质工程和的那白质设计提供依据。蛋白质结构与功能关系 研究也可用于药物开发。根据上述目的,可以进行三类突变:插入一个或多个 氨基酸残基,删除一个或多个氨基酸残基,替代或取代一个或多个氨基酸残基 【1 1 1 。 专一性突变产物的设计,在整个蛋白质功能研究过程中起到至关重要的作 用。而通过分子生物学实验方式,对于合适的突变体的选择仍然是困难的,即 使蛋白质三维结构是已知的。同时,从实验手段获得突变体,又过于费时费力, 因此,计算机模拟蛋白质位点突变,并
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 员工干股持股协议书
- 合伙模具合同协议书
- 合同能源管理协议书
- 加盟合作入股协议书
- 合同协议赔偿协议书
- 2025年养老服务中心设施适老化康复设施评估报告
- 合伙餐饮配送协议书
- 2025年工程法规知识点全面梳理试题及答案
- 各国环境保护协议书
- 土地公路调解协议书
- 基于高光谱成像的青稞品种鉴别和特征品质无损检测技术研究
- 2024年山东省政府采购评审专家考试真题100个题及答案
- 2025年合肥市公安局第一批招考聘用警务辅助人员591人高频重点提升(共500题)附带答案详解
- 医院培训课件:《医务人员职业暴露及安全防护》
- 煤质化验工职业技能竞赛理论考试题及答案
- DB52T 1512-2020 水利水电工程隧洞施工超前地质预报技术规程
- 15J403-1-楼梯栏杆栏板(一)
- 部编版四年级语文下册1-8单元词语、课文默写练习卷
- 《数学课程标准》义务教育2022年修订版(原版)
- GB/T 1148-2024内燃机铝活塞
- 宣传用品供货制供应商采购投标方案(技术方案)
评论
0/150
提交评论