已阅读5页,还剩56页未读, 继续免费阅读
(运筹学与控制论专业论文)蛋白质结构与功能研究方法探讨.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
捅要 蛋白质结构与功能预测是后基因组时代的一项重要任务,本文围绕该问 题做了一些研究工作,主要结果如下: 1 。 蛋白质结构预测模型的目标函数通常采用基于物理理论的经验势函数或 基于统计理论的平均势能函数。本文分析了c o r n e l l 大学b a k e r 化学实 验室给出的联合残基力场,建立了九个预测模型,它们分别包含不同的 能量项,以便分析各能量项对于蛋白质结构预测结果的影响。 2 针对蛋白质结构预测模型中目标函数多变量、多极值的特点,采用模拟 退火算法对蛋白质进行结构预测,并对算法进行了改进,数值试验表明 该算法具有较好的收敛性,并且对于大规模的连续函数全局优化问题能 够得到很好的结果:本文计算了脑啡肽的九个预测模型,说明了各能量 项在结构预测中的作用。 3 l e n n a r d 一 o n e s 簇问题( 简记为l j ) 是物理系统中一个非常简单,合理 的数学模型。该模型的全局极小可以用来理解复杂的分子构象问题,并 且在蛋白质折叠的势能模型中,它都是很重要的一个部分,所以l j 问 题的解决有助于蛋白质结构预测的研究。本文根据l j 函数的特点,在 模拟退火算法中加入了局部极小化的过程,从而提高了计算的速度和成 功率。同时对该算法的收敛性进行了分析,得到了在温度趋于0 时,算 法产生的序列以概率l 收敛到全局极小点的结论。 4 ,蛋白质功能预测也是后基因组时代要解决的一个重要问题,虽然蛋白质 功能预测的研究起步比较晚,但是也取得了一定的成果,本文对于蛋白 质功能研究的现状做了一个简要的综述。 关键词:蛋白质结构预测:蛋白质功能预测;联合残基力场:模拟退火算法 l e n n a r d - j o n e s 簇问题 a b s t r a c 七 t h e p r e d i c t i o no fp r o t e i ns t r u c t u r e sa n df u n c t i o n si sa ni m p o r t a n tt a s ki nt h e e a ro f p o s t g e n o m e c o n c e r n i n gt h ep r o b l e m ,s o m er e s e a r c h e sa t em a d ei nt h i s d i s s e r t a t i o n t h em a i nw o r ko ft h i sp a p e rc a r l b es u m m a r i z e d a sf o l l o w s : 。 1 t h eo b j e c t i v ef u n c t i o ni nt h em o d e lo f p r e d i c t i o no fp r o t e i ns t r u c t u r ei sa p o t e n t i a le n e r g yf u n c t i o n ,e i t h e rp h y s i c s - b a s e dp o t e n t i a l so rs t a t i s t i c b a s e d p o t e n t i a l s t h eu n i t e dr e s i d u ef o r c ef i e l d ,w h i c hi sb r o u g h tf o r w a r db yb a k e r l a b o r a t o r y o fc h e m i s t r y , c o m e l l u n i v e r s i t y , i sa n a l y z e d b a s e d o nt h i s r e s e a r c h ,n i n eo p t i m i z a t i o nm o d e l sa r ec o n s t r u c t e d ,a n dt h e s em o d e l sc o n s i s t o fd i f f e r e n te n e r g yt e r m s ;t h e r e f o r e ,也e yc a l lb e u s e dt oe v a l u a t et h ei m p a c t so f t h et e r m si nt h ep r e d i c t i o no f p r o t e i ns t r u c t u r e 2 c o n s i d e r i n gt h a tt h eo b j e c t i v ef u n c t i o no ft h ep r e d i c t i o nm o d e l si so fm u l t i p l e v a r i a b l e sa n d m u l t i p l em i n i m a ,s i m u l a t e da n n e a l i n ga l g o r i t h mi su s e dt os o l v e t h e p r o b l e m a ni m p r o v e d s i m u l a t e d a n n e a l i n ga l g o r i t h m f o rc o n t i n u o u s o p t i m i z a t i o np r o b l e m i s i m p r o v e d ,t h ep l e n t i f u l n u m e r i c a l e x p e r i m e n t s d e m o n s t r a t et h ec o n v e r g e n c ea n di t sb e t t e rf o rs o l v i n gl a n e s c a l ec o n t i n u o u s g l o b a lo p t i m i z a t i o np r o b l e m s t h e n i n em o d e l so f m e t e n k e p h a l i n a r e c o m p u t e d ,a n dt h ei m p a c t so f t h ed i f f e r e n tt e r m si nt h ep r e d i c t i o no f p r o t e i n s t r u c t u r ea r en a r r a t e d 3 l e r m a r d j o n e sc l u s t e r si sas i m p l ey e tr e a s o n a b l ya c c u r a t em a t h e m a t i c a lm o d e l o far e a l p h y s i c a ls y s t e m t h eg l o b a lm i n i m ao ft h i s m o d e l sc a nh e l pu s u n d e r s t a n dt h e c o m p l i c a t e d m o l e c u l ec o n f o r m a t i o n p r o b l e m ,a n d i t sa n i m p o r t a n tp a r ti nm o d e l so fp r o t e i nf o l d i n g ,t h e nt h es o l v i n g o fl jp r o b l e mi s h e l p f u lf o rt h ep r e d i c t i o no fp r o t e i ns t r u c t u r e c o n s i d e r i n gt h ec h a r a c t e r i s t i co f l - jp r o b l e m ,w ea d dt h el o c a lm i n i m u mt ot h ei m p r o v e ds i m u l a t e da n n e a l i n g a l g o r i t h m t h en e wa l g o r i t h mr e d u c e st h ec o m p u t i n gt i m ea n de n h a n c e st h e r a t eo fs u c c e s s i na d d i t i o n ,i t sc o n v e r g e n c ep r o p e r t i e si sp r o v e d ,a n dw eg e t t h ec o n c l u s i o nt h a tw h e nt 寸0 ,t h ei m p r o v e ds i m u l a t e da n n e a l i n ga l g o r i t h m a s y m p t o t i c a l l yc o n v e r g e st ot h eg l o b a lo p t i m a l s o l u t i o ni np r o b a b i l i t yo n e 4 t h ep r e d i c t i o no fp r o t e i nf u n c t i o n i sa l s ot h ei m p o r t a n tp r o b l e mo f 。8 。o f p o s t - g e n o m e t h o u g h t h er e s e a r c hf o rp r o t e i nf u n c t i o n s t a r t e dl a t e , s o m e p r o g e n i e sh a v eb e e na c q u i r e d t h i sp a p e rg i v e sa b r i e fr e v i e wo nt h em e t h 。d 5 o f p r o t e i nf u n c t i o ns t u d y i n g k e yw o r d s :p r o t e i ns t r u c t u r ep r e d i o t i o n ;p r o t e i n f u n c t i o np r e d i c t i 。n t h eu n i t e d r e s i d u ef o r c e f i e l d ;s i m u i a t e d a n n e a li n ga l g e r i t h i n l e n n a r d j o n e sc lu s t e r o 前言 2 l 世纪自然科学的主导科学将是生命科学,这已经成为现今众多科学家的 共识。生命科学发展中涌现出来的激动人心的新发现、新成就不断地更新着人们 对自然界最复杂的生命现象的认识,同时又深刻地改变着我们的社会生产和社会 生活,乃至影响着人类文明的发展。始于2 0 世纪9 0 年代初的庞大的人类基因组 计划被称为人类科学史上最伟大的计划。2 0 0 1 年上半年人类基因组测序任务已 经完成,生命科学已实质性的跨入了后基因组时代,研究的重点正逐步从积累数 据转移到如何解释这些数据,即如何从海量数据中提取结构和功能信息。蛋白质 结构与功能的研究业已成为后基因组时代的一项重要任务。 2 0 世纪生物学所取得的最重要的突破是“三联遗传密码”即“第一遗传密 码”的破译,从而得到了飞速增长的蛋白质序列。但是蛋白质必须有特定的三维 空间结构才能表现其特定的生物功能。2 0 世纪5 0 年代末a n f i n s e n 提出蛋白质 的氨基酸序列自身包含的信息已足以决定它的折叠结构并进一步指出蛋白质的 天然构象是其能量最低的构象。1 ,从而奠定了蛋白质结构预测的理论基础。但是 由于蛋白质空间结构非常复杂和不规则,蛋自质结构预测非常困难,蛋白质如何 从氨基酸序列折叠形成三维空间结构,即第二遗传密码仍未被解开。该问题已经 引起了世界各地众多领域学者的兴趣,各种预测方法迅速发展,以期最终揭开第 二遗传密码的奥秘。 本文第一章介绍了蛋白质结构和功能预测的背景及其意义;第二章对蛋白质 结构和功能预测的若干基本知识做了简要介绍;第三章简要综述了蛋白质结构预 测的一般流程和主要方法;第四章详细介绍了蛋白质结构预测的联合残基力场, 并根据该模型建立了九个优化模型。第五章主要是针对蛋白质优化模型的求解, 对连续函数的模拟退火算法进行改进并对其收敛性进行分析:第六章简要介绍了 目前蛋白质功能研究的方法。其中第四章和第五章是本论文的主要工作。 蛋白质结构与功能研究方法探讨 1 绪论 1 ,1 蛋白质结构与功能研究的背景 人类基因组计划( h u m a ng e n o m i cp r o j e c t ,h g p ) 是人类自然科学史上 最伟大的创举之一,2 0 0 1 年上半年人类基因组测序任务已经完成。随着人类 基因组计划的实施,通过基因组测序、蛋自质序列测定和结构解析等实验, 分子生物学家提供了大量的有关生物分子的原始数据,生物信息学就是为了 对这些数据进行管理和解释而产生的。生物信息学的研究不仅仅局限于开发、 维护数据库系统和管理数据,更重要的是对现有的数据进行计算和分析,发 现其中的规律和生物学意义,蛋白质结构和功能的预测正是其中核心研究的 一个内容。 1 1 1 人类基因组计划 从人类社会诞生以来,人类就没有停止过对自身的思考。人类在探索、 认识世界的过程中也不断地提高对人类自身的认识。2 0 世纪7 0 年代人类疾病 的“基因论”之说无疑是人类基因组计划的主要思路:不仅疾病与基因有关, 人类的出生、生长、衰老、死亡以及精神、行为等活动都与d n a 序列有关。 正如著名的生物学家,诺贝尔奖获得者雷纳托杜尔贝克( p , e n a t od u l b e c c o ) 在他的一篇文章中写道的“人类的d n a 序列是人类的真谛。这个世界上所发 生的切,都与之息息相关”。所以搞清楚核苷酸顺序无疑将对人类最终完全 解开遗传之谜提供最直接的帮助,人类基因组计划便应运而生。 1 9 8 6 年杜尔贝克在s c i e n c e 杂志上率先提出“人类基因组计划”口j ,提出 了一个前所未有的大胆说法,指出要从整体上来搞清楚人类的整个基因组, 集中力量先认识人类的所有基因。这篇文章后来被称为“人类基因组计划” 的“标书”,而人类基因组计划则与之前的曼哈顿原子弹计划以及阿波罗登月 计划并称人类科学史上的“三计划”,但其意义远远超过了前两者。 1 9 9 0 年,美国国会批准美国的“人类基因组计划”于1 0 月1 日正式启动, 其总体规划是:拟在1 5 年内至少投入3 0 亿美元。进行对人类全基因组的分 析。此计划在1 9 9 3 年做了修订,主要内容包括:人类基因组的基因圈构建与 序列分析;人类基因的鉴定;基因组研究技术的建立。此外,还有人类基因 组研究的社会、法律与伦理问题,交叉学科的技术诩练,技术转让,研究计 蛋白质结构与功能研究方法探讨 划的外延等九方面内容。 这样庞大的工作是任何一个国家难以独自承担的,它是国际级的计划, 需要世界各国的共同努力,继美国之后,英、目、德、法也迅速跟进,先后 加入到此项意义重大的研究中。我国也于1 9 9 9 年7 月在国际人类基因组注册, 并承担了人类基因组1 的测序任务,简称“1 项目”,我国是唯一一个参与人 类基因组计划的发展中国家。 由于各个国家积极地参与,共同地协作,人类基因组计划进展迅速,2 0 0 0 年6 月2 6 日完成了工作草图,2 0 0 1 年上半年人类基因组测序任务基本完成, 2 0 0 3 年4 月1 6 日,美、中、法、英、德六国联合宣布:除了现有技术无法解 决的部分( 约占基因组的0 0 1 ) 外,人类基因组计划测序任务全部完成。从 此人类基因组计划进入了后基因组时代,开始了结构与功能方面的研究。 1 1 2 生物信息学 随着基因组研究的目益深入,生物学数据的积累出现了前所未有的飞跃。 首先,数据增长的速度之快,已经只有计算机芯片计算能力的增长能与之相 匹配i 其次,数据的本质出现了从生理生化数据向遗传信息飞跃以及进一步 向遗传与结构功能相互关系信息的飞跃【4 1 。生物学数据在量( 海量) 与质( 复 杂性) 方面所提出的挑战是严峻的,如何对这些原始数据进行收集、整理以 及如何对数据进行比对、分析,建立计算模型,进行仿真、预测、与验证等 都是摆在科学家面前的一个重大问题,它不仅需要生物学家的努力,也呼唤 着数学、物理、计算机科学、信息科学、管理科学、系统科学等多学科学者 的共同参与,于是一门新兴的交叉学科生物信息学应运而生。 生物信息学( b i o i n f o r m a t i c s ) 是一门新* 的交叉学科。它所研究的材料是 生物学的数据,而它进行研究所采用的方法,则是从各种计算技术衍生出来 的。在历史上,生物信息学也曾被称为“计算生物学”。广义地说,生物信息 学从事对生物信息的获取、加工、储存、分配、分析和释读,并综合运用数 学、计算机科学和生物学工具,以达到理解数据中的生物学含义的目的。具 体地说,生物信息学是把基因组d n a 序列信息分析作为源头找到基因组序 列中代表蛋白质和r n a 基因的编码区,阐明非编码区的信息实质,破译隐藏 在d n a 序列中遗传语文规律;同时,归纳、整理与基因组遗传语文信息释放 2 蛋白质结构与功能研究方法探讨 及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进 化的规律。生物信息学综合基因信息和大规模蛋白质空间结构测定及蛋白质 相互作用检测的数据,进行蛋白质空间结构的模拟和蛋白质功能的预测,进 而将此类信息与生物体和生命过程的生理生化信息相结合,阐明其分子机制, 最终进行分子设计、药物设计和个体化的医疗保健设计。因此,在基因组研 究时代,生物信息学至少应包含三个层次上的重要内容:基因组信息学、蛋 白质的结构计算与模拟以及分子与药物设计。这三者紧密地围绕着遗传信息 传递的中心法则,因而必然有机地连接在一起。 目前归入生物信息学领域的大致有以下几个方面 5 】: ( 1 ) 各种生物数据库的建立和管理: ( 2 ) 数据库接口和检索工具的研制; ( 3 ) 研究新算法、发展方便适用的程序,是生物信息学的目常任务: ( 4 ) 生物信息学最重要的任务,是从海量数据中提取新知识。从已经积 累的数据和知识出发,预测蛋白质的结构和功能,成为常规的研究 任务。 ( 5 ) d n a 芯片和微阵列的发展,把一定组织或生物体内万千基因时空 表达的研究提上日程。只有掌握已有数据,发展崭新算法,才能创 造新的知识。 1 2 蛋白质结构与功能预测的意义 储存在d n a 中的遗传信息,通过自我复制,转录为r n a ,然后翻译为蛋白 质的氨基酸序列,三联密码的破译使人们掌握了这种从d n a 到氨基酸序列的 信息传递关系,即分子生物学中心法则。基因组测序计划产生了大量氨基酸 序列,然而要了解蛋白质在生物体中的作用,仅有这些序列是不够的,还必 须掌握蛋白质的结构和功能“3 。蛋白质的结构和功能是统一的,蛋白质的生物 学功能在很大程度上依赖于其空间结构,蛋白质形成特定的结构才能执行特 定的功能。弄清楚蛋白质的结构对于理解蛋白质的作用机理,理解蛋白质结 构与功能的关系,并在此基础上进行蛋白质复性、突变体设计以及基于结构 的药物设计具有重要意义。 蛋白质结构预测包括蛋白质结构类预测,蛋白质二级结构预测,超二级 蛋白质结构与功能研究方法探讨 结构预测,蛋白质三维空问结构( 构象) 预测等。而由蛋白质序列预测其空 间结构是蛋白质结构预测的最终目标。一般地讲,蛋白质结构预测就是指蛋 自屡空间结构的预测,这是分子生物学的一个基本闯题,即,蛋白质如何从 氨基酸序列折叠形成其特定的天然结构。最近,s c i e n c e 杂志发表文章指出, 蛋白质的折叠并没有一条特定的路线,一条序列可能通过各种不同的途径折 叠,但最终的构象是相周的。那么,蛋白质从氨基酸序列到空间结构的折叠 受到什么机制的支配呢? 这一问题称为蛋白质折叠问题,也称为中心法则的 第二遗传密码”3 。由氨基酸序列决定蛋白质三维空间结构,以及由蛋白质三维 结构决定其特定的生物功能,是完整的遗传信息传递过程中不可缺少的重要 部分。图1 一l 表示了遗传信息从d n a 到蛋白质结构的信息传递过程。蛋白质 结构预测,尤其是基于热力学定律的蛋白质结构预测能够帮助我们认识蛋白 质折叠机理,揭示折叠密码。 d w a j 堡d n 直= :垦r n a 旦笃氨基酸序列兰兰与蛋白质争生命活动d w a 争d n 直= = = 量争氪基醍序,u 蛋日腻生命寤动 反蚺录i 受 j 彻 磁强 图1 1 遗传信息的传递 f i g 1 - lt h e t r a n s f e ro fg e n i ei n f o r m a t i o n 实验方法测定蛋白质结构的速度远远落后于蛋白质测序的速度,利用计 算机技术预测蛋白质结构势在必行。x 射线衍射分析法和多维核磁共振技术是 测定蛋白质空间结构的两种主要实验方法。x 射线衍射分析方法能得到高分辨 率的蛋白质晶体结构,但不能测定溶液中蛋白质分子的三维结构。另外,该 方法对蛋自质晶体制各要求苛刻,所以带来成本高、周期长的缺点。多维核 磁共振技术能够测定溶液中蛋白质分子结构,但是对样品的需求量大样本 蛋白质分子的大小也受到一定限制“”。尽管实验技术不断改进,但实验测定 的蛋白质结构和已知序列之间的差距仍在不断增大( 参冤表1 一i ) ,所有蛋自 质的空间结构都通过实验测定是不现实的,发展一种可靠的理论预测方法非 常重要。 2 0 世纪的年代a n f i n s e n 提出假说,认为蛋自质特定的三维空间结构是 由其氨基酸排列顺序所决定的“”,并因此获得诺贝尔奖。这一论断现在已被 广泛接受,大量实验充分说明氨基酸顺序与蛋白质空间结构之间确实存在着 一定的关系。尽管近些年对蛋白质折叠过程的研究发现有分子伴侣参与 4 一一 兰旦堡堕塑皇塑矍堕塞查些塑! 堇 折叠过程,但是多数科学家仍然认为。分子伴侣对蛋白质三维空间结构的 形成只起到辅助作用,这并不影响一级结构决定三级结构的理论基础,。 表1 _ 1 实验方法测定蛋白质序列与结构的数量对比 t a b - 1 - 1c o m p a r i s o no fn u m b e ro f p r o t e i ns e q u e n c ea n d s t r u c t u r ef r o m e x p e r i m e n t 1 9 9 4 年1 9 9 7 年2 0 0 4 年2 月 从理论上进行蛋白质结构与功能的预测已经有几十年的历史,尽管经过 科学家们的努力取得了显著的成果,但是由于蛋白质系统的复杂性,以及人 们对蛋白质折叠机理尚不清楚,至今也没有一种完善的预测方法。然而,由 于计算技术的发展,以及各领域学者的共同参与,最近在蛋白质结构与功能 预测方面都取得了可喜的进展,我们有理由相信这难题终究被攻克。到那 时人们将清楚各种生命现象的根源、各种疾病的发生机制,从而预测、控制 它们,为人类创造更美好的生活。 1 3 本文的主要工作 直接从蛋白质序列预测其空间结构,在理论上是一种理想的方法,其理 论依据是1 9 7 3 年a n f i n s e n 提出的蛋白质天然构象对应其自由能量最低时的 结构这一热力学假设。然而这种方法主要有两方面的困难:首先,难以找到 一个能正确区分蛋白质天然结构与非天然结构的势能函数,从而使其全局极 小点对应蛋白质天然结构;其次,由于蛋白质分子量高且具有强柔性,所以 在蛋白质的势能面上存在着极多的局部极小点,缺少一种有效的全局优化算 法也制约着蛋白质结构预测的发展。围绕该问题,本文做了如下工作: ( i ) 蛋白质结构预测模型的目标函数通常采用基于物理理论的经验势函 数或基于统计理论的平均势能函数。本文分析了c o r n e l l 大学b a k e r 化学实 验室给出的联合残基力场,建立了九个预测模型,它们分别包含不同的能量 项,以便分析各能量项对于蛋白质结构预测结果的影响。 ( 2 ) 针对蛋白质结构预测模型中目标函数多变量、多极值的特点,采用 模拟退火算法对蛋白质进行结构预测,并对算法进行了改进,数值试验表明 该算法具有较好的收敛性,并且对于大规模的连续函数全局优化问题能够得 到很好的结果;本文计算了脑啡肽的九个预测模型,说明了各能量项在结构 预测中的作用。 5 蛋白质结构与功能研究方法探讨 ( 3 ) l e n n a r d j o n e s 簇问题( 简记为l j ) 是物理系统中一个非常简单, 合理的数学模型。该模型的全局极小可以用来理解复杂的分子构象问题,并 且在蛋白质折叠的势能模型中,它都是很重要的一个部分,所以l j 问题的 解决有助于蛋白质结构预测的研究。本文根据l j 函数的特点,在模拟退火 算法中加入了局部极小化的过程,从而提高了计算的速度和成功率。同时对 该算法的收敛性进行了分析,得到了在温度趋于0 时,算法产生的序列以概 率1 收敛到全局极小点的结论。 ( 4 ) 蛋白质功能预测也是后基因组时代要解决的一个重要问题,虽然蛋白 质功能预测的研究起步比较晚,但是也取得了一定的成果,本文对于蛋白质 功能研究的现状做了一个简要的综述。 6 蛋白质结构与功能研究方法探讨 2 蛋白质结构与功能预测的若干基本知识 蛋白质是一类重要的生物大分子,在体内占有特殊的地位,是生命活动 的主要承担者,是生命现象的主要物质基础。许多蛋白质已经获得纯品,根 据蛋白质元素分析表明,蛋白质主要含有碳、氢、氧、氮,此外还含有少量 的硫。有些蛋白质还含有其他的一些元素,主要是磷、铜、铁、碘、锌等。 就其化学结构来说,有些蛋白质完全由氨基酸残基构成的多欣链组成,称为 简单蛋白质;有些蛋白质除了肽链部分外,还有非肽链成分,这种成分称为 辅基或配基,这类蛋白质称为结合蛋白质。蛋白质的相对分子量变化范围很 大,大约5 0 0 0 1 0 0 0 0 0 0 或更大一些。在迸行蛋白质结构与功能研究之前, 先要了解蛋白质结构与功能预测的若干基本知识。 2 1 蛋白质的生物学功能 生物界中蛋白质的种类估计在1 0 ”1 0 ”数量级。其主要的生物学功能可 以分为以下几类“2 “: ( 1 ) 催化功能蛋白质在生物体内最主要的生物学功能是作为体内各种 生化反应的催化剂一一酶( e l l z y l l l e ) 。众所周知新陈代谢的所有化学变化几乎 都是在生物催化剂催化下进行的。生物催化剂是生物体内产生的具有催化功 能的生物大分子,包括两种物质:一类是蛋白质,称为酶:另一类是核酸。 目前已知除了极少数反应是在核酸催化下进行的,体内所有的化学反应几乎 都是在酶催化下进行的。酶的催化效率极高,某些在体外需要千万年才能完 成的反应,在体内酶的催化下仅需几秒钟即可完成e ( 2 ) 运输功能某些蛋白质具有运输功能。比如脊椎动物红细胞中的血 红蛋白和无脊椎动物细胞中的血蓝蛋白在呼吸过程中起着运输氧的作用:生 物氧化过程中某些色素蛋白如细胞色素c 等起电子传递体的作用;血液中的 脂蛋白随着血流输送脂质从肝到其他的器官:各种通道蛋白结合葡萄糖分子、 氨基酸分子或其他物质并转运它们跨膜。 ( 3 ) 营养和贮存功能有一类蛋自质具有贮存氨基酸的作用,用作有机 体及其胚胎或幼体生长发育的原料,如麦、谷和稻的种子蛋白、蛋清中的卵 清蛋白、乳中的酪蛋白等;此外在一些细菌、植物及动物组织中发现的铁蛋 白可以贮存铁离子。 7 蛋白质结构与功能研究方法探讨 ( 4 ) 收缩和运动功能有些蛋白质赋予细胞和生物体收缩、变形或运动 的能力。如动物的肌肉主要成分就是蛋白质,肌肉收缩和舒张是由肌动蛋白 和肌球蛋白的相对运动来实现的。体细胞的有丝分裂、鞭毛推动精子细胞的 运动,都是由蛋白质组成的收缩集合体实现的。 ( 5 ) 结构功能蛋白质是一切生物体的细胞和组织的主要组成部分,也 是生物体形态结构的物质基础;体表和机体构架部分还具有保护、支持功能。 ( 5 ) 免疫功能许多蛋白质具有保护生物体抵御外来侵袭的功能。生物 机体产生的用以防御致病微生物或病毒的抗体,就是一种高度专一的免疫蛋 白,它能识别外源性生命物质,并与之结合,起到防御作用,使生物体免受 伤害。蛋白质可能是能够区分自身和非自身的唯一生物分子。 ( 7 ) 调控功能有些蛋白质具有调控功能,可以调节或控制细胞生长、 分化以及遗传信息的表达,这类蛋白中有一些是激素,如胰岛素就是蛋白质 激素的一种。 ( 8 ) 其他功能有许多其他的蛋白不易归类。如应乐果甜蛋白,它是一 种非洲植物蛋白,有很强的甜味,它作为一种低脂、无毒的人类甜食品而受 到重视。有些南极的鱼的血液中含有抗冻蛋白,它可以防止鱼的血液冻凝。 蛋白质的功能是非常复杂的:同一种蛋白质,其功能又呈现出复杂性, 如糖蛋白的细胞识别功能涉及糖蛋白及其相应受体、糖基转移酶及其底物、 或糖苷水解酶及其底物所参与的一系列生化过程,又如酶催化功能受许多因 素的影响,并表现出竞争性、可调节性等。有的酶具有几种不同的催化功能, 以适应多变的内外环境。 2 2 蛋白质的结构层次 天然蛋白质都具有独特而稳定的构象。早在2 0 世纪3 0 年代,人们已经 开始研究蛋白质的空间结构,1 9 5 9 年,l i n d e r s t r o n 及其同事最先认识到蛋 白质具有不同的结构层次,并引入一级、二级和三级结构来描述这一现象。 构象是指分子内各原子或基团之间的立体关系,构象的改变是由于单键的旋 转而产生的,不需有共价键的变化,但涉及到氢键等次级键的改变。1 9 6 9 年 国际纯粹化学和应用化学联合会曾规定,在描述蛋白质等生物大分子的空间 结构时应使用“构象”一词。按照这种划分,二级结构以上的结构都属于构 蛋白质结构与功能研究方法探讨 r c 螂一e 0 0 i 静缸 弋 h n e c c h i h 图2 1 一般氢基酸的化学结辛旬图2 - 2 精氨酸的化学结构 f i g 2 - 1t h ec h e m i s t r y s t r u c t u r eo f f i g 2 2t h ec h e m i s t r y s t r u c t u r eo f g e n e r a la m i n oa c i dp r o l i n e 象的范畴。随着人们对蛋白质分子结构知识的积累,构象的层次又增添了新 的内容,如蛋白质的四级结构,在二级结构和三级结 句之间又增添了超二级 结构和结构域“。尽管蛋白质结构十分复杂,蛋白质清晰的结构层次使得了 解蛋白质折叠的规律以及蛋白质结构与功能的研究成为可能。 自然界中所有蛋白质的基本结构单位是2 0 种基本的a 氨基酸。除了脯 氨酸外,其它1 9 种氨基酸都具有图2 1 所示的结构。不同的氨基酸只是侧 链r 不同,它对蛋白质的空间结构和理化性质等有重要影响,比如脯氨酸, 其侧链连着n 和c 。原子,形成5 员环,为亚氨基酸( 囝2 2 ) ,由于其侧 链结构的特殊性,它往往导致a 螺旋的终止。 图2 3 肽键的形成 f i g 2 - 3t h eb u i l d i n go f p e p f i d eb o n d 一个氨基酸的羧基和另一个氨基酸的氮基缩合脱水形成肽键( 图2 3 ) 。 一定数目的氨基酸以肽键的形式连接而形成一条多肽链,多肽链中的氨基酸 由于脱水缩含而稍有残缺,称为残基。蛋白质的一级结构( p r i m a r y s t r u c t u r e ) 一般就是指氢基酸残基以肽键相互连接的线性序列,是一个没有空间概念的 一维结构。半胱氨酸残基之间共价二硫键的位置也包括在一级结构中。一级 结构是蛋白质结构层次体系的基础,氨基酸序列在空间折叠为定的三维空 闯结构,包括二级结构、三级结构和四级结构,统称为蛋白质的高级结构。 9 瞳l 扩硼 薹 等臻少x 高 薹 0粤l 毪 ,嗡 蛋白质结构与功能研究方法探讨 一级结构决定高级结构是蛋白质结构预测的理论基础。 蛋白质二级结构( s e c o n d a r ys t r u c t u r e ) 研究在一级结构中互相接近的氨 基酸残基的空间关系,即多肽链主链的局部构象,与侧链r 及多肽链其它部 分的构象无关,指的是多肽链借助于氢键沿一维方向排列成的有规律的周期 性结构,其中一些非常稳定,而且在蛋白质中广泛存在。它主要是指n 一螺 旋、b 一折叠、b 一转角等,也包括无规律的卷曲结构。 在球状蛋白质分子中,经常可以看到相邻的二级结构单元组合在一起, 彼此相互作用,排列形成规则的、在空间结构上能够辨认的二级结构聚集体, 并以一个整体参与三维折叠,充当三级结构的构件,这种由二级结构组合成 的结构层次称为超二级结构( s u p e r - s e c o n d a r ys t r u c t u r e ) 或者模体( m o t i f ) 。 超二级结构是介于二级结构和结构域之间的结构层次。图2 4 表示几种形式 的超二级结构。 矿驷 圆圆 图2 4 常见的几种超:级结构形式 f i g 2 4t h e f a m i l i a rf o r m so f s u p e r - s e c o n d a r y s t r u c t u r e s a 一l o o p - ;b b a b ;c b i o o p 一口:d r o a s m a n n 折叠; e f g 回形拓扑结构,又称“希腊图懈”拓扑结构( g r e e kk e yt o p o l o g y ) 结构域( d o m a i n ) 介于超二级结构与三级结构之间,是由二级结构单元 或超二级结构折叠成的局部区域,它们往往有特定的空间组织方式,很多结 构域具有不完全的生物功能。结构域是蛋白质三级结构的基本结构单位,一 个蛋白质可以只包含一个结构域也可以由几个结构域组成,故结构域是能够 蛋白质结构与功能研究方法探讨 独立折叠为稳定的三级结构的多肽链的一部分或全部。结构域也是功能单位, 通常多结构域蛋自质中不同的结构域是与不同的功缝相关联的“”。 二级结构、超二级结构及其与之相关联的各种环肽链在空间中进一步折 叠形成蛋白质的三级结构( t e r t i a r ys t r u c t u r e ) 。蛋白质三级结构包括组成 蛋白质的所有原子在空间的位置,也称蛋自质的三维结构、空间结构或构象。 如果一个蛋白质仅包含一条多肽链,这个蛋白质就只有三级结构。某些更复 杂的蛋白质包含两条或多条多肽链,每一条单链形成特定的三级结构,称为 亚基,亚基通过非共价键形成蛋白质的四级结构( q u a t e r n a r ys t r u c t u r e ) 。 图2 5 以树状表示了蛋白质的结构层次。 蛋白质 结构域 趣二级结构 二级结构 氯基酸序列 俄 图2 - - 5 蛋白质结构层次 f i g 2 5t h e s t r u c t u r e l e v e l so fp r o t e i n s 2 3 维持蛋白质构象的化学键 蛋白质天然构象是几种稳定因素共同作用的结果,这些因素包括氢键、 疏水键、范德华力、离子键、配位键、二硫键。依靠这些作用力,蛋白质可 以形成稳定的结构。 ( 1 ) 氢键:当氢原子与一个电负性较大而半径较小的原子,如n 、0 、f 形 成共价键时,氢原子带有正电性,可以和另一个电负性较强的原予形成氢键; 氢键的键能较小,一般在3 7 k c a l m o l :但出于蛋白质分子中可形成多个氢键, 故其对稳定蛋白质的构象起重要的作用。 ( 2 ) 疏水键:疏水键又称为疏水相互作用,是指疏水性基团为减少与水 的接触面积而彼此聚集的一种相对作用力。疏水键对稳定蛋白质构象非常重 要,蛋白质内部主要聚集了疏水性氨基酸残基。疏水性残纂总是倾向于埋藏 蛋白质结构与功能研究方法探讨 在蛋t t 质分子内部以最大限度地减少与水分子的接触。疏水相互作用大约为 一3 k j m o l 。 ( 3 ) 范德华力:范德华力是原子、中性分子或基团之间的短程作用力, 在一定距离内,分子或原子由于范德华力而相互吸引;小于一定距离,范德 华力成为斥力。现已测定的蛋白质结构显示出蛋白质分子内的基团都是紧密 堆积的,表明蛋白质分子内部存在范德华力。 ( 4 ) 离子键:又称静电作用力,它是由带相反电荷的两个基团间的静电 吸引而形成的。静电相互作用严格服从库仑定律,其作用强度与电量的乘积 成正比,与电荷间距离的平方成反比。由于介电常数的不同,蛋白质表面残 基间离子对形成的离子键能较低,大约在o 5 1 5 k j m o l 之间,埋藏在内部的 残基间离子键键能可高达1 5 k j m o l 。 ( 5 ) 配位键:它是两个原子之间,由其中的一个原子提供电子而形成的 一种特殊的共价键。许多蛋白质分子中含有金属离子,金属离子与蛋白质的 连接一般通过配位键。 ( 6 ) 二硫键:二硫键是一种共价键,多数蛋白质具有二硫键。肽链适当 位置上的两个半胱氨酸之间可形成二硫键,它把不同肽链或同一条肽链的不 同部分连在一起,对蛋白质构象的稳定起重要的作用。 2 4 蛋白质序列与结构数据库 近年来蛋白质序列和结构的数量迅速增加,这使得蛋白质结构和功能的 研究成为必要和可能。数据库技术是蛋白质结构研究不可缺少的重要工具, 蛋白质数据库包括序列数据库、结构数据库、蛋白质结构分类数据库、结构 域数据库等,除了包含结构信息,还包含了一些分析工具,如序列搜索工具 f a s t a ,b l a s t 等。蛋白质分析专家系统e x p a s y ( h t t p :w w w e x p a s y o h ) 是第 一个分子生物学w w w 服务站,1 9 9 3 年建立于日内瓦大学,通过它可以连接各 类蛋白质数据库。表2 - 1 列出了常用的蛋白质数据库。国内的服务站主要有北 京大学生物信息中心( h t t p :w w w c b i p k u e d u c n ) ,目前该中心提供6 0 多 个数据库查询【l “。 p d b ( p r o t e i nd a t ab a n k ) 是最权威的蛋白质结构数据库,1 9 7 1 年建立于 美国b r o o k h a v e n 国家实验室,从1 9 9 8 年1 0 月1 日起转交给r c s b ( r e s e a r c h c o l l a b o r a t o r yf o rs t r u c t u r a lb i o i n f o r m a t i c s ) 。它搜集x 射线衍射和核磁共振实验 蛋白质结构与功能研究方法探讨 表2 1主要的蛋白质序列和结构数据库 t a b 2 1t h em a i nd a t a b a s e so f p r o t e i ns e q u e n c ea n ds t r u c t u r e 测定的大分子三维结构数据,建立数据库的时候只有7 个结构,截至2 0 0 4 年 2 月1 7 日,p d b 数据库有2 4 3 5 8 个条目。s c o p ( s t r u c t u r ec l a s s i f i c a t i o n o f p r o t e i n s ) 是一个蛋白质结构分类数据库,它以结构域为基本单元,对p d b 中所有己知结构按照进化关系分为结构类、折叠类、超家族、家族、蛋白质 和物种。按照结构类蛋白质结构域分为1 1 类,主要是全a 类、全b 类、a b 类和q + b 类。c a t h 从四个层次对蛋白质进行分类:类别( c l a s s ) ,构架 ( a r c h i t e c t u r e ) ,拓扑( t o p o l o g y ) 和同源超家族( h o m o l o g o u ss u p e r f a m i l y ) 。 s w i s s p r o t 是由瑞士生物信息学研究所( s i b ) 和欧洲生物信息学研究所( e b i ) 共同维护的蛋白质序列数据库,建于1 9 8 6 年,该库冗余度比较低,只有实际 存在的蛋白质才被收入,每一条数据都有详细注释,包括功能、结构域、翻 译后修饰,以及齐全的引文和到其它数据库的链接。p i r ( p r o t e i ni n f o r m a t i o n r e s o u r c e ) ,包括蛋白质序列数据库( p i r - p s d ) 、蛋白质分类数据库( i p r o c l a s s ) 和非冗余蛋白质序列数据库( p i r n r e f ) 三个部分。 蛋白质结构与功能研究方法探讨 3 蛋白质结构预测 x 射线晶体衍射方法和多维核磁共振技术是目前测定蛋白质结构的主要 方法,但实验方法耗资耗时,且受实验条件的限制,因此利用数学和计算机 技术预测蛋白质结构具有十分重要的意义。蛋白质一级结构决定其空间结构 是蛋白质结构预测的基础。目前,从理论上预测蛋白质结构的方法通常有基 于知识的预测( 同源模建,折叠识别) 和从头预测。基于知识的预测依赖于 人们对于蛋白质结构规律的认识,其基础是对于己知的蛋白质结构进行分析, 总结结构规律,因而,用这种方法无法产生全新结构。从头预测不需要己知 结构信息,直接从蛋白质序列预测其空间结构,在理论上是一种理想的方法。 3 1 蛋白质结构预测的一般流程 序列比对 在数据库中搜索同源蛋白质序列 如果可以找到,则建立多重序列比对关系 寻找已知的功能模体 1 d r 二级结构预测 利用各种现有的方法结合多重序列比对信息进行预测 确认是否为跨膜结构 d 三级结构预测 如果能够找到序列同源的实验测定结构,则可以利用比较预测的 方法 如果没有明显的同源性,可以利用折叠模式识别的方法来寻找远 源的同源性或类似的折叠模式 如果找不到同源或类似
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- TCECS 1278-2023 海绵城市设施施工和验收标准
- GB 50193-93 二氧化碳灭火系统设计规范及条文说明
- 环境影响评价师考试题及答案
- 红狮集团校招面试题及答案
- 公务员面试考题转换词语面试题及答案
- 国家融资担保基金招聘真题及答案
- 国家农业信贷担保联盟招聘真题及答案
- 国家电投秋招试题及答案
- 2026年黔南民族幼儿师范高等专科学校单招职业适应性考试必刷测试卷完美版
- 2026年衡阳科技职业学院单招综合素质考试题库汇编
- 食物的来源及获取方式
- “红旗杯”竞赛总题库-3班组长创新和数字化管理能力考试题库(附答案)
- 工程力学-何培玲(中文电子课件)全套教案课件
- 彩钢棚搭建合同协议书
- 高中生物教学中反思性学习的深度探究与实践应用
- 【KAWO科握】2025年中国社交媒体平台指南报告
- 职业人群心理健康促进指南 2025
- 人教版初中化学九年级上册第六单元《碳和碳的氧化物》课题1《金刚石、石墨和C60》第二课时《单质碳的化学性质》教学设计
- 【西安交通大学】2025年电力人工智能多模态大模型创新技术及应用报告
- 旅游业消费者行为分析数据表
- 工贸行业企业安全风险分级管控清单
评论
0/150
提交评论