(运筹学与控制论专业论文)信息度量的蛋白质序列、结构、质谱数据研究.pdf_第1页
(运筹学与控制论专业论文)信息度量的蛋白质序列、结构、质谱数据研究.pdf_第2页
(运筹学与控制论专业论文)信息度量的蛋白质序列、结构、质谱数据研究.pdf_第3页
(运筹学与控制论专业论文)信息度量的蛋白质序列、结构、质谱数据研究.pdf_第4页
(运筹学与控制论专业论文)信息度量的蛋白质序列、结构、质谱数据研究.pdf_第5页
已阅读5页,还剩91页未读 继续免费阅读

(运筹学与控制论专业论文)信息度量的蛋白质序列、结构、质谱数据研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 蛋白质是生命机体的基本组成成分,是连结分子运作和生物功能的主要组成部分, 因此对蛋白质的研究有助于理解分子机理,更加清晰的了解生命活动的规则目前,运 用数学、信息学、计算机科学等学科的工具对蛋白质进行研究的生物信息学一一蛋白质 组学已经成为异常活跃的研究领域之一 本文以信息论方法和优化方法为工具,以蛋白质序列、蛋白质结构、人体组织的蛋 白质组为研究对象,以提取蛋白质序列、蛋白质结构、蛋白质组的可区分表达的特征信 息为目的,主要针对蛋白质序列比较及其应用、蛋白质结构比较和质谱数据分类这三个 方面进行了研究本文的主要研究成果如下; 在第二章,首先针对蛋白质多序列比对问题,建立了多序列比对的整数规划模型, 证明了该模型最优解的存在性,并且构造了优化算法用于求解该模型;根据氨基酸的亲 疏水性质,构造出蛋白质磷酸化位点周围的亲水残基序列间隔分布来模拟磷酸化位点周 围的物理化学环境,同时设计了预测磷酸化位点的算法;再者针对外膜蛋白和其他膜蛋 白及球蛋白的区分问题,利用蛋白质的子序列分布和f d o d 函数进行了研究,此方法在 一些公用数据集上的分类精度高于已有的一些算法 在第三章,主要研究了蛋白质结构比较问题首先基于完全信息集的概念,提出了 一种蛋白质结构描述方法一一中心碳原子距离序列的子序列分布表示,并基于这种表示 方法和f d o d 函数,给出了一种蛋白质结构的偏差度量,并设计了一种蛋白质结构比较 方法,应用该方法对一些公用数据集进行了聚类分析,取得了较好的聚类结果,表明了 该方法的有效性其次,用间隔为3 的中心碳原子的距离分布来近似刻画蛋白质结构的 局部几何,用中长程作用的线 生序列分布来刻画蛋白质结构的整体拓扑,给出了一种蛋 白质折叠的几何拓扑混合表示,并基于这种表示和f d o d 函数,给出了一个蛋白质结 构的偏差度量,设计了一种新的蛋白质结构比较方法和分类方法应用这种方法对一些 公用数据集进行了聚类分析和分类试验,取得了较好的聚类结果和分类结果,表明了该 方法的有效性;最后,在功能预测实验平台上,基于蛋白质结构的接触向量表示,系统 比较了f d o d 函数、交叉熵和欧式距离三种度量,试验结果表明:f d o d 函数更适合于 度量接触向量表示之间的偏差 在第四章,以人体组织的蛋白质组为研究对象,应用基于f d o d 方法的分类器对癌 症病人和良性携带者的蛋白质质谱数据进行了分类,分类精度令人满意;以分类精度高 且使用的特征少为目标,建立了质谱数据特征选择问题的多目标规划模型,将该多目标 规划模型转化为了一个单目标规划模型,并简单分析了该模型最优解的存在性 关键词:生物信息学、信息偏差度量( f d o d ) 、优化模型、优化算法、蛋白质结构比较 r e s e a r c ho np r o t e i ns e q u e n c e ,s t r u c t u r ea n dm a s ss p e c t r o m e t r y d a t ab a s e do nm e a s u r eo fi n f o r m a t i o nd i s c r e p a n c y a b s t r a c t t h ep r o t e i ni sam a i nc o m p o n e n to ft h el i f eo r g a n i s ma n di sm s ot h em a i nc o m p o n e n tt h a t l i n k i n gt h em o l e c u l eo p e r a t i o na n dt h eb i o l o g i c a lf u n c t i o n t h es t u d yo i lp r o t e i nf a c i l i t a t e s1 e r - d e r s t a n d i n gt h e m o l e c u l em e c h a n i s ma n dr u l eo ft h el i f ea c t i v i t yf u r t h e r a tp r e s e n t ,p r o t e o m i c s t h a ts t u d yp r o t e i nb a s e do nm a t h e m a t i c s i n f o r m a t i c sa n dc o m p u t e rt e c h n o l o g yh a sb e c o m eo n e o fu n u s u a l l ya c t i v er e s e a r c hf i e l d s ht h i st h e s i s ,s e v e r a lp r o b l e m sr e l a t e dw i t ht h ep r o t e i ns e q u e n c e ,s t r u c t u r ea n dp r o t e o m e i nc e l lo rt i s s u ea r ei n v e s t i g a t e db ym e t h o d si ni n f o r m a t i c sa n dm a t h e m a t i c s t h em a i nw o r ki n - d u d er e s e a r c ho i lp r e t e i ns e q u e n c ec o m p a r i s o na n di t sa p p l i c a t i o n ,p r o t e i ns t r u c t u r ec o m p a r i s o n a n di n a s 8s p e c t r o m e t r yd a t ac l a s s i f i c a t i o n 0 u ra c h i v e m e n t sa r es u m m a r i z e da 8f o l l o w i n g : i nc h a p e r2 ,w ef i r s t l yf o r m u l a t et h ep r o t e i nm u l t i p l es e q u e n c ea l i g n m e n tp r o b l e ma sa i n t e g e rp r o g r a m m i n gm o d e l ,t h ee x i s t e n c eo fo p t i m a ls o l u t i o ni sa l s op r o v e di nb r i e f w ea l s o c o n s t r u c tao p t i m i z a t i o na l g o r i t h mt os o l v et h ei n t e g e rp r o g r a m m i n gm o d e l s e c o n d l y , w e p r e s e n ta n o v e lc o m p u t a t i o n a lp h e s p h e r y l a t i o ns i t e sp r e d i c t i o nm e t h o db a s e do nt h et o p o l o g i c a l d i s t r i b u t i o no fh y d r o p h i i i ca m i n oa c i d ss u r r o u n d i n gp o t e n t i a lp h c s p h o r y l a t i o ns i t e s ,i nw h i c h t h et o p o l o g i c a ld i s t r i b u t i o ni su s e dt oc h a r a c t e r i z et h ep h y s i c a l - c h e m i c a le n v i r o n m e n to fe x p e l - i m e n t a lv e r i f i e dp h o s p h o r y l a t i o ns i t e f i n a l l y , am e a s u r eb a s e do i li n f o r m a t i o nd i s c r e p a n c yi s a p p l i e dt ot h ed i s c r i m i n a t i o no fo u t e rm e m b r a n ep r o t e i n d 堪e r e n tf r o mt h ep r e v i o u sa m j 2 1 0 a c i dc o m p o s i t i o nb a s e dm e t h o d s ,t h ea p p r o a c hf o c u s e so i lt h ec o m p a r i s o n so f s u b s e q u e n c ed i s t r i - b u t i o u s w h i c ht a k e si n t oa c c o u n tt h ee f f e c to fr e s i d u eo r d e ri np r o t e i np r i m a r ys t r u c t u r e n l e a p p r o a c ho u t p e r f o r m s a l lp r e v i o u sm e t h o d so nt h es a m e b e n c h m a r kd a t as e t h c h a p t e r3 t h ew o r kf o c u so i lp r o t e i ns t r u c t u r ec o m p a r i s o np r o b l e m f i s t l y , an o v e l r e p r e s e n t a t i o no fp r o t e i ns t r u c t u r e ( s u b s e q u e n c ed i s t r i b u t i o no fc 台一c k d i s t a i l o ,s s d ) i sf o r - m u l a t e da tf i r s t t h e na nf d o ds c o r es c h e m ei sd e v e l o p e dt om e a s u r et h ed i s c r e p a n c yb e t w e e n t w or e p r e s e n t a t i o n s n u m e r i c a le x p e r i m e n t so ft h en e wm e t h o da r ec o n d u c t e di nf o u rd i f f e r e n t p r o t e i nd a t a s e t sa n dc l u s t e r i n ga n a l y s e sf i r eg i v e i lt dv e r i f yt h ee f f e c t i v e n e s so ft h i sn e wp r o t e i n s t r u c t u r ed i s c r e p a n c ym 饯l s u r e s e c o n d l y , an o v e lh y b r i dr e p r e s e n t a t i o no fp r o t e i ns t r u c t u r e i sp r o p o s e db yu t i l i z i n gt w os o u r c e 8o fi n f o r m a t i o n o n ei st h ed i s t r i b u t i o no fc 口一c q 晦 t a n c e sw i t h8 e q u m l c es e p a r a t i o nt h r e e ,w h i c hd e s c r i b e st h el o c a lg e o m e t r yp r o p e r t ya n di su s e d t oi d e n t i f yc o n t e n t so fr e g u l a rs e c o n d a r ys t r u c t u r e s ;t h ee t h e ri st h el i n e a rs e q u e n c ed i s t a n c e d i s t r i b u t i o no fm e d i u ma n dl o n gr a n g ei n t e r a c t i o n s ,w h i c hr e p r e s e n t sp a c k i n ga r r a n g e m e n ta n d i 信息度量的蛋白质序列、结构、质谱数据研究 t o p o l o g i c a lc o n n e c t i o n sb e t w e e ns e c o n d a r ys t r u c t u r e s f u r t h e r m o r e ,w ei n t r o d u c ea n e wp r o t e i n s t a t u r ec o m p a r i s o nm e t h o db a s e do ni n f o r m a t i o nt h e o r y c l u s t e ra n a l y s i sa n ds t r u 心ec l a s - s i f i c a t i o ne x p e r i m e n t so ns e v e r a ld a t as e t sd e m o n s t r a t ei t se f f e c t i v e n e s so nm e a s u r i n gp r o t e i n f o l ds i m i h x i 留of i n a l l y , b a s e do nc o n t a c tv e c t o rr e p r e s e n t a t i o n ,w ec o m p a r e df d o df u n c t i o n , c r o s se n t r o p ya n de u c l i dm e t r i cb yf u n c t i o n a lp r e d i c t i o ne x p e r i m e n t ,t h ee x p e r i m e n tr e s u l t s s h o wt h a tf d o df u n c t i o na r em o r es u i t a b l ef o rm e a s u r i n gt h ed i s c r e p a n c yb e t w e e nc o n t a c t v e c t o rr e p r e s e n t a t i o n s i nc h a p t e r4 ac l a s s i f i e rb a s e do nf d o di su s e d 协d i s c r i m i n a t em a s ss p e c t r o m e t r yd a t ao f c a n c e rp a t i e n tf r o mt h a to fn o r m a lp e r s o n t h ep e r f o r m a n c ei ss a t i s f y i n g b e c a u e s eo ft h eh i g h d i m e n t i o n a l i t y o f m a s ss p e c t r o m e t r y d a t a a n d t h e n e e d f o r f i n d i n g b i o m a k e r ,i t i s n e c e s s a r y f o r u s t os t u d yt h ep r o b l e mo ff e a t u r es e l e c t i o nf r o m m 鹄ss p e c t r o m e t r yd a t a t h ep r o b l e mi sm o d e l e d a s & m u l t i - o b j e c t i v ep r o g r a m m i n g ,t h e ni ti st r a a f f o r m e di n t oas i n g l eo b j e c t i v ep r o g r a m m i n g m o d e lb y m e t h o d f i n a l l y , t h ee j s t e n c eo ft h i sm o d e l bo p t i m a ls o l u t i o ni sa u a l y s i s e db r i e f l y k e y w o r d s :b i o i n f o r m a t i c s ;f u n c t i o no fd e g r e eo fd i s a g r e e m e n t ( f d o d ) ;o p t i m i z a - t i o nm o d e l ;o p t i m i z a t i o na l g o r i t h m ;p r o t e i ns t r u c t u r ec o m p a r i s o n 独创性说明 作者郑重声明:本博士学位论文是我个人在导师指导下进行的研究工作 及取得研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学 或者其他单位的学位或证书所使用过的材料与我一同工作的同志对本研究 所做的贡献均已在论文中做了明确的说明并表示了谢意 作者签名 大连理工大学博士学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解。大连理工大学硕士博士学位论文版权使用 规定一,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版。允许论文被查阅和借阅本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文 作者签名t 导师签名t 薹鱼堑金 ? 礁丑年 目日 第一章绪论 摘要:本章介绍了生物信息学的基本概念、研究内容和研究方法,概述了蛋白质的 序列、结构、功能及其相互关系,就当前蛋白质研究的几个热点问题一一蛋白质序列相 似性比较、蛋白质结构比较、功能位点预测以及质谱数据分析的研究状况进行了综述, 并简单介绍了信息论方法在生物信息学中的应用现状最后列出了本文的主要工作 1 1 生物信息学概述 生命的本质是人类有史以来一直在探索的基本问题之一为了在分子水平上认识人 类自身,2 0 世纪8 0 年代美国提出了开展人类基因组研究的计划人类基因组计划旨在 通过测定人类基因组d n a 约3 0 亿个碱基对的序列,搜寻所有人类基因并确定它们在染 色体上的位置,明确所有基因的结构和功能,解读人类的全部遗传信息 随着人类基因组计划的实施,核酸和蛋白质数据量迅速增加,目前核酸序列总数已 超过5 7 0 万,直接测定和由核酸序列翻译得到的蛋白质序歹! l 总数超过了3 0 万,已测定的 蛋白质结构也超过了四万多个,而且这些数据仍以指数方式增长着,这些海量数据对数据 存储和管理工作提出了前所未有的要求为了存储这些数据就需要开发有效的数据库系 统目前国际上存储核酸序列、蛋白质序列和蛋白质结构坐标的著名数据库有g e n b a u k 、 e m b l 、d d b l ;u n i p r o t ;p d b 等等对这些数据库按照特定的目标进行二次加工后 便形成了一些二级数据库,如f s s p 等 对各种生物基因组的研究,并不是为了单纯地积累数据,而是为了揭示大量原始实 验数据中所蕴藏的内在规律,从而更好的认识生命这一复杂的现象在获得了海量的原始 数据之后最重要的是对它们进行释读和加工,使之成为具有明确生物意义的生物信息, 并在大量理性知识的基础上,探索生命起源、生物进化的基本规律这个任务呼唤着数 学、计算机科学、信息科学、物理学等学科学者的共同参与,于是一门新的交叉学科一 一生物信息学应运而生 生物信息学正是以核酸和蛋白质等生物大分子的序列、结构、功能及其相互关系为 主要研究对象,以数学、信息学、计算机科学等为主要手段,以计算机硬件、软件和计 算机网络为主要工具,对生物大分子数据进行存储、管理注释、加工,以达到阐明和理 解大量生物数据蕴含的生物意义为目的;在大量信息和理性知识的基础上,探索生命起 源,生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中的重大问题 f l 】 生物大分子是生物信息的载体;d n a 核苷酸序列对蛋白质氨基酸进行编码,蛋白 信息度量的蛋白质序列,结构、质谱数据研究 质序列决定结构,而蛋白质结构又决定了蛋白质的功能,归根结底,d n a 序列包含了最 基本的生物信息;而蛋白质则是生命活动的实际执行者,参与生化反应的催化、营养的 运输、信号的识别与传递等生命过程分别以核酸和蛋白质分子为研究对象,生物信息 学主要分为基因组学( g e n o m i c s ) 和蛋白质组学( p r o t e o m i c s ) 两方面。本论文所关注的是 位于蛋白质组学层面的蛋白质序列、结构和功能的相关问题,而它们正是生物信息学的 核心研究内容之一 1 2 蛋白质基础知识 蛋白质( p r o t e i n ) 是一种复杂的生物大分子,是构成生物体的最直接的元素,是生命 活动的实际执行者,参与基因表达的调节,以及生化反应的催化,电子传递神经传递、 学习记忆、营养的运输、信号的识别与传递等重要的生命过程,生物体之间的差异是由体 内各种蛋白质的总体分布的不同造成的【2 值得一提的是近年来新型功能蛋白的发现, 为人类征服疯牛病、癌症,艾滋病、帕金森氏症,老年痴呆症、糖尿病等疾病开辟了光明 的前景 1 2 1 蛋白质序列、结构与功能 研究蛋白质的功能首先需要了解它的结构,因为特定结构的蛋白质执行特定的功能 研究蛋白质的结构又需要先了解它的序列,因为序列可以按照一定的动力学规则折叠成 特定的结构面对生物研究产生的大量蛋白质序列和结构数据,需要做的就是运用数学、 物理、化学等自然科学中的方法和计算机科学和信息科学等工业科学中的方法,充分挖 掘蛋白质的结构折叠规律和相互作用规律,从而深入了解蛋白质序列、结构,功能之间 的关系 1 9 5 7 年s a n g e r 等利用纸层分析和纸电泳技术测定了只含5 1 个氨基酸的胰岛素分子 的氨基酸序列,开创了蛋白质序列分析的先河随着实验技术的不断进步,测定蛋白质 序列的速度越来越快,现在用实验测定的蛋白质序列和用测定的核酸序列翻译得到的蛋 白质序列总数已经超过了3 0 万1 9 5 9 年k e n d r e w 和p e r u t z 利用x 射线技术分别测定 了血红蛋白( h e m o g l o b i n ) 和肌红蛋白( m y o g l o b i n ) 的三维空间结构近些年来随着晶体衍 射技术和核磁共振技术的发展,测定蛋白质三维结构的速度也越来越快截至2 0 0 7 年3 月,蛋白质结构数据库p d b 里存储的结构文件超过了4 1 9 5 2 个这些海量的蛋白质数据 为研究蛋白质序列、结构,功能之间的关系提供了数据基础如何以这些这些海量数据 为依托,探索蛋白质序列、结构、功能之间的关系就是当前生物信息学一个非常重要的 研究任务 2 大连理工大学博士学位论文 芒。豢q 熙氨勰序列臻蛋白质结构塑凰叠自蕨功能 图1 1 :d n a 、蛋白质序列、结构、功能关系图 c r i s k 提出了分子生物学的中心法则;储存在d n a 分子核苷酸序列中的遗传信息通 过转录流动到r n a 分子的核苷酸序列中,经三联密码翻译成蛋白质分子的氨基酸序列 这个法则是生命活动中最基本、最重要和最普遍的规律6 0 年代初期,y a a o f s k y 等提 出:从r n a 翻译到蛋白质的三联密码被称为“第遗传密码”,即用三个核苷酸表示一 个氨基酸 目前在自然界有2 0 种常见的氨基酸蛋白质就是多个氨基酸连接而成的链状生物大 分子:相邻的氨基酸之间发生缩合脱水反应形成肽键,进而形成多肽链多肽链按照一 定的规律折叠成三维结构后,才具有生物活性和功能一级序列怎样决定三维结构,它 们是如何折叠成具有特定生物功能的蛋白质结构的? 这个问题被称为“第二遗传密码” 蛋白质的结构决定蛋白质的功能,特定的结构具有特定的生物功能,反过来,特定的 蛋自质功能就需要蛋白质折叠成特定的结构在对生物的研究中,可以发现许多这样的 例子酶蛋白的催化功能只有在彻底弄清酶结构的活性中心与底物如何结合以及如何反 应之后,才能真正了解其作用机理;只有详细了解了肌肉中的肌动蛋白和肌球蛋白的三 维结构才能说明肌肉收缩与非肌肉细胞运动的机理【2 】反过来,如果蛋白质结构遭到了 破坏,那么其相应的功能就会失调,人体就会染上相应的疾病目前已经发现疯牛病、 癌症、艾滋病、帕金森氏症、老年痴呆症、糖尿病等等2 0 余种疾病都与蛋白质的错误折 叠有关 结构不但决定功能,还可以改变功能:为了治愈由蛋白质的错误折叠引起的疾病, 就需要知道蛋白质的正确折叠方式,进而设计药物来修正蛋白质的错误折叠方式,最后 达到治愈疾病的目的新近产生的蛋白质工程( p r o t e i ne n g i n e e r i n g ) 技术正是基于这种原 理,利用现代生物技术对现有蛋白质进行结构改造,从而有耳的地改变其功能,例如提 高酶的活性、增加稳定性,设计艾滋病病毒转蛋白酶抑制剂等等 综上所述,d n a 分子首先通过转录将遗传信息流动到r n a 分子的核苷酸序列中, 然后r n a 分子根据第一遗传密码将其翻译成蛋白质序列,最后蛋白质序列又按照一定 的规律折叠蛋白质三维结构,进而执行特定的生物功能d n a 、r n a 、蛋白质序列、 结构、功能之间的关系如图1 1 3 信息度量的蛋白质序列、结构,质谱数据研究 从蛋白质序列、结构、功能之间的关系可以看出z 可以通过研究蛋白质序列和蛋白质 结构的关系来探索蛋白质的折叠规律,通过研究蛋白质结构和蛋白质功能的关系来探求 结构和功能的对应机制,并且对蛋白质功能的研究一定要从蛋白质的序列和结构入手 1 2 2 蛋白质的结构层次 蛋白质是由自然界中常见的2 0 种口氨基酸( a m i da c i d ) 按照一定顺序串联而成的氨 基酸是蛋白质的基本组成单位,每个氨基酸是由一个氨基一c h 2 、一个羧基c o o h 、一 个氢原子和个被称为侧链的r 基团组成,r 基团的不同决定了氨基酸的种类的不同 蛋白质合成时,它的一个氨基酸的氨基与另一个氨基酸的羧基缩合脱水形成肽键( p e p t i d e b o n d ) 多个氨基酸通过肽键连接在一起,形成一个线性的多肽链( p o l y p e p t i d ec h a i n ) 当肽键的数目超过约1 5 个时,多肽就称为蛋白质【3 】此时多肽链中的氨基酸由于参与 缩合脱水而稍有残缺,故称为残基蛋白质的一级结构( p r i m a r ys t r u c t u r e ) 一般是指构成 多肽链的氨基酸残基的排列顺序,是一个不具有空间概念的结构,但它具有方向性;按 照惯例,氨基末端( 8 1 n i n ot e r m 面】8 ) 是起始端,向羧基末端( c a r b 唧lt e r n f i n u s ) 延伸有 些蛋白质如( 铁氧还蛋自) 、肌红蛋白等是由单一的多肽链组成但多数蛋白质则是由多 个多肽链结合构成的,这些多肽链组分可以相同也可以不同需要特别指出的是,在多 肽链中由一个原子、一个氨基和一个羧基这样的单元重复排列而成的长链称为蛋白 质的主链或骨架( b a c k b o n e ) 蛋白质二级结构是由多肽链中局部肽段经过各种作用力的综合作用形成的,具有规 律性和周期性的局部构象蛋白质二级结构不考虑侧链的构象及整个肽段的空间排列。 二级结构有不同的类型,包括a 螺旋、卢片层e 折叠) ,转角、环形和无规则卷曲( 这些二 级结构类还可以再细分,并且在最近的实验过程中也发现了一些新的二级结构子类) 。a 螺旋是肽链主链围绕中心轴盘绕成的螺旋状紧密卷曲的棒状结构,它是蛋白质结构中含 量最丰富的二级结构;卢片层( 折叠) 是两条或多条伸展的多肽链侧向通过氢键形成的折 叠片断,它在蛋白质结构中含量次于a 螺旋;除以上几种比较规则的构象外,剩余的二 级结构都可归结到广义的无规卷曲中去t 这些肽段虽然不是完全无规,但因为其规则性 不强,故不能归入到明确的二级结构中,它们虽然被称为无规卷曲,但却非常重要,因 为它们通常是蛋白质的活性和功能位点所在地 蛋白质三级结构也可称为蛋白质的三维结构、空间结构或构象( c o n f o r n m t i o n ) 。蛋白 质三级结构描述了整条多肽链( 包括侧链) 的折叠情况,它是多肽链中所有二级结构和 无规则肽段排布连接成的完整的空间三维结构三级结构可定义蛋白质肽链中所有肽键 和残基包括侧链间的相对位置绝大多数蛋白质折叠成近乎紧密球体或椭球状实体,所 有原子体积占7 2 7 7 ,空腔占约2 5 疏水侧链埋藏在分子内部,亲水侧链暴露在分子 4 大连理工大学博士学位论文 氰薹融3 字母简写 苹字母简写 分手tt 道尔顿j 藏永呆水性蜃 西氧酸f d l 丑h ) a h a7 10 8h 群勖睦( v 圳越) 【r1 5 62 0p 天每蘸齄( f 目l j ) 醴 n1 1 4 up 熟氧酸( 扭玮i c - d d l 年d 1 1 s0 qp 半雎氲琏( 叮_ 洒面鼬 c1 0 3 1 1苴 j 醐帔u h 皿i n - ) g h q12s“p 韩氰筏( i l u 协卫j c 扯h , g he1 2 0 1 2p 茸锻( 1 】吡- ) a b 口5 70 5p 组董酸( d j i ) 墨k 苴1 3 7 1 5p 异薨氨蘸( b 妇d a ) n i1 1 31 7h 薨鬟麓凸n 函l l a l tl1 2 s l b苴 藏氦蘸r 】y 血) 1 6 噶 k1 3 8 l bp 甲硫氟醺( 丑t 赫h ) m tm1 3 12 1】l 葺丙奢馐e ( p 五皿y h h i ) p h p1 4 7 1 0 苴 蘑氟畦( 1 】j p 抽 pd 7 1 0p 璧氟赣佃- d 口) 5 b s7 口0p 葬氲髓f t k 劬)恤t 1 0 1 np 色氨麓咖姊h 】m 甲w 1 1 6 a l丑 誓铽麓( 龟,r 口 ) 曲f y1 1 8丑 赢氟麓f 劬五) v 虹 v9 口“苴 图1 2 :组成蛋白质的2 0 种氨基酸性质一览 表面,球状蛋白表面上的疏水空腔常用于结合底物、效应物等配体,是行使生物功能的 活性部位原则上,一些相对规则的口螺旋、卢片层( 折叠) 分布在内部,挤压成致密的 结构;那些连接a 螺旋和p 折叠的规整性相对差一些的二级结构如转角、环状以及无规 卷曲更多地分布在蛋白的外围表面1 2 】 如果一个蛋白质仅包含一条多肽链,这个蛋白质就只有三级结构但那些含有多条 多肽链的蛋白质则不同:在每一条单链形成特定的三级结构后,整个分子表面还存在一 些可以和其它分子相互作用的位点,因此单链之间通过非共价键结合在一起,形成四级 结构每一条单链的三级结构称为亚基形成四级结构的过程统称为装配( a ”l b l y ) 、聚 集( a g f e g a t i o n ) ,聚合( p o l y m e r i z a t i o n ) 、缔造( s o c i a t i o n ) 装配过程中球状三级结构不 会发生很大的改变,只是分子表面某些局部肽段为了适合亚基间的契合而有所调整 除此之外,在二级和三级结构之间还有一些过渡结构层次,如超二级结构( s u p e r s e c - 0 n d a r ys t r u c t u r e ) 和结构域( d o m a i n ) 超二级结构是1 9 7 3 年由r o s s m s j l 提出,指若干相 邻的二级结构彼此相互作用,形成种类不多,有规则的二级结构组合或二级结构串,充 当三级结构的构件,可以认为是二级结构与三级结构中的一个过渡性层次结构【引 结构域是蛋白质分子中那些明显分开的球状部分从构成看,结构域是几个或多个 超二级结构与一些二级结构结合形成的紧密球状结构对于分子量较小的球状蛋白质分 5 信息度量的蛋白质序列、结构、质谱数据研究 图1 3 :蛋白质结构层次示意图 子或亚基,结构域就是三级结构;对于分子量较大的球状蛋白质分子,其三级结构往往 由两个或多个结构域缔合而成部分结构域具有局部而不完全的功能,特定三维排布的 结构域的形成,有利于结构域之间活性中心的形成,结构域之间的柔性肽链形成的铰链 区也有利于活性中心与底物结合,形成功能部位结构域是一个非常重要的概念,目前 的蛋白质结构比较与分类研究一般都是基于这个层次的 1 3当前蛋白质研究的几个热点问题 由于蛋白质是生物有机体构成的基础物质,对细胞功能有重要影响,因此对蛋白质 的研究就成为分子生物学中的重要研究问题之一但由于蛋白质是一种很复杂的生物大 分子,因此不同的研究人员从不同方面对蛋白质开展了研究下面列出其中的几个研究 热点一一蛋白质序列相似性比较、蛋白质结构比较与分类、翻译后修饰位点预测、质谱 数据分析 1 3 1 蛋白质序列相似性比较 如上节所述,蛋白质的序列决定结构,结构决定功能由这个论断可以提出这样一个 问题:如果两个蛋白质的序列很相似,那么它们的结构是不是也相似呢? 对此生物进化 理论给出了肯定的回答;如果两个序列之间具有较大的相似性,就可以认为它们是同源 的,即由同一个祖先经过残基替换、残基删除或者序列重组等遗传变异过程进化而来,因 此它们可能具有相似的结构和功能但生物进化理论指出也可能存在某些特殊的情况, 即两个序列虽然相似,但却是由不同的祖先通过趋同进化分别演化而来的 从上段的论述中可以看出,通过研究序列之间的相似性,可以判断序列之间的同源 性,推断它们之间的进化关系推断蛋白质之间的进化关系正是遗传学家长期的研究目 标另外,通过序列之间的相似性程度可以以一定把握的推断它们结构和功能的相似性 6 大连理工大学博士学位论文 一个新测定的蛋白质序列,它的结构和功能都是未知的。此时,如果它和一个已知结构 和功能的蛋白质序列很相似的话,那么就可以把旧序列的结构和功能赋给新序列,从而 在实验之前先预测出它的结构和功能,为实验上准确的测定其结构和功能提供一定的指 导目前蛋白质序列总数已经超过了三十万,而测定的蛋白质结构仅有四万多个,而且 许多结构已知的蛋白质的功能还没有被注释序列数据、结构数据、注释数据三者在数 量上的巨大差异使得通过序列相似性分析来推断新序列的结构和功能成为一种必需 只有通过比较才能知道序列之间是否相似那么如何比较? 如何度量序列之间的相 似性? 这是两个必需解决的问题序列之间可以通过序列比对( a l i g n m e n t ) 来进行比较 【4 5 1 两条序列之间的比对是两条序列中各个字符的对比排列序列比对的准确定义是 在序列中任意位置插入空格( s p a c e ) 使得序列长度相同,等长后,扩展的序列能够完全相 互重叠,产生两序列字符间或字符与空格间的对应,但不得有两空格的对应,空格可以 插入在序列的头部和尾部f 3 】给定一个比对,就可以按照一定的方法赋予其一个得分 构造得分方案的基本原则是对应的相同的氨基酸对或性质相近的氨基酸对越多,得分越 高,而且为了控制无限制的加入空格,得分方案中要添加惩罚项,从而对空格的加入进 行约束 给定了得分方案后,一个比对有一个得分,得分最高的比对称为最佳比对最佳比 对就可以揭示两条序列之间的最大相似程度,最佳比对的得分就可以作为两条序列相似 程度的度量可以看出用序列比对进行序列比较的两个关键就是( 1 ) 得分方案的设计( 2 ) 最佳比对的寻求目前来说,普遍应用的得分方案大都是基于各种打分矩阵的目前存 在的打分矩阵有等价矩阵、遗传密码矩阵、疏水矩阵,p a m 矩阵、b l o s u m 矩阵等等 得分方案确定之后,序列比对问题就变成了在矩阵里寻我最佳比对路径的问题目 前解决这个问题的最有效的方法是n e e d m a n - w u n e h 动态规划算法【6 】这个算法的目的 是考察两个序列的整体相似性,因此被称为全局性比对算法 蛋白质序列具有模块性质而且从推断蛋白质之间的进化关系来讲,不需要考察序 列的整体相似性,只需要发现两个序列中是否存在共有某些特殊的片断,这些片断可能 是各种功能位点,如酶的催化位点等这些特殊的片断具有较高的保守性,不受序列中 其他部分的插入删除和突变的影响很明显,全局性比对算法如n e e d m a u - w u n c h 动态 规划算法不能实现这个研究目标,因此需要发展新的算法来解决这个目标1 9 8 1 年, s m i t h 和w a t e r m a n 提出了用来寻找并比较这些具有局部相似性区域的s m i t h - w a t e r m a n 算法吲与n e e d m a * w u n c h 动态规划算法类似,它也是运用回溯法建立允许空位插入 的比对方法s m i t h - w a t e r m a n 算法是局部比对算法的基础,在其基础上发展和改进了各 种算法,如s i m 算法等为了提高算法的精度和速度,在实际应用中,还常常利用一些 7 信息度量的蛋白质序列、结构,质谱数据研究 分析工具对原始的比对算法进行一定程度的优化,比如著名的f a s t a s 和b l a s t n f a s t a 是最先被广泛应用的序列比对和搜索工具包,而b l a s t 是现在应用最广泛的序 列相似性搜索工具。 当分析多个具有相似功能的蛋白质时,就需要对多个序列进行比较,多序列比较的基 本操作也是序列比对。多序列比对是两序列比对的自然推广,但计算量却是增加很多目 前存在的各种多序列比对算法和程序大都基于两种思想:同步法和步进法多序列同步 比对法的实质是对给定的所有序列同时进行比对,其基本思想是将一个二维的动态规划 矩阵扩展到三维或多维动态规划矩阵【1 0 1 这类方法对于计算机的系统资源要求较高,通 常只能进行少量较短序列的比对步进法的基本思想是先对多个序列进行进行两两比对 或者分组比对,最后再将两两比对或者分组比对的结果拼接成多序列比对c l u s t a l 是最 常用的步进法算法【l l 1 2 1 它在比对过程串,先对所有的序列进行两两比对并计算它们 的相似性得分值,然后根据相似性得分值将它们分成若干组,并在每组之间进行比对, 计算相似性分值,根据相似性分值继续分组比对,直到得到最终比对结果目前已有的 多序列比对算法有动态规划算法、c a r r i n o - l i p m a n 优化计算方法、按照星形结构组合两两 序列比对的渐进方法,遗传算法,模拟退火算法、隐马尔科夫模型方法等在互联网上可 以下载的多序列比对程序包括用于全局比对的c l u s t a l v v ,m a p ,m s a ,p i l e u p 等, 以及用于局部比对的p i m a ,m e m e ,m a c a w ,s a m 等 虽然目前有许多成熟的算法用于蛋白质序列比较,但它们有其共同的缺陷:( 1 ) 计 算量比较大,尤其是比较多个长序列时;( 2 ) 它们仅适用于那些彼此之间具有较密切进 化关系的蛋白质,这些蛋白质的序列之间虽然经过了一系列的趋异进化,但它们在序列 上仍然具有较大的相似性对那些关系较远的蛋白质而言,其序列之间剩余的相似性较 少,因此从序列比对的结果来推断进化关系就变得非常困难,而且结果可信度也不高 从信息论的角度看,蛋白质结构除了序列本身带来的信息外,还包括经过翻译后修 饰所增加的结构信息,如残基修饰、分子间相互作用等,从而最终形成稳定的蛋白质结 构。另外,从进化的角度看,结构比序列更保守,因此对于那些关系较远的蛋白质,就可 以通过结构比较的方式就行研究在下一节将对蛋白质结构比较与分类问题进行概述 1 3 2 蛋白质结构比较 分子生物学中序列、结构和功能关系的研究表明,结构要比序列具有更好的保守性 一个典型的例子就是d n a 结合蛋白,实验表明,序列比对无法揭示几个d n a 结合蛋白 问的明显的结构相似性随着这类情况的不断出现,极有必要对蛋白质的结构相互进行 比较,进而在此基础上系统地,彻底地整理蛋白质之间的关系,勾勒出目前结构已知的 蛋白质之间的层次性的相互关系此外,蛋白质结构比较问题在管理组织海量数据发 8 大连理工大学博士学位论文 现公共结构功能区域、评价蛋白质结构预测精度等方面也具有重要意义蛋白质结构比 较问题的生物学意义主要表现在以下五个方面【1 3 - 1 5 】; 1 基于结构比较可以对庞大的蛋白质结构数据库进行分类和管理,将蛋白质按照关 系远近、结构的相似程度进行划分,便于在蛋白质数据库里更有效地查询和提取数据 目前,基于蛋

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论