(计算机科学与技术专业论文)蛋白质结构的空间分布特征研究.pdf_第1页
(计算机科学与技术专业论文)蛋白质结构的空间分布特征研究.pdf_第2页
(计算机科学与技术专业论文)蛋白质结构的空间分布特征研究.pdf_第3页
(计算机科学与技术专业论文)蛋白质结构的空间分布特征研究.pdf_第4页
(计算机科学与技术专业论文)蛋白质结构的空间分布特征研究.pdf_第5页
已阅读5页,还剩122页未读 继续免费阅读

(计算机科学与技术专业论文)蛋白质结构的空间分布特征研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学博士学位论文 摘要 摘要 蛋白质是生命大厦的基石。全面揭示蛋白质结构与其功能的关系,使之为人类 谋福,是当代生命科学及相关领域交叉学科共同追求的目标。从图形计算和信息处 理的角度帮助分析和理解蛋白质结构成了近年来计算机科学领域一个新兴的研究方 向。 近大半个世纪以来,科学家对蛋白质分子的外在形态、内在结构及其功能机理 一直在不断探索,在现代科学技术的推动下,各种理论计算与实验方法层出不穷, 为蛋白质结构的空间分布研究提供了丰富的数据资源。实验表明,蛋白质功能所呈 现的多样性和独特性与其空间结构密切相关,分子表面布满皱褶,内部常有形状大 小不等的空穴,其几何与拓扑形态多变,对传统的图形计算与分析技术提出了新的 挑战。本文将充分利用生命科学领域关于蛋白质结构的最新研究成果,通过研究复 杂蛋白质结构在空间几何分布的共性问题,挖掘出单个实验技术无法直接反映的蛋 白质结构规律,提升现有蛋白质结构资源的使用价值,力求为诠释蛋白质结构与功 能的关系提供新的途径。 本文的工作主要包括如下三个方面:第一:研究可供快速计算的多肽链特征表 达方法,探索大规模数据库中蛋白质三维结构相似性的高效检索机制;第二:研究 基于蛋白质四级结构的空间分布相似性自动分类方法,重点研究四级结构空间旋转 对称特征的自动判定算法;第三:剖析蛋白质空间空穴分布的几何特征,设计笼型 蛋白质的自动检测算法。 本文主要贡献与创新: 提出了一种基于多准则递归分类的新的结构相似性快速检索模型以及三种 与空间方位无关的蛋白质骨架结构空间分布特征的快速计算方法,满足了对 大规模结构数据库进行检索时速度与效率的综合需求。 提出了一种基于旋转对称特征的蛋白质四级结构的有效分类方法,通过对常 见蛋白质四级结构的循环对称、二面体对称以及正多面体对称的特征分析, 浙江大学博士学位论文 摘要 实现了自动的四级结构旋转对称特征识别。为大规模结构数据中蛋白质的功 能相似性比较提供了新的结构分析手段。 提出了一种高效快速的笼型结构蛋白质的自动识别算法,首次实现了基于四 级结构分析的笼型结构蛋白质空间特征全自动检测软件c s p r o ,为该类蛋白 质的设计与筛选提供了可靠的几何评价工具。 经大量结构数据的计算验证,表明本文所提出的方法或软件平台对蛋白质功能 结构的相似性分析具有重要的参考价值,在计算机科学与生命科学交叉研究领域进 行了有意义的探索。 关键词:蛋白质结构,三维结构,空间分布特征,四级结构,特征检测,相似性, 检索,旋转对称性,笼型蛋白质 浙江大学博士学位论文a b s t r a c t a b s t r a c t p r o t e i n sa r ee s s e n t i a le l e m e n t so fl i f e i ti st h eg o a lf o rs c i e n t i s t sf r o ml i f es c i e n c ea n d o t h e rc r o s s e df i e l d st ou n d e r s t a n dt h er e l a t i o n s h i pb e t w e e nt h es t r u c t u r ea n df u n c t i o no f p r o t e i n s ,a n dt oc o n t r o lt h ep r o t e i nd e s i g nf o rt h eh e a l t ho f h u m a nb e i n g s e a c ho fb sh a st e n so ft h o u s a n d so fd i f f e r e n tk i n d so fp r o t e i n s ,e a c hw i t hau n i q u e t h r e ed i m e n s i o n a ls t r u c t u r ec o r r e s p o n d i n gt oas p e c i f i cf u n c t i o n t h er e c e n tf l o o do f s t r u c t u r a ld a t ap o s e sag r e a tc h a l l e n g ef o rc o m p u t e rs c i e n c ea n db i o i n f o r m a t i c st ot u r n d a t ai n t ok n o w l e d g e t h er e p r e s e n t a t i o n , u n d e r s t a n d i n ga n da n a l y s i so fp r o t e i ns t r u c t u r e a r en e wt o p i c si nv i s u a lc o m p u t a t i o na n dd a t am i n i n g t h i sd i s s e r t a t i o ns t u d i e st h es p a t i a ld i s t r i b u t i o nc h a r a c t e r i s t i c so fp r o t e i ns t r u c t u r e f o c u s i n go nt h r e ea s p e c t s f i r s t ,w es t u d yb o t hr a p i da n de f f i c i e n tr e t r i e v a la p p r o a c h e st o m e e t i n gw i 也t h er e q u i r e m e n to ft h es i m i l a r i t ys e a r c h e si nl a r g es c a l eo fs t r u c t u r a ld a t a s e c o n d ,w ee x p l o r en o v e lw a y so ns i m i l a r i t yc o m p a r i s o nf o rh i 曲l e v e lo fp r o t e i n s t r u c t u r eb a s e do na u t o m a t i cd e t e c t i o n so fr o t a t i o n a ls y m m e t r i e so fq u a t e r n a r ys t r u c t u r e f i n a l l y , w es p e c i f i c a l l yc o n c e r no nt h ea u t o m a t i ci d e n t i f i c a t i o no fc a g e - s h a p e dp r o t e i n s , w h i c hh a sp o t e n t i a la p p f i c a t i o n si nb i o m e d i c i n ea n dn a n o t e c h n o l o g y t h em a i nc o n t r i b u t i o n so ft h i sd i s s e r t a t i o na r em a i n l ya sf o l l o w s : w e p r e s e n tan o v e lm u l t i p l ec r i t e r i af r a m e w o r k ( m c f ) t or e d u c et h ec o m p u t a t i o n c o s t t h r e ek i n d so ff e a t u r e s ,w h i c ha r ei n v a r i a n ta g a i n s tt r a n s l a t i o na n dr o t a t i o n ,a r e a d o p t e d a st h ec r i t e r i as u c c e s s i v e l yd u r i n gt h er e t r i e v a l p r o c e s su n d e rm c f , i n c l u d i n gt h es p a t i a lw a l k i n go fp r o t e i n sb a c k b o n e ,d i s t a n c eh i s t o g r a ma n dt h er a d i a l d i s t r i b u t i o no ft h ed i s t a n c em a t r i x w h i l et h ep r o t e i nr e t r i e v a lb a s e do ne a c ho ft h e a b o v ef e a t u r e si n v o l v e so n l ys i m p l ec a l c u l a t i o n , t h ei n t e r s e c t i o no ft h e i rr e t r i e v a l r e s u l t sr e d u c et h ec a n d i d a t es e td r a m a t i c a l l ya n dr a p i d l y e x p e r i m e n t s u s i n g q u e r y b y e x a m p l e o nar e p r e s e n t a t i v e d a t a b a s e ,i n c l u d i n g 2 7 8 0 4 s a m p l e s , d e m o n s t r a t et h a to u rt e c h n i q u e sc a nc u td o w nt h ep r u n i n gt i m ec o s to ft r a d i t i o n a l m e t h o d s e f f e c t i v e l yw h i l er e t a i n i n g t h e s e n s i t i v i t y t h ea p p r o a c h i s h i g h l y c o m p l e m e n t a r yt or a p i dp r o t e i ns t r u c t u r es i m i l a r i t yr e t r i e v a l w e s u g g e s tan o v e ls i m i l a r i t yc o m p a r i s o nm e t h o do fs t r u c t u r a ld a t ao fp r o t e i n 塑望查堂望主堂垡笙奎 垒! ! 竺竺! _ _ _ - 。- _ 。_ - _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ - - _ _ _ _ i _ _ - _ - _ _ _ _ - _ i _ _ _ _ _ _ _ - _ _ _ - i _ - _ _ - _ - i _ - - - _ _ _ _ _ _ - _ - _ _ _ _ _ - - _ - 一一一一。 c o m p l e x ,w h i c hi s o fs i g n i f i c a n c ei na n n o t a t i o no fp r o t e i ns t r u c t u r ea n df u n c t i o n p a t t e r n so fr o t a t i o n a ls y m m e t r i e sa tt h eh i g hl e v e lo f p r o t e i nq u a t e r n a r ys t r u c t u r ea r e d e t a i l e de x p l o i t e da n da u t o m a t i cd e t e c t i o nm e t h o d so nd i f f e r e n t c a t e g o r i e so f r o t a t i o n a ls y m m e t r i e sa r ep r o p o s e d i n t e g r a t i n gt h eg e o m e t r i c a lf e a t u r eo ft e r t i a r y b a c k b o n es t r u c t u r ew i t ht h es y m m e t r i c a lt o p o l o g yo ft h ea s s e m b l yo f p r o t e i nc h a i n s , w ea c h i e v et h ec l u e so ff u n c t i o n a ls i m i l a r i t i e sa m o n g p r o t e i nc o m p l e x w e p r o p o s ea l le f f i c i e n ta l g o r i t h mf o rs c r e e n i n gc a g e s h a p e dp r o t e i n sf r o ml a r g e q u a n t i t i e so fs t r u c t u r a ld a t aa u t o m a t i c a l l y c a g e s h a p e dp r o t e i n sh a v ed i f f e r e n tk i n d s o ft o p o l o g i c a lc h a r a c t e r i s t i c s t os o l v et h e c h a l l e n g i n gp r o b l e mt od i s t i n g u i s h c a g e - s h a p e ds t r u c t u r ew i t ho p e n - h o l ea n dt u n n e lf r o mn u m e r o u sp r o t e i ns t r u c t u r e s 。 w ec o m b i n et h ep c aw i t hd i g i t a lt o p o l o g yt e c h n o l o g ya n di m p l e m e n tap r o g r a m c a l l e dc s p r of o ri d e n t i f i c a t i o no fc a g e s h a p e dp r o t e i n sb a s e do nq u a t e r n a r ys t r u c t u r e c s p r oi sc a p a b l eo fr e v e a l i n gt h ef u n c t i o n a ls h a p eo fc a g e s h a p em o r ec l e a r l ya n d q u i c k l yt h a nt r a d i t i o n a lv i s u a l i z a t i o nt o o l s u s i n gc s p r o ,w eh a v es e a r c h e dt h ef u l l s e to fp d ba n dt h r e e t y p e so fp r o t e i n sa r er e t r i e v e dw i t hn o t a b l yl a r g ec e n t r a l c a v i t i e si n s i d e c s p r oc a l lb eu s e dt ov a l i d a t ei ft h eq u a t e r n a r ys t r u c t u r eo fap r o t e i n i sc a g e s h a p e di nm o l e c u l a rs i m u l a t i o n k e y w o r d s :p r o t e i ns t r u c t u r e ,t h r e ed i m e n t i o n a l s t r u c t u r e ,s p a t i a l d i s t r i b u t i o n c h a r a c t e r i s t i c s ,q u a t e r n a r ys t r u c t u r e ,f e a t u r ed e t e c t i o n ,s i m i l a r i t y , r e t r i e v a l ,r o t a t i o n a l s y m m e t r y , c a g e s h a p e dp r o t e i n 浙江大学博士学位论文 目录 图目录 图1 1 氨基酸的空间构成及肽键的形成过程。6 图1 2 蛋白质四级层次结构体系一7 图1 3 原子模型8 图1 4 原子一键模型8 图1 5 二级结构描述模型9 图1 6 分子表面模型10 图1 7 分子体数据场模型1 1 图1 8 近2 0 年蛋白质结构在p d b 的增长1 3 图1 9s c o p 的层次结构组织1 4 图1 1 0 规贝j j - - 级结构及其邻接矩阵映射图一2 0 图1 1 1 不同个数结构域的蛋白质2 1 图1 1 2 两个结构域之间的邻接关系2 1 图1 1 3h i v 1 酶蛋白对称结构2 4 图1 1 4 三维骨架结构的对齐一2 6 图1 1 5c a 骨架的样条拟合2 8 图1 1 6 相似子结构一2 9 图1 17 形状直方图的生成一3 0 图2 1s c o p 数据库中结构域增长统计3 6 图2 2 同心球壳的区域划分3 7 图2 3 蛋白质2 f a l 的三维结构3 8 图2 4 多准则相似性检索模型4 0 图2 5 相似蛋白质对的骨架及其走向函数4 1 图2 6 一阶走向函数的二叉树构建及比较4 2 图2 7 距离信息直方图的比较4 4 图2 8 相似距离矩阵所对应的灰度图像4 4 图2 9 结构、距离矩阵图像和能量谱4 5 图2 1 0 距离矩阵径向密度的获取4 6 图2 1 1 径向密度分布数据的线性回归分析图4 6 图2 1 2 查询l a 4 v 的结果4 9 图2 1 3 本文方法与其它方法的比较5 0 图3 1 对称轴的遍历5 1 图3 2 二维图形对称性5 3 图3 3 循环对称示意5 4 图3 4 二面体对称示意5 4 浙江大学博士学位论文 目录 图3 5 正多面体图示5 5 图3 6 简化的子结构组合示意图5 5 图3 7 复合结构簇的组成5 6 图3 8 基于对称特征的四级结构相似性判定5 7 图3 9 基本结构簇的对称特征计算流程6 1 图3 1 0g 对称轴的确定。6 2 图3 1 1 子结构排列二维示意。6 4 图3 1 2 将旋转轴f 与z 轴对齐6 5 图3 1 3 部分g 对称蛋白质6 5 图3 1 4q 对称轴的确定6 6 图3 1 5g 对称蛋白质的三维结构6 8 图3 1 6d 。二面体对称示意6 9 图3 1 7 对称轴,2 的判定7 0 图3 1 8 部分仉对称蛋白质的三维结构7 1 图3 1 9d e 循环对称轴的确定7 2 图3 2 0d 2 对称蛋白质三维结构7 3 图3 2 1 三种典型正多面体的几何属性一7 3 图3 2 2 正四面体对称蛋白质1 d p s 7 4 图3 2 3 正多面体虚拟顶点所对应的子结构分布一7 4 图3 2 4 寻找正四面体。对称轴示意图7 5 图3 2 5 正四面体对称蛋白质的三维显示一7 7 图3 2 6g 对称参数示意图一8 0 图3 2 7d 。对称参数示意图一8 l 图4 1 笼型结构的蛋白质8 8 图4 2 不同类型的空穴示意图8 9 图4 3 蛋白质分子实体均匀剖分9 1 图4 4 蛋白质分子实体区域的确定9 l 图4 5 蛋白质分子二值图像9 2 图4 6 体素 ,的三种邻域9 2 图4 7 邻域判定的二义性9 3 图4 8 分子空腔榆测9 4 图4 9 封闭笼型结构的蛋白质9 6 图4 1 0 空穴类型c r 2 的虚拟边界示意图9 6 图4 1 1 重定位蛋白质分子坐标9 7 图4 1 2 开口笼型结构的探测9 8 图4 1 3 标记后的空穴剖视示意图一9 9 图4 1 4 开口笼型结构的蛋白质1 0 0 图4 1 5 笼型结构蛋白质的自动检测平台c s p r o 1 0 1 图4 1 6 笼型蛋白质分子l d p s 的多种图形显示比较1 0 2 浙江大学博士学位论文 目录 表目录 表1 1 蛋白质三维结构相似性比较技术分类总结3 4 表2 1 典型链长蛋白质对之间的三种相异度计算4 3 表2 2 查询l a 4 v 的筛选情况4 8 表3 1 对称蛋白质原子空间分布矩阵的特征值计算结果5 8 表3 2 子结构相似性聚类算法6 0 表3 3 子结构单元数与对称的关系6 1 表3 4 部分g 循环对称中子结构质心到拟合平面的距离6 4 表3 5 部分g 对称蛋白质旋转偏差量和对称度的计算结果6 6 表3 6 部分g 对称蛋白质旋转偏差量和对称度的计算结果:6 7 表3 7 子结构质心到平面兀c 的距离6 9 表3 8 部分d 。对称蛋白质的旋转偏差量和对称度计算结果7 1 表3 9 部分仍对称蛋白质的旋转偏差量和对称度的计算结果7 2 表3 1 0 一组正四面体蛋白质的子结构质心球半径一7 5 表3 1 1 等边三角形子结构聚类算法7 5 表3 1 2 部分正四面体对称蛋白质的旋转偏差量和对称度计算结果一7 6 表3 1 3 部分g 对称蛋白质相似性查询计算结果8 3 表3 1 4 部分队对称蛋白质相似性查询计算结果8 4 表3 1 5 部分d 2 对称蛋白质相似性查询计算结果8 5 表4 1 封闭笼型结构蛋白质的识别算法9 5 表4 2 在任一采样方向上探测球自动调节其半径的动态平衡标记算法9 9 表4 3 部分检测到的笼型蛋白质一1 0 1 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得逝耋三盘堂或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:嘭何微 签字日期: 2 伽孑年1 2 ;92 日 学位论文版权使用授权书 本学位论文作者完全了解逝姿盘堂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权盘姿盘茔可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:钐诗敬 签字日期:幻了年2 月2i e i 导师签名:彰纾攫 签字日期:彬卯莎年2 - 月一2 日 学位论文作者毕业后去向:浙江大学计算机学院 工作单位:浙江大学计算机学院 通讯地址: 浙江杭州 电话: 邮编:3 1 0 0 2 7 浙江大学博士学位论文第1 章绪论 第1 章绪论 t h en a m e 卫互2 丝盈,f r o mt h eg r e e kw o r dp r o t e i o s ,m e a n i n g “f i r s tp l a c e ”, s u g g e s t st h ei m p o r t a n c eo ft h i sc l a s so fm a c r o m o l e c u l e s n e i la c a m p b e l l t l 】 1 1 引言 蛋白质是生命大厦的基石,蛋白质的结构决定其功能是科学家经过长期理论 研究与实践所得出的共识,要全面揭示蛋白质的功能机制,必须要深刻理解其结 构。围绕蛋白质结构的测定、结构域的认定以及功能的诠释,科学家进行了长期 不懈的探索。蛋白质结构与功能的关系是当前生命科学领域所面临的重大科学问 题之一。 回顾二十世纪生命科学史,自1 9 5 5 年s a n g e r 完成第一个蛋白质( 牛胰岛素, 5 1 个氨基酸) 一级结构的测定【2 】,到2 0 0 0 年科学家宣布人类基因组草图的测绘 完成;自1 9 6 0 年k e n d r e w 解析出第一个蛋白质( 肌红蛋白) 的晶体结构,至2 0 0 7 年国际蛋白质结构资源库p d b ( p r o t e i nd a t ab a n k ) 有4 万多个蛋白质三维结构的 存储,全世界科学家经历了大半个世纪的努力,对蛋白质的认识正发生日新月异 的变化。 然而,目前人类对蛋白质结构的认识与蛋白质功能的多样性和复杂性相比, 仍然极其有限。以地球三大生物类群( e u k a r y o t i c ,p r o k a r y o t i ca n da r c h a e a ) 约一千 三百多万种生命有机体估算,大约有1 0 1 0 1 0 1 2 种不同的蛋白质被编码f 3 】,其中 大部分蛋白质的功能机制并未被揭示出来。尽管人类在获得基因组信息上取得了 突破性的进展,但是,基因数据涉及的是蛋白质一维序列的组成。单纯的序列信 息并不足以阐述复杂生命现象中蛋白质的功能,蛋白质序列在环境作用下折叠成 一定的空间结构后才发生其功能作用 4 1 。如果折叠发生错误,就会出现生命体功 能障碍,甚至导致严重疾病。结构基因组学( s t r u c t u r a lg e n o m i c s ) 的兴起【5 】,正是 p d b 站点地址:h t t p :t w w w r c s b o r g p d b h o m e h o m e d o 浙江大学博士学位论文 第1 章绪论 为了加快揭示蛋白质三维结构与功能的内在关系。诠释蛋白质结构与功能的关 系,设计并控制蛋白质为人类健康服务,将是2 1 世纪摆在科学界的一个极具挑 战性的重大科学研究工程。 对蛋白质三维结构的研究至少在以下几个方面具有重要意义f 6 】- 【1 0 : 1 ) 理解蛋白质结构与功能的关系 蛋白质在细胞中产生时是由氨基酸组成的多肽链序列,该序列折叠成一定的 空间布局,如在水溶液中,富含亲水侧链( h y d r o p h i l i cs i d eg r o u p s ) 氨基酸的多 肽链区域常常出现在蛋白质分子的表面,而富含疏水侧链( h y d r o p h o b i cs i d e g r o u p s ) 氨基酸的多肽链区域则被包裹在蛋白质的内部。多肽链局部空间中的各 种物理和化学力相互作用促进蛋白质形成具有稳定的结构与形状,正是由于这种 特定的空间结构与形状,使得蛋白质能够在细胞内完成独特的生物功能。 几乎所有蛋白质功能的实现都伴随着它们与其它分子的选择性结合。例如在 所有的细胞新陈代谢过程中所包含的分子变化,几乎都有催化剂参加,生命活动 中主要的催化剂足酶( e n z y m e s ) ,它是一类特殊的蛋白质。酶具有选择性,它通 过识别某种底物( s u b s t r a t e ) 结构来实现其催化功能【1 1 】。又如一个大脑神经元 细胞通过释放某种信号分子( s i g n a lm o l e c u l e ) 向另一个大脑神经元传递信息时, 当信号分子穿过发射细胞与接受细胞之间的间隙时,只有该信号分子与受体分子 在结构上相吻合,才能与受体分子成功结合,使得接受细胞获得发射细胞所传递 的信息。对蛋白质三维结构的全面理解是解开其功能机制的关键。 2 ) 新药发现 蛋白质结构的“形状迎合功能”使得生物大分子的三维结构在药物设计中显 得极为关键。药物的治疗作用主要是药物与受体之间相互作用的结果,蛋白质与 核酸是主要的受体,而以蛋白质居多。如果了解了受体蛋白的三维结构,就可以 研究药物分子是怎样改变它的空间构象“,进而找到好的药物u 2 。目前基于结 构的药物开发需要不断地对受体和配体复合物的相互作用进行建模、测试和验 证,在这一不断循环往复的过程中,获取蛋白质结构特征的高通量筛选可以加快 药物设计中对活性分子的识别 1 3 】。对蛋白质三维结构的理解是基于结构药物设 底物:一般来讲,酶所作用的对象被称为底物。 “构象:物体的组成在空间的布局与安排,分子研究中指特定分子的三维结构 浙江大学博士学位论文 第1 章绪论 计的重要环节,全面认识蛋白质结构可为新药发现提供第一手资料。 3 ) 蛋白质进化分析 蛋白质三维结构的多样性主要来源于:a ) 结构域序列的倍增;b ) 在结构域 倍增过程中由于突变、删除和插入氨基酸生成新的序列结构;c ) 基因的重组导 致结构域的重新布局。因此,序列的相似性比对可以追踪出同源蛋白的进化关 系。但是,越来越多的结构研究表明,结构相似而序列相关性低的蛋白质也可以 具有相似的功能,此时,利用序列的方法跟踪进化关系就出现了困难。而通过直 接的三维结构相似性分析可以检测到序列相似性低的远距离家族之间的结构域 及其在家族中的关系,为蛋白质的演化进程提供了重要的分析途径【14 】【1 5 。如对 酶分子趋异进化的研究表明0 6 ,像( p 旭) 8 桶( b a r r e l ) 这样稳定的局部结构会不断 地重复出现在不同的酶蛋白三维结构中以适应新的催化目的,而这些保守结构对 应的序列相似性却可以很小,这为酶蛋白的进化分析提供了一种新的理解,揭示 了保守的结构单元在酶蛋白的趋异进化中扮演了重要的角色。现有结构分类数据 库s c o p 和c 触m 为蛋白质进化分析提供了有效的结构分类资源 1 7 】【19 1 。 蛋白质在细胞中的同源自组装结构占己知四级结构的5 0 7 0 ,尽管目前对 这种现象所产生的机制还不甚了解,但最近l e v y 【2 0 】在自然杂志上指出,对 已知5 0 0 0 个四级结构组装体的对称结构分析表明,其特殊的对称性质传递了蛋 白质结构进化的途径,如g 对称二聚体可能演化成见对称四聚体,但不可能演 化成g 对称。通过分析结构及其形状之间的内在关系,揭示出蛋白质进化的可 能途径。 随着后基因时代的到来,结构生物学由于重在揭示生物大分子的结构与运 动,阐明结构与功能的关系,而成为当前生命科学的前沿学科。该学科与生物化 学、生物物理以及计算科学等多种学科日益交叉,形成了计算结构生物学和结构 生物信息学等新兴学科。随着越来越多的研究力量和研究资源投入到蛋白质的研 究中来,蛋白质结构数据库急剧膨胀。不仅是对蛋白质个体的研究结果不断添加 到共享数据库中,而且,由于基因组计划的成功实施以及结构基因组计划的启动, 大量未知功能的序列和结构不断累积起来,这些蛋白质结构数据之间可能隐藏着 + 同源( h o m o l o g o u s ) 指有共同祖先的。 浙江大学博士学位论文 第1 章绪论 单一结构数据无法揭示的现象。研究如何从海量结构数据中挖掘、提炼出蛋白质 结构与功能内在关系的新方法和新工具,是当前生物信息学的重要研究内容。蛋 白质结构的空间分布一直是计算生物学和生物信息学的研究热点。各类与蛋白质 三维结构研究相关的结构信息库的构建以及当前信息领域国际会议不断涌现关 于生物信息研究专题的设立,可以反映出目前蛋白质结构信息研究备受关注的现 状。 本文将以现代结构生物学关于蛋白质三维结构研究成果和可视信息计算技 术为基础,力图通过对复杂蛋白质结构在空间几何分布共性特征的表示、计算与 分析,挖掘出以往实验方法无法直接获取的蛋白质三维结构的分布规律,提升现 有蛋白质结构资源的使用价值,为诠释蛋白质结构与功能的关系提供程序式分析 手段。为此,本文首先考虑如下基本问题: 1 什么是蛋白质结构? 本文关于蛋白质结构空间分布的研究范畴是什么? 蛋白质结构是指蛋白质分子在空间的排列,由氨基酸序列在环境的作用下所 决定,与其功能密切相关。蛋白质结构包含了组成蛋白质分子的原子在空间的位 置、原子与原子之间的空间作用关系、蛋白质分子与周围环境相互作用所表现出 来的结构形状及变化等几何属性,是一种存在于三维空间的实体,是具有生物活 性物质的功能结构。本文关于蛋白质结构空间分布的研究将围绕蛋白质结构的几 何属性展开,重点研究与蛋白质功能相关的宏观空间分布特征的自动计算方法。 2 蛋白质与传统图形学中的三维物体相比,其空间分布有什么特点? 与传统计算机图形学所研究的非生命三维对象相比,蛋白质分子是一种具有 生物活性结构的三维对象,从微观上看,它永远处于运动状态,其局部空间范围 内各原子的几何位置是变化的,与周围环境之间具有互动性;从宏观上看,又是 一种全局结构和形状相对稳定的三维物体。一方面我们可以通过捕获蛋白质瞬间 的空间结构信息,参考传统三维物体的描述方法来刻画蛋白质分子的三维结构; 另一方面,我们必须充分考虑蛋白质的生物功能。注意到用不同实验条件所获得 的同一蛋白质分子的原子在空间的三维坐标可能不同,从而使得传统三维图形意 义上的点、线、面、体的精确表示失效。因此,采用适合蛋白质这种活性对象的 结构描述是研究其空间分布特征的关键。 3 蛋白质结构的空间分布研究如何为生物学研究服务? 4 浙江大学博士学位论文 第1 章绪论 随着已知蛋白质结构数目的不断增多,蛋白质在三维空间的折叠现象被逐渐 认识,已出现不少蛋白质结构分类数据库,典型的有s c o p f 2 1 1 1 2 2 1 、c a t h 2 引、 d a l i f s s p 2 4 】【2 5 】、3 dc o m p l e x 2 6 1 等。结构相似性为程序式预测蛋白质功能提供了 可能 2 7 】。一方面结构域作为基本的功能结构单元,已经被目前大部分结构数据 库作为功能预测的分类单元;另一方面,蛋白质在细胞中发挥其功能实际上更多 地体现在四级结构的层面上,如血红蛋白是由4 条多肽链组成的复合物,其中任 意单条链不足以提供正常的功能。如何在不同的结构层面上认识与功能相关的蛋 白质空间分布特征是值得探究的问题。 总之,充分发挥可视信息技术的优势,从现有海量结构数据中挖掘出与蛋白 质功能密切相关的隐藏知识,为预测蛋白质结构与功能的关系研究提供有价值的 分析手段是本文关注的核心问题。 1 2 相关工作 本节首先介绍具有生物学意义的蛋白质结构体系,它是全文研究工作的基 础,接着阐述本文相关工作的国内外研究现状,重点介绍获得蛋白质结构空间分 布的高通量计算方法。这些工作共同架构起了本文对蛋白质结构研究的基石。 1 2 1 蛋白质结构体系与三维结构计算模型 蛋白质( p r o t e i n ) 是生物体中细胞的重要组成成分,属生物大分子。它由一 定数量不同种类的氨基酸( a m i n oa c i d ) 缩合而成,这些氨基酸残基在各种物理和 化学力的作用下,按照能量最小途径在空间折叠成稳定的立体构象,以完成各种 生物学功能。鉴于本文所关注的是蛋白质结构的空间分布特征,下面在简单介绍 蛋白质结构体系的相关概念之后,给出常用三维结构的计算模型。 1 2 1 1 层次结构体系 组成蛋白质分子的氨基酸主要有2 0 种,典型的氨基酸由一个位于四面体中 央位置的碳原子( 记为c a ) ,以共价键的方式连接一个氨基( - i - 1 3 n + ) 、一个 羧基( 一c o o 一) 、一个氢原子( h ) 和一个可变的侧链( r ) 所组成,如图1 1 所示。 一个氨基酸羧基的氧与另一个氨基酸氨基的两个氢结合生成水,此为脱水的缩合 反应,形成肽键,两个氨基酸缩合成二肽( d i p e p t i d e ) ,三个氨基酸通过两个肽 * 学n 论i* 1 绪论 圈il 氰基醢的空间构成及肽键的形成过程 左上虚线框内是一个氨基酸左右两个氨荽酗脱水形成肚键 键形成三肚,接着继续形成四肚、五肚,依此类推形成多肽链( p o l y p e p t i d e ) 。 蛋白质实际上就是多肽链或者多肽链的组合。通过肽健结合在一起的氨基酸被称 为残基( r e s i d u e ) ,有别于游离态的氮基酸。 生物化学家将蛋白质结构划分成4 个基本层扶翊。如图l2 所示。其中,一 级结构( p r i m a r ys t i u c t o f e ) 是指构成多肽链的氨基酸排列顺序。二级结构 ( s d a 尊s 口u c 仙均是指由相邻的若干氨基酸在局部空间折叠形成连续的肽链 片段构象,如n 螺旋结构( a - h e l i x ) 、b 折叠结构 0 的结果1 1 0 7 。为此,b o s t i c k 1 1 印对序列相似性 3 0 的蛋 白质结构的拓扑连接关系进行相似性分析并与r m s d 的结果进行比较,发现蛋白 质结构的拓扑比较可以较好地克服由于结构内部频繁的原子动态活动而引起的 几何比较方法的失误,它有可能捕捉到单纯使用几何比较无法得到的蛋白质功能 相似性。基于拓扑的比较技术可以分成如下三类: 基于g r a p h 的比较 用g r a p h 进行蛋白质结构拓扑分析的基本思路是将所考虑的对象抽象成具有 一定属性的顶点集合( y ) 和连接这些顶点之间关系的边的集合,顶点可以是 被分析对象中具有一定生物学语义、粒度大小不同的子结构。用g = ( k 目来构 建蛋白质三维拓扑结构时,用于比较的g r a p h 顶点单元可以是原子 1 1 7 、氨基酸 【1 1 8 】【】19 1 、侧链 1 2 0 、二级结构【1 2 1 】 1 2 2 】等不同尺度的子结构,借助顶点与顶点之间 的关联边来反映

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论