




已阅读5页,还剩104页未读, 继续免费阅读
(应用数学专业论文)蛋白质表面几何与分子场的特征分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 蛋白质是生命大厦的基石 其活性区域的自动检测对于预测蛋白质与蛋白质之 间的相互作用 蛋白质识别 药物设计等起着重要作用 研究可靠有效的蛋白质活 性位点自动检测方法 是当代生命科学和相关学科的共同目标 目前 来自于生物 化学 计算机 数学等领域的科学家们从蛋白质的几何结构和其它各种角度出发 借助于信息科学 生物信息学 计算生物学 计算化学等手段 对这个问题进行研 究 蛋白质的活性位点不但与其三维几何结构密切相关 还与蛋白质分子体系的多 种作用力和体系能量的势能场的共同作用 即分子场 密切相关 此外 蛋白质只 有在运动过程中才能体现其功能 因此本文分别从蛋白质分子的几何 静态分子场 和动态分子场这几个方面出发 充分运用几何 图论 拓扑学和信息学等学科的方 法对它们进行研究 以揭示蛋白质活性位点的预测及其局部变构等问题 主要包 括 提出一种基于图论的蛋白质一蛋白质对接预测方法 蛋白质的活性位点通常 位于蛋白质分子表面的凹腔区域 我们首先根据q 形理论检测蛋白质分子 表面的显著凹腔区域 然后运用图论中的极大团理论来搜索两个蛋白质在凹 腔区域是否存在最佳几何匹配 进而预测它们的对接 提出一种快速检测静态分子场的拓扑变化关键值和关键区域的自动算 法 b e t t i 数是刻画流形曲面拓扑性质的拓扑不变量 我们提出一种快速计算 流形曲面b e t t i 数的算法 利用它来自动检测分子场等值面的拓扑发生改变的 关键值 为从分子场角度检测蛋白质的活性区域提供了新思路 提出一种检测蛋白质分子场在动态变化过程中整体性质发生改变的关键时刻 的计算方法 我们借助球面调和分析这一工具 提取蛋白质分子场在动态变 化过程中每一帧数据的频谱特征 通过比较这些频谱来判断动态分子场发生 浙江大学博士学位论文 整体性质变化的关键时刻 为预测蛋白质在生化过程中发生变构的时刻提供 了新的分析工具 提出一种寻找蛋白质在动态生化反应过程中发生局部变构的区域的方法 首 先计算出蛋白质分子的动态多属性分子场 然后将每一帧多属性分子场划分 为互不相交的子区域 以信息论为基础计算每一个子区域上场数据的信息重 要程度 通过分析每一个局部区域的多属性分子场信息重要程度随时间变化 的趋势曲线 对这些子区域在生化反应过程中是否属于变构区域 在什么时候 发生变构做出预测 我们选取了几个具有典型生化意义的蛋白质体系对上述算法进行验证 预测结 果与实际结果相吻合 表明本文提出的方法对于研究蛋白质一蛋白质相互作用和 蛋白质识别等关键问题具有重要的价值 关键词 蛋白质分子表面分子场拓扑学图论极大团几何信息论 a b s t r a e t a b s t r a c t p r o t e i n sa l ee s s e n t i a le l e m e n t so fl i f e t h ed e t e c t i o no ft h ea c t i v es i t e so fp r o t e i n s a l ec r u c i a lt ot h ep r e d i c t i o no fp r o t e i n p r o t e i ni n t e r a c t i o n s t h er e c o g n i t i o no fp r o t e i n sa n d d r u gd e s i g n i ti st h eg o a lo f t h eb i o l o g i s t sa n dt h es c i e n t i s t sf r o mr e l a t e df i e l d st od e v e l o p e f f i c i e n ta n dr o b u s ta l g o r i t h m st op r e d i c tt h ea c t i v es i t e so f t h ep r o t e i n sa u t o m a t i c a l l y i nr e c e n ty e a r s m a n ys c i e n t i s t sf r o md i f f e r e n tr e s e a r c ha r e a s e g b i o l o g y c h e m i s t r y c o m p u t e r s c i e n c e m a t h e m a t i c sa n dp h y s i c s a let r y i n gt os o l v et h i sp r o b l e mb a s eo nt h eg e o m e t r i c a l s t r u c t u r eo fp r o t e i n so rf r o mo t h e rv i e w p o i n t s t h ea c t i v es i t e so fap r o t e i nd e p e n d sn o to n l yw i t hi t s3dg e o m e t r i c a ls t r u c t u r e b u t a l s ow i t ha l lk i n d so ft h ef o r c ef i e l d sa n dt h ep o t e n t i a l so fa l lo fi t sa t o m s b e s i d e st h a t t h e p r o t e i nc a no n l yp e r f o r mi t sf u n c t i o nw h e n i ti sa c t i v e b yu t i l i z i n gg e o m e t r y g r a p ht h e o r y t o p o l o g ya n di n f o r m a t i o nt h e o r y w et r yt oa n a l y z et h ea c t i v es i t e so f ap r o t e i na n dp r e d i c t i t sl o c a ls t r u c t u r a lc h a n g e sf r o mt h r e ed i f f e r e n tp o i n t so fv i e w t h e ya l et h eg e o m e t r i c a l f e a t u r e so f t h em o l e c u l a rs u r f a c ep o i n to f v i e w t h ef e a t u r e so f t h es t a t i cp r o t e i nf i e l d sp o i n t o fv i e wa n dt h ef e a t u r e so ft h ed y n a m i c a lp r o t e i nf i e l d sp o i n to fv i e w o u rw o r k sa l ea s f o l l o w s w ep r o p o s ean o v e lm e t h o dt op r e d i c tt h ed o c k i n gb e t w e e np r o t e i n sb a s eo ng r a p h t h e o r y w ef i r s ti d e n t i f yt h ec a v i t i e so ft h em o l e c u l a rs u r f a c ew h i c ha r eu s u a l l yt h e a c t i v es i t e so fap r o t e i n 1 b a s eo nt h eqs h a p e s t h e nw eb i n dt h et w op r o t e i n s t o g e t h e rb yp a r t i a lm a t c h i n gt h ec a v i t i e sw i t ht h el o c a ls h a p eo f a n o t h e rp r o t e i n t h e p a r t i a ls h a p em a t c h i n gp r o b l e mi sc o n v e r t e dt ot h a to fd e t e c t i n gt h em a x i m u mc l i q u e i ng r a p ht h e o r y b ys o l v i n gi t w ea l ea b l et oc o m p u t et h eb e s tr i g i dt r a n s f o r m a t i o n f o rd o c k i n g w ep r e s e n ta l le f f i c i e n ta l g o r i t h mt od e t e c tt h ec r i t i c a lv a l u e so ft h ep r o t e i nf i e l d s f i r s tw ed e s i g na l la l g o r i t h mt oc o m p u t et h eb e t t in u m b e ro fat r i a n g u l a rm e s h i i i 浙江大学博士学位论文 w h e r et h eb e t t in u m b e ri sat o p o l o g i c a li n v a r i a n to f t h em e s h t h e nb ya n a l y z i n gt h e i s o s u r f a c e so f t h ep r o t e i nf i e l dw i t ho u ra l g o r i t h m w ec a nd e t e c tt h ec r i f i c a li s o v a l u e s w h i c ha r ec o r r e s p o n dt ot h et o p o l o g i c a lc h a n g e so ft h ep r o t e i nf i e l d w es u g g e s ta na p p r o a c ht op r e d i c tt h ek e yt i m es t e po ft h ed y n a m i c a lp r o c e s so f p r o t e i n s f i r s tw ec a l c u l a t et h ed y n a m i c a lp r o t e i nf i e l do ft h ed y n a m i c a lp r o c e s s t h e nw ee x t r a c tt h es p h e r i c a lh a r m o n i cd e s c r i p t o r so fe a c hp r o t e i nf i e l d b yc o m p a r i n gt h e s ed e s c r i p t o r s w ec a nd e t e c tw h i c ht i m es t e pi sm o r ei m p o r t a n ti nt h ee n t i r e p r o c e s s w ed e v e l o pan o v e la p p r o a c ht oa n a l y z et h el o c a ls t r u c t u r a lc h a n g e so f t h ep r o t e i ni n i t sd y n a m i c a lp r o c e s s w ef i r s tc a l c u l a t et h ed y n a m i c a lm u l t i a t t r i b u t ep r o t e i nf i e l d s t h e nw ed i v i d ee a c hp r o t e i nf i e l di n t ob l o c k sa n dd e f i n et h ei m p o r t a n c eo f e a c hb l o c k t ob et h e i re n t r o p i e s b ya n a l y z i n gt h et i m ev a r y i n gi m p o r t a n c ec u v eo fe a c hb l o c k w ec a nd e c i d ei fi tb e l o n g st ot h el o c a ls t r u c t u r a lc h a n g ea r e a sa n dw h e nt h ec h a n g e h a p p e n s w ea p p l y0 1 1 1 m e t h o d st os e v e r a lt y p i c a lp r o t e i n sa n d p r o t e i n p r o t e i ni n t e r a c t i o ns y s t e r n s i ts h o w st h a to u rr e s u l t sa r ei d e n t i c a lt ot h ee x p e r i m e n tr e s u l t s t h eb i o l o g i s t sr e g a r d o u rm e t h o d st ob ec r u c i a lt os e v e r a li m p o r t a n ta r e a s e g t h ep r o t e i n p r o t e i ni n t e r a c t i o n p r e d i c t i o na n d t h ep r o t e i nr e c o g n i t i o n k e y w o r d s p r o t e i n m o l e c u l a rs u r f a c e m o l e c u l a rf i e l d t o p o l o g y g r a p ht h e o r y c l i q u e g e o m e t r y i n f o r m a t i o nt h e o r y 图目录 图目录 i 1 蛋白质的组成 2 1 2 蛋白质的四级结构 3 1 3c p k 模型 4 1 4 蛋白质骨架模型 4 1 5 蛋白质分子表面模型 5 1 6 分子场计算流程图 7 l 7 蛋白质分子电子密度场体绘制结果 9 2 1 分子对接示意图 1 3 2 2 匹配分子表面的c o n n o l l y i 蚕i 数极值点进行对接预测 1 5 2 3 哈希匹配预测蛋白质对接 1 5 2 4 利用m o r s e s m a l e 复形分割蛋白质分子表面的凹凸性区域 1 6 2 5 利用s p i n l 要l 像检测分子表面的凹陷区域 1 6 2 6 蛋白质分子表面的口袋区域检测 1 7 2 7 二维o l 形示例 1 9 2 8 预测蛋白质分子对接的流程图 2 0 2 9 蛋白质分子表面的凹腔检测 2 0 2 1 0 蛋白质分子的图表示 2 l 2 1 1 局部匹配 2 l 2 1 2 通过两个结构的图构造新图 2 2 2 1 3 计算对接变换 2 3 2 1 4 计算旋转变换 2 4 2 1 5 计算平移交换 2 5 2 1 6i g f b p 4 的表面凹腔检测结果 2 9 2 1 7 另一个构型的i g f b p 4 的表面凹腔检测结果 2 9 i x 浙江大学博士学位论文 x 2 1 8 两个i g f b p 4 聚合体的表面凹腔检测结果 2 1 9i g f b p 4 和i g f l 对接 2 2 0 另一个构型的i g f b p 4 和i g fi 对接 2 2 l 两个i g f b p 4 的聚合体和i g f l 对接 2 9 3 0 3 0 3 0 3 1 利用轮廓树进行分子场的可视化分析 3 2 3 2 血红素蛋白时变分子场数据的轮廓树分析 3 3 3 3 甲烷数据的m o r s e s m a l e 复形分析结果 3 4 3 4 e 丁数据结构示意图 3 6 3 5t h em e 丁数据结构示意图 3 9 3 6 突出拓扑变化区域的传输函数 4 3 3 7 氢原子电子密度场的一些等值面 4 5 3 8 与其它拓扑学检测方法的对比 4 6 3 9 i g f b p 4 的分子表面与分子场关键等值面对比 4 7 3 1 0 取值为i g f b p 4 分子场的部分关键值的等值面 4 8 4 1 利用对偶轮廓树计算蛋白质的功能相似性的步骤 5 2 4 2 利用j a c o b i 集合比较动态数据 5 3 4 3 球面坐标系统 5 4 4 4 球面调谐分解示意图 5 7 4 5 球面函数逼近表示 5 8 4 6 二维描述符 5 9 4 7h i v 1 蛋白酶分子 6 1 4 8 动态h i v 1 蛋白酶分子场体绘制效果 6 3 4 9h i v 1 蛋白酶动态分子场差异程度曲线 6 4 4 1 0i g f b p 4 与i g f l 分子对接体系的动态模拟过程 6 5 4 i1i g f b p 4 与i g f l 对接体系动态分子场差异程度曲线 6 6 5 1 时变特征跟踪 6 8 5 2 时变特征区域的预测 6 9 术语表 5 3 c h r o n o p h t o g r a p h y 5 4 时变统计直方图 5 5 重要性曲线 5 6 重要性曲线聚类 5 7h i v 蛋白质s m d 动态模拟过程 5 8h i v 1 蛋白酶的通道形成 5 9 h i v i 蛋白酶局部动态分子场的重要性曲线分析结果 5 1 0 第七帧h i v 1 蛋白酶分子数据处于区域r 内的部分 绿色 5 第九帧h i v i 蛋白酶分子数据处于区域 内的部分 绿色 5 1 2i g f b p 4 和i g f i 对接体系的局部动态分子场的重要性曲线分析结果 5 1 3i g f b p 4 与i g f l 对接体系动态过程第一帧示意图 x i 加 加 他 舳 钒 趴 勉 眩 昭 辨 绪论 1 绪论 1 1 蛋白质分子三维结构的重要性 蛋白质是生命大厦的基石 是生物体细胞的重要组成成分 二十世纪生物学的 宏伟计划 人类基因组计划 的完成 标志着生命科学的研究正步入崭新的蛋白质 组学时代 其主要任务之一是揭示人体中约1 0 万种蛋白质的结构 功能及其与人类 疾病之间的关系 寻求预防和治疗疾病的方法 借助于生物信息学 人类在基因信 息的获取和处理上取得了突破性的进展 但是 生物信息学的研究对象 即氨基酸 序列是一维序列 只依赖这些一维序列信息并不足以阐述复杂生命现象中蛋白质的 功能 蛋白质只有在周围环境的作用下折叠成一定的空间结构后才能发挥其功能作 用 2 蛋白质的结构决定其功能是科学家经过长期理论研究与实践所得出的共识 其 三维结构的研究对于理解蛋白质结构与功能的关系 新药发现和蛋白质进化分析等 方面具有重要意义 蛋白质结构与功能的关系是当前生命科学领域所面临的重 大科学问题之一 结构基因组学 3 的兴起 正是为了加快揭示蛋白质三维结构与功 能的内在关系 随着越来越多的研究资源不断投入到蛋白质的研究中 蛋白质结 构数据库快速扩充 大量未知功能的蛋白质序列信息和三维结构数据不断得到累 积 2 这些蛋白质三维结构数据之间可能隐藏着单一序列信息所无法揭示的现象 迄今为止 对蛋白质功能进行分析的方法主要依赖于实验 这些实验往往耗费大量 的人力和物力 研究如何从现有的海量结构数据中挖掘 提炼出蛋白质结构与功能 内在关系的新方法和新工具 是当前生物信息学的重要研究内容 1 2 常见的蛋白质结构模型 蛋白质的基本组成单元是氨基酸 常见的氨基酸有2 0 种 它们由一个位于四面 体中央位置的q 碳原子 瓯原子 一个氨基 聪 一个羧基 c o o h 一 一个 氢原子 日 和一个可变的侧链 冗 组成 图1 1 1 7 一个氨基酸羧基的氧与另一 女 图l l 蛋白质的组成 个氨基酸氨基的两个氢结合生成水形成肽键 两个氨基酸缩台成二肽 三个氨基酸 通过两个肚键形成三肚 接着继续形成四肢 五肚 依此类推形戒多肽链 蛋白质 实际上就是多肽链或者多肽链的组合 通过肤键结合在一起的氨基酸被称为残基 对蛋白质分子结构的合理建模有助于人们理解蛋白质空间结构与其功能之同的关 系 从二十世纪七十年代开始 研究者们推出了一系列蛋白质分子的几何模型 下 面对其中常见的几种进行介绍 12 1 层次结构模型 蛋白质的结构可划分成4 个基本层次 羽 一级结构是指构成多肚链的氨基酸序 列 二级结构指由相邻的若干氨基酸在局部空间折叠形成连续的肚链片段构象 如d 螺旋结构和口折叠结构 三级结构指由二级结构相互作用而形成的三维空间结 构 三级结构的多肽链在空间进一步相互作用 通过非共价键形成大分子体系的组 合 即为四级结构 固12 图12 蛋白质的四级结构 2 2c p k 原子模型 蛋白质的组成单元是氪基酸 它的主要成分包括碳 氧 氨 氢等原子 若只考 虑原子在三维空问的位置和大小信息 那么蛋白质三维结构在空间的分布可以看成 是由一组不同的球体在空间相互叠置而形成的实体 其中每个圆球的位置和大小 由所有组成蛋白质的原子在三雒空间的坐标及其半径决定 这种模型称为c p k 模 型 图13 123 原子一键模型 c p k 模型忽略了蛋白质的原子之间的连接关系 原子 键模型通过原予的位 置和键的形成 根据氨基酸在蛋自质中的捧列顺序对蛋白质进行描述 该模型用 不同半径大小的球代表不同类型的原子 用线段表示原子之间的键 在实际的计 算中通常忽略氨基酸的侧链 用主链原子代替所在氨基酸 如用主链上的连续原 子 一g c 来代替它们所在的氪基酸 或者采用更简单的表示 用巴原子代替所 在的氨基酸 通过将矗原子头尾相接来表示整条链 这种简化的表示方法被称为 骨架表示法 图l43 骨架表示法在考虑每个氮基酸贡献的同时 只考虑氨基酸结 浙 大学博 论文 构中的关键 的复杂性 是目前三维 圈14 蛋白质骨架模型 一一 绪论 1 2 4 分子表面模型 蛋白质分子表面是蛋白质与其它分子之间相互作用的接触面 许多生物化学特 性都体现在分子表面上 如亲 疏水性 表面电荷的正负性 以及不同分子间的相 互作用等 蛋白质表面的合理建模将有助于理解分子对接 识别 相互作用等问题 常用的蛋白质分子表面模型有范德华表面模型 9 溶剂可达表面模型 1o 和分子表 面模型 1 1 1 范德华表面模型是指构成蛋白质分子的所有原子球以范德华半径在空 间叠置而形成的连续轮廓 图1 5 a 溶剂可达表面模型是指用一个溶剂分子作 为探针原子在范德华表面上滚动时 溶剂分子的质心经过的轨迹所形成的连续轮 廓 图1 5 b 分子表面模型由两部分组成 一部分是在探针分子在范德华表面滚 动时 与范德华表面直接接触的区域 另一部分是由探针分子与若干蛋白质原子同 时接触时所对应的探针分子朝向其球心的内表面所构成的局部区域 图1 5 c a 范德华表面模型 b 溶剂可达表面模型 c 分子表面模型 图1 5 蛋白质分子表面模型 1 3 现有蛋白质三维结构表示方法的局限性与分子场 1 3 1 现有蛋白质表示方法的局限性 随着生命科学实验与理论研究的发展 现有的蛋白质结构模型在对蛋白质分子 及其相互作用的刻画方面 越来越显得力不从心 首先 在现有的表示方法中 原 子之间力的作用通过原子之间的连接关系表示 这仅仅反映了力的存在 而无法表 达力的大小 位置和相对方位 其次 蛋白质分子时刻都处于运动之中 现有的蛋 浙江大学博士学位论文 白质三维结构模型难以表达出动态的整体状态 因而在此基础上进行几何结构分析 尚存在难以突破的局限性 1 3 2 分子场 蛋白质分子是一个包含有数以百 千乃至万计的原子的极为复杂的体系 其间 存在多种相互作用 化学键力 氢键力 静电力 范德华力 还有分子内部由于原 子的相对运动所导致的各种振动能 如键伸缩振动 键张合振动 二面角扭陆振 动 原子偏离平面振动等 这个包含各种力作用的系统可统一表示为分子力场 它 是原子尺度上的一种用以描述特定分子体系能量的势能场 整个蛋白质分子处在不 断运动之中 在某一极短时间段 分子体系整体地处于平衡态 但分子间各种作用 力的存在使得局部运动时刻在进行 当外体系分子接近该蛋白质分子体系时 蛋白 质分子特定部位的几何和拓扑结构将发生变化 蛋白质分子体系中的各种相互作用 决定了分子的各个亚结构在空间的形态和变构方式 而这些多重作用在空间中任意 一点可叠加为一个综合性作用 这种综合性作用构成了对蛋白质分子 j r 其是活化 区 行为的一种限制或约束 即 分子场 与现有的蛋白质计算机模型相比 分子 场表示在刻画蛋白质分子体系方面具有其鲜明特色 首先 分子场表示将蛋白质分 子体系考虑为一个整体的场 其次 分子场遍布于三维空间 分子场的三维几何描 述将有利于研究蛋白质结构与功能之间的关系 最后 分子场是动态的 蛋白质分 子体系的多重相互作用可使分子形成相对稳定的空间结构 但这个体系无时无刻不 在运动之中 导致所形成的分子场随着时间不断变化 1 3 3 分子场的计算 蛋白质分子场是分布在三维空间的动态连续场 为便于分析 通常采用离散方 法对其进行计算 将其结果表示为三维空间离散均匀网格上的标量场 在计算分子 场之前 需要先对分子进行动力学模拟 动力学模拟可以从蛋白质的x 射线衍射构 象为出发点 首先添加氢原子 计算每个原子上的部分电荷并构造含有水分子的体 系 然后采用c h a r m m 力场在恒温恒压条件下进行平衡计算 模拟蛋白质在体内液 体环境的柔性结构 同时对时间维进行采样计算 得到的结果为分子的运动轨迹 最后 在得到这些运动轨迹后 通常可以通过两种方法 即分子力学方法或者量子 6 力学方法来计算分子场 图1 6e o 下面我们分别对这两种方法做一个简单的概 述 辩一繁 分子x 射线衍射构象 加氢 力口水 计算 每个 格点 一 的势 能值 网格剖分 图1 6 分子场计算流程图 中 模拟 并采 样 1 331 分子力学方法 分子力学方法认为溶液中的蛋白质是一个受到各种力作用的原子系统 这些作 用力包括化学键力 氢键力 库仑力 范德华力等 静电作用和范德华力是生物作 用中仅有的两种长程作用力 几乎影响着生物化学作用的各个方面 它们决定了分 子的结构和功能特征 对静电势能和范德华势能的准确模拟对基于结构的药物设计 及蛋白质折叠都有着重要的理论和实践意义 这些作用可以通过将空问均匀划分为 网格 由库仑公式或者高斯公式利用探针 为原子 原子团或小分子 计算每个格 点处的静电作用和范德华作用得到 浙江大学博士学位论文 1 3 3 2 量子化学方法 分子力学方法忽略了电子运动 而量子化学则考虑电子运动 蛋白质分子 尤 其以含有金属原子的蛋白质 伴随有电子跃迁 转移 变价的过程 经典的分子模 拟是不能处理的 所以分子场计算需要运用量子化学方法 量子化学将量子理论应 用于分子体系 研究范围包括稳定和不稳定分子的结构 性能 及其结构与性能之 间的关系 分子与分子之间的相互作用 分子与分子之间的相互碰撞和相互反应等 问题 1 4 蛋白质分子三维结构与分子场的分析方法 关于蛋白质分子的建模与分析的文献很多 本节我们简单叙述其中最相关的代 表性工作 1 4 1 蛋白质分子的配接问题 生物分子的表面形状特征在生物分子间的相互作用中起着极为重要的作用 1 3 1 对这个问题的研究主要是为了预测蛋白质分子之间的对接 这方面的工作主要分为 以下两类 穷举搜索法 其目的是寻找使两个蛋白质分子之间达到最佳匹配的空间变换 本质上是一个几何匹配问题 1 4 通常的解法是对所有变换进行打分并选取最 优解 5 为了加速搜索过程 k a t c h a l s k i 等学者利用快速傅立叶变换对刚体变 换空间的搜索进行加速 1 q 基于几何特征的匹配 分子表面的凹腔区域通常是蛋白质之间发生结合的 位点 1 这类方法首先基于各种几何特征检测算法如c o n n o l l y 函数 m o r s e s m a l e 复形 m 2 1 1 等计算出分子表面的凹凸性区域 然后在这些区域进行匹配 搜索 2 2 1 4 2 分子数据场的分析方法 在这类方法中 研究者首先通过模拟计算得到蛋白质分子的各种标量数据场如 电子密度场 静电势等 然后通过对这些数据场进行研究来探索蛋白质分子的活性 区域 目前常见的数据场主要是三维均匀网格上的标量场 如图1 7 a 和17 b 分别 是我们对氢原子和氧原子的电子密度分布场进行体绘制的效果 对于这些标量数据 b r r f 自f g 自 图17 蛋白质分子电子密度扬体绘制结果 场 常见的分析手段有 针对药物小分子的比较分子场分析法 c o m f a 在计算机辅助药物设计中 比较分子场分析法一直是研究的热点 经过十几年的发展 目前已成为最成 熟且应用最广泛的三维定量构效方法 其基本原理是 首先在分子周围定义 分子场空间并均匀划分 在每个格点上计算分子场特征 一般为静电场和氢 键 然后采取偏最小二乘法进行回归分析 建立化台物生物活性和分子场特 征之间的关系 对于小分子 c o m f a 从分子的拓扑 几何 结构 物理 化学 属性出发 揭示结构与功能的关系 取得一定的成功 c o m f a 对于静态小分 子场分析较为有效 但对于蛋白质等大分子尚缺乏有效的算法构建具有明确 物理意义的数据场 分子标量场数据的拓扑分析 对于定义在一个流形上的标量函数 m o r s e 理 论指出 在它的奇点附近的标准表达式是一个二次型 川 并以此为 依据 将 的奇点叩梯度为0 的点分成4 类极大点 极小点 2 鞍点和l 鞍 点 2 5 圳 m o r s e 理论进一步指出 对于h 琏 等值面 一 h 的连通分支的亏格 浙江大学博士学位论文 只在 厂的奇点处发生改变 2 7 1 根据m o r s e 理论 研究者们设计出r e e b 图 轮廓 树和m o r s e s m a l e 这三种结构来对分子标量场数据进行研究 一r e e b 图通过把定义在一个流形上的函数的等值面的不同连通分支捏成一 点得到 它是通过定义在流形上的函数来研究流形拓扑的一种数据结 构 f u j i s h i r o 等 2 8 采用了一种混合的r e e b 图结构来对分子场数据的拓扑 变化进行编码 每一个对应于拓扑变化的等值均对应于r e e b 图中的一个 结点 计算出反映拓扑变化的关键值 一轮廓树是r e e b 图的特殊形式 它们的区别在于 r e e b 图中可以有环而轮 廓树是一个树的结构 标量场s 的一个等值面的连通分支称为一个轮 廓 轮廓树是记录s 所有轮廓之间关系的数据结构 它的结点表示轮廓 的产生 消失 分裂或者合并 它的边则表示了这些变化的连续过程 轮廓树反映了数据场的整体特征 具有仿射不变性 b a j a j 等学者在轮 廓树的基础上提出对偶轮廓树 利用它来研究分子场数据之间的相似 度 2 9 w e b e r 等人利用轮廓树来设计传输函数 在对分子力场的可视化过 程中着重显示等值面拓扑发生改变的区域 3 0 3 1 一m o r s e s m a l e 复形通过研究分子标量场数据的奇点之间的梯度流的 关系建立起分子标量场的拓扑结构 3 2 3 3 e d e l s b r u n n e r 等学者提出了 计算二维和三维的线性流形上的线性函数的m o r s e s m a l e 复形的算 法 3 4 3 5 b r e m e r 等对标量函数进行多分辨率表示 提出了上述算法的改 进算法 3 6 g y u l a s s y 3 7 1 等人借鉴了 w a t e r s h e d 3 8 3 9 变换的思想 采用区 域增长的方法来计算m o r s e s m a l e 复形 大大提高了算法的效率 并利 用m o r s e s m a l e 复形来对分子标量场进行拓扑特征分析和可视化 基于m o r s e 理论进行拓扑分析的方法 无论是r e e b 图 轮廓树还是m o r s e s m a l e 复形 都需要计算分子标量场数据的奇点 但由于数据噪声和数据精度等原因 在计算的 过程中往往产生过多的奇点 因此还需要一个简化奇点的后处理过程 而现有的简 化算法并不能得到令人满意的效果 1 0 绪论 1 5 本文工作 对蛋白质分子的几何特征分析与蛋白质分子数据场的特征分析和计算是探索蛋 白质分子结构和功能之间关系的钥匙 本文将重点对蛋白质分子的几何对接 蛋白 质分子场的结构形态 动态演变进行研究 提出蛋白质分子活性区域的预测方法 主要研究内容包括以下几个方面 1 蛋白质分子之间的对接预测 首先基于计算几何中的a 理论计算出蛋白质分 子表面的凹腔区域 将这些凹腔视为蛋白质之间对接的候选区域 然后基于 图论中的极大团理论来搜索蛋白质之闻的对接变换 2 基于b e t t i 数的蛋白质分子数据场拓扑关键变化区域检测 提出了计算三角流 形网格曲面b e t t i 数的快速算法 将其用于检测蛋白质分子数据场的拓扑发生 改变的关键区域和关键值 进而预测蛋白质的潜在活性区域 3 基于球面调和分析的蛋白质分子动态数据场频谱分析 基于球面调和分析计 算动态蛋白质分子数据场的描述符 通过这些描述符判断动态蛋白质分子数 据场发生显著变化的关键时刻 4 基于信息论的动态蛋白质分子数据场的局部变构区域检测 基于信息论定义 动态蛋白质分子数据场的重要性曲线 通过对重要性曲线进行聚类分析 检 测出动态蛋白质分子数据场发生显著变化的关键时刻和变构区域 1 6 本文的章节安排 本文共分为六章 第一章介绍本文的研究背景 已有蛋白质分子结构功能关系的研究方法和本 文的工作 第二章介绍利用极大团理论进行蛋白质对接预测方面的初步工作 第三章介绍对静态蛋白质分子数据场进行拓扑分析 检测拓扑变化的关键区 域和关键值方面的工作 浙江大学博士学位论文 1 2 第四章主要讨论如何利用球面调和分析这一工具判断动态蛋白质分子数据场 的时间关键帧 第五章以信息论为基础研究动态蛋白质分子数据场的局部变构区域 最后一章对本文的研究内容做出总结 并对该领域今后的研究工作和趋势做 出一个展望 基十 太目目镕 十 目 2 基于极大团理论的分子对接预测 2 1 引言 蛋白质分子对接是对蛋白质之同相互作用的一种预测 分子对接分为刚性对接 和柔性对接两种 目前关于分子对接的工作绝大部分都是刚性对接 其本质是一个 几何匹配问题 本章将重点研究蛋白质分子的刚性对接 图2i 是刚性分子对接 曩 曩瓣熊 图2 1 分子对接示意图 的示意图 在图中 和b 是两个蛋自质分子 刚性对接的目标是寻找一个剐体变 换 使得这两个分子在变换后达到最佳的几何匹配 分子对接是蛋白质科学中的一 个难题 其困难来源于对接的搜索空间即刚体变换空间是一个6 维空间 其中3 维 来自于平移变换 另抖3 维来自于旋转变换 州 对这个6 维空间进行穷举搜索无疑 非常耗时 根据研究 两个蛋白质之间的局部几何匹配在分子对接中起着关键作 用 通过分析蛋白质分子表面的几何特征区域 利用这些特征进行局部匹配可以 大大提高分子对接预测的效率和准确性 蛋白质分子表面最重要的一类特征就是表 面凹腔区域 它们往往是蛋白质之同相互作用的区域叽 在本章中 我们首先基于 形理论来检测蛋白质分子的表面凹腔区域 然后利 用图论中的极大团理论检测在这些凹腔区域两蛋白质分子实现局部几何匹配的可 能性 进而计算最终的对接变换 浙江大学博士学位论文 2 2 相关工作 蛋白质分子对接的预测算法基本上可以分成三类 穷举法 基于分子表面局部 点特征的对接和基于分子表面全局特征的对接 下面我们分别对这几种方法加以叙 述 2 2 1 穷举法 这类方法穷举刚体变换空间的所有变换 对变换进行打分 选取最优解作为对 接变换 i s 为了加速搜索过程 k a t c h a l s k i 等学者利用快速傅立叶变换对刚体变换 空间的搜索进行加速 1 q c h o i 提出一种启发式方法 对搜索空间进行局部搜索求 取最优解 4 2 穷举法在理论上能够准确的预测蛋白质分子之间的对接 但是这种方 法的明显缺陷就是效率太低 目前还不适合于实际应用 2 2 2 基于分子表面局部点特征的对接预测 生物分子的表面形状特征在生物分子间的相互作用中起着极为重要的作用 一个分子的活性很大程度上由其几何形状决定 因此很多学者借助于微分几何和拓 扑学工具计算出分子表面的局部特征点 通过匹配两个分子表面的特征点来减少 搜索空间 其中具有代表性的代表工作有 c o n n o l l y 函数 1 7 1 8 垓0 画了蛋白质分子表面的凹凸性 c a z a l s 等学者以微分拓 扑中的m o r s e 理论为依据 计算出蛋白质分子表面的c o n n o l l y i 垂i 数极值点作 为特征点 然后匹配两个蛋白质分子表面的极值特征点 图2 2 进行对接预 测f 2 0 2 l c o n n o l l y i 蚕数依赖于参数的选取 w a n g 等学者设计了一个蛋白质分子表面上 与方向无关的刻画分子表面凹凸性的函数 然后同样基于m o r s e 理论计算分子 表面的特征点 通过匹配两个分子表面的特征点进行对接预测 4 3 a l e x a n d r a 等学者同时考虑蛋白质分子表面的几何属性和生化属性 以它们为 依据定义蛋白质分子表面的局部特征点 然后构造这些特征点所能构成的所 有三角形的集合并对这个集合建立哈希表 接下来对两个蛋白质分子表面的 1 4 十概 团4 f n 镕璋涮 图2 2 匹配分子表面的c o 衄0 1 y 函数极值点进行对接预测 所有特征三角形进行哈希搜索 找到它们最相似的一对 以此计算对接变 换 图23 0 夕 图2 3 啥希匹配预铡蛋白质对接 基于蛋白质分子表面特征点的对接预测方法依赖于蛋白质分子表面凹凸性函 数的构造 目前已构造的函数往往依赖于参数的选择 特征点的计算过程也受到噪 声等因素的影响 导致预测算法不够鲁棒 2 23 基于分子表面全局特征的对接预测 蛋白质分子表面最重要的特征区域当属具有明显凹凸性的区域 它们通常是蛋 白质之间发生结合的位点 1 因此一种有效的对接预测方法就是首先检测出分子表 面的凹凸性区域 然后在这些区域进行对接搜索 这方面的典型工作有 n a t a r a j a n i 博人基于m o r s e 理论 着重分析了蛋白质分子表面分子密度函数 的梯度流 利用m o r s e s m a l e 复形对具有相似梯度性质的区域进行分割 得到 分子表面具有相似凹凸性的区域 图24 f a f 最 口自e 壤 d0 目 口口e 图2 4 利用m o r s e s m a l e 复形分割蛋白鹿分子表面的凹凸性区域 s p 图像被广泛应用于三维物体的自动识别 4 卅 b o c k 等学者根据s p 越图像的 原理f 4 5 蜘 将蛋白质分子表面的每一个局部映射到一个二维图像 通过研究 这个二维图像检测蛋白质分子表面的凹陷区域 图25 黎一 攀警 t a 十于 的s p m 目镕m l 自m 口 e 图2 5 利用s p i n 图像捡捌分子表面的凹陷区域 蓼 再一 f m 团4 十w 搔 蛋白质分子的口袋区域是分子襄面上具有 里大外小 的特征区域 图26 它们往往是蛋白质容纳其它小分子的活性区域 e d e l s b r u n n e 埔过 形设计出 自动检测蛋白质分子表面的口袋区域1 4 7 4 8 l 的算法 0 自m h f 口 e 域 i i i b f 口 e 图2 6 蛋白质分子表面的口袋区域检测 在上述方法中 基于m o r s e 理论的方法能够描述蛋白质分子表面的整体性质 但是计算量大 分割结果受噪声影响严重 基于s p m 图像的分析方法受到所选择图 像分辨率的制约 对于大分子很难取得准确的结果 蛋白质分子表面的口袋区域无 疑具有重要的生物意义 但是它还不足以概括分子表面韵所有特征区域 2 3 背景知识介绍 2 3 1 极大团 设g 是一个图 g 是d 妁一个子田 如果q 是完全连通的 那么它就称为图g 的 一个团 极大团问题就是寻找图g 中顶点数最多的团 它可咀通过回溯法解决 计算一个图的极大团的计算复杂度取决于该图的性质 一方面 对于一般的无向 图 其极大团的计算是y p 难问题 另一方面 对于一个稀疏圈 其极大团可以非常 高效地计算出来 极大团可以用来解决圈论中的最大公共子囝问题 m c s 对于两个图g 和g 2 它们的最大公共子国是这两个图中同构的最大子图 最大公共子图问题可以通过如 下方法解决首先对两个冒进行m o d u l a r f l 乘生成一个新的图 这个新构造的图的 极大团对应着这两个圈的堆大公共子图 浙江大学博士学位论文 2 3 2a 形理论 o 形是计算几何中的一个重要概念 它由e d e l s b m n n e r 提出 5 l 被应用到曲面重 建等领域 定义如下 定义2 1 设s 是r 3 中的一个点集 d s 为其d e l a u n a y 三角化的结果 对于一个给定的 实数a 我们构造一个集合b b 中的每一个元素是一个球 其球心为s t 的点 其 半径为o i 受k b a 为如下的单纯复形 a 奴 d bjub a n 呶 o 其中ub 理 是b 中的球的并集 v x 是d e l a u n a y 角化的单形5 x d b 在其对 4 禺v o r o n o i 中对应的胞腔 这个单纯复形的底空剐 口 j 称为s 的理形 图2 7 是q 形的一个直观的几何解释 对于一个空间点集和一个给定的实数o t 我们用无穷多个半径为口的球 6 1 6 2 来覆盖r 3 但是这些球不能包含s 中的点 这些球的补集称为s 的理壳 通过把q 壳中的弯曲部分用直线和平面代替 就得到点 集s 的a 形 当 很小 如a o 时 s 的a 形退化到s 自身 随着q 逐渐增大直至无穷 大时 s 的o t 形发生改变 最终成为s 的凸包 点集s 的a 形是一族用来刻画s 在不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年串联并联讲题题目及答案
- 2025年驻厂监管员考试题及答案
- 寝室口味调查题目及答案
- 2025年山东省淄博市事业单位工勤技能考试题库及答案
- 2025年乐理期末考试试题及答案
- 2025年中考数学模拟试卷及答案
- 八年级上册英语期末测试卷及答案
- 2025年小学数学超速题目及答案
- raz分级阅读绘本e课件
- qiuluji课件教学课件
- 西方现代思想讲义
- 细胞膜的结构和功能 教学课件
- 2021综合能源管理平台技术白皮书
- 丹凤县棣花镇生活垃圾填埋场建设监理规划
- HG-T 6038-2022 聚乙烯蜡微粉
- 学前教育普及普惠督导评估内容和标准量化评分表
- 2024年苏州历史文化名城建设集团有限公司招聘笔试冲刺题(带答案解析)
- 《国际中文教育概论》课件 第三章 国际中文教育与跨文化教育
- 初中俄语七年级第一课课件
- pvc板材生产工艺流程图
- 新能源汽车功率电子基础 习题答案汇总(程夕明) 习题集1-6
评论
0/150
提交评论