




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京工业大学工学硕士学位论文 对c a p 砒第8 轮的两个结构分别用组合打分c o m s c o r e l 与r p 进行筛选 结果显示 组合打分c o m s c o r e l 捕获的有效结构数目明显多于r p 而且排 序先于r p 并能够囊括r p 搜寻得到的有效结构 在c a p r i 第9 轮 对组 合打分训练集进行了优选 发展出组合打分c o m s c o r e 2 通过b e n c h m a r k l 测 试 c o m s c o r e 2 显示出较c o m s c o r e l 更强预测能力 从对t a r g e t2 5 打分预 测结果上看 组合打分c o m s c o r e 2 分别捕获到可接受预测和中等预测模型中 l m 8 d 最小者 并且在所提交的全部1 0 个模型中 有6 个评价为可接受预测 或中等预测 其综合表现位居本次打分预测之首 可见 本论文发展的组合打分函数c o m s c o r e l 和c o m s c r e 2 基本能够体 现o t h e r 类复合物的物理化学特征 反映出复合物形成前后的能量变化关系 具备一定的从大量采集构象中筛选获得有效结构的能力 适用于对o t h e r 类型 复合的对接构象进行打分排序 组合打分将蛋白质分类思想引入打分函数设 计 旨在突出分子识别过程中基于复合物类型的物理化学特征 重在实用往与 高效性 并得到实践验证 为今后分子对接领域打分函数发展提了供借鉴 关键词 蛋白质一蛋白质相互作用与识别 分子对接 打分函数 0 t h e r 类蛋白 质复舍物 c a p m i i a b s t r a c t a b s t r a e t i nt h ew a k eo ft h ec o m p l e t i o no ft h eh u m a 丑g e n o m ep r o j e c t l i f es c i e n c e s 8 t r i d ei n t ot h ep o s tg e n o m ee r aa tt h eb e 舀n n i n go ft h i sc e n t yd i s c 0 他r i n g t h ep r o t e i n s s t r u c t u r ea n dm n c t i o nr e l a t i o n s h i pa n di n t e r a c t l o np r i n c i p l e sh a 昌 t 啦n e dt ob et h em 函ns c i e n t i cr h y t h mi nt h en e we r a e x t e n s i v ea n di n t e n s i v ec o p e r a t i o nb e 七w e e nd i r e n td i s 啦 u n e 8t h r i v e s a n db e c o m e st h ei n 七r i i l s i c r e q u e 8 to fa n dt h ec a r d i n a lf o r c ef o rt h ed e v e l o p m e n to f1 i f es c i e n c e s e s p e c i a l l y t h er a p i dp r o 擎g s s t h e 班必t w 晒e n c e e 出j 勰dd e p 0 8 嫩d 珏dm 由幽 t h e l 鲥g eq u 啦t i t i e so fd a t i ti i l j e c 把d 呱p r e c e d e n t e dp a 飑rt ol i f es c i e n c e s u n d e rt h ec i r c u m s t a n c et h a tt h er e l a t i 0 出h 岫b e t w e e nt h es t r u c t u r ea n df u n c t i o no f m 们r ob i o m o l e c u l a ra s s e m b l i e sb a 1 l yn e e d su n 如r s t a n d i n 昏 m p u t a t i o nm e t h o d c a nt 出ei t ga d v a n t 8 9 et om a k ef e tc o n t r i b u t i n si np r e d i c t i n gt h ec m p l e x e 8 s t r u c t u r e sa n d8 t u d y i n gt h em e c h a n i s mo fm o i e c u l a rr e c o g n i t i o n a 1 t h o u g ht h ee x p e r i m e n t a lt e c l l n i q u e so fs t r u c t u r a lb i 0 1 0 9 ya r ep r o g r e 8 8 i n gr a p i d l y lt h eb o t t l en e c l c o fi i l a c r ob i o l o g i c 出c m p l 娃e ss t r u c t u r e bd e t e r i n j n a t i o ni s1 e 竹t ob r e a kt h r o u g h c o m p u t a t i o n a lm e t h d o l o 舀e 88 嘲村i z et h ek n a w n 8 t r u c t u r ed a t aa n du t i l i z et h e f u n d a m e n t a lp h y s i c 8 la n dc h e m i c a lp r i n c i p i e si 1 1m o l e c l l l 吖s t r u c t l l r e sp r e d i c t i o n a n di i l 七e r r n o l e c u l 踞i n t e r a c t i o n si n v e s t 遮a t i o n w k c h 硪ub e8c o n s t r u c t i v ec o m p l e m e n tt dt h ee x p e r i m e n t a l8 t u d i e s 蛆de v e nc a np r o v i d es o m ei n 8 i g h t f i l lc l u e st o t h ee c p e r h n e n t a l i s t s a m o n g 文l lt h et h e o r e t i c a la p p t o a h e st op r e d i c tt h eb i o b 垂c a 上c o m p l e x 矗垤u c t u r e s m o l e c u l 缸d o c k i n gh a 8 i r a w ns p e c i a la c 撕t ca t t e n t i o n i tp r i m a r i l y n t a i n st w og r a d i e r l t s w h i c ha r ee x p l o r i n gt h ec o n f o n a t i o n a ls p a c ea n ds c r e e n i n g t h eb e s ta s s o c i a t i o nm o d e sw i t ht h es c o r i n gf h n c t i o n t h ea c c u r a c yo ft h es c o 卜 i n gf u c t i o nm r e c t yi n f i u e n c 档t h es u c c e s sr a t e fp r e d i c t i o n c 0 n 8 e q u e t l y t h e s c o r i n gf u n c t i o ns t u d i e sh a st u m e dt ob et h e h o ty e tt o u g ht o p i ci nt h ed o c k i n ga 1 g o r i t 王1 i 工ln o w a d 邮 t h ec o n w c t i o n a ls c o r e sw e r ed 1c o n s t r u c t e dw i t ht h ep u r p o s e o f 挈a s p i n gt h eu n i v e r 8 缸1 8 w 七h 贰g v e r n 8a up r o t e i nc o m p l 娃e sf o r m a t i o n h o w 北京工业大学工学硕士学位论文 e v e r t h ed i 圩e r e n c eb e t w e e ns t r u c t u r e sa 丑df u n c t i o n s ft h eb i 0 1 0 舀c da s s e m b l i e s i nt h e1 i v i n go r g a n i s ms h o u l dn o t b ef o r 9 0 t t e n t om e e tt h ed i f f e r 印tp h i 0 1 0 百c 以 d 锄a n d s8 n df c u o wt h ee v 出m i o nr o u t e t h em 口 e c u l 缸f e a t u r e sa n dr e c o g n i t i o n m e c h a n i s m sn e e dt od i v e r g e h e n c e b a s e do nt h eo b s e r 砒i o nt h a td i 艉r e n tc o m p l e x e sh a v ed i s t i n c 七i v e c h e m o p h y 8 i c a lc h 8 r a c t e r 8i t h ei n 七e r f a c e s 8 p e c i f i cs c o r i n gf u n c t l o n sw e r ed e s i g n e di i lt h l s a r t i c l ef o rt h eo t h e r t y p ep r o t e i nc o m p l e x e s e x p e c tf o re n z y m e i n h i b i t o ra n da n t i g e n 鲫t i b od y t os e l e c t t h ee 纸c t i v e8 t r u c t u r e si nt h e p r o t e i n p r o t e i nd o c k i n gp r o c e d u r e t h eo t h e r t y p ep r o t e i nc o m p l e x e su 8 u a l l y p l a yk e yr 0 1 e si nt h es i g n a lt r a n s d u c t i o np a t h w a s y n e r 百s t i ce 髓c t sa n dm 卸y o t h e ri m p r t a n tp h y 8 i o l o 舀c p r o c e s s e si nt h eu v i n go r g a n i s r i l 8 b o t ht h e o r e t i c p r e d i c t i o n s8 丑de x p e r i m e t a ld e t e r l i n a t i o n 8a r eh 盯dt om a d eo ns u c hc o m p l e x e s s oi ti sh i g h l y 也 r 武沁a 王1 ym e a i n g 蛐3 sw e ua sp t 色c t i c 8 1 l yv 8 u a b l et om a k e s t u d yo nt h e s ep r o t e i nc o m p l e x e s t h ec o m b i n a t o r i 出s c o r i n gf 1 1 n c t i o n sf o rt h e o t h e r t y 雕 m p l e x e 8w e r ec o m p 0 e do ft h ea t o i l l i c n t a c te n e r 盯 e 4 c e v a n d e r h 蛆s a n dd e c t r o s t a n ci n t e r a c t i o ne n e r 西e s t h ew e i g h to fe b c ht e r mw 蹋 b t a i n e db yt h em u i t i p l el i n e rr e g r e 8 s i o na p p r o a c h t h et e s tr e 8 u l to n1 7o t h e r l t y p e c o m d l e x e 8f 如mc a p r ib e n c h m 眦k 1d 唧o n 8 t r a t e dt h a tt h ec o m b i 工l a t o r i a ls c o r i n gf i l n c t i o nc o m s c o r e lo b t 缸n e dh i g h e rs u c c 鹳sr a t et h a nr p i nc a p r jr o u n d 8 b o t hc d m s c o r e l 明dr pw e r eu s e dt os c o r et h ep e d i c t e dm o d e l s t h er e 8 u i t 8 h a w e dt h 8 tc o m s c o r e lc a p t u r e dm o r e 硪 t i v es t r u u r e 8w i t h1 1 i g h e rr 姐k st h a n r p a n di tc o v e r e da ut h ee 矗酏t i v ep r e d i c t i o n sm a d eb yr p i nc a p r ir o u n d9 t h e 七r a i n i n gs e 乇w 硝h r t h e ro p t l m i z e dt og e n e r b t et h ec 曲i n a t o r i a ls c 凹ec m s c o r e 2 7 b 弗t e dw i t hc a p r ib e n t 血m 盯k 1 c o m s c o r e 2r e 丘t s h e dt h es u c c e s 8r a t e r e c o r ds e tb yc o m s c o r e l a p p l i e di ns c o r i n gt a r g e t2 5 c m s c o r e 2 舡r e 8 t e dt k l e a s tl n s dm o d e l 8b o t hi nt h er e 百o n t h e8 蕊e p t 矗b l ep r e d 王c t 沁璐a n dt h 8 土 t h em e d i u mp r e d i c t i o 璐 s o ft h et e ns u b m i 8 s i o n ss e l e c t e db yc o i 珊c o r e 2w e r e 鹪s e s s e da s8 c c e p t a b l e0 rm e d i 眦p r e d i c t i o n s f 如mt h ec o m p r e h e n s i v ep r o s p e c t c o r n s c o r e 2 ss c o r i n gp e r f o r m a c ew 蠲r a n k e d1 8 t8 m o n ga ht h es c 0 e si nc a p r i v a b s l r a c t r o u n d9 i ns u m m 8 r y t h ec o m b i n a t o r i m8 c o r i n gf u n c t i o n 8c a nd e l i n e a t et h ej n t e r a 砒i o n f e t u r eo f 屯h eo t h e r t y p ec o h l p l e x e s r e f 慨tt l l ee n e r 盯c h a n g ed u r i n gt h ec o m p l e x f o r m a t i o n a n dh a et h ec a p a c i t yo fd i s c r i m i n 8 t i n ge 妊b c t i v es t r u c t u r e sf r o mt h e l a r g en 脚b e ro ft h ed o c k e di n o d e s t h ei d e ao fp r o t e i nc l a 8 s m c a t i o nw a si n t n 出l c e di nt h ec o m b i n a 七o n a 工8 c i n gf u n c t i o a 8d e 8 i g nw i t h 越mo fe m p h 8 8 i z 沁gt h e d l e m o p h y s i c 虹f b a t i l r e o f t h e o t h e r 咖e p r o t e i nc o m p l 耿e s 恤t h ec o u r s e o f m o l e c u l a rr e c o g n j t i o n t h i 8r e f 0 吼w 蠲c o n f i r m e db yt h ec a p r l e 印e r i m e n 七sa 1 1 d8 e t u pag o o de a m p l ef o rt h ef i l t u r es r i i l gf l i n c t i o nd e v e l o p m e n ti nt h em 0 1 e c u l a r d o i l c i i l gs t u d i e s k e y w l o r d 8 p r o t e i n p r o t 咖i n 七e r a c 七i o na 丑dr e c o g l l i t i o n m o l e c u l 甜ed o 妇g s c o r j gf i l n c t i o 珥o t h e r t y p ep r o t e i c o m p l e 拽s c a p r i v 独创性声明 本入声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其他 人已经发表或撰写过的研究成果 也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过豹材料 与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意 签名 旁丘查谴密日期 副 f 关于论文使用授权的说明 本人完全了解北京工业大学有关保留 使用学位论文的规定 即 学校有权 保留送交论文的复印件 允许论文被查阅和借阅 学校可以公布论文的全部或部 分内容 可以采用影印 缩印或其他复秘手段保存论文 保密的论文在解密后应遵守此规定 陛赴吼趔五 第1 章引言 本世纪初 人类基因组计划测序工作基本完成 人类科学进入了后基因组 时代 蛋白质及其相互作用成为生命科学领域的主题 包括物理学 化学 数 学 计算机科学等学科在内多学科多领域交叉予生命复杂体系的研究 特别是 计算机科学的迅速发展 使得对于生物领域海量数据的分析成为可能 将为后 基因组时代的蛋白质组学 功能基因组学等研究注入强大的动力i i 本文以计 算机方法研究蛋白质识别与结构功能为主题 展开对分子对接中打分函数的研 究 1 1 研究背景 基因组计划为人类提供了多种生物近乎完整的基因图谱 基因的功能问题 将成为今后研究的热点 大多数基因的最终产物是相应的蛋白质 因此要认识 基因的功能 必然要研究基因所表达的蛋白质 蛋白质的功能往往体现在它们 与其他蛋白质 核酸等生物分子的相互作用之中 蛋白质间相互作用存在于机 体每个细胞的生命活动过程中 如基因的复制 转录 翻译以及细胞周期调 控 免疫反应等 无不有赖于蛋白质之间以及它们与其它生物分子间的相互 作用 蛋白质常常聚合形成功能复台体鸭有些结合紧密 有些仅短暂相互作 用 但都在生命活动中发挥着至关重要的作用 例如 核孔复合物调控生物大 分子在核膜两侧的交通 微管与分子马达复合物担负起细胞内分子转运工作 突触后密度复合物是神经传导途径的重要部件 因此 对于组成这些复合物的 蛋白质问相互作用的结构性描述将有助于从生物化学 细胞以及更高的层次去 理解生命过程的机理b q 1 2 蛋白j 嘉蛋白质相互作用与识别的研究意义 迄今 存储在p d bb a n k h t t p w w 霄 r c s b 肼g p d b w e l c o m e d 0 中的生 物分子结构已经超过3 60 0 0 而其中所包含的复合物结构仍为数不多 虽然 已经有人根据p d b 数据通过计算方法构建蛋白质四级结构数据库 p q s 已经有人根据p d b 数据通过计算方法构建蛋白质四级结构数据库 p q s 一1 北京工业大学工学硕士学位论文 但是该方法本身建立在理论推理基础之上 并非真实的实验观测 所以错误 在所难免1 6 1 目前 最全面的蛋白质一蛋白质相互作用信息来自s n c c h d m m c e s e e 他口i 蠢口g 基因组 约含有65 0 0 个蛋白 预测其间相互作用却超过3 00 0 0 吼 人类 尽管在基因水平上与酵母基因组具有相似的基因数目 与老鼠基因组具 有高度的序列相似性 但是在蛋白质组水平却显示出更高层次的复杂性 会有 成倍于酵母基因体系的相互作用复合体有待解析 l 解析生物大分子空间结构的主要实验技术有x r a y 晶体衍射和核磁共振 n m r x r a y 晶体衍射仍然是当前最主要的蛋白质及复合物结构解析手 段 并因其解析精度而被誉为 金标准 然而 样品结晶仍然是一大技术瓶 颈 限制了使用 r a y 晶体衍射方法析生物分子复合物的数量 为了获得x r a y 晶体衍射结构 需要制各毫克级的高纯度样品 一些大分子复合物 例如细胞 膜蛋白 病毒衣壳以及大量瞬间弱作用复合体特别难于结晶 而且多分子组合 体往往弱散射 并对幅射敏感 9 1 n m r 方法对样品要求较为宽松 可以用于溶 液状态下结构解析 但是很长时间以来一直只适于测定小分子量蛋白 3 0 一4 0 k d a 1 q 后来发展的t r o s y 和e r j n e p t 技术使n m r 解析1 0 0k d a 以上的 生物大分子成为可能 1 1 1 2 1 3 j 单粒子电子显微镜 e m 和电子断层摄像技术 可以提供蛋白复合物的整体形貌和对称性 并可以利用高解析度的单体结构构 建复合体结构 电子断层照像技术解析细胞中大型细胞器结构精度可以达到5 0 a 单粒子电子显微镜解析大于3 0 0k d a 的生物大分子精度可以接近5a 可 是 这仍然不能达到原子识别水平 双杂交 1 5 蛋白质谱 l q 蛋白质芯片i l q 等 方法主要用于研究蛋白质间识别作用 这些方法的目标是获得例如酵母f 1 8 等简 单细胞体系中的全部蛋白相互网络 但同样面临着解析精度的问题 q 计算方法上可以通过比较模建 分子对接等方法进行复合物结构预测 给 定具备一定序列相似度的复合物结构信息 往往可以通过比较模建的方法构建 未知复合物结构印 根据序列相似性预测结构相似性是否可行呢 研究发现 序列相似度达到3 0 以上时 两蛋白将表现出结构上的相似性口 j 然而 重复 地使用这些结构域 那分子相互作用的特异性又将如何体现呢 实验表明 这 些相互作用有些是高度专一的 毖l 也有部分重叠的存在f 2 3 因此 比较模建的 的可靠度和准确性需要进行验证 而且 对于难以找到高度相似的蛋白复合物 2 第l 章引言 就无法应用这一方法了 分子对接方法根据几何 能量互补原则 寻找单体蛋 白间的最佳匹配模式 分子对接方法最初用于研究蛋白质与配体识别与相互作 用 取得一定的成功后发展成为药物发现领域的重要计算方法 通过数据库筛 选寻找和优化先导化合物 2 s 在此基础上 分子对接方法逐渐向蛋白质一蛋 白质 蛋白质一d n a 复合物结构预测拓展 尽管分子对接方法还没到达技术成 熟的阶段 但已经能够成功地预测给定蛋白质间的识别界面 l 当前 蛋白质 复合物对接算法发展迅速 已经成为众多计算机模拟方法中举足轻重 应用广 泛 前景广阔的一支 日益得到学术界的关注 1 3 蛋白质一蛋白质结构预测竞赛 c a p r i 旨在推动蛋白质对接算法发展 欧洲分子生物学实验室和欧洲生物 信息研究所自2 0 0 1 年发起了c r i t i c b la s s e s s m e n to fp r e d i c t e di n t 毁8 c t i o n s c a p 眦 m 迄今已经成功举办了9 届 按照单体分子坐标的来源 可 以将对接划分为三种类型 即结合态 b o u n d 对接 半结合态 s e m i b o u n d 对接和非结合态 u n b o u n d 对按 b o u n d 对按是指拆分组成复合物结构 并通过计算方法重新进行构建 u n b o u d 对接是组合两单独解析的蛋白质结 构 s e m l b o u n d 对接则是指对接二体之一来自独立解析结构 另一个是复合物 结构的一部分 在c a p r i 比赛初期 1 2 轮f 2 8 1 主要目标是研究s e i n j b 蚰d 对按 在这一阶段 所选目标前v d b a u n d 单体在缩舍前后构骞变化相对较 j 许多对接方法将蛋白单体视为刚体 应用快速傅立叶变换 f f t 算法进行全 空间采样 使用主要基于几何互补原则的打分函数 从大量对接样本中筛选出 最佳结果 在分子柔性处理方面 主要采用分子力学方法优化对接结构 或软 化分子表面的方法间接地考虑分子柔性1 2 9 但这并不能够很好地适应那些结合 前后分子构象变化大的情况 因此 优化打分函数和考虑分子柔性成为后阶段 分子对接算法的主要研究方向 3 0 在第二阶段c a p r j 3 5 轮 3 1 1 出现了许 多需要先对分子进行同源模建然后再进行对接的例子 这无疑对结构预测又提 出了新的挑战 此外 这一阶段的对接目标分子结合前后构象变化程度也高于 上一阶段 势必要求在对接过程中加入分子柔性信息 分子柔性的考虑主要 从铡链邪主链两个角度出发 针对侧链柔性发展出了侧链转予库 3 3 多拷贝优 3 北京工业大学工学硕士学位论文 化1 3 q 针对主链的柔性 发展出了多构象叠落 删 运动域分块刚等方法 在 打分方面也有所进展 涌现出诸多新的打分函数 然而 从历次c a p 融竞赛 结果看 参与者提交的预测结构的排序结果仍然在一定程度上缺乏可靠性 因 此 进一步改进打分函数是以后c a p 砒的一个重要目标 从c a p r i 第8 轮 开始 设立了与结构预测平行的打分能力评价 充分显示了发展准确 快速的 打分方案的追切性和重要的学术意义 4 第2 章蛋白质 蛋白质对接方法与打分函数的研究 第2 章蛋白质一蛋白质对接方法与打分函数的研究 2 1 分子对接基本原理 分子对接是指从蛋白结构信息出发 通过计算方法构建合理的复合物空间 构象 先验知识可以为对接预测提供导向 例如结合位点信息可以有效地缩小 构象搜索空间 提高预测成功率p 8 3 9 通常情况下 蛋白质结构的解析是建立 在长期大量调研基础上的 所以会有生物学信息可寻 对结合能贡献比较大的 热点残基 在蛋白表面分布相对保守 为理论预测结合界面提供索 4 0 4 1 已 知同源复合物结构对结构预测也有帮助 抗原毒素与t 细胞受体在c a p r i 中 的成功对接就是一个例子 对接方法早期的理论基础是e r l i lf i s c h e r 提出的 锁 钥 原理 以后的实验发现 尽管结合态与自由态分子间存在很大的结构 相似性 但绝大多数蛋白质都在结合过程中会经历可观测的构象变化 被理解 为 诱导契合 过程 给复合物结构预测带来了巨大的挑战 为了模拟分子识 别过程 对接方法需要首先对体系进行模型化 得到分子的几何表示 然后广 泛搜索构象空间 产生大量对接构象 最后进行打分排序 筛选出最佳匹配模 式 2 1 1 体系表示 分子对接第一个步骤就是对蛋白质分子进行几何描述 特别是表面部分 描述方法与以后的采样策略密切相关 只有很少的对接方法直接采用原子结构 进行描述 更多的方法中需要将蛋白表面格点化 4 3 1 或进行球谐面表示 表示 表面的小球有时基于c o i u l 0 1 l y 表面被简化为稀疏关键点 4 4 上述表示方法都可 以进一步软化来间接允许侧链柔性 柔性大的长侧链对搜索正确结合模式是不 利的 这些残基一部分作为 锚定 与结合口袋作用 另一些 往往是结合区 边缘部分 起到 诱导契合 功能h 5 4 6 另外处理长侧链的方法是将其截断 但这种方法似乎并不十分理想 但通过改变可变侧链格点单元的权重可以一 定程度上改进结果l 蚰 其它软化表面的方法还有低分辨率对接 4 9 使用侧链简 化模型f 5 0 l 以及增加表面厚度 1 等 一5 北京工业大学工学硕士学位论文 2 1 2 搜索策略 即使在分子刚性假设条件下 仍然有六维构象空间有待搜索 目前常用的 全空间搜索算法有快速傅立叶变换 跏tf o u r i e rn a n s f o r m f f t 算法 遗传 算法 g e n e t i ca 1 9 0 r l t h m g a 和蒙特卡洛 m o n t ec a n o m c 算法 k a t c h a l s l i k a t z i r 等首次将f f t 用于分子对接方法中 发展出 f t d o 出弘硝 该方法对受体和配体分子的几何形状进行离散化 以几何 互补性标准筛选结合模式 之后 s t e m b e r g 小组对该方法进行了改进 发展了3 d d o c k 程序 5 2 改进后的方法不仅考虑了受体和配体分子表面 几何互补性 而且增加了静电互补性评价标准 出予f f t 算法的高效 性 它被广泛地使用 产生了一系列蛋白质一蛋白质分子对接程序 如 z d o c k 5 3 d o t 叫 s m 0 0 t h d o c k 佟5 c l u s p r o l 5 叫等 遗传算法的基本思想m 7 5 目起源于达尔文的自然选择学说 遗传算法模拟 遗传选择和自然淘汰的生物进化过程 符合适者生存的自然规律 是具 生 存 检验 的迭代过程的优化算法 遗传算法以种群中的所有个体为对象 利 用随机化技术和适应性函数指导对编码的参数空问进行高效搜索 其中 选 择 交叉和变异构成了遗传算法的遗传操作 参数编码 初始群体的设定 适 应性函数的设计 遗传操作设计 控制参数设定五个要素组成了遗传算法的核 心内容 遗传算法的主要特点是直接对个体对象进行操作 不存在求导和函数 连续性的限定 具有较好的全局寻忧链力 概率化韵寻优方法 链自动获取并 指导优良解的搜索 自适应的调整搜索方向 不需要确定的规则 作为一种全 局优化算法 遗传算法以其简单通用 适于并行处理以及高效 实用等显著特 点 在各个领域得到了广泛应用 取得了良好的效果 并逐渐成为最重要的智 能化算法之一 g a r d i n e r m o l 和脚l o r 川利用遗传算法进行构象搜索 g 盯d i n e r 采用溶剂可接近表面来描述蛋白质分子 并标有法线矢量 曲率和氢键特性 以表面几何匹配性来筛选对接结构 哪l o r 则采用分子势能作为适应性函数来 淘汰或保留对接构象 蒙特卡洛方法的基本思想 是在相空间中随机地采样并计算目标函数值 经过大量的采样后 保留已经得到的最优解作为最终解 蒙特卡洛方法不受解 的空间结构和分布的影响 在采样数趋近无穷对以概率1 收敛到全局最优解 6 一 第2 耄蛋白质一蛋白质对接方法与打分函数的研究 但在现实中不可能无限地试探解空间中的点 因此 有人提出从物理系统倾向 于能量较低的状态 而热运动又妨碍它准确落入最低态的物理图象出发 采用 重要性采样鹩方法 即m e t r o p l i s 准则 5 9 l 具体方法描述如下 先选取一个初 始状态盯 由口出发 产生一个新的状态已仃 计算能量e f 口 和e 口 如果 且 盯 e 口 不能简单抛真口7 否则 就是忽略了热运动的影响 这时两 个系统的玻尔兹曼因子的比值 r 印f 坠掣1 2 1 总是小于1 的数 其中 是b l t z m 蛆n 常数 丁是绝对温度 用随机发生器 产生一个0 到1 之间的随机数f 如果r f 采样盯 还算重要 要保留下来 只有r 时 才抛弃口 仍用原来的口 无论是蒙特卡洛方法还是改进的重要 采样方法 其本质思想都是在相空间中随机采样 期望在足够多的采样点中找 到一个较高质量的解 这些方法不受解空间结构和分布的影响 是一种通用的 方法 跏s e t t a d o c k 程序 3 3 采用m c 算法进行全空间构象搜索 整个过程包括 低分辨率采样和高分辨率优化硬个阶段 在前一阶段 用氨基酸骨架鹰i 子邪铡 链质心来构建分子模型 m c 算法进行空间搜索 一个低分辨率的势函数来判 断结构保留与否 在第二阶段 所有的重原子和极性氢原子被复原 再一次用 m c 算法来优化并安装侧链 此时目标函数是更加完整的全原子势函数 除此之外 还有一些其他的方法用于构象搜索 如球极傅立叶相 关 s p h e r i c a lp 0 l a rf u r i e rc o r r e l a t i o n 6 2 1 构象空间退火 c o n f o r m a t i o n 址s d a c e a n n e a u n g 3 等方法 2 1 3 分子柔性 对接算法将分子简化为刚体模型以减小计算开支 是因为在搜索阶段遍历 全部构象是不切实际的 比较现实的方法是在对接实践中采用构象系综 而非 单一的初试结构 这样可以通过调节分子不同区域的权重 对对接加以引导 构象系综可以通过收集多晶体结构或n m r 构象的方法得到 也可以来自随机 热力学采样 6 4 1 多条分子动力学孰迹 6 5 l g a 算法采样 6 1 等 考虑蛋自质分子 7 北京工业大学工学硕士学位论文 柔性的方法还有分子走向 t r a c e 模型 6 7 在对接采样中 分子模型仅使用 c 0 原子或蛋白质骨架或骨架加部分侧链原子来搭建 搜索结束后再安装并优 化侧链 这种低分辨率的对接考虑了侧链原子的运动 运算速度快 其思想引 起了人们很大的兴趣和关注 a b a 盯叽和其同事在s c h e r a g a 等提出的方法 6 8 基础上设计了i c mp 8 e u d 争b r a w n i a n 算法侧 是一种基于m c 的方法考虑蛋白 质分子骨架运动 取得一定的预测成功 分子铰链弯曲 h i n g e b e n d i n g 的 运动方法1 7 1 3 7 主要处理有结构域间发生运动的情况 根据一定的判断 分子 被分为几个部分 各部分间由预先定义的铰链相连接 并可以绕铰链发生相对 运动 然后分别对接各部分结构并进行组装 侧链旋转异构体库用于考虑侧链 柔性 m u t i d o c k 程序 3 q 在采用该方案时还引入了平均场和概率加权平均的思 想 r 0 8 e t t a d o c k 程序 3 3 采用骨架依赖的侧链旋转异构体库 结合模拟退火蒙 特卡洛算法来安装并优化侧链 是侧链结构预测中成功的方法之一 7 2 总之 分子柔性是对接方法中较为园难的 有待解决的问题 正处于不断探索和发展 的过程之中 2 2 分子对接中的打分函数 2 2 1 打分函数的重要性 打分过滤是基于对接采样后的下游工作 与前一阶段的构象搜索紧密联 系 相互制约 打分函数的优劣直接决定了分子对接预测的成功与否 一般通 过采样会得到数以千计的对接结构 需要通过打分过滤进一步缩小预测结构的 范围 使用精细 可靠的打分函数进行结构评价 尽可能地将近天然构象排在 较靠前的位置 才能达到结构预测的最终目的 此外 打分函数从一般意思上将是对结合自由能的估计 试图从物理化学 的基本原理出发 揭示分子相互作用的内在规律 一个优秀的打分函数 应该 能够真实 准确地刻画分子特征 并通过能量函数形式加以反映 有助于对于 分子识别机制的理解 8 第2 章蛋白质 蛋白质对接方法与打分函数的研究 2 2 2 打分函数的构造 打分函数的构造是建立在分子识别的物理学原理基础上的 早在二十世纪 四十年代 p a u l i n g 和d e l b r i c k 就提出经典物理学的概念能够解释生命物质的 基本性质 7 3 j 认为分子间的v a nd e rw a a l 8 v d r 相互作用 静电相互作用和 氢键是稳定分子复合物的主要作用力 并且形成复合物的分子单体在几何空间 上存在高度互补性 7 4 后来 ka 1 1 z m a l l n 又提出了疏水熵效应 7 s 进一步完善 了分子识别机制的理论框架 以后发展的各类评价分子相互作用强度和复合物 的稳定性判据都是在此基础上的构建的 蛋白质分子识剐是在细胞胞浆溶液中进行的 复合物形成能过程给组成体 系的溶质 溶剂双方都造成了影响 引起了一系列物理化学变化 就溶质方面 而言 在彼此结合之前 单体分别与溶剂存在着相互作用 相互结合的过程必 然导致至少在潜在的复合物的界面上破坏这种相互作用 并在界面上重建新的 相互作用以维系体系稳定 假设蛋白质分子界面间没有水参杂其中 这种去 溶剂化对蛋白质分子极性部分是非常不利的 因为它们与水的相互作用要优于 分子界面的库伦 氢键补偿 分子表面非极性部分去溶剂化并埋藏到复合物界 面里称为疏水效应f 7 5 将导致溶剂熵的增加 这对于结合是十分有利的 并被 认为是稳定分子复合物的主要因素 而库仑力和氢键将提供分子识别的特异 性 同时 复合物的形成也使得结合单体的自由度减少 导致平动 转动 振 动以及构象熵的减少 溶液效应也可以划分为极性溶剂和非极性溶剂两方面效 应 非极性溶剂项通常用溶质接近表面积来估计 包含了在溶剂中产生空穴的 能耗和溶质 溶剂间有利的v d w 相互作用 复合物与单体间的非极性溶剂化 自由能差通常是有利于分子结合的 极性溶剂化项指溶质在低介电介质与离介 电介质问的静电能之差 将上述因素综合考虑 可以得到结合自由能计算主方 程 耐 e m f t 墨0 i k g j 耐f 2 2 式中第一项为分子力学方法计算的焓效应 由式 2 3 给出 溶质熵包 含四项 分别为平动 转动 振动和构象熵 一般通过半经验或统计的方 法获得 溶剂自由能项如上所述包含极性和非极性两部分 分别通过求解 一9 北京工业大学工学硕士学位论文 p 8 s i o n b o l t z m m 方程或广义b o r n 方程和计算溶质表面积变化得到 m 坼 r 一 2 确 日一日 2 丢 1 c s 硼一 y 1 6 m 如 e 西h 甜r 以s 每一是 剡 江s 其中1 至3 项分别为键长能 键角能和二面角能 最后一项l e n n a r d j o n e 8 势 考虑了v d 和c o u l o m b 贡献 需要指出的是上式仅仅是各个力场的叠加 没 有考虑任何极化效应 根据热力学观点 天然态复合物处于自由能面的全局极小点 q 所以目前 的打分函数主要都是通过结合自由能的计算作为区分近天然构象与对接错误构 象的评判标准 按照其衍生方法 打分函数可以主要划分为三类 即基于物理 的打分函数 经验 半经验的打分函数和基于知识的打分函数 基于物理的打分函数是依据物理化学原理将皂虫能计算主方程表示蠹具有 独立物理意义的多项式之和 大多情况下是气态的分子力学能量与溶剂化能以 及熵变的组合 而且往往认为溶质熵变贡献甚微 可以忽略 同时溶剂能的评 价在目前的计算水平下也是一个巨大的挑战 尽管此类方法计算相对准确度 较高 但是由于计算量巨大 难以适应分子对接中进行大批量自由能计算打 分 经验的方法将自由能计算表达式分解成带有权重的诸如氢键 静电 疏水 效应以及熵效应等韵累和 分别计算各项贡献 权重系数通过回归方法从实验 数据拟合得到 预测结合自由能的经验打分函数最早应用到l u d i 7 8 中 g 晰i d g o g 抽 只 d g d m r a g 却 i 以i 印i g r m r o t z 4 由上式可见 结合自由能用氢键 盐桥 疏水效应和溶质熵表示 氢键和盐桥 项中函数 冗 o 表征了实际情况与理想氢键 盐桥的偏差 亲脂项基于 受体 配体闻的亲脂接触面积 结合过程中的熵损失用可旋转键的数目来表 示 n e s n o p 9 也采用了经验打分函数 公式如下 g 谛 出 9 k 口 日b p l f p 0 叮r o r 6 b p 7 d e s d l y z 5 一1 0 第2 章蛋白质一蛋白质对接方法与打分函数的研究 其中h 口 三 p 0 r 0 正bp d e s 0 三矿分别表示氢键能 有利亲脂贡献 侧链 熵 极性埋藏面积和去溶剂化自由能 此类方法 计算速度得到明显提高 但 也存在着对分解形式和产生权重系数的训练数据集依赖的弊病 所谓半经验的 方法 就是打分函数表达式一部分来自物理推导 另一部分则是实验数据拟合 的结果 a q v i s t 及其同事发展的线性相互作用能 l i e 方法口 1 计算结合前 后静电
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45599-2025液体硅橡胶连接器用自润滑型
- 高三数学复习试题与答案要点
- 江苏省南京市、盐城市2025届高三下学期3月一模试题 英语 含解析
- 材料力学与智能制造重点基础知识点
- 材料疲劳裂纹扩展数据分析方法原理重点基础知识点
- 景点火灾应急预案目录(3篇)
- 计算机软件考试难点突破试题及答案
- 2025年法学概论考试技巧与试题及答案
- 停水停电火灾应急预案(3篇)
- 高考数学典型试题及答案
- 化工总经理岗位职责
- 小学英语复习讲座88课件
- 医院发生意外自杀的应急预案流程
- 中山职业技术学院宿舍宽带接入校园网连接技术方案
- 经济学论文的选题与写作
- 过热蒸汽压力控制设计
- 国际志愿服务培训与实践-浙江外国语学院中国大学mooc课后章节答案期末考试题库2023年
- 其他常见疾病的康复
- 技术人员能力考核评分表
- 中国传统文化知到章节答案智慧树2023年西安理工大学
- 英语阅读知到章节答案智慧树2023年北京大学
评论
0/150
提交评论