(物理化学专业论文)基于表面静电势参数的定量结构性质活性关系研究.pdf_第1页
(物理化学专业论文)基于表面静电势参数的定量结构性质活性关系研究.pdf_第2页
(物理化学专业论文)基于表面静电势参数的定量结构性质活性关系研究.pdf_第3页
(物理化学专业论文)基于表面静电势参数的定量结构性质活性关系研究.pdf_第4页
(物理化学专业论文)基于表面静电势参数的定量结构性质活性关系研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕十论文摘要 摘要 定量结构一陛质活性关系( q s p r q s a r ) 广泛应用于药物研究与开发、 环境科学、材料科学等领域。在q s p r q s a r 研究中,结构参数的获取是其中 的重要内容。本论文在课题组前期工作基础上,将表面静电势参数的应用拓展 到较复杂体系的q s p r 和q s a r 研究中。论文共分为三章,概述如下: 第一章就q s p r q s a r 的发展概况、二维定量构性效关系工作流程, 分子表面静电势及参数等进行了综述,并提出了本论文的研究思路。 第二章为挥发性有机化合物在血液( 组织) 与空气间分配的定量结构一陛质 关系( q s p r ) 研究。对所有1 9 7 个有机化合物分子进行了结构优化,在优化结 构上进行了拓扑指数和分子静电势及其导出参数的计算。运用多元线性回归方 法对这些化合物在血液( 组织) 与空气间分配比与分子的结构参数进行了关联。 结果表明:分子表面静电势参数和常规的量化参数结合3 d - m o r s e 参数可以较 好地用于表达有机化合物分子分配比与其分子结构间的定量关系。 第三章致力于吲唑脲类辣椒素受体( t i 冲v 1 ) 通道拮抗剂的定量构效关系 ( q s a r ) 研究。首先,采用,俨吲唑异构形式,选择分子表面静电势参数与拓 扑指数相结合,运用多元线性回归方法,对2 7 个t r p v l 通道拮抗剂分子进行 了q s a r 建模。其后,对所有化合物采用另一异构形式重复上述过程,以探讨 互变异构对q s a r 建模的影响。作为比较,我们还进行了3 d - q s a r 的研究。 结果表明:( 1 ) 互变异构对q s a r 结果具有一定的影响,采用j 仔吲唑异构形 式得到的模型,在质量上均高于采用2 伊吲唑异构体,预示着j 日川i 唑异构体更 有可能是吲唑脲类分子的活性异构形式;( 2 ) 分子表面静电势参数结合 g e t a w a y 拓扑指数可以较好地用于描述t r p v l 通道拮抗剂分子结构与其活性 间的定量关系,其结果优于3 d - q s a r 模型所得结果。 关键词:定量构效性关系,挥发性有机化合物,吲唑脲类辣椒素受体通道拮 浙江人学硕士论文摘要 抗剂,分子静电势参数,拓扑指数,互变异构 i i i 浙江大学硕二b 论文 a b s t r a c t a b s t r a c t q u a n t i t a t i v es t r u c t u r e p r o p e r t y a c t i v i t yr e l a t i o n s h i p s ( q s p r s q s a r s ) h a v e b e e nw i d e l yu s e di nt h ef i e l d so fd r u gr e s e a r c ha n dd e v e l o p m e n t ,e n v i r o n m e n t s c i e n c e ,a n dm a t e r i a ls c i e n c e i nt h eq s p r q s a rs t u d i e s ,t h ec h o i c eo fa p p r o p r i a t e s t r u c t u r a lp a r a m e t e r sp l a y sap i v o t a lr o l e i np r e v i o u sq s p rs t u d i e s ,o u rr e s e a r c h g r o u ph a v es u c c e s s f u l l ya p p l i e da n dd e v e l o p e das e to fs t r u c t u r a ld e s c r i p t o r sd e r i v e d f r o me l e c t r o s t a t i cp o t e n t i a l so nm o l e c u l a rs u r f a c e t h ep r e s e n tt h e s i sw a sd e v o t e dt o t h eq s p rs t u d i e sf o rs o m e w h a tc o m p l e xs y s t e m sa n dq s a rs t u d yb yu s i n gt h i st y p e o fs t r u c t u r a ld e s c r i p t o r s ,t o g e t h e rw i t hs o m et o p o l o g i c a li n d i c e s i tc o n s i s t so ft h r e e c h a p t e r s ,w h i c hc a nb es u m m a r i z e da sf o l l o w s : i nt h ef i r s tc h a p t e r , q s p r q s a rw e r ef i r s ti n t r o d u c e d t h e n ,m o l e c u l a r s u r f a c e s ,e l e c t r o s t a t i cp o t e n t i a l s o nm o l e c u l a rs u r f a c e s a sw e l la st h e i r p a r a m e t e r i z a t i o nw e r er e v i e w e d f i n a l l y , r e s e a r c ha i ma n ds c h e m eo ft h ep r e s e n t t h e s i sw e r ep u tf o r w a r d i nt h es e c o n dc h a p t e r ,a bi n i t i oc a l c u l a t i o n sh a v eb e e np e r f o r m e df o ra l l19 7 o r g a n i cc o m p o u n d s o nt h eb a s i so fo p t i m i z e ds t r u c t u r e s ,f i v ek i n d so ft o p o l o g i c a l i n d i c e s ,e l e c t r o s t a t i cp o t e n t i a l sa sw e l la st h e i rs t a t i s t i c a l l y - d e r i v e dq u a n t i t i e sh a v e b e e no b t a i n e d l i n e a rc o r r e l a t i o n sb e t w e e nt h eh u m a nb l o o d :a i r , h u m a na n dr a t t i s s u e ( f a t ,b r a i n ,l i v e r , m u s c l e ,a n dk i d n e y ) :a i r , r a tb l o o d :a i r , s a l i n e :a i ra n do l i v e r o i l :a i rp a r t i t i o nc o e f f i c i e n t s ( d e n o t e db yl o g ( h b :a ) ,l o g ( h f a ) ,l o g ( h b r :a ) ,l o g ( h i :a ) , l o g ( h m :a ) ,l o g ( h k :a ) ,l o g ( h f a ) ,l o g ( r b r :a ) ,l o g ( r l :a ) ,l o g ( r m j 砂,l o g ( r k :a ) , l o e 蟛( b j 矽,l o g k ( s :a ) ,l o g k ( o :a ) ,r e s p e c t i v e l y ) a n dt h es t r u c t u r a ld e s c r i p t o r sh a v eb e e n e s t a b l i s h e db yu s i n gm u l t i p l el i n e a rr e g r e s s i o nm e t h o d i ta p p e a r st h a tt h eq u a n t i t i e s d e r i v e df r o me l e c t r o s t a t i cp o t e n t i a l s ,加,k 历加,k 脚,o _ - 2 ,吼毗2 ,v ,肌_ ,k 加f t o g e t h e rw i t ht h em o l e c u l a rv o l u m ea n ds o m ep o p u l a rq u a n t u mc h e m i c a ld e s c r i p t o r s i v 浙江大学硕上论文a b s t r a c t ( e g e l u m oa n d a n d3 d m o r s ed e s c r i p t o r sc a nb ew e l lu s e dt oe x p r e s st h e q u a n t i t a t i v es t r u c t u r e p r o p e r t yr e l a t i o n s h i p so fo r g a n i cc o m p o u n d s t h et h i r dc h a p t e rw a sd e v o t e dt ot h es t u d yo fq u a n t i t a t i v es t r u c t u r e a c t i v i t y r e l a t i o n s h i p ( q s a r ) f o ri n d a z o l y lu r e a sa st r p v la n t a g o n i s t s f i r s t q s a rs t u d y h a sb e e np e r f o r m e df o r2 7i n d a z o l y lu r e ac o m p o u n d sb yu s i n g1 h - i n d a z o l e t a u t o m e r i cf o r mi nt h em o l e c u l a rs t r u c t u r e ,ac o m b i n a t i o no fs t r u c t u r a ld e s c r i p t o r s d e r i v e df r o me l e c t r o s t a t i cp o t e n t i a l so nm o l e c u l a rs u r f a c ea n dt o p o l o g i c a li n d i c e s , a n dm u l t i p l el i n e a rr e g r e s s i o ni nt h em o d e lc o n s t r u c t i o n t h e n ,u s i n ga n o t h e r t a u t o m e r ( 2 h - i n d a z o l ef o r m ) ,a l lo ft h ea b o v ep r o c e s s e sw e r er e p e a t e dt oi n v e s t i g a t e t h ee f f e c to ft a u t o m e r i s mu p o nt h eq s a rm o d e l l i n g t h r e ed i m e n s i o n a lq u a n t i t a t i v e s t r u c t u r e a c t i v i t yr e l a t i o n s h i p ( 3 d - q s a r ) s t u d i e sh a v ea l s ob e e nc o n d u c t e df o r c o m p a r i s o n i th a sb e e ns h o w nt h a t ( 1 ) t a u t o m e r i s mh a sas i g n i f i c a n te f f e c to nt h e q s a rm o d e l l i n g ,a n dt h em o d e l so b t a i n e df r o m1 h - i n d a z o lt a u t o m e r i cf o r ma l w a y s r e p r e s e n th i g h e rq u a l i t yt h a nt h o s ef r o m2 h - i n d a z o lt a u t o m e r , w h i c hi n d i c a t e st h a t 1 h - i n d a z o lt a u t o m e ro ft h ei n d a z o l y lu r e ai sp r o b a b l yt h ea c t i v ef o r mw h e nb i n d i n g w i t ht h et r p vlc h a n n e lp r o t e i n ;( 2 ) t h et h e o r e t i c a l d e s c r i p t o r sd e r i v e df r o m e l e c t r o s t a t i cp o t e n t i a l so nm o l e c u l a rs u r f a c et o g e t h e rw i t ht h eg e t a w a y d e s c r i p t o r s c a nb ew e l lu s e dt oe x p r e s st h eq u a n t i t a t i v es t r u c t u r e a c t i v i t yr e l a t i o n s h i po fi n d a z o l y l u r e at i 冲vlc h a n n e la n t a g o n i s t s ,a n dt h er e s u l t sa les u p e r i o rt ot h o s ew i t h3 d q s a r m o d e l s k e y w o r d s :q s p r q s a r ,v o l a t i l eo r g a n i cc o m p o u n d s ,t i 冲v 1c h a n n e l a n t a g o n i s t s ,m o l e c u l a re l e c t r o s t a t i cp o t e n t i a l ,t o p o l o g i c a li n d i c e s ,t a u t o m e r i s m v 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得逝婆盘堂或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者虢桑月胳签字吼子。年3 月当日 学位论文版权使用授权书 本学位论文作者完全了解迸姿盘鲎有权保留并向国家有关部门或机构送交本 论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝姿盘堂可以将学位论文的 全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 粟鹏味酬d 导师签名: 签字同期:a o 加年弓月5e l 签字日期:日 浙江大学硕士论文致谢 致谢 本论文是在导师邹建卫教授的悉心指导下完成的,从论文的选题,研究工 作的展开直至最后的撰写,邹老师都给予了极大的关注。邹老师开阔的视野、 对课题敏锐的洞察力给我留下了深刻的印象。研究生期间邹老师在学习、生活 等方面给予我一系列的关怀,为我创造了一个优越的学习和工作环境,使论文 的研究工作得以顺利完成。在此,我向尊敬的导师邹建卫教授表示深深的感谢。 感谢俞庆森老师、蒋勇军老师、胡桂香老师和赵文娜老师对本论文的顺利 进行给出许多指导性的建议,感谢骆成才老师在有机合成方面对我的指导,与 他们的交流、探讨对我都是一种启发和激励,开阔了我的思路,使工作不断得 到改进和深入,在此表示由衷的感谢。 感谢本实验室的许林师兄、吕婧师姐、陆绍永、周鹏师兄、代冬梅师姐、 黄光东师兄、张娜师姐、蒋彦可师姐、孙浩师兄以及吕扬、潘善飞在生活和学 习上提供的大力支持和帮助,在并肩作战的过程中,他们给我紧张的学习和生 活带来了很多的快乐。祝愿他们在现在和以后的学业有成,生活幸福。 最后,我要特别感谢我的父母和家人,在我2 0 多年的求学生涯中一直默默 地无私地支持着我,谨向他们致以最崇高的敬意! 桑鹏 2 0 1 0 年1 月于求是园 浙江大学硕士论文第一章绪论 第一章绪论 1 1 定量构性效关系概述 人们在长期实践中认识到:分子是构成物质的基本单位,物质的许多理化性 质生物活性与组成分子的结构密切相关,分子结构一旦确定,其性质活性 也随之而定。分子结构与其理化性质或生物活性间的相互关系,可以通过理论计 算方法和各种统计分析工具相结合对隐藏在大量实验结果中的信息和规律进行 数据挖掘,进而预测新化合物的性质活性,并指导新化合物的设计。定量构 性效关系( q u a n t i t a t i v es t r u c t u r e p r o p e r t y a c t i v i t yr e l a t i o n s h i p s ,q s p r q s a r ) 研究就是从宏观的角度出发,直接利用各种实验数据,并采用统计学和 模式识别等方法来建立化学结构和性能之间的关系,并利用所建立的关系,定量 地预测未知分子的性质活性的一种方法。这种方法广泛应用于生物活性分子 的合理设计,是计算化学研究中十分活跃的领域之一。 q s p r q s a r 的研究可以追溯到2 0 世纪中期,有机反应性相关分析 ( c o r r e l a t ea n a l y s i so f o r g a n i cc h e m i s t r y , c a o c ) 研究可看作其前身【l 】。2 0 世纪 6 0 年代h a n s c h 和f u j i t a 2 卅把物理有机化学中取代基的h a m m e t t 常数对反应速 率和平衡影响的定量处理方法拓展到处理生物活性与结构的定量关系上,从而确 立了定量构效关系的研究方法,被普遍认为是经典q s a r 研究的开始。与此同 时,f r e e 和w i l s o n l 4 】于1 9 6 4 年提出的f r e e w i l s o n 模型是以取代基的活性贡献加 和来确定定量构效关系。k i e r 5 】等于1 9 8 6 年提出的分子连接性指数法则是将化合 物的化学结构用拓扑性来描述。其他陆续出现的还包括:模式识别,分子模型化 和量子化学方法等许多研究方法【6 】。这些结构参数、几何参数、电性参数、理化 参数和拓扑参数等与理化性质生物活性的相关性研究促进了q s p r q s a r 的发展。 在q s p r q s a r 研究不断发展的同时,一些学术和商业用途的化学软件不 断出现,包括s y b y l 、m o p a c 、h y p e r c h e m 、d r a g o n 、c o d e s s a 和i s i s d r a w 等,这些软件具有计算描述符,选择参数,以及建立模型并进行交互检验等诸多 功能。另外,一些新的统计学方法诸如判别分析、聚类分析、模式识别、支持向 浙江人学硕十论文第一章绪论 量机、人工神经网络、回归分析和遗传算法等的成功应用,更是促进了q s p r q s a r 的快速发展。其中q s a r 的发展尤其迅速。 2 0 世纪8 0 年代,三维结构信息被陆续引入到定量构效关系研究中,即 3 d - q s a r 。3 d - q s a r 模型在物化意义上更为明确,能间接反映药物分子作用过 程中底物和受体之间的非键合相互作用特征,因此得到了迅速的发展和广泛的应 用。现已产生众多3 d q s a r 模型化方法【7 j2 1 ,其中,最重要的进展是1 9 8 8 年 c r a m e r 等【l3 】提出的比较分子场分析法( c o m p a r a t i v em o l e c u l a rf i e l da n a l y s i s , c o m f a ) 以及由其衍生出的比较分子相似性指数分析法( c o m p a r a t i v em o l e c u l a r s i m i l a r i t yi n d i c e sa n a l y s i s ,c o m s i a ) 。由于3 d 方法需要首先对分子结构进行三维 结构搜索并依据能量最低原理进行优化以获得优势活性构象并实施叠合策略,因 此要构建有效3 d 模型仍是相当困难和非常耗时的,且构象的搜索和叠合策略选 取不当,会显著影响建模结果。1 9 9 7 年h o p f i n g e r 等【1 4 1 与a l b u q u e r q u e t l 5 】在其分 子形状分析法的基础上,以化合物分子各个构象、取向的集合为第四维提出 4 d - q s a r 方法。4 d - q s a r 思想结合了药效团、构象和排布自由度来表达化合 物生物活性,解决了3 d q s a r 中存在的很多问题 1 4 - 1 8 】。x 衍射分析已经证实, 受体与配体结合时存在着一个诱导契合过程。2 0 0 0 年v e d a n i 等1 1 9 - 2 0 i 通过建立准 原子受体表面( q u a s a r ) 得出4 d - q s a r 模型,用于甾体与球蛋白结合活性研究取 得了较好结果。2 0 0 2 年v e d a n i 和d o b e r 2 1 - 2 2 1 对q u a s a r 方法进行全面更新和升级, 又提出了5 d - q s a r 方法,该方法考虑了受体生物大分子的结构,仍然采用构象 的集合作为第四维,同时引入各种诱导契合的集合构成第五维,在分别生成构象 集合与诱导契合集合后,换算成相应的变元,再进行计算分析得到5 d - q s a r 模 型,使药物设计更趋于合理化。2 0 0 5 年v e d a n i 等例在前期研究基础上,又加入 对不同模型溶剂化效应的考察,以反映和表征在不同配体、受体、溶剂组合的环 境中的生物活性变化,得到6 d q s a r 方法。同时,他们用3 d 6 dq s a r 方法 对1 0 6 个雌激素受体配基与雌激素受体的结合活性进行了q s a r 研究,结果表 明6 d 模型明显优于低维的q s a r 模型。但6 d q s a r 考虑的因素过多,需要更 多步骤去联合评价来表达一个分子实体及其所处的微环境,因此其应用受到限 制。 从2 d - q s a r 的提出到6 d - q s a r 的诞生,代表了今后q s a r 研究的主要 浙江大学硕十论文第一章绪论 发展方向,但目前其仍处于不断发展、完善和方法学探索阶段,一些问题还远远 没有得到解决。因此,在许多问题上,2 d - q s a r 以及在此基础上的分子设计至 今仍然具有强大的生命力和实际应用价值,仍然发挥着多维q s a r 不可替代的 重要作用。如生物利用度问题,药物的吸收、分布和跨膜转运等药代动力学问题 等。并且在很多q s a r 体系中,2 d q s a r 常常会取得优于多维q s a r 的研究结 果。此外,2 d - q s a r 方法计算相对简便,计算速度快,可以大批量处理化合物 数据,而多维q s a r 方法目前还难以办到,多维q s a r 有时还需要2 d q s a r 的结果作为依据。因此,可以说多维q s a r 方法的出现和发展并不会替代原有 的2 d - q s a r 方法,它们相辅相成,互相补充。 1 2 二维定量构性效关系工作流程 进行q s p r q s a r 研究的主要流程包括:数据的获得和整理,分子结构的 产生,描述符的计算,模型的构建,模型的检验。主要流程可用下图表示: 图1 1二维定量构性效关系流程图 在此过程中,首先便是收集整理进行定量构效关系研究所需的性质或活性数 据。其中对数据的要求为:在数量上越多越好,品质方面,最好是同一测试机构 浙江大学硕士论文 第一章绪论 测试,结构上有一定的多样性,且活性分布要广( 以相差一到数个数量级为宜) 。 其次是构建分子的结构,初始结构构建完后,通常情况下,要采用分子力学或量 子化学( 从头算法或半经验方法) 对分子结构进行优化计算。随后计算用于反映 分子的各种结构信息的描述符;接着应用各种统计学和优化算法提取分子结构特 征,即从众多的分子结构描述符中找出与所研究的性质活性相关的结构参数; 再用各种线性或非线性建模方法建立结构参数与所研究的性质活性间的定量 函数关系模型;最后检验所建q s p r q s a r 模型的可靠性及预测能力。 1 2 1 描述符 分子结构描述符是一个分子的数学表征,是把分子结构转换为数值信息的过 程。分子描述符具体的数值中包含了分子的各种结构信息。获取分子结构参数是 q s p r q s a r 研究的前提。常用的描述符可以分为两大类:经验描述符和理论 计算描述符。早期的q s p r q s a r 往往借助于一些经验描述符来定量描述化合 表1 1q s p r q s a r 研究中的主要描述符3 7 4 0 】 h a m m e t t 参数盯,s w a i n l u p t o n 参数f 和r ,解 电性描述符 离度p k 偶极矩,诱导取代常数o r ,共振取代 常数鲰等。 经验描述符 t a f t 立体参数晟,摩尔折射率( m r ) ,分子体积 立体描述符 ( v ) 以及分子表面积( a ) 等。 1 0 9 p ,s l o g p , k l o g p , k o w w l n ,a l o g p , 疏水性描述符 s m i l o g p , c l o g p 分子组成中n 原子、c 原子和o 原子等的数目, 组成描述符 分子中双键和叁键的数目等 w i e n e r 指数,h o s o y a 指数,r a n d i c 分子连接性 拓扑描述符 指数,k i e r , h a l l 分子连接性指数,b a l a b a n 指数, 分子信息论指数,边邻接指数等 几何描述符 分子表面积、溶剂可极化表面积s s a 、体积 理论计算描述 等 电荷相关描述 符 原子上的偏电荷q 及j u t s 参数等 符 原子电荷、分子轨道能级、前线轨道密度、超 量化描述符离域度、原子原子极化度、偶极矩和极性指数、 极化度 3 d m o r s e 和r d f 结构描述符、w h i m 描述符、 其他描述符 c o m f a 和c o m s i a 描述符等 4 浙江大学硕上论文第一章绪论 物的结构。这些描述符往往需要借助于一些物质的实验性质得到。典型的经验描 述符有:电性参数,立体参数和疏水性参数等。 随着研究的深入和拓展,理论计算描述符逐渐出现。其特点是不必借助于任 何实验信息,只需要分子的结构信息就可以计算出来。例如分子的组成,拓扑以 及量子化学描述符等等。理论计算描述符的优点是对化合物结构的描述更加全面 细致且物理化学意义更加明确,理论性更强。关于分子描述符,国内外已有许多 综述和专著进行了非常详细的讨论1 2 4 - 3 6 1 ,q s p r q s a r 研究中的主要描述符 在表1 1 中列出。 其中,理论计算描述符中的量化描述符最为重要,其应用十分广泛。与其他 结构描述符相比,量化描述符具有如下优点:可以直接基于分子结构进行计 算,无需输入其他信息。量化描述符通常具有很明确的物理意义。与实验 测量的描述符不同,量化描述符不存在统计误差。虽然为简化量化计算而做的假 设会带来内在的误差,但在大多数情况下,误差的方向是一致的。在对一系列化 合物使用量化描述符时,可以认为计算误差是近似恒定的。一些经验描述符 往往可用量化描述符来代替。从模型入选的量化描述符可以直接在分子水平 推测药物分子与靶标的可能作用机理。 当然,也应该同时看到,量化描述符也有一定的局限性。首先,量化计算, 尤其是精度较高的从头算和密度泛函计算,计算量较大,因而不适合较大的体系 和大规模( 化合物较多) 的构效关系研究。其次,除了体积和表面积外,量化描 述符很难描述化合物的立体结构特征,尤其是局部的立体结构特征,而这类描述 符往往在决定生物活性中起着非常重要的作用。 1 2 2 模型的构建 应用化学计量学方法建立化合物理化性质或生物活性与其分子结构描述符 之间的定量函数关系是q s p r q s a r 研究的主要步骤。分子结构与性质或活性 之间可能存在线性关系,也可能存在非线性关系。常用的建模方法有多元回归方 法、线性判别分析法、主成分回归法、偏最小二乘法、聚类分析法、遗传算法、 支持向量机法和人工神经网络法等。下面就本文用到的加以介绍。 1 2 2 1 多元线性回归 浙江大学硕士论文第一章绪论 多元线性回9 3 ( m u l t i p l el i n e a rr e g r e s s i o n ,m l r ) 是定量构性效关系研究中 最基本和最早采用的数学建模方法【4 h 2 1 。它的特点是:方程直观、易于理解、使 用简便等。其基本假设是分子结构改进所致的物化性质生物活性变化与其分 子描述符相关。该方法目前应用非常普遍。在研究多个互相独立的自变量与因变 量之间的线性关系时,采用多元线性回归分析通常可以获得满意的结果。 以n 个样本分子的物化性质生物活性作为因变量,设因变量的实验值为 y t ,y 2 ,y i ,y n ;自变量x i x 2 ,x j ,x m 各有一组数据与因变量的实验值对 应。将因变量对诸自变量进行回归分析得到m l r 方程的一般表达式1 4 3 1 : 夕= b o + b l x l + b 2 x 2 + + 吮矗( 1 1 ) 式中b o 为常数项,自变量而前的系数巧,称因变量y 对自变量吩的偏回归系数, 它表示在其它自变量为常数时,该自变量每变化1 个单位而使因变量y 平均改变 的数值。类似于一元线性回归曾经定义过的相关系数,一样,在多元线性回归中, 人们用复相关系数尺表示回归方程对原有数据拟合程度的好坏。在m l r 中,r 是非常重要的指标,可用下式计算: n|n r 2 = l _ ( y 。- 5 , ( y ,_ y - - ) 2 ( 1 2 ) j = l,i = l 其中y i 为观测到的生物活性值,夕。为生物活性的模型估计值,歹为n 个样本的生 物活性平均值。尺值越接近于1 ,表明模型对样本的拟合能力越强。 对于建立的q s a r 方程,应具有显著性意义,即方程的标准偏差不能过分 大于物化性质生物活性的标准偏差,f 值检验的显著性水平要在9 5 以上, 且自变量的回归系数在9 5 可信度上是显著的。另外,m l r 建模时还必须注意 以下两点:样本数至少应为引入回归方程的自变量的5 倍,最好是l o 倍以上; 表述变量参数须相互正交。 1 2 2 2 逐步回归 在m l r 中引入的是全部自变量,由于各自变量间关系比较复杂,可能会存 在多重共线性等问题。因此需要在建立数学模型前对自变量进行选择,以剔除较 差或是与所研究的性质无关的变量。同时,用不同的自变量的组合所得结果可能 差别较大,也需要采用一定的算法对自变量进行筛选。 对于多元线性回归,常用的自变量筛选方法主要有以下几种:( 1 ) 逆向剔除 6 浙江大学硕士论文第一章绪论 ( b a c k w a r de l i m i n a t i o n ) :从包含全部变量的回归方程中,根据判据,每次剔除 一个对因变量y 影响不显著或者说贡献最小的变量,直到无法剔除为止;( 2 ) 正 向筛选( f o r w a r ds e l e c t i o n ) :从一个变量开始,每次引入一个对因变量y 影响显著 的变量,直到无法引入为止;( 3 ) 逐步回归筛选( s t e p w i s em l r ) :每次引入一 个对y 影响显著的变量,直到无法引入时转到;每次剔除一个对y 影响不显 著的变量,直到无法剔除时转到;当无法引入也无法剔除变量时停止筛选使得 最后的回归方程中只保留重要的变量。 逐步回归筛选是变量选择的一种常用方法,它结合了正向筛选和逆向筛选的 优点1 。在正向筛选中,一旦某个变量被引入方程,它就永远保留在模型中。 然而,随着其它变量的引入,由于变量间的相关关系,一些先进入模型的变量就 可能变得不再显著。而对于逆向筛选法,一旦某个变量被剔除后,就永远被排斥 在模型之外。但是随着其它变量被剔除,它对y 的解释作用也可能变得显著起来。 所以逐步回归是一种“有进有出”的算法,它比“进后不出”或是“出后不进” 的算法显然更加完备,因此它是寻找最优子空间的一种有效方法。逐步回归程序 易于实现,并且运行速度较快,但其不足之处是有时会陷入局部最优。 对于多元线性回归和逐步回归,为保证回9 3 方程显著需进行变量评估,其主 要手段包括4 3 】:变量的零值测试、变量的偏差测试、两两变量间的相关性检查 和变量间的多重共线性测试。对于变量间的多重共线性测试,即检测某一变量与 其余所有变量的相关性。目前,最常用的诊断方法是使用方差膨胀因子( v a r i a n c e i n f l a t i o nf a c t o r , v i f ) 。一般认为,若v i f 1 0 ,常常表示多重共线性将严重影响 回9 3 结果的稳定性和可靠性。 1 2 2 3 偏最小二乘回归 偏最小二乘( p a r t i a ll e a s ts q u a r e ,p l s ) 回归【4 0 1 是一种新型的多元统计数据分 析方法。与传统多元回归比较,该方法的特点为:能够在自变量存在严重多 重相关性的条件下进行回归建模;允许在样本点个数少于变量个数的条件下 进行回归建模;p l s 回归在最终模型中将包含原有的自变量;p l s 回归模 型更易于辨识系统信息与噪声( 甚至一些非随机性的噪声) ;在p l s 回归模 型中,每一个自变量的回归系数将更容易解释。现将p l s 的主要原理简单介绍 如下: 7 浙江大学硕十论文第一章绪论 首先将自变量数据矩阵x 进行双线性分解,即 弘开7 如 ( 1 3 ) 其中矩阵丁含有两两正交的潜因变量( 1 a t e n t v a r i a b l e ) 或得分矢量t ,f 为x 矩阵中 变量的线性组合,即t = x w ,其中矿为x 的权重。p l s 对目标矩阵】,也作了双 线性分解,即 y = u q r + f( 1 4 ) 其中矩阵u 包含】,的潜因变量材。在提取这两个潜因变量时,为了回归需要有下 列两个要求:,和甜应尽可能多的携带它们各自数据矩阵中的变异信息;t 和u 为最大重叠或相关性为最大。因此有 铲c 什p ( 1 5 ) 方程式1 5 中,e 为残差矢量,系数c 由最小二乘确定。以上两个要求表明:在 提取f 和“时,应该尽可能地代表x 和j ,中的信息,同时自变量的成分,对因变 量的成分u 又具有最强的解释能力。实际应用上的p l s 运算并不独立对自变量 矩阵和因变量矩阵分别进行主成分分析,而是通过迭代的方法,彼此之间交换信 息,将两个独立的主成分分析过程合而为一,得到p l s 解。p l s 最常用的算法 是非线性迭代偏最小二乘( n o n l i n e a ri t e r a t i v ep a r t i a ll e a s ts q u a r e s ,n i p a l s ) 。计算 时设置好满意的精度,在第一个成分f ,和z f ,被提取后,如果回9 3 方程达到满意 的精度,则算法停止;否则将利用x 被r ,解释后的残余信息以及】,被u ,解释后 的残余信息进行第二轮的成分提取。如此反复,直到达到满意的精度为止,此时 的主成分数即为最优主成分数。可以看到,p l s 中向量的提取不是独立地从自变 量和因变量( 功中提取,而是经过非线性迭代偏最小二乘法从x 及】,中获得 向量,虽然各自的向量仍然在x 和】,中,但可以优化向量间的相关性。 采用p l s ,能在很好地概括自变量信息的同时,最好地解释因变量,并能在 一定程度上排除系统的噪声干扰。因此,p l s 具有一定的先进性,计算结果也更 为可靠,可解释性也更强。p l s 通过相互正交的潜因变量的提取,不仅降低了数 据的维数,同时也有效地解决了变量间的多重共线性问题。因自变量通常数量较 大,p l s 分析往往会得到很好的相关性,为使模型具有较高的预测能力,需用交 互校验或外部测试集结合适应度函数对模型进行控制,使其预测能力最优。 浙江人学硕十论文 第一章绪论 1 2 3 模型的检验 在q s a r z 研究中,模型的质量好坏以及实际应用的验证是非常重要的。因此, 在模型建立后,就需要对其稳定性和可靠性以及预测能力进行评价。 1 2 3 1 常用统计量 以下几个参数是q s a r 研究中的重要统计指标,是判断模型好坏的主要依 据: 复相关系数r : r2 = l - ( y ,一夕,) 2 ( y ,一歹) 2( 1 6 ) 均方根误差r m s e e : r m s e e = 吉,善( y ,一夕,) 2 ( 1 7 ) 标准误差s d : s d = 击套( y ,以) 2 ( 1 名) 显著性检验f : f = i 1 喜c 夕,一刃2 南,砉c y ,一夕 ( 19 ) 其中以为样本数,歹为,2 个样本活性的实验值的平均值,弘为样本活性的实验 值,允为样本活性的估计值。一般而言,一个稳健的q s a r 模型应该:复相关系 数尺尽量大,且越接近于l 越好,标准偏差s d 和均方根误差r m s , 越s 小越好,而显 著性检验f 则越大越好。 1 2 3 2 模型检验 内部验证 模型的验证是q s a r 研究中不可或缺的重要环节。模型的拟合能力和预测 能力可用以上统计指标评价。建模的目的是预测未知化合物的活性,模型的拟合 能力强并不表示其预测能力也强,有时甚至会很弱,即所谓“过拟合”现象,因 此对模型预测能力评价与验证显得尤为重要。 交互验i e ( c r o s sv a l i d a t i o n ,c v ) 是目前较为广泛使用的一种内部验证方法。常 用的交互验证方法主要有留一法( l e a v e o n e o u t ,l 0 0 ) 及留组法( l e a v e 1 n o u t , 9 浙江大学硕士论文第一章绪论 l n o ) 等。l o o 就是依次从样本中抽出1 个样本,用余下的以一1 个样本建立模型 并预测该样本的活性,直到每个样本都被抽出并预测。 交互验证得到的复相关系数r 用如表示,一个良好的q s a r 模型应具备 r 夕大于o 5 。 外部验证 最近,g o l b r a i k h 和t r o p s h a 掣4 5 1 对l o o 交互验证的研究表明,r o y 2 值的大 小与模型的预测能力并无明显的相关关系;对模型预测能力的评价应通过外部验 证进行。通常寻找新的试验测试化合物来检验模型的质量是比较困难,鉴于此, 将数据分成训练集用来建立q s a r 模型,测试集用来做模型外部验证。 评价q s a r 模型预测能力有效性,需要考虑比较测试集化合物的观测活性 和预测活性。t r o p s h a 等提出:一个具有较高的预测能力的模型应具备以下条件: 月洲2 0 5 、r 2 o 6 。其中r 卯为训练集样本的交互检验值;r 为预测集样本实验值 对预测值回归方程的复相关系数。 1 3 分子表面【4 6 】 二维结构图和三维分子模型为描述许多化合物的化学和物理性质提供了结 构基础。但是所有这些模型都只是用于表征分子的三维骨架模型,而不是实际的 空间结构。类似于人体,有一个躯干和一个覆盖在躯干上的有限表面( 即皮肤) , 分子看上去也是一个由分子表面覆盖的物体。这个表面把三维空间分为两部分, 一部分是由分子体积填充的分子内部,另一部分是分子的外部( 即空间的其他部 分) 。但是利用离散的表面只能大概性地描述实际空间的分割情况。因为分子不 能用一些经验的力学规律来处理,分子表面概念类似于对一个宏观对象进行定 义。在量子力学中,分子既不是一个整体,也没有确定的表面。它们的基本元素 是原子,原子的原子核由质子和中子组成,外面被电子环绕。电子所占据的空间 并没有受到表面限制,而是呈现出一种被称作是“电子云”的特殊空间分布状态。 在距离原子核很远的地方,电子密度呈现出连续变化的趋势并逐

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论