(有机化学专业论文)手性领域的定量构效关系研究.pdf_第1页
(有机化学专业论文)手性领域的定量构效关系研究.pdf_第2页
(有机化学专业论文)手性领域的定量构效关系研究.pdf_第3页
(有机化学专业论文)手性领域的定量构效关系研究.pdf_第4页
(有机化学专业论文)手性领域的定量构效关系研究.pdf_第5页
已阅读5页,还剩85页未读 继续免费阅读

(有机化学专业论文)手性领域的定量构效关系研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 手性是自然界普遍存在的一种性质,许多手性化合物的生物活性、材料性能等重要性 质随着其绝对构型不同而有很大差异,这促使人们对立体化学和不对称台成展开深入、广泛 的研究。而日前,针对化台物手性性质的计算,由于体系复杂与机理的不清晰,开展得尚不 广泛。本文对手性研究中的几个课题进行了构效关系计算,期望能够有助于这些方向实验工 作的开展。 作为脱阶段制备手性化台物最直接、最经济的方法,催化的不对称合成是近几十年立 体化学中最活跃、发展最快的部分。然而,由1 i 绝大多数己报道的不对称催化反应的机理尚 不清晰,使得催化剂设计、反应条件优化等工作大多仍依靠经验完成带有较大的盲目性。 本文中,我们利用拓扑指数、多元线性回归、人工神经网络等技术对不对称催化反应进行了 构效关系计算并得到效果良好的拟合模型。通过这些模型,可以预测新催化剂与新反应条件 下的催化效果,指导手性催化剂的设计,优化反应环境,对已出提机理的部分反应,构效关 系模型还能够对其进行适当的验证。我们对一系列不同类型的反应均进行了较成功的拟合, 说明此类定量构效关系方法可以推广到多种不对称催化反应以辅助具体的实验工作。 旋光性足手性化合物所特有的重要物理性质之一,测量一个体系的旋光度并与标准化 合物旋光度比较,可以方便地确定体系优势构象的绝对构型,估算体系的e e 值。针对目 前各类经验、半经验、量化方法旋光度计算法精度低、适用范围窄的缺陷本文也使用人工 神经网络对化合物旋光度的定量构效关系模型的构建进行了初步的研究。 在进行手性领域构敏关系研究的间隙,我们也结合实验室的工作,使用拓扑指数对喜 树碱类似物的抗癌活性进行了一定的q s a r 拟合,包括一直以来较少被关注的2 0 位羟基修 饰喜树碱类似物的计算。所得药效关系模型可与已发表的使用物理化学参数或量化参数的 q s a r 模型及一些3 d q s a r 模型互为补充。 本文最后还介绍了我们使用而向对象技术结合适当的设计模式,自主编写人工神经网 络分析软件的一些情况。该软件支持多种神经网络与数据接口,具有较为灵活的架构便于 扩展与复用;界面清晰简洁,具有良好的操作性;程序编译生成本地机器码,运行速度快 适于科学汁算工作,有效地辅助了我们一系列定嚣构效关系研究工作的进行。 关键字 手性化台物、不对称催化、对映体过量值、摩尔旋光度、喜树碱类似物、拓扑指数、多 元线性回归、人工神经网络、定量构效关系 a b s t r a c t c h i r a l i t yi sac o m m o na n di m p o r t a n tp h e n o m e n o ni nn a t u r e b i o l o g ya c t i v i t i e s ,m a t e r i a l p r o p e r t i e sa n dm a n yo t h e ri m p o r t a n tc h a r a c t e r sa r eo f t e nd i f f e r e n tb e t w e e nap a i ro fe n a n t i o m e r s s c i e n t i s t sh a v ef o c u s e dm o r ea n dm o r eo ns t e r e o e h e m i s t r ya n da s y m m e t r i cs y n t h e s i s h o w e v e g d u et ot h e c o m p l e x i t yo fs y s t e ma n dt h ei l l e g i b i l i t y o fm e c h a n i s m ,c a l c u l a t i o n so nc h i r a l c o m p o u n d sa r en o tw i d e l yp e r f o r m e d i nt h i st h e s i s ,q s a r q s p rc a l c u l a t i o n so ns e v e r a lc h i r a l s u b j e c t sw e r ei n t r o d u c e d a st h em o s te f f i c i e n tm e t h o dt op r o d u c ec h i r a lc o m p o u n d s c a t a l y t i ca s y m m e t r i cr e a c t i o ni s o n eo ft h em o s ta c t i v ef i e l d si ns t e r e o c h e m i s t r yr e s e a r c h e sl i m i r e d b yt h ei l l e g i b i l i t y o f m e c h a n i s m s ,i ti sa l w a y sa l le x p e r i m e n t a lj o bt od e s i g no rs c r e e nn o v e la s y m m e t r i cc a t a l y s t s ,a n d t oo p t i m i z er e a c t i o ne n v i r o n m e n t i nt h i st l e s i s s o m eq s a rm o d e l sb e t w e e ne e a n dt h e s t r u c t u r eo f c a t a l y s t sa r eo b t a i n e dt h r o u g hm u l t i p l el i n e a rr e g r e s s i o na n da r t i f i c i a ln e u r a ln e t w o r k s t h o s em o d e l sa r eu s e f u lt os c r e e nn e wa s y r n m e t i l ec a t a l y s t s t oi n s t r u c tt h ed e s i g no fr e a c t i o n e n v i r o n m e n t ,a n dt ot e s t i f yo ri m p r o v et h ee x i s t i n gm e c h a n i s m t h eq s a r s t u d i e sa r ec a r r i e do u t i nd i f i e r e n tt y p e so f r e a c t i o n s ,a n da r ee x p e c t e dt ob ee x t e n d e dt om o r eo f t h e m o p t i c a l r o t a t i o ni so n eo ft h em o s ti m p o r t a n t p r o p e r t i e s i nc h i r a l c o m p o u n d s t h e c o n f i g u r a t i o no fe n a n t i o m e ra n dt h ea p p r o x i m a t ev a l u eo fe e 舶c a nb ee a s i l ye v a l u a t e db y c o m p a r i n gi t w i t ht h es t a n d a r do p t i c a lr o t a t i o nv a l u e p r e p a r a t o r yq s p rr e s e a r c h e so nm o l a r o p t i c a lr o t a t i o nv a l u e sa r ep r e s e n t e di nt h ef o l l o w i n gc h a p t e r s w h i l ed o i n gr e s e a r c h e so na s y m m e t r i cf i e l d ,w ew e r ea l s op e r f o r m i n gq s a rc a l c u l a t i o n s b e t w e e nc y t o t o x i ca c t i v i t i e sa n dt h es t r u c t u r eo f c a m p t o t h e c i na n a l o g u e st oa s s i s tt h ee x p e r i m e n t s i no u rl a bt h r e et y p e so fc a m p t o t h e c i na n a l o g u e sa r es t u d i e da n da c c e p t a b l eq s a rm o d e l sa r e e s t a b l i s h e dw i t ht o p o l o g i c a lm o l e c u l a rd e s c r i p t o r sr e s p e c t i v e l y ab r i e fi n t r o d u c t i o nt oo b j e e t a n n ,ag e n e r a l i z e dn e u r a ln e t w o r ka n a l y s i ss o f t w a r eb u i l tb y o u r s e l v e s ,i sm e n t i o n e di nt h el a s tp a r to f t h i st h e s i s t h i ss o f t w a r ew a sp r o g r a m m e du n d e ro b j e c t - o r i e n t e di d e o l o g ya n ds u i t a b l ed e s i g np a t t e r n si tc a nb ee a s i l ye x p a n d e d ,a n di sf l e x i b l ee n o u g ht o s u p p o am u l t i p l en e u r a ln e t w o r kt y p e sa n dd i f f e r e n td a t af o r m a t s w i t hl e g i b l eu s e ri n t e r f a c ea n d f a s tc a l c u l a t i o ns p e e d ,i th e l p e du sal o ti nav a r i e t yo f q s a r q s p rs t u d i e s k e y w o r d s c h i r a lc o m p o u n d ,a s y m m e t r i cc a t a l y t i cr e a c t i o n ,e n a n t i o m e re x c e s s ,c a m p t o t h e c i na n a l o g u e , t o p o l o g i c a li n d e x ,m u l t i p l el i n e a rr e g r e s s i o n ,a r t i f i c i a ln e u r a ln e t w o r k ,q s a r ,q s p r 2 第一章定量构效关系及其相关技术 化合物的结构决定了它的物理化学性质,进而决定了相应的生物学性质。早在1 9 世纪 末2 0 世纪初,人们就已经认识到化合物脂溶性与一些生物学性质,如麻醉性、杀菌性、溶 血陛和毒性等存在着函数关系: 活性= a 结构或性质) 随着研究的广泛和深入,越来越多的结构与性质或生物活性的关系被揭示出来,特别是 h a m m e l t 、h a n s c h 等人开拓性的工作使定量结构活性关系( q u a n t i t a t i v es t r u c t u r e a c t i v i t y r e l a t i o n s h i p ,q s a r ) 成为了定量药物设计的基础和重要内容。q s a r 研究是从系列己知活 性的化合物中找出结构、性质- b 生物活性之间的定量关系,进而预报新化合物活性,并指导 新药的设计。而定量结构性质关系( q u a n t i t a t i v es t r u c t u r e p r o p e r t yr e l a t i o n s h i p ,q s p r ) 与 q s a r 在数学过程上几乎并无两样,只是更关注于化合物的物理、化学性质而非生物活性。 在本文中,这两者将不加严格区分,统称定量构效关系。 第一节定量构效关系的历史回顾 1 8 6 8 年c r u m b r o w n 和f r a s e r 发表了如下方程 中= 孵1 这是q s a r 方面的第一个方程1 。该方程表明,化合物的生理活性庐可用化学结构c 的函数 表示,但他们并未建立明确的函数模型。 有机化学家们非常熟悉的线性自由能关系诞生于上世纪四十年代,这是现代定量构效关 系的雏形。h a m m e t t 提山苯甲酸及其取代衍生物的酸性平衡常数有如下关系2 : 1 1 h u b i n y i ,t h eq u a n t i t a t i v e a n a l y s i so f s t r u c t u r e a c t i v i t yr e l a t i o n s h i p s ,i nb u y e r l s m e d i c i n a l c h e m i s t r ya n d d r u g d e s i g n5 t h e d ,v o l l ,n e w y o r k :j o h n w i l e y & s o n s ,1 9 9 5 ,4 9 7 2 l p h a m m e t t ,p h y s i c a lo r g a n i cc h e m i s t r y :r e a c t i o nr a t e ,e q u i l i b r i aa n dm e c h a n i s m ,2 n de d , n e wy o r k :m c g r a w h i l l 1 9 7 0 第一章定量构效关系及其相关技术 l n k , 面j 中 其中,墨是取代苯甲酸的酸性平衡常数,岛为未取代苯甲酸的酸性平衡常数,o - x 是与取代 基团有关的常数,p 为与反应环境相关的常数。同时,他还发现取代苯甲酸酯的水解速率常 数也有类似的关系( 即h a m m e t t 方程) : i n k , 蒜甜j - p 此后,z a h r a d n i c 尝试着将定量描述芳香性有机化台物反应活性的h a m m e l t 方程应用于 生物活性数据分析,得到以f 方程3 5 : l g k l _ x l g k rh = p o l 昏l l g r e , = 邸 其中,q 为一系列分子中第i 个分子的生物活性;啪是同系物中乙基化合物的活性:卢是取 代常数,对应于h a m m e r 方程的电子参数口jg 是与具体生物体系有关的常数,对应于 h a m m e r 方程中的反应常数p 。 最早的可以实施的定量构效关系方法是h a n s c h 在1 9 6 2 年提出的h a n s c h 方程6 ,- ,它脱 胎于前面提到的h a m m e r 方程,但以生理活性物质的半数有效量作为活性参数,以分子的 电性参数、立体参数和疏水参数作为线性回归分析的变量; i g l c = a l g p + 6 盯+ c 丘+ + c o n s t a n t 即活性与疏水性参数z 或1 9 p 、电性参数。和立体参数巨相关a 随后,h a n s c h 与藤田稔夫 等人一起改进了h a n s c h 方程的数学模型,引入了指示变量、抛物线模型和双线性模犁等修 正,使得方程的预测能力有所提高。 几乎在h a n s c h 方法发表的同时,f r e e 等人发表了f r e e w i l s o n 方法8 ,这种方法直接以 分子结构作为变量对生理活性进行回归分析。f r e e w i l s o n 模型可用下式表示: l g l ,c 。+ p 其中即是取代基x ,在位置j 的基团贡献,p 是参考分子的生物活性值。f r e e w i l s o n 模型在 药物化学中的应用范围不如h a n s c h 方法来得广泛。 r z a h r a d n i c ,m c h v a p i l ,e x p e r i e m i a ,1 9 6 0 ,1 6 ,5 5l r z a h r a d n i c ,a r c hi n t p h a m l a c o d y n ,1 9 6 2 ,l3 5 ,31l r ,z a h r a d n i c ,e x p e r i e n t i a , 19 6 2 ,1 8 ,5 3 4 c h a n s c h ,p 只m a l o n e y , t f u j i t a , n a t u r e ,1 9 6 2 ,1 9 4 ,1 7 8 c h a n s c h 一f u i i t a j a i nc h e m s o c ,1 9 6 4 ,8 6 ,1 6 1 6 s m f r e e ,w m w i l s o n ,j ,m e d c h e m ,1 9 6 4 ,7 ,3 9 5 4 第一章定量构效关系及其相关技术 此后随着计算机技术的发展。多变量拟台不再是计算上的瓶颈,遗传算法、人工神经网 络、偏最小二乘回归等算法等逐步引入了定量构效关系研究。q s a r q s p r 也在药学、化学 等领域得到了广泛的应用。此时研究者们更多地将分子拆分成不变框架与可变基团,考虑多 个可变基团对分子活性,性质方面的影响,在传统物理化学参数以外,更多地使用拓扑参数、 理论计算参数来表征基团结构。 上世纪八十年代后,考虑分子三维构象的3 d q s a r 也逐步引起了研究者的关注。1 9 7 9 年c r i p p e n 提出的距离几何学方法9 、1 9 8 0 年h o p f i n g e r 等人提出的分子形状分析方法”、 1 9 8 8 年c r a m e r 等人提出的比较分子场方法( c o m f a ) ”是3 d - q s a r 中最常用的手段,尤 其是c o m f a ,在药物设计上已有诸多应用。但在化学领域,由于研究体系与数据量的差异, 目前仍是2 d q s a r 占主导地位。 第二节建立构效关系模型的基本过程 一、概述 q s a r j q s p r 方法,在哲学意义上可以视作是一个不完全归纳法的分析过程。首先由已 知的结构性质样本出发,通过线性回归、人工神经网络等拟合手段得到结构性质关系的“模 型”,再通过这个“模型”对新样本进行检验或预测,如图1 1 所示。 图1 - 1q s a r q s p r 研究的基本思路及与基于机理方法的对比 9 g m g r i p p e qd i s t a n c eg e o m e t r ya n dc o n f o r m a t i o n a lc a l c u l a t i o n s ,i nc h e m o m e t r i cr e s e a r c h s t u d i e s ,c h i c h e s t e r :w i l e y , 19 8 7 a j h o p f i n g e r , ja m c h e m s o c 1 9 8 0 1 0 2 ,7 1 9 6 “a j h o p f i n g e r , a r c h b i o c h e m b i o p h y , 19 81 ,2 0 6 ,15 3 1 2 r d g r a m e r1 1 i ,d e p a t e r s o n ,j d b u n c e ,ja m c h e m s o c ,1 9 8 8 ,11 0 ,5 9 5 9 第一章定量构效关系及其相关技术 由图中可见,q s a r q s p r 方法与通常我们熟悉的通过己知样本的现象找寻机理,再由 机理解释新样本现象的方法在思路上相当接近,只不过后者的桥梁是“本原的”化学物理意 义上的“机理”( 如过渡态、反应历程、分子构象等) ,可以看作一个“白箱”;而前者却可 以将复杂的机理抛在一边,通过拟合等处理方式建立数学上的模型( 如回归方程式、训练后 的人工神经网络等) 来分析、预测现象,可看作是一个“黑箱”。相对于“自箱”式的一般 过程,q s a r q s p r 方法有如f 的一些优势: 1 用数学模型代替了机理推衍,在体系复杂、性质活性机理难于获得时,几乎 是唯一的计算性质的途径。很多大分子情形下,虽然机理可以得到,但由于计 算量的关系,量化从头计算法乃至半经验计算、分子力学等方法仍有困难,这 时q s a r q s p r 也可发挥极大的作用。 2 有相当成熟而完备的数学方法对体系进行计算,生成拟合模型,而通常情况下, 性质活性机理的提出主要还是依靠经验完成。 3 由机理计算新样本的量化从头计算过程通常速度较慢,对设备的要求也较高。 而由数学模型预测新样本,计算量要少得多,更加“便宜”、快速,适于大量 样本数据的计算。在一些需要实时控制场合,尤其具有优势。 当然,相对于基于机理的计算,q s a w q s p r 也有相应的弱点。最重要的点是它一般 情况下与机理无关,对探讨性质或活性的本源常常缺乏帮助,也令熟悉化学物理模型甚于数 学模型的化学家们往往无所适从;其次,由于基于不完全归纳法的推演,q s a r q s p r 模型 的适用范围与已知样本的分布有极大的关系,需要谨慎地圈定,超出适用范围的预测往往会 得山偏差很大的结论:第三,q s a r q s p r 模型的建立需要比基于机理的方法更多的已知实 验样本,有时这点却并不太容易做到。 建。 从数学观点上来看,q s a r q s p r 包括三个主要难点:结构表示、描述子分析与模型构 二、结构表示 由于整个建立在数学基础之上,q s a r q s p r 中必须将一切数字化。无论是性质、活性 还是结构,都必须转化成一个数字或一组数字的组合来表征。性质通常本身就是数字化的( 如 6 第一章定魅构效关系敏其相关技术 熔点、沸点、密度、析光率、旋光度等) ,活性豹度量也必须依靠数字( 如反应产率、药物 静l c 值等) 。恧化含物结搀( 谴在脑海中想象一个二维的乎蟊结毒奄式或三缎的球撼模型) , 是最难以完善地转化为数字( 称为结构参数或结构描述子) 的一环。人们也提出了不同的方 法岛大量弱缝褐参鼗良逶盔不鞠活性鹰矮弱臻溅。霉瑚蕊一些参数霹双分为霆大粪;戆瑾 化学参数、分子拓扑指数( m o l e c u l a rt o p o l o g i c a li n d e x ) 、理论计算参数与指示变量( i n d i c a t o r v a r i a b l e ,d u m m yv a r i a b l e ) 。 1 物理化学参数 采用分子的物理亿学性鬟裹链慕一镶构是一摹孛最童瓣靛方法。翅势子掇、摩尔摄射率、 分配系数等物理化学参数在q s a r q s p r 研究中都曾频繁出现。物理化学参数有着相当显著 豹筑熹:壹辫、易于接受、倭予最终模麓的分疆与解释。键荬蘸鑫氇菲常臻蒙:强矮莲过实 验测得,受客观条件限制较多,很多情况下无法得训,这也大大限制了此类参数的使用范围。 2 。分子拓拎指数 分子拓扑指数是分子拓扑结构信息的反映。应用拓扑指数提炼分子结构信息,一般要经 过分予终翰鹣图形讫、图形结鞠戆矩阵饯囊矩蹲簸僮佬= 个步骤。e 类参数莲子国谂的鸷最 生成,有很浓厚的数学色彩。由于计算便利,数学理论充分,不受实验条件限制,在上世纪 鳗千年代末第一个据释袭指数( w i e n e r 猜鼗8 ) 教罐密詹,忿类参数舔被,“泛瘟矮子定量穆 效关系及其它一些研究领域。这类参数徒往与分子的物理化学性质联系不够直观,在对拟合 模型的直观解释上有时会有赎障碍。关于分予拓扑指数,将在稀文中进一步讨论。 3 + 理论计算参数 掰谓瓒论计冀参数,藏怒弼理论凭学方洼 获头诗箨法、半经验诗舅法、分子力学等) 计算得到的势数,如电子结构参数、几何参数、分子表面参数等。此类参数也不受实验上的 疆潮,值诗箨量通常比较丈。滚普计算辊运算糍力豹逐多提高,域论诗雾参数正越米越被a 们所使用。 4 。提示变爨 3 h w i e n e gj a m c h e m s o e 1 9 4 7 ,6 9 ,1 7 * 2 0 7 第一章定量构效关系及其相关技术 指示变量又称虚潜参数“m ,这是一种纯数学意义的参数。它最常被用来表示分子中 某些结构待征的有无。若有此结构特征,则卜l ;若无,则1 = 0 或一1 。指示变量虽然是人为 任意指定的变量,但提供了分子中某些结构特征对活性,| 生质的贡献线索。 以上所述的这些参数通常不是单独使用的,表征一个结构的参数组合适当与否对拟合模 型的质量有着至关重要的影响。 实际研究工作中,可以计算每个样本中分子整体的参数,但更多时候,数据集中分子结 构由一个固定的部分( 分子框架) 与数个可变基团组成。如甲苯与硝基苯,苯环就是它们不 变的框架,而甲基、硝基就是可变基团。这时可以分别计算这些可变基团的参数,组合后即 可表征整个分子,如图1 - 2 所示。 三、参数分析 图1 - 2 用可变基团组合表征分子结构 在获得参数集后,由三个要素必顽在使用其构建模型之前检查 参数集中各部分相互关联性如何。某些不同的参数可能由相同的结构因素导出 这在模型拟台过程中将发生冗余并影响最终模型的质量。相关系数可以表征参 数集这方面的质量,完全独立的两个参数相关系数为0 ,相互“正交”,没有关 d a n i e l sc b o df s f i t t i n ge q u a t i o n st od a t a n e wy o r k :w i l y , 1 9 8 0 3 d r a p e r n r s m i t h h a p p l i e d r e g r e s s i o n a n a l y s i s 2 0 0 e d i t i o n n e w y o r k :w i l y , 1 9 8 l 第一章定擞构效关系殿其相关技术 2 3 联,这是嫒理想的情形,但这种理想状况基本不存在。从数学意义上讲,般 鞭令参数闼的相关系数应夺予0 6 ,键也毒文教掇遂,秘美系数w 接受敕范囊是 币大于0 9 。 参数是否写新预涮熬羟痿光荚。著楚,自然不会对模蘩露台裔搿贡献。 参数集怼否过人。过多的参数与相对较少的融知样本数目无法褥出具有说服力 的数学拟台模型。通过删除部分其有类似特憾的参数可以达到缩,j 、参数榘的目 的,这方强遗转算法是目裁使用较多的技术。另方藤,主成分分橱( p c a ) 、 最小二乘法( p l s ) 等可用从原描述子集中通过数学过程提炼产生一组疆小的 凝参数鬃,使其其蠢蔓裹戆箍惑密爱。整这秘方法有一个臻要缺点:蔟参数集 可能与物理效应或结构特征没有直接的联系,使得建立的模型蛾以解释。 四、模型构建 此过程的主要任务是建立一个优化后的参 鼗鬃与猫标髅质,活性之阀熬数学关系。主要又 包批曼个步骤:训练、评估与梭测。在理想状况 下整个数据集被分为训练集、谱估集与检验集三 部分。首先从谢练集中通过静张数学方法产生 q s a r q s p r 模型,有多种方法可以完成这一工 作,最常弼的蹩统计学中熬多元线瞧匿麴 ( m u l t i p l el i n e a rr e g r e s s i o n ,m l r ) 与人工神经涮 络范畴中晌误差麓传的前商式神经藏络 (f e e d f o r w a r dn e u r a ln e t w o r k sw i t h b a c k p r o p a g a t i o no fe l l o r s ,b p a n n ) ,盛文中将 进一步讨论这一翘题。模型产生嚣,经鲻译镶袋 来检验模型的预测能力,即使用模型米预测评估 集内纯台物豹活洼,淫瑷,劳写实验 萱魄较,遘 而优化模型参数。在某些情况下,数据集太小以 9 图i - 3q s a r q s p r 流程圈 第一章定量构效关系及其相关技术 致无法适当地拆分为几个子集,此时评估模型可以采用交叉验证( c r o s s v a l i d a i o n ) 的方法。 将数据集拆允为k 个小子集,依次将第1 到第k 个子集抽出作为评估集,而将余下的k 一1 个 子集合并作为训练集得到模型并预测评估集的活性性质。这样的过程重复k 次,使得所有 的样本都得到一个预测值,再用这些预测值计算交叉验证误差等统计学指标。若k 与所有样 本数目n 相同,即每次抽出一个样本作为评估集,即是非常常用的“抽一法交叉验证” ( c a v e o d e o u tc r o s s v a l i d a t i o n ) 。 最后,模型需要用一个独立的数据集,即检验集进行检验。检验集中的化合物对于模型 来说应当是完全未知的。在某些总样本数偏少的情况下,检验过程往往不再进行,模型的构 建过程在交叉验证后即告完成。 q s a r q s p r 的整个过程,可以用图1 3 中的流程图表示。对于结构参数计算、模型训 练两个步骤中的一些问题,我们将专门讨论。 第三节拓扑指数及其对化学结构的表达 由于计算便利,数学理论充分,不受实验条件限制,拓扑指数被广泛应用于定量构效关 系及其它一些领域的研究。这类参数往往与分子的物理化学性质联系不够直观在对拟合模 型的解释上有时会有一些障碍,一些研究者也时常以此指责拓扑指数。针对这样的诟病,拓 扑指数发展史上的重要人物r a n d i c 如是回应:希望拓扑指数能够包含物理化学性质固然很 好,但强求这一点是没有道理的。化学图论中的概念与模型是对分子结构的另个侧面的描 述,与物理化学描述的视角完全不同正如物理化学描述与量子化学描述视角的差异样”。 言下之意是,拓扑指数与化学图论体系对化学结构的描述与量子化学、物理化学方法是平等 的,是化学结构在不同的观察平面上的投影,各自胜任不同的应用领域,无所谓谁优谁劣, 更不必强行将一个投影硬和另一个投影搭上关系。再进一步引申,化学工作者们最熟悉的是 分子的物理化学描述,因此才会要求拓扑描述或量子描述反映物理化学意义;设若大家熟悉 的是化学图论与拓扑指数,现在可能就反而会指责物理化学参数缺乏拓扑意义了吧。 加加 唱 曲m&诅gm触 旧 托” 出c 毛j 摆 第一章定量构效关系及其相关技术 一、拓扑指数的生成 我们可以用不同层次的语言来表达一个化学结构,如图1 4 所示,从最粗略的化学名称 到精细的空间结构、分子表面,从每个层次都能获取特定的结构表征信息。 图1 - 4 化学结构的表达层次及相应的结构描述子 从一般理解来说,对化学结构的描述总是越精细越好,然而,越精细的描述复杂度也越 高,在“生价比”方面未必比粗略的表达更优越。实际上作中,用二二维图形来表达结构是化 学工作者通用的“自然语言”,而且从理论上说,更精细的表达都可以从平面结构式中推算, 正如蛋白质的一级结构决定了它的二级、三级结构。 第一章定量构效关系及其相关技术 g h 3 c h 3 一c - c u - c h 3 c h 结构式 拓扑指数一 卜 隐氢图 或 郐接矩阵a距离矩阵d 图1 5 拓扑指数产生的一般过程 抽象图 分子拓扑指数,即是由二维分子结构导出的一类结构描述子。它建立在分子图论的数学 基础上。图i 一5 演示了拓扑指数计算的一般过程,从分子二维结构图出发,去除氢原子生成 隐氧图,再抽象成为数学意义上的图化学结构按照表1 - 1 的原则,映射到抽象图中去。选 取图的不变量( 即对于同构的图尽管同构的图在形式上有时差别很大这种数学的量 是相同的) 即可作为表征化学结构的描述子,也即拓扑指数。 表1 - 1 图论与化学中对应的基本概念 原子顶点 化学键路径 子结构通道 环状结构环图 非环结构树 原子价态顶点的度 通常拓扑指数是由图生成的邻接矩阵或距离矩阵( 前者表明了图中各顶点之间的直接连 接情况,后者则关注于两顶点之间相隔顶点的数目) 经数学变换后得到的。目前常闩j 的拓扑 指数包括r a n d i c 连接指数”、k i e r - h a l l 连接指数”、拓扑自相关向量1 9 等,也不断有新的拓 扑指数被提出2 0 0 1 ,”。以下分别介绍几种典型拓扑指数的计算方法。 m r a n d i c ,j a m c h e m s o c 1 9 7 5 ,9 7 ,6 6 0 9 6 615 l b k i e r , l h h a l l ,w 3m u r r a y , m r a n d i c ,j p 1 1 a 咖s c i 1 9 7 5 ,6 4 ,1 9 7 1 gm o r e a u ,pb r o t o ,n o u v j c h i m1 9 8 0 ,4 ,3 5 9 3 6 0 g a l e x a n d e r , a l e x a n d e rt r o p s h a , j c h e m i n f c o m p u t s c i 2 0 0 3 ,4 3 ,1 4 4 1 5 4 2 扣 第一章定凝构效关系敷其相关技术 = 、几类典型拓扑指数的计算 1 w i e n e r 指数 1 9 4 7 年,w i e n e r 提出了一类挺挣捺数驴3 。w i e n e r 戴察了馋狂链烃类纯台甥与簇性质 之间的关系,发现这些化合物的性质随潜分子大小和支化j 夔的变化丽变化。为了解释所观察 熬躐彖,予燕糖建搜一静分子结搀静据羧,静溉楚镶密弪类分子骨絮孛所有璇簇予黯 之间距离的加和。 其中n 是原予数目,南是距离矩阵d 的一个元索是原予i 与j 之间的最黼通路。 w i e n e r 搬数,是掰史上露一个辐羚类续梅攒透子。 2 r a n d i c 连接稽鼗鸯k i e r - h a l l 连接捂数 r a n d i c 涟接指数又称连接度或支化度,表征了分子大小与结构的分义樱度。k i e r - h a l l 指数由它迸步发展得到。它们可以由f 式计算: 矾 ”z = + 尸 其中是分子鹜爨辨径煞鼗,p 酾表示躁襄惫* 敦嚣个凝予之淄翦秀季有邈鼹,对于r a n d i c 指数的计算,勘是通路上各顶点的度,掰在k i e r - h a l l 指数计算中,南是通路上各原予的“价 态指数”。出予价态指数酌引避,k i e r - h a l l 指数稳对于r 黼d i e 指鼗酌最大优势是可班处理含 杂原予的分予,应片j 瓤圃也更m h 广泛。 r a n d i c 指数及其衍生的k i e r - h a l l 指数是目前应用最为广泛的一类拓扑指数,已有两本 专萋阏壁。2 4 , 2 5 “m r a n d i c j c h e m i n f c o m p u t s c i ,2 0 0 4 4 4 ,3 7 3 3 7 7 “yf e n g ,w z d o n g ,y ph u a n g ,j c h e m i n f c o m p m s c i ,2 0 0 3 ,4 3 ,1 3 3 7 1 3 4 1 “w i e n e rt q ,j j + a m ,c h e m ,s o c 9 4 7 ,6 9 ,1 7 2 0 ”l 8 k i e r , l h h a l l ,m o l e c u l a rc o n n e c t i v i t yi nc h e m i s t r ya n dd r u gr e s e a r c h ,a c a d e m i cp r e s s , n e wy o r k ,1 9 7 6 ”l b k i e l i t h a l l ,m o l e e u l a rc o r m e e t i v i 每i ns t r u c t u r e - a c t i v i t ya n a l y s i s ,r e s e a r c hs t u d i e s p r e s s l e t e h w o r t h ,e n 垂a n d ,j 9 8 6 1 3 吐, 。蜘 ,一2 【g 形 第一章定量构效关系及其相关技术 3 拓扑自相关向量 拓扑自相关向量可以由下式计算 。f 1 ,v d f d 归t 0 ,v d , j = d 其中西为原子i 与,之间的距离,p ,、辟分别为原子i 、的性质数值。某一拓扑距离d 的自 相关函数d 倒的值由原子i 、,性质数值的乘积加和得到。拓扑自相关向量对于分子的移动、 旋转及不同构象均为一不变量。 三、拓扑指数的应用 拓扑指数的麻用主要集中在三个方面:( 1 ) 化合物的唯一性表征;( 2 ) 物理化学性质的 直接相关:( 3 ) 构效关系研究。其次,拓扑指数还可用于结构的相似性检索及计算机辅助合 成方案设计等。 1 化合物唯一性表征 人们希望将世界上的所有化合物,每一种仅用一个数码表示,而且该数码与化台物的性 质又具有相关性。长期以来,科学家们孜孜以求,希望获得问题的解,于是拓扑指数方法, 即图论法得以迅速发展。目前,拓扑指数的计算方案超过1 0 0 种,但尚无一种可以唯一地表 征所有化合物。有人提出组合拓扑指数法2 6 ,”,但是,这种指数为拓扑指数序列,而并不是 单一的拓扑指数。现在,已登录的化台物为一千多万种,而且每年以几万,几十万的数量增 长,是否真存在某种图的不变量可以唯一地表征化合物? 迄今在理论上还无法证明或证反这 一点。 2 物理化学性质的直接相关 许多拓扑指数的设计就是为与有机化台物某一方面的性质直接相关,尤其是在拓扑指数 早期的发展阶段。如王化云、许禄等设计的广义n n 指数”,随着广义指数数值的增加, 化台物密度增大,而折光率减小。k i e r 等人也曾使用k i e r - h a l l 指数对烷烃及烷基苯的摩尔 加1 3 b o n c h e v , o m e k e n y a n ,n t r i n a j s t i c ,j c h e m p h y s19 7 7 ,6 7 ,4 5 】7 “d ,b o n c h e v , o m e k e n y a n ,n t r i n a j s t i c ,j c o m p u t c h e m 1 9 8 1 ,2 ,1 2 7 2 8 王化云,许禄,苏锵,化学学报1 9 9 1 ,4 9 ,4 2 4 1 4 p 锄 一 d 。卢 j j 口 第一章定簸构效关系_ 疑其相关技术 折射率,醇教氯代苯在水中酌溶解度,烷烃类化含物的摩尔体积,烷烃、聚环芳烃及目目肪醇 懿惫灌保馨数据、爨予佬热、蒸发热等避毒亍了j # 镦系统的蠹接相关性霹究”。 3 梅效关系骚究 这是拓扑指数使用最多的领域。具体实例蒋在后文中讨论。 第四节数学模型构建的方法 多元线性回归与人工神经网络 统计学审静多元线性露爨 与a 工$ 经网络范畴申豹误 差发传的前向式神经网络( f e e d - f o r w a r dn e u r a ln e t w o r k sw i t hb a c k - p r o p a g a t i o no fe r r o r s , b p a n n ) 翘q s a 剐q s p r 研究中两个域常用的构建数学模型的方法。 一、多元线性隧归 强躲分辑是数理娆t + 中最嚣爆的方法之一。在实际工佟中,我 f j 经常撼烈勰数据间的依 赖关系有两种类型:种为确定性的依赖关系,即函数关系;另一种为非确定性的依赖关系 邵糕关关系。在函数关系中,囊个或j l 个鼗掌爨露暖糖确建交出勇一或爨9 凡令数攀量, 如幽三角形的三边可以求出三角形的蔺袄。而在相关关系中变量间没有确定的函数关系。如 溶液的浓度湘壤光度两个墓是相互有联系的。通常,浓发火,吸光凄亦大:反之亦然。但是, 二袭之阈的关系是不确定的,即找不到个确是的函数表达式。即使同一浓艘的溶液,由_ 】= 测定条件的微小变化,两次测定结果也不会完仝样。事实上,在科学实验中借助仪器所获 褥的数据,宅蜘之阉的关系几乎均属予这静 确定蛙的依赖关系。如每技出具毒这穆鞠关关 系的变量之问的数学袭达式,回归分析为我们提供了一条可行的途径。 话个变董雾之闽线性关系魏黎簿,实际上藏麓实验工 睾者菲常熟悉麓臻d , - - 乘法。两在多 2 9 8 ,k i e r , l h ,h a l l m o l e c u l a r c o n n e c t i v i t yi ns t r u c t u r e - a c t i v l t y a n a t y s i s , r e s e a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论