(分析化学专业论文)几类与农药有关的有机物定量构效关系研究.pdf_第1页
(分析化学专业论文)几类与农药有关的有机物定量构效关系研究.pdf_第2页
(分析化学专业论文)几类与农药有关的有机物定量构效关系研究.pdf_第3页
(分析化学专业论文)几类与农药有关的有机物定量构效关系研究.pdf_第4页
(分析化学专业论文)几类与农药有关的有机物定量构效关系研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(分析化学专业论文)几类与农药有关的有机物定量构效关系研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

桂林理工大学硕士学位论文 中文摘要 在有机污染化学中,结构一活性性质关系( q s a r q s p r ) 技术具有两个最基本的功能: 一是对一些化学品的环境行为进行预测、评价和筛选:二是探求污染物的作用机制,为发 展污染控制技术和风险削减技术提供理论指导。因此,理想的q s a r 模型应该具有高度的 预测能力,又具有明确的物理意义。本文应用几种描述子联合表征部分有机物的分子结构, 利用多元线性逐步回归( m l s r ) 、遗传算法( g a ) 以及最佳子集回归( b s r a ) 方法选择最佳描 述子,建立了具有较高预测能力q s a r q s p r 模型。 1 用m e d v - 1 3 v d i 描述子表征5 7 个昆虫酚氧化酶抑制剂有机化合物结构,建立了 有机化合物生物活性和m e d v - 1 3 一v d i 描述子之间的q s a r 模型,所建立的多元线性回归 ( m l r ) 模型具有较好的预测能力。象征着n 原子的扔6 卜n 二和- n - - ) 描述子对于化合物活 性占有着主要贡献的地位,达到了4 9 1 9 ,而其他描述子有着较小的贡献。描述子扔6 ( 州二 和- n = ) 的主要贡献意味着n 原子对于决定抑制酶的生物活性( i c s o ) 起着主导作用。0 原 子对模型的贡献也比较明显,描述子x 9 ( - - c h r 和o ,= o ) 与x 2 l ( z h 3 和o ,= o ) 都含有 o 原子。这意味着分子中的亲水基团也能增强分子的生物活性。 2 本研究联合利用拓扑指数l u d a i 和l u m e d v - 1 3 计算8 0 个含硫芳香羧酸酯化合 物结构的描述子做为建立模型的自变量参数。应用b s r a 方法选择最佳描述子,应用m l r 建立相关q s a r 模型。象征着分子大小的三“指数对于化合物k o w 占有着主要贡献的地位。 分子大小对于决定k o w 起着主导作用,亦即,分子越大,对应的分子疏水性越强。 3 本文通过反映化合物全局情况的三“指数,表示某个特定基团对化合物性质或活性 产生影响的d a 指数以及反映分子中原子键与键之间性质的分子电负性指数x e q 指数,联 合表征8 1 种有机农药的分子结构,对4 种不同类型色谱柱中的有机农药的相对保留时间 ( r r t ) 进行q s p r 研究,所得的结构均具有更高的模型质量和稳定性。影响有机农药的r r t 值的最主要的是分子的大小,其他原子的极性影响比不可忽视。 关键词:定量结构一活性性质相关;拓扑指数;变量选择与模型化方法;含硫芳香羧酸酯 类化合物;酚氧化酶抑制剂;有机农药 - i 一 桂林理工大学硕士学位论文 a b s t r a c t i no r g a n i cc o n t a m i n a t i o nc h e m i s t r y , t h eq u a n t i t a t i v es 缸u c n l r e a c t i v i t y p r o p e r t yr e l a t i o n s h i p ( q s a r q s p r ) t e c h n o l o g ym a yh a v et w ob a s i cf u n c t i o n s f i r s to fa l l ,i tc a l lb eu s e df o r p r e d i c t i n go ra s s e s s i n gt h eb n k n o w ne n v i r o n m e n t a lb e h a v i o ro fs o m ec h e m i c a l s o nt h eo t h e r h a n d ,q s a r q s p ri sv e r yh e l p f u li ns t u d y i n gt h em e c h a n i s mf o rav a r i e t yo fp o l l u t a n t sa n di s o ft h e o r e t i c a ls i g n i f i c a n c ei np o l l u t i o nc o n t r o la n dr i s km i n i m i z a t i o n t h e r e f o r e ,o p t i m u m q s a r q s p rm o d e l sm a yn o to n l yh a v eg o o dp r e d i c t i v ep o w e r , b u ta l s op o s s e s se x p l i c i t p h y s i c a li n t e r p r e t a t i o n s i no r d e rt os t u d yt h em e c h a n i s mo fo r g a n i cp o l l u t a n t s ,u s i n gs e v e r a l d i f f e r e n tt o p o l o g i c a ld e s c r i p t o r st oc h a r a c t e r i z et h es 仃u c t i l r e so fo r g a n i cp o l l u t a n t s t h em u l t i p l e l i n e a rs t e p w i s er e g r e s s i o na n a l y s i s ( m l s r a ) 、g e n e t i ca l g o r i t h m ( g a ) a n db e s ts u b s e tr e g r e s s i o n a n a l y s i s ( b s r a ) w e r eu s e dt os e l e c tt h eo p t i m u mv a r i a b l e s ,s o m eh i g hq u a l i t i e sq s a r q s p r m o d e l sw e r eb u i l t 1 t h ep i c s ov a l u e so f5 7 c o m p o u n d sb e l o n gt ob e n z a l d e h y d et h i o s e m i c a r b a z o n e , b e n z a l d e h y d e ,a n db e n z o i ca c i df a m i l i e sa g a i n s tp h e n o l o x i d a s ea r ew e l l c o r r e l a t e do nd 玎i n d e x a n dm e dk 1 3 t h ex 5 6 ( _ n _ a n d - n _ ) d e s c r i p t o rp l a y sad o m i n a n tr o l ei nd e t e r m i n i n gt h ei n h i b i t 5 0 o ft h ee n z y m ea c t i v i t y ( i c 5 0 ) ,b u td 玎i n d e xa n ds o m ep a r t i c u l a ra t o m i ct y p eo rg r o u p s h a v es m a l li n f l u e n c e so nt h ei n h i b i t5 0 o ft h ee n z y m ea c t i v i t y ( i c 5 0 ) t h ep r e s e n ts t u d ya l s o i n d i c a t e dt l l a ts o m eg r o u p ss u c ha s = o ,o - :h 3 ,c h 2 - ,- - c h k ;,= 1 ,2 ,人,9 1 ) ( 2 - 2 ) i c k 。j d t i - - 4 - - 桂林理工大学硕士学位论文 式中毛卜是各非氢原子类型:西表示非氢原子f 歹之间的最短拓扑距离即从原子f 到原 子歹的各个路径中化学键数加和的最小值:5 1 ,g f 与垡,是原子在实际分子环境中的e 状态指 数: 一掣必 铲”;半,i 一妒 ( 2 3 ) 因为原子类型共有1 3 种,所以每个分子m e d v - 1 3 参数共有c 2 3 + c :3 = 1 3 x1 2 2 + 1 3 = 9 1 个,但并不是每个参数都有值,分子中一些原子类型不存在,计算的参数为零。9 1 个参数 及公式( 2 2 ) 中的,( 即参数序号) ,k 和,三者之间的相互关系见表2 2 : 表2 2m e d v - 1 3 计算公式中r , k ,1 三者之间的相互关系f 2 3 1 ,- l卢2f - 3l = 41 = 5l = 6l = 71 = 8l - - 9卢1 0_ - 1 1,- 1 2扛1 3 k = l1 k = - 2 k = 3 k = 4 k = 5 k = 6 k - - 7 k = 8 k = 9 k = l o k = 1 1 k = 1 2 k = 1 3 2 1 4 3 1 5 2 6 2 1 2m e d v - 1 3 计算过程 m e d v - 1 3 计算利用刘树深所描述的m e d v - 1 3 算法原理【2 3 】,本人利用m a t l a b 语言编写 程序完成计算。下面以敌百虫( t r i c h l o r f o n ) 分子为例,说明m e d v - 1 3 计算过程。敌百虫的分 子结构如图2 1 所示。 ( 1 ) 用c h c m o f f i c e 画出敌百虫的分子结构,为非氢原子标上序号( 见图2 1 ) 。 一5 一 n筋弘舶鲐以加叭豁镐如虬 屹m弱朽钭酡毋”舛盯眇 u乃弘钳弱n铝弭侈昭跖 加砣躬钇印卯仍弛跎 9殂砣铊钉约酌他 8加孔仉如鼹=合订 7垮如柏钞卯“ 6坞凹”诣弱 5 勰勰钉 4 m ”卯 桂林理工大学硕士学位论文 8 h 3 ,、1 0 一u 1 , i “c h 3 图2 1 敌百虫分子结构中各非氢原子的编码序号 ( 2 ) 输入有机农药敌百虫( t r i c h l o r f o n ) 的分子结构编码。敌百虫的分子结构码为: c 0 1 ( s 0 0 2 ) 0 0 2 ( s c 0 1 s p 0 3 ) p 0 3 ( s 0 0 2 s c 0 4 d 0 1 0 s 0 11 ) c 0 4 ( s p 0 3 s c 0 5 s 0 0 9 ) c 0 5 ( s c 0 4 s a 0 6 s a 0 7 s a 0 8 ) a 0 6 ( s c 0 5 ) a 0 7 ( s c 0 5 ) a 0 8 ( s c 0 5 ) 0 0 9 ( d c 0 4 ) 0 1 0 ( d p 0 3 ) 0 1l ( s p 0 3 s c l 2 ) c 1 2 ( s o l l ) 。在本论 文的编码系统中,c ,n ,o ,e p , s ,a ,b ,1 分表代表碳原子,氮原子,氧原子,氟原子,磷原子,硫原 子,氯原子,溴原子,碘原子。0 1 ,0 2 表示元素的序号,s 表示单键,d 表示双键,a 表示共轭 键。比如,c 0 1 ( s 0 0 2 ) 表示序号为1 的碳原子只与序号为2 的氧原子以单键相接。 ( 3 ) 将第二步中的编码保存为纯文本文件,利用m a t l a b6 0 编写好的m e d v - 1 3 程序进 行计算。计算过程中,根据表2 1 中的非氢原子的,值和图2 2 的拓扑距离,由( 2 3 ) 式计算 e 一状态指数;再根据g f 值和图2 2 的拓扑距离,由( 2 2 ) 式计算m e d v - 1 3 描述子。 d = 0 0 0 0 0 0 9 2 8 61 9 7 7 33 1 8 2 54 1 8 2 55 3 3 1 95 3 3 1 95 3 3 1 93 9 7 4 7 2 9 2 1 4 3 0 2 6 03 9 5 4 5 0 9 2 8 60 0 0 0 01 0 4 8 72 2 5 4 03 2 5 4 04 4 0 3 34 4 0 3 34 4 0 3 3 3 0 4 6 21 9 9 2 92 0 9 7 4 3 0 2 6 0 1 9 7 7 31 0 4 8 70 0 0 0 0 1 2 0 5 32 2 0 5 33 3 5 4 6 3 3 5 4 63 3 5 4 61 9 9 7 50 9 4 4 21 0 4 8 71 9 7 7 3 3 1 8 2 52 2 5 4 01 2 0 5 30 o o o o1 0 0 0 02 1 4 9 4 2 1 4 9 42 1 4 9 40 7 9 2 22 1 4 9 42 2 5 4 03 1 8 2 5 4 1 8 2 53 2 5 4 0 2 2 0 5 31 0 0 0 00 0 0 0 01 1 4 9 41 1 4 9 41 1 4 9 41 7 9 2 23 1 4 9 4 3 2 5 4 0 4 1 8 2 5 5 3 3 1 94 4 0 3 3 3 3 5 4 6 2 1 4 9 41 1 4 9 40 0 0 0 0 2 2 9 8 7 2 2 9 8 72 9 4 1 64 2 9 8 8 4 4 0 3 3 5 3 3 1 9 5 3 3 1 9 4 4 0 3 3 3 3 5 4 6 2 1 4 9 41 1 4 9 42 2 9 8 7 0 0 0 0 0 2 2 9 8 72 9 4 1 64 2 9 8 8 4 4 0 3 35 3 3 1 9 5 3 3 1 9 4 4 0 3 33 3 5 4 6 2 1 4 9 41 1 4 9 42 2 9 8 72 2 9 8 7 0 0 0 0 0 2 9 4 1 6 4 2 9 8 84 4 0 3 35 3 3 1 9 3 9 7 4 73 0 4 6 21 9 9 7 50 7 9 2 21 7 9 2 22 9 4 1 62 9 4 1 6 2 9 4 1 60 0 0 0 02 9 4 1 63 0 4 6 23 9 7 4 7 2 9 2 1 41 9 9 2 90 9 4 4 22 1 4 9 4 3 1 4 9 4 4 2 9 8 8 4 2 9 8 84 2 9 8 82 9 4 1 60 0 0 0 01 9 9 2 92 9 2 1 4 3 0 2 6 0 2 0 9 7 41 0 4 8 72 2 5 4 0 3 2 5 4 0 4 4 0 3 3 4 4 0 3 34 4 0 3 33 0 4 6 21 9 9 2 90 0 0 0 00 9 2 8 6 3 9 5 4 5 3 0 2 6 01 9 7 7 33 1 8 2 5 4 1 8 2 5 5 3 3 1 95 3 3 1 9 5 3 3 1 93 9 7 4 72 。9 2 1 40 9 2 8 60 0 0 0 0 图2 2t r i c h l o r f o n 的非氢原子间的拓扑距离 6 桂林理工大学硕士学位论文 2 2 三“指数 三“指数的定义如下: l u = 刀“2l o g 1 2 ( d ,+ d ;) 】 ( 2 - 4 ) 式中,刀是指分子拓扑图中非氢原子的个数。d 。是非氢原子之间的相对距离。对于非 氢原子间的相对距离的定义,下面作简要叙述。 “相对距离”即化学键相对键长作为距离量度,两原子问的相对距离等于各化学键相 对键长的加和,而相对键长( 磊,) 定义为该键键长对c c 单键键长的比值。当两原子之间存在 多个路径时,采用最短距离量度。化学键相对键长采用原子属性表达方案,这里主要用来构 建各种化学键长库。本文中的“原子属性”采用刘树深等 2 5 - 2 7 】提出的双字符串表达方法, 即o o ,c 2 分别表示于其它非氢原子形成一个共轭双键的氧原子核形成一个双键的碳原子。 具体属性种类参见表2 1 ,由这些原子属性表达的化学键长见表2 3 。 表2 3 有机分子中各种原子属性表达的化学键及其键长黟2 7 n o化学键意义键长n m l c i - c 1 ,c 1 - c 2 ,c 1 - c 3 2c 2 c 2 3c 3 c 3 c c - c c ,c 2 一c c ,c 3 c c c l - n 1 ,c 2 - n 1 ,c c - n l ,c 1 n 2 c 2 n 2 c 3 n 3 c c n n c i - o l ,c 2 - 0 1 c 2 0 2 c c o o n n o o c i - s 1 ,c 2 - $ 1 s s o o e l - f l ,c 2 - f 1 ,c 3 一f l ,c c - f 1 c 1 - l 1 ,c 2 - l 1 ,c 3 - l l ,c c - l l c 1 - b 1 ,c 2 - b 1 ,c 3 - b 1 ,c c - b 1 c i - 1 1 ,c 2 一i l ,c 3 一1 1 ,c c - 1 1 7 一 碳碳单键 碳碳双键 碳碳叁键 碳碳共轭双键 碳氮单键 碳氮双键 碳氦叁键 碳氮共轭双键 碳氧单键 碳氧双键 碳氧共轭双键 氮一氧共轭双键 碳硫单键 碳硫共轭双键 碳氟单键 碳氯单键 碳溴单键 碳碘单键 0 1 5 4 0 1 3 4 0 1 2 0 0 1 4 4 4 0 1 4 7 0 1 3 0 o 1 1 6 o 1 4 2 b 0 1 4 3 0 1 2 2 0 1 3 7 。 o 1 2 2 d 0 1 8 2 0 1 4 3 。 0 1 3 8 0 1 7 7 0 1 9 3 0 2 1 4 4 5 6 7 8 9 m n 屹 ” m :2 m 埔 桂林理工大学硕士学位论文 口:按c = c - c = c c 计算,即( 0 1 5 4 + 0 1 3 4 ) 2 = 0 1 4 4 n m : 6 :按c - c = n - c = c 计算,即( 0 1 3 4 + 0 1 4 7 + 0 1 3 0 + 0 1 5 4 ) 4 = 0 1 4 1 n m : c :按c - c = c c = o 计算,即( 0 1 5 4 + 0 1 3 4 + 0 1 5 4 + 0 1 2 2 ) 4 = 0 1 4 1 n m : d :按n 0 2 中o = - n = o 计算; p :按s 0 3 中o = - s = o 键计算。 下面以敌百虫( t r i c h l o r f o n ) 为例计算其三“指数。敌百虫的分子结构如图2 1 所示,其相 对拓扑距离如图2 2 所示。 三“= 12 2 l o g - - ,( z 2 1 2 1l i = 1,= 1 = 1 2 i n l 。g 1 ( 3 8 9 5 9 0 6 + 1 3 7 3 6 2 0 6 ) = 1 2 抛l o g 8 81 6 0 5 6 = 1 0 2 0 2 7 ( 2 5 ) 2 3 基于拓扑距离的原子类型d a i d a t 指数的定义【l l 】: 对于一个分子图中属于原子k 类型( 这里的原子类型与k i e r 等划分的方案相同) 的非氢 原子i ,基于距离的原子类型拓扑指数d a i , ( k ) 的定义如下: dal(k)=l+鸥(助(2-6) 岛 辔( p2n , ei 土j - 一 ( 2 7 ) d 驴 t j 式中,参数痧是位置参数,反映的是原子i 在分子拓扑图中的环境;西是非氢原子之间 的相对距离:刀为一个分子中非氢原子的个数。 根据以上定义,对于一个分子中的原子后类型,相应的基于原子类型的拓扑指数d a i ( k ) 就等于分子中相同原子类型d a l i ( k ) 值之和,计算如下所示: ,筇搠 d a i ( k ) 2 d a i , ( k ) 2m + 中,( 尼) ( 2 8 ) _l_ 。 i = i i = l 式中,m 是分子中含有的相同原子类型的非氢原子数目。因此删功值就等于类型k 原 子的个数与它们的总位置参数值的和。为了说明d 舡指数的计算过程,以敌百虫( t r i c h l o r f o n ) 为例来计算它的d a l 指数的值。敌百虫的分子结构如图2 i 所示。该分子的最短相对距离 一8 一 、- 、 v d ”脚 他 + 玎 d 桂林理工大学硕士学位论文 矩阵如图2 2 。 对于这样一个化合物,分子结构中需要考虑多种非氢原子键间。这几种键型的相对键长 各不相同。因此,根据以上d a 指数的定义3 9 , 4 指数的计算如下: d a ( - - c h s ) = d a ,( 1 ) + d a i ( 1 2 ) = ( 1 + 1 2 三芸兰罴) + ( 1 + 1 2 j 芸冬罴) = 4 4 7 3 0 删,2 d a i ( 2 ) + d a ( 1 1 ) _ ( 1 + 1 2 蠹罴) + ( 1 + 1 2 蠹罴) _ 3 9 0 1 0 叫才 0 ) ,变异操作又称突变。此几种g a 基本操作即选择,交叉 和变异涉及的仅是对染色体串进行复制或变换,因而其概念与实现相当简易,但由它们作 基础组成的g a 却功能很强f 】6 】,可在多元变量优化组合中发挥其作用,解决许多复杂问题。 ( 3 ) 性能评价适应值或其它性能评价函数也是实现g a 的另一重要指标,其选择则 是一个关键问题。选择好的评价函数不仅可得到正确的求解而且可加快g a 收敛速度。通 常要求选取的性能评价函数要能有效地指导搜索沿着面向参数优化组合的方向逐步逼近 全局最优参数组合( 解) 。而不致使搜索不收敛或陷入局部最优态。同时该评价函数也应当 易于计算。对于不同问题的求解可选择不同的评价函数包括最小一乘,最小二乘,均方误差 等。其焦点都应使g a 拟合精度高特别是预测能力强。较简单而较实用的一种评价函数是 均方根误差类函数:女r j f = m s e , 户1 m s e , f = m s e , , , - m s e , f = p r e s s 等。本文选择交互校 验的预测残差平方和即户纠沤鼯作为评价函数。 2 6 1 3b s r a 算法 其基本原理如下: 一1 2 一 桂林理工大学硕士学位论文 首先,确定指定变量数( 硼) 下的最佳子集。这个最佳子集是在指定变量数下最佳,但 并不表示它始终最佳。因此,完成各个硼下的优化后,还必须根据各个l o o 预测的均方根 误差随的变化规律来确定整个子集空间中的最佳子集。指定下最佳子集回归运算步 骤如下: ( 1 ) 确定几个控制参数的值:指定优化变量数v n ( 如1 ,2 ,3 ,4 ,5 ,6 等) ,指定分子描述子变量 之间自相关系数的最大允许阀值r i = t ( 女 1o 7 0 ,0 7 5 ,0 8 0 等) 。然后指定迭代运算中的两个重要 的统计参数r c r i 和厂m x 的初始值,其中r c r i 决定下一步l o o 是否进行,并保证所建模型在高户 条件下有足够高的预测能力( 矿足够大) 。参数缸是上一次迭代中得到的最大矿,它确定下 一次迭代的起点。参数r c r i 和厂蛳初始值的选择一般以不超过矿的最终优化结果为标准,比 如,最后优化的矿为o 7 0 ,那么r e r i 和缸初始值就要小于o 7 0 。 ( 2 ) 从不同变量数v n ( 2 ,3 ,4 ,5 ,6 ,) 下的优化结果中确定最佳子集。在模型校验时,相关 系数r 总是随着变量数珊的增加而增大,均方根误差r m s e 总是随的增加而下降。而在 l 0 0 交互检验中,相关系数g 随增加到一定值时反而缓缓下降,均方根误差r m s e 则先随 的增加而减小,达到一定的值以后则又缓缓增加。所以基于预测的最佳子集回归方法以交 互检验相关系数g 和r s m v 作为判据,在整个变量子集空间中选择全局最优变量子集。 2 6 2 最佳模型 以刀个样本分子的生物活性或物理化学性质为因变量y ,( 江1 , 2 ,3 ,人,刀) ,各分子描述子 为自变量勖( j = 1 , 2 ,3 ,人,肼) ,应用m l r t 3 6 - 3 8 】方法建立如下线性关系: y i = p o a ep l x i l + f 1 2 x t 2 + 八+ p m x l m + 占i = p 。+ 毛+ s l ( 2 - 1 2 ) ( 2 1 2 ) 式中刀是样本数,m 是每一个样本的描述子个数劫为第i 个样本第f 个分子描述子变量夕 为待估计回归系数,占为误差项。 2 6 3q s a r 模型评价 模型的好坏由统计量来评价,几个重要统计量的计算公式如下: h,” ,2 = 1 - ( y ,- y , ,) 2 ( y ,一允) 2 ( 2 1 3 ) s = f = 去私嘲2 南私吲2 r m s e = 匪i = l 函 一1 3 一 ( 2 - 1 4 ) ( 2 - 1 5 ) ( 2 - 1 6 ) 桂林理工大学硕士学位论文 、 9 2 = l 一( 咒一夕) 2 ( 多一歹) 2 ( 2 1 7 ) i = 1,i = 1 其中:刀是样本数;m 是变量数;y 是估计值或计算值;y 是实际值:y 是实际值的平 均值。,表示估计相关系数,s 表示标准差,表示f i s c h e r 统计量,g 表示l 0 0 交互检验相关系 数, r m s e 表示均方根误差。 2 6 4 模型检验 模型预测能力是模型评价中更重要的性能指标。如何评价模型对外部样本的预测能力 至今没有统一的标准。本文采用交互验证与检验集检验相结合的方法。交互验证 ( c r o s s v a l i d a t i o n ,简称c v ) 是评价与检验模型稳定性与预测能力的最常用也是最重要的方 法之一。用留去一法( l e a v e o n e o u t ,简称l 0 0 ) 交互检验来检验数据集中是否存在离群值。 所谓l 0 0 法就是每次抽出一个样本作为检验集,以余下样本建模并预测被抽出的样本,如此 重复至所有样本都被抽出一次为止。以l 0 0 法得到的交互检验相关系数( g ) 和交互检验的 均方根误差( 心s t o 作为检验模型稳定性或预测能力的重要统计量。 1 4 - 桂林理工大学硕士学位论文 3 1 引言 第3 章5 7 个昆虫酚氧化酶抑制剂的2 d q s a r 研究 在自然界中,无论是脊椎动物还是无脊椎动物( 包括昆虫) 、植物或微生物,酚氧化酶 ( p h e n o l o x i d a s e ,简称p o ) 在其生命过程中都发挥着重要作用。早在1 9 0 5 年,d e w i t s 3 9 】就提出 昆虫的p o 与黑色素的形成有关。以后的研究表明,p o 广泛存在于动物、植物、昆虫、真 菌和细菌体内,可以引起一些水果、蔬菜和甲壳类动物在贮藏期间变黑色,可作为多种植物 抗病性鉴定的指标或反映植物抗病性的一个辅助生化指标,与动物黑色素合成以及在皮肤 等处沉着有关f 4 叫引。也正是由于该酶的性质和功能及其在不同生物体生命活动中的作用, 其生物化学、药理学和毒理学的研究引起了许多专业领域的关注【4 4 4 9 】。 在昆虫体内,p o 是一种重要的酶,它对昆虫的变态发育和免疫系统起着重要作用。p o 催化完成的“醌鞣化 作用可以促进昆虫表皮的硬化与黑化,这个过程对于具有“外骨 骼 的昆虫生命过程至关重要【49 1 。当今,农药的发展正面临着一个关键时刻,发展“环境友 好害虫控制剂的观念越来越深入人心,这个领域也越来越成为世界各国科学技术争相抢 占的一个制高点。一般认为研究开发新杀虫剂的途径有如下四个方面,即( 1 ) 经典筛选;( 2 ) 类推合成;( 3 ) 天然产物模板;( 4 ) 生物合理设计。特别是目前“计算机辅助分子设 计 ( c o m p u t e ra i d e dm o l e c u l a rd e s i g n ,简称c a m d ) , 胃t q l t 类研究大有前途【4 。p o 抑制剂 的研究可以为发展新型的害虫控制剂提供重要线索,特别是研究不同昆虫p o 特性及抑制 剂抑制动力学将会为发现一类全新的、专化性的、无公害昆虫控制剂提供理论基础和实践 参考。 本文实用m e d v - 1 3 和d 玎描述子联合表征5 7 个p o 抑制剂的分子结构,利用 b s r a ,g a ,m l s r a 选择最佳描述子,建立q a s r 模型。结果表明,基于m e d v - 1 3 和d 阿描 述子的i c 5 0 模型具有较高的模型质量和稳定性,可以预见本研究为p o 研究提供更便捷的 方法,也为开发以该酶为靶标的新型害虫控制剂提供理论依据。 3 2 数据来源 从文献4 1 1 中收集5 7 个化合物为研究对象并列于表3 1 中。 这5 7 个有机化合物的生物活性( 用i c 5 0 表示) 一1 5 一 桂林理工大学硕士学位论文 图3 15 7 个化合物的p i c 5 0 分布 被转化成p i c 5 0 ( 1 0 9 p i c 5 0 ) 来构建q s a r 模型。 所有p i c 5 0 值在0 9 7 6 5 9 之间,分布广泛且比较 均匀( 如图3 1 ) 。其中p i c 5 0 在o 1 0 之间有1 个化合物,在1 o 2 0 之间有1 4 个,在2 0 3 0 之 间的有1 7 个,在3 0 5 0 之间有7 个,在5 0 6 0 之间有7 个,6 0 以上的有1 1 个。这5 7 个化合物 包括1 7 个苯甲醛衍生物( b e n z a l d e h y d e d e r i v a t i v e s ,q 1 q 1 7 ) ,1 8 个苯甲酸衍生物 ( b e n z o i ca c i dd e r i v a t i v e s ,s1 s18 ) 以及2 2 个苯 甲醛缩氨基硫脲衍生物( b e n z a l d e h y d e t h i o s e m i c a r b a z o n ed e r i v a t i v e s ,n1 - n 2 2 ) 。 表3 15 7 个p o 抑制剂化合物( q l q 1 7 ( i ) ,s l s 1 8 ( i i ) ,n 1 n 2 l ( i i i ) 和n 2 2 ( ) ) 的m e d v - 1 3 v d i : 菩i 述子的p i c 5 0 的实验值( o b s ) 和计算值( c a l c d ) 以及相对误差值( r e l a t i v ee r r o o s 咚,h o r o 、,o h 吣g r h,h 、n l h n 氐s i 风h 乙 q 1t o q l 7 s 1t o s l 8 n 1t o n 2 1 r n 2 2 2 - o h 3 o h 4 o h 2 ,4 - 0 h 3 , 4 - o h 2 ,5 - o h 2 2 3 2 3 8 2 0 2 2 5 l 2 3 l 2 0 5 2 9 8 一1 6 1 9 9 2 0 9 2 3 0 2 4 3 2 2 3 2 2 0 2 2 2 o 1 1 0 1 2 0 1 4 - o 0 3 o 0 3 o 0 7 0 2 6 o口c一di_ij丁oqe00 hn 父 h 矿iz 厂 夕 k 肜k k 旷 l 2 3 4 5 6 7 0 o 0 o o 0 q 桂林理工大学硕士学位论文 q 8 q 9 q 1 0 q 1 1 q 1 2 q 1 3 q 1 4 q 1 5 q 1 6 q 1 7 s l s 2 s 3 s 4 s 5 s 6 s 7 s 8 s 9 $ 1 0 s 1 1 s 1 2 s 1 3 s 1 4 s 1 5 s 1 6 s 1 7 s 1 8 n 1 n 2 n 3 n 4 n 5 n 6 n 7 n 8 n 9 n 1 0 n 1 l n 1 2 n 1 3 n 1 4 n 1 5 i i i i i 2 o m e 3 o m e 4 o m e 2 o h :3 o m e 2 - o h :4 o m e 3 - o h :4 o m e 4 o h ;3 o m e 4 - p r o p y l - i 4 b u t y l 4 - b u t y l - t 2 o h 3 o h 4 o h 2 ,4 o h 2 5 o h 3 , 4 - o h 3 - o h ;4 小h 2 4 - o h ;3 小m 2 3 o m e 4 o m e 3 一o h :4 o m e 4 - o h ;3 o m e 4 - p r o p y l 4 - p r o p y l - i 4 - b u t y l 4 - b u t y l - t 4 - h e x y l 2 o h 3 o h 4 o h 2 ,4 o h 3 , 4 o h 2 5 o h 2 o m e 3 一o m e 4 o m e 2 o h :3 o m e 3 o h :4 o m e 禾o h :3 o m e 2 ,4 o m e 3 , 4 o m e 0 9 7 1 3 7 2 7 2 2 2 4 2 7 0 1 6 0 1 3 0 3 0 7 3 1 3 3 1 4 1 8 5 1 4 7 1 7 9 1 7 9 1 5 2 1 4 9 1 5 3 1 5 9 2 4 2 1 8 8 2 2 6 1 3 2 1 1 6 2 7 6 2 7 2 2 9 8 2 6 8 2 9 3 6 0 8 5 6 6 6 2 8 6 3 6 5 9 8 6 5 4 5 6 5 4 6 7 5 7 2 6 2 2 5 6 8 6 5 9 5 4 8 4 8 l 5 5 7 一1 7 一 1 6 2 2 1 4 2 3 1 1 7 9 2 0 8 1 8 7 2 0 2 2 7 9 2 9 7 3 2 0 1 9 7 1 6 0 2 0 4 2 2 2 1 2 5 1 1 5 1 5 3 1 8 2 1 8 9 1 9 7 2 1 4 1 6 2 1 1 0 2 7 4 2 8 9 2 9 l 2 6 8 3 如7 5 9 2 5 9 7 6 2 6 6 4 0 6 2 2 6 2 2 6 1 9 4 8 9 5 7 6 6 0 2 5 3 9 5 7 3 5 6 6 4 9 6 5 2 8 0 6 7 o 5 6 0 1 5 0 2 0 - 0 2 3 o 1 7 0 5 5 o 0 9 o 0 5 o 0 2 0 0 6 0 0 9 0 1 4 o 2 4 o 1 8 0 2 3 o 0 0 0 1 4 o 2 2 o 0 5 o 0 5 0 2 3 0 0 5 o 0 l o 0 6 - o 0 2 0 0 0 o 0 5 0 0 3 o 0 5 0 0 0 0 0 l 0 0 4 o 0 5 0 1 0 0 0 5 o 0 1 0 0 3 0 0 5 0 1 3 o 0 3 o 0 3 0 0 5 桂林j e :r - 大学硕士学位论文 n 1 6 n 1 7 n 1 8 n 1 9 n 2 0 n 2 l n 2 2 2 ,4 ,5 o m e 4 - p r o p y l - i 4 - b u t y l 4 - b u t y l - t 3 , 5 一b u t y l - i ;2 - o h 4 - n ( c h 3 ) 2 4 0 0 6 4 6 6 5 5 6 2 5 4 1 4 6 4 4 6 1 9 4 4 6 6 5 1 6 7 8 6 1 8 4 0 5 6 2 8 6 2 2 0 1 2 o 0 l 0 0 4 0 0 1 0 0 2 0 0 2 0 0 0 3 3 化合物结构表征 利用m e d v - 1 3 和v d i 对所选择化合物的分子结构进行表征,分别利用m l s r a 、g a 和b s r a 计算和建模,建立并选择最佳回归模型。应用m a t l a b6 0 软件编写程序计算每个化 合物的m e d v - 1 3 和v d i 描述子作为自变量疋以5 7 个有机化合物的抑制作用( p i c 5 0 ) 为因 变量】,构建数据集,以l 0 0 交互检验统计量为目标函数,应用m l s r a ,g a ,b s r a 方法选 择最佳描述子,用m l r 建立相关q s a r 模型。 3 3 1 描述子的预删除 对于每个化合物,根据文献【1 3 ,2 5 2 6 , 5 0 表述计算所得到m e d v - 1 3 描述子为9 1 个,v d i 描 述子为1 个。其中,尬d 弘j 3 有5 4 个描述子对所有化合物均为0 ,这些描述子对化合物生 物活性的贡献为0 ,对分子结构没有分辨能力,对模型没有统计意义,应给予以删除。有1 1 个描述子只对l 至5 个化合物不为0 ,其统计意义较小,故给予以删除。根据统计学原理, 当两自变量之间的相关系数f i n t 0 9 5 0 0 f 1 时,存在共线性现象,即两者对因变量具有相同 的解释性,则认为回归方程是不适当的。本化合物体系中有7 组共1 4 个m e d v - 1 3 描述子 两两最大相关系数t i n t 0 9 3 0 0 ,根据它们与因变量之间的相关性,删除其中7 个描述子。最 后剩下2 0 个描述子数值分布的统计分析列于表3 2 。 表3 22 0 个m e d v - 1 3 v d i 描述子数值分布的统计分析 含该描述 i 含该描述 n o m e d v - 1 3 v d i 子化合物百分率;n o m e d v - 1 3 1 0 9 1 子化合物百分率 总数:总数 1 x l 1 0 1 7 5 4 : 1 l x 2 6 5 69 8 2 5 2 勋 3 35 7 8 9 1 1 2 勋9 2 23 8 6 0 3 勋 3 3 5 7 8 9 1 3x 3 2 5 71 0 0 0 0 4 拓 1 42 4 5 6 i 1 4 勋3 2 03 5 0 9 5 勋 3 35 7 。8 9 ;1 5 弱】 2 44 2 1 l 6 x l o 2 03 5 0 9j1 6 x 5 6 2 23 8 6 0 7 x 1 4 5 71 0 0 0 0 j1 7x 5 9 2 2 3 8 6 0 8 x 1 5 5 7 1 0 0 0 0 : 1 8 x 6 0 91 3 4 3 9 x 1 7 2 44 2 1 l 1 1 9 x 7 8 2 02 4 7 3 一1 8 一 桂林理工大学硕士学位论文 1 0 x 2 , 5 71 0 0 0 0 ;2 0v d i5 71 0 0 0 0 3 3 2 变量选择 对于2 0 个m e d v - 1 3 v d i 描述子,只有少数描述子对i c 5 0 具有较大的贡献,因此,必须 通过合适的化学计量学算法来选择最佳描述子。本人分别根据m l s r a 、g a 和b s r a 方 法原理,利用m a t l a b6 0 软件编写程序来计算和建模,建立并选择最佳回归模型。这三种算 法所得到的变量优化结果及相应统计量分别列于表3 3 、3 4 、3 5 。 表3 35 7 个有机物的多元线性逐步回归结果 mr 2,r m s e q 2g r m s v o p t i m a ld e s c r i p t o r s 表3 45 7 个有机污染物的遗传算法回归结果 m,r m s e q 口 r m s v o p t i m a ld e s c r i p t o r s 30 9 3 2 50 9 6 5 70 4 9 40 9l9 40 9 5 8 90 5 4 0z 1 5 , x 2 6 , x 5 6 40 9 5 0 30 9 7 4 80 4 2 40 9 3 7 30 9 6 810 4 7 6 x 1 5 , x 2 1 , x 2 6 , x 5 6 50 9 5 6 90 9 7 8 20 3 9 50 9 4 6 90 9 7 3l0 4 3 8 x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论