(分析化学专业论文)qsar中变量的比较、选择及其应用.pdf_第1页
(分析化学专业论文)qsar中变量的比较、选择及其应用.pdf_第2页
(分析化学专业论文)qsar中变量的比较、选择及其应用.pdf_第3页
(分析化学专业论文)qsar中变量的比较、选择及其应用.pdf_第4页
(分析化学专业论文)qsar中变量的比较、选择及其应用.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(分析化学专业论文)qsar中变量的比较、选择及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 摘要 摘要 定量结构活性关系 q u a n t i t a t i v es t m c t u r e a c t i v i t yr e l a t i o n s h i p q s a r 和定量结构属性关系 q u a n t i t a t i v es t m c t u r e p r o p e r t y r e l a t i o n s h i p q s p r 研究现已经成为化学计量学研究的一个十分重要 的分支 如今 已经发展为基于一些生物活性和某些物化或结构属性 之间的关系的预测技术 在理论和计算化学 环境化学 药物化学以 及生命科学等领域中得到广泛的应用 本论文的研究主要涉及分子描述子之间关系的评价 模型变量的 选择以及q s a 刚q s p r 在实际中的应用等 具体内容如下 本文的第二章主要侧重于变量之间的相关性的研究 在块变量概 念的基础上 提出了一种新的数学方法一一子空间比较法一一从多维 空间的角度对块变量之间的相关性进行研究 该方法不仅可以得到各 拓扑指数族之间的相关关系 而且为变量选择提供了一个强有力的依 据 把该方法应用于5 3 0 个烷烃分子的沸点数据 计算了这些化合物 的5 大类常用的拓扑指数 进行了相关关系研究 并建立了一个拟合 和预测能力皆优的线性模型 其中 由多元线性回归模型得到的标准 偏差s 4 0 8 模型回归系数r 0 9 9 4 8 用每次剔除一个化合物的 交互检验的预测误差的均方根r m s e c v 4 3 8 此结果不仅证明了模 型的稳定性 同时明显优于文献报道 第三章继续围绕变量展开 主要考虑变量的选择问题 为了弥补 传统的方法和遗传算法的不足 我们试图寻找一种既能克服如逐步回 归法等传统方法的局部最优的弊端 又能得到稳健的最优子集的选择 方法 在本文中提出了一种前向法与组合数学的方法相结合的序贯式 子集选择方法 通过该方法的实例应用证明其在减少计算量的同时有 效的避免陷入局部最优 是一种值得推荐的变量选择方法 第四章主要注重实际问题的解决 粘度是化工与石油化学中重要 的模拟参数 现有一组含有2 0 多种化学类的3 5 2 个化合物的粘度数 据 由于其结构的多样性采用了量子化学等多类参数都未能建立理想 的模型 迄今为止 最优的模型为r 0 9 2 我们计算了所有化合物 的四类拓扑指数 首先结合子空间比较法对描述子之间的相关性进行 研究 后用改进了空间正交化方法对变量进行正交化处理 采用均匀 设计的思路把数据分为3 0 0 和5 2 个化合物两个集合 分别作为校正 集和预测集 建立了一个具有较好的数学统计特性的有机化合物粘度 的模型 其中拟合的结果显示复相关系数等于0 9 5 标准偏差等于 硕士学位论文 摘要 0 4 5 预测偏差值为0 4 9 接近于拟合偏差 该模型与现今发表的 同数据类的模型有显著的优势 关键词拓扑指数 块变量 子空间比较法 空间正交化 典型相关 堡主堂堡笙苎 垒 竺 a b s t r a c t o s a ra n dq s p ri sam a i nb r a n c ho fc h e m o m e t r i c sr e s e a r c h n o w q s a ri sap r e d i c t i v et e c h n i q u eb a s e do nt h er e l a t i o n s h i p f o ra s e r i e so f c h e m i c a l s b e t w e e ns o m ef o r n lo fb i 9 l o g i c a la c t i v i t a n ds o m e m e a s u r e o fp h y s i c c h e m i c a lo rs t r u c t u r a lp m p e r t i e s w h i c hh a sb e e nw i d e l yu s e d i n t h e o qa n dc o m p u t e rc h e m i s t r y e n v i r o n m e n tc h e m i s t r y m e d i c a l c h e m i s t r y e v e ni nl i f es c i e n c e s t h i s p a p e ri n c l u d i n g t h ee v a l u a t i o no fs t r u c t l 儿 a l d e s c r i p t o r s v a r i a b l e ss e l e c t i o na n d p u tt h e s em e t h o d si n t op r a c t i c e t h en r s td a r ti sf o c u s e do nt h er e s e a r c ho ft h ec o r r e l a t i o nb e t v e e n v a r i a b l e s s e e s e c o n d c h a p t e r an e wm e t h o dn a m e ds u b s p a c e c o m p a r i s o nm e t h o dh a sb e e nb m u g h tf o n v a r dt oi n v e s t i g a t er e l a t i o n s h i p b e t w e e nb l o c kv a r i a b l e sf 沁mh i g h d i m e n s i o na s p e c t t h i sm e t h o dc a nb e u s e dn o to n l vt om e a s u r em ec o r r e l a t i o no fv a r i a b l e s b u ta l s ot ob eu s e d a sac r i t e r i o nf o rv a r i a b l e ss e l e c t i o n f i v ek i n d so fp o p u l a rt o p o l o g i c a l b l o c kv a r i a b l e so f5 3 0s a t u r a t e dh y d r o c a r b o n sa r ec a l c u l a t e d t h e r e l a t i o n s h i pb e t w e e nt h e m a sw e l la st h em o d e lb e t w e e nb o i l i n gp o i n t a n dt h r e el e s sr e l a t i o nv a r i a b l e sh a sb e e ns t u d i e d s 协n d a r db i a se n d ri s 4 0 8a n dr e g r e s s i o nc o e f f i c i e n tr e a c h e s0 9 9 4 8 t h er m s e c v v a l u eo f l e a v e o n e o u tc m s sv a l i d a t i o ni s4 3 8 t h er e s u l ti sb e t t e rt h e nl i t e r a t u r e b o t hi nr e g r e s s i o na n dp r e d i c t i o n t h es e c o n dp a ni se n g a g e do nv a r i a b l es e l e c t i o n w h i c hi sd e s c r i b e d o nt h em i r dc h a p t er l w et r yt on n dam b u s tw a yf o rv a r i a b l es e l e c t i 0 nt o o v e r c o m et h es h o r t c o m i n go fl o c a lo p t i m u m s i n c et r a d i t i o n a lm e t h o d s h a v es u c hd i s a d v a n t a g e s i nt h i sp a p e r w ea d v a n c e das e q u e n c em e t h o d c o m b i n i n gw i t hf o n v a r ds e l e c t i o na n dc o m b i n a t i o n s t os e l e c tt l l e o p t i m i z e dv a r i a b l e s i th a sb e e np r o v e da s ap r o m l s l n ga p p r o a c ht o r v a r i a b l es e l e c t i o nb yp u ti ti n t ou s ei nr e a ls y s t e m t h ep i v o to ft h el a s tp a r ti ss o l v i n gp r a c t i c a lv i s c o s i 哆p r o b l e ms i n c e v i s c o s i t yi sa ni m p o r t a mm i m i cp a r a m e t e ri nc h e m i c a le n g i n e e r i n ga n d p e t r o l e u mc h e m i s t r a ni d e av i s c o s i t ym o d e l a b o u tas e to f5 3 2 c o m d o u n d sw i t hd i v e r s i s t m c t u r e sh a sn o tb e e nb u i l t b e c a u s eo fi t s 硕士学位论文 a b s t r a c t d i v e r s i t y t i l ln o v t h er e g r e s s i o nc o e 街c i e n to ft h eb e s tm o d e lh a sb e e n b u i l to n l v0 9 2 f o u rk i n d so fb l o c kv a r i a b l e sa r ec a l c u l a t e d w h o s e r e l a t i o n s h i p sa r ea l s ob ew o r k e do v e rb ys u b s p a c ec o m p a r i s o nm e t h o d a ni m p r o v e ds u b s p a c eo r t h o g o n a lm e t h o di se s t a b l i s h e dt o o r t h o g o n a l t h eb l o c kv a r i a b l e s 3 0 0c o m d o u n d sh a v eb e e ns e l e c t e da sc a l i b r a t i o ns e t b yu n j f o 肿d e s i g n t h er e s tf o rp r e d j c t i o n a ne x c e l l e n tv j s c o s j t ym o d e jj s b u i l tw i t hw e l lm a t h e m a t i cs t a t i s t i c a lc h a r a c t er i s t i c rr e a c h e s0 9 5 s v a l u ei s0 4 5a n dt h ep r e d i c te r r o ri s0 4 9a l m o s tn e a rs 1 tp r o v e st h a tt h i s m o d e li st h eb e s tm o d e l so ft h o s eh a v eb e e nb u 订tt i l ln o wa n do v e n n a t c h a n yo t h e r s 丹o ml i t e r a t u r e k e yw o r d st b p o l o g i c a li n d e x b l o c kv a r i a b l e s u b s p a c ec o m p a r i s o n m e t h o d s u b s p a c eo r t h o g o n a lm e t h o d c m o n i c a lc o r r e l a t i o n v 硕 学位论文 第一章前言 1 1 引言 第一章前言 定量结构活性关系 q u a i l t i t v es t m c t u r e a c t i v 时r e l a t i o n s h i p q s a r 和定 量结构属性关系 q u a l l t i 诅t i v es t r u c t u r e p r o p e r t yr e l a t i o n s h i p q s p r 研究现已经 成为化学计量学研究的一个十分重要的分支 q s a r q s p r 是一种没有明确的定义 没有复杂的规则 也不受数学方法限制的科学 其目的是根据训练数据集的化合 物建立一个模型 该模型同时可以用来预测相关的化合物的活性 属性 至今 q s a r 已经发展为基于一些生物活性和某些物化或结构属性之间的关系的预测技 术 即从分子结构来校正和预测其物理 化学和生物活性 这是非常重要且有待 解决的问题 这种技术因在理论和计算化学 环境化学 药物化学以及生命科学 等多个领域具有实际意义而得到广泛的研究 事实上 构效关系的研究可以追溯到上个世纪 有一份名为 有机反应性 相关分析 c o r r e l a t ea n a l y s i so fo r g a n i cc h e m i s t r y c a o c 的杂志可 以看作是定量构效关系的前身 而h a 唧e t t 在其经典著作 1 中提出的线性自由能 关系 l i n e a rf r e ee n e r g yr e l a t i o n s h i p l f e r 则可认为是q s a r 和q s p r 的 起点 当时只有少数的化学参数可以数量化 如取代基的电子效应 h a m m e t t 的 常数 立体参数 t a f t 参数 以及疏水性 h a n s c h 的分配常数 如今已经 发展成为了一门建立在定量研究基础上的 用来探讨结构变化与生化活性之问关 系的学科 1 定量构效关系的研究实际上涉及到了化学学科的一个根本性问题一一即如 何从物质的化学成分与结构定量预测其化学特性 量子化学研究的一个重要目 的就是要直接从微观的角度来回答这样的问题 对于一个给定的分子 量子化学 通过求解相应的s c h r o d i n g e r 方程 求出相应的特征值和特征向量 可以描绘能 量和电子的分布 分子的性质可以从波函数与能量导出 目前 量子化学已经取 得了令人瞩目的成就 但是对于复杂的分子进行量子化学计算尚有一定困难 由 于这一原因 大量的化学研究仍处于一种 定性 水平 而化学量测仪器的改进 大量量测数据的积累以及化学计量学方法的发展 将q s a r 和q s p r 的研究又提高到了一个新的水平 尤其是近年来得到了长足的发 展 大量的研究文章已经在目前很多重要的国际刊物发表 其中包括专门介绍定 量构效关系的杂志 q u a n t i t a t i v es t r u c t u r e a c t i v i t yr e l a t i o n s h i p 如基 于计算机技术的化学信息提取的杂志 j o u r n a lo fc 0 m p u t e ra n di n f o r m a t i o n c h e m i s t r ys c i e n c e c i c s 与q s a r 的初期不同 当今比较流行的定量构效关 硕十学位论文 第一章前育 系则是从宏观的角度出发 直接从试验数据或某些量化的结构数据出发 采用统 计学和模式识别的方法来建立起某些化学结构与性能的定量关系 下面将以q s a r 在药物设计方面的应用为例说明其在分子对接等生命前沿课 题中的重要作用 随着众多生理现象的深入研究 人们发现药物实际上是通过其 体内的受体一一可能是某一特定的蛋白质一一而发挥其作用的 除了考虑后期的 代谢 毒性等问题外 首先要研究的就是什么样的药物能够与其体内的受体很好 的结合 从化学意义上来讲 一般以两者的结合能作为目标函数 结合能越高 说明结合的越紧密 因为我们不可能一次就命中具有最佳结合能的药物 因此药 物设计实际上是一个迭代的过程 该过程一般都起始于具有相当的结合能的化合 物 不断的优化化合物的结构 包括取代基 直到找到具有最佳结合能值的化合 物 为了减少成本和合成化学家的压力 计算化学家采用数字的模型来代表分子 结构 其中包括物理化学参数 几何参数 拓扑指数等 并用等式来表示这些结 构参数与结合能等生物活性之间的关系 希望能从一些已知的化合物推断出化合 物结构中哪些基团的改变将严重影响到其生物活性 并得到相应的生物活性值 q s a r 正好符合其要求 因为q s a r 就是通过对一系列的化合物的分子描述子与生 物活性之间的关系的研究预测相关化合物的活性数据 见 1 一1 生物学家就 可以根据一定的规则 此例中为结合能增加 对化合物进行改进 使得到的分子 具有更好的生物活性 生物活性 常数 c 1 p 1 c 2 p 2 c n p n 1 一1 其中 参数p 1 到p n 是每个分子的n 个描述子 c l 到c n 是根据参数和生 物活性计算得到的拟合值 通过上述研究 模拟 不断的改变分子的结构使其向着结合能增加的方法发 展 当找寻到合适地化合物后再进行合成 这样不仅减少了合成成本 同时提高 了搜寻效率和命中率 为新药的研究提供了强有力的技术支持 1 20 s a r 研究的现状 关于q s a r 的研究在不同的领域如火如荼的开展着 q s a r q s p r 的文章 1 评论 6 1 和专论 2 等也随处可见 纵览上述文献 我们不难看出q s a r 研究主 要涉及到下面几个方面 首先是化学分子结构的描述 包括现有描述子的评价 改进或解释 新描述子的提出 其次是模型的选择 包括线性的 非线性的 再 次就是连接描述子和模型之间的合适描述子选择的问题 描述子除了要能体现分 子的结构外 还要根据所选模型的不同以及与其他描述子之间的相互关系不同等 情况而定 亦即模型中的变量选择问题 下面我们就从上述这几个方面的内容展 硕j 学位论文 第一章前言 开讨论 1 2 1 分子结构的描述 在化学界 分子描述方式很多 包括物理化学参数 拓扑指数 3 d 描述子和 量子化学指数 物理化学性质大部分来源于实验测量 可以从前人的研究和物化 性质手册中得到或者通过实验的方法测定 但是有些物化性质的数据具有较大的 误差 而且存在着同一物质的同一物化性质在不同的文献中数值不同的现象 量 子化学指数 相对比较精确 然而无论是从头算法还是经验公式对于较为复杂的 体系 尤其是最近研究较多的生物分子的描述也只能望洋兴叹了 3 d 描述子具有 与量子化学指数相似的缺点 需要首先通过特定地力场对分子进行构型优化 细 微的构型变动可能引起3 d 描述子的显著变化而少有用武之地 拓扑指数由于其在 描述分子的分支 形状 大小 环性 对称性 分子中心和复杂度方面的优势从 各类描述子中脱颖而出被广泛应用于生物化学的毒性预测和评 1 b a s a k 的 研究再次证实了这一理论 他在最近的文章中 指出 拓扑指数应是q s a r 研究中 的首选指数 正是基于上述考虑使得对拓扑指数的研究方兴未艾 当前 对于拓扑指数的研究主要集中在拓扑指数本质的探究 3 和新拓扑指 数的提出 寻找或构建具有明显的物理或化学意义的拓扑指数成了q s a r 研究的 新的热点 1 22 模型的选择 q s a r 中涉及的数学模型可分为线性 和非线性 7 1 两类 线性模型又包括直 接的线性或通过简单的算子作用转换为线性模型 如l o g 汹1 操作等 模型的确定 取决于所研究问题的本身 往往可以根据所研究的活性以及相关的经验来选择两 类模型中的一类 或者试图对同一个活性数据同时建立两个模型类型比较其拟合 和预测的能力进而进行抉择 对应于同一类模型 可以采用不同的数学方法来建 模 当确定为线性模型后 主要的数学方法为多元线性回归 m u l t i p l el i n e a r r e g r e s s i o n m l r 删 主成分分析 p r i n c i p a lc o m p o n e n ta n a l y s i s p c a 偏最小二乘法 p a r t i a ll e a s ts q u a r e s p l s 1 而遗传算法 g e n e t i c a l g o r i t h m s g a 人工神经网络法 a r t i f i c i a ln e u r a ln e t w o r km e t h o d a n n 等则常用于非线性模型的建立 为了使建立的模型具有良好的解释性 一般以 线性的数学模型为主 3 硕士学位论文第一章前言 1 2 3 变量的选择 变量选择实际上是描述子研究的延续 也是连接分子描述指数和模型之问的 桥梁 首先从描述子的角度 我们所选择的描述子必须是被严格定义地 能反应 化学分子的大部分的特征的 同时其应该是被公众广泛认可地并能准确计算的 其次 从模型的角度来看 描述子能够尽可能的反映分子的特征 尤其要能够充 分地体现所要研究的化合物活性 亦即具有较好的数学统计性 再次 在符合前 面两个条件的情况下 所选择的指数要尽量的具有可解释性 与此同时 随着所应用的实验室测定和计算的结构参数的增加 分子的描述 子相比于我们所研究的某一属性的化合物数目相对较多 因此 如果简单的采用 标准回归分析的方法建立模型 就可能在建立q s a r 模型时出现过拟合或出现机 会相关 的现象 因此 首先必须对变量进行系统地分析 便于对变量进行压缩 进而剔除具有较差的分子描述能力的变量 另外 不同的变量组合所得到结果有 可能差别较大 所以必须采用一定的算法对变量的组合问题进行讨论 常见的变 量选择的方法有前进法 f o r w a r ds e l e c t i o n 后退法 b a c k w a r de l i m i n a t i o n 逐步回归法 s t e pw i s er e g r e s s i o n 和遗传算法 g e n e t i ca l g o r i t h m s 前进法 在前进选择方法中 首先把与因变量具有最大正相关或最大负相 关的变量放入方程 然后 根据不在方程中的变量的统计量选择下一个变量 即考察因变量与不在方程中的每一个变量的偏相关系数 选择偏相关系数最大 的变量进入方程 重复如上过程直到没有变量可以进入方程为止 根据变量进 入的次序 对变量进行排序 并依此顺序进行变量的选择 后退法 后退法则是先把所有变量都包含于方程中 然后考察具有最小偏 相关系数的变量 并将之剔除 重复这一选择过程直到没有变量被剔除为止 对 于变量的选择则依据变量被剔除的顺序而定 逐步回归法 随时调整入选变量的一种变量选择方法 即入选变量根据实际 情况可以在后续步骤中被剔除 反之亦然 经逐步回归分析 所得方程包含且仅 包含对因变量显著的那些因子 因此通过这种方法所选变量的多少决定于事先给 定的显著性因子 逐步回归法的算法较简单 程序易于实现 所以迄今为止 该方法仍是一种 广为采用的变量选择方法 但此种方法的不足是有时会陷入局部最优 与之相 似 前进法和后退法亦具有此类优点和缺点 遗传算法是近年来发展起来的一种新的最优化算法 它是借鉴生物界自然 选择和自然遗传机制的高度并行 随机和自适应搜索的方法 这种方法的特点是 可以避免局部最优而有可能达到全局最优 然而 遗传算法的影响因素较多 如群体大小 算法执行的最大代数 4 硕士学位论文第一章前言 复制率尸r 交配率尸c 变异率胁等 这些参数的选择常对最终结果有较大的 影响 而且 遗传算法常须多次计算方可得到最优解 所以 特别是在变量较少 的情况下 遗传算法的计算量相对来说较大 另外 遗传算法只能被用于非线性 模型中 因此 我们希望找到一种全新的不受初始状态影响的变量选择方法 这样既 能克服局部最优的问题 又能得到稳健的最优子集的选择 1 3 本工作的开展 本论文的研究内容主要侧重于变量的研究及其用q s a r 模型来解决实际问 题 首先 本文的第二章主要关注变量之间的相关性的研究 在此我们引入了块 变量的概念 即把一系列基于相似的定义和数学运算得到单个变量归为一大类 并提出了一种新的数学方法一一子空间比较法一一从多维空间的角度对块变量 之间的相关性进行研究 这个专门从高维空间的角度来分析不同拓扑指数族形成 的多维空间的相关性问题的子空间比较法不仅可以得到各拓扑指数族之间的相 关关系 而且为变量选择提供了一个强有力的依据 为了体现方法的可行性 本 章以5 3 0 个烷烃分子的沸点作为研究对象 计算了这5 3 0 个化合物的5 大类常用 的拓扑指数 它们分别为分子连接性指数c h 一1 k a p p a 指数 分子电负性距 离向量 m e d v 系列 e s t a t e e l e c t r o t o p 0 1 0 9 i c a ls t a t e i n d e x 3 和 m p c m 0 1 e c u l a rp a t hc o u n t i n d e x 然后 运用子空间比较法对任意两个指 数族构成的块变量之间的相关性进行了研究 证明了不同拓扑指数的高相关性和 进行变量选择的必要性 最后 把该方法运用于实际模型的变量选择中 以上述 5 3 0 个烷烃化合物的沸点值与前5 类拓扑指数之间的关系模型为例 巧妙的引入 广义相关系数的概念并以此为变量入选的标准 建立了具有较好的稳定性的模 型 选择了其中的c h i m p c 和m 即v 三个变量 由多元线性回归模型得到的标 准偏差s 4 0 8 模型回归系数r 0 9 9 4 8 用每次剔除一个化合物的交互检验 的预测误差的均方根r m s e c v 4 3 8 第三章继续围绕变量展开 主要考虑变量的选择问题 因为变量选择是q s a r 研究中最重要的部分之一 也是现今研究较为活跃的领域之一 无论是传统的方 法还是新近的遗传算法都有其各自的缺点 为此 我们希望找到一种方法 既能 克服如逐步回归法等传统方法的局部最优的弊端 又能得到稳健的最优子集的选 择 在本文中提出了一种前进法与组合数学的方法相结合的复合式子集选择方 法 也就是说 先用前向搜索法根据变量内部以及变量与特性之间的关系首先确 定能全面描述变量的最佳变量数 进而缩小搜索范围 再用组合数学的方法列举 所有该变量数下的组合情况 建模分析 寻找最优变量子集 这样在大大的减少 硕士学位论文第一章前言 计算量的同时有效的避免陷入局部最优 论文的第三章将对该方法以及应用做出 详细的介绍 第四章为上述理论的更为广泛的应用 我们选择了更为复杂的数据集合来代 替单一化合物类 如烷烃 该章的研究目的主要是考察简单的拓扑指数族能否全 面的表述分子的结构以及能否把q s a r 模型的应用范围推广到任意的数据集合 因此 该章采用的数据集合为3 5 2 种具有较大的结构多样性的化合物集合 其中包含很多的化学类 如烷烃 环烷烃 烯烃 环烯烃 芳香族 醇 苯酸 多烃基醇 醚 醛 酮 酸 酯 酐 氨基化合物 腈 卤素化合物以及含氮 硫等杂原子的化合物 化合物的粘度的实验测定值范围在数值上处于o 1 9 7 到 1 4 9 0m p a s 之间 之所以起用该数据集是由于在至今发表的文献中 对该数据集 的拟合问题一直没有找到较好的方法 其中重要的原因是其分子结构的多样性 使得分子的描述子不能全面的描述并区分各类化合物类以及充分的体现个别分 子的特性 在本章中 我们根据数据的整体分布情况分成3 0 0 和5 2 个化合物组成 的两个集合 分别作为校正集和预测集 在本文中我们通过分子拓扑描述子的计 算 评价以及空间正交化等技术的应用 建立了一个具有较好的数学统计特性的 有机化合物粘度的模型 硕士学位论文 第二章子空间比较法研究拓扑块变 i 的关系及变量选择 第二章子空间比较法研究拓扑块变量的关系及变量选择 2 1 引言 自从第一个拓扑指数w i e n e r 指数 产生以来 随着定量结构活性关系 q s a r 和定量结构性能关系 q s p r 研究的深入 相继出现了各类拓扑指数 到目前为止其数目已超过4 0 0 多种 如此多的拓扑指数皆来源于分子的结构 式 而且很多拓扑指数都是从分子的其中的一个特性衍生而来的 如分子顶点间 的关系 分子间的连接方式以及分子的电负性等 所以 这些基于同一分子特征 的拓扑指数之间必然存在高相关性 另外 有研究表明即使来源于不同的分子特 征的指数之间亦可能存在着相关关系 如在非环分子中 由距离矩阵所得的 w i e n e r 指数可以由仅仅考虑顶点度的标准的n a r u m i 指数和只考虑不相连的分 子键h o s o y a 指数组合得到 1 9 8 2 年 m o t o c 和b a l a b a n 等 曾研究了几种常见的拓扑指数间的相互关 系 他们用指数间的相关系数作为评价指标 考察它们的相关程度 结果发现 如把相关系数大于o 9 9 的拓扑指数看作严重相关而划分为一组的话 那么 w i e n e r 指数w h o s o y a 指数z 3 1 以及r a n d i c 3 的分子连接性指数 z 被分为一 组 而b a l a b a n 5 的中心指数c 和c 为另一组 另外 b a s a k 和t a r a v i r a s 5 力 用聚类分析的方法研究了拓扑指数间的关系 他们认为被聚类在一类中的拓扑指 数是相关的 r a n d i c 1 第一次用拓扑指数的正交化研究拓扑指数问的相似性 他 以分子连接性指数 z 2 z 3 z 4 z 作为分子描述符 把h o s o y a 的z 指数设想 为分子的性能 提出了q s a r q s p r 研究中评价拓扑指数在回归分析中所起作用的 判别分析方法 在这篇文章中 r a n d i c 还提出了 家族 类型拓扑指数 f a i l 订y t y p e 的概念 一个 家族 的拓扑指数是指一系列的拓扑指数 它们采用相似 的定义形式 这种类型的拓扑指数很常见 如分子连接性指数c h i 系列 o z 1 z 2 z 3 z 3 屁 4 z k a p p a 指数m 1 k 1 k 2 k 3 k 路径数指数 p 队p 3 im 等等 这样的一系列指数在提出时 作者往往经周密考虑将分子 的结构特征尽量地描述完全 例如 分子连接性指数系列o z 1 z 2 z 3 z 4 z 就考虑了各种路径数目 从路径数为零 即只考虑顶点 开始一直可以增加上去 每个指数左上角的数字就表示路径数 同时 分子连接性指数系列还考虑了 不同的分子形状 即通道 簇 通道 簇和链 由此可见 这种类型拓扑指数从 总体上看能尽量全面地考虑分子的各种特征 而且各个拓扑指数间互相补充 这 样就可以从一个多维空间的角度来表征同一个分子的不同的结构特征 因此 可 以把这一系列拓扑指数看成一个整体 在本论文中 我们称之为块拓扑指数 1 b l o c kt o p o l o g i c a li n d e x 并将其视为一个独立的整体 以方便评价它们之 硕士学位论文第二章子空间比较法研究拓扑块变量的关系及变量选择 问的相互关系 由于众多拓扑指数之问的错综复杂的相关关系的存在 人们不禁想问有没有 一种客观的 量化的方法来评价任意两个拓扑指数之间的相关性呢 2 0 0 0 年 b a s a ka n db a l a b a ne fa 1 在拓扑指数及其相关性研究中也提出了三个问题 拓扑指数的本质是什么 它们的相关性有多高 怎样从拓扑指数中提取j e 交信 息 在前面的工作中 33 我们从多个拓扑指数张成的多维空间出发 试图回答 什么是拓扑指数的本质 这一问题 本文则从不同的多个拓扑指数张成的多维 空间出发 比较多维空间的相关性 进而回答不同拓扑指数族形成的多维空间的 相关性 和 变量选择 的问题 块变量的概念引入以后 打破了原来单个拓扑变量之间的相关关系的研究格 局 对于常规变量 常采用两个向量的夹角余弦来代表两者的相似度 当拓广至 高维的块变量时 简单的兴角余弦的研究显然已经不适用了 如何有效的衡量块 变量之间的相关性成为了新的研究点 在此 我们采用子空问比较法 6 对各个 块变量所表述的空间进行研究 结合空间投影技术 分别对两个空间进行旋转 使得两者之间尽可能的重合 并结合广义相关系数来表征其线性相关性 通过变量之间相关性的研究 为模型的变量选择提供了可靠的依据 因为模 型中的变量必须尽可能的少且具有小的相关系数 只有这样的模型爿 稳健 爿 能 有效地避免过拟合现象的发生 本文对5 3 0 烷烃的5 大类常用的拓扑指数进行了相关性研究 并在此基础上 进行了变量选择 得到了较好的沸点的模型 2 2 理论和方法 设f g 为酽上由块变量构成的矩阵 p 和q 分别代表两个块变量中单个拓 扑指数的个数 即f g 1 首先我们希望找到f g 的标准正交基 用q r 分解分别对f g 进行正 交化后 便得到了f g 的两组标准正交基 记作q q 2 然后分别对q q 作旋转操作 使得这两组基所对应的空间尽可能的 重合 也就是说现在的目标就是找寻找q q 的两个旋转矩阵y 和z 而且y 和z 必须为两个正交归一化的矩阵 才能保证旋转后得到的矩阵 仍是上述两个空间的基 3 奇异值分解用来寻找y 和z 对q q 进行奇异值分解 即可得到式 2 1 通过简单的数学变形后 得到式 2 2 y 1 q 1 1 q 2 z s 2 一1 硕士学位论文第二章子空问比较法研究拓扑块变世的关系及变量选择 亦即 q l y 1 q 2 z s 2 2 其中 y 为q i q 2 的左特征向量 z 为其右特征向量 两者均为正交归一 化矩阵 对角矩阵s 是由特征值平方根构成的包含由两个空间重合度信息的矩 阵 在此不妨令u q l y v q 2 z 由于q 2 q l y 和z 均为正交归一化 后的矩阵 不难看出u 和v 仍为f g 这两个空间的标准正交基 s 是一个k k 阶的对角矩阵 其中k m i n p q 其对角线元素从大到小排列 即0 s 匹 k 1 1 茎 2 s l s l 实际上 s 对角线中所包含的就是由新两组基之间的夹角余弦值 即 c o s 谚 矗 i 1 2 k 2 3 至此 我们得到一组用于描述两个空间相关性的 系列 4 由于 不像单个变量中的余弦值具直观的判断依据 如何才 能得到 一个量化的数据能直接判断两个块变量之间的相关性呢 为了解决这个 问题 特引入广义相关系数的概念 其定义是如式 2 4 所示 p 4 2 4 由定义可知 0 j 口 1 当p o 时 说明f 和g 完全不相关 j l 时 则表示两者完全等同 这就为子空问相关性提供了定量的理论依据 现以实例表示如下 设f 和g 都为一中的变量构成的空间 其中p 2 q 3 通过上述方法可以得到相应的q i q 2 y z u v 和s f l2 3 4 5 6 4 6 q 2 u o 1 1 8 7 一o 3 5 6 0 一0 5 9 3 4 一o 7 1 2 l l52 371 2 5一l1 0 631 4 q 一0 5 6 2 60 7 8 7 5 0 6 7 6 6 0 6 0 1 9 0 4 7 3 60 0 6 6 7 o 0 3 7 40 1 1 4 2 o 3 0 0 20 5 1 2 7 o 4 0 2 3 0 1 2 0 8 0 5 0 4 5 0 7 5 4 3 0 7 0 2 5 0 3 9 1 9 v 一0 1 4 0 0 一0 4 2 0 l 一0 7 0 0 1 0 5 6 0 1 0 3 0 0 2 o 4 0 2 3 0 5 0 4 5 0 7 0 2 5 0 8 9 5 8 0 0 4 6 7 一o 4 3 0 5 一o 1 0 0 3 r o 9 5 7 8 o 2 8 7 6 y 卜2 8 7 60 9 5 7 8 0 2 0 3 9 0 7 4 3 2 0 6 3 7 2 0 2 4 1 6 0 8 8 4 7 0 3 7 5 4 0 1 3 3 9 一r 1 0 0 0 0 s l o o o o o 0 0 0 0 0 o 7 3 9 1 j 硎 卯 暇卯 n n 加n 博5 撩 硕士学位论文第二章子空间比较法研究拓扑块变量的关系及变量选择 计算得到u 和v 即为选择以后的空间基 其中的第一列对应的就是第一组基 对 具有最大的相似性 在该例子中u 1 v 1 体现在s 矩阵中 即对应的第一 个单相关系数为1 0 0 0 0 由于p 2 q 故k 2 即对应于s 中 1 0 0 0 0 o 7 3 9 1 所以 f 和g 空间的广义相关系数为o 8 5 9 7 2 3 数据收集及描述子计算 该方法的结果与所用的样本基本无关 只要分子的结构多样性足够复杂即 可 因此本文采用了一组5 3 0 个烷烃的沸点数据 在文献 中 这些数据是从甲 烷到癸烷递增 在相同碳原子的情况下 又按环数的增加顺序排列 在q s a r 研 究中 即使是这些最简单的饱和烷烃的沸点这一特性也没有找到一个比较合理的 模型来描述 该文作者归纳为分子结构的多样性 沸点值的低精确性 立体结构 的存在以及拓扑指数在从非环向环化合物推广时的问题等四个方面的原因 其中 分子的多样性最为显著 该数据收集了目前为止已发表的碳原子小于十的基本所 有烷烃 5 3 0 个烷烃分子的名称 结构及其沸点值见表2 1 表2 一l5 3 0 个化合物的结构信息和它们的沸点 硕士学位论文第二章子空间比较法研究拓扑块变量的关系及变量选择 硕士学位论文第二章子空间比较法研究拓扑块变量的关系及变量选择 2 硕士学位论文 第二章子空间比较法研究拓扑块变量的关系及变鲑选择 13 硕士 学位论文第二章子空间比较法研究拓扑块变量的关系及变盘选择 14 硕十学位论文 第二章子空间比较法研究拓扑块变量的关系及变姑选抒 硕士学位论文第二章子空间比较法研究拓扑块变量的关系及变量选择 16 硕士学位论文第二章子空间比较法研究拓扑块变拭的关系及变量选择 17 硕十学位论文第二章子空间比较法研究拓扑块变繁的关系及变量选择 将所有的分子结构转换成本实验室的h q n 编码 后 可以计算得到了3 2 0 多种拓扑指数 本文从中选取了在q s a r 研究中较为常用的5 类拓扑指数 它们 分别为分子连接性指数c h i k a p p a 指数 分子电负性距离向量 m 即v 系列m 3 e s t a t e e l e c t r o t o p 0 1 0 9 i c a ls t a t e i n d e x h 7 1 矛口m p c m o l e c u l a rp a t hc o u n t i n d e x 2 4 结果与讨论 241 块变量之间的相互关系 首先 我们考察了上述5 类块变量之问的相关关系 本文计算了5 类块变量之间的相互关系 可得相互之间的第一个夹角余弦值 的情况 即给出具有最大相关性的方向上的数值度量及其相对应的基u v 其 中 5 类块变量之间的第一个夹角余弦值列于表2 2 硕士学位论文 第二章子空间比较法研究拓扑块变量的关系及变量选抒 表2 2 两个指数之间的第一个夹角余弦值 从表2 2 可知 5 类块变量之间的两两相互比较时得到的第一个夹角余弦 值都在o 9 5 以上 其中对角线元素代表各指数自身的相似性 都为1 个别向 量之间也存在着值为l 的现象 如e s t a t e 与c h i 最小值是由k a p p a 和m p c 之 间产生 但也高达0 9 7 0 5 这充分说明了不同拓扑指数的高相关性 2 4 2 子空间对应的分子结构信息 对u v 进行考察得图2 1 其中上 下方的子图分别代表c h i 指数和k a p p a 指数的第一个基向量对分子顺序号作图 可发现两者基本呈现同一趋势 即这两 类指数之间包含了许多共同的分子结构信息 删 足 牛 1 棵 客 删 毽 图2 一lc h i 和k a p p a 指数的第一个向量 硕士学位论文第二章子空间比较法研究拓扑块变量的关系及变量选择 从上方子图的标记可看出u 在数值上的分布很好地反应了分子中的碳原子 个数 同时也包含了分子结构中环的信息 具有相同碳原子数目的分子自然的归 为一类 与此同时 也可从下方子图中得到分子结构中分子大小与环的信息 从 同样为碳原子数目为1 0 的类中可以看出 呈现各自分裂的纹路 这些纹路从上 至下分别代表着没有环的 一个坏的 两个环的和三个环的等等 由此可见 从 两类指数中提取出来的这些基都集中体现了代表分子复杂性的碳原子数目以及 成环情况 即烷烃分子的多样性 2 43 沸点回归模型变量选择及其结果 由于变量间的高相关性 当同时用这些描述子对分子的某一特性 如沸点进 行回归的时候 存在着严重的共线性 因此 必须对变量进行选择 用尽量少的 变量对沸点作线性回归 变量的选择遵循下列步骤 1 用一种回归方法计算各个块变量和分子特性之间的回归模型 选择标准 偏差最小的变量作为基准变量a 2 用子空间比较法计算所有其它变量和基准变量a 之间的广义相关系数 值 选择相关系数最小的 即互补性较强的变量作为入选变量b 3 由基准向量a 和入选变量b 组成一个新的变量c 进行回归 用每次剔除 一个元素的交互检验方法 l e a v e o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论