




已阅读5页,还剩113页未读, 继续免费阅读
(分析化学专业论文)化学数据挖掘新算法和定量构性关系基础研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
| 尊士论文:化学数据挖掘新算法和定量构性关系基础研究 2 0 0 2 年7 月 摘要 化学数据挖掘正逐渐引起化学家们的关注。为了有效地挖掘色谱保留指数数据 中肴关不同化合物保留行为的差异,收集了近5 00 0 0 条保留指数数据建立了保留指 数数据库。同时讨论了建立及使用数据库所遇到的关于数据的查错和纠错、保留指 数的温度校正和实验误差估计等问题了笨文利用投影寻踪方法对拓扑指数一保留指数 关系研究所涉及的数据进行数据挖掘,构建了一个投影寻踪算法。通过对烷烃、烯 烃和环烷烃的投影寻踪,发现不同结构的化合物彼此可以按照分子中碳原子数目、 分支数目、双键数目、双键位置、共轭与否、环数目及环上分支等分为不同的类别。 利用这些已发现的分类信息,对不同类别的化合物建立不同的拓扑指数保印指数和 拓扑指数沸点关系模型。对于烷烃化合物所建模型的标准误差已接近或:乙到了实验 误差水平,并且有较高的预测能力。另外,当用一种同系物系列中的化合物构建投 影方向时,能得到一个针对同系物的分类,并由此提出了类距离变量,用类距离变 量可以建立非常优良的构性关系模型。 利用拓扑指数间的正交化方法,并考虑性能,提出了拓扑指数的相似性评价指 数和差异性评价指数,用来定量地考察拓扑指数之间的相关性和每一种拓扑指数对 回归的贡献。计算结果表明它们可以比较合理地描述变量之间的关系,并且对定量 构性关系研究中的变量选择也有指导意义。本文提出了块变量的概念,即几个定义 相近的一类结构描述符组合在一起形成为一个块变量。通过对一组拓扑指数进行分 块、正交化和用典型相关分析方法将正交化的块变量降维到一维等变换,得到一组 保持着原变量绝大部分信息的新变量,变景数目大大降低。结果发现此方法很大程 眨上二提高了构性关系模型的拟合和预测能力。 复杂样品的色谱分析往往是一个部分组分已知,部分组分未知的灰色分析体 系。本文提出了计算灰色分析体系死时间和正构烷烃保留时间的模型和算法,并利 用文献上保存的大量保留指数数据对未知组分进行定性。通过对两个石油产品色谱 分析例子的应用,发现该算法计算的死时间与实验结果非常接近,而且计算的正构 烷烃保留时间和未知组分保留指数也与实验测 关键词:数据挖掘,定量构性关系r 投影寻踪 望互觋化学计量学j r j l 一 博j :论义:化学数据挖掘新算法和定量构性关系基础研究 2 0 0 2 年7 月 n e w m e t h o d o l o g y i nc h e m i c a ld a t a m i n i n g a n d f o u n d a t i o n a lr e s e a r c ho n q s p r a b s t r a c t w o r ki nt h i s p a p e rf o c u s e so nt h ed a t am i n i n gf r o mc h r o m a t o g r a p h i cr e t e n t i o n i n d e xd a t a ar e t e n t i o ni n d e xd a t a b a s et h a tc o n t a i n sa b o u t5 00 0 0r e c o r d so fr e t e n t i o n i n d e xi sf i r s t l ye s t a b l i s h e d p r o j e c t i o np u r s u i tt e c h n i q u ei st h e nu t i l i z e dt od od a t am i n i n g u p o nt h e d a t ai no r d e rt of i n do u ts o m ev a l u a b l ei n f o r m a t i o na b o u tt h e r e l a t i o n s h i p b e t w e e nt h er e t e n t i o ni n d i c e sa n ds t r u c t u r a ld e s c r i p t o r s an o v e la l g o r i t h mf o rp r o j e c t i o n p u r s u i t i s d e v e l o p e di n t h i s w o r k s a m p l e s o fa l k a n e ,a l k e n ea n d c y c l o a l k a n e a r e i n v e s t i g a t e d s o m ei n t e r e s t i n gc l a s s i f i c a t i o n sb a s e do ns p e c i a lc h e m i c a ls t r u c t u r e s ,s u c h a sd i f f e r e n tn u m b e r so fc a r b o na t o m si nm o l e c u l e s ,d i f f e r e n tn u m b e r so f b r a n c h e s ,d o u b l e b o n d sn u m b e r s ,p o s i t i o no fd o u b l eb o n d s ,c o n j u g a t e dd o u b l eb o n d so rn o n c o n j u g a t e d d o u b l eb o n d sa n dn u m b e r so fr i n g se t c ,h a v eb e e nr e v e a l e df o rt h e s ec a r b o n h y d r o g e n c o m p o u n d sw i t ht h eh e l po ft h en e wa l g o r i t h m d i f f e r e n tm o d e l sb e t w e e nt o p o l o g i c a l i n d i c e sa n dr e t e n t i o ni n d i c e sa r ee s t a b l i s h e df o rd i f f e r e n tc l a s s e so fs a m p l e so b t m n e d f r o mt h er e s u l t so fp r o j e c t i o n t h er e g r e s s i o ni st h e ns i g n i f i c a n t l yi m p r o v e d t h i sf a c t s h o w st h a tt h e r ea r er e a l l ys e v e r a l1 i n e a rm o d e l se v e nf o ra l k a n e s f u r t h e r m o r e a n i n t e r e s t i n gp r o j e c t i o n r e s u l ti so b t a i n e db yp r o j e c t i o np u r s u i tw h e nc o m p o u n d si na h o m o l o g o u s s e r i e sa r eu s e dt oc a l c u l a t e t h e p r o j e c t i o n d i r e c t i o n t h i sk i n do f c l a s s i f i c a t i o ns h o w st h a ta l lh o m o l o g o u ss e r i e sa r es e p e r a t e de a c ho t h e ra n dh a v er e g u l a r d i s t a n c eb e t w e e ne a c ho t h e r b a s e do nt h i s i n f o r m a t i o nan e wv a r i a b l ec a t l e dc l a s s d i s t a n c ev a r i a b l ei sp r o p o s e dt od e s c r i b et h ed i f f e r e n c eb e t w e e nt h ec l a s s e so fh o m o l o g s w i t ht h eh e l po ft h i sv a r i a b l e am u c hb e t t e rm o d e l i so b t a i n e d i t se s t i m a t i o ne r r o r sa n d p r e d i c t i o ne r r o r sa r ea 1 1v e r y s m a l lc l o s i n gt ot h em e a s u r e m e n te r r o rl e v e l t w oi n d i c e sc a l l e ds i m i l a r i t ye v a l u a t i o ni n d e xa n dd i f f e r e n c ee v a l u a t i o ni n d e xa r e p r o p o s e d i nt h i s w o r k t h e y c a nb eu s e dt o i n v e s t i g a t e t h ec o r r e l a t i o nb e t w e e n t o p o l o g i c a li n d i c e s ( t i s ) q u a n t i t a t i v e l y a n da l s ot oe s t i m a t et i s c o n t r i b u t i o nt ot h e r e g e s s i o nm o d e li nq s p r t h ea p p l i c a t i o no f t h e s et w oi n d i c e so nad a t as e ti n c l u d i n g a l k a n e sa n da l k e n e ss h o w st h a tt h e y c a nd e s c r i b e r e l a t i o n s h i p b e t w e e nt i sw i t h l i 博士论文:化学数据挖掘新算法和定量构性关系基础研究 2 0 0 2 年7 月 r e a s o n a b l er e s u l t s ,a n dt h e yh a v ep o t e n t i a lu s e n e s si nv a r i a b l es e l e c t i o n b l o c kd e s c r i p t o r t l l a tc o n t a i n sas e r i e so fi n d i v i d u a lt i sw i t hs i m i l a rd e f m a t i o n si sp r o p o s e di nt h i sw o r k f o l l o w e db yc o m b i n i n gs o m ei n d i v i d u a lt o p o l o g i c a li n d i c e si n t oaf e wb l o c k s ,as e to f n e wo n e d i m e s i o n a lv a r i a b l e si so b t a i n e dw i t ht h eh e l po fc a n o n i c a lc o r r e l a t i o na n a l y s i s w i t h o u tl o s i n gm a j o ri n f o r m a t i o n w i t ht h eh e l po ft h en e wv a r i a b l e s ,m o d e l si n c l u d i n g f e wv a r i a b l e sa r ee s t a b l i s h e dt od e s c r i b er e t e n t i o ni n d i c e so fa l k a n e sa n ds h o wi m p r o v e d p e r f o r m a n c ew i t hh i g h c o r r e l a t i o nc o e f f i c i e n ta n ds m a l lr e s i d u a l s f o rt h ec h r o m a t o g r a p h i ca n a l y s i so fc o m p l e xm u l t i c o m p o n e n ts a m p l e si na n a l y t i c a l c h e m i s t r y , s o m eg r e ya n a l y t i c a ls y s t e m s a r eo f t e ne n c o u n t e d ,i nw h i c hs o m ec o m p o n e n t s a r ea s c e r t a i n e da n do t h e r sa r eu n k n o w n s t h em o d e la n da l g o r i t h mo fc a l c u l a t i n gd e a d t i m ea n dr e t e n t i o nt i m e so f n - a l k a n e si nag r e ya n a l y t i c a ls y s t e ma r ed e v e l o p e d b yu s i n g t h ec a l c u l a t e dd e a dt i m ea n dr e t e n t i o nt i m e so fn - a l k a n e s ,r e t e n t i o ni n d i c e so fu n k n o w n c o m p o n e n t s c a l lb ec a l c u l a t e de a s i l y r e s u l t so b t a i n e db yt h i sm e t h o df o rt w os a m p l e so f p e t r o l e u mp r o d u c t ss h o wt h a tt h e c a l c u l a t e dr e s u l t so fd e a dt i m e ,r e t e n t i o nt i m e so f n - a l k a n e sa n dr e t e n t i o ni n d i c e so f u n k n o w nc o m p o n e n t s a r es a t i s f a c t o r yw i t hs m a l le r r o r s , c o m p a r i n g w i t ht h ee x p e r i m e n t a lv a l u e s k e yw o r d s :d a t am i n i n g ,q u a n t i t a t i v es t r u c t u r ep r o p e r t yr e l a t i o n s h i p ,p r o j e c t i o np u r s u i t , c a n o n i c a lc o r r e l a t i o n a n a l y s i s ,t o p o l o g i c a l i n d e x ,r e t e n t i o ni n d e x ,d a t a b a s e , c h e m o m e t r i c s 一n i 博t 论文:化学数据挖掘新算法和定量构性关系基础研究2 0 0 2 年7 月 第一章绪论 化学是- - i l 实践的科学。其研究内容包括物质的组成、结构和性质及其相互联 系和变化规律。到现在已知化合物的数量已超过2 0 0 0 多万种,如此众多化合物所包 含的化学知识( 信息) 量远远超过其他学科,而且这些信息往往是通过实践获得的。 在长期的化学实践中,积累了海量的化学信息,这些信息散布在浩如烟海的各类化 学出版物中。虽然这些化学信息为人们探索自然界的奥秘提供了基础,但因为数据 量的迅猛增加却造成了使用上的困难,常规手段已无法满足化学家的需要,因此众 多的化学数据库应运而生。近年来人们在利用数据库对化学数据进行研究时,逐步 认识到海量数据的利用十分困难,而且不充分,更具价值的规律性的信息和知识还 隐臧在数据内部。如何从化学数据中发现更多、更有价值的化学规律正逐步成为化 学家们关注的焦点,正如徐光宪先生在国家自然科学基金委员会成立十五周年庆祝 大会上二的讲话中所指出的那样:“从科学发展史看,科学数据的大量积累,往往 导致重大科学规律的发现。1 9 世纪6 0 年代的化学积累了数十种元素和上万种化台 物的数据,门捷列夫把这些元素按原子量的大小次序排列,发现它们的化合物的性 质有周期性交化,因而在1 8 6 9 年提出元素周期律,为以后发现新元素和波耳建立原 子模型指明了方向。2 0 世纪3 0 年代,累积了1 0 0 多万种化合物的数据,结合量子化学 的发展,导致鲍林提出共价、电价和氧化值的定义,以及。键、7 【键、杂化轨道、电 负性、共振结构等新概念,总结出化学键理论,发表论化学键本质这本经典著 作,对2 0 世纪化学的发展起了非常重要的作用。现在截止到1 9 9 9 年1 2 月3 1 日,美国 化学文摘登记的分子、化合物和物相的数目已超过2 3 4 0 万种,比鲍林总结化学键理 论时扩大了十余倍,但全世界的化学家似乎还没有充分利用这一化学文选宝库来总 结规律。这是世纪之交的难得机遇,不可交臂失之。” 1 1 数据挖掘( d a t am i n i n g ) 近年来,针对数据库的数据挖掘( d a t am i n i n g ) 作为一种新的信息技术开始出 现,无论是理论研究还是产品开发,发展速度都十分惊人【2 。”,已推出了很多比较 成熟的商业软件,比如,m a r k s m a n ”,t h i n km a c h i n e “,d a t a m i n d “,i n t e l l i g e n t m i n e r l 2 2 1 ,k n o w l e d g es e e k e r 2 3 】等。而数据挖掘在各个领域的应用研究也是非常活跃 的,化学数据的数据挖掘同样也引起了化学家们的关注“4 6 “。 数据挖掘的目的就是从数据库的海量数据中“掘金”( t od i s c o v e rt h e “h i d d e n 博j 二论文:化学数据挖掘新算法和定量构性关系基础研究2 0 0 2 年7 月 g o l d ”) ,也就是说,这一技术是从海量的数据中自动地发现新的、不明显和有潜在 应用价值的信息和知识,一般认为它是基于数据库的知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,k d d ) h b 的一个关键步骤,通常这两种技术不加区分地混用。数据挖掘 的一般过程可以用图1 的框图说明。 图1 数据挖掘的一般过程 化学数据挖掘是计算机科学、统计学、人工智能、化学以及化学计量学等多学 科交叉的一个研究领域,解决典型的数据挖掘问题需要一整套的方法,常见的方法 仃统计学方法、人工神经网络、遗传算法、因果关系推理、可视化发掘技术等。 化学计量学是应用数学、统计学及计算机科学的工具及其最新成果来设计或选 择最优化学量测方法,并通过解析化学量测数据以最大限度地获取化学及其相关信 息的一门化学分支学科【2 4 】。可见,化学计量学的任务与数据挖掘的目的是不谋而合 的,因此化学计量学在数据挖掘中将担负起重要角色【2 5 锄】。b u y d e n s 等2 卅在一篇题 为“m o l e c u l a r d a t a - m i n i n g :ac h a l l e n g ef o rc h e m o m e t r i c s ”的文章中指出:随着数据库 的发展,对有助于从数据库中提取有用信息技术的需求比以往更为追切。在这一领 域,化学计量学将受到关注,但由于数据库中数据量的巨大,传统的化学计量学方 法也将面临挑战。因此在未来若干年内,化学计量学在信息处理,数据挖掘领域的 一2 一 樽i 论文t 化学数据挖掘新算法和定量构性关系基础研究2 0 0 2 年7 月 i j | = 究必将非常活跃1 2 ”。 另外,值得强调的是数据挖掘需要数据库强有力的支持。海量的化学数据分布 于众多的文献中,如果不依靠数据库技术,仅靠人工去收集、按理、归类、直至挖 掘隐含的知识和规律是很难实现的,甚至是不可能的。所幸的是化学家们已经认识 到这点,并且已经或将要建立各种各样的化学数据库,比如各类谱图数据库( 质 谱、红外谱、核磁共振谱等) 、化合物物理化学性质数据库、各种化学反应数据库等 等。这些数据库必将为化学数据挖掘提供极大的便利。 1 2 色谱保留数据蕴涵着大量信息 色谱,作为分析化学的一个分支发展速度惊人,色谱分析技术已经普及到化学 化 、医药卫生、环保、能源等众多的行业。因此,日积月累的色谱分析数据数量 的巨大是可想而知的。色谱技术以其卓越的分离性能见长,样品中各种组分的分离 结果往往以色谱图的形式给出,一张色谱图蕴涵着大量有关样品组分与色谱固定相 以及色谱操作条件的相互关系等方面的信息。不过可惜的是,一般的色谱保留值, 如保留时间、保留体积、调整保留时间等都受具体的色谱操作条件的影响,这就导 敛了不同实验室,不同时间以及不同仪器测定的色谱数据往往不能通用,为从这些 色谱数据中挖掘知识和信息带来了困难。1 9 5 8 年k o v a t s 提出的保留指数【6 3 】 ( r e t e n t i o ni n d e x ) 在相当程度上改变了保留值表示混乱的局面,受到了广泛的承认。 保留指数表达色谱分离结果的主要优点是它只受色谱柱和柱温的影响,而与具体的 色谱操作条件无关,这就能保证所有的色谱数据可以相互比较,为数据的广泛应用 创造了条件。自提出保留指数以后,四十多年的时间,发表了大量研究和应用报告, 积累了众多可利用的保留指数数据【6 2 拼】。这些数据也为色谱数据的数据挖掘提供了 i 蛙实的基础。 1 3 定量构性关系及拓扑指数 化合物的性质是化学的基本研究内容之一。化学家们普遍认为,化合物所表现 m 来的各种性质( 或称性能) 与化合物的结构密不可分,即性质是结构的函数。这 也是定量结构性能关系( q u a n t i t a t i v es t r u c t u r ep r o p e r t yr e l a t i o n s h i p ,q s p r ) 研究的 基本假设。定量结构性能关系研究也是化学的一个研究热点口5 踟l 。q s p r 研究的 个蘑要方面就是化学结构的描述,就是把化学家们习惯使用的以图形形式表达的化 f 雌卜论文t 化学数据挖掘新算法和定量构性关系基础研究2 0 0 2 年7 月 学结构用数值表达出来,以便于与性能建立关系。在q s p r 中常用的结构描述符为 拓扑指数和量子化学描述符,其中的拓扑指数占有非常重要的地位。 拓扑指数是以图论为基础而发展起来的。图论是数学上一个古老的分支。它把 图g 定义为顶点v 和边e 的集合,即o = o f v , e ) 。在化学上,顶点v 对应着分子中 的原子,边e 则对应着原子间的化学键。一个分子中的原子和化学键如果分别用顶 点和边表达,它就可以用一个图来描述,称为化学图。化学图能很好地表达分子中 原子间的连接关系,所以,它是表征化学结构的一种有效方法。为简便,化学图常 常只画出分子的骨架,即省略氢原子,称为隐氢化学图( h y d r o g e n s u p p r e s s e d c h e m i c a l g r a p h ) 。 1 9 4 7 年,w i e n e r 提出了第一个拓扑指数,w 指数1 9 9 1 ,随后,数百种拓扑指数 相继问世。按照拓扑指数的发展过程和其本身的特点,大致可以把拓扑指数分为三 代f 1 0 0 1 : 1 第一代拓扑指数 其特点是计算拓扑指数所依赖的局部顶点不变量( l o v i s ) 为整数,所计算的拓 扑指数也是整数。拓扑指数发展的早期所提出的指数一般都属于这一类,比如w i e n e r 指数w 【卿,h o s o y a 指数z t l o ”,b a l a b a n 的中心指数c 和c 1 1 0 2 ,s c h u l t z 提出的分子拓 扑指数m t i t l 0 3 ,1 0 4 1 等。 2 第二代拓扑指数 第二代指数的特点是局部顶点不变量( l o v i s ) 为整数,但拓扑指数是实数。这 类包括由r a n d i c b 0 5 1 提出,并由k i e r 和h a l l 扩展的分子连接性指数i 1 0 6 t 0 9 k d , 瓴鼠指数b t o ,电子拓扑指数( e s t a t e 指数) 1 1 1 - 1 1 3 ,特征值指数4 7 】及其它很多 指数8 。1 2 6 1 。 3 第三代拓扑指数 第三代指数本身是实数,其局部顶点不变量( l o v i s ) 也是实数。局部顶点不变 髓可以定义为原子序数,顶点度,化学图距离矩阵的列向加和,电负性以及原子半 径等。用实数的局部顶点不变量能定义多种拓扑指数1 2 7 “3 们。 拓扑指数的发展速度是惊人的,美国佛罗里达大学的k a r t r i t z k y 研究小组曾研 制了用于结构描述符计算和统计分析的软件包c o d e s s a t l 3 7 1 ( c o m p r e h e n s i v e d e s c r i p t o r sf o rs t r u c t u r a la n ds t a t i s t i c a la n a l y s i s ) ,它能够计算的结构描述符已多达 4 0 0 种,其中有一半为拓扑指数。不过拓扑指数数量的迅速增加,虽然一方面给拓 扑指数的应用带来了方便,但另一方面也出现了一些不容忽视的问题。正如 b a l a b a n l l 0 0 1 所指出的那样,由于物理意义不明确和相互间相关性严重等问题,拓扑 指数数量的迅速增加引起人们的忧虑( h o w e v e r , t h em u l f i p l i c a t i o no f t l sc a u s e dw o r r y 一4 一 博i j 论文:化学数据挖掘新算法和定量构性关系基础研究2 0 0 2 年7 月 i ns o m ep a r t so ft h es c i e n t i f i cc o m m u n i t y , d u ea l s ot ot h ef a c tt h a tt h ep h y s i c a lm e a n i n g o ft h e s e d e s c r i p t o r s w a sn o t c l e a r , a n d i tw a sa l s os h o w nt h a t m a n yt i s w e r e i n t e r c o r r e l a t e d ) 。事实上,很多拓扑指数的相关性是很严重的,也就是说它们描述的 结构信息相互重叠,但对众多指数的评价却开展得不多“0 0 , 1 3 8 。1 矧。 1 4 投影寻踪方法 在进行定量构性关系研究时,经常用一组结构描述符( 拓扑指数或和量子化学 描述符) 来表征化合物的结构。这些结构描述符构成了一个高维空间,直接与性能 ( 即因变量) 进行回归时,很难了解各个描述符在回归中的具体表现以及化合物本 身表现出来的内在结构关系。在挖掘结构描述符数据连同性能数据所表达的结构 性能的内在关系方面,投影寻踪是一种有用的方法。 1 9 7 4 年,f r i e d m a n 和t u k e y 1 4 5 在研究多维数据的显示和分析的交互式计算机 系统时首次提出投影寻踪( p r o j e c f i o n p u r s u i t ,p p ) 这一名词。之后,投影寻踪得到 了较大的发展【1 4 6 。”4 1 ,f r i e d m a n 又先后提出了投影寻踪回归( p r o j e c t i o np u r s u i t r e g r e s s i o n ) 1 4 6 、投影寻踪分类( p r o j e c t i o n p u r s u i tc l a s s i f i c a t i o n ) 1 4 7 、投影寻踪密度 估计( p r o j e e t i o np u r s u i td e n s i t ye s t i m a t i o n ) | 1 4 z 等。最近,m a s s a r t 研究小组【1 5 2 。1 5 4 】 提出一种称为顺序投影寻踪( s e q u e n t i a lp r o j e c t i o np u r s u i t ) 的投影寻踪方法,并应用 到色谱和光谱数据挖掘上。 在经典的统计学多元数据分析中,假定点云的总体分布是多维正态分布。在此 前提下,样本均值和样本协方差阵均为充分统计量,由此进行参数的统计推断有一 整套的成熟的统计学方法。在很多情况下,没有关于点云结构的先验知识,进行数 据分析的目的就是探索点云数据的结构信息。对传统的非参数方法,如密度函数估 计、核估计、邻域法等,在一维情况下是很成功的,但应用到高维点云上,便遇到 了困难。b e l l m a n ”5 i 称之为“维数灾祸( c u r s eo f d i m e n t i o n a l i t y ) ”。导致“维数灾祸” 的原因就是维数的增加。所以,对高维数据进行降维处理是避免“维数灾祸”的一 种有效方法。 投影寻踪就是降维的方法。投影寻踪是指用计算机自动地寻找使投影指标达到最 大或者最小的投影方向,将高维数据点云向这个投影方向进行投影而得到低维数据, 得到的投影既能尽量保留原高维数据的信息,又能反映出数据的内部结构信息。因 此投影寻踪可以用来探索隐含在高维数据内部的有关化合物的一些结构信息。 博士论文:化学数据挖掘新算法和定量构性关系基础研究 2 0 0 2 年7 月 1 5 本文的研究内容 在化学界,定量构性关系是一个研究热点,并已波及到其它许多相关领域。但 通常的构性关系研究往往注重建立结构一性能关系模型本身,而涉及到其关系的深层 次的内容,如关于结构与性能的化学规律等方面的研究就很少见了。本文研究的一 个重要内容就是,利用投影寻踪等方法对表达结构描述符一性能关系的数据进行数据 挖掘,探索隐含其间的化学规律。并且在如何利用结构描述符与性能之间的化学规 律,建立准确的构性关系模型,达到准确预测化合物性能的目的等方面,本文也提 出了一些新的方法和思路。本文的另一个重要内容是对拓扑指数进行评价。 本文各章研究的主要内容分别为: 第一章为绪论,扼要介绍与本文相关的数据挖掘、定量构性关系研究等方面的 基础知识及研究进展等内容。 化学家们在长期的色谱研究和样品测定中积累了大量的保留指数数据,这些数 据蕴涵着丰富的化学知识和规律。数据挖掘的目的就是要探索这些知识和规律,但 进行数据挖掘必须要保证所使用数据的完整、全面和正确,否则将挖掘不到有用的 信息,甚至得到错误的结论。数据挖掘强调使用数据库的一个重要目的就是要保证 数据丰富。在第二章中,介绍了为进行数据挖掘以及保留指数的q s p r 等研究工作, 而建立色谱保留指数数据库的内容,并且讨论了建立及使用数据库所遇到的几个重 要问题。第一个问题是数据的查错和纠错,这是建立数据库必然要遇到的问题,我 们提出利用数据呈现的一些化学规律进行查错;第二个问题是温度校正,在收集的 数据中,往往一个化合物对应不同温度下测定的若干个保留指数数据,为了方便使 用和保证数据的完整和全面,我们利用保留指数与温度间的关系对保留指数进行温 度校正,以尽量多地收集一组化合物在统一的温度下的保留指数数据;第三个问题 是关于实验误差的估计,实验误差在构性关系研究中是一个很重要的参考指标,利 用数据库中丰富的保留指数数据可以估计从数据库中整理出来的某个数据集的实验 误差。 拓扑指数是定量构性关系研究中常用的结构描述符,已有数百种拓扑指数被提 出和使用。但很多拓扑指数之间相关性严重,它们所表达的信息存在很高的冗余, 这使得用这些拓扑指数建立的模型稳定性差,预测能力不强,也为拓扑指数的选择 带来了困难。第三章讨论拓扑指数的评价问题,利用拓扑指数间的正交化去除相关 的部分,并考虑性能这一变量的影响,提出了拓扑指数的相似性评价指数和差异性 评价指数,用来定量地考察拓扑指数之间的相关性和拓扑指数对回归的贡献。 对一组结构描述符进行正交化可以得到一组新变量,新变量相互正交,去除了 博十论文:化学数据挖掘新算法和定量构性关系基础研究2 0 0 2 年7 月 原变量间相关的部分,并且保存了原变量的几乎全部信息。第四章提出了块拓扑指 数( 或称块结构描述符) 的概念,即几个定义相近的一类结构描述符组合在一起形 成为一个块结构描述符,并给出了一组块结构描述符的正交化算法,同时借助典型 相关分析,将正交化的块变量降维到一维,提高了构性关系模型的拟合和预测能力。 第五章利用投影寻踪技术对定量构性关系研究中拓扑指数和性能,即保留指数 数据进行数据挖掘,以期找到隐含在这些数据中的关于样品的结构信息。在这章 中,构造了一个新的投影寻踪算法,提出了投影指标的函数形式和寻找投影方向的 方法。通过对烷烃、烯烃和环烷烃的投影寻踪,发现了一些化合物的分类规律,如 按照分子中碳原子数目、分支数目、双键数目、双键位置、共轭与否、环数目及环 上分支等的分类模式。 第五章的投影寻踪结果给出了化合物的分类状况,也说明了不同结构特点的化 合物在与性能关系上的差异,为准确地建立构性关系模型奠定了基础。在第六章中, 利用这些已发现的分类信息构建烷烃的结构保留指数和结构沸点关系模型,所建 模型的标准误差接近或达到了实验误差水平。本章讨论了分类建模和利用类距离变 量建模两种方法。 成分复杂样品的色谱分离分析一直是分析人员投入大量精力研究的一个课题, 化学计量学在这方面也作了大量工作 1 5 6 。但在组分的定性方面,往往只能确定部 分组分而非全部组分( 本文称此为灰色分析体系) ,而定性的手段也只是利用标准品 或波谱信息,色谱保留指数方面提供的信息则很少或根本没有利用。第七章拟利用 色谱保留指数进行定性,对死时间和正构烷烃保留值均未知的灰色分析体系提出了 计算未知组分保留指数的模型和算法,为利用保留指数定性提供了一条途径。 一,一 博士论文:化学数据挖掘新算法和定量构性关系基础研究 2 0 0 2 年7 月 2 1 前言 第二章气相色谱保留指数数据库建立及数据整理 气相色谱是分离和分析复杂多组分样品的有力工具,近几十年来,在气相色谱 的基础理论、仪器设备以及众多应用领域取得了飞速的发展。计算机的应用,智能 气相色谱的出现,气相色谱与质谱,光谱等联用技术的发展,以及多维色谱的出现 等,使得气相色谱在解决如天然物质等复杂样品的分离分析方面有了进一步的发展。 由k o v a t s 提出的保留指数【6 3 】( r e t e n t i o ni n d e x ) 是气相色谱重要的定性指标。 它的主要优点是它只受色谱柱和柱温的影响,而与具体的色谱操作条件无关,所以 在定性时,可根据所用固定相和柱温直接与文献值对照而不需要标准试样。自提出 保留指数以后,四十多年的时间,在相当程度上改变了保留值表示混乱的局面,减 小了操作参数的影响,同时发表了大量研究和应用报告,积累了海量可利用的保留 指数数据【6 2 “j 。这为保留指数数据的使用提供了坚实的基础。 随着计算机技术的发展,数据库技术有了突飞猛进的进展,使得建立大型的、 操作方便的数据库成为可能。在化学领域,人们已经成功地建立了很多数据库,如 大量的谱图数据库( 质谱、红外谱、核磁共振谱等) 、化合物物理化学性质数据库等 等。为了更有效地利用已有的保留指数数据,进行数据挖掘( d a t am i n i n g ) 、定量结 构性能关系( q u a n t i t a t i v es t r u c t u r e p r o p e r t y r e l a t i o n s h i p ,q s p r ) 、复杂有机样品的色 谱与光谱联合定性等方面的研究,我们收集了些常见化合物的保留指数数据,建 立了气相色谱保留指数数据库。 数据库中的数据必须要保证是准确的,否则,使用这些数据将导致错误的研究 结果,因此新建数据库的首要工作就是数据的查错纠错。不过数据库中数据量往往 非常巨大,为数据的查错带来了很大的困难。然而,化学数据不是孤立存在的,它 往往呈现一定的化学规律,化学中已经发现了很多这样的规律。一组化学数据如能 反映这些规律,则证实了规律的存在:反之,如果有奇异点出现,则说明奇异点的 数据可能是错误的,需要纠正。本文就是利用保留指数固有的一些规律如保留指数 与柱温的关系、同系物的线性规律等查找和纠正数据库中的错误。 保留指数数据库中的数据,来自很多实验室的测试报告,一方面,这些数据来 源广泛,更能反映化合物本身的特征,避免单来源数据可能存在的片面性。但另 方面,即使在相同固定相条件下,同一种化合物往往对应很多保留指数数据,有 螳对应不同的柱温,有些对应相同柱温,但数据出处不同( 由不同实验室测定) 。在 一8 一 博士论文:化学数据挖掘新算法和定量构性关系基础研究2 0 0 2 年7 月 这种情况下,人们将面临如何利用这些数据的问题。本文提出一种方法对不同柱温 和来源的保留指数数据进行校正,以得到统一的数据,适合于应用。同时对数据的 实验误差进行估计。 2 2 色谱保留指数数据库的建立 2 2 1 软件的选择 数据库技术发展到今天,开发了很多数据库软件,如f o x p r o ,m i c r o s o f t a c c e s s , s q ls e r v e r ,o r a c l e 等。f o x p r o 是较早使用的数据库开发工具,功能比较弱,兼容 性比较差,应用范围已越来越小。其余的软件兼容性均较好,应用也较广泛。虽然 s q ls e v e r 和o r a c l e 功能非常强大,有着广泛的应用,但它主要用于企业建立庞大 的数据库,开发和维护成本都较大。而m i c r o s o f ta c c e s s 是微软公司开发的,与 w i n w o r d 等一同发行。一些如数据录入、筛选、排序、统计、数据导出等基本操作, 可以直接针对a c c e s s 数据库,不需要特殊的界面。而且用a c c e s s 设计数据库比较 简单,容易实现,容易操作,容易维护。从软件设计容量来看,我们要建立的数据 库的数据量不是很大( 考虑到今后的扩充,最多不过几十万条) ,m i c r o s o f ta c c e s s 已 能完全满足我们的要求。所以我们选用m i c r o s o f ta c c e s s 作为数据库开发工具。 2 2 2 数据库内容的设计 开发数据库的目的是为了使用,因此我们考虑尽量多地包含有用的信息,并且 添加、删减和修改要方便。综合考虑各方面的因素,在保留指数数据库中使用以下 字段: 化合物名称 固定相 温度 保留指数 保留指数随温度的变化率d l d t 参考文献 后来,为了使用方便,又增添了如下字段: 沸点 化合物结构编码:目的是方便计算拓扑指数。 一9 一 博l 论文:化学数据挖掘新算法和定量构性关系基础研究 2 0 0 2 年7 月 常见的拓扑指数:如w 指数、分子连接性指数( m o l e c u l a r c o n n e c t i v i t yi n d i c e s ) 、 m t i 、k a p p a 指数、路径数( p a t hc o u n t ) 等。 2 2 3 数据库的数据来源 大量的保留指数数据存在于众多的手册、书籍及杂志中,直接从这些文献中收 集数据是非常困难和耗时的。为此,我们以李浩春编写的分析化学手册气相色谱 分册( 第二版) 悼z j ( 以下简称手册) 作为主要的保留指数数据来源。此手册从国 内外公开发表的文献以及一些内部研究报告中收集了很多比较有代表性和比较可靠 的保留指数数据。另外,我们又查阅了一些文献,从中收集整理了一些数据 9 7 , 1 5 7 】。 所收集的数据涵盖了各种常见有机化合物,如烷烃、烯烃、炔烃、芳烃、醇、醚、 醛、酮、有机酸及其酯类、酚、硝基化合物、胺类、氮杂环化合物、硫醇、硫醚、 含卤素化合物等,以及石油及其产品、有机硅、医药、氨基酸、精油、农药、糖类 等专门化学品,收录到数据库中约5 00 0 0 条保留指数数据。 2 3 色谱保留指数数据库的数据查错和纠错 数据库中收集了大量的数据,不可能没有错误。数据库中的错误主要包括以下 三种类型: a 数据录入时,操作者失误
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 综合探究七 区域的变化说课稿-2023-2024学年初中历史与社会(人文地理)七年级下册人教版(新课程标准)
- 本单元复习与测试说课稿-2025-2026学年初中英语新世纪版七年级第一学期-新世纪版试用本
- 2025关于合同解除的赔偿标准
- 2025贵阳市科技创新基金合同书
- 篮球:传切配合及体能练习 教学设计-2023-2024学年高一上学期体育与健康人教版必修第一册
- 呼和浩特事业单位笔试真题2025
- 2025企业食堂管理承包合同
- 2025标准购房合同协议书 房屋买卖合同
- 2025型材供应购销合同
- 2025个人借款轿车抵押合同书
- 基本不等式课件-高三数学一轮复习
- DL∕T 2568-2022 电力行业数字化审计平台功能构件与技术要求
- 足太阳膀胱经(经络腧穴课件)
- 部编人教版《道德与法治》六年级上册第9课《知法守法 依法维权》精美课件(第1课时)
- 消防喷淋系统设计合同范本
- DB32-T 4757-2024 连栋塑料薄膜温室建造技术规范
- 2024年四川省广安市中考数学试题(含答案逐题解析)
- 山西省太原三十七中2023-2024学年九年级上学期月考物理试卷(10月份)
- (幻灯片)世界各国国旗大全中文
- 物流地产发展前景分析
- 三年个人成长路线图:高中数学名师工作室
评论
0/150
提交评论