已阅读5页,还剩66页未读, 继续免费阅读
(分析化学专业论文)醇类化合物定量结构色谱保留相关研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 有机物的色谱保留值是色谱分析的一个重要参数,根据已有的色谱保留数 据,应用计算机技术可完成化合物的定性、定量分析。长期以来,人们为探求 预测色谱保留值的方法已做了大量工作,从不同角度建立起多种规律和方法。 定量结构一保留相关( q s r r ) 研究,即利用量子化学、分子拓扑学等方法和数理 统计手段结合研究结构与保留值之间的定量相关关系实现解释预测是其中应用 较为厂一泛的一种,它是特定的色谱范围内的定量结构一陛质相关( q s a r ) 。 本论文主要讨论饱和脂肪醇类化合物的分子结构与其气相色谱保留指数之 间的定量相关关系,其目的是寻找能描述此类化合物色谱保留值变化规律的分 子结构描述符,并通过数理统计方法建立模型,为预测“未知”化合物的保留 指数值、推测色谱分离机理提供指导和帮助。另外,为了更好地表征醇类及其 它一些化合物的分子结构特征,我们设计了一个新的拓扑指数,并用烷烃、醇、 醚、卤代烃等化合物的沸点、色谱保留指数、水溶解度、临界温度等理化参数 进行其性质相关性的验证,结果良好。 论文共分为三部分。 第一部分即第一章,综述了有机化合物定量结构一活性保留相关 ( q s a r q s r r ) 研究的有关内容,包括这一研究中常用的数理统计方法、分析方 法、常用的各类描述符等,此外就定量结构一保留关系( q s r r ) 研究的应用情况 作了回顾和分析,并展望这一领域研究的发展潜力和发展趋势。结合本论文的 需要,在数量统计方法中着重阐述了人工神经网络技术的原理、特点和应用情 况。 第二部分共包括两章( 第二章和第三章) ,分别运用多元回归分析和人工神 经网络技术对醇类化合物的结构与色谱保留值的相关性进行了探讨和分析。 在第二章中,采用的是传统的多元线性回归分析方法,以拓扑指数为结构 描述符来建立与保留指数值间的定量函数关系式回归方程。选用的描述符 包括l 一6 阶分子连接性指数、电子拓扑指数s 及区分羟基位置的指示变量c 。, 根据逐步线性回归的操作,在一定检验水平下挑选出重要变量进入回归方程, 使得到的方程全部包含了并且仅包含对保留指数值作用显著的描述符,最后在 单一固定相上得到的方程包含四个变量:1 z ,c 。,3 x 。,( 2 x 一2 x ) 。在此基础上, 为了能够实现不同固定相上保留值的预测,在引入m c r e y n o l d s 常数后得到一个 新的综合性的方程,固定相极性变化对回归结果的影响在综合后的方程中得到 了体现。 根据所得方程对未参加回归的部分醇化合物的色谱保留值进行了预测,结 浙江大学理学硕士学位论文第1 页 摘要 果较为理想。色谱保留值的数据一部分来自本实验室的测定,一部分来源于文 献报道,两组数据获得了相似的良好结果。通过分析方程中各描述符的物理意 义,明确了分子大小、分枝情况以及羟基的位置等是影响此类化台物保留行为 的主要因素。 在接下来的一章中,人工神经网络技术取代了多元回归分析方法,所用算 法为目前应用最广的误差反向传播( b p ) 算法。网络的输入值和输出值分别对 应于回归方程的自变量和应变量。为使网络处于良好的工作状态,神经网络的 结构、隐含层神经元个数、初始权值和闽值及其他一些参数的设置通过多次试 算优化进行确定。训练得到的网络模型用于预测集化合物保留指数值的预测取 得了比回归分析更小的误差。 第三部分包括第四章、第五章两章内容,主要讨论新拓扑指数的设计和应 用。我们的目的是设计一种富含分子结构信息,结构选择性良好,能广泛适用 于醇类或其它一些化合物的色谱保留值、沸点、溶解度等理化性质的相关研究 和预测,并具有一定物理意义的拓扑指数。 基于第二章中得出的结论,醇类化合物的保留行为受烷基和羟基两方面的 影响,在第四章中,我们首先从烷烃入手,根据富含分子结构信息的分子距离 矩阵和顶点度矩阵,设计并计算了一个能反映烷烃分子大小、分枝情况对此类 化合物的气相色谱保留值、沸点、蒸发热、临界温度、临界压力等理化性质影 响规律的新指数x 。这几种性质,除临界压力外,都随x 的增加而增大。拓扑 指数x 一方面随碳原子数的增多而增大,另方面,当碳原子数相同时,随支 化程度的增大而减小,变化具有规律性。可以说,拓扑指数x 较全面地反映了 饱和链烃类化合物分子的大小和拓扑信息,是一个与分子大小密切相关的参数, 期待它能够较好地反映醇类化合物中烷基的结构差异对性质( 如保留行为) 的 影响。另外,这一指数还具有良好的结构选择性,从c ,直至c 。的异构体没有 出现简并现象。 在此基础上,我们作了进一步探讨,在第五章中,通过较为简单的适当处 理将其推广至含杂原子体系。首先,为了区别分子中存在的不同原子或键,引 入相对键长代替分子图中相邻两顶点f 司的拓扑距离。其次,考虑到杂原子所处 的环境不同,对性质影响程度的不同,如醇类化合物和醚类化合物中的氧原子, 在定义和计算指数值时分情况进行。修正后的拓扑指数随后用于醇类化合物的 气相色谱保留值、沸点等理化性质的相关性研究,并与分子连接性指数进行了 对比分析,得到了更好的结果。为了验证这一指数适用的广泛性,我们还讨论 了它与一系列醚类化合物、卤代烃化合物的气相色谱保留值、沸点、水溶解度 等理化性质的相关性,结果令人满意。 浙江大学理学硕士学位论文第2 页 a b s t r a c t a b s t r a c t b e i n ga ne x c e l l e n ts e p a r a t i o nm e t h o d ,g a sc h r o m a t o g r a p h y ( g c ) a l w a y ss e r v e r s a sa n i d e n t i f y i n g m e a n s r e t e n t i o nv a l u e s ,e s p e c i a l l yr e t e n t i o n i n d i c e s ( r d a r e g e n e r a l l yu s e df o ri n d e n t i f i c a t i o ni ng c ,p a r t i c u l a r l yc o u p l e dw i t ho t h e ri d e n t i f i c a t i o n m e a n s ,s u c ha sg c m s g c f o u r i e rt r a n s f o r mi rs p e c t r o m e t r ya n dg c a t o m i c e m i s s i o ns p e c t r o m e t r y h o w e v e r , t h es o r t so f c h r o m a t o g r a p h i cs t a t i o n a r yp h a s ea r ei n g r e a tn u m b e r s ,a sw e l la st h ec o m p o u n d st h a tn e e d e dt ob ea n a l y z e da r ec o u n t l e s s p e o p l ec a n n o th a v et h er e t e n t i o nd a t ao f a ic o m p o u n d so ne v e r ys t a r i o n a r yp h a s e f o r al o n gt i m e ,al o to fr e s e a r c hs t u d i e sh a v ea l r e a d yb e e n d o n et op r e d i c tr e t e n t i o ni n d e x v a l u e s ,a n ds o m ek i n d so fr e g u l a r i t i e sa n dm e t h o d sh a v eb e e ne s t a b l i s h e d a m o n g t h e m , t h em e t h o d o l o g yc a l l e dq u a n t i t a t i v es t r u c t u r e r e t e n t i o nr e l a t i o n s h i pi so n eo f t h ew i d e s p r e a dw a y p e r m i tg e n e r a t i o no f u s e f u le q u a t i o n so rm o d e l sf o rt h ep r e d i c t i o n o fr e t e n t i o ni n d e xf o rm o l e c u l e s ,q s m sr e s u l tf r o m a p p l y i n gt h em e t h o d o l o g yu s e d f o rq s a r st ot h ea n a l y s i so f c h r o m a t o g r a p h i cd a t a q s r ri n v e s t i g a t i o n si nt h ep a s t t w od e c a d e sh a v em a d es i g n i f i c a n tp r o g r e s sa n dn u m e r o u s p a p e r so n t h i st o p i ch a v e b e e np u b l i s h e d as t u d yo nt h e q u a n t i t a t i v es t r u c t u r e r e t e n t i o ni n d e xr e l a t i o n s h i po fs a t u r a t e d a l c o h o jc o m p o u n d sw a sc a r r i e do u ti nt h i sw o r k t h ep u r p o s eo ft h ew o r k w a st o e s t a b l i s ht h ee q u a t i o no rm o d e lo b t a i n e db ym u l t i p l el i n e a rr e g r e s s i o nf 儿r ) a n a l y s i s a n da r t i f i c i a ln e u r a ln e t w o r k s ( a n n ) t e c h n i q u ew i n c hc l o s e l yr e l a t et h er e t e n t i o n i n d e xv a l u e so f a l c o h o l so ns e v e r a ls t a t i o n a r yp h a s e so f d i f f e r e n t p o l a r i t yt om o l e c u l a r t o p o l o g i c a ld e s c r i p t o r sw i t ht h ea i mt op r e d i c t i n gt h ec h r o m a t o g r a p h i cr e t e n t i o no f a l c o h o l sa n dd e d u c i n gt h es e p a r a t i o nm e c h a n i s m a tt h es a l n et i m e ,w ea s s i g n e da n e w t o p o l o g i c a l m o l e c u l a r d e s c r i p t o r t h a tw a sa b l et oa c c o u n tf o r t h e c h r o m a t o g r a p h i ci n t e r a c t i o n sa n do t h e rp h ) 7 s i c o c h e m i c a lp r o p e r t i e sf o rt h ed i f f e r e n t a l c o h o lc o m p o u n d s ,a sw e l la ss o m eo t h e rk i n d s o f o r g a n i cc o m p o u n d s , t h i sw o r ki n c l u d e st h r e ep a r t s i nt h ef i r s tp a r t ( i e ,t h ef i r s tc h a p t e r ) ,t h ep r i n c i p l e s ,t h em a t h e m a t i c a ls t a t i s t i c s , t h em a i nt y p e so fd e s c r i p t o r sa n dt h ep r a c t i c a la p p l i c a t i o n so fq s a r s t u d yw e r e e l a b o r a t e d ,e m p h a s i sb e i n gp u to nt h ed e v e l o p m e n ta n da p p l i c a t i o no fq s r rs t u d y w ep r o v i d e da n _ o v e r v i e wo fr e t e n t i o n p r e d i c t i o n ,d e t e r m i n a t i o no fs e p a r a t i o n m e c h a n i s m 洫q s r r m o d e l s t h es e c o n dp a r ti n c l u d e st w o c h a p t e r s ,t h es e c o n dc h a p t e ra n dt h et h k dc h a p t e r i nw h i c haq s r rm e t h o dw a sf 0 1 l o w e dt or e l a t et h eo b s e r v e dk o v a t sr e t e n t i o n i n d e x e so fs a t u r a t e dm c o h o lc o m p o u n d sw i t ht h e i rm o l e c u l a rt o p o l o g i c a li n d i c e sb y m e a n so f m u l t i p l e l i n e a r r e g r e s s i o n a n da r t i f i c i a ln e a r a ln e t w o r k s t e c h n i q u e r e s p e c t i v e l y i nt h ec h a p t e rt w o ,s e v e r a lr e g r e s s i o ne q u a t i o n st h a t r e p r e s e n tt h eq u a n t i t a t i v e r e l a t i o n s h i p s b e t w e e nt h em o l e c u l a rs t r u c t u r ea n dr e t e n t i o ni n d e xo fa l c o h o l s o n d i 位r e n ts t a t i o n a r yp h a s e sw e r e r e p o r t e d o n e p a r to f t h er e t e n t i o ni n d e xd a t au t i l i z e d i nt h i ss t u d yw a sf r o mo u r e x p e r i m e n tw h i l et h eo t h e rw a s t a k e nf r o ml i t e r a t u r e t h e s t a t i s t i c a la n a l y s i sf o rt h ec o r r e l a t i o nw a sd o n ew i t hm u l t i p l el i n e a rr e g r e s s i o n , a n d t h ed e s c r i p t o r ss e l e c t e dt o r e p r e s e n tt h es t r u c t u r a lf e a t u r e so ft h em o l e c u l e sw e r e 浙江大学理学硕士学位论文第3 页 a b s t r a c 【 t o p o l o g i c a ld e s c r i p t o r s ,s u c h a st h e 1s tt o6 t ho r d e r c o n n e c t i v i t yi n d i c e s ,t h e e l e c t r o t o p o l o g i c a li n d e x ,a n da ni n d i c t o rv a r i a b l e a c c o r d i n gt ot h eo p e r a t i o no fs t e p - w i s em u l t i l i n e a rr e g r e s s i o na n a l y s i s t h ei n c l u s ;i o no f d e s c r i p t o r si nt h el a s te q u a t i o n s w a s s t a t i s t i c a l l y j u s t i f l e da ta g i v e np r o b a b i l i t y l e v e lo ff i s h e rc r i t e r i o n ,w h i c h e n s u r e dt h eo b t a i n e de q u a t i o n sh a di n c l u d e da l lb u t o n l yt h o s ed e s c r i p t o r s t h a t s i g n i f i c a n t t or e t e n t i o ni n d e x t h ee q u a t i o n s g e n e r a t e d o ne v e r ys i n g l es t a t i o n a r y p h a s ec o n t a i n st w o ( 1 c ,c o h ) o rf o u rd e s c r i p t o r s ( 1 x ,c o h ,3 x d ,( 2 z - 2 z ) ) o n b a s i so f t h e s ee q u a t i o n s t w oc o m b i n e de q u a t i o n sf o rt w og r o u pd a t as e p a r a t e l yw e r et h e n d e v e l o p e df o r s e v e r a lc o l u m n sb yi n t r o d u c i n gt h e m c r e y n o l d s c o n s t a n ta st h e d e s c r i p t o rr e p r e s e n t t h e p r o p e r t y o fs t a t i o n a r y p h a s e t h ep r e d i c t i o n r e s u l t sf o r a l c o h o lc o m p o u n d st h a tw e r en o tp a r t i c i p a t e di nt h er e g r e s s i o np r o c e s si n d i c a t e dt h a t t h ea b o v e m e n t i o n e de q u a t i o n sw o u l dg i v ec o r r e l a t i o ng o o de n o u g ht oa p p l i e dt ot h e c a l c u l a t i o no fr iv a l u e sf o ra n ya l c o h o lc o m p o u n d so na n yo ft h e s es t a t i o n a r y b y a n a l y s i st h es i g n i f i c a n c eo ft h ed e s c r i p t o r si nt h em l re q u a t i o n s ,w ec o u l dm a k e c l e a ra n dd e f i n i t et h a tt h er e t e n t i o nb e h a v i o ro ft h i sk i n do f c o m p o u n d s w a sm a i n l y i n f l u e n c e d b y t h e f o l l o w i n g s e v e r a lf a c t o r s :t h em o l e c u l a rs i z e ,t h e d e g r e e o f b r a n c h i n g a n dt h ep o s i t i o no re n v i r o n m e n to f t h eh y d r o x y l g r o u p i nt h e f o l l o w i n gc h a p t e r ,s o m e a b o v e m e n t i o n e d r e g r e s s i o n m o d e l sw e r e s u b s t i t u t e db yt h r e e - l a y e rn e u r a ln e t w o r k s ,t h ea d o p t e dl e a r n i n ga l g o r i t h mw a st h e m o s tw i d e s p r e a db a c k p r o p a g a t i o n ( b p ) a l g o r i t h m n l ei n p u tv a l u e sa n dt h eo u t p u t v a l u e sw e r e c o r r e s p o n d i n g t ot h e d e p e n d e n tv a r i a b l e s ( t h ei n t e r c e p t i t e mw a s c o n s i d e r e dh a v i n gav a r i a b l ea s1 1a n dt h ei n d e p e n d e n tv a r i a b l e si n 匝re q u a t i o n r e s p e c t i v e l y o l i eh i d d e ni a y e rw a su s e da n dt h en u m b e ro fn e u r o n si ni tw a sa h e r e d t oo p t i m i z et h er e s u l t sa c h i e v a b l ew i t ht h i st y p eo fn e t w o r k t h ee f f e c to fd i f i e r e n t i n i t i a ls e t so f w e i g h t s ,t h r e s h o l d s ,a n dt h ev a h i eo fl e a r n i n gr a t ea n dm o m e n t u m t e r m o nt h en e t w o r k se r r o rd e v e l o p m e n ta n dt h ec o n v e r g e n c es p e e dw a si n v e s t i g a t e d t h e t r a i n e dn e t w o r kw a sa l s ou s e dt o p r e d i c tt h er e t e n t i o ni n d e xo fa l c o h o l s ,a n dt h e n e t w o r kp o i n t sf o l l o wt h eo b s e r r e dd a t aal i t t l em o r e c l o s e l yt h a nt h er e g r e s s i o n t h et h i r dp a r ti n c l u d e st w oc h a p t e r s an o v e lt o p 0 1 0 9 i c a li n d e xc a l l e dxw a s p r o p o s e d ,a n di tw a su s e dt or e s e a r c ht h ep h y s i c o c h e m i c a lp r o p e r t i e so f s e v e r a lk i n d s o f c o m p o u n d s a c c o r d i n g t ot h e p r e v i o u ss t u d y i n c h a p t e r2 ,w e c o n e l u d et h a tt h e c h r o m a t o g r a p h i cb e h a v i o ro fa l c o h o l si sm a i n l yi n f l u e n c e db yt h es t r u c t u r eo fa l k y l a n dt h ep o s i t i o no f h e t e r o a t o m t h e r e f o r e ,i nc h a p t e r4 ,an o v e lt o p o l o g i c a li n d e xw a s a s s i g n e dt o i n d i v i d u a ls t r u c t u r e so fa l k a n e sb a s e do nt h ed i s t a n c em a t r i xa n dt h e v a l e n c er o wm a t r i x l i n e a ra n db r a n c h e da l k a n e sh a v i n gt h r e et ot e nc a r b o na t o m s h a db e e nc o n s i d e r e di np a r t i c u l a ra n dc o r r e l a f i o n sb e t w e e nt h ei n d e xa n dp r o p e r t i e s w h i c hc r i t i c a l l yd e p e n do nm o l e c u l a rs i z ea r i d s t _ 1 a p ew e r ee s t i b l i s h e d e x c e p tt h e c r i t i c a lp r e s s u r e ,t h eg cr e t e n t i o ni n d e x ,b p ,o rc r i t i c a lt e m p e r a t u r ew e r ef o u n dt ob e p a r a l l e dw i t ht h ei n d e xw h i c hg r o w sw i t ht h ea d d i t i o no f c a r b o nn u m b e r ,a sw e l la s t h ed e c r e a s i n gi nr a m i f i c a t i o no fm o l e c u l a r w ee x p e c t e dt h i sn o v e li n d e xc o u l db e u s e dt or e f l e c tt h es t r u c t u r a li n f l u e n c eo f a t k y li na l c o h o l st ot h e i rp r o p e r t i e s i nc h a p t e r5 ,i no r d e rt om a k ei t p o s s i b l et oa p p l yt h ei n d e xt oc o m p o u n d st h a t c o n t a i nh e t e r o a t o n , m u l t i d l eb o n d so rc y c l e ,a l la m e n do ft h ed e f m a t i o no ft h ei n d e x 浙江大学理学硕士学位论文第4 页 堂坐型一一 ”a 5 r e p o r t e d o no n eh a n d ,t h e c o n c e p l o fr e l a t i v e b o n d 1 e n g t h w a sa d o p t e dt o o o p l a c 。t h et o p o l o g i c a ld i s t a n c ei nt h em a t r i x s ot h a tt h ed i f f e r e n t i a t i o no f a t o mo r b o n d t y p e sw a sc h a r a c t e r i z e d o nt h eo t h e rh a n d ,i nc o n s i d e r a t i o no f t h ep r o b l e mt h t t h ed l s t m c tp o s i t i o no f h e t e r o a t o mr e s u l t si nt h ed i f f e r e n tp r o p e r t i e s ,w ef 瑙汰e t w o d 1 咖n e tf i 3 r m u l at oc a l c u l a t et h em d e x t h e n i tw a sf o u n dt h a tt h ep r o p o s e di n d e xw a s 8 1 8 0i n 8 a t i t h c t o r ya g r e e m e n tw i t hs e v e r a lp r o p e r t i e s ( k o v a t sm d e x ,b p ,l o g sa n ds o o n ) o f a l c o h o l s ,e t h e r s ,o rh a b h y d r o c a r b o n s 浙江大学理学硕士学位论文第5 页 第一章绪论 第一章绪论 一、引言: 为了更好地认识、利用和控制物质,人们一直在努力地不断探索物质性质 与结构的关系,在许多物质结构与性质问的关系或规律被认识和揭示后,我们 就能够在适当条件下,合成具有一定结构的物质,使它们富有我们所期望的性 质。研究和分析化合物基本结构特征与相应的从实验中反映出的一些性质的相 关关系,即构效关系( s a r ,s t r u c t u r e - a c t i v e y 胎如t i o n s f l i p ) 已成为现代化学 基础研究的重要内容之一。所谓定量构效关系( q s a r ,钆a 门“招t i v e s t r u c t u r e - a c t i v t y # e l a t i o n s h i p ) 即是在此基础上发展而来的,它运用化合 物的理化参数、结构参数、量化参数及拓扑学参数等描述符,借助数理统计方 法描述一组化合物的活性性质与上述结构特征间的定量依赖关系。其基本假设 是:化合物的性质依赖其结构,可表述为: p = f ( s )( 1 1 ) 这里,p 表示分子可测定的物理、化学、药理或毒理学性质,s 可以为分子 的理化参数、结构参数、量化参数及拓扑学参数等。 q s a r q s p r 研究的步骤和研究目的可参见图1 1 。 图i 1 、q s a r q s p r 研究的步骤和研究目的 f i g u r ei im e t h o d o l o g ya n dg o a l so fq s a r q s p rs t u d i e s 本世纪六十年代,由h a n s e h 和f r e e w i l s o n 等1 ,2 1 运用统计方法并借助计 浙江大学理学硕士学位论文第6 页 第一章绪论 算机技术建立的结构一活性关系表达式,标志着q s a r 时代的开始。几十年来,q s a r 研究无论在药物设计、环境化学以及化学的各个领域中的应用都十分的广泛, 而且随着计算机技术的发展与应用,o s a r 的应用范围不断扩大,己由营日的二 维平面分析跃进三维空问研究,并目益成熟。相关研究现状可参见一些专著“ 神和综述性文章( “7 “,。 定量结构一保留相关关系( q s r r ,o u a n t i 招r i v es t r u t t u r e - r e t e n t i o n r e l a t i o n s h i p ) 是对色谱保留值与溶质分子结构间定量关系进行研究的一门新课 题,是特定的色谱范围内的结构一性质相关o “。它所用的方法来自q s a r 研究, 即运用化合物的理化参数、结构参数、量化参数及拓扑学参数等描述符,借助 数理统计方法描述一组化合物的色谱保留参数( 如气相色谱中的保留指数r i 、 液相色谱中的容量因子的对数值l o g k + 、薄层色谱中的保留参数r 。等) 与溶质分 子的上述结构特征间的定量依赖关系。我们都知道,色谱的保留值是关于溶质 化学结构、温度、固定相和流动相性质的函数,它们之问彼此相互作用,但我 们可以保持温度、圃定相、流动相等实验条件的恒定( 至少可以加以控制) ,从 而使溶质的结构成为该体系的唯一变量。而且,色谱技术可以提供大量准确的 具有重复性的有价值的数据。因此,色谱对研究定量结构一性质相关及分子内相 互作用是十分理想的体系。 q s r r 的研究对预测保留值选择分离条件及探索色谱保留保留机理都有重 要意义。从1 9 7 7 年开始,定量结构一保留相关研究的文章开始陆续出现。目前, q s r r 已成为色谱科学的一个新的研究分支领域。 应该指出的是,q s a r 或q s r r 研究有两个前提: ( 1 ) 假定化合物的结构和性质之间存在一定的关系,并且根据已知化合物 结构一性质数据建立的函数或模型可以外推至新的化合物。 ( 2 ) 化合物的结构可用适当的结构描述符来表示。 因此,建立正确的函数或良好的模型和选择能够表征化合物结构的描述符对 q s a r q s r r 方法的成功与否有举足轻重的作用。可以说,q s a r q s r r 研究的核心 问题是方法学问题,包括定量函数关系的建立方法、理论模型的推导和分析方 法、化合物结构的描述方法等等。 二、q s a r q s r r 研究中常用的数理统计方法: 结构一性质定量关系的研究,首先要求对一系列化合物的分子结构和性质参 数数据进行分析,然后以数理统计方法为基础,建立一个能用来表示性质变化 规律或能用来解释所研究体系作用机理的数学模型。 多元线性回归方法( m l r ,m u l t i p l el i n e a rr e g r e s s i o n ) 是q s a r 研究中首 浙江大学理学硕士学位论文第7 页 第一章绪论 先被应用和最主要的统计方法,该方法由h a n s c h 首先用来对系列衍生物的生 物活性数据与相应的亲脂性量度、电子和立体性质建立的关系,是目前q s r r 研 究中使用最多的统计方法。它是对一组数据进彳亍最小二乘法拟合处理并建立函 数关系的过程,当有若干种因素对某一性质有贡献时,可咀用多元回归来处理, 得到如( 1 2 ) 式方程: y _ b o + b t x l + + b 。h ( 1 2 ) 方程表示一个指定的性质参数f 如保留指数) 可以通过统计处理用一套由实验 测定或理论计算得到的分子结构参数( 用托表示) 来定量表示,各个参数前系 数由回归分析确定,在进行计算时,可推导出一些能评价所产生的相关关系的 统计量,如方程的全相关系数r ,标准偏差s ,评价推导方程总体意义的统计量 f 及方程中独立变量之间的相关系数r i i 等。 多元回归分析的最大优点在于得到的模型是具有因果关系的,而且物理意 义明确。然而应该注意两点:首先,全相关系数r 是回归分析中一个非常重要 的指标,用于说明所有变量与应变量之间的线性回归关系的程度,但r 与回归 方程中的自变量个数以及样本数有关。当样本数与变量数接近时,常常有较大 的r 值,特别是当样本数= 自变量数+ l 时,即使这些自变量与因变量并不相关, 亦恒有r = i 。因此,在实际计算中一般要求样本数至少应为自变量数的5 倍。 其次,方程中独立变量之间的相关系数r 。值必须很小,以确保变量的独立 性。r 。;值越大,说明两变量所表征的信息重叠得越厉害。要将变量的个数压缩 到矮小,所拥有的信息又能达到最大,并且要使方程具有一定的稳定性,必要 条件是变量间相互独立或正交。对于严重相关的两变量,可剔除与因变量相关 系数较小者,或计算步骤较复杂者,或物理意义欠明确者。 也就是说,应用多元回归分析须满足“”:( 1 ) 描述符变量( 参数) 间是正交 的丽且( 2 ) 样本数必须大于描述符的数目,至少为描述符数的5 倍以消除偶然 相关的影响。些报道的q s r r 最佳回归方程由于不能满足上述两个条件而不具 有实用性和预测性。 随着现代电子计算机技术的飞速发展,应用于q s a r 研究领域的数学方法也 有了很大发展,如主成分分析、因子分析、判别分析、聚类分析、模式识别、 人工神经网络等多变量分析方法越来越多地得到应用。这些方法各有其优点, 且相互间又有联系。 所谓主成分分析( p c a ,p r i n c i p l ec o m p o n e n ta n a l y s i 曲,是首先采用主成 分分析析方法将原变量进行转换,使少数几个新变量是原来变量的线性组合, 将数据降维,而这些新变量要尽可能多的表征原变量的数据结构特征,且新变 量之间不相交,即正交,然后用多元回归分析进行数学模型的构造。因为新变 浙江大学理学硕士学位论文第8 页 第一章绪论 量榴互正交,所以用主成分分析得到的数学模型比较稳定,并能较为有效地解 决所选的参数间存在着不同程度的相关造成信息叠加而掩盖了要分析的问题本 质的情况,如申琦等 1 ”在应用定量结构性质相关对脂肪醇、醛、酸、胺的色谱 保留值进行预测时采用主成分回归,经过对变量选择的讨论,使统计参数( r , s ,f ) 优于多元回归分析,得到的数学模型更精确、更稳定。 因子分析( f a ,愚c t o ra n a l y s i s ) 和主成分分析相当类似,是对具有复杂相 关关系的多个原始变量利用相关系数矩阵,以少数几个互不相关的主因子来代 表原始变量所提供的信息,使问题便于归纳。王岳松等“期以不同比例的己烷一 乙酸乙酯为展开剂,在硅胶板上测定了2 4 种苯酚和苯胺类衍生物的比移值r 。 通过方差最大正交旋转和p r o m a x 斜旋转,由p y k a 指数( o b ) 、g u t m a n 指数( m ) 和化合物的比移值( r f ) 求得化合物的斜交因子得分值。在因子得分图上,将 这2 4 种苯酚和苯胺类衍生物分为具有不同特征的两大类,再分别对两类化合物 用m 、。b 和r ,值进行多元线性回归分析,得到的方程能较好地描述两类化合物 的色谱保留值与它们的分子结构之间的关系。又如l o c h m u l l e r 等“钉采用主成 分分析和目标转换因子分析( t t f a ) 对3 5 个苯衍生物不同溶剂体系下的液相色 谱保留行为进行了表征和预测。 聚类分析是一种多元统计分类方法,用该法可以对一群不知类别的观察对 象按彼此相似的程度进行分类。在q s r r 研究中应用聚类分析法能将不周的化合 物或不同的取代基或不同的结构信息参数等观察对象进行分类,使相似的化合 物或相似的取代基或相似的结构信息分别“聚”在一起,达到“物以类聚”的 目的。利用聚类分析有助于挑选变量,分析影响保留行为的因素。 判别分析在多元统计分析中也属于数值分类法,但与聚类分析有所不同, 在判别分析中用以建立判别函数的数据事先已知所属的类别,而聚类分析的数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 政治会考题目及答案高中
- 2026数据中心机房建设整体解决方案
- 户用超声波热量表在碳普惠平台中的个人减碳量核算
- 金峰豪庭水土保持方案报告表
- 祁门豆花鸡开发与利用项目水土保持报告表
- 体内各器官囊性疾病的研究进展总结2026
- 新生儿窒息课件中职《儿科护理》同步教学(北京出版社)
- 2026服务端面试题及答案
- 2026年AI系统优化蔬菜溯源管理
- 2026安全厂家面试题及答案
- 2026年初级经济师之初级经济师工商管理从业资格考试真题及参考答案详解AB卷
- 公司培训基地建设方案
- 小学项目式学习本土化实践-基于 2023 年小学项目式学习案例库
- 2026年湖北高考物理考试试题及答案
- 2026年危险化学品重点县专家指导服务自查表
- 代煎中药评估考核制度
- 厂中厂安全培训教学课件
- 2026年1月浙江首考英语真题(原卷版)
- 水资源保护规划编制规程(2025版)
- 2026年高考全国II卷历史真题解析含答案
- 宁夏黄河农村商业银行流动性风险管理:现状、挑战与优化策略
评论
0/150
提交评论