(分析化学专业论文)定量结构—活性性质关系研究方法在毛细管电泳中的应用研究.pdf_第1页
(分析化学专业论文)定量结构—活性性质关系研究方法在毛细管电泳中的应用研究.pdf_第2页
(分析化学专业论文)定量结构—活性性质关系研究方法在毛细管电泳中的应用研究.pdf_第3页
(分析化学专业论文)定量结构—活性性质关系研究方法在毛细管电泳中的应用研究.pdf_第4页
(分析化学专业论文)定量结构—活性性质关系研究方法在毛细管电泳中的应用研究.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(分析化学专业论文)定量结构—活性性质关系研究方法在毛细管电泳中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要全文共分六部分,主要综述了定量结构一活性性质关系研究方法及相关化学计量学方法的原理及其在分析化学中的应用;研究了芳香酸类化合物及其毛细管电泳行为之间的定量结构一性质关系建模的方法;人工神经网络方法用于优化毛细管电泳分离条件;以及定量结构一性质相关性研究方法在烷基铵离子相转移自由能方面的应用。第一章综述了定量结构活性性质关系研究概况、历史及其在化学中的应用。第二章介绍了定量结构一性质关系方法在毛细管电泳研究中的应用。第三章是对本文中涉及到的化学计量学方法的简单介绍。在第四章中,以量子化学参数以及分子联接性指数作为分子结构参数。分别应用逐步回归和遗传算法对计算所得分子结构参数进行选择,根据选择所得参数作为输入变量,用误差反向传输人工神经网络方法建立了苯甲酸及其衍生物共2 6 种化合物的结构与其电泳淌度之间的定量结构一性质关系模型。检验模型的预测能力,所得结果证明建立的模型对未知样本具有较为准确的预测能力。在第五章中,用人工神经网络方法初步探讨了毛细管电泳的分离条件与分离结果之间的关系。所得结果表明分离条件与分离度、迁移时间之间存在一定的定量相关关系。用人工神经网络方法建立的模型可以较好地反映这种定量关系,并且可以在一定范围内根据分离条件较为准确的预测分离结果。利用此定量模型可以实现对电泳分离条件的选择与优化。在第六章中,分别采用多元线性回归和人工神经网络方法建立了烷基铵离子的结构与其从水相到硝基苯相的标准相转移自由能的定量相关模型。结果说明采用多元线性回归和人工神经网络方法都是建立化合物的结构与其标准相转移自由能的定量关系模型的可行、有效的方法。比较两种建模方法的结果,人工神经网络具有优于多元线性回归的预测能力,但多元线性回归方法更为简单、易用。关键词:定量结构一活性性质相关,人工神经网络,遗传算法,逐步回归,多元线性回归,毛细管电泳,相转移自由能,分离条件的优化。a b s t r a c tt h e r ea r ea l t o g e t h e rs i xp a r t si nt h i sd i s s e r t a t i o n i nt h ef i r s tp a r t ,t h eh i s t o r y ,d e v e l o p m e n ta n da p p l i c a t i o no fq s a r q s p r & r ei n t r o d u c e d i nt h es e c o n dp a r t ,t h ea p p l i c a t i o no fq s p ri nc a p i l l a r ye l e c t r o p h o r e s i si sr e v i e w e d t h et h i r dp a r ti st h ep r e s e n t a t i o no f t h ec h e m o m e t r i c sm e t h o d sw h i c ha r eu s e di nt h i sd i s s e r t a t i o n i nt h ef o u r t hp a r t ,t h ea p p l i c a t i o no fe r r o rb a c kp r o p a g a t i o na r t i f i c i a ln e u r a ln e t w o r k st ot h ep r e d i c t i o no f t h em o b i l i t yo f as e r i e so f b e n z o i ci sp r o p o s e d t h ei n p u tv a r i a b l e so ft h en e u r a ln e t w o r k sa r es e l e c t e df r o m1 5q u a n t u mc h e m i c a lp a r a m e t e r sa n dm o l e c u l a rc o n n e c t i v i t yi n d e xo ft h e s ec o m p o u n d s t w ov a r i a b l es e l e c t i o ns t r a t e g i e s ,s t e p w i s er e g r e s s i o na n dg e n e t i ca l g o r i t h m ,a r eu s e d t h ep r e d i c t i v ea b i l i t yo ft h eg e n e r a t e dm o d e lw a se v a l u a t e d t h er e s u l t so ft h ee v a l u a t i o nd e m o n s t r a t et h ev a l i d i t yo f t h em o d e l i nt h ef i f t hp a r t ,t h ea r t i f i c i a ln e u r a ln e t w o r k s ( a n n ) w a sa p p l i e dt ot h eo p t i m i z a t i o no f t h es e p a r a t i o nc o n d i t i o n si nc a p i l l a r ye l e c t r o p h o r e s i s t h ee f f e c to f t h eb u f f e rc o n c e n t r a t i o n ,s u r f a c t a n tc o n c e n t r a t i o n ,p hv a l u e ,a p p l i e dv o l t a g ea n do r g a n i cm o d i f i e rc o m p o s i t i o no nt h es e p a r a t i o nw a se x a m i n e db yu s i n go r t h o g o n a ld e s i g n t h ep r e d i c t i o nm o d e lb a s e do na n nw a sb u l b ,a n dt h eo p t i m u ms e p a r a t i o nc o n d i t i o n sw e r ep r e d i c t e ds u c c e s s f u l l yi nt h el a s tp a r t ,q s p ri sa p p l i e dt oc a l c u l a t et h es t a n d a r dp h a s et r a n s f e re n e r g yf o rp r o t o n a t e da m i n e si o n s t h er e s u l t ss h o wt h ev a l i d i t yo fb o t ht h em u l t i p l el i n e a rr e g r e s s i o n ( m l r ) a n dt h ea n nm o d e l s t h er e s u l t so b t a i n e du s i n ga n nw e r ec o m p a r e dw i t ht h ee x p e r i m e n t a lv a l u e sa sw e l la sw i t ht h o s ef r o mm l r c o m p a r i s o no ft h er e s u l t sd e m o n s t r a t e st h es u p e r i o r i t yo ft h ea n nm o d e l so v e rt h er e g r e s s i o nm o d e l s k e y w o r d s :q s a r q s p r ,a r t i f i c i a ln e u r a ln e t w o r k s ,g e n e t i ca l g o r i t h m ,s t e p w i s er e g r e s s i o n ,m u l t i p l el i n e a rr e g r e s s i o n ,c a p i l l a r ye l e c t r o p h o r e s i s ,s t a n d a r dp h a s et r a n s f e re n e r g y , s e p a r a t i o no p t i m i z a t i o no f c a p i l l a r yz o n ee l e e t r o p h o m s i s西北大学学位论文知识产权声明书本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文章一律注明作者单位为西北大学。保密论文待解密后适用本声明。学位论文作者签名:熊挖2 0 0 5 年5 月1 0 日特捌磁较力2 0 0 5 年5 月l o 日f独创性声明本人申明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其他教育机构的学位或证书而使用过的材料,与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确说明并表示谢意。学位论文作者签名:缒龙,j2 0 0 5 年5 月1 0 目第一章定量结构活性性质关系研究在化学中的应用和进展1 1 引言化学计量学是一门化学与统计学、数学、计算机科学交叉所产生的新兴的化学学科分支。它运用数学、统计学、计算机科学以及其他相关学科的理论与方法,优化化学量测过程,并从化学量测数据中最大限度地提取有用的化学信息。化学计量学为化学量测提供理论和方法,为各类波谱及化学量测数据的解析,为化学化工过程的机理研究和优化提供新途径,它涵盖了化学量测的全过程【l 】。化学计量学研究的内容相当广泛,包括统计学方法、最优化方法、信号处理、因子分析、分析信号的校正与分辨、模型化与参数估计、结构与活性一性质相关、采样理论与方法、试验设计与化学化工过程优化控制、化学模式识别、人工智熊、化学过程和化学量铡等丰富的内容翻。另外,化学与分析化学中大量涌现的现代化学量测仪器,使化学与分析化学者比以往任何时候都更容易获得大量化学量测数据。如何从这些数据中提取所需的有用化学信息成为分析化学家目前面临的问题。其中定量结构- 活性胜质关系的研究一直就是化学计量学研究的重要内容i l 】。定量结构一活性性质关系( q u a n t i t a t i v es t j - u c t u r e a c t i v i t y p r o p e r t yr e l a t i o n s h i p ,q s a i u q s p r ) 研究是在一系列化合物的结构与活性及性质之间建立起数量上的依赖关系( 数学模型) ,借以指导新化合物的合成及预测未知物的生物活性和物理化学性质,是计算机在化学中应用的一个特别活跃的领域【3 】o定量结构活性关系( q u a n t i t a t i v es t r u c t u r e a c t i v i t yr e l a t i o n s h i p ,q s a r ) 和定量结构性质关系( q u a n t i t a t i v es t r u c t u r e - p r o p e r t yr e l a t i o n s h i p ,q s p r ) 这两种定量结构一活性性质关系研究现在已经成为化学计量学的一个重要分支,随着化学计量学的发展,将q s p r 的研究提高到了一个新的水平,近年来得到了很大的发展。大量的研究文章已在目前很多重要的国际刊物发表,这些刊物包括:a n a l y t i c a lc h e i i l i s t r y , j m e d i c i n a lc h e m i s t r y , f u n d a m e n t a l so fa p p l i e dt o x i c o l o g y , d r u gi n f o r m a t i o nj o u r n a l ,e n v i r o n m e n t a lh e a l t hp e r s p e c t i v e s ,j o u r n a lo fp h a r m a c e u t i c a ls c i e n c e 等【1 1 。定量结构一活性性质关系研究的基本恩想是:分子是构成物质的基础结构,化合物内部分子结构特征及分子间的组合方式等结构信息决定了化合物所表现的性质,也就是说,化合物的理化性质,生物活性等都是以分子为主体来表示和解释的。因此,可以通过对化合物分子结构的研究来达到对其性质的预测f 4 j 。定量结构- 活性性质关系的研究实际上是涉及了化学学科一个带根本性的问题即如何从物质的化学成分与结构定量预测其化学特性【”。量子化学研究的一个重要目的就是要直接从微观的角度来回答这样的问题。目前,量子化学已取得令人注目的成就,但对于复杂的分子进行量子化学计算尚有一定困难。由于这一原因,大量的化学研究仍处于一种“定性”的水平。而当前化学计量学中的定量结构- 活性性质关系研究则是从宏观的角度出发,直接从试验数据或某些量子化学的结构数据出发,采用统计学和模式识别的方法来建立起某些化学结构与性能的关系。定量结构- 活性性质关系的研究可以追溯到2 0 世纪中期,有机反应性相关分析( c o r r e l a t ea n a l y s i so f o r g a n i cc h e m i s t r y , c a o c ) 这一研究领域就可看作是定量结构活性性质关系研究的前身1 4 1 。h a n s c h 5 1 等于二十世纪六十年代提出的h a a s c h 多元回归方法研究化合物的性质或活性与其结构之间的关系普遍被认为是经典q s a r 研究的开始。其后陆续出现了f r e e - w i l s o n 加合模型,模式识别,拓扑指数,分子模型化( m o l e c u l a rm o d e l i n g ) 和量子化学方法等许多研究方法1 6 。q s a r q s p r 研究的核心是方法学问题f 4 】,其中包括化合物结构的描述方法,理论模型的推导方法,函数关系的建立方法等。近年定量结构活性性质关系研究呈现出以下几个特点1 4 】:( 1 ) 综合性:定量结构活性性质关系主要采用数学方法和计算机技术研究化合物结构与其活性、性质之间的定量函数关系,因而它是一个覆盖了化学、数学、计算机科学生命科学的交叉学科。( 2 ) 理论性:早期的q s a r q s p r 研究往往比较注重定量结构一活性性质相关模型的预测能力,只要能得到良好的预测结果就可以了。而近年的定量结构- 活性性质关系研究则更注重定量模型的理论性,人们期望一个成功的相关性模型,能够从本质上揭示和描述化合物的性质及活性的作用机制。2( 3 ) 智能化:化合物的q s a r q s p r 关系是一个复杂的关系,一个q s a r q s p r 模型的建立往往是基于对大量化合物的分析,包括化合物参数的计算,需要从诸多参数中筛选对化合物活性或性质有显著影响的变量,以及在化合物结构参数与性质之间建立满意的运算关系等。分析工作非常繁杂。必须借助先进的多变量分析方法。因此,判别分析、聚类分析、模式识别、人工神经网络、回归分析、遗传算法等善于出来复杂问题的方法被越来越多地应用于q s a r q s p r 研究,促使其向智能化方向发展。( 4 ) 实用化:随着工业的发展,越来越多的人工合成化台物被生产出来,通过实验方法对化舍物进行全面的测定,评价是一个需要耗费大量时间和资金,并且具有一定危险性的过程,而q s a r q s p r 可以对化合物的活性、性质做出预测,为化合物的测定、评价提供了一种简便、实用的途径。1 1 2q s a r q s p r 研究方法的应用进展q s a r 研究方法可以应用于化学与生命科学中的多种领域。在新药开发中通过计算机辅助分子设计( c o m p u t e r - a i d e dm o l e c u l a r d r u gd e s i g n ,c a m d ,c a d d ) ,建立药物的效力即活性与结构的定量关系即定量结构活性关系,可以加快新药开发的效率,解决传统的普遍筛选方法由于效率低,周期长,与开发新药的要求不相适应的问题【一。在建立化学品性质、毒性数据库中,q s a r 是一个必要组成部分。化合物的化学性质、生物活性测试过程费钱耗时,建立q s a r q s p r 模型有助于从已经测定的数据中最大限度地获取有用信息。q s a r p q s p r 模型的建立不仅使得数据库具有预测功能,而且可以发现数据中偏离定量模型的“可疑数据”。而这些可疑数据的发现往往又帮助人们揭示了一些更为重要的规律【4 1 。在食品科学中,由于食品中成分复杂,对其生物活性的评价是一项巨大的工程,引入q s a r q s p r 方法,能大大提高食品成分毒性和功能性的预测能力,而且能更有目的地开发一些新的添加剂【射。对于新产品的开发,评测具有很大的帮助作用。在分析化学中,q s a r q s p r 方法最常见于对于色谱保留值的预测以及毛细管电泳行为的预测。从1 9 7 7 年开始,q s a r q s p r 方法在色谱中应用的文章开始出现,称之为定量结构一保留相关( q u a n t i t a t i v es t r u c t u r e r e t e n t i o nr e l a t i o n s h i p ,q s r r ) 。目前,q s r r 已成为色谱科学的一个新的研究分支领域【4 1 。通过结构与保留的关系研究,可以对一个新溶质的保留进行预测;确定溶质的最有用的结构信息;揭示色谱分配的分子机理;估算溶质复杂的物理化学性质;以及对一系列溶质的相对生物活性进行预测。毛细管电泳具有和色谱相似的性能,因此,近年q s a r q s p r 方法在毛细管电泳中的应用也在逐步展开【9 】。毛细管电泳在分析化学、生物化学、药物化学、食品化学、环境化学及医学等领域得到广泛的应用。由于毛细管电泳技术的复杂性和局限性【l “,当研究一种实验方法时,为了能使混合物中各组分得到分离、分析,大量的时间和精力用于分析条件的优化。因此,发展能够估算被分析物质在毛细管电泳中淌度的理论模型具有相当的实际意义与价值【1 1 】。定量结构性质关系方法已经成为一种能够处理许多复杂化学问题的强有力的化学计量学方法。另一方面,分析科学的快速发展已对毛细管电泳法提出了更高的要求,作为重要的分离、分析手段,毛细管电泳在实际中的应用也要求对于被分析物质的结构与其在毛细管电泳中的电泳行为相关性的机理进行深入的研究。可以预见,在加深对毛细管电泳中电泳行为的机理与应用的研究中,q s a r q s p r 方法将成为一种有力、有效的工具,已经和必将在这一领域发挥重要作用【9 l 。4参考文献125678 9 1 01 1梁逸曾,俞汝勤化学计量学高等教育出版社,北京,2 0 0 3 :2 5 7m o t t o 著邵学广蔡文生徐筱杰译化学计量学统计学与计算机在分析化学中的应用( c h e m o m e t r i c s :s t a t i s t i c sa n dc o m p u t e ra p p l i c a t i o ni na n a l 蛐c a lc h e m i s t r y ) 科学出版社,北京,2 0 0 3 :2章文军,许禄应用化学2 0 0 1 1 8 ( 3 ) :1 8 8王连生,韩朔睽,等分子结构、性质与活性化学工业出版社第一版北京1 9 9 7 :9h a n s e hc ,f u j i t at j o u r n a lo f a m e r i c a nc h e m i c a ls o c i e t y ,1 9 6 4 ,8 6 ( 3 ) :1 6 1 6许禄化学计量学科学出版社北京1 9 9 5 :2 7 7周卫红,苗志伟,文欣,刘小兰,缪方明天津师大学报( 自然科学版)1 9 9 9 ,1 9 ( 3 ) :3 5郭新竹,宁正祥食品科学2 0 0 1 。2 2 ( 1 2 ) :7 8焦龙,张雅雄,李华药物分析杂志2 0 0 4 2 4 ( 增刊) :9 8a l t r i a d ,k e r s e y m t l c - c r c n t 1 9 9 5 ,8 ( 4 ) :2 0 1m j m a l i - h e m v i ,z g a r k a n i - n e j a d j o u r n a lo fc h r o m a t o g r a p h ya 2 0 0 2 9 7 1 ( 2 ) :2 0 7第二章定量结构性质相关性研究在毛细管电泳中的应用综述定量结构性质相关性研究( q u a n t i t a t i v es 仃u c t u r e - p r o p e r t yr e l a t i o n s h i p ,q s p r )是h a i l s c h 【1 1 等于二十世纪六十年代提出的,研究化合物的性质或活性与其结构之间的关系。q s p r 采用数理统计等方法,揭示化合物的活性、性质与结构特征的变化规律,并以某种数学模型概括和表达构效关系的量变规律【2 1 。q s p r 是化学计量学的一个重要分支,随着化学计量学的发展,将q s p r 的研究提高到了一个新的水平,近年来得到了很大的发展。大量的研究文章已在目前很多重要的国际刊物发表,这些刊物包括:a n a l y t i c a lc h e m i s t r y , j m e d i c i n a lc h e m i s t r y , f 硼l d 锄e n 诅l so fa p p l i e dt o x i c o l o g y , d r u gi n f o r m a t i o nj o u r n a l e n v i r o n m e n t a lh e a l t hp e r s p e c t i v e s ,j o u m a lo f p h a r m a c e u t i c a ls c i e n c e 等。2 1 分子结构的表征在q s p r 研究中,用某些结构参数表征被研究化合物结构信息,然后建立这些参数与化合物性质之间的数学模型。这些用来表征化合物结构信息的参数称之为描述符( d e s c r i p t o r ) 。常见描述符主要有三类:物理化学参数( p h y s i c o - o h e m i c a ld e s c r i p t o r s ) 、拓扑指数参数( t o p o l o g i c a li n d i c e sd e s c r i p t o r s ) 和量子化学参数( q u a n t u mc h e m i c a ld e s c r i p t o r s ) 【4 】。2 1 1 物理化学参数经典q s a r 研究【5 】中使用的描述符多是物理化学参数,如摩尔体积、沸点、蒸汽压、水溶度、离解常数、分配系数等。严格意义上说,这些研究更应该称为一种“性质一性质”相关性研究或是“性质一性质”研究与“结构一性质”研究的结合,而不属于纯粹的“结构一性质”相关性研究【4 l 。近年这方面的研究与应用的进展可以参见文献1 6 】。由于化合物数量非常庞大,对于物理化学参数而言,逐一测定物理化学参数是过于繁重和高成本的工作,并且很多物理化学参数数据难以测得,所以物理化学参数的应用有很大的局限性【7 l a2 1 2 拓扑指数拓扑指数作为一种能够反映化合物分子结构的特征变量,是将化合物的分子6结构图抽象为一种可以用数字来表示的数值量,以此来反映化合物分子的结构特征【7 1 。拓扑指数的种类非常多,根据b a l a b a n 在一篇评论嗍中指出,大约存在一百多种分子拓扑指数比较常见的有:w i e n e r 指数( w i e n e rt o p o l o g i c a li n d e x ) 州、分子连接性指数( m o l e c u l a rc o n n e c t i v i t yi n d e x ) 【1 0 1 、分子i d 指数( m o l e c u l a ri d e n t i f i c a t i o nn u m b e r , m i d n ) 1 1 l 、苏尔兹分子拓扑指数( s c h u l t zm o l e c u l a rt o p o l o g i c a li n d i c e s ,m t i ) 1 2 o拓扑指数的优点在于形式简单、计算简明,能够反映化合物的结构信息。应用效果好,一直在q s a r 领域广泛使用n b l 。但拓扑指数也有一定的局限性,在拓扑指数中总存在有“退化”( d e g e n e r a c y ) 现象,即不同的结构会计算得到相同的指数,这说明在用拓扑指数表达分子结构信息时有一定的信息丢失【4 】。并且大部分拓扑指数缺少明确的物理化学含义,所得相关模型需要进行有效性检验,以避免得到无实际意义的偶然相关关系【l ”。有关拓扑指数在q s p r 中的应用可以参见文献【l3 1 。2 1 3 量子化学参数量子化学参数是通过量子化学理论计算得到的分子参数【4 】。目前使用最广泛的量化参数有4 4 种,可以分为4 类:原子电荷,轨道参数,能量参数,极化率和偶极矩1 5 】。精确计算量子化学参数的常用方法有半经验算法( s e m i - e m p i r i c a lm e t h o d ) 和从头计算方法( a bi n i t i om e t h o d ) 【1 6 1 。量化参数的优点在于易于得到,物理意义明确,可以准确的描述分子的性质与状态【1 7 】。因为这些优点。量化参数当前已经被广泛应用与q s r p 研究中1 8 1 。量子化学参数的不足之处在于在不同的理论体系中,同一化合物的同一参数计算所得的数值也不一定相同,甚至于某些参数在其他的理论体系中毫无意义( 如h o m o 在价键理论中就无意义) 【4 】。这就在一定程度上限制了它的普遍适用性与兼容性。并且化合物的结构一性质关系影响因素较多,用量子化学计算太复杂,计算薰太大难以广泛应用【3 l 。2 2 数学模型的建立定量结构一性质关系研究的目的在于用描述符定量的表征分子结构信息,用这些表征分子结构的数据构成x 矩阵,而将一些通过化学量测所得的化合物的物理、化学、生物性质的数据来构成目标响应的y 矢量或y 矩阵,通过采用一些数学方法,如多元回归方法、模式识别方法、人工神经网络方法,建立起x与y 或y 之间的数量关系或数学模型【3 1 。当前研究中常见的数学方法有线性回归分析( l m e a rr e g r e s s i o n a n a l y s i s ,l r a ) 、主成分分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) 、偏最小二乘( p a r t i a ll e a s ts q u a r e s ,p l s ) 、人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ,a n n ) 等 1 9 - 2 1 】。2 1 2 线性回归分析由一个或一组非随即变量来估计或预测某一个随即变量的观察值时,所建立的数学模型及所进行的统计分析,称为回归分析( r e g r e s s i o n a n a l y s i s ) 。如果这个模型是线性的就称为线性回归分析翊。具有相关关系的变量间虽然不一定具有确定的函数关系,但是可以借助线性函数关系表达它们之间的统计规律性。线性回归是处理变量间相关关系的有力工具,是数理统计中一种常用的方法田l 。它可以建立变量问的数学表达式,即经验公式:还可以根据统计原理判断经验公式的有效性。线性回归在q s p r 研究中使用广泛,有简易的优点。然而由于分子结构与性质之间的关系的复杂性,结构与性质之间很少有简单的线性关系,常常是非线性的关系,使单纯的线性方法只能近似的反映结构与性质之间的关系。因而线性回归方法存在容错能力低、预测能力较差等缺点1 2 叭。2 2 2 主成分分析主成分分析( p c a ) 是把原来多个变量化为少数几个互不相关的新变量的一种多元统计方法【2 1 。p c a 的中心目的是将数据降维。主成分分析根据线性映射原理,从大量的原有参数出发,通过降维映射的方法,构造成较少的新变量,每个新变量都是原有各变量的线性组合,同时这些新变量要尽可能多地表征原变量地数据结构特征而不丢失信息。因此,保留几个包含主要信息的变量作为近似系统识别的新变量,从而达到减少变量个数的目的,实现系统识别特征简化【2 4 】。主成分分析方法的应用中,最为重要的是对主成分的具有实际意义的合理解释。如果计算结果不能很好地解释原始数据就应作更进一步的分析,如分析原始数据中是否有特异数据:或者增加或者减少某些原始数据:或者在主成分分析的基础上再进行因子分析;甚至也可能该问题并不适宜使用主成分分析口射。主成分分析可以识别系统中的重要因素,剔除其中的冗余信息,达到数据简化、揭示变量之间的内在关系、以及进行统计解释的目的,为进一步分析总体的性质和数据的统计特性提供重要的信息【2 6 1 。主成分分析的缺点主要在于:由于主成分的个数少于原始变量的个数,这就有可能造成原始数据中某些重要信息的丢失;对主成分的合理解释相对比较困难【2 5 1 ,不易有明确的物理化学解释。主成分分析在q s p r 研究中能起到对样本集数据压缩从而进行变量选择的作用牡7 1 。2 2 3 偏最小二乘法偏最t j 、- - 乘法( p l s ) 是s j o s t r o m 和w b l d 田】于1 9 8 3 年提出的一种化学计量学方法。p l s 对x 矩阵与y 矩阵同时进行正交分解,为一同时进行分解的特征变量回归法。将p l s 用于有机合成、q s p r 是化学计量学研究的一个重要内容引。偏最小二乘法与主成分分析同样采用了成分提取的思路,与主成分分析相比,不同之处在于偏最小二乘法在提取新的综合变量时,要求这些综合变量和因变量的相关程度达到最大。这表明,一方面新的综合变量要尽可能的代表原始变量集合的信息,另一方面这些综合变量又要对因变量有最强的解释能力。偏最小二乘回归提取的综合变量之间也保持正交关系,即几个变量之间互不相关口9 】。因为p l s 所提取的主成分能尽可能多地反映原变量系统的信息,并且能够保证各主成分对因变量具有最好的相关性。由于各主成分之间是相互正交的,所以它能很好地避免x 矩阵中自变量多重共线性造成的影响口0 1 。p l s 能够处理奇异性描述变量( 独立变量) 矩阵,即描述变量多于化合物数或变量多于样本的场合 2 0 1 。偏最小二乘法可用在单一因变量和多因变量的情况下,适用范围广泛 3 l 】。但是,p l s 方法对于数据中存在的偏离点( o u t l i e r ) 是非常灵敏的,这能导致整个模型缺乏预言能力。可以结合其他算法对p l s 方法进行改进【3 2 1 。2 2 4 人工神经网络“人工神经网络【3 3 1 ( a r t i f i c i a ln e u r a ln e t w o r k s , a n n ) 又称神经网络,是由大量的、同时也是很简单的处理单元广泛连接构成的复杂网络系统【3 4 】。人工神经网络是一种非线性的数学模型,通过不断的“学习”过程,神经网络通过不断调整各个神经元之间的连接权重和偏置( b i a s ) ,从而使误差函数达到最小值。当完成对网络的训练之后,向网络输入一组特定的输入值,则网络能通过对该组输入值的特征和概括与提取,进而给出其相应的输出值【3 ”。人工神经网络在q s a r q s p r 研究中,主要应用于精确值的计算,化合物分类以及材料的分子设计【3 4 】。由于人工神经网络的非线性映照的特性,能够解决在一些经典的回归方法和模式识别方法难于解决的问题,使得它在q s p r 研究中独具魅力,因而近年来在q s p r 的建模中得到了十分广泛的应用,是一个值得继续研究的领域【3 2 1 1 。人工神经网络的应用还存在一定的问题,如:神经网络输入与输出之间无明确的函数关系,难以对所得到的预测结果进行物理、化学意义上的合理解释;人工神经网络的结果依赖于其结构特征,但人工神经网络( 如b p 人工神经网络)的网络结构确定无标准算法,是依靠经验方法来确定【2 】。2 3 毛细管电泳中的结构一性质关系研究毛细管电泳( c a p i l l a r ye l e c t r o p h o r e s i s ,c e ) 是一种高效分离分析技术,近十几年来发展很快。它具有高效( 理论塔板数高达1 0 6m 1 ) 、快速( 分析时闻一般为十几分钟至几十分钟) 、进样体积小( 一般为l l l 级) 等特点【3 6 1 。毛细管电泳在分析化学、生物化学、药物化学、食品化学、环境化学及医学等领域得到广泛的应用。由于毛细管电泳技术的复杂性和局限性”】,当研究一种实验方法时,为了能使混合物中各组分得到分离、分析,大量的时间和精力用于分析条件的优化。因此,发展能够估算被分析物质在毛细管电泳中淌度的理论模型具有相当的实际意义与价值网。近年,分子结构与其毛细管电泳行为的定量结构性质的相关性研究有了较大进展,多种数学方法用于建立化合物结构与其毛细管电泳淌度之间的相关性关系。最为常用的是线性回归法,j o u y b a n 等 3 9 1 运用多元线性回归方法分析了安息香酸盐( b e n z o a t e s ) ,b 一环糊精( b e t a - b l o c k e r s ) ,胺类( a m i n e s ) 等物质的淌度与其量子化学参数间结构一性质的相关性,得到了线性的回归方程,所得预测结果与实验值的相对平均偏差小于7 2 。l i a n g 等t 4 0 l 运用多元线性回归方法对1 3种类黄酮药物的电泳淌度与其拓扑指数进行了相关,得到了比较好的线性模型,其预测误差均小于1 0 。其他各种数学建模方法在毛细管电泳的q s p r 研究中也已经被广泛采用。l i0等f 4 l 】运用e d b d 人工神经网络( e x t e n d e dd e l l a - b a r - d e l t aa r t i f i c i a ln e u r a ln e t w o r k s ,e d b da n n ) 研究了4 1 种胺( a m i n e s ) 类化合物以及1 3 种脂肪酸( a l i p h a t i ce a r b o x y l a t e s ) 的绝对淌度与分子结构的定量相关关系,所得各化合物预测结果与实验值的相对误差都小于5 5 2 。t i m e r b a e v 等 4 2 1 采用非线性回归( n o n l i n e a rr e g r e s s i o n ) 的方法对多种金属的配合物在毛细管电泳中的电泳行为与金属离子、配位体两者的结构性质做了相关行研究,得到了预测能力较好的非线性数学模型。1 j 瑚e r b v 和s e m e n o v a 4 3 】应用多变量回归分析方法( m u l t i - 口掘瞄e 硒cr e g r e s s i o na n a l y s i s ) 对镧系金属的有机配合物在毛细管电泳中的淌度与配体结构、缓冲液性质的相关性进行了研究,给出了单一因素与电泳淌度之间的回归方程。由于被分析物质的结构与毛细管电泳淌度之间关系的复杂性,因而单一用一种数学方法来建立结构一性质关系的模型的能力比较有限,现在很多化学工作者采用了多种数学方法结合的方法来研究结构与电泳淌度之间的相关关系。s a l o 等m 结合应用聚类分析( c j l l s t e ra n a l y s i s ) 、因子分析( f a c t o ra n a y s i s ) 与线性回归方法研究了甾类激素在r p h p l c 中保留时间和在m e c c 中迁移时间与分子量子化学参数、拓扑指数间的相关关系,在给定条件下可以对保留时间和迁移时间进行比较准确的预测。“和f u 等【4 7 1 等对于一元胺,芳香酸进行了研究,采用l e v e n b e r g - m a r q u a r d t 算法的曲线拟和结合多元线性回归总结了其电泳淌度与分子结构间的非线性数学模型。w o l b a c h 等娜峪合遗传算法、多元线性回归与人工神经网络对手性化合物的毛细管电泳分离问题进行了研究,得到了可以对手性化合物在电泳中的电泳行为进行预铡,以及对手性分离试剂可以进行预先选择的相关性模型。j a l a l i 等1 3 8 , 4 9 1 结合逐步回归( s t e p w i s el i n e a rr e g r e s s i o n ) 与人工神经网络两种方法对a l k e n y l p y r i d i n e s 。s u l f o n a m i d c s 两类物质的分子结构与淌度做了相关性研究,得出了这两类物质的电泳淌度与其量化参数之间的相关性模型。并与采用多元线性方法的结果进行了比较,说明了逐步回归与人工神经网络结合的方法可以得到更好的相关性模型。w a n g 等【5 0 l 应用p c a 方法对描述符进行预处理j 然后采用径向基函数神经网络r b f 神经网络( r a d i a lb a s i sf u n c t i o nn e u r a ln e 柳o r k ,r b fn n ) 研究了1 9 种氯代苯酚( c h l o r o p h e n o l s ) 在8 中不同有机添加剂中的淌度与p m 3 算法所得的量子化学参数之间的关系与m l r 方法建立的这1 9 种化合物的结构一淌度相关关系比较,说明p c a 与r b f 神经网络结合能得到更好的相关模型。2 4 结语定量结构一性质关系方法已经成为一种能够处理许多复杂化学问题的强有力的化学计量学方法。另一方面,分析科学的快速发展己对毛细管电泳法提出了更高的要求,作为重要的分离、分析手段,毛细管电泳在实际中的应用也要求对于被分析物质的结构与其在毛细管电泳中的电泳行为相关性的机理进行深入的研究。可以预见,在加深对毛细管电泳中电泳行为的机理与应用的研究中,q s p r方法将成为一种有力、有效的工具,已经和必将在这一领域发挥重要作用。2参考文献67891 01 11 21 31 41 51 61 71 81 92 02 1h a n s e hc ,f u j i t at ja r tc h e r ts o c ,1 9 6 4 ,8 6 ( 3 ) :1 6 1 6许卫中,钱宗才,梅其炳第四军医大学学报1 9 9 8 ,1 9 :6 3梁逸曾,俞汝勤化学计量学第一版高等教育出版社北京2 0 0 3 2 5 7r a n d i cm j o u r n a lo f m o l e c u l a rg r a p h i c sa n d m o d e l i n g , 2 0 0 1 ,2 0 :1 9h a n s c hc ,l e oa e x p l o r i n gq s a r :f u n d a m e n t a l sa n da p p l i c a t i o n si nc h e m i s t r ya n db i o l o g y1 s te d i t i o n ;a m e r i c a nc h e m i c a ls o c i e t y w a s h i n g t o nd c 1 9 9 5 2l i v i n g s t o n ed j c h e r t 柳:c o m p u t s c l2 0 0 0 ,4 0 ( 2 ) :1 9 5q iy h , x ul y a n gj a c h i n e s ej o u r n a lo f a p p l i e dc h e m i s t r y 1 9 9 9 ,1 6 ( 6 ) :1 7b a t a b a n at jc h e r t 彬c o m p s s c i 1 9 9 2 ,3 2 ( 1 ) :2 3w i e n e rh j a m e r c h e r ts o c 1 9 4 7 ,6 9 ( 1 ) :1 7k i e rlb m o l e c u l a rc o r m e c t i v 砂拥c h e m i s t r ya n dd r u gr e s e a r c k1 s te d i t i o n a c a d e m i cp r e s s ,n e wy o r k , 1 9 7 6 4 6r , 址l d i em j c h e m , t n f c o m p u ls c i , 1 9 8 4 ,2 4 ( 3 ) :1 6 4s c h u l t zhp j c h e m 蟛c o m p u t s c t ,1 9 8 9 ,2 9 ( 3 ) :2 2 7戴家银,靳立军,王连生环境科学进展1 9 9 8 ,6 ( 4 ) :5 6s t a n k e v i c hi v , s k v o r t s o v am i ,z e f i r o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论