分子拓扑指数介绍_第1页
分子拓扑指数介绍_第2页
分子拓扑指数介绍_第3页
分子拓扑指数介绍_第4页
分子拓扑指数介绍_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、许禄,中国科学院长春应用化学研究所,分子拓扑指数的介绍,一,.,图论和化学图,图论为数学中的一个分支,它与拓扑学和组合数学密,切相关。图论在化学中的应用可粗略地归为两类:(,1,),结构图,即分子图;(,2,)反应图,图论,结构图,反应图,点,原子,化学试样,线,化学键,化学反应,路径,(path),化学子结构,反应序列,环图,环状化合物,度,原子价态,树,非环结构,二,.,拓扑指数的基本概念,1.,拓扑指数的定义,拓扑指数是一种数学的量,这种数学的量是图的不变量,,它不随图中点的编序的改变而改变。准确些,应该称为图,论,指数,但习惯上常称为拓扑指数。由分子图所衍生的拓扑指,数称为分子拓扑指数

2、。,2.,对一个新拓扑指数的要求,(,1,)具有好的选择性,即,由不同的结构所衍生的拓扑,指数是不一样的;,(,2,)具有高的相关性,即,将之用于化合物性质的预测,,应能得到好的数学模型。,3.,拓扑指数的优点和不足,(,1,)优点,?,易于获得,如:分子中碳原子的个数,,N,;分子中单原子的个数,,B1;,分子,中双键的个数,,B2,;分子中环的个数,,C,;,?,通常能够得到好的数学模型,如:,y:,正烷烃分子的沸点;,x,:分子中碳原子的数目,(,2,)拓扑指数的不足,它主要表征的是“图”,即,拓扑指数由图所衍生,,因而,有时物理意义欠明确。,但是,我们的目的是对未知化合物进行预测,而拓

3、,扑指数常能得到好的结果,所以,迄今为止,在化合,物结构性质,/,活性相关性(,QSPR/QSAR),研究中,拓,扑指数是应用最为广泛的一类参数。,三,.,拓扑指数的计算步骤,(,1,)分子的化学图表示,(,2,)从化学图得到分子的矩阵表示,(,3,)对矩阵实施数学运算,例子:世界上第一个拓扑指数,,Wiener,指数,,W,(,1947,),四,.,几个拓扑指数的介绍,1. Randic,分子连接性指数,(Connectivity index),(,1,)分子支化度指数,2,/,1,),/(,1,j,i,ij,c,Con,?,?,?,?,?,?,键,键,此化合物的,C-C,键为:,(1,4)

4、, (1,4), (1,4), (4,2), (2,1),由此,5607,2,1,2,1,2,4,1,4,1,1,4,1,1,4,1,1,.,x,x,x,x,x,Con,?,?,?,?,?,?,(,2,),ID,指数,同时考虑通道数和支化度两个因素,以期更,好地表征分子的特点。,(,3,)分子连接性指数,由,Kier,和,Hall,将支化度指数,Con,进行扩展,用希,腊字母,?,表示。在,?,的计算中,将化合物的结构劈裂,成如下结构:,在图论中,称:(,a,)通道(路径)(,2,阶);(,b,),簇(,3,阶);(,c,)通道,/,簇(,4,阶);(,d,)链(,5,阶)。,其分子连接性指数

5、分别表示为:,2,?,p,3,?,c,4,?,pc,5,?,ch,分子连接性指数的通式,:,2,/,1,.),/(,1,j,i,v,t,m,?,?,?,?,?,其中,,m,为阶;,t,为,p, c, pc, ch;,v,为分子中原子的价态,不同杂化状态的一些原子的,?,值示于下表:,例,1,:,例,2,:,例,3,:,2.,拓扑指数,Am,如,2,甲基戊烷,将,A, B, C,矩阵分,别扩展两列:,列,1,:原子支化,度开平方;,列,2,:原子的,van der Waals,半径开平方,令,Z,1,= G,1,xG,1,; Z,2,= G,2,xG,2,; Z,3,= G,3,xG,3,拓扑指

6、数定义为:,其中,,?,max1,?,max2,?,max3,分别为,Z,1, Z,2, Z,3,最大本征,值。对于上述化合物:,?,max1,10.455,,,?,max2,14.5953,?,max3,14.8237,NO,2,R,3,R,2,R,1,R,4,R,5,五,.,应用举例,1.,化合物试样集,硝基苯类化合物,35 nitrobenzenes and their toxic activities,No.,R,1,R,2,R,3,R,4,R,5,-log(LC,50,),(obs),1,Me,H,H,H,H,3.57,2,H,Me,H,H,H,3.63,3,H,H,Me,H,H,3

7、.76,4,NO,2,H,H,H,H,5.45,5,H,NO,2,H,H,H,4.38,6,H,H,NO2,H,H,5.22,7,NO2,Me,H,H,H,5.01,8,Me,H,H,NO2,H,3.75,9,Me,H,NO2,H,H,5.15,10,Me,NO2,H,H,H,3.99,11,NO2,H,Me,H,H,5.08,12,H,Me,H,NO2,H,3.91,13,H,NO2,H,NO2,H,5.29,14,H,H,H,H,H,3.02,15,NH2,H,H,H,H,3.70,16,NH2,H,H,NO2,H,4.07,17,H,H,OH,H,H,3.36,18,H,H,F,H,H,

8、3.70,19,Me,NO2,H,NO2,H,4.88,20,NO2,Me,NO2,H,H,6.37,21,Me,NH2,H,H,H,3.48,22,H,Me,NH2,H,H,3.24,23,H,NH2,Me,H,H,3.35,24,NH2,Me,H,H,H,3.80,25,NH2,H,Me,H,H,3.80,26,NH2,H,H,Me,H,3.79,27,OH,H,H,NH2,H,3.65,28,Me,H,H,NH2,H,3.77,29,OH,H,H,NO2,H,4.04,30,Me,NH2,H,NO2,H,4.14,31,Me,NH2,NO2,H,H,5.34,32,NH2,H,H,NO2

9、,Me,4.26,33,NH2,NO2,Me,H,H,4.21,34,NH2,H,NO2,Me,H,4.18,35,Me,NO2,H,NH2,H,4.46,2.,参数的计算,?,分子连接性指数,m,x,t,:,0,x,p,1,x,p,2,x,p,3,x,p,4,x,p,5,x,p,6,x,p,3,x,ch,6,x,ch,3,x,c,4,x,c,5,x,c,6,x,c,4,x,pc,5,x,pc,6,x,pc,共计,16,个,?,Am,指数:,Am1, Am2, Am3,共计,3,个,?,-Ehomo,-Elumo,偶极矩,分子生成热,Hform,及离子化能,Eip,共计,5,个,?,指示变量,

10、?,?,?,?,?,?,?,?,?,二硝基苯,二硝基苯或邻,对,二硝基苯,间,单硝基苯,0,.,3,0,.,1,5,.,0,I,综合如上,4,类,本工作中对于每一化合物所计算的参数共,计,25,个,.,3.,变量的选择,Leaps and Bounds,回归分析结果,No.,Variables,R,F,1,13,0.89,122,2,7,13,0.91,72,3,9,12,13,0.92,59,4,1,9,12,13,0.93,48,5,1,5,9,12,13,0.94,44,6,1,5,9,10,12,13,0.94,36,7,1,2,5,7,9,10,13,0.95,32,8,1,2,5,

11、6,7,9,10,13,0.95,30,9,1,2,3,5,6,7,9,10,13,0.95,25,4.,结果及讨论,(1),回归分析结果,样本容量为,N,;变量数为,M,经验规则,: N/M,?,5.,因为,N=35,变量最多可选,7,个,-logLC,50,= -0.3017+0.1278*,2,x,p,-,0.04654*,3,x,p,+0.04619*,3,x,c,+0.04592*Am1,-0.2958*Ehomo+0.1164*Elumo+0.4237*I,R=0.95, F=32, S=0.25, N=35,其中, R,为相关系数, F,为显著性检验, S,为标准偏差,N,为该类

12、化合物数目,(,样本容量,),.,(2),人工神经网络法,算法:,BFGS (Broyden-Fletcher-Goldfarb-Shanno),赝,-,Newton,法,网络结构:,7,:,3,:,1,测试集:,30,预测集:,5,结果:,R,0.993,;,S=0.092,;,F=2188,;,N=35,六,. Methods for variable,selection,?,Classical methods,a) Forward selection,b) Backward elimination,c) Stepwise regression,?,Leaps-and-bounds reg

13、ression,?,Orthogonal descriptors,?,Genetic algorithm,Since,the,three,classical,methods,are,known,well,and,many,papers,on,genetic,algorithm,have,been,published,thus,next,I,would,want,to,only,introduce,the,two,methods,as,above,mentioned:,?,Leaps-and-bounds,regression,?,Orthogonal,descriptors,1. Leaps-

14、and-bounds regression,This method is based on the fundamental,inequality,RSS (A),?,RSS (A,i,),RSS: residual sum of squares; A: any set of,independent variables; A,i,: a subset of A.,e.g.: set A,1,contains 3 variables;,RSS=596;,set A,2,contains 4 variables;,RSS=605.,Thus, all the subsets of A,2,will

15、be ignored,because of these subsets with RSS greater,than that for A,2, and also for A,1,.,2.,Orthogonal algorithm,(cf. M. Randic, New J. Chem., 15(1991)517),(Gram-Schmidt,正交法,),若变量集,X,有,N,个变量按一定规则排序后为,X,1, X,2, X,N,第一,步,取,X,1,为第一个正交基,1,使,X,2, X,N,和,X,1,正交,.,以,X,2,为例,用,X,1,作,自变量, X,2,为因变量进行一元回归,得,X,

16、21,=X,2,(,实际值,),X,2,(,计算值,),和,X,2,一样由其它变量得到,X,i1,.,第二步,取,X,21,为正交基,2,使其它变量,X,i1,和,2,正交,.,重复如上过程直到得到,N,个正交变量,1,2,N,.,由于变,量相互间彼此正交,因而,各变量作用可以单独测试,而不受其它变量,的影响,只要对正交变量,1,2,N,和因变量,Y,进行一元回归计算出,回归系数,R,i,即可以计算出它们之间相互组合后的回归系数,R,公式如,下,:,式中,R,i,为正交化的变量,i,与性质间的相关系数。即,首先将原变量正,交化,并按与性质相关系数大小排序,然后,很易于进行最优变量子,集的组合,

17、。,1,2,?,?,?,m,i,i,R,R,We have data x,1, x,2, x,3,and x,4,(the raw data are not given,here in detail). The following are the results of regressions.,On the up half, the regressions are performed with x,1, x,2, x,3,and x,4,. On the down half, the regressions are performed,with the orthogonal variables

18、,?,1,?,2,?,3,?,4.,-,-,Coefficients of regression equations,-,x,1,x,2,x,3,x,4,constant,17.9661 40.4349,6.2334 -3.4705 6.4615,28.6314 3.0516 1.8745 -85.3786,22.0204 0.9347 1.0786 -0.5609 -57.1671,?,1,?,2,?,3,?,4,constant,17.9661 40.4349,17.9661 -3.4705 40.4349,17.9661 -3.4705 1.8745 40.4349,17.9661 -3

19、.4705 1.8745 -0.5609 40.4349,-,-,Once,the,descriptors,are,orthogonalized,(as,?,m,),variable,selection,will,be,very,simple,because,we,have,the,following,form:,Therefore,it,is,easy,to,select,variables,(,?,m,),based,on,the,ordered,?,m,.,(cf.,B.,Lucic,et,al.,J.,Chem.,Inf.,Comput.,Sci.,39(1999)610),2,/,1

20、,1,2,?,?,?,m,i,i,R,R,NO,2,R,3,R,2,R,1,R,4,R,5,3.,比较实例,(,1,),化合物试样集,硝基苯类化合物,35 nitrobenzenes and their toxic activities,No.,R,1,R,2,R,3,R,4,R,5,-log(LC,50,),(obs),1,Me,H,H,H,H,3.57,2,H,Me,H,H,H,3.63,3,H,H,Me,H,H,3.76,4,NO,2,H,H,H,H,5.45,5,H,NO,2,H,H,H,4.38,6,H,H,NO2,H,H,5.22,7,NO2,Me,H,H,H,5.01,8,Me,

21、H,H,NO2,H,3.75,9,Me,H,NO2,H,H,5.15,10,Me,NO2,H,H,H,3.99,11,NO2,H,Me,H,H,5.08,12,H,Me,H,NO2,H,3.91,13,H,NO2,H,NO2,H,5.29,14,H,H,H,H,H,3.02,15,NH2,H,H,H,H,3.70,16,NH2,H,H,NO2,H,4.07,17,H,H,OH,H,H,3.36,18,H,H,F,H,H,3.70,19,Me,NO2,H,NO2,H,4.88,20,NO2,Me,NO2,H,H,6.37,21,Me,NH2,H,H,H,3.48,22,H,Me,NH2,H,H,

22、3.24,23,H,NH2,Me,H,H,3.35,24,NH2,Me,H,H,H,3.80,25,NH2,H,Me,H,H,3.80,26,NH2,H,H,Me,H,3.79,27,OH,H,H,NH2,H,3.65,28,Me,H,H,NH2,H,3.77,29,OH,H,H,NO2,H,4.04,30,Me,NH2,H,NO2,H,4.14,31,Me,NH2,NO2,H,H,5.34,32,NH2,H,H,NO2,Me,4.26,33,NH2,NO2,Me,H,H,4.21,34,NH2,H,NO2,Me,H,4.18,35,Me,NO2,H,NH2,H,4.46,(,2,),Calc

23、ulation of descriptors,.,?,Machine: Workstation Indigo,2,.,?,Software: MOPAC : SYBYL version 6.1,Multiple statistical programs,?,Quantum-chemical parameters: 7;,?,Molecular connectivity indices,m,x,t,:,11;,?,Topological indices A,mi,: 3,?,Indicative variable I: 1,Total: 22,?,Order (122): I, Hform, E

24、te, Eip, Er, -Ehomo,?,-,Elumo,0,x,p,1,x,p,2,x,p,3,x,p,4,x,p,5,x,p,6,x,p,3,x,ch,5,x,c,6,x,c,4,x,pc,A,m1, A,m2, A,m3,.,(,3,),Results and Discussion,For,saving,space,we,only,give,out,36,variable,conmbinations.,Results of variable selections,_,No.of vari.,Method,Variable R RMS,_,3,?,Forward selection,1,

25、 2, 8 0.9098 0.316,?,Backward elimination,1, 10, 12 0.8895 0.348,?,Stepwise regression,1, 2, 8 0.9098 0.316,?,Genetic algorithm,1, 6, 21 0.9150 0.307,?,Leaps-and-bonds,1, 6, 21 0.9150 0.307,?,Orthogonal descriptor,1, 2, 20 0.9258 0.288,4,?,Forward selection,1,2,6,8 0.9126 0.312,?,Backward eliminatio

26、n,1,10,11,12 0.9164 0.305,?,Stepwise regression,1,2,6,21 0.9156,0.306,?,Genetic algorithm,1,10,11,17 0.9175,0.303,?,Leaps-and-bonds,1,10,11,17 0.9175 0.303,?,Orthogonal descriptor,1,2,20,13 0.9367 0.267,_,(,Continued,),_,5,?,Forward selection,1,2,6,8,21 0.9156 0.301,?,Backward elimination,1,10,11,12

27、,16 0.9188 0.301,?,Stepwise regression,1),?,Genetic algorithm,1,5,12,17,19 0.9213 0.296,?,Leaps-and-bonds,1,5,12,17,19 0.9213 0.296,?,Orthogonal descriptor,1,2,20,13,8 0.9422 0.255,6,?,Forward selection,1,2,6,7 8,21 0.9172 0.301,?,Backward elimination,1,10,11,12,16,20 0.9219 0.295,?,Stepwise regress

28、ion 1,2,6,7,8,21 0.9172 0.301,?,Genetic algorithm,1,9,10,11,16,17 0.9279 0.284,?,Leaps-and-bonds,1,9,10,11,16,17 0.9279 0.284,?,Orthogonal descriptor,1,2,20,13,8,3 0.9470 0.245,_,From,above,we,can,see,that:,(1),The,results,obtained,by,using,three,classical,methods,are,very,close;,(2),Genetic,algorit

29、hm,achieves,the,same,best,combinations,as,leaps,and,bounds,regression;,(3),The,best,results,obtained,by,using,orthogonal,descriptors.,Next,I,would,want,to,discuss,these,three,points,slightly,in,detail.,Result 1:,_,?,The best one :,orthogonal method,Why ? The possible reason : the information,contain

30、ed in some descriptors is “condensed”.,_,?,Regression of molar refraction(MR) in,heptanes against molecular connectivity indices,m,x.,(cf.M.Randic, New J. Chem.,15(1991)517),1,x:,R,=,0.0241;,1,?,:,R,=,0.0241;,2,x:,R,=,0.1635;,2,?,:,R,=,0.9640;,1,x,+,2,x:,R,=,0.9646;,1,?,+,2,?,:,R,=,0.9646.,“,purifie

31、d,2,x,2,?,is,not,duplicate,by,1,x.,”,M.,Randic,The,information,contained,in,2,x,was,“condensed”,.,Number of variables Method of ordering,R,RMS,_,3,Based on Ri,0.9278,0.284,Forward selection,0.9256,0.288,Backward elimination 0.8896,0.348,4,Based on Ri,0.9373,0.265,Forward selection 0.9366,0.267,Backw

32、ard elimination 0.9164,0.305,5,Based on Ri,0.9456,0.248,Forward selection,0.9420,0.256,Backward elimination 0.9301,0.280,6,Based on Ri 0.9538,0.230,Forward selection,0.9469,0.245,Backward elimination 0.9413,0.257,?,But orthogonal method is strongly based on,the descriptor ordering for orthogonalisat

33、ion.,Result,2,_,?,Genetic,algorithm,achieved,the,same,combinations,as,the,leaps-and-bounds,regression,.,_,?,Genetic,algorithm,is,as,an,optimization,procedure,to,search,a,large,space,and,to,cope,with,local,minima.,But,this,method,is,time,consuming.,?,Leaps-and-bounds has been used successfully,for va

34、riable selection,.,Thus,genetic,algorithm,is,an,accepted,procedure,for,variable,selection.,Result,3,_,?,The,best,subsets,of,descriptors,obtained,using,three,classical,methods,are,not,so,good,as,the,other,methods.,_,Forward,selection(FS):,once,a,variable,has,been,entered,into,the,model,it,may,not,be,

35、removed.,Backward,elimination:,once,a,variable,has,been,deleted,it,cannot,be,included,again.,Stepwise,procedure,is,essential,the,FS,though,the,selected,variable,may,be,removed,again.,?,These,may,cause,the,results,to,close,the,sub-optimal,solutions.,In,addition,it,should,be,pointed,out,that,orthogona

36、l,method,also,depends,on,the,structure,of,data,set,i.e.,the,best,results,cannot,be,always,obtained,by,using,orthogonal,descriptors.,七,.,几个问题的讨论,1.,关于相关性,对一个新拓扑指数的要求有两点:,(,1,)和化合物具有好的相关性,(,2,)对于化合物具有好的选择性,好的相关性不一定具有好的选择性,如,W,指数,它和,化合物性质的相关性通常较好,但选择性较差;好的选,择性和化合物的性质不一定好的相关性,如化合物在,CAS,的登录号,其选择性(唯一性)非常好

37、,但和化合,物的性质不具有任何的相关性。,同时做到这两点是比较困难的。,目前的拓扑指数,以“无以数计”来说都不过分,但是,,在构效关系研究中,应用最广泛仍为分子连接性指数。此指,数有如下特点:,(,1,)根据需要,可以计算出不同“阶”和子图类型的一,系,列参数,这为构造预测数学模型提供了良好的基础,t:,(,2,)它易于被“改造”。在算法中,其关键环节是,?,的取,值,改变,?,的赋值方案,即可得到一套新的参数。,(,3,)选择性尚好,2,/,1,.),/(,1,(,j,i,v,t,m,?,?,?,?,?,2.,关于选择性,早年的时候人们作的比较多,其目的主要是试图证明,世界上所有的化合物是否

38、可用一个数学的量来表征。,一般的做法是用饱和的链烷烃来进行验证,因为链烷,烃的异构体易于穷举。后来,人们发现提出高选择性拓,扑指数是一非常困难的事情,于是,其注意力主要放到,了相关性方面。然而,近年来,我们却取得了突破性进,展,。,目前世界上最好的拓扑指数,BID,(Balaban,完成,),可以唯,一地表征到含,20,个碳原子的链烷烃,其异构体为,366319,个,BID,的不足,:,?,对含环体系适应能力较差,?,不能用于含杂原子体系,我们的拓扑指数,EAID,可以唯一地表征含,1-22,个碳原子,的全部,380,多万,个异构体(含,23,个碳以上的链烷烃尚未验),我们穷举生成了一系列含,8,个原子的化合物共计,40,多万,个,异构体,这些结构含环且高度相似,但,EAID,均能很好区分,而不出现简并。,进行高选择性拓扑指数研究的基础要有一个高效的“结,构生成器”;结构产生器是结构解析专家系统的核心。,结构解析专家系统,实验数据,结构片断集,结构生成器,结构验证,结构输出,约束,关键环节,结构生成器,在结构片断,集基,的础上,进行整体结,(候选化合,物)对接,对生成器的要求是:,(,1,),穷举性,如,含有,20,个碳原子的饱和链烷烃的异构体为,366319,。这些异构体在生成中不能少

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论