版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第五章 定量构效关系研究,目录,5.1 概述 5.2 化学模式识别与QSAR的4个水平 5.3 SIMCA法水平2的化学模式识别与QSAR 5.4 SIMCA法水平3、4的化学模式识别与QSAR,5.1,化学工作者一直致力于研究化学结构与化合物特性之间的关系,这种关系的定量描述,称定量构效关系(Quantitative Structure Activity Relationship, QSAR)。它是化学计量学的重要分支领域。 构效关系研究可追溯到上个世纪。当时化学工作者已认识到,化合物的一些性质,诸如药物的生理作用等是与其化学结构相关的,并认为二者之间的关系可借数学工具描述。Hammett在
2、其经典著述中提出线性自由能关系(LFER),这可认作是QSAR研究的起点。,5.1,到60年代,Hansch的研究已建立在定量的基础之上,探讨结构变化与生化活性之间的关系。陈荣悌等发展了配位化学中的LFER研究。蒋明谦系统地论述了有机化合物的同系线性规律,徐光宪等探讨了这类规律的量子化学基础。在有关物理有机化学溶剂效应研究中,刘有成等比较了有关溶剂极性经验参数。,5.1,容易看到, QSAR问题实际上是一个化学模式识别问题。这里,研究的对象就是分子结构与化合物活性之间的隐含关系。如上章所述,可以取分子结构许多可量测的特征作为参量,用模式识别方法考察这些分子结构特征与指定课题中感兴趣的某种性质之
3、间的关系。 在讨论构效关系时,我们涉及化学学科一个根本性的问题如何从物质的化学成分与结构定量预测其化学特性?在科学研究方法中,我们当然希望建立一种全局的(global)“硬”模式,一些物理量涉及的正是这种模式,如质量、电荷、能量、时间等。化学家试图用配位场理论解释无机配合物、金属有机化合物结构与性能的关系。在整个量子化学研究中试图建立的正是化学结构与性能之间关系的全局的 “硬”模式。,5.1,对于一个给定的分子,亦即一定数量的原子的集合,通过求解相应Schroedinger方程,求出相应特征值与特征矢量,可描绘能量与电子的分布,分子的性质可从波函数与能量导出。目前,量子化学计算已取得十分瞩目的
4、成就,但对过于复杂的分子进行量子化学计算尚有一定困难。由于这一原因,大量的化学研究仍处于一种“定性”的水平。在无法建立全局的 “硬”模式的情况下,化学工作者常使用“相似”、“类比”的研究方法。例如,有机化学家研究醇的化学,他不会预期新合成的一种醇与已知的其他醇有等同的性质,但可以预测,新合成的醇与已知的其他醇会有类似的性质。,5.1,有的物理化学性质,常是以类比的概念表述。例如溶解度问题,化学家将客观规律表述为“相似者互溶”。元素周期律所表述的周期相似性规律,则更是集中体现了化学研究中的类比方法。化学研究的这种特征,其缘由是化学现象较之物理现象一般更复杂,受很多未知因素的制约。化学世界是一个典
5、型的多元(多变量)世界,其复杂性随变量的数目(例如化合物中原子种类数目)增加而增加的速度,超过指数递增关系。,5.1,这样一来,理论模式本身由于引入近似造成的误差,往往抵消了模式本身原有的“硬”度(严谨性,无限定假设),经简化后的近似的化学体系,与实际化学世界之间也失去了紧密联系。在尚不能建立完整的全局“硬”模式的情况下,如何在定量的基础上对复杂的化学现象进行研究探索?,5.1,QSAR研究涉及的正是这类课题。在暂无法建立全局“硬”模式的情况下,化学家试图建立局部的“软”模式,局部系相对于全局而言。在无法建立对所有化合物均适用的全局定量模式时,是否有可能建立对一类化合物例如醇类通用的局部模式?
6、在无法建立完全基于量子化学计算的“硬”模式的情况下,则探索建立统计“软”模式预测有关化学性质。,5.1,局部“软”模式与全局“硬”模式在化学科学中的关系,并不是相互对立的,而实际上是相辅相成的。对于能够使用全局“硬”模式的情况,应当推荐选用这种模式。使用局部“软”模式是为了适应复杂体系无法建立全局“硬”模式的情况。从目前实际情况看,物理化学研究中在较多的情况下能考虑研究全局“硬”模式的建立,对于一些相对简单的例如无机化学中的不少体系,人们亦致力于尽量建立全局“硬”模式,而对于有机化学及生物化学领域,在不少情况下只能考虑局部“软”模式。至于将分析化学中浓度信息转化为其他有用的问题,往往基本上只可
7、能依靠局部“软”模式。,5.2 化学模式识别与QSAR的4个水平,前章我们讨论了化学模式识别的基本原理与方法,主要着眼于模式的分类。在有监督的分类中,典型的是将模式分为确定的二类或若干类,这种情况可定义为水平1的化学模式识别。与之对应,水平1的QSAR目标也是根据某一化合物的结构,将其分类归于具有某一确定活性的族类,这就要假定未知活性的化合物肯定应是这些确定的族类的一员。总的说来,前章所述的有关方法,进行的基本上是水平1的化学模式识别,相应也能作水平1的QSAR研究。,5.2 化学模式识别与QSAR的4个水平,在化学模式识别中,特别是QSAR研究中,采用水平1模式识别或QSAR方法时往往会遇到
8、一个困难:待分类的样本可能根本不属于训练集中某一类。有时训练集分为两类,一类是具有某一隐含特性的样本,另一类是不具有这一隐含性质的样本。这种情况形式上是分为二类,实际上第二类并不是确定的类。如在前章提及的牛奶/羊奶一例含确定的二类,属于水平1的化学模式识别。如区分的类是牛奶与非牛奶,则非牛奶可能是羊奶、马奶,并非确定的类。在法医鉴定中,判别某种罪证痕迹的归属,可将嫌疑对象作为分类的目标,看有关罪证属于嫌疑对象中何人,但如真正的罪犯逃脱了初步侦缉范围,未被列为嫌疑对象,则用水平1模式识别将不能奏效。,5.2 化学模式识别与QSAR的4个水平,水平1模式识别中常遇到的线性不可分的情况,不少即是定义
9、的类中有的类实际是不确定的。在QSAR研究中,如需要将化合物根据其结构分类为具有某种生化活性的与不具有该种活性的两类。不具有该种生化活性的化合物,实际上是具有其他生化活性及不具有任何生化活性化合物的集合。在模式空间中,得到的往往是线性不可分的情况,这种情况常称为“不对称”的。水平2的化学模式识别与QSAR研究考虑了这种不对称情况。水平2的化学模式识别应能辨识未预见到的族类的存在,即训练集以外的异常点,也应能辨识训练集中分类不正确的样本,只有对每个类均能建立相应模式的模式识别方法,才能用于这一水平的识别,本章将讨论的SIMCA方法就是这种方法。,5.2 化学模式识别与QSAR的4个水平,KNN法
10、是一种按水平1设计的模式识别方法,对它作一些算法上的调整,即能适应水平2模式识别的要求,从训练集中K个最近邻的距离分布,有可能给出对给定的样本与其最近邻距离的临界距离允许区间,远于这一临界距离就可将该样本认作异常点。 水平3的化学模式识别与QSAR,不但要求将样本分组到某一类别或根据其结构预测某种活性,而且要求给出有关性质的定量估计(例如生物活性有大小)。,5.2 化学模式识别与QSAR的4个水平,前章的讨论中是把化学模式识别方法当作一个广义的定性分析手段处理的,这里将扩充这一概念,不但要求作定性分析,而且要求给出定量结果。这种定量估计的意义是显而易见的,例如临床化学分析,人们不但希望知道病人
11、是否患有某种疾病,而且希望知道病情的的深度(轻度感染,疾病早期、中期或晚期),在化学反应活性QSAR研究中,人们不但希望能确定某种化合物具有反应活性或不具备反应活性(水平1,2化学模式识别与QSAR ),还希望了解反应活性的定量量度,是很强的活性或仅具有微弱活性,化学家的目标是找到反应活性最强的化合物。,5.2 化学模式识别与QSAR的4个水平,以催化剂为例,催化活性每高5%可能就等价于上万元的产值,因此从一些相近结构的催化剂中预测其活性的微小差异很重要。水平1,2的化学模式识别与QSAR显然不能满足这一要求。研究生化活性的情况亦相似,在药物设计中,用于疑难疾病防冶的药物的活性的任何增长,均具
12、有重要意义,不少疾病并非完全无药可用,因此, QSAR研究的主要目标,不应是仅仅预测或找出一些有活性的,但药效往往不及原有药物的“新”药,而是要努力找到活性更大的药物。,5.2 化学模式识别与QSAR的4个水平,前面叙及的不能用于水平2化学模式识别与QSAR的方法,如线性学习机等,也不适用于更高水平的化学模式识别与QSAR。KNN法虽然原是按水平1化学模式识别设计的方法,不但如前述可扩展用于水平2的化学模式识别与QSAR,亦有可能改造为水平3的化学模式识别方法或用于水平3的QSAR研究。例如,在KNN的训练集或充分的训练样本子集中,如对每个样本均不但已知其属于哪一类,而且给出了相应的活度标度,
13、或其他定量指标量度(例如病人病情严重程度的定量标度),则在用KNN分类时,根据K个最近邻的活性值的加权平均(例如用距离的倒数作权重),可求得该未知样本的活性的定量估计。,5.2 化学模式识别与QSAR的4个水平,水平3的QSAR也可简单理解为进行水平2的化学模式识别之后,在找到的类别内进行传统的QSAR定量关系研究,PCR、PLS算法可用于进行这种定量关系的研究。只需将上述方法中相应的响应信号改为活性量度,而各组分浓度改为模式参量的取值,或QSAR中代表化合物结构的各参量取值。,5.2 化学模式识别与QSAR的4个水平,水平3的化学模式识别与QSAR研究还可进一步扩充,在有关校正理论的讨论中,
14、没有限制每一个分析试样只能有一个分析信号,相反,化学计量学方法的特征就是多通道量测,在QSAR研究中,为何每一个样本不能有多种活性?如只涉及一种活性,由一个量度表示,即是前述的水平3的化学模式识别或QSAR;如每一个样本有一个活性矢量,由一种以上活性量度表述,每种量度是活性矢量的一个元素,则称为水平4的化学模式识别与QSAR。可见, QSAR不但可用于研究多种结构参量与活性之间的定量关系,还可以研究多种结构参量与多种活性之间的复杂关系。,5.2 化学模式识别与QSAR的4个水平,4个水平的化学模式识别及相应的QSAR方法,代表了模式识别这一通用的数学与计算机科学相结合的研究方法用于解决化学问题
15、时独有的特征,作为化学计量学的重要组成部分,它包含了化学工作者对相关数学与计算机科学方法作出的独特贡献。,5.2 化学模式识别与QSAR的4个水平,另一方面,水平3、4的化学模式识别与QSAR展示了化学计量学的几个重要分支校正理论、化学模式识别、 QSAR的共同点与相互联系。作为处理复杂的多变量化学世界的量测数据以提取有用信息的校正方法、化学模式识别或QSAR算法,是建立在相同的数学与统计学理论基础之上的,有时几乎是等同的方法,而PLS与SIMCA正是这类方法最典型的代表。,5.3 SIMCA法水平2的化学模式识别与QSAR,本节将介绍化学模式识别中一个较通用的方法SIMCA法,这一方法根据其
16、设计者定义的涵义是“统计匀线性多元分析”(Statistical Isolinear Multiple Component Analysis),或“族类的独立软模式”(Soft Independent Modeling of Class Analogy),意为各类样本独立地建立局部“软”模式。,5.3 SIMCA法水平2的化学模式识别与QSAR,SIMCA算法的基本思路,是对训练集中同属一类的样本的量测数据矩阵进行主成分分析,找出能表述这一类的局部软模式。对于未知样本,则分别试探将该样本与各类拟合,以确定其属于哪一类,或不属于任何一类。SIMCA也适合于未知样本同时属于几个类的情况,例如根据光
17、谱数据确定化合物含有何种基团,某种化合物可能既含有基团A,又含有基团B则该化合物将同时属于两类。,5.3 SIMCA法水平2的化学模式识别与QSAR,注意,这里已将原定义的簇的概念扩充,在一般无监督的分类中,通常总是假设每个样本仅属于一个簇。 就QSAR而言,化合物可能同时具有抗癌活性与抗其他病毒功能;就根据临床化学分析进行医疗诊断而言,病人可能同时患有甲状腺功能亢进与门脉性肝硬化等等。,5.3 SIMCA法水平2的化学模式识别与QSAR,先讨论训练集的样本类别已知,但无定量活性数据的情况。训练集每个样本K(共N个样本)以参量i(共M个参量)描述之记为Xik。现考察训练集中的一个类q,含Nq个
18、样本,故可以MxNq矩阵X描述。如设想这Nq个样本是完全等同的(不仅是相似),则对应于该类中各样本K的参量值可以极简单的模式表述: Xik=ai+ik (5-1),5.3 SIMCA法水平2的化学模式识别与QSAR,也就是说,同一类中诸样本的参量值均为ai;其差异完全是随机量测误差ik引起的。客观实际情况极少如此简单,一般可以下述模式表述: Xik=ai+iaak+ik (5-2) 注意,这个模式就是扣除Xik中同类各样本的均值(ai)及量测误差部分(ik)后,将代表各样本之间真正差异的部分作主成分分析,A是主成分数,对于每一个主成分a(主因子), iaak中ia与参量i对应, ak与样本k对
19、应。A所代表的,即是各样本的诸参量所张开的模式空间的实际维数。,5.3 SIMCA法水平2的化学模式识别与QSAR,对于训练集中第q类的样本(设共有Q类),将上式加类标q写成: Xik=ai+iaak+ik (52a) SIMCA方法用于水平2的化学模式识别或QSAR研究,是先采用NIPACS(非线性迭代偏最小二乘)算法求出属于第q类的样本的参量数据矩阵X(q)的特征值与特征矢量,从而计算与参量对应的ia及与样本对应的ak,并用交互检验法确定Aq(主成分数)值,为了组成参量数据阵X(q),至少应有5个属于q类的样本(即Nq至少为5),最好样本数为10或10个以上。,A,a=1,(q),(q),
20、(q),(q),(q),(q),(q),5.3 SIMCA法水平2的化学模式识别与QSAR,式(5-1)所表述的模式(Aq=0),q类所有样本均是等同的,不存在使之出现真正差异的因子(即“主成分”),实际上是模式空间中的一个点。如下图:,各点分散在半径为q的超球内, q可称为该类的极限残余标准差。,5.3 SIMCA法水平2的化学模式识别与QSAR,如Aq=1,则每个类限制在一个半径为q 的超圆柱体内(如下图)。而从式(5-2a)的ik可求出q 的估计S(0):,三个类各类样本点位于直线两侧宽2q的带内(二维平面的表示)。,(q),q,5.3 SIMCA法水平2的化学模式识别与QSAR,对所有
21、各个类别的诸样本,均进行上述主成分分析,各类别的诸样本的每个变量宜作预处理,使其均值为零,方差为1。如各个类求出的Aq不同,且相差1以上,各个类应取其本身得出的最优Aq值构造模式;如各类之间Aq值只相差1,则取较大的Aq用于所有的类。这里需要注意的是,取偏低的主成分数,将丢失信息,这时,误差项ik将很大;取偏高的主成分数,ik变小,表面上有用信息似乎增加,实际上是将误差的贡献也当成了有用信息,这时可能出现夸大了的分类假象。,(q),(q),5.3 SIMCA法水平2的化学模式识别与QSAR,在为训练集的每一个类q构造了模式(52a)后,得到Aq、ai、ia、ak及q的估计。现试对校验集的样本进
22、行考察:记样本号为P,则其对应参量值为Xip,将其拟合入类q的模式计算: Zi=xip-ai (5-3) 以Zi作为因变量,ia(a=1,2,Aq)作为变量,用多元线性回归方法处理: Zi=xip-ai=ia ap+eip (5-4),(q),(q),(q),(q),(q),(q),(q),(q),Aq,a=1,5.3 SIMCA法水平2的化学模式识别与QSAR,这时可考察回归得到的ap值是否落在本类的ap的范围内。另一方面,由各变量i(共M个)的eip,并考虑自由度为M-Aq可计算残余标准差Sp: Sp=(eip)2/(M-Aq)1/2 (5-5) Sp实际上是样本p与类q的“距离”的量度,
23、这一残余标准差应与q类的总体残余标准差(So)比较: So=(ik)2/(Nq-Aq-1)(M-Aq)1/2 (5-4),M,(q),(q),(q),(q),k=1,(q),i=1,(q),i=1,M,Nq,(q),5.3 SIMCA法水平2的化学模式识别与QSAR,这里i按变量数M求和,k按q类中样本数Nq求和,计算时考虑到了与主成分分解所取得Aq数有关的自由度。 如(Sp)2与(So)2比较,发现前者显著大,则可判别p不属于q类。 将样本p再一一对训练集中其余各类进行拟合,我们可能得到几种不同结果: (1)样本可唯一地归于类q。借F检验可证明这一点。这种情况下,P与其它类的距离,即使其中那
24、个距p最近者,按F检验亦能明确否定P不属该类。,(q),(q),5.3 SIMCA法水平2的化学模式识别与QSAR,(2)样本P可判别属于q1,q2,qn n类。这种情况可能表明P确实同时属于这些类,例如某种化合物同时有几种活性;但也可能是对于样本P而言,训练集拥有的信息不足以区分这几个类属。 (3)样本P不属于训练集中任何一类,即该样本是一个异常样本,应属于某一个新类(这就是水平2的化学模式识别与QSAR区别于水平1之处)。这里需要指出,在训练集中本身可能存在异常样本。迄今为止的讨论,是以拥有已知样本的归类作为分类依据的,但SIMCA本身有能力检验这些“已知”样本的归类是否万无一失。,5.3
25、 SIMCA法水平2的化学模式识别与QSAR,为此,对训练集中某一样本P(情况与前述未知样本P类似,不同处是这个样本P是训练集中的)。可按式(53、4、5)进行对q类的拟合,得到的Sp可按下式进行F检验: F=(Sp)2. /(So)2 这里Sp是按式(5-5)得到的训练集中样本P的残余标准差,校正因子Nq/(Nq-Aq-1)考虑了样本P本身参与了训练集样本计算有关、参量的过程。,(q),(q),Nq,Nq-Aq-1,(q),(q),5.3 SIMCA法水平2的化学模式识别与QSAR,按上式计算得的F与临界F值相应自由度为(M-Aq)及(Nq-Aq-1)(M-Aq)比较。如结果表明超出了标准F
26、范围,则要考虑训练集中这个样本并不属于q类,如也不属于训练集中任何其他类,则说明这个样本应从训练集中弃去。不过,这种处理宜慎重,应力求得到实验证实。例如,有时这种情况的发生是由于标签混淆。训练集中被删除的样本不应超过10%,删除后有关各类的模式及参量应重新计算。,5.4 SIMCA法水平3、4的化学模式识别与QSAR,现进一步讨论除参量矩阵X外,还存在定量活度数据的情况。如每一个样本只有单一的一种活度标度,则是水平3的化学模式识别与QSAR,如每个样本有一个以上的活度标度,即每个样本给出一个活度矢量,整个样本集将有一个活度矩阵Y,这是水平4的化学模式识别与QSAR。,5.4 SIMCA法水平3
27、、4的化学模式识别与QSAR,水平3的化学模式识别与QSAR可按PCR(主成分回归)方法处理。将每一类的X矩阵仍按前一节所述方法作主成分分析式(5-2),得到的每一维a与样本K对应的ak,均应与各样本的活性组成的矢量y中对应于样本k的元素yk相对应。也就是说,可将ak与yk回归,如有线性关系,作线性回归;如无线性关系,作多项式拟合。在进行了这一数据处理之后,未知试样先按前节(5.3)的办法,根据其x数据能拟合到训练集的哪一各类,确定其类别;再根据该样本的ak值,从前述已为该类建立的ak与yk之间的函数关系,估计该未知样本k的活性值yk。,5.4 SIMCA法水平3、4的化学模式识别与QSAR,在水平4,则将有一个Y矩阵,可按PLS方法将X阵与Y阵同时分解,对于同一个类别q的样本(为简便起见略去(q)标记),有: xik=xi+iaak+ik (52b) yik=yi+wiatak+jk (5-6) 这里,需将X与Y二个矩阵分解所得的与样本(k)对应的及t之间建立内部关系,供预测未知样本的活度用(由未知样本的xik预测其yik)。这里采用在SIMCA计算中交换式(52b)、(5-6)中的及t变量,并建
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年世界近代史选择题试卷及答案
- 工厂气体管道安装与检测方案
- 2026年物理治疗技师能力验证要求试题
- 2025年小学信息技术基础操作与练习试题
- 《RPA财务机器人应用》课程教学标准
- 2025年企业法律顾问反垄断法考核试卷
- 环境监测员专业能力考核题库试题及答案
- 化学元素性质比较测试试题冲刺卷
- 2026年兰州石化职业技术大学单招职业倾向性测试题库及1套完整答案详解
- 2026年北海康养职业学院单招职业技能测试题库及答案详解(历年真题)
- (13)普通高中艺术课程标准日常修订版(2017年版2025年修订)
- 2025年公务员联考《申论》(海南卷)真题答案及解析
- 全域土地综合整治项目可行性研究报告
- 年产10万吨乙酸钠技术改造项目环境影响报告书
- 《大学生劳动教育(实践版)》全套教学课件
- (正式版)DB61∕T 5079-2023 《城市轨道交通工程沿线土遗址振动控制与监测标准》
- 汽车托管与租赁合同协议
- 红楼梦中的平儿
- 门店巡场管理办法
- 水电站水工建构筑物维护检修工公司招聘笔试题库及答案
- 涉爆知识培训
评论
0/150
提交评论