几种QSAR建模方法的研究进展与应用_第1页
几种QSAR建模方法的研究进展与应用_第2页
几种QSAR建模方法的研究进展与应用_第3页
几种QSAR建模方法的研究进展与应用_第4页
几种QSAR建模方法的研究进展与应用_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4 1 4 第二届全国农业环境科学学术研讨会论文集 2 0 0 7 年7 月 几种Q S A R 建模方法的研究进展与应用 冯丽萍,郭正元,梁菁,周井刚 ( 湖南农业大学农业环保研究所,湖南长沙4 1 0 1 2 8 ) 摘要:定量构效关系( Q S A R ) 对药物设计和新药研制、环境毒物的毒性评价与预测有着显著的作用,本文简单介 绍了几种Q S A R 建模方法:多元线性回归( M L R ) 、主成分分析( P C A ) 、偏虽小二乘法( P L S ) 、人工神经网络( A N N ) 和支持向量机( S V M ) ,并对这几种不同的建模方法在实际中的应用进行举例。可以看出P L S 和A N N S 是优秀的建模 方法,预测能力强,S V M 通过结构风险最小化原则建模,有效将期望风险降至最低,模型预测力得到显著提高在 环境毒物砰价中具有广阔的应用前景。 关键词:定量构效关系;多元线性回归;偏最小二乘法;支持向量机:人工神经网络 R e s e a r c hp r o g r e s sa n da p p l i c a t i o ni nt h es e v e r a lQ S A R m o d e l i n gm e t h o d F E N GL i p i n g , G U OZ h e n g y u m l ,L I A N GJ i n g ,Z H O UJ i n g g a n g ( I n a t i t o t e o f A m - E n v i r o n m e n t a lP n = , t o c t i o n ,H n n a n A c u l t u r a l U n i v e r s i t y ,C h a n g s h a 4 1 0 1 2 8 ,C h i x ) A b s t r a c t :Q u a n t i t a t i v ea t r u c t u r e - a c l i v i t yr e l a t i o n s M po ft h ed e s i g na n dd e v e l o p m e n to fD e Wd r u g s ,t o x i c i t ye v a l u a t i o na n d p r e d i c t i o no ft o x i ce n v i r o n m e n tp l a y sar o l e T h i sp a p e rb r i e f l yd e s c r i b e ss e v e r a lQ S A Rm o d e l i n gm e t h o d s :M u h i p l eL i n e a r R e g r e s s i o n ,P r i n c i p a lC o m p o n e n tA n a l y s i s ,P a r t i a lL e a s tS q u a r e s ,A r t i f i c i a lN e u r a lN e t w o r ka n dS u p p o r tV e c t o rM a c h i n e , a n d t h a ts e v e r a ld i f f e r e n tm x t e l i n gm e t h o d sf o rt h e8 p p u c a t i o ni np r a c t i c e W eC a l l et h a tt h eP 坞a n dA N Na r ee x c e l l e n tm o d e l i n g m e t h o d s ,P m d i e f i v ec a p a b i l i t yi sv e r yg o o d ,S V Mm o d e l i n gt h r o u g hs t r u c t u r a lr i s km i n i m i z a t i o np r i n c i p l e ,t oe f f e c t i v e l ym i n i m i z e t h er i s k se x p e c t a t i o mt h a tt h em o d e lp r e d i c t i o nh a si m p r o v e ds l g n J f i c a n d y ,a n dt h eE n v l r o n m e m a lT o x i e x d o g ye v a l u a t i o na n d p r e d i c t i o nh a sb r o a da p p l i c a t i o np r o s p e c t s K e y w o r d s :Q u a n t i t a t i v eS t r u c t u r eA c t i v i t yR e l a t i o n s h i p ;M u h i p l eL i n e a rR e g r e s s i o n ;P a r t i a lL e a s tS q u a r e s ;S u p p o r lV e c t o r M a c h i n e s ;A r t i f i c i a IN e u r a tN e t w o r k s 化学及相关科学的发展至今已呈现出从描述性 向推理性,从宏观状态的研究到微观结构理论发展的 趋势,人们在长期的实践中认识到分子是构成物质的 基本单位,物质的许多理化性质以及生物学性质都是 以分子为主体来表示和解释的。分子结构一经确定, 其性质也随之而定,定量地研究和分析分子或原子中 的基本结构特征与相应的从实验中反映出的一些性 质之间的关系,即所谓定量构效关系( q u a n t i t a t i v e s t r u c t u r ea c t i v i t yr e l a t i o n s h i p ,Q S A R ) 研究”! ,其实质是 从已知的大量待试数据中提取有关结构一活性关系的 信息,发现规律,从而应用于预测、预报未知化合物 的活性”1 。随着化学工业,特别是精细化工的飞速发 展,成千上万种化学物质被合成、使用,并且最终进 入人类赖以存在的生态系统中。因此,对化学物质的 环境危险性评价已引起人们的广泛关注。对各种有机 污染物的结构一生物毒性之间定量构效关系进行了研 究,建立了具有生物毒性预测能力的数学模型,并已 成功地用于有机物毒性的预测和评价中“1 。 发现和建立化学结构和生物活性,或其他性质的 定量关系是化学家们感兴趣的研究。Q S A R 可追溯到 上个世纪,当时化学家已认识到分子的某些挣眭,例 如生理作用与其化学结构有关且它们的关系呵借助 数学方法描述。H a m m e t t 提出线性自由能关系( L F E R ) 被认为是Q S A R 的开端。但实际上第一个且最重要的 Q S A R 研究工作是1 9 6 0 年由H a n s c h 及合作者提出”1 。 考察化学结构变化对多种生物活性的影响并获得有 2 0 0 7 年7 月第二届全国农业环境科学学术研讨会论文集4 1 5 关信息和建立定量关系是十分重要的课题,也是当今 定量构效关系及医、农药创制研究中的基础性问题, 因为这些信息及结果对设计研制具有最佳活性的生 物活性物质十分有用。目前,由于药学发展的需要, 将基于量子化学计算的分子模拟与Q S A R 研究结合 起来,为寻求有生物和药理活性的先导化合物提供 了一个新途径,我国在这方面也已取得引人注目的 成就“。 化学计量学特别是多元统计分析方法包括经典 的多元线性回归、主成分分析、偏最小二乘回归、人 工神经网络和支持向量机在Q S A R 建模方面已获得 一定的应用并取得较好成效。 1 几种Q S A R 建模方法 1 1 多元线性回归 多元线性回归( M L R l 是经典建模方法,可优化先 导化合物活性。其基本假设是分子结构的改进所致的 生物活性变化与其物化参数相关。M L R 最大优点是 可获得因果模型且物理意义明确,但必须满足下列条 件:( 1 ) 描述变量与参数相互正交;( 2 ) 化合物或样 本数大于描述变量数,通常要求样本数至少是描述因 子的3 倍,最好1 0 倍以上”。 1 2 主成分分析 1 9 3 3 年由H o t e l l i n g 提出了主成分分析( P C A ) 的方法,之后W F M a s s y 于1 9 6 5 年根据主成分分析 的思想提出了主成分回归”。如今主成分同归方法已 经被广泛采用,成为回归分析中较有影响的估计方 法。主成分线性回归法包括两方面内容,其一是主成 分分析,以确定主成分数,其二是多元线性回归。 P C A 是一种简化数据矩阵,降低维数,寻找少数 几个由原始变量线性组合成的新变量( 主成分) 的过 程,用以揭示数据的内部结构特征。主成分分析的中 心目的是将数据降维,以排除众多信息共存中相互重 叠的信息9 1 。它是将原变量进行转换,使少数几个新 变量是原变量的线性组合。同时,这些变量要尽可能 多地表征原变量的数据结构特征而不丢失信息,新变 量互不相关,即正交,然后用新变量主成分进行 回归,在主成分分析中,有时数据来源不一,不同变 量间差异较大时,要作标准化处理。 主成分回归分析虽然比较好地解决了多重共线 性问题,但仍存在很多不足之处,比如:主成分的实 际含义不明确,主成分与因变量之间的关系不很直 接,估计出的参数是有偏的等等。 1 3 偏最小二乘法 偏最小二乘( p a r t i a ll e a s ls q u a r e s ,P L S ) N 归是目前 较流行的一种建模方法,它提供了一种多因变量对多 自变量的回归建模方法,可以充分反映模型的整体 性。从自、因变量组中成对地提取最优成分,进行线 性回归,以消除自变量间的复共线性,建立简洁稳健 的模型”。它可有效解决变量间的多重共线性问题, 并适合在样本容量小于变量个数的情况下进行回归 建模,该方法于1 9 8 3 年首次由W o l d 和A l b m l o 等提 出,2 0 世纪9 0 年代后期引起国内外医学界人士的兴 趣,将之应用到相关研究中被许多统计学家称为“第 2 代多元统计分析技术”。偏最小二乘法集中了最 小二乘法与主成分分析法的优点,克服了两种方法的 缺点。一般情况下,系统分析人员根据经验选取自变 量集合中的信息成分是十分复杂的,经过偏最小二乘 回归分析后,可以有效的提取对系统解释性最强的综 合变量,在高维自变量空间中找到一个低维的子空 间,使之对因变量有最强的解释能力( 称为“最优子 空间”) 。 经典多元线性回归M L R 方法假定化学描述变量 是独立分布且精确适当,但这在Q S A R 中并不普遍。 因此某些经典法包括M L R 通常难以提供预测性模 型。偏最小二乘可归( P L S ) 同描述变量有关的模型 对活性具有预测能力,克服了M L R 的某些缺点。P L S 较M L R 有下列优点:( 1 ) 描述变量存在共线性;( 2 ) 描述子数多于样本总数;( 3 ) 阻止过拟;( 4 ) 模型预 测能力强:( 5 ) 适于同时处理多元活性数据。 1 4 支持向量机 统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,S L T ) 是一种研究小样本情况下机器学习的基本理论。支持 向量机( S V M ) 是V a p n i k 等人提出的一类新型机器学习 方法“”,从上世纪6 0 年代末开始致力于此方面研究, N 2 0 世纪9 0 年代中期,随着该理论的不断发展和成 熟,产生了基于该理论体系的新的通用机器学习方 法。即支持向量机( s u p p o r tv e c t o rm a c h i n e ,S V M ) ”“。 它与传统的统计学习理论不同,是因为它是基于结构 风险最小化( S R M ) 的,而不是传统统计学的经验风 险最小化( E R M ) “1 。与传统的统计学理论相比,其 性能的优越性在于结构简单,技术性能尤其是推广能 力明显提高,在解决好大量现实中的小样本、非线性 及高维模式识别问题中表现出许多特有的优势,而且 4 1 6 第二届全国农业环境科学学术研讨会论文集2 0 0 7 年7 月 可以推广应用到函数估计等其他机器学习问题中,成 为2 0 世纪9 0 年代末发展最快的方法之一。支持向量机 具有精度高、速度快、自适应能力强、不受高维维数 限制等优点,越来越受到各个研究领域的关注。 1 5 人工神经网络 最近由于计算机技术的发展,使计算机能够越来 越深入地应用到各个领域。人工神经网络f A N N ) 方法 就是在计算机高度发展的基础上得以广泛应用。它是 用计算机来模拟生物体中神经网络的某些结构与功 能,来解决其他领域的某些问题。A N N 方法的特点 是能够模拟任何的非线形问题。这样就可以避免 Q S A R 问题线性化带来的不足。通过人工神经网络对 一系列化学结构及其活性的学习、认识、模拟化学结 构与活性的关系 形成一种结构与活性的关系,以达到 对新的化合物活性的预测。 人工神经网络方法以其能较好地处理高度非线 性体系的特长,被广泛应用于各个领域。众所周知, 神经网络方法有两大缺陷,一是网络信息无从解释, 二是出现过拟合现象”。 2 不同建模方法在实际中的应用 2 1 多元线性回归 羟基自由基反应是水处理工程高级氧化工艺 ( A O P ) 技术的化学基础。哈尔滨工业大学环境科学与 工程系的陈传品、王鹏、张围宇和龙明策以分子拓扑 学邻接矩阵为基础,编写了分子连接性指数( M C l ) 的 计算程序,并采用多元线性逐步回归分析方法开发出 有机化学品羟基自由基反应活性的定量构效关系 ( Q S A R ) 研究软件。该软件经对多种不同结构有机化合 物M C I 汁算检验正确,用于有机化学品中取代酚类、 烷烃、醇类以及有机羧酸类化合物的羟基自由基反应 活性Q S A R 研究,结果满意。对采用高级氧化工艺技 术的水处理工程设计及实践具有指导意义。 2 2 主成分分析 环境污染物多环芳烃( P o l y c y c l i c A r o m a t i c H y d r o c a r b o n s ,P A H s ) 具有较强的致变和致癌 作用。近期研究表明:多环芳烃进入人体后经过代i 身f , 形成环氧化物为致癌的前兆体”。通过定量构效关系 ( Q S A R ) 研究以预报未经测试的环氧化物的致变性能, 具有理论和实际价值。由化学物质毒性效应登录 ( R T E C S ) 1 9 9 8 年光盘系统检索获得8 6 种环氧化合 物对鼠沙门氏菌致变活性数据。中国科学院生态环境 研究中心和北京联合大学化学工程学院的白乃彬、顾 玛力、谢飞和王兴平应用主成分分析法从11 中分子 描述符中选择出5 种对致变活性有明显影响的描述 符,通过样本学习集训练并优化神经网络结构建模表 明3 - 4 个骈接苯环的环氧化合物的特殊结构具有很 强的致变活性。 2 3 偏最小二乘 P L S 通常用于数据的“软”建模,建立因变量关 于I :_ 变量的线性甚至非线性回归预测方程。特别是在 自变量大于观察个数的情况下,相当有效。目前,它 在理论和方法方面得到了迅速发展,并在化工、医学、 市场分析、金融等领域得到了广泛的应用。药物定量 构效关系( Q s A R ) 研究药物生理活性和分子结构参数 间的量变规律,为其建模,可以预测化合物的活性, 指导新药的设计与合成。为研究药物构效关系积累样 本数据的过程中,需为小样本建模。此时较易造成过 拟合,影响模型的预测性能和稳定性”。浙江大学化 工系仿真中心的李剑、陈德钊、成忠和叶子青在新型 黄烷酮类衍生物Q S A R 建模中,用偏最小二乘法从样 本数据中成对地拦取最优成分,消除了自变量间的复 共线性,并有效的降维,然后应用最小二乘支持向量 机对成对成分进行非线性同归,取得了满意的效果。 2 4 支持向量机 虽然支持向量机方法在理论上具有很突m 的优 势,但应用研究相对比较滞后现在还处于探索阶段, 只有比较有限的实验研究报道,多输入仿真和对比实 验。2 0 0 1 年B u r b i d g e 首次将S V M 用于药物设计,标志 着这一优秀的统计学习算法在化学及相关领域应用 的开始。之后,国内外部分学者开始系统地使用 S V M 进行Q S A R 研究,并对该法的优缺点和适用范围 进行了详细考察。S V M 应用最为广泛的是在模式识别 领域,一个最突出的应用研究是贝尔实验室对美国邮 政手写数字库进行的实验;在说话人语音识别,人脸 检验、验证和识别,图像处理等方面的研究都有大量 的成功报遣在回归估计、数据挖掘、遥感图像分析、 硬件实现、网络入侵检测方面目前也已取得很好的研 究成果。在过程控制领域主要用来建立软测量模型, 在过程控制的其他方面的应用研究报道目前较少。多 氯代二嚼英、二苯并呋喃、联苯( P C D D P C D F P C B ) 等芳烃类物质对健康及水、土壤、大气环境造成严重 影响和潜在危害引起了人们极大关注”。该类物质具 有相似的母体结构且取代基往往为卤素原子,利用这 2 0 0 7 年7 月第二届全国农业环境科学学术研讨会论文集4 1 7 点规律重庆大学化工学院与生物T 程学院的周鹏、曾 晖、周原和李志良等人尝试将支持向量机( S V M ) 应用 于这3 种典型芳烃类环境毒物定量构效关系研究,通 过对芳烃受体亲和性考察,结果发现该组样本的生物 活性在一定程度上与分子电性距离矢量具有非线性 联系。S V M 对内部和外部样本都具有良好稳定性能和 预测能力,在大多数情况下能得到优于传统方法的建 模效果。由此可以认为支持向量机在环境毒物评价中 具有广阔的应用前景。 2 5 人工神经网络 目前,用A N N 来进行Q S A R 研究颇引人注目,在模 式分类与定量构效关系研究中展现了很好的应用前 景。在Q S A R 的研究中,南开大学、北京大学、中国 科学院上海药物研究所、中国科学院化工冶金研究 所、中国科学院长春应用化学研究所的化学计量学研 究小组运用人工神经网络法将分子模拟与研究相结 合,并直接用于指导实际的药物合成,取得了很好的研 究成果。另外,哈尔滨J 二业大学市政环境T 程学院和 东北林业大学森林资源与环境学院的高大文和王鹏 在取代苯类化合物定量构放关系模型构建中,采用人 工神经网络技术对所选点价自相关拓扑指数结构参 数进行筛选,并对筛选过程中不同数量的输入结构参 数所构建的一模型的质量和预测能力进行了比较。研 究结果显示,应用人工神经网络自身非线性特点对研 究中结构参数筛选是可行的,该研究成果不仅大大加 快了网络模型的运算速度,而且为深入探讨取代苯类 化合物生物致毒机理奠定了基础。中国科学院化丁冶 金研究所计算机化学开放实验室的谢前、孙红梅和周 家驹用神经网络方法,研究了含硫芳香衍生物对发光 细菌毒性的构效戈系并对未知毒性化台物进行了预 测。含硫芳香衍生物是广泛采用的农药和工业原料, 它们是一类对环境可能产生危害的化合物,对其毒性 进行研究和预测,必将对环境保护起到积极的作用。 3 结论与展望 定量构效关系对药物设计和新药研制、环境毒物 的毒性评价与预测有着显著的作用,H a n s c h 提出的 M L R 是广泛使用的经典方法。但Q S A R 有多种数据类 型如连续与离散、单元与多元、对称与非对称等,对 不同数据和问题当采取不同的方法。现在多用局部软 模型,一般说来,P L S 和A N N 是优秀的方法,预测能 力强,特别在描述变量为非正态和非独立分布及化合 物数远小于变蕈数是尤为突出。但他们也有不足之 处,如P I J s 有遗漏现象,A N N 是一种有效的药力学一 药效学模拟分析方法,但不能处理生理相关性,还不 能取代以实验现象为基础的分析方法。主成分分析主 要功能是使数据结构简化,大多数情况下会结合其他 建模方法使用。发展有效的新方法仍是Q S A R 建模的 一个重要方向。 作为新近发展的机器学习方法,S V M 通过结构风 险最小化原则建模,有效将期望风险降至最低,模型 预测力得到显著提高。支持向量机( S V M ) 与线性方 法( M L R ) 相比,S V M 能够较好反映化合物分子结构与 其毒性之间的非线性联系,因此在使用上更具普遍 性;与非线性方法( A N N ) 相比,s V M 能够适用于小样 本建模,并能有效避免模型过拟合问题,从而具有更 优的稳定性和泛化能力。另当参数设定后S V M 解还具 唯一性和再现性,故可认为S V M 至少在下列领域中具 有极为广阔的应用前景: ( 1 ) 实验设计:用S V M 建立的半导体薄膜质量控 制和电池材料的质量优化数学模型可靠性较好。因此 S V M 可望成为化学实验甚至化工扩大实验的有力丁 具,对精密化工配方优化设计也可能很有用。 ( 2 ) 商品检验:用S V M 和微量元素分析相结合, 判别茶叶品牌很有效。因此,类似方法很可能对名牌 烟、酒等商品的检验和“打假”有用。 ( 3 ) 环境保护:S V M 在环境保护有关的数据处理 方面( 如多环芳烃的环化行为研究,汽车尾气排放数 据分析,河流海洋污染规律研究等) 比现在常用的线 性回归和人工神经网络算法更有效。 ( 4 ) 药物设计,国外已有用S V M 建模研究药物设 计和Q S A R 的论文发表。我围在本论文系列中也有这 方面的工作,估计S V M 将成为Q S A R 和分子设计的有 用工具。 ( 5 ) 分析化学数据处理和多变量校正,用S V M 和 吸光吸光度法相结合,实现了c d 、P b 、z n 同时测定 的多变量校正。结果表明计算误差小于人工神经网络 和线性回归等算法。S V M 应能成为分析化学中一种新 的校正方法。 参考文献: 【l 】梅虎,周原,孙立力,等氨基酸结构描述子矢量V H S E 及其在肽 Q s A R 中的应用 化学通报,2 0 0 5 , 7 :5 3 4 - 5 4 0 【2 高大文王鹏基于神彝网络构建上匮代苯类化合物Q S A R 模,i i t J 哈尔 4 1 8 第二届全同农业环境科学学术研讨会论文集 2 0 0 7 年7 月 滨工业大学学报,2 0 9 5 ,3 7 ( 1 1 ) :1 4 9 6 - 1 4 9 8 , 【3 】;马长君,李鸣建取代芳烃与3 种生物急性毒性的定量构赦关系 J 】吉林 大学自然科学学报,2 0 0 1 A :9 3 - 9 9 附许替,吴亚甲,胡昌玉,等苯胺类化合物结构毒性定量构效关系研究叶 中国科学( B 辑) ,2 0 C O , 3 0 ( 1 ) :1 7 【5 】李志良定量构教关系研究进展1 化学通报,1 9 9 5 ,9 :5 1 0 6 】梁逸曾俞泣勤化学计量学在我国的发展叫化学通报,1 9 9 9 ,1 0 :1 4 - 1 9 【7 侧仲杰,刘毅倩三维定量构效关系是新研究进展叭河北科技大学学 报1 9 9 9 , 2 ( I ( 1 k 1 7 2 1 【8 】周松青解决多重共线性问题的线性回归

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论