




已阅读5页,还剩101页未读, 继续免费阅读
(分析化学专业论文)支持向量机在定量结构—活性相关中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
桂林工学院硕士学位4 4 - 文 摘要 通常采用多元线性回归、偏最小二乘、人工神经网络等方法建立定量结构 一性质活性相关( q s a r q s p r ) 模型。这些统计学方法是基于样本趋向于无穷多 的基础上发展起来的,然而,由于人力、财力、物力的不足以及方法学本身的 缺陷,致使人们常常不能获得足够多的样本数据,导致所建q s a r 模型常常不 稳健或可预测能力较差。为此,本文将近年来兴起的、从基于小样本的统计学 习理论中诞生的支持向量机( s v m ) 算法引入q s p w q s a r 中,研究与拓展了 s v m 分类与回归算法在聚氯乙烯酬有机溶剂性能、部分有机化合物毒性作用模 式分类和对多氯代二苯并二嗯英的气相色谱保留行为、部分有机化合物毒性回 归建模中的应用,结果表明了s v m 算法在解决小样本分类与回归问题中的优 势。 本文主要研究内容及取得的成果如下: 1 支持向量机概述。 支持向量机是v a p n i k 等人在统计学习理论基础上提出的种确定两类问 题最优分类超平面的有效算法。与传统模式识别的降维方法不同,s v m 算法是 一种升维映射分类,它首先将描述变量构成的输入空间通过不同的核函数进行 非线性映射,变换到更高维的特征空间,进而通过最优化各类样本在该高维空 问中的分类距离确定最大边界超平面,并确定最优分类超平面,最终通过支持 向量解决样本分类问题。由于s v m 具有比神经网络更好的泛化推广能力,能 消除神经网络的过拟合现象,能对小样本问题构建稳定可预测的统计分类模型, 并能拓展到多类分类与回归问题。因而已成为计算智能技术研究及其相关应用 领域中新的研究热点。本文从统计学习理论开始概括了s v m 算法用于模式识 别和回归计算的原理,总结了s v m 中用到的优化算法的发展情况,以及s m o ( s e q u e n t i a lm i n i m a lo p t i m i z a t i o n ) 算法的实现策略,s v m 软件的使用方法。 2 s v m 算法在分类中的应用研究。 ( 1 ) 以7 3 个有机溶剂和水分子的溶解度参数分量为自变量,非晶态聚氯乙 烯在有机溶剂中的耐蚀性能为因变量,建立了s v m 分类模型,模型对全部样 本只有4 个识别错误:其l o o ( l e a v e o n e o u t ) 交互检验只有6 个样本识别错误; 建立了4 0 个训练样本的模型,对全部样本识别也只有6 个不正确,其中训练集 5 个,检验集1 个。 桂林工学院硕士学位论文 ( 2 ) 以选定的醇、酮、醚、链烃、胺等1 9 0 个有机化合物的辛醇水分配系 数l o g ( k 。) 、最低未占有轨道能e l u m o 、最高占有轨道能e h o m o 、分子中氢原 子的最高正电荷q + 和非氢原子最高负电荷q 一为自变量,有机化合物的2 种毒 性作用模式为因变量,建立了有机化合物的极性麻醉和非极性麻醉毒性作用模 式的分类模型,模型对1 9 0 个有机化合物的毒性作用模式全部f 确识别,其l o o 交互检验识别率达到1 0 0 ;建立了1 3 0 个训练样本的模型,对全部1 9 0 个样 本识别也只有2 个不正确,都是检验集样本。 ( 3 ) 以2 2 1 个酚类有机化合物的m e d v 描述子为自变量,化合物的4 种毒 性作用模式为因变量,建立了化合物的毒性作用模式的分类模型,模型对2 2 1 个样本的毒性作用模式有1 3 个不能正确识别,l o o 交互检验有2 3 个样本不能 l l i 确识别,模型对4 毒性作用模式识别错误的情况分别为( 错误识别样本数各 类总样本数) :0 15 3 、3 1 8 、1 1 2 7 、2 2 3 ;建立了1 5 5 个训练样本的模型,模型 对全部2 2 1 个样本的毒性作用模式有1 6 个不正确识别,训练集和检验集各有8 个识别错误。 3 s v m 算法在回归计算中应用研究。 ( 1 ) 以7 5 个对多氯代二苯并二嗯英( p c d d s ) 的m e d v 描述子作为自变量, 以p c d d s 在四种固定相的气相色谱保留行为值为因变量,分别建立了支持向 量机回归模型,实验值与模型预测值之间的相关系数r 分别为o 9 9 9 7 、0 9 9 7 5 、 o 9 9 8 4 、o 9 9 9 8 ,标准偏差分别为6 0 9 8 5 、0 0 1 0 3 、0 0 0 9 0 、0 0 0 5 7 。模型的q 2 分别为0 9 9 7 5 、o 9 9 0 6 、0 9 9 4 2 、o 9 9 3 6 。建立了不同固定相各自训练集的模型, 并预测了检验集和预测集;取得了非常好的效果。 ( 2 ) 以2 1 个卤代脂肪单酯分子的m e d v 为自变量,脂肪单酯毒性为因变 量,建立了s v m 回归模型,实验值与模型预测值之间的相关系数r 为o 9 9 4 , 标准偏差为o 0 8 8 6 ,模型的q 2 为o 9 2 3 5 。 ( 3 ) 以3 9 个卤代脂肪醇和卤代腈等化合物分子的m e d v 为自变量,脂肪 醇和卤代腈等化合物毒性为因变量,建立了s v m 回归模型,实验值与模型预 测值之间的相关系数月为o 8 3 6 4 ,标准偏差为0 4 4 5 4 ,模型的q 2 为o 5 6 1 3 。 关键词:支持向量机( s v m ) ,定量结构一性质活性相关,分类,回归,毒性 桂林工学院硕士学位论文 a b s t r a c t s t h em e t h o d ss u c ha sm u l t i p l yl i n e a rr e g r e s s i o n ,p a r t i a ll e a s ts q u a r e s ,a r t i f i c i a l n e u r a ln e t w o r ka n de t c a r e u s u a l l y u s e df o r b u i l d i n gq u a n t i t a t i v e s t t n c t u r e - p r o p e r t y a c t i v i t y1 e l a t i o n s h i p ( q s p r q s a r ) m o d e l t h o s es t a t i s t i c a l m e t h o d sa r ed e v e l o p e db a s e dl o t so fs a m p l e s d u et os h o r to fm a n p o w e r ,f i n a n c i a l a n dm a t e r i a lr e s o u r c e s ,a n dp i t f a l l so fm e t h o d o l o g y ,e x p e r i m e n t a ld a t aa r eo f t e nn o t e n o u g h t h eq s p r q s a rm o d e l sb a s e do na b o v em e t h o d sa r e g e n e r a l u n r o b u s t n e s so rp o o r p r e d i c t a b i l i t y t h e r e f o r e ,s u p p o r tv e c t o rm a c h i n e ( s v m ) , w h i c hd e v e l o p e df r o ms t a t i s t i cl e a r n i n gt h e o r yb a s e do ns m a l ls a m p l e s ,i si n t r o d u c e d i n t o q s p r q s a ri n t h i st h e s i s ,t h es v ms u c c e s s f u l l yh a sb e e n u s e di n c l a s s i f i c a t i o no ft h ec o r r o s i o nr e s i s t a n c e so fn o n c r y s t a l l i n ep o l y v i n y lc h l o r i d e ( p v c ) t oo r g a n i cs o l v e n t s ,c l a s s i f i c a t i o no ft o x i c i t i e sm o d eo fa c t i o n ( m o a ) o fs o m e o r g a n i cc h e m i c a l s ,r e g r e s s i o nm o d e l i n go fr e t e n t i o nb e h a v i o ro fp o l y c h l o r i n a t e d d i b e n z o d i o x i n s ( p c d d s ) o ng a sc h r o m a t o g r a p h i cs t a t i o n a r yp h a s e s ,r e g r e s s i o n m o d e l i n go f t o x i c i t i e so fs o m eo r g a n i cc h e m i c a l s t h es v m r e s u l ts h o w sap o w e r f u l p o t e n c yo fs v m o ns o l v i n gs m a l ls a m p l e sp r o b l e m t h em a i nc o n t e n ta n ds o m ec o n c l u s i o n sa r ea sf o l l o w s : 1 t h es u m m a r yo f s v m t h es u p p o r tv e c t o rm a c h i n ew a sd e v e l o p e db yv a p n i ka sap o w e r f u lt o o lf o r p a t t e r nc l a s s i f i c a t i o n i nt w oc l a s s e sb yd e t e r m i n i n ga l l o p t i m a lh y p e r p l a n et h a t s e p a r a t e st h ec l a s s e s d i f f e r e n tf r o mr e d u c e dt h ed i m e n s i o no ft r a d i t i o n a lp a t t e r n r e c o g n i t i o n ,t h es v ma l g o r i t h mi sac l a s s i f i c a t i o nm e t h o dw i t hm a p p i n gi n p u ts p a c e i n t oh i g h e rd i m e n s i o n a ls p a c e i nt h ef i r s ts t e p ,u s i n gv a r i o u sk e r n e l st h a tp e r f o r ma n o n l i n e a rm a p p i n g ,t h ei n p u ts p a c ei st r a n s f o r m e di n t oah i g h e rd i m e n s i o n a ls p a c e t h e n ,am a x i m a lm a r g i nh y p e r p l a n ei sc o m p u t e di nt h ef e a t u r es p a c e m a x i m a l m a r g i nh y p e r p l a n em a x i m i z e st h ed i s t a n c et ot h eh y p e r p l a n eo ft h ec l o s e s tp a t t e r n s f i o mt h et w oc l a s s e s f i n a l l y , t h ec l a s s i f i c a t i o no fp a t t e r n si sf i n i s h e db ys u p p o r t v e c t o r d u et oi t sb e t t e ra b i l i t yo fg e n e r a l i z a t i o na n d a v o i d i n go v e r - f i t t i n gc o m p a r i n g t oa r t i f i c i a ln e u r a ln e t w o r k ( a y n ) ,t h es v mh a sb e c o m eah o ts p o ti nc o m p u t a t i o n a l i n t e l l i g e n c et e c h n i q u es t u d ya n do t h e rr e l e v a n tf i e l d s b e s i d e s ,i tc a nb u i l ds t a b l e a n dp r e d i c t a b l es t a t i s t i c a lm o d e lf o rs m a l l - s a m p l ep r o b l e m s ,a n dh a sb e e nd e v e l o p e d i nc l a s s i f i c a t i o na n dr e g r e s s i o ni n m a n yc a s e s t i f f s t h e s i sd e s c r i b e ss t a t i s t i c a l l e a r n i n gt h e o r ya b o u tt h et h e o r yo fs v ma l g o r i t h m ,t h ep r a c t i c a ls t r a t e g yo f s e q u e n t i a lm i n i m a lo p t i m i z a t i o n ( s m o ) a n dt h eu s i n gm e t h o do fs v m s o f t w a r e “i i 桂林工学院硕士学位论文 2 t h ea p p l i c a t i o no fs v mi nc l a s s i f i c a t i o n ( 1 ) t a k e ns o l u b i l i t yp a r a m e t e rc o m p o n e n t so f7 3o r g a n i cs o l v e n t sa n dw a t e ra s i n d e p e n d e n t ,a n dt h ec o r r o s i o nr e s i s t a n c eo fn o n c r y s t a l l i n ep o l y v i n y ic h l o r i d ea s d e p e n d e n tv a r i a b l e s ,t h ec l a s s i f i c a t i o nm o d e lw a sb u i l tb ys v m ;o n l y4s a m p l e si n a l lw e r em i s c l a s s i f i e d ,a n d6m i s c l a s s i f i e di nl 0 0 ( l e a v e - o n e - o u t ) c r o s sv a l i d a t i o n am o d e lf o rt h et r a i n s e ti n c l u d i n g4 0s a m p l e sw a sa l s ob u i l t ;o n l y6s a m p l e sw e r e m i s c l a s s i f i e di na l l ,5i nt h et r a i n s e ta n dli nt e s t s e t ( 2 ) t a k e no c t a n o l w a t e rp a r t i t i o nc o e f f i c i e n t ( 1 0 9 k o w ) ,e n e r g yo ft h el o w e s t u n o c c u p i e dm o l e c u l a ro r b i t a l ( e l u m o ) ,e n e r g yo ft h eh i g h e s to c c u p i e dm o l e c u l e o r b i t a l ( e h o m o ) ,t h em o s tp o s i t i v ep a r t i a lc h a r g eo nah y d r o g e na t o m ( q + ) ,t h em o s t n e g a t i v ep a r t i a lc h a r g eo na n yn o n - h y d r o g e na t o mo ft h em o l e c u l eo f19 0a l c o h o l , k e t e n e s ,a e t h e r , a l k a n e ,a m i n ea n de t co r g a n i cc h e m i c a l s ,a si n d e p e n d e n tv a r i a b l e , p o l a rn a r c o s i sa n dn o n p o l a rn a r c o s i so ft o x i c i t i e sm o ao fo r g a n i cc h e m i c a l sa s d e p e n d e n tv a r i a b l e ,t h ec l a s s i f i c a t i o nm o d e lw a sb u i l tb ys v m ;n os a m p l ew a s m i s c l a s s i f i e di na l la n di nl 0 0c r o s sv a l i d a t i o n am o d e lf o rt h et r a i n s e ti n c l u d i n g i3 0s a m p l e sw a sa l s ob u i l t ;o n l y2s a m p l e sm i s c l a s s i f i e di n a l l ,n os a m p l ei n t r a i n s e ta n d2i nt e s t s e t ( 3 ) s e l e c t e dm o l e c u l a re l e c t r o n e g a t i v i t y d i s t a n c ev e c t o r ( m e d v ) d e s c r i p t o r o f2 21 p h e n o l sa si n d e p e n d e n tv a r i a b l e ,4k i n d st o x i c i t i e sm o ao fp h e n o l sa s d e p e n d e n tv a r i a b l e t h ec l a s s i f i c a t i o nm o d e lw a sb u i l tb ys v m ;13s a m p l e sw e r e m i s c l a s s i f i e di na 1 1 a n d2 3m i s c l a s s i f i e di nl o oc r o s sv a l i d a t i o n t h en u m b e ro f m i s c l a s s i f i e d s a m p l e so f4k i n d sw e r e0 15 3f t h e n u m b e ro fm i s c l a s s i 6 e d t h e n u m b e ro fo n ek i n do ft o x i c i t i e sm o a ) ,3 l8 ,11 2 7 ,2 2 3 am o d e lf o rt h et r a i n s e t i n c l u d i n g1 5 5s a m p l e sw a sa l s ob u i l t ;1 6s a m p l e sw e r em i s c l a s s i f i e di na 1 1 8i nt h e t r a i n s e ta n d8i nt e s t s e t 3t h e a p p l i c a t i o no fs v m i nr e g r e s s i o n ( 1 ) t a k e nm e d vd e s c r i p t o ro fi s o m e r so fp o l y c h l o r i n a t e dd i b e n z o d i o x i n s ( p c d d s ) a si n d e p e n d e n tv a r i a b l e s ,r e t e n t i o n b e h a v i o ro fp c d d so n g a s c h r o m a t o g r a p h i c4s t a t i o n a r yp h a s e sa sd e p e n d e n tv a r i a b l e s ,4r e g r e s s i o nm o d e l s w e r eb u i l db ys v m ,a n dt h ec o r r e l a t i o nc o e f f i c i e n to fb e t w e e ne x p e r i m e n t a lv a l u e s a n dt h ep r e d i c t e dv a l u e sf o r4m o d e l sw e r er e s p e c t i v e l yo 9 9 9 7 ,o 9 9 7 5 ,o 9 9 8 4a n d o 9 9 9 8 ;t h es t a n d a r dd e v i a t i o nw e r e6 0 9 8 5 ,0 0 1 0 3 ,o 0 0 9 0 a n d o 0 0 5 7 , r e s p e c t i v e l y ;t h ec o r r e l a t i o nc o e f f i c i e n tt ol 0 0p r e d i c t e dq 2w e r eo ,9 9 7 5 ,o 9 9 0 6 , o 9 9 4 2a n do 9 9 3 6 r e s p e c t i v e l y 4r e g r e s s i o nm o d e l sf o rt r a i n s e tw e r er e s p e c t i v e l y i v 桂林工学院硕士学位论文 b u i l d i n g ;r e t e n t i o nv a l u e s o fv a r i o u sp c d d si nt e s t s e ta n dp r e d i c t e d s e tw e r e c a l c u l a t e d ( 2 ) t a k e nm e d vd e s c r i p t o r o f2 1 h a l o g e n s u b s t i t u t e da l i p h a t i c e s t e r sa s i n d e p e n d e n tv a r i a b l e ,t o x i c i t i e so fc h e m i c a l sa sd e p e n d e n tv a r i a b l e ,ar e g r e s s i o n m o d e l sw e r eb u i l db ys v m ,a n dt h ec o r r e l a t i o nc o e f f i c i e n to fb e t w e e ne x p e r i m e n t a l v a l u ea n dt h ep r e d i c t e dv a l u ew a s0 9 9 4 ,a n ds t a n d a r dd e v i a t i o nw a so 0 8 8 6 , q 2 = o 9 2 3 5 ( 3 ) s e l e c t e dm e d vd e s c r i p t o ro f3 9h a l o g e n s u b s t i t u t e da l i p h a t i ca l c o h o la n d n i t r i l ea s i n d e p e n d e n tv a r i a b l e ,t o x i c i t i e s o fc h e m i c a l sa s d e p e n d e n tv a r i a b l e ,a r e g r e s s i o nm o d e l sw e r eb u i l db ys v m ,a n dt h ec o r r e l a t i o nc o e f f i c i e n to fb e t w e e n e x p e r i m e n t a lv a l u ea n dt h ep r e d i c t e dv a l u ew a so 8 3 6 4 a n ds t a n d a r dd e v i a t i o nw a s 0 4 4 5 4 q 2 = o 5 6 13 k e y w o r d :s u p p o r tv e c t o rm a c h i n e ( s v m ) ,q u a n t i t a t i v es t r u c t u r e p r o p e r t y a c t i v i t y r e l a t i o n s h i p ( q s p r q s a r ) ,c l a s s i f i c a t i o n ,r e g r e s s i o n ,t o x i c i t y v 一 桂林工学院硕士学位论文 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得桂林工学院或其它教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示了谢意。 签名 期:造咝彳 关于论文使用授权的说明 本人完全了解桂林工学院有关保留、使用学位论文的规定,即:学校有权 保尉送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或 部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密论文在解密后应遵守此规定) 签名 桂林工学院硕士学位论文 第1 章绪论 1 1 概述 现在世界上已知的化学物质数量己达几千万种,并且每天还有成千上万利t 新合成的化学物质,这些化学物质大部分进入了我们赖以生存的环境中,而这 些新的物质与其结构相似的原有化学物质是否对人类或其它生物具有相似的毒 性,其大小又如何? 要对这些化学物质一个一个地进行测试并评价是不太可能 的,一是因为有限的人力、物力和财力不允许;二是有些化合物是工业生产、 垃圾焚烧等的副产物,目前还没有什么好方法将它们分离出来。因此能否在仅 测试少部分化学物质的情况下建立模型并预测那些未知的化学物质? 定量结构 一性质活性相关( q u a n t i t a t i v es t r u c t u r e 。p r o p e r t y a c t i v i t y r e l a t i o n s h i p , q s p r q s a r ) 方法正是解决这类问题的关键技术d , 2 】,它从分子结构出发,以合 适的描述子表征少量的分子,然后借助适当的数学统计学方法,如多元线性回 归( m u l t il i n e a rr e g r e s s i o n ,m l r ) ”,4 j 、偏最小二乘方法( p a r t i a ll e a s ts q u a r e s , p l s ) j 、聚类分析( c l u s t e ra n a l y s i s ) 1 3 , 4 1 与判别分析( d i s c r i m i n a n ta n a l y s i s ) 等模 式识另1 ( p a t t e r nr e c o g n i t i o n ) 5 1 方法、人工智能机器学习机( a r t i f i c i a li n t e l l i g e n c e l e a r n i n gm a c h i n 6 7 j 等建立结构一性质活性模型,然后通过这些模型预测或估 计未知样本的性质或活性,为了解和评价这些物质的性质和生物活性提供一些 指导。 传统统计分析方法的基础主要是渐进理论,得到的结果是样本趋向于无穷 多时的统计性质。而在现实的问题中,我们所面对的样本数目通常是有限的, 仃时还十分有限。但足人们还足希望通过这些方法在样本较少时能够有较好的 ( 至少是可接受的) 表现。然而,让我们失望的情况很容易出现,比如用多元线 性回归建立的模型有时对没有参与建模的数据预测结果很差,神经网络的过拟 合( o v e r f i t t i n g ) 等问题,这就是所谓的小样本问题。因此,如何利用这些有限的 样本建立高效的预测或估计模型,成为q s a p r q s a r 研究中的一个热点问题。 2 0 世纪9 0 年代,v a p n i k 博士等创立的统计学习理论【s , g l ( s t a t i s t i c a ll e a r n i n g t h e o r y ,s l l 1 给我们带来解决小样本问题的希望,这一理论系统地研究了机器 桂林工学院硕士学位论文 学习的问题,尤其是有限样本情况下的统计学习问题,从s l t 中发展起来的支 持向量机( s a p p o r tv e c t o rm a c h i n e ,s v m ) 算法,是s l t 的具体实现方法,为我 们解决小样本的模式识别和回归问题提供了有力地支持,其应嗣前途无可估量。 s v m 算法目前已经成为q s p r q s a r 研究的一种全新方法,科研工作者都 希望能够借助这种新算法解决团扰已久的小样,本问题。自从引入q s p r q s a r 研究以后,s v m 算法已经取得了大量的研究成果。下面我们就从统计学习理论 开始简单地介绍一下支持向量机算法的相关知识。 1 2 统计学习理论与支持向量机简介 统计是我们面对实验数捌而又缺乏耻沧模型利撮基本、也是雌一的分析手 段,然而小样本问题卸又一直困扰着我们,因此,科研1 作者从没有停止过寻 找这个问题解决方法的探索。v a l d k n i rn ,v a p n i k 8 , 9 】等人早在2 0 世纪6 0 年代就 开始研究有限样本情况下机器学习的问题。由于当时这些研究尚不十分完善, 在解决模式识别问题中往往趋于保守,且数学上比较艰涩难懂,这在一定程度 上也阻碍了其发展和应用。因而直到帅年代以前并没有提出能够将其理论付诸 实现的较好方法,加之当时正处在其它学习方法飞速发展的时期,因此这些研 究一直没有得到充分的重视。直到9 0 年代中期,有限样本情况下的机器学习理 论研究逐渐成熟起来,形成一个较完善的理论体系即统计学习理论。而同时神 经网络等较新的机器学习方法研究则遇到一些重要的圃难,比如如伺确定网络 结构、过拟台和欠拟合( u n d e r f i t t i n g ) 、局部极小点问题等,在这种情况下,试 图从本质上研究机器学习问题的统计学习理论逐步得到重视。1 9 9 2 一1 9 9 5 年, 在统计学习理论的基础上发展出了一种新的模式识别方法一一支持向量机算 法,它在解决小样本、非线性及高维模式识别问题中表现出特有的优势,并能 推广应用到函数拟合( 回归1 等其它机器学习问题中。一些学者认为,它们f 在 成为继模式识别和神经网络研究之后机器学习领域中新的研究热点,并将推动 机器学习理论和技术的重大发展。 s l t 体系及其s v m 算法在解决小样本问题过程中应用核函数所取得的突 出进展令人鼓舞,已被认为是目前针对小样本统计估计和预测学习的晟佳理论。 s l t 的核心内容包括4 个方面: s l t 的核心内容包括4 个方面: 桂林工学院硕士学位论文 。经验风险最小化原则下统计学习一致性的条件; o 在这些条件下关于统计学习方法推广性的界的结论; o 在这些界的基础上建立的小样本归纳推理原则; 实现这些新原则的实际方法( 算法) 。 传统的统计数学模型在拟合样本数掘集时,其数学实质是从函数集中选出 合适的函数,并使其风险函数为最小,但是风险函数中的几率分布函数我们无 法得知,也就无法求其极小值。因此,就假设风险函数可用经验风险函数代替, 而根据大数定律,只有当样本数无穷大时,且函数集足够小时该假设才成立。 这实际上是假定最小二乘意义的拟合误差作为建模的最佳判据,这样处理的结 果导致了拟合能力过强的算法预测能力反而降低,这就是所谓的过拟合现象。 统计学习理论认为神经网络等方法容易出现过拟合问题,是因为学习样本不充 分( 样本数量少) 和学习机器设计不合理的原因造成的。正因为这些原因,所以 造成有限样本的情况下,经验风险最小不一定意味着期望风险最小,期望风险 不能达到最小,也就无法保证模型的预测能力。 为此,s l t 提出用结构风险函数代替经验风险函数,以解决上述问题。s l t 要求在控制以v c 维( v a p n i k c h e r v o n e n k i sd i m e n s i o n ) 数为标志的拟合能力上界 ( 以限制过拟合) 前提下追求拟合精度。而控制v c 维的方法有三大类: o 拉大两类样本点集在特征空间中的间隔; o 缩小两类样本点各自在特征空间中的分布范围; o 降低特征空间维数。 传统统计学方法一般认为特征空间维数是控制过拟合的唯一手段,而s l y 则强调靠前两种手段就可以保证在高维特征空间运算仍有低的v c 维,从而保 证限制过拟合。对于分类学习问题,传统模式识别方法强调降维,而s v m 与 此相反,对于特征空问中两类数据点不能靠超平面分开的非线性问题,s v m 采 用映射方法将其映射到更高维的空间,并求得最佳区分二类样本点的超平面方 程,以此作为判别未知样本的判据。这样,空间维数虽高,但v c 维仍可压低, 从而限制了过拟合,即使已知样本较少,仍能有效地作统计预测。 对于回归建模问题,传统的统计学方法在拟合训练样本时,将有限样本数 据中的误差也拟合在数学模型中了。针对传统统计方法的这一缺点,s v m 采用 “g 不敏感函数”控制拟合精度,在一定约束条件下,获取数学模型的唯一解。 一3 一 桂林工学院硕士学位论文 h i if 这一求解策略使过拟合受到限制,显著提高了数学模型的预测能力。 1 3 支持向量机算法在q s p r ,q s a r 中的应用 因为s v m 算法在处理小样本问题上的优势,并且其研究和应用取得了很 大的成效,因此学术刊物“m a c h i n el e a r n i n g ”等都为s v m 出版了专刊,说 明该算法的理论和技术己趋成熟,应用范围也在迅速扩大。s v m 算法的出现也 引起了q s p r q s a r 研究者们的注意,从2 0 0 1 年开始,国际上已经开始有s v m 用于q s p r q s a r 和药物设计的论文发表】。从这以后,国际上陆续发表了很 多有关s v m 在q s p r q s a r 研究中的文献 1 2 q 8 】,并日益增多,这些文献主要 涉及药物设计、有机物的水生毒性及毒性作用模式、有机物的水溶性,理化性 质预测等应用研究。如b u r b i d g er 等初步研究了s v m 在药物设计中的应用并 1 引分统方法进行了比较川;j u nx u 等探讨了s v m 在药物发现过程中的应用前 景,并结合高通量药物筛选方法说明了s v m 的应用【12 】:o v i d i ui v a n c i u c 利用血 液中的某些无机离子浓度结合s v m 来诊断癌症【i 刊:并研究了吡嗪的气味结构 相关( s o r ) 的s v m 应用1 1 4 j :多环芳烃致癌活性的分类;有机化合物水生毒性 作用模式的分类【1 6 】;m a t t h e wwb t r o t t e r 等评述了s v m 在组合化学中应用1 ; p e t e rl i n d 1 8 1 等用s v m 估计了有机物的水溶性:e v g e n yb y v a t o v 等比较了s v m 和人工神经网络在药物和非药物分类中的应用【19 j ;h x l i u 等将s v m 用于乳 腺癌诊断1 2 0 1 ,建立了蛋白质活性等抑制剂乙基2 - 3 甲基一2 ,5 - 二氧代( 3 一毗咯啉 基) ) 胺 _ 4 ( 三氟甲基) 嘧啶5 羧酸酯抑制活性的s v m 模型【2 1 1 等。s v m 算法在 q s p r j q s a r 中的应用研究正在同益深入,这将把q s p f u q s a r 的研究带入到 一个崭新的世界。 1 4 支持向量机在q s p r ,q s a r 应用中的一些问题 s v m 算法的发展和应用时间比较短,该算法中所涉及的数学知识比较多且 深奥难懂,加上q s p r q s a r 研究者自身的原因,使得在应用过程中出现了一 些问题。本文就我们在实际应用过程中遇到的一些问题列出以下几个方面: o 因为专业方向的不同,通常大部分的q s p r i q s a r 研究者对s v m 算法 中数学推导难以理解,特别是优化算法。 桂林工学院硕士学位论文 o 同样还是因为专业方向的不同,大部分的q s p r q s a r 研究者很难自 己编程实现s v m 算法,多数是直接采用现成的软件或者稍加修改的软 件,因此只能使用软件中原有的核函数、优化算法。这样选择合适的 软件就非常重要,通常会影响计算速度和建模效果等。 o 因为s v m 的发展时间不长,实际应用过程中,如何找到最优的参数, 目前还没有统一的模式或方法可遵循,并且对每个应用体系的参数通 常不会相同,因此一个高效的参数搜索方法显得非常重要。 o 如何检验建立的模型是最优的? 这是非常实际的问题。我们还是借用 统计学中的交互检验方法检验,特别是l e a v e o n e o u t ( l o o ) 交互检 验。 1 5 主要研究内容 本文研究内容是q s a r 研究中不可或缺的模型建立方法,主要研究了s v m 在q s a r 建模中的应用。研究了s v m 建模过程中参数优化方法,包括对支持 向量机算法、核函数、支持向量机和核函数参数的选择,然后根据所选优化参 数建立模型,并对样本进行预测。通过对各种实际体系的应用,来考察各种s v m 算法、各种参数对模型建立、模型预测效果的影响。本文将分以下几章来讨论: 第l 章绪论从q s p r q s a r 研究中常用建模方法存在小样本问题的原因开 始,说明了前人对小样本建模方法、以及基于传统统计学的建模方法处理小样 本问题的不懈努力。然后引出针对小样本的机器学习理论一统计学习理论,并 总结了统计学习理论的基本思想。接着对统计学习理论的具体实现算法一支持 向量机的发展、以及支持向量机算法用于模式识别和回归的基本思想、支持向 量机算法在q s p l v q s a r 研究中的应用进行了总结。 第2 章主要介绍支持向量机的原理。从机器学习的基本问题丌始,总结了 传统的机器学习方法中用经验风险取代实际风险原因和由此引起的如神经网络 l i ,山现过拟合问题的原因、统计学习理论的核心内容、结构风险准则的思想、 统计学习的实现策略、s v m 分类的实现思想。进而从线性可分的情况开始,给 出了s v m 的数学推导过程,并拓展到线性不可分的情况,给出了s v m 算法两 种实现的方法( c s v cf f d v s v c ) ,s v m 用于多类情况时o n e a g a i n s t - o n e 方法 的思路和操作过程。然后先从线性回归到非线性的情况给出了s v m 用于回归 一 桂林工学院硕士学位论文 的数学推导过程,同样也有两种s v m 算法实现方法( s v r 和v s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- arp 地址解析协议书
- 电流环协议书
- 厂家馈赠协议书
- cf违反用户协议书
- 北京小客车指标租赁协议书范本
- 古井陈列协议书
- qq是什么协议书
- 工作保密协议书模板
- 公司分红协议书
- 9.2高原湿地-三江源地区(说课稿)八年级地理下册同步高效课堂(人教版)
- 2025至2030中国大宗物资供应链行业发展趋势分析与未来投资战略咨询研究报告
- 胰岛素储存知识培训课件
- GB 46039-2025混凝土外加剂安全技术规范
- 2025至2030年中国卡丁车俱乐部行业市场调研分析及投资战略咨询报告
- 加油站职业健康危害因素分析
- 辽宁省沈阳市2025届高考语文模拟试卷(含答案)
- 公路统计管理办法
- 危重症患者的疼痛管理
- 电力建设安全规程2025新版
- 2024年法考真题及答案解析
- 2025年苏州市中考数学试卷真题(含答案解析)
评论
0/150
提交评论