




已阅读5页,还剩89页未读, 继续免费阅读
(分析化学专业论文)支持向量机在多元校正、qsar及化学模式识别研究中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海师范大学硕士学位论文 摘要 论文题目:支持向量机在多元校正、q s a r 及化学模式识别研究中的应用 学科专业:分析化学 学位申请人:戴钰婷 指导教师:曹晓卫 摘要 化学计量学是一门结合了数学、统计学和计算机科学的新兴交叉学科,它对化 学实验数据具有很强的处理能力和挖掘能力。作为一种近年来正逐步得以广泛应用 的新兴计量学方法,支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 方法,是一种基于结 构风险最小化的新算法。s v m 不同于采用经验误差最小化标准的、以误差反向传播 ( b a c kp r o p a g a t i o nn e u r a ln e t w o r k s ,b p n ) 算法为代表的人工神经网络方法,它可以在 很大程度上避免b p n 算法使用过程中存在的“过学( o v e r - f i t t i n g ) 问题;通过选 用不同的核函数可以寻找出空间最优平面,以期避免信息的丢失,获得更为可靠、 更为准确的结果。s v m 方法正在包括多元分辨和校正分析和模式分类研究等领域中 逐步得以应用,也有望在数据处理和分析任务愈来愈繁重的现代分析科学中发挥它 的积极作用。本论文就从多元混合体系的同时定量分析,定量构效研究和模式识别 研究三个方面对支持向量机进行了应用研究,具体内容如下: 对于多元混合体系的定量分析,常需要花费大量的时间和精力在多组分的预分 离,借助化学计量学手段则可较简单的实现复杂多组分的同时直接测定。我们将支 持向量机应用于处理混合重金属离子的紫外可见分光光度图谱、芦丁和抗坏血酸混 合体系的紫外可见分光光度图谱及微分脉冲伏安图谱以及多种混合氨基酸的拉曼 图谱。实验和计算表明,支持向量机方法能很好地提取从混合图谱中得到的信息进 行解析,建模和预报的结果较b p n 更为精确。 原子光谱的电子组态通常是根据谱线的能级、强度、同位素位移、塞曼效应等 测量数据进行确定,或者应用量子理论计算来指认。但由于光谱的复杂性,也有某 些高激发态的原子光谱所属的电子组态难于确定。虽然已有学者采用传统的化学计 量学方法进行了初步研究,但仍存在许多未知样本无法预报和预报模糊的情况。因 摘要 上海师范大学硕士学位论文 此,尝试采用支持向量机预报c mi i 、p ui 、ui 的未知组态。计算结果表明,相对传 统化学模式识别方法,支持向量机更全面、更准确地预报了未知组态;同时在各个 方法的预报结果对比后,加强说明了支持向量机的可信性。 氨基酸( a m i n oa c i d ) 环保无毒害,具有抗缓蚀效能,使其成为理想的抗缓蚀剂, 但其缓蚀效率的原理通常是通过经验总结的方式来进行解释的,鉴于化学计量学在 定量构校中的广泛应用,采用支持向量机方法建立了氨基酸的缓蚀效率与其物性参 数和结构量化参数间的定量关系,从而为探索氨基酸的缓蚀机理提供一种思路。 关键词: 支持向量机,多元校正,q s a r ,化学模式识别 论文类型:应用研究 i i 上海师范大学硕士学位论文 a b s t r a c t t i t l e :t h ea p p l i c a t i o no fs u p p o r tv e c t o rm a c h i n ei nm u l t i v a r i a t ec a b l i b r a t i o n , q u a n t i t a t i v es t r u c t u r e a c t i v i t yr e l a t i o n s h i p sa n dc h e m i c a lp a t t e r nr e c o g n i t i o n s p e c i a l i t y :a n a l y t i c a lc h e m i s t r y n a m eo f a p p u c a t i o n :y u t i n gd a i n a m eo ft e a c h e r :x i a o w e ic a o a b s t r a c t c h e m o m e t f i c s ,c o m b i n e sm a t h m a t i c s 、s t a t i s t i c sa n dc o m p u t e rs c i e n c e s ,h a ss t r o n g e a b i l i t yo fd e a l i n gw i t ht h ed a t ao f c h e m i c a le x p e r i m e n t s u p p o r tv e c t o rm a c h i n e ( s v m ) h a ss o l i dt h e o r e t i c a lf o u n d a t i o na n dc a nd e a lw i t hs m a l ld a t a s e t ,n o n li n e a ro p t i m i z a t i o n , h i 曲d i m e n s i o n a lf e a t u r es p a c e ,l o c a lm i n i m i z a t i o na n do t h e rr e a l i s t i cp r o b l e m s s oi t w a sa l la r e ao fi n t e n s er e s e a r c hi nl a t e19 9 0 s a l o n gw i t ht h ed e v e l o p m e n to fs v m ,s o m e d e r i v e da l g o r i t h m sh a v eb e e np u tf o r w a r da n dt h ea p p l i c a t i o no fs v mh a sg r a d u a l l yb e e n t h eh o tp o i n tf o rr e s e a r c h e r si nt h ew o r l d t o d a y ,s v mh a sb e e ns u c c e s s f u l l ya p p l i e di n f a c er e c o g n i t i o n ,v o i c ei d e n t i f i c a t i o n ,h a n d w r i t t e nd i g i tr e c o g n i t i o n ,t e x tc l a s s i f i c a t i o n , r i s ka s s e s s m e m ,p r o t e i ns t r u c t u r er e c o g n i t i o n ,g e n er e c o g n i t i o na n do t h e rp a t t e r n r e c o g n i t i o nd o m a i n sa n da c h i e v e se q u i v a l e n to rs u p e r i o rr e s u l t sc o m p a r e dt o t h o s e o b t a i n e db ys o m eo t h e rm e t h o d s ,s u c ha sa r t i f i c i a ln e u t r a ln e t w o r k s ( a n n s ) w h i c hh a v e b e e nw i d e l yu s e di nc h e m o m e t r i c sa n da n a l y t i c a lc h e m i s t r y i ti sv e r ye x c i t i n gt h a tt h e i r c a p a b i l i t yt og e n e r a l i z ei n p u t o u t p u tm a p p i n gf r o mal i m i t e ds e to ft r a i n i n ge x a m p l e si s g r e a t i nt h i sp a p e r , w eu s es v mt os o l v et h ep r o b l e m so fd e t e r m i n i n gm i x t u r e ,t o e s t a b l i s hr e l a t i o n so f q u a n t i t ya n dt oc l a s s i f yt h es p e c t r u m so fh e a v y m e t a la t o m : w eu s es v mt od e t e r m i n gm i x t u r e s ,s u c ha sm e t a ie l e m e n t ,r u t i na n da s c o r b i c , a m i n o a c i d s s i m u l t a n e o u s l yb y i n f o r m a t i o n sf r o mt h e m i x s p e c t r o g r a m s o f s p e c t r o p h o t o m e t r ya n dr a m a nw i t h o u tp r e s e p a r a t i o n ,t h er e s u l t sa r et h a ts v m c a nw e l l d e a lw i t hs u c hm i x t u r ea n di tg a i n sm o r ea c c u r a c yi n f o r m a t i o nt h a nb p n w eu s es v mt oc l a s s i f yt h eu n k n o w ne n e r g yl e v e l so fh e a v ym e t a l ,s u c ha sc mi i 、 p ui 、u1w h i c hc a l ln o tb ec l a s s i f i e db ye x p e r i m e n t a l t h o u g hs o m ep e o p l eh a v et r i e dt o u s et r a d i t i o n a lc h e m o m e t r i ct e c h n i q u e st op r e d i c tt h eu n k n o w ne n e r g yl e v e l s ,t h e r es t i l l h a v es o m es a m p l e sw h i c hc a nn o tb ep r e d i c t e d s ow eu s es v mt od e a lw i t hs u c hh e a v y m e t a lt og a i nt h ee n e r g yl e v e l s t h er e s u l t ss h o wt h a ts v mp r e d i c tm o r ea c c u r a c ya n d i i i a b s t r a e 上海师范大学硕士学位论文 c o m p l e t e l yt h a nt r a d i t i o n a lm e t h o d so fc h e m o m e t r i c s w eu s es v mt ob u i l dr e l a t i o n s h i pb e t w e e ni n h i b i t i o np e r f o r m a c eo fa m i n o - a c i d s a n dq u a n t u mc h e m i c a lp a r a m e t e ro fa m i n o a c i d s t h er e s u l t ss h o wt h en e ww a yt o e x p l a i nt h ep r i n c i p l eo fi n h i b i t i o no fa m i n o a c i d ,a n ds h o wp e o p l eae a s i e rt e c h n i q u et o c h o o s eab e t t e rc o r r o s i o ni n h i b i t o rf r o ml a r g en u m b e ro fa m i n o a c i d s s u p p o av e c t o rm a c h i n e ,m u l t i v a r i a t ec a b l i b r a t i o n ,q u a n t i t a t i v e s t r u c t u r e a c t i v i t yr e l a t i o n s h i p s ,c h e m i c a lp a t t e r nr e c o g n i t i o n s t y l eo fp a p e r : r e s e a r c h f u la p p l i c a t i o n 上海师范大学硕士学位论文 附录 学位论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了 特别加以标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研究成果。 其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表示了谢 意。 作者签名稚呜日期: 州p j , 论文使用授权声明 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权保 留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内 容,可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此规定。 作者签名锥咚聊躲藏巳吼加扩、r 2 弓 上海师范大学硕士学位论文绪论 1 1 化学计量学概述 第一章绪论 化学计量学是一门结合了数学、统计学和计算机科学的新兴交叉学科,它对化 学实验数据具有很强的处理能力和挖掘能力。它运用数学、统计学、计算机化学以 及其他相关科学的理论与方法,优化化学量测过程,并从化学量测数据中最大限度 地提取有用的化学信息。化学计量学为化学量测提供基础理论和方法【i 】,为各类化 学波谱及化学量测的数据解析,为化学化工过程的机理研究和优化提供新途径。 自1 9 7 1 年瑞典化学家w o r d 提出“化学计量学”概念以来,它在实验设计、数据 处理、信号解析、化学分类决策及预报等方面都发挥着巨大的作用,解决了传统化 学研究方法难以解决的复杂问题,将化学计量学方法应用于化学的各个分支尤其是 分析化学领域具有特别重要的科学意义。近年来由于物理学和电子学的发展,分析 化学正经历着巨大的变革f 2 - 9 1 ,仪器技术的发展使人们可以瞬间获取大量的分析数 据,由此对数据信息地有效处理和深度挖掘变得重要,这也使化学计量学日益受到 关注。随着计算机地普及应用,化学工作者不仅应用现有的数学和统计学方法,而 且根据化学学科特殊性要求创建了一系列化学量测数据地处理、分类、解析与预测 等一大批化学计量学方法,其研究方向涵盖了化学量测和表征的全过程,包括采样 与检验,试验设计与优化、多元校正与分辨、信号处理、参数估计、模式识别、构 效关系、谱库检索、专家系统等十几个分支1 1o 】。如今,化学计量学已被学者们应用 到了各个分析化学领域,包括光谱( 1 l 】,色谱f 1 2 1 ,质谱【1 3 l ,电化学【1 4 j ,而其所适用的 对象也涉及到了生命物质【1 5 1 ,有机物质 1 6 1 等。 在化学计量学的众多应用方法中,多元分辨与校正方法应用于各种混合物质体 系的分析图谱同时定量测定最为广泛,从偏最小二乘( p l s ) 法、c p a 矩阵法、因子分 析( f a ) 法、卡尔曼滤波( k f ) 法、主成份分析( p c a ) 到反传人工神经网络( b p n ) 【1 7 。2 6 1 , 绪论 上海师范大学硕士学位论文 随着方法的不断改进,使多元校正定量方法更好的适用于不断发展分析对象。其中, 在1 9 8 6 年,由r u m e l h a r t 和m r c l e l l a n d 提出了的神经网络的误差反传学习算法( b p 算 法) ,从原则上解决了神经网络的训练方法问题,使b p 算法直到现在仍是神经网络 训练与学习的主要算法。正是由于解决了训练方法问题,使得神经网络有了很强的 运算能力,神经网络的应用范围大大拓宽。神经网络的研究走出了寂静时期,开始 了复苏,从此,人工神经网络的研究与应用开始了蓬勃的发展。张卓勇【2 4 】等将前馈 神经网络用于导数脉冲伏安分析法同时测定邻、间、对二硝基苯,结果表明,a n n 的处理能力明显优于偏最小二乘法。吴军等【2 7 】利用三层b p 神经网络对紫外光谱严重 重叠的苯、甲苯和二甲苯的混合体系进行同时测定。在2 3 4 2 8 0a m 范围内,以1 6 个 特征波长处的紫外吸光度作为网络特征参数,并通过均匀设计安排样本进行网络训 练和计算,苯、甲苯和二甲苯的回收率依次为9 8 7 ,9 9 4 和9 7 4 ,测定结果令人 满意。 b p 网络虽然可以实现对训练样本的任意精度的逼近,但预测能力是指经训练后 的网络对未在训练中出现的样本做出正确反应的能力,如果训练样本的分布点不均 匀,样本实际遵循的规律函数的差别比较明显,在训练时通常会出现过拟合现象从 而给预测带来较大的误差,再加上目前隐含层神经元数的确定没有确定公式可用, 因此,组合人工神经网络和基于不同函数的人工神经网络来改善预报精确度在不断 的发展中。王杰,闰东伟【2 8 】指出,样本点越类似、密度越大,则邻域预测精度越高 的网络特性对训练样本和待测的样本先聚类、后分别训练和预测的组合的a n n 模型 应该是一种提高预测精度的有效方法。刘辉军等【2 9 】基于径向基函数( i 璩f ) 和反向传 播( b p ) 神经网络分别建立了绿茶水分含量的近红外光谱分析模型。实验结果表明, r b f 和b p 神经网络模型都有较好的稳健性,模型具有较低r m s e 。两模型对预测样 品集进行预测,预测i t m s e 也比较理想。 但多年来,在数据处理过程中也受限于个难题:传统的模式识别或人工神经 网络方法都要求有较多的训练样本,而实际研究中可供训练的已知样本较少。对于 小样本集,训练结果最好的模型不一定是预报能力最好的模型,即“小样本难题”, 这已经成为模式识别研究领域内的一个难点。数学家v l a d i m i r n v a p n i k 等通过三十 余年的严格的数学理论研究,提出来的统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,简称 上海师范大学硕士学位论文 绪论 s l t ) 3 0 j 和支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 算法己经得到国际数据挖 掘学术界的重视,并在语音识别【3 1 1 、文字识别【3 2 】、药物设计【3 3 】、组合化学、时间序 列预测瞰l 、蛋白质研究等研究领域得到成功应用,该方法从严格的数学理论出发, 论证和实现了在小样本情况下能最大限度地提高预报可靠性的方法,其研究成果令 人鼓舞。支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 方法是一种基于结构风险最小化 的新算法,不同于采用经验误差最小化标准的、以误差反向传播( b a c kp r o p a g a t i o n n e u r a ln e t w o r k s ,b p n ) 算法为代表的人工神经网络方法,s v m 算法可以在很大程度上 避免b p n 算法使用过程中经常出现的“过学习( o v e r - f i t t i n g ) 问题;它通过选用不同 的核函数可以寻找出空间最优平面,对数据处理采用升维的处理,避免降维过程中 产生地信息丢失,以期获得更为可靠、更为准确的结果。张学工、杨杰等己经率先 将有关研究成果引入了国内计算机学晃,并开展了s v m 算法及其应用研究 3 5 】,上海 大学化学系计算机化学研究室的陈念贻、陆文聪等在国内首先将s v m 用于化学化 工领域应用,有关研究结果集中反映在“计算机与应用化学”杂志( 2 0 0 2 年,v 0 1 1 9 , n o 6 ) 。 随着分析科学在生命科学、环境科学等领域中地广泛应用,复杂的多元混合体 系地定性和定量分析已成为现代分析测试中最为常见而重要的工作。在传统的分析 过程中,人们通常需要花费大量的时间和精力在多组分的预分离上,而且常用分离 方法中的萃取等手段多使用有机有毒试剂而污染环境;另一方面,现代分析技术, 例如高效液相色谱、质谱等虽能很好的做到同时分离测定,但其价格昂贵。自化学 计量学诞生以来,它在处理存在量测信号严重重叠的复杂多组分体系定量分析问题 时所显示出的高度有效性,已使得包括b p n 等多种化学计量学方法在此领域中得到 了广泛的应用【3 6 4 0 】。考虑到传统的化学计量学方法可能因为新的复杂体系所显示出 的复杂特性而无法做到精确测定,因此,尝试借助具有理论优势的支持向量机回归 ( s 之) 实现复杂多组分的同时直接测定,预期可以提高预报结果的准确性,因其 算法性能更为优异,有望在研究解决以往算法无法解决的以及预报精确度不够的复 杂问题上取得更为有效的成果。据此,我们考虑将s v r 方法应用于多组分体系的同 时测定研究。 化学计量学的另一个研究方面就是化学定量构效关系( q s a r ) 研究,它是研究化 绪论上海师范大学硕士学位论文 学学科的一个根本性问题,即如何从物质的化学成分与结构来定量预测其化学特性, 也可以说是理论化学研究中的一个最重要目标。q s a r 研究中,可采用图论和数值方 法结果表征各种化合物分子,并将计算结果与实际量测化合物的物理、化学和生物 学特性结合起来,以明确的定量关系代替含糊的定性描述,使经验规则演进为半理 论规律。目前q s a r 的研究将全局最优算法引人分子力学的寻优,以指导最佳先导化 合物的寻找,已在实践中得到了广泛应用。主成分分析( p c a ) 、偏最小二乘回归( p l s ) 和b p n 都已被广泛应用于q s a r d o 4 1 埘】,支持向量机因其理论优势也逐步被引入,陆文 聪等【4 5 - 4 7 1 就采用支持向量机,联用主成分分析的支持向量机对物质毒性,物种归属 等进行了q s a r 研究,证明了支持向量机在q s a r 中的可行性。 化学计量学方法同时也是一种十分有效的模式分类方法。模式识别法是根据化 学量测数据矩阵,将样本集按样本的某种性质进行分类及特征选取的方法。根据量 测参量在多维模式空间中的相对位置区分不同的组,线性判别分析法、k 最邻近法 及s i m c a 法都是传统模式识别的方法【4 引。模式识别法的研究对决策和过程优化提供 很有实用价值的信息,为我国石油化工、材料化学等领域带来了解决研究难题的新 思路。t h o m a s 等【4 9 1 同时应用k 最邻近法【5 0 】和线性学习机从伏安波中区分重叠伏安响 应信号,将k 邻近法用于电位阶伏安波和微分电毛细管曲线的分类,可对有机化合 物构效关系进行表征。s i m c a 法可用在食品鉴定f 5 ,加入赋形剂的药品近红外光谱 识别以及环境等方面【5 2 1 。支持向量机基于升维的数据处理原理,使其对小样本训练 集的学习和预报有利,即对于以往的分类方法中由于训练样本过少可能不予考虑的 类别,s v m 可以进行训练,从而完善了数据结构,更有利于提高结果预报的准确性。 我们选取了原子光谱能级的分类问题进行研究。对于原子光谱能级分类的化学计量 学研究已有前例1 5 3 - 5 6 1 ,p e t e r s o n 应用人工神经网络算法中的对传网络方法 c p n ( c o u n t e rp r o p a g a t i o nn e u r a ln e t w o r k s ) ,研究了c mi 的未知原子光谱能级,得到了 许多新的结果,并进一步将其应用于c mi i 和p ui 原子光谱能级的分类研究中;曹晓 卫等【5 7 棚】应用联用主成分的反传人工神经网络研究了ui 等原子光谱能级分类,预报 了部分p e t e r s o n 等未能预报的未知能级组态,但仍留有无法预报分类的能级组态,考 虑到支持向量机的算法优越性,探索将s v m 方法应用于归属实验方法及传统模式识 别方法无法确定的组态。这将为把支持向量机方法应用于化学模式识别问题,解决 上海师范大学硕士学位论文绪论 大量类似的分类建模问题探索有效的途径。 本论文的主要工作就是利用支持向量机方法( s u p p o r tv e c t o rm a c h i n e ,s v m ) 进 行多元回归和模式识别的应用研究,并尝试将支持向量机联用主成分分析和偏最小 二乘回归,从而提高数据源的精确性,使预报结果更为准确。 1 2 几种化学计量学方法简介 1 2 1 支持向量机的基本原理【6 蝴1 支持向量机回归( s v r ) 算法是基于统计学习理论上的一种回归算法。s v r 算法的 基础主要是不敏感函数和i iwi i2 的最小化。这里提到的“不敏感函数 的概念, 简单说就是在拟合目标函数y ( f i x 神+ b ) 时,若目标值y i 符合i y j w t x - b i g ( 此值 根据留一法预报效果最佳决定) 就不再要求进一步减小残差。这样得到的不是唯一 解而是一组解,然后根据增强预报能力的要求,从中选出预报能力强的唯一解。选 择的标准是使回归方程的系数平方和l lwl l2 极小化( 几何意义为使拟合的超曲面尽 量达到“平坦化 ) 。 主要原理: 定义:令f ( x ) 一y l :例,则不敏感函数可表示为: l 孝i 。= 倍j 一占 f 矧 占 o t h e r w s e 如图1 1 所示,该函数在拟合值与训练值的差( 绝对值) 小于给定的数值时, 其值即为零,控制训练过程不再继续进行“精确拟合”。 设样本集为:( m ,x ) ,l ,1 1 1 ) ,ler 以y r ,回归函数用下列线性方程来表示, 厂( x ) = w x + b 。 最佳回归函数可以令其为如下的式子: 绪论上海师范大学硕士学位论文 蚋,孝) = 如i z + c ( 喜缶+ 喜等) 其中c 是设定的惩罚因子值,、“为松弛变量的上限与下限。若是c 和、f 一 定,则求上式的最小极值实际上仅仅与0 w 0 2 有关。对于给定的,管道的大小尺度 为2 厮。是故可以分析:当1 1 w2 扒则管道的直径越大,管道就越大。 而在占一定的条件下,显然越大的管道越具有越强的包容性。 图1 1不敏感函数示意图 那么最佳回归函数( 曲线或者是曲面) ,就是在s 一定时,使1 1 w i l 2 取到极小值的函数。 变化后,可以通过下面的优化方程进行求解: 妙口卜警隧 口,口a ,口i 二, 即在下列约束条件下: 0 c ,f = l , k , 0 钟c , f = 1 , k , 邑 ,、, 。吩 力 一 十 , , 、_ , 吲 卜 呵 0 一 上海师范大学硕士学位论文 绪论 求解: 一一 口,口2 a r g m l n , ( 一口? ) = 0 ,= l 由此可得拉格朗日方程的待定系数和q ,从而得回归系数和常数项: w := b = 卜 x j 对于非线性问题,引入了适当核函数( 若x i ,x j 都是空间x 中的向量,m 是能 将空间x 中的向量映射到另一个空间f 的算子,则函数k ( x i ,x j ) = ( x i ) ( x j ) 为核 函数,此处符号代表内积) ,将低维的输入空间数据通过非线性映射函数映射到 高维属性空间,在新空间中进行线性回归运算。目前使用较多的核函数有: ( 1 ) 线性核函数:k ( x ,x i ) = x x i ; ( 2 ) 多项式核函数:k ( x ,x i ) = ( x x i + 1 ) p ; ( 3 ) 径向基核函数:k ( x ,x i ) = e x p ( - l | x - x ij i 2 0 2 ) ; ( 4 ) s 型核函数:k ( x ,x i ) - - - t a n h ( a l x x i + 0 1 2 ) 通过这种做法可以避免模式升维可能产生的“维数灾难”,过拟合受到限制,提 高了数学模型的预报能力。 1 2 2 反向传播人工神经网络【6 5 - 6 9 1 人工神经网络( a n n ) 是建立在现代神经科学研究成果基础上的一种抽象的数 学模型,它反映了大脑功能的若干基本特征。它相应于复杂的多项式相应曲面可以 k 卜 x ,= 川 + 口 0 吖 口 吩, v 八 + 供 1、j 强 咆 0 一 ,芦, 斗 一, 卜 口 一 丽 ,渊2 绪论 上海师范大学硕士学位论文 建立其数学模型,即可用于非线性的数学处理。对a n n 研究起始于2 0 世纪4 0 年 代,现在它是解决化学问题的一个重要化学计量手段。 “反向传播”( b p ) 网络是目前应用最广的一类多层非线性人工神经网络。b p 网 络由输入层、输出层及隐蔽层组成,隐蔽层可有一层或多层,每层由多个神经元组 成。当信号输入时,首先传到隐节点,经过作用函数后,再把隐节点的输出信号传 播到输出层节点,经过处理后输出结果( 如图1 2 所示) 。 b p 网络具有很强的自学习、自适应、自组织能力,通过 对有代表性样本的学习,能够掌握被学习对象的内在规 律。b p 网络结构简单,使用方便,能解决大多数非线性 问题,可用来进行模式识别、分类和函数逼近。但b p 网 络隐节点个数只能靠经验确定,隐节点过少,学习过程可 能不收敛,隐节点过多,网络的性能会变得脆弱,还会由于 过拟合造成容错性能下降。为解决这一问题,通常采用自组 织网络学习算法。该算法如下: 秘基瑶 l 埔星 牖入爱 f ll 图l - 2 人工神经网络结构示意图 隐蔽层的第j 个神经兀的输入为; m n e t j = ,淑荔o i 乒1 ( 式中:w i i 为权系数,o i 为输入层样本,m 为输入层节点数) 隐蔽层的第j 个神经元的输出为: o j :f ( n )( 式中:f ( n e t j ) = 志为s 型作用函数 输出层第k 个神经元的总输入为: n e t k2 i q j - 1 。( 式中:n 为隐蔽层节点数) 输出层第k 个神经元的输出为:o k = f ( n e t k ) 用b p 学习算法修正权值和阈值,使二次型误差函数最小化: 耳= :墨( t k o k ) 2 z 扣1 ( 式中:l 为输出层节点数,t k :期望输出值) 输出层权系数的修正公式为: 上海师范大学硕士学位论文绪论 撕2 q o k ( 1 一o k ) ( a o k ) 0 l ( 式中:t l 为学习效率,oq 、= l1 , l=1 ) 叫 ( 4 ) ? = t b ( 或) f i i = b i t i , ( i = l ,2 ,a ) ( 5 ) 其中b 为对角矩阵。在算得新的m 矢量后,将用下式调整权矢量嘲, 五jx w ;= r 青:- 7 。 以,z 勺( j = 1 , 2 ,a ) ( 6 ) 从而将3 个映射联系起来,相互影响,并使提取的成分具有以下优良性质:( i ) 得分向量t l ,t 2 ,t a 相互正交,消除了自变量间的相关性;( i i ) 每次提取的t i 和u i 的协方差达到最大;( i i i ) l lfl i 可降至足够小,使y 被尽可能少的p l s 成分线性地充 分解释,以期有效降维,并最终构建稳健模型, = t b q t ( 7 ) 也可将偏最小二乘分解视为加权的主成分分解。设在迭代分解的第一轮,自变 量和因变量矩阵分别为x h 和y h ,在主成分分解中,x t h x h 矩阵的最大特征根所对应 上海师范大学硕士学位论文 绪论 的单位特征向量即为第h 个主成分的权向量,而在偏最d x - - 乘分解中,由矩阵 x t h y h y t h x h 的最大特征根所对应的单位特征向量则为第h 个p l s 成分的权向量。 y h y l h 为非负定对称矩阵,可将其看作权矩阵,因此偏最小二乘分解是一种加权的 主成分分解,即由y 所包含的信号量的多少调整权值,使所建的回归模型具有良好 的预报性能。但是普通的p l s 程序只提供线性方程共拟合之用,这就产生拟合不足, 从而在预报时造成偏差。 1 3 本论文的主要工作 1 3 1 支持向量机应用于多元混合体系的同时定量测定 ( a ) 国家标准检验法中规定,食品中铅的检验方法为原子吸收分光光度法或二 硫腙比色法,前者仪器昂贵,后者则为基层单位的首选,但后者在测定过程中难以 避免氰化钾溶液等剧毒物的使用,所以考虑简化试验程序,改为不加上述掩蔽剂的 同时定量测定。即混合体系产生的图谱采用化学计量学方法解析,这部分工作就是 做到在不分离、不掩蔽的条件下进行多金属离子混合溶液的紫外可见分光光度法同 时定量测定。 ( b ) 芦丁( r u t i n ) 是一种多羟基黄酮类化合物,也是一些中草药的有效成分。 在生物体内具有抗炎、抗病毒、抗氧化等作用。抗坏血酸( v c ,简称a a ) ,具有很 强的生物活性,它能促进人体组织中胶原物质的形成参与神经介质的反应及类固 醇的代谢。芦丁和抗坏血酸具有很好的协同抗氧化效应,其药效与两者之间的比例 密切相关。因此,对芦丁和抗坏血酸的同时检测具有实际意义。目前,两者同时测 定的常用方法中,高效液相色谱法,存在着色谱柱易污染、价格较高的缺点;紫外 可见分光光度法和电化学测定方法则因抗坏血酸和芦丁的特征峰相近而存在相互干 扰,限制了其同时测定。本文就考虑采用支持向量机等化学计量学方法对其混合溶 液的紫外可见分光光度法和微分脉冲伏安法同时测定进行研究。 绪论上海师范大学硕士学位论文 ( c ) 氨基酸( a m i n oa c i d ) 是生物功能大分子蛋白质的基本组成单位,是构成 动物营养所需蛋白质的基本物质。对于此类物质的分析测定,尤其是对混合氨基酸 体系的定性定量分析研究,将为我们接下来开展相关地蛋白质分析研究打下基础。 鉴于拉曼光谱在分子水平上探测物质结构所具有的优势,考虑在拉曼光谱测试的基 础上,结合支持向量机在数据分析处理上的优势,建立起通过拉曼光谱对混合氨基 酸体系进行同时定量分析测定的方法。 1 3 2 支持向量机应用于重金属光谱的能级组态分类预报 原子光谱的电子组态通常是根据谱线的能级、强度、同位素位移、塞曼效应等 测量数据进行确定,或者应用量子理论计算来指认。但是,由于光谱的复杂性,上 述的实验观测和理论计算难于确定某些高激发态的原子光谱所属的电子组态。对于 重元素原子光谱尤其如此。因此,尝试一些新的确定原子光谱的方法,仍然引人关 注。为此,已有学者利用化学模式识别方法进行了研究,但由于k n n 等早期传统 模式识别方法属于线性分类方法,使复杂的非线性分类问题应用受到限制。b p n 的 出现为解决非线性分类提供了一种有效的方法,但是由于b p n 方法上的“过拟和” 等缺点,使其应用受到限制,仍有一些遗留问题有待解决。因此,本文进一步采用 支持向量机方法对这些体系进行了分类研究,得到了一些新的结果。 1 3 3 支持向量机应用于氨基酸缓蚀效率的定量构效研究 氨基酸( a m i n oa c i d ) 是生物功能大分子蛋白质的基本组成单位,是构成动物营 养所需蛋白质的基本物质。它无毒害,有很好的环境亲和性,且具有抗缓蚀效能, 但其缓蚀效率的原理通常通过经验总结的方式来进行解释,这为在2 0 多种氨基酸中 挑选最佳缓蚀效率的氨基酸作为缓蚀剂增加了难度。这一部分工作从定量构效关系 研究的角度出发,通过量子化学计算方法得到相关氨基酸的一些重要的物性和结构 参数,在此基础上建立起相应的物性结构参数与缓蚀效率间的定量关系,以此来阐 上海师范大学硕士学位论文绪论 明氨基酸的结构及其物性的差异对其缓蚀效率的影响机制,为绿色缓蚀剂的选取与 合成提供有价值的信息。 支持向量机应用于多元混合体系的同时定量测定上海师范大学硕士学位论文 第二章支持向量机应用于多元混合体系的同时定量测定 2 1 支持向量机应用于6 种金属离子的紫外可见分光光度法同 时测定 2 1 1 引言 国家标准检验法中规定,食品中铅、镉的检验方法为原子吸收分光光度法或二 硫腙比色法,前者仪器昂贵,后者则为基层单位的首选。同样的,对于汞原子的测 定中,测汞仪虽具有快速、灵敏度高等特点,但在一般实验室,常用二硫腙与h g ( i i ) 离子生成橙色络合物,络合物被氯仿完全萃取分离后进行分光光度法测定。以上两 种重金属离子在测定过程中,为避免铁等金属离子的干扰,常采用加入柠檬酸铵溶 液、氰化钾溶液和盐酸羟胺溶液作掩蔽剂,但氰化钾溶液是剧毒物,对人体有害, 因此避免使用掩蔽剂的同时测定更具意义。如果不加上述掩蔽剂,对于测定包括食 品中、环境中的重金属铅、汞、镉离子时会有铁,铜、锌等常见金属离子产生干扰, 因为不加分离的6 种组分结合二硫腙后的显色性质十分相似【_ 7 2 】,因而产生重叠的光 谱图,若采用紫外可见分光光度法就无法同时测定上述六种离子。 随着计算机技术的发展,多组分体系的计算分光光度分析,如偏最 b - - 乘法【7 3 】、 目标因子分析法【7 4 1 、c p a 矩阵法【7 5 】、岭回归法【7 6 1 、卡尔曼滤波法【7 7 】等各具特点的方 法先后被应用,使得经典方法难以测定的多组分同时分析找到了解决途径。方国帧 等【7 8 】就曾采用了6 种化学计量学方法对5 种金属离子的紫外一可见分光光度法进行同 时测定的研究,对比了各种方法的优缺点,同时在实际样品测定中,各离子的计算 结果与i c p - a e s 的测定结果相近,结果令人满意。人工神经网络( a n n ) 方法与上述计 算方法相比,具有很强的非线性建模能力,预报准确率高,是现今应用极广阔的方 上海师范大学硕士学位论文支持向量机应用于多元混合体系的同时定量测定 法,但a n n 存在着网络结构和权值的设定更多的靠经验,模型易陷入局部最小等缺 陷。具有严格数学理论基础的支持向量机是形成于二十世纪七、八十年代,基于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 增强现实导板设计-洞察及研究
- 2025至2030中国医用吸引导管行业项目调研及市场前景预测评估报告
- 2025至2030中国牙科清洗机和和消毒机行业项目调研及市场前景预测评估报告
- 2025至2030中国车库排气软管行业产业运行态势及投资规划深度研究报告
- 2025至2030中国人身保险行业发展趋势分析与未来投资战略咨询研究报告
- 高级职称评审政策解读与申请指南
- 医院安全保卫工作流程及实操指南
- 2025至2030中国蜡牙科材料行业前景预测与供需规模分析报告
- 2025至2030中国虎杖提取物行业项目调研及市场前景预测评估报告
- 2025至2030中国船舶电子导航系统行业项目调研及市场前景预测评估报告
- 医院死亡报卡培训课件
- catia考试图纸题目及答案
- pos机风险管理办法
- 2025年京东集团招聘笔试指南与面试技巧
- 起重机械定期检查与维护方案
- 2025年行业机器人边缘计算技术应用与场景分析
- 国际物流运输合同(标准版)
- 动物样品采集培训课件
- (2025年)医疗机构工作人员廉洁从业九项准则考核试题(+答案)
- 手机桌面市场深度解析
- 人工智能在幼儿语言教育活动中的应用
评论
0/150
提交评论