(分析化学专业论文)基于支持向量机的红外光谱子结构解析.pdf_第1页
(分析化学专业论文)基于支持向量机的红外光谱子结构解析.pdf_第2页
(分析化学专业论文)基于支持向量机的红外光谱子结构解析.pdf_第3页
(分析化学专业论文)基于支持向量机的红外光谱子结构解析.pdf_第4页
(分析化学专业论文)基于支持向量机的红外光谱子结构解析.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(分析化学专业论文)基于支持向量机的红外光谱子结构解析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

四川大学硕士学位论文 基于支持向量机的红外光谱子结构解析 化学计量学专业 研究生刘军红指导教师李梦龙 几十年以来,人们一直在探索将红外谱图的解析经验化。随着商品化红 外光谱仪的计算机化,出现了许多计算机辅助红外光谱识别方法,这些方法大 致可以分为三类:专家系统;谱图检索系统:模式识别方法。其中最常用的模 式识别方法是 、工神经网络和偏最小二乘法。文献表明它们对存在的结构碎片 的预测准确度不是很高,且神经网络尚存在不稳定、容易陷入局部最优和收敛 速度慢等问题。 本文将支持向量机用于红外光谱子结构解析,支持向量机是一种很好的 用于小样本体系的机器学习算法。随机选取了o i i c 数据库中的8 2 3 张谱图, 将其分为两骞盼,取偶觌弛拍弼搬胙刿j 熙袭氧含有4 1 1 张取裁艇彤油犍 图作 为预硬蝽毛含有4 1 2 张。对红9 斟:谱中1 6 个常见的子结肖注行:解析。在训练的过程 中调整参数( c ,盯) ,使得支持向量机能够以很高的精度对“存在”的子结构 进行得预测,当“存在”预泓精度很高,而“不存在”的预测精度低的时候, 就要稍微降低下“存在”的预测精度,使得“不存在”的也有较好的预测精 度。刺l l 练的支持向量机对1 6 个子结构“存在”的预测正确率( p c ) 和“不存 在”的预测正确率( a c ) 的平均值分别为9 3 勰和9 9 傩,“存在”的预测可信 度( 吐) 和“不存在”的预测可信度( 也) 的平均值分别为9 6 喊和9 8 8 , 平均统计特性( d 陆) 为9 3 4 。相应的使用神经网络两塑骘觥俐| i 练并预 测,所训练的神经网络对1 6 个子结构“存在”的预测正确率( p c ) 和“不存在” 的预测正确率( c ) 的平均值分别为9 1 5 和9 8 溉,“存在”的预测可信度( 珏) 和“不存在”预测可信度( 也) 的平均值分别为9 2 卿9 8 佻,平均统计特 川大学硕士学位论文 性( b 吁) 为9 0 2 9 6 ,支持向量机对子结构预测的平均值都高于相应的神经网络 的平均值。除此之外,对大部分子结构来说,支持向量机的预测能力要优于神 经厨络的预测能力。与神经网络相比,支持向量机还具有稳定和训练速度快等 优点,是种很好的辅助解析红外光谱解析的工具。 关键词:支持向量机神经网络红外光谱子结构解析 l l 蚪川、1 羔硕i 学位沧殳 s u p p o r t v e c t o rm a c h i n e sa p p r o a c ht of u n c t i o n a lg r o u p p r e d i c t i o nf r o mi n f r a r e ds p e c t r a c h c m o m e t r i c s p o s t g r a d m a t e :l i uj u n h o n g a d v i s o r l im e n 砻o n g a l o n gw i t ht h eb i g g e ro ft h ei n f r a r e ds p e c t r ad a t a b a s e ,t h ed e e p e nd e v e l o p m e n t o ft h ei n f r a r e dt e c h n o l o g ya n dd ft h ec o m p u t e r , i ti sa b a d l yi nn e e do fs o l u t i o na b o u t h o wt ou t i l i z ea n de n l a r g et h ea p p l i c a t i o no fi r 出a r e ds p e c t r a 如t h ep a s td e c a d e s , p e o p l e 艰卿n g t os e a r c ht h ew a yt oi n t e r p r e tt h ei n f i - a r e ds p e c t m a l o n gw i t ht h e c o m p u t e r i z a t i o no ft h e c o m m e r c i a l i z e di n f r a r e d s p e c t r o m e t r y , t h e r e a l e m a n y c o m p u t e r - a s s i s t e di n t e r p r e t a t i o no fi n f r a r e ds p e c t r ae m e r g e d ,t h ea u t o m a t i cs t r u c t u r e e l u c i d a t i o no fi n f r a r e d s p e c t r ag e n e r a l l y f a l l si n t ot h r e eg r o u p s :l i b r a r y s e a r c h , k n o w l e d g e b a s e ds y s t e m s , o rp a t t e r nr e c o g n i t i o n a m o n gt h el a s tg r o u po fm e t h o d , a r t i f i c i a ln e u r a ln e t w o r k s ( a n l 吣) a n dp a r t i a ll e a s t s q u a r e s0 l s ) w e r em o s t f r e q u e n t l yu s e d h o w e v e r ,t h e i rp r e d i c t i o na c c u r a c yo fp r e s e n tf u n c t i o n a lg r o u p si s r i o ts a 出白:c o i ,_ f u r t h e r m o r e ,a n n sh a v es e v e r a lm a j o rd r a w b a c k s :t m s t e a d i n e s s , l o c a lr n i n i i d aa n dv e r yl o ws p e e do f c o n v e r g e n c e i nt h i sp a p e r , w ei n v e s t i g a t e dt h ep o t e n t i a lo fs u p p o r tv e c t o rm a c h i n ef o rt h e s t r u c t u r ee l u c i d a t i o no fi n f r a r e ds , p c c t l a s v mi sak i n do fl e a r n i n gm a c h i n ew h i c hi s e a s yt oo b t a i ng o o dr e s u l t sw h e nt h e r ea l eal i m i t e dn u m b e ro fe x a m p l e sa n dal a r g e n u m b e ro fv a r i a b l e s as do f8 2 3c o m p o u n d sw e r eu s e di nt l j s p a p e r t h e c o m p o u n d s f o rt h e t r a i n i n g s e tw c r es e l e c t e d b ys i m p l yt a k i n g a l lo tt h e e v e n n u m b e r e ds a m p l e s ,w h i l et h et e s ts e tw e r et h eo d d n u m b e r e ds a m p l e s ,t h e t r a i n i n ga n dt e s ts e t sc o n s i s t e do f 4 1 1a n d4 1 2f n rs p e c t r a , r e s p e c t i v e l y p a r a m e t e r s t l 四川大学硕士学位论文 ( ca n ds i g m a ) i n f l u e n c i n gs v m s t r a i n i n ga n dp r e d i c t i o no ff u n c t i o n a lg r o u p sf r o m i n f r a r e ds p e c t r aw e r es c r u l i n 泣e df o rt h em a x i m a la c h i e v a b l ep r e s e n tp r e d i c t i o nr a t e o ft h e1 6f u n c t i o n e dg r o u p s w h e nt h ep r e s e n tp r e d i c t i o nr a t ei sv e r yh i 吕hb u tt h e a b s e n tp r e d i c t i o nr a t ei sv e r yl o w , t h es m v m gf o rt h eb e s tp o s s i b l ep r e s e n tp r e d i c t i o n i sr e l a x e dal i t t l ei no r d e ri og a i nah i g h e ra c c u r a c yo ft h ea b s e n tp r e d i c t i o n t h e t r a i n e ds v m sc a ni d e n t i f yt h ep r e s e n c eo ra b s e n c eo ft h ef u n c t i o n a lg r o u p sw i t ht h e a v e r a g ep r e d i c t i o na c c u r a c yo f9 3 _ 3 f o rt h ep r e s e n c e ( p c ) a n d9 9 o f o rt h e a b s e n o e ( k ) o ff u n c t i o n a l i t i e s t h eq u a l i t yo ff o u n dp r e s e n tr e s p o n s e ( q 0 , - ) a n d a b s e n tr e s p o n s e ( q w ) w a s9 6 0 a n d9 8 8 ,r e s p e c t i v e l yt h ea v e r a g ee x t r a s t a t i s t i c a l q u a l i t y0 1 0 r ) w a s9 3 4 a st ot h ea n n s t h eo v e r a l lp r e d i c t i o na c c u r a c yo f9 1 5 f o rt h ep r e s e n c e ( p c ) a n d9 8 5 f o rt h ea b s e n c e ( a c ) o f f u n c t i o n a l i t i e swe 】l ea c h i e v e d t h e q u a l i t yo ff o u n dp r e s e n tr e s p o n s e ( o p t ) a n da b s e n tr e s p o n s e ( q k ) w a s9 2 ,0 a n d 9 8 7 ,r e s p e c t i v e l y t h ea v e r a g ee x t r a s t a t i s t i c a lq u a l i t y ( e o r ) w a s 9 0 2 t h e a v e r a g ev a l u e so fs v m sw e r ea l lh i g h e rt h a nt h o s eo fa n n s b e s i d e s ,t h er e s u l t s s h o w e dt h a ts v m s o v e r - p e r f o r ma n n s i nm o s to ft h ec a s e s f r o mt h er e s u l t sw ec a n c o m et ot h ec o n c l u s i o nt h a ts v i v la p p r o a c hi sap o w e r f u lt o o lf o rt h ei n t e r p r e t a t i o no f i n f r a r e ds p e c t r a k e y w o r d s :s u p p o r tv e c t o rm a c h i n e s ,a r t i f i c i a ln e u r a ln e t w o r k s ,i n f r a r e ds p e c t r a , f u n c t i o n a lg r o u p sp r e d i c t i o n v v _ qjr i 大学硕j + 学位论文 1 前言 1 1 红外光谱简介 红外测试技术是1 8 0 0 年由物理学家w h e r s c h c l 发现白外辐射以后逐渐建 立发展的”。j 0 年代仞期,商品红外光谱仪问世,使红外光谱法得到广泛发展, 揭开丁有机物结构鉴定的新篇章。到5 0 年代术就已经积累丁,f 富的红外光谱 数葫i :,剑7 0 :代中期,红外光谱法一直是有机化台物鉴定的最重要的方法。“。 近几十年柬傅立叶变换红外光谱仪的问世以及一些新技术c 如发射光谱、光声 光谱、色一红鞋用等) 的出现,使红外光谱得引更加广泛的应用。红外光谱对 样品的适应性相当广泛,无论固态、液态或气态样品龄可咀方便的进行测定。 此外,红外光普珐具有快速、高灵敏度、试样用量少等特点,因此,它已成为 现代结构化学和分析化学最常用和不可缺少的工具“。 红外光的波长覆盖0 7 6 m 1 0 0 0 u m 的宽广区域,相应的波数( w a v e n u m b e r ) 范围是l ,3 3 0 l o 厘米2 。通常将红外区域分为近红外区( 1 3 ,3 3 0 4 0 0 0 厘米。) 、中红外区( 4 0 0 0 6 5 0 厘米) 和远红外区( 6 5 0 1 0 厘米) 。由 亍= 绝大部分的有机化合物基团的振动频率处于中红外区,人们对中红外光谱研 究的最多,该区吸收峰数据的收集、整理和归纳已经臻于相当完善的地步。 当物质中某个基团的振动频率和红外光的频率一样的时候,分子就要吸收 能量,从原来的基态振动能级跃迁到能量较高的振动能级。将分子吸收红外光 的情况用仪器记录下来,就得到红外光谱图。红外光谱图多用透光率t 或者 吸光度a 为纵坐杯,反映红外吸收的强弱:以波长凡( 帅) 或者波数o ( c m - 。) 为横坐标,表示吸收峰的位置。红外光谱图通过吸收峰的位置、相对强度以及 峰的形状提供化台物的结构信息,其中以吸收峰的位置最为重要。 分子的振动形式可以分为两大类:伸缩振动和弯曲振动。前者是指原子沿 键轴方向的往复运动,振动过程中键长发生变化。后者是指原子垂直于化学键 方向的振动。从理论上来说,每。个基本振动都能吸收与其频率相同的红外光, 在红外光谱图对应的位置上出现一个吸收峰。实际上有一些振动分子没有偶极 矩变化是红外非活性的:另外有一些不同振动的频率相同,发生简并:还有一 些振动频率超出了仪器可以检测的范围,这些都使得红外诺图中的吸收峰数目 大大低于理论值。红外光谱包括基频峰、倍频峰、合频峰、振动偶合等一些吸 弼川夫学颀j :学位论奠 收峰。 红外谱图按波数大小分为基频区和指纹区:波数在4 0 0 0 1 3 0 0 c m 。区域称 为基团频率区或官能团吸收频率区,出现在这个区的吸收峰数目不是很多,但 是具有很强的特征性,并且这些吸收峰的频率不随分子构形变化面出现较大的 改变,该区的信息主要用于鉴定官能团;1 3 0 0 6 5 0c m 区域称为指纹区,这 个区域主要是c - x 的伸缩振动和h - c 弯曲振动频率区,山f 这些化学键的振动 容易受附近化学键的振动的影响,因此结构的微小变化就可使这部分光谱面貌 发生差异,这与不同人之间的指纹有较大的差别一样,故称为指纹区。另外, 影响红外谱带位置变化的因素也较多,如氢键的形成使参与形成氢键的原有化 学键的力常数降低,吸收向低频方向移动;溶液稀释和温度升高,使谱带朝高 频方向移动;共轭效应使共轭体系中电子云密度平均化吸收向低频方向移动: 诱导效应,根据供电基和吸电基的不同,可以分别使吸收向商顿和低频方向移 动。此外,制备样品的方法、溶剂的性质、样品所处的状态、结晶条件、吸收 池的厚度、色散系统、测试温度、振动偶合和费米共振以及空间效应等都对峰 的位置有影响。对于固体样品,很多其它的信息,如散射、漫反射、特殊反射、 表面光泽、折光指数和反射光的偏振等都被加载至| j 样品的红外光谱上。这些都 使红外光谱的解析复杂化”。 1 2 红外光谱的应用 红外光谱在化学领域中的应用是多方面的。它不仅可以用于结构的基础研 究,如确定分子的空间结构、求出化学键的力常数、键长和键角等:还广泛地 用于化合物的定性、定量分析和化学反应的机理研究等方面。红外光谱应用最 广泛的还是未知化合物的结构颦定。 1 2 1 定性分析 1 2 1 1 已知物及其纯度的定性鉴定 是指得至临 羊的红外讲图后,与纯物质的谱图进行对照。如果两张谱图各 吸收峰的位置和形状完全年l 同峰的相对强度一样,就可以认为试样是该已知 物:相反,如果两种谱图的面貌不一样,或者峰位强度不对,鹾明两者不是同 2 f ij 、# 顺i 学位论空 种物质,或者试样中含有杂质。 1 2 1 2 未知物的结构鉴定 确定未知物的结构,是红外光醋法定性分析的一个重要用途。它涉及到谱 图解析,基本步骤如下: ( 1 ) 定性前的准备工作 在解析谱图以前,必须对试样仃m 底的了解。例如试样的纯度、外观、来 源、试样的元素分析结果、熔点,沸点、折光率、把对分子质量、溶解度等, 这样可以大大简化解析过程。 ( 2 ) 确定未知物的不饱和度 化合物的不饱和度用f 式计算 q :1 + 疗+ 生二堡( 1 _ 1 ) 2 式中,月。是四价原子数目,月,为二i 价原子数目,一。为一价原子数目。当q = o 时,表示分子是饱和的q = 1 表示分子中有个双键或一个环,依次类推。 ( 3 ) 图谱解析 一般说来,首先在官能团区搜索宫能团的特征伸缩振动,再根据指纹区的 吸收情况,进一步确认该基团的存在以及与其它基团的结合方式。在解析红外 谱图时,要同时注意吸收峰的位置、强度和峰形,其中以吸收峰的位置最为重 要,然而另外的两个因素也不能忽略。对任意一个官能团来说,由于存在伸缩 振动和弯曲振动等多种振动,因此,任何一- 种官能团会在红外谱图的不同区域 显示出几个相关的吸收峰。所以,只有当几处应该出现吸收峰的地方部显示吸 收峰时,方熊得出该官能团存在的结论”。6 1 。 1 2 2 定量分析 红外光谱定量分析法的依据是朗伯一比尔定律。红外光谱定量分析法与其 它定量分析方法相比,存在一些缺点,所以只在特殊的j 漪况f 使用。它常常用 于昴构体的分析。所选择的定量分析峰应有足够的强度,即摩尔吸光系数大的 峰,且不与其它峰相重叠。 州川大学硕l 学位论文 1 3 计算机辅助红外光谱解析 红外谱图极其复杂,构成化合物的原子质量不同,化学键的性质不同,原 f 的连接次序和空间位置的不同都会造成红外光谱的差别。另外,影响红外漕 带位置变化的因素也较多,如制各样品的方法、溶剂的性质、样品所处的状态、 结品条件、吸收池的厚度、氢键、诱导效应、共轭效应、振动偶合和费米共振 以及空问效应等都对峰的位置有影响。这些都使红外光谱的解析复杂化。目的, 分f 中各种基团的吸收规律,要还是通过经验或者人工获得“1 。人工比较大 量的己知化合物的红外谱图,从中总结出各种基团的吸收规律,其结果虽比较 真实的反映了红外光谱与分子结构的对应关系,然而却不够准确,特别是这些 经验式的知识难以用计算机处理,使计算机专家解析系统难以实用化。 从科学发展史看,科学数据的大量积累,往往导致重大科学规律的发现, 因此随着红外光谱数据库的日益庞大,红外技术的不断深入,以及计算机技术 应用的不断发展,如何极大可能地车用红外信息并扩展其应用范围成了当前红 外光谱学急需解决的问题之一。 几十年以来,人们直在探索将红外图谱的解析经验化。随着商品化红外 光谱仪的计算机化,出现了许多计算机辅助红外光谱识别方法,这些方法大致 可以分为三类:专家系统、谱图检索系统”“、模式识别方法“”。前两类 厅i 去有许多不足,例如:建造知识库十分复杂、知识不易更新、搜索时间较长 等。因此近年来,用模式识别方法进行计算机辅助识别光谱吸引了众多的光谱 学家和化学计量学家限“。“,最常用的方法是人工神经网络”侧和偏最小二乘 法“。 最初;m u n k 等人于1 9 9 0 年首次将线性神经网络应用于红外光谱的子结构 解析1 3 “。选取了2 9 1 5 个化合物作为训练集,5 4 1 个化合物作为预测集,对1 2 8 个有红外活性的子结构进行解析,包括些常见的子结构( c o 和苯环等) 和些在化合物中很少出现的子结构( 一c h 2 一c h o h c h 2 一和a r o c 心 等) 。输入包括2 5 6 个节点数,代表了红外光谱在不同的波长处的吸收,输出 为1 和0 ,分别代表子结构存在和不存在。因为神经网络不能无限的逼 进1 和0 ,有时存在的予结构可能会彼判剐是不存在的,反之办然。所 以恨据神经网络的输出接近1 和0 的程度,对每个子结构设置了不同的 闽值,根据这些值,将子结构的预测结果分为肯定不存在,有可自芭存在,很有 4 四川大学预e 学位论文 可能存在肯定存在这四个级别。提出了衡量神经网络结果的参数a 。指当 存在的j 二结构有5 0 可以被预测时的预测准确度。训练结果表明,预测的结果 和f 结掏在训练集中出现的概率之间有很大的关系。在训练集中出现概率比较 高的子结构的预测结果比较好,在训练集中出现概率比较低的子结构的预测结 果不是很好。 随后m u n k 和r o b b 等人又将含有一个隐含层的神经网络应用于红外光谱 ,结构解析,选取了2 4 9 9 个化合物作为训练集,4 1 6 个化合物作为预测集, 对3 6 个f 结构进行解析。输入包括2 5 6 个节点数,代表了红外光谱在不同的 波长处的吸收,输出为“1 ”和“0 ”,分别代表子结构彳在和不存在,隐含层 的青点数为3 4 。采用爿。作为衡量神经网络预测结果的参数,规定a 。9 0 表 明预测结果很好的,7 5 a 。c 9 0 表明预测结果比较好t 5 0 彳。 1对f d ,。1 ld ,w r x l + b :,。二j ,:5 , 7 x + bs 1埘寸二d 蕾ij 满足上式的数掘点f 一,d 1 ) 称乃“支持向量”,支持向量机鼠此得 支持向量 是那些最靠近决策面的数据t i ,所以这些数据是最难分类的在学二j 机器中起 圭导作用。因此,它们和决策面的最优位置宜接相关。 两类样本的分类间隔太小为 ,) 慨沁5 赫 他_ 6 那么最优分类面问题就转化为最大化分类间隔m a r g i n 的问题,返就可以通过 最小化l l w l l 。来实现,所以,j r 解壤优超平面的问题就转化为在( 2 6 ) 的约束下 的优化问题: 撕2 = 吾( w o 2 泣, 这个约束优化 可题称为原问题。它得特点如下: l 代价函数巾f w ) 是w 的,、函数。 2 约束函数关于w 是线陀的。 为了求解约束最,j 、化闷题,引入了l a r g r a n g e 函数 小川一三晰一争 咖t j ( 2 8 ) 其中口为l a r g r a n g e 乘予,这个函数对最大化,而对wf 6 必定最小化。 三( w , b ,d ) 对w ,6 ,a 求微0 芹旨结果为零,得到 四川人学碗i 学位论上 f 善瓣i l v ( 2 9 ) 菩嘲却 l 口, 4 ( w 7 + 6 ) 一, o 将( 2 9 ) 带入( 2 8 ) ,可以将原问题转化为对偶山j 题 ( w 点。) = q ( 。) 1 善q 一言善善a i a j d i d j x j x , i = 1 ,2 ,“( 2 1 缈 由( 2 9 ) 我们可以看出最优超平面的权系数向量w 是n 个洲练样本的线性组 合。如果口为最优解,那么就可以求出 h ,沙蚺 ( 2 1 1 ) 在鞍点对每个l a r g r a n g e 乘子,乘f 和它对应的约束的乘积为零,即 乌 ( m ) + b d ;一1 = 0 ( 2 1 2 ) 而b 可以由方程( 2 1 2 ) 求出。 由方程( 2 1 2 ) 可以看出对于多数样本口j 将为0 ,那么取值不为0 的q 值对 应于使得( 2 5 ) 中的等号成立的支持向量。对十学习过程而言,支持向量是调 练集中的关键元素,如果去掉其它洲练点( 或者侈动位置,但不穿越h l 和h 2 ) , 再重新训练,所得到的分类面是辑【同的。求解f 面的问题得到的最优分类函数 为 小协肾i 协m c z 2 2 2 线性不可分 当数据为线| 生不i r 分时,那么就有些样本不能满足条件( 2 5 ) 的约束不 可能建立一个不具有分类误差的分离超平面。所以,我们就希望找到这样的- o 阱j l 学硕卜掌位论文 个最优超平面,使得它对整个训垂- :集的分类误差概率达到最小。线性不可分的 情况有如下两种: 数据点( 葺,吐) 落在分离区j 芷之内,却还在最优超平面正确的坝b 如图 2 2 ( a ) 所示。 数据点( 五,吐) 落在最优超f 面销谍的侧,如图2 2 ( b ) 所示。 图z2 线性不可分情况示意图 ( a ) 数据点落在分离区域之内却在最优超平面止确的侧 ( b ) 数据点落毫最优超平面错误的一侧 b ) 为了找到最优超平面,必须放宽约束条件,加上一个松弛变量亭( 皇0 ) 来实现5 吲,那么约束条件变为: d ,( w t x i + 6 ) 1 一专 i = l ,2 ,n ( 2 1 4 ) 松弛变量度量个数据点埘模式可分的理想条件的偏离程度。对f 0 s 专s l ,数据点落入分离区域的内部,卸处于决策面万确的一侧,对于鼻己i , 数据点落入超平面的错误一侧。”。在线性不可分的条件下,支持向量是那峰 满足( 2 1 4 ) 的数据点。那么线性刁可分的原问题就是在条件( 2 1 4 ) 的约束下寻 技f 面的最小化代价函数: ,州 巾( m 手) ;专( w + c 每 ( 2 1 5 ) 塑_ 墨兰垦:! 兰垒堡壅 其中c 是一个指定的常数它拧制对错分样本的惩罚程度,c 越大表示对错误 的惩罚越重”。在( 2 1 4 ) 的约束条件下求( 2 1 5 ) 的最小值,即折中考虑晟丈 分类间隔和最少错分样本就可以得到线性不可分情况下的最优超平面 如果使用l a r :4 r a n g e 乘j :的方法,我们同样可以把原问题在条件 y 口j 4 = o 和o s 口s c 的约束卜f 转化为对倡问题: 一 工( w 点。) ;q ( n ) 2 善q 一蓦“一4 d ,# 】f珂z 箭 由以上分析我们可以看出,线性可分与线性不可分的最大差别就在于: 厂在线性可分的情况下约束条件为q 0 i 2 1 ,2 ,n 1 庄线性不可分的情况下约束条件为0 s qs c i = 1 ,2 ,n 2 2 非线性支持向量机 当涉及到非线性可分问题时,可以将输入向量映射到一个高维的特征向量 空徊j ,使在输入空间线性不可分的问题在特征空间中线性可分,然后在高维的 特征空f - 日j 中构造最优分类面,如图2 3 所示”1 。 图2 3 从输入空间到特征空间的非线性映射 2 y 1 甲3 一 一 , 伊 , 一 一 渺、夕。一 一o o 。一 。 一 四川大学硕士学位论文 在低维输入空间向高维特征空问映射的过程中,由于空间维数急速增长, 这就使得在夫多数情况下难以直接在特征空间直接计算最佳分癸平面,支持向 量机是通过定义核函数,巧妙的将这个问题转移到输入空间进行运算,具体机 瑗如下: 、 令x 表永从输入空间得到的向量, 尹( x ) r 表示从输入宅1 日j 到特征空间 4i 的一个 # 线性变换的一个集合,假设原空间的维数为特征空问的维数1 1 1 那么和在线性可分的g 。- t 牛下类似,超平面可以表示为 善妒7 f ) 妒陆o ( 2 1 7 a ) 妒7 ( ) 妒( 工) 表示特征空间中由第i 个例子的输入模式x t 和输 、向量x 诱导的 两个向量内积,支持向量机由此引入内积核( i n n e r - p r o d u c tk e r n e l ) : k ( ) 2 妒7 ( x ) 妒( ) 2 善毋( z ) 竹( ) ( 2 1 8 ) 由此( 2 1 7 a ) 可以简化为 善4 t 吐k ( m ) - o ( 2 _ 1 乃 由上面的分析可以看出,在高维空间中构造最优超平面时,训练算法仅使 用特征空间中的点积,即中k ) 西f x ,) 所以如果能找到一个函数足使得 k ( ,x ,) 一巾( t ) m ( - :c ) ,这样在高维空间中,j 需要进行内积运算,甚至不 需要知道变换中的形式协”。同样我们可以对支持向量机的对偶形式就可以 如下陈述: o ( 口) 3 善q 一善善q a d f l ) k ( x ,玉) 1 这时,决策函数就变为 ,( 并) 一s g n 蓦“a , a :k ( 薯,x ) + 6 ,( 并) 2 薯,x ) + 6 常用的核函数有 ( 2 1 9 ) ( 2 2 0 ) 四川大学硕l :学位论殳 ( 1 ) 多项式核函数k ( x ,玉) 2 “工) + 1 j 9 ( ;a u s s 酗kx , x i ) 一p 势州i i ( 3 ) s i j 目n o i d 函数足f 石,) = t a n h ( , f l o ( x ) + 崩) 2 3 支持向量机回归 对于给定的数据集 k ,以) ,d 和r 的关系可以描述为 d 宰,( 石) + v ( 2 2 3 ) 其中是输入向量z 的个样本值,d ,为对应的期望响应。 设d 的估计为y ,它是由一组非线性基函数 妒,( x ) ) 2 。展开得到的: y 。乏( x ) “妒( z ) ( 2 2 4 ) 其中 妒( x ) = 陬( z ) 粥( z ) ,k ,( 石) w 卟,m ,k ,k ,】 在回归中通过引入一不敏感损失函数“和两组松弛变量 传 ;= , :,( 皇z 0 ,专a o ) 来表示约束最优化问题 r 吐一7 妒( 玉) f + 鼻 t 。r 妒( ) 一吐s 。+ i = i 2 n ( 2 2 5 ) 和用于分类时一十f ,约束最优化问题等价于在自晰( 2 2 5 ) 的约束下下最,j 、化 代价函数 中( 啮,爵) = 三1 ( ) + c 霪( 毒+ 引 同样,也可以通过定义l a r g r a n g e 函数的方法得到其对偶问题, 4 ( 2 2 6 ) 叫川人学硕卜学位论文 n- v q ( a ,a ) 一善4 ( q n j ) 一e 荟( q + 一) 一;善善( n ,一n j ) ( n , n :) k ( 玉,x ,) 【z z ,) 满足约束条件:芝( 口j q ) = o ,0 s a 。s c - o s n ,s c 其相应的回归函数为厂( x ) = ( n 。一n ,皿( t ) ( 2 2 8 ) 以上是对非线性回归的支持向量机,那么对线性回归的情形的来说,仅仅需要 把k ( ,勺) 用( # 五) 代替即可。 叫i ij 夫学硕j :学位沦文 3 神经网络 人工神经网络又称神经网络,是用大量简单的处理单元广泛连接组成的网 络,是在现代生物学研究人脑组织所取得成果的基础上提出的,用以模拟人类 大脑神经网络的结构和行为”i z4 ;i ) o 它反映了大脑功能的若干基本特征,但并 非逼真的描写,只是某种简化、抽象和模拟。像有人所说:“它如同飞机和鸟 的异同关系”。 图3 】所示为一典型的人类皮质细胞。信息通过树突( d e n d r it e 一输入通 道) 进入神经元,在某一瞬| 日j 假如这些信号的积累超出一定的门限值,则细 胞体就产生一输出信号。此信号沿着轴突( a x o n 一输出通道) 传输至其他神经 元。信息由一神经元传输到另一神经元的这种连接称为突触( s y n a p s e ) ,该信 息对下一神经元产生的影响的大小称为突触强度。神经网络正是建立在神经科 学基础之上的一种抽象的数学模型,它反映了大脑功能的若干基本特征。”“。 输入信号 ( a ) 人的大脑神经元 盘31 神经元缩构示意图 输出信号 舫人【神经元 人的大脑是由大量神经细胞或神经元组成,每个神经元可看作一个小的处 理单元。这些神经元按照某些方式互相连接起来,形成大脑内部的生理神经元 网络,这些神经元网络中各神经元连接的强弱,按外部的激励信号傲自适应变 化,而每个神经元又随着所接收到的多个激励信号的综合大小而;至现兴奋或者 6 四川大学硕士学位论文 抑制状态。大脑的学习过程就是神经元连接强度随外部激励信息做自适应变化 的过程,而大脑处理信息的结果则由神经元的状态表现出来。a n n 实际就是模 仿生理神经网络,具有人脑功s g 的一些基本特征:学习、i 己忆和归纳,从而解 决了人工智齄研究孛的某些局限性。它不周于当前人工智畿领域碜 究中普遍采 用的基于逻辑与符号处理的理论和方法。a n n 具有下列特点: ( 1 ) 具有学习能力。a n n 可以根据一定的学习算法,能通过训练实 例来决定自身的行为。 ( 2 )是并行结构,处理j 晚序也是并行和同时的。其计算功能分布在 多个处理单元上。 ( 3 )具有较强的容错能力 a n n 最基本的单元为处理单元,即人工神经元。像生物神经元一样,人工 神经元也可以有很多个输 。人工神经元的每一个输入者隆过相关的加权,以 影响输入的激励作用,就像生物神经元中突触的可变强度,它确定了输入信号 的强度。人工神经元的初始加权可根据确定的规律进行调节修正,就像生物神 经元中的突触可受外界因素影响,一样,人工神经元对所有的输入信号求和,然 后确定其输出。 a n n 的连接方式有很多种。多层前向神经网络是目前很常用的一种神经网 络”。多层前向神经网络输入层中的每个源节点的激励模式( 输入向量) 单 元组成了应用于第二层( 如第一隐层) 中神经元( 计算节点) 的输 信号,第 二层输出信号成为第三层的输入。其余层类似。网络每_ 层的神经元只含有作 为它们输入前一层的输出信号,网络输出层神经元的输出信号组成了对网络中 输入层源节点产生的激励模式的全部响应。即信号从输入层输入,经隐层传给 输出层,由输出层得至蝴出信号。其中误差反向传播( b a c kp r o p a g a t i o n ,简 称b p ) 神经网络和径向基函数( r a d i a lb a s i sf u n c 矗o n ,简称r b f ) 神经网 络是两种常见的多层前向神经网络。 3 ,1 误差反向传播神经网络 2 0 世纪8 0 年代中期,d a y i dr u m e l h a r t ,g e o f f r e yh i n t o n 和r o n a l d w i l l ja j i l s ,d a v i dp a r k e r 以及y a n n nl ec u n 分别独立发现了b p 算法;1 9 8 6 7 删川上学蛐卜学此论豆 i f r u m e l h e r r 和m c c l e l l a n d 编写的名为p a l - a l i e ld i s ir i b t je dp r o c e s s i n g : e x p l o t a t i o n si nt h em i c r o s t r u c t u r e so fc o g n i t i 【) n 的书版,该书的出 版对b p 算法的应用产生了重要影响。:b p 算法解决了多屡感知器的学习问 题e 硭述了神经网络的发展。 311 b p 算法的基本原理 b p 学习过程可以描述如下: ( i ) 工作信号币向传播:输入信号从输入层经隐含层,传向输出层,在 输出端产生输出信号。这是工作信号的正向传播。在信号的向 ;i 传递过程中网 络的权值是固定不变的,每一层神经正的状态只影响f 。层神经元的状态。如 渠庄输出层不能得到期望的输出,则转入误差信号反向传播。 ( 2 ) 误差信号反向传播:网络的实际输出与期望输出之i 日j 的差值即为误 差信号,误差信号由输出端开始逐层向 ;茸传播,这是误差信号的反向传搔。在 误差信号反向传播过程中,网络的权值由误差反馈进行调节。通过权值的不断 修f f 使网络的实际输出更接近期望输 b , f 面以含有两个隐含层的8 p 网络为例,介绍b p 算法具体学习过程。 砭2 : 确 i = ( 1 ,2 一 i - - ( 1 ,2 - i ) 图32 含有两个隐层的b p 网络 删 人学l 掌呛上 图3 2 中的朋为输入层,和、,分别是第和第二隐含层,p 为输出层。胛、j 、 j 、口分别是输入层、第一隐含层、第一+ 隐禽层和输出层的神经元数:w w 为输 入层和第一稳舍屡神经元的权值,为第隐含层和第二隐含层神经元的权 值,知为第二隐含层神经元和输出层种经厄的权值。输出层神经元的训练样 本集为【。,x 2 ,l ,x j 7 对应| 任训练样本x ;k ;,2 ,l , ,j , ( k 二l 、2 ,n ) 的实际输:“为:一帆,y l ,y 。,r ,期望输出为 以= ,:,l ,d 。j 。 、鼻输 出层输出的误 差 嘶) = ;耋( “小“n ) ) ! = 圭缸洳) ,没有达瞒度要求时,则向输 入层反向传播学习,沿途调整权值,使误差函数向负梯度方向变化,直至u 达到 所要求的误差精度。b p 神经网络的程序流程如图3 3 所示。 圈3 3b p 摩经网络的程序流程 列川大学硕l 学位论文 3 1 2b p 学习算法的优化 b p 算法具有简便、快速逼近等优点,但是b p 算法仍然具有它的缺点,例如 收敛速度慢和局部最小等,存在需要改进的地方,由于这些缺点的存在,使锝 实际中应用a n n e t 较困难,囡此,m 现了一些改进算法。比较好的一种改迸的 算法是b p x 改良法,这种方法是采用了动量法和学习速率自适应调整的策略 1 3 9 】。 “僻+ j ) = w 砷0 ) d 0 ) ( 3 1 ) a ( n ) = 2 x a ( n j 1 ( 3 2 ) 坤( d d ( n j ) 】 ( 3 3 ) 其中h 如) 表示n 时刻的权值向量,d 0 声i 嚣麓为一时刻的负梯度,d ( n 1 ) 为 n ,j 时刻的负梯度,a 为学习速率,a ) 0 :口为动量因子,o 叮 l 。加入动量项 实际上相当于阻尼项,可以减少学习过程中的震荡趋势。自适应学习速率先设 定一个初值,然后利用乘法使之增加或减少,以保持学习速度快而且稳定,从 而有效地抑制了髓络陷于局部极小。 3 2 径向基函数网络 1 9 8 5 年,p o w e l l 提出了多变量插值的径向基函数方法。1 9 8 8 年,b r o o m h e a d 和l o w e 首先将r b f 应用于神经网络设计,构成了径向基函数神经网络,即r b f 神经网络。 r b f 神经网络的基本思想是:甩径向基函数作为隐单元的“基,构成隐含 层空间,隐含层对输 矢量进行变换,将低维的模式输入数据变换到高维空间, 使得在低维空间内不可分问题在高维空间内线性可分”1 。 r s f 神经网络是一种三层前向网络。输入层由信号源节点组成:第二层为 隐含层,隐单元的变换函数是对中心点径向对称且衰减的非负非线性函数;第 三层为输出层它对输入模式做出响应”。 图3 4 为r b f 网络的示意图。输入层有朋个神经元,其中任一神经元用历 表示;隐含层有,个神经元,中( z 肋为“基函数”,它是第j 个臆单元的激励 输出;输出层有,个幸申经元,其中任一神经元用表示。隐层与输出层突触权 刚川犬学硕士学位论文 删薪a 圳憔撕一,( - 学卜网络第倘蜊经 元的实际输出为: y ( x 。) = + w q 妒( x 。 ( 3 4 ) 输入层隐含层f ,输出崖 图3 4r b f 网络的示意图 y y j 其中“基函数”般选用高斯函数: 卅h 印(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论