




已阅读5页,还剩48页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
四川大学硕士学位论文 含氧化合物红外光谱信息特征的研究 分析化学专业 研究生谢微指导教师李梦龙 自然科学与技术科学的信息化是科技发展的重要趋势。分析化学实际上是 一门化学信息科学,化学计量学就是分析化学信息化的产物。从科学发展史看, 科学数据的大量积累,往往导致重大科学规律的发现。各种现代化的分析仪器 的出现和广泛应用,使得在短时间内获得物质体系大量信息成为可能,这为化 学计量学的数据挖掘研究提供了机遇。几十年以来,人们一直在探索如何从大 量的红外谱图中最大可能地提取信息,将解析经验化。特别是近2 0 年来,出现 了许多计算机辅助红外光谱识别方法,这些方法大致可以分为三类:专家系统, 谱图检索系统,模式识别方法。其中最常用的模式识别方法是人工神经网络和 偏最小二乘法。文献中大部分利用它们对子结构进行识别,而对特定类别的化 合物深入研究尚未涉及,对化合物的特征吸收峰也没有深入的讨论。此外,即 使应用最多的人工神经网络在识别子结构时准确度也不高,且神经网络存在不 稳定、容易陷入局部极小和收敛速度慢等问题。 本文尝试了利用支持向量机提取不同化学环境下含氧化合物红外光谱的信 息特征。设计了一个分等级系统对o m n i c 数据库中4 8 5 2 个含氧化合物进行分 类。首先将含氧化合物分成含羟基、羰基、醚、羧基、硫氧、磷氧、氮氧类七 类化合物,进而对其中四类进行下一级分类,以期扩大子结构,识别含氧基团 邻近连接基团。以其中含羰基化合物为例,将支持向量机所得结果与误差反向 传播神经网络所得结果进行比较,其中除酯类化合物外,支持向量机模型的识 别率均优于人工神经网络模型。 第四层一元醇的分类以及第三层酰胺的分类中,将包含其特征峰的光谱片 四川大学硕士学位论文 段用于识别研究。醇的红外特征峰主要有四个,分别为o h 伸缩振动峰、c 0 伸缩振动峰、o h 面内以及面外弯曲振动峰,对于伯、仲、叔酵的识别,提取 包含这四个特征峰的光谱片段对其研究,结果表明o h 面内弯曲振动峰为区分 其取代类型的最佳峰,这与传统专著中认为c - o 伸缩振动峰为其主要识别峰不 一致;对于酰胺类化合物,红外特征峰主要有n - h 伸缩振动峰、c - - - o 伸缩振动 峰、n h 面内弯曲振动峰以及c n 伸缩振动峰,对包含这四个特征峰的光谱片段 研究表明,n h 伸缩振动峰对识别伯、仲、叔酰胺影响最为显著,这与经典红 外理论一致。 支持向量机作为一个新兴的机器学习方法,在红外光谱解析领域展示出良 好的性能,与神经网络相比,支持向量机还具有稳定和训练速度快等优点,是 一种很好的计算机辅助红外光谱解析的工具。化合物中含氧基团存在与否、近 邻原子或基团均得到比较高的识别率,这对于扩大红外光谱识别结构片段,对 化合物的最终类别甚至结构的确定,与其它类化合物分类系统组合,直至红外 光谱的完全计算机解析提供了依据。将包含特征峰的光谱片段用于光谱识别的 研究思路,为构建红外光谱智能解析系统提供了定量依据,为最大限度的提取 红外光谱信息,最终实现光谱的完全计算机解析打下基础。 关键词:红外光谱支持向量机信息提取含氧化合物 2 四川大学硕士学位论文 s t u d y o fi n f r a r e df e a t u r eo f o x y g e n - c o n t a i n e d c o m p o u n d s m a j o r :a n a l y t i c a lc h e m i s t r y p o s t g r a d u a t e :x i ew e i a d v i s o r :l im e n g l o n g a n i m p o r t a n tt r e n do f t h ed e v e l o p m e n to f t e c h n i q u ei st h ei n f o r m a t i o n i z a t i o no f s c i e n c ea n dt e c h n i q u e s a n a l y t i c a lc h e m i s t r y , a c t u a l l y , i sa ni n f o r m a t i o ns e i e n e eo f c h e m i s t r y , a n dt h ec h e m o m e t r i c si st h er e s u l to ft h ei n f o r m a t i o n i z a t i o no fa n a l y t i c a l c h e m i s t r y h i s t o r i c a l l y , t h ea c c u m u l a t e dc o l l e c t i o no ft h es c i e n t i f i cd a t aa l w a y s r e s u l t si nt h ed i s c o v e r yo fi m p o r t a n ts c i e n t i f i cr o l e s t h i sp r o v i d e st h eo p p o r t u n i t yt o m i n et h ed a t ao fc h e m o m e t r i c s w i t ht h eb i g g e ra m o u n to ft h ei n f r a r e ds p e c t r a d a t a b a s e ,t h e 出掣d e v e l o p m e n to ft h ei n f r a r e dt e e l m o l o g ya n do ft h ec o m p u t e r , i t i su r g e n tt of r e das o l u t i o na b o u th o wt ou t i l i z ea n de n l a r g et h ea p p l i c a t i o no f i n f r a r e ds p e c t r a i nt h ep a s td e c a d e s ,p e o p l ea r e 仃y i n gt os e a r c ht h ew a yt oi n t e r p r e t t h ei n f i a r e ds p e c t r a a l o n gw i t ht h ec o m p u t e r i z a t i o no ft h ei n f r a r e ds p e c t r o m e t r y , m a n yc o m p u t e r - a s s i s t e di n t e r p r e t a d o me m e r g e d t h ea u t o m a t i c s t r n c t u r e e l u c i d a t i o no fi n f r a r e ds p e c t r ag e n e r a l l yf a l l si n t ot h r e eg r o u p s :l i b r a r ys e a r c h , k n o w l e d g e - b a s e ds y s t e m s ,o rp a t t e r nr e c o g n i t i o n a m o n gt h el a s tg r o u p 。a r t i f i c i a l n e u r a ln e t w o r k s ( a n n s ) a n dp a r t i a ll e a s ts q u a r e so l s ) w e m o s tf r e q u e n t l yu s e d a u t o m a t i ci n t e r p r e t a t i o no fi n f r a r e ds p e c t r ab yu s i n gp a t t e r nr e c o g n i t i o nt e c h n i q u e s s u c ha sa r t i f i c i a ln e u r a ln e t w o r k sh a sd o m i n a n tf o c u so ns u b s t r u c t u r ep r e d i c t i o n a b s o r p t i o nb a n d sa r ei g n o r e do nc l a s s i f i c a t i o n f u r t h e r m o r e 。a n n sh a v es e v e r a l m a j o rd r a w b a c k s :u n s t e a d i n e s s ,l o c a lm i n i l l l aa n dv e r yl o ws p e e do f c o n v e r g e n c e i nt h i sp a p e r , an e wa p p r o a c hi se s t a b l i s h e d a t t e m p t i n g t oe x t r a c tt h es t r u c t u r a l i n f o r m a t i o no ft h eo x y g e n - c o n t a i n e dc o m p o u n d si nd i f f e r e n tc h e m i c a ls u r r o u n d i n g s 3 四川大学硕士学位论文 f r o mt h e i ri n f r a r e df i r ) s p e c t r a ar e c e n t l ya c t i v e l yu s e di n t e l l i g e n c ea l g o r i t h m , s u p p o r tv e c t o rm a c h i n e ( s v m ) ,i si n t r o d u c e dt ob u i l dc l a s s i f i e r sf o ra4 一l e v e l h i e r a r c h i c a lc l a s s i f i c a t i o ns t r u c t u r eo f4 8 5 2c o m p o u n d s t h ec o m p o u n d sw e r e s e p a r a t e di n t os e v e f lc l a s s e s :h y d r o x y l 。e a r b o n y l ,e t h e r , s u l f u r - o x yc o m p o u n d s , p h o s p h o r u s o x yc o m p o u n d s ,n i t r o g e n - o x yc o m p o u n d sa n dc a r b o x y l i ea c i d s t h e n e x tc l a s s i f i c a t i o no ft h e i rf o u rc l a s s e si sm e n t i o n e dt oe n l a r g et h es u b s t r u c t u r e r e s u l t so fc a r b o n y lc o m p o u n d sw e r ec o m p a r e df a v o r a b l yw i t ht h o s eo b t a i n e db y u s i n ga r t i f i c i a ln e u r a ln e t w o r k sm e t h o d sm o s t l y i nt h i s p a p e rw ea l s oi n t r o d u c e an e wa p p r o a c ho fs t r u c t u r a lf e a t u r e e l u c i d a t i o nf r o mi n f r a r e ds p e c t r ab ys t u d y i n gt h ej o i n te f f e c t so fd i f f e r e n ts p e c t r a b a n d s a l c o h o l sa mc h a r a c t e r i z e db ys e v e r a lb a n d s ,t h e ya l eo - hs t r e t c h i n g ,o h i n - p l a n eb e n d i n g ,o - ho u t - o f - p l a n eb e n d i n ga n dc - os t r e t c h i n gm o d e s t h e s e g m e n t a ls p e c t r ao na b o v ef o u rf r e q u e n c yi n t e r v a l sa n dv a r i o u sc o m b i n a t i o n so ft h e s e g m e n t a ls p e c t r a 批f e dt os v m t ob u i l dc l a s s i f i e r sr e s p e c t i v e l y t h er e s u l t ss h o w t h a to fa l lf o u ra b s o r p t i o no fa l c o h o l st oa f f e c t i n gi t sp r i m 缸y s e c o n d a r yo rt e r t i a r y , t h em o s ts i g n i f i c a n ta b s o r p t i o ni st h e0 - hi n p l a n eb e n d i n g a n dt h en e x ta r et h e c - 0s t r e t c h i n ga n d0 hs t r e t c h i n g , t h el a s ti st h e0 - ho u t - o f - p l a n eb e n d i n g a b s o r p t i o nw h i c hd i s a g r e e sw i t i ir e l a t e dk n o w nr e s e a r c hr e s u l t s a st ot h ea m i d e s t h e ya l ec h a r a c t e r i z e db yf o u rb a n d s t h e ya r en - hs t r e t c h i n g ,c = os t r e t c h i n g , n h i n - p l a n eb e n d i n ga n dc ns t r e t c h i n gm o d e s d i s c u s st h e s ef o u rb o n d ss a m ea s a l c o h o l s ,t h er e s u l ts h o wt h a to fa l lf o u ra b s o r p t i o no fa m i d e st oa f f e c t i n gi t sp r i m a r y 9 s e c o n d a r yo rt e r t i a r y , t h em o s ts i g n i f i c a n ta b s o r p t i o ni st h en - hs t r e t c h i n gm o d e , w h i c ha g r e e sw i t hr e l a t e dk n o w nr e s e a r c hr e s u l t s t h i sa r t i c l ep r o v i d e st h eq u a n t i t a t i v em e t h o d sa n di n t r o d u c e san e w s t r a t e g yf o r t h ee s t a b l i s h m e n to fi n f r a r e ds p e c t r ai n t e l l i g e n ti n t e r p r e t a t i o ns y s t e m a n ds v m a p p r o a c hc a nb e a ne f f i c i e n tt o o lf o rt h ei n f o r m a t i o ne x t r a c t i n go fi n f r a r e ds p e c t r a k e y w o r d s :i n f r a r e d8 p e c t l a i n f o r m a t i o ne x t r a c t i o n , s u p p o r t v e c t o rm a c h i n e , o x y g e n - c o n t a i n e dc o m p o u n d s 4 四川大学硕士学位论文 1 前言 红外光谱( i n f r a r e ds p e c t r o s c o p y , i r ) 的研究开始于2 0 世纪初期,自1 9 4 0 年 商品红外光谱仪问世以来,红外光谱在有机化学研究中得到广泛的应用。2 0 世 纪初c o b l e n t z 已发表了1 0 0 多种有机化合物的红外光谱图,给有机化学家提供 了鉴别未知化合物的有力手段。到5 0 年代末就已经积累了丰富的红外光谱数 据。到7 0 年代,在电子计算机蓬勃发展的基础上,傅立叶变换红外光谱( f t i r ) 实验技术进入现代化学家的实验室,成为结构分析的重要工具。它以高灵敏度、 高分辨率、快速扫描、联机操作和高度计算机化的全新面貌使经典的红外光谱 技术再获新生。近几十年来一些新技术( 如发射光谱、光声光谱、色一红联用等) 的出现,使红外光谱技术得到更加蓬勃的发展l 。 红外光谱对样品的适用性相当广泛,固态、液态或气态样品都能应用,无 机、有机、高分子化合物都可检测。此外,红外光谱还具有测试迅速,操作方 便,重复性好,灵敏度高,试样用量少,仪器结构简单等特点,因此,它已成 为现代结构化学和分析化学最常用和不可缺少的工具【1 棚。 1 1 红外光谱基础知识 1 1 1 红外光谱概述 当一束具有连续波长的红外光通过物质,物质分子中某个基团的振动频率 或转动频率和红外光的频率一样时,分子就吸收能量由原来的基态振( 转) 动能 级跃迁到能量较高的振( 转) 动能级,分子吸收红外辐射后发生振动和转动能级 的跃迁,该处波长的光就被物质吸收所以,红外光谱法实质上是一种根据分 子内部原子间的相对振动和分子转动等信息来确定物质分子结构和鉴别化合物 的分析方法。将分子吸收红外光的情况用仪器记录下来,就得到红外光谱图。 红外光谱图通常用波长或波数( a ) 为横坐标,表示吸收峰的位置,用透光率 ) 或者吸光度( a ) 为纵坐标,表示吸收强度。 通常将红外光谱分为三个区域:近红外区( 1 3 3 3 0 卅0 0 0 c m - 1 ) 、中红外区 ( 4 0 0 0 - - 4 0 0 c m - 1 ) 和远红外区( 4 0 叽1 0 c m 1 ) 。由于绝大多数有机物和无机物的基频 5 四川大学硕士学位论文 吸收带都出现在中红外区,因此中红外区是研究和应用最多的区域,积累的资 料也最多,仪器技术最为成熟。通常所说的红外光谱即指中红外光谱。 当外界电磁波照射分子时,如照射的电磁波的能量与分子的两能级差相等, 该频率的电磁波就被该分子吸收,从而引起分子对应能级的跃迁,宏观表现为 透射光强度变小。电磁波能量与分子两能级差相等为物质产生红外吸收光谱必 须满足条件之一,这决定了吸收峰出现的位置。 红外吸收光谱产生的第二个条件是红外光与分子之间有偶合作用,为了满 足这个条件,分子振动时其偶极矩必须发生变化。这实际上保证了红外光的能 量能传递给分子,这种能量的传递是通过分子振动偶极矩的变化来实现的。并 非所有的振动都会产生红外吸收,只有偶极矩发生变化的振动才能引起可观测 的红外吸收,这种振动称为红外活性振动;偶极矩等于零的分子振动不能产生 红外吸收,称为红外非活性振动。 分子的振动形式可以分为两大类:伸缩振动和弯曲振动。前者是指原子沿 键轴方向的往复运动,振动过程中键长发生变化。后者是指原子垂直于化学键 方向的振动。通常用不同的符号表示不同的振动形式,例如,伸缩振动可分为 对称伸缩振动和反对称伸缩振动,分别用v i 和表示。弯曲振动可分为面内 弯曲振动( 6 ) 和面外弯曲振动( 丫) 。从理论上来说,每一个基本振动都能吸收与其 频率相同的红外光,在红外光谱图对应的位置上出现一个吸收峰。实际上有一 些振动分子没有偶极矩变化是红外非活性的;另外有一些振动的频率相同,发 生简并;还有一些振动频率超出了仪器可以检测的范围,这些都使得实际红外 谱图中的吸收峰数目大大低于理论值。 组成分子的各种基团都有自己特定的红外特征吸收峰。不同化合物中,同 一种官能团的吸收振动总是出现在一个窄的波数范围内,但它不是出现在一个 固定波数上,具体出现在哪一波数,与基团在分子中所处的环境有关。引起基 团频率位移的因素是多方面的 蚓,其中外部因素主要是分子所处的物理状态和 化学环境,如温度效应和溶剂效应等。对于导致基团频率位移的内部因素,迄 今已知的有分子中取代基的电性效应:如诱导效应、共轭效应、中介效应、偶 极场效应等;机械效应:如质量效应,张力引起的键角效应,振动之间的祸合 效应等。这些问题虽然已有不少研究报道,并有较为系统的论述,但是,若想 6 四川大学硕士学位论文 按照某种效应的结果来定量地预测有关基团频率位移的方向和大小,却往往难 以做到,因为这些效应大都不是单一出现的。这样,在进行不同分子间的比较 时就很困难。另外氢键效应和配位效应也会导致基团频率位移,如果发生在分 子间,则属于外部因素,若发生在分子内,则属于分子内部因素。 红外谱带的强度是一个振动跃迁概率的量度,而跃迁概率与分子振动时偶 极矩的变化大小有关,偶极矩变化愈大,谱带强度愈大。偶极矩的变化与基团 本身固有的偶极矩有关,故基团极性越强,振动时偶极矩变化越大,吸收谱带 越强;分子的对称性越高,振动时偶极矩变化越小,吸收谱带越弱。 1 1 2 红外谱图的分区 按吸收峰的来源,可以将4 0 0 0 4 0 0 c m l 的红外光谱图大体上分为特征频率 区( 4 0 0 0 1 3 0 0 c m 1 ) 以及指纹区( 1 3 0 0 4 0 0 c m 1 ) 两个区域1 5 1 。 其中特征频率区中的吸收峰基本是由基团的伸缩振动产生,数目不是很多, 但具有很强的特征性,因此在基团鉴定工作上很有价值,主要用于鉴定官能团 如羰基,不论是在酮、酸、酯或酰胺等类化合物中,其伸缩振动总是在1 7 0 0 e m 1 左右出现一个强吸收峰,如谱图中1 7 0 0 c m 1 左右有一个强吸收峰,则大致可以 断定分子中有羰基。 指纹区的情况不同,该区峰多而复杂,没有强的特征性,主要是由一些单 键c o 、c - n 和c - x ( 卤素原子) 等的伸缩振动及c h 、o h 等含氢基团的弯曲振动 以及c - c 骨架振动产生。当分子结构稍有不同时,该区的吸收就有细微的差异。 这种情况就像每个人都有不同的指纹一样,因而称为指纹区。指纹区对于区别 结构类似的化合物很有帮助。 1 1 3 红外光谱的应用 红外光谱应用的范围很广 1 7 - 1 0 l ,红外吸收峰的位置与强度反映了分子结构 上的特点,可以用来鉴别未知物的结构组成或确定其化学基团;而吸收谱带的 吸收强度与化学基团的含量有关,可用于进行定量分析和纯度鉴定。另外,在 7 r。,lllr,i 四川大学硕士学位论文 化学反应的机理研究上,红外光谱也发挥了一定的作用。但其应用最广的还是 未知化合物的结构鉴定。 1 1 3 1 定性分析 红外光谱是物质定性的重要的方法之一。它的解析能够提供许多关于官能 团的信息,可以帮助确定部分乃至全部分子类型及结构。其定性分析有特征性 高、分析时间短、需要的试样量少、不破坏试样、测定方便等优点。 传统的利用红外光谱法鉴定物质通常采用比较法,即与标准物质对照和查 阅标准谱图的方法,但是该方法对于样品的要求较高并且依赖于谱图库的大小。 如果在谱图库中无法检索到一致的谱图,则可以用人工解谱的方法进行分析, 这就需要有大量的红外知识及经验积累。大多数化合物的红外谱图是复杂的, 即便是有经验的专家,也不能保证从一张孤立的红外谱图上得到全部分子结构 信息,如果需要确定分子结构信息,就要借助其他的分析测试手段,如核磁、 质谱、紫外光谱等。尽管如此,红外谱图仍是提供官能团信息最方便快捷的方 法。 近年来,利用计算机方法解析红外光谱,在国内外已有了比较广泛的研究 瞄】,新的成果不断涌现,不仅提高了解谱的速度,而且成功率也很高。随着计 算机技术的不断进步和解谱思路的不断完善,计算机辅助红外解谱必将对教学、 科研的工作效率产生更加积极的影响。 1 1 3 2 定量分析 红外光谱定量分析法的依据是朗伯一比尔定律。红外光谱定量分析法与其 它定量分析方法相比,存在一些缺点,因此只在特殊的情况下使用。它要求所 选择的定量分析峰应有足够的强度,即摩尔吸光系数大的峰,且不与其它峰相 重叠。红外光谱的定量方法主要有直接计算法、工作曲线法、吸收度比法和内 标法等,常常用于异构体的分析。 随着化学计量学以及计算机技术等的发展,利用各种方法对红外光谱进行 8 四川大学硕士学位论文 定量分析也取得了较好的结果,如最d - 乘回归“1 。切,相关分析1 1 1 ,因子分析 1 3 1 ,遗传算法【1 4 1 ,人工神经网纠1 5 - 1 6 1 等的引入,使得红外光谱对于复杂多组 分体系的定量分析成为可能。 1 2 含氧化合物的红外特征吸收 含氧化合物在自然界普遍存在,种类繁多,主要有醇、酚、酮、醛、羧酸、 酯、酰胺、酰卤、酸酐、异氰酸酯等。它们的红外活性都极强,不同的类型有 不同的特征峰,其具体位置各不相同,但含氧化合物的红外光谱图又存在着一 定的规律和共性。表1 1 为各类含氧化合物特征基团频率岱1 7 删。 表1 1 主要含氧化合物特征基团频率 9 四川大学硕士学位论文 1 3 计算机辅助红外光谱解析 有机化合物的结构鉴定在有机化学,生物化学、药物学、环境科学等许多 领域越来越显示出它的重要性,而在各种鉴定手段中红外光谱以其方便灵敏的 特性成为有机物结构鉴定的重要手段,除了它对分析结构特征反应灵敏这一特 点外,红外光谱仪与计算机直接联机,也为引进一些与计算机科学有关的智能 手段创造了条件1 2 1 l 。 各种现代化的分析仪器的出现和广泛应用,使得在短时间内获得物质体系 大量信息成为可能,这为化学计量学的数据挖掘研究提供了机遇 2 2 - 2 5 。由光谱 仪器记录下来的谱图中包含大量的结构信息,但是目前还不能实现复杂分子光 谱谱图的直接计算,其解析主要还凭借经验,对一个不是长期从事结构鉴定的 人来说,解析一张光谱谱图是一项很困难的工作。实际上,即使对不太复杂的 分子,也难于指定所有杂原子所处的官能团和峰的归属,而依靠各种计算机检 1 0 -ll i 、 四川大学硕士学位论文 索系统也会受到各种限制,诸如谱图库中数据有限,或测定条件( 仪器的类型、 具体的实验条件等) 与标准图谱所用的条件不同而造成各吸收峰位置的改变等。 另外由于红外谱图极其复杂,构成化合物的原子质量不同,化学键的性质不同, 原子的连接次序和空间位置的不同都会造成红外光谱的差别。这些都使红外光 谱的解析复杂化。如果能由计算机学习和存储红外光谱知识,用计算机辅助完 成解析谱图的工作,自然是一件很有意义的事。 几十年以来,人们一直在探索将红外图谱的解析智能化。随着商品化红外 光谱仪的计算机化,出现了许多计算机辅助红外光谱识别方法,这些方法大致 可以分为三类:谱图检索系统 7 6 - 3 z l 、专家系统硌鲫、模式识别方法p 期。 谱图检索的主要优点是能够收集大量的光谱,只要根据未知物的光谱谱图 就能识别化合物而无需其他数据( 例如分子式等) ,它的程序也比较简单。但是 它也有一些不可克服的缺点:首先,检索系统的能力与谱图库存储的化合物的 数量成正比,我们不可能把自然界所有的化合物收集其中,谱图库的发展总是 滞后于有机化学的发展。其次,光谱仪器随着技术的发展不断改进:波谱范围 不断扩大,分辨率不断提高,低温技术得到应用,一些新仪器的出现,这就要 求原有的谱图库要不断修改,而庞大的谱图库在短时间内是办不到的。由于检 索方法的这些特点,决定了它不能作为结构鉴定的一种完整的手段。 计算机辅助结构解析的另一种方法是专家系统。它所研究的领域包括:数 学证明,程序编写,行为科学与心理学,生命科学与医学等。目前设计的专家 系统解析谱图的一般方法是:在计算机里预先存储化学结构形成光谱的一些规 律:由未知物谱图的一些光谱特征推测出未知物的一些假想结构式;根据存储 规律推导出这些假想结构式的理论谱图,再将理论谱图与实验谱图进行对照, 不断对假想结构式进行修正,最后得到正确的结构式。但是,目前分子中各种 基团的吸收规律,主要还是通过经验或者人工获得。人工比较大量的已知化合 物的红外谱图,从中总结出各种基团的吸收规律,其结果虽比较真实地反映了 红外光谱与分子结构的对应关系,却不够准确,特别是这些经验式的知识难以 用计算机处理,使计算机专家解析系统难以实用化。 模式识别的发展是从五十年代开始的,就是用机器代替人对模式进行分类 和描述,从而实现对事物的识别。随着计算机技术的普遍应用,处理大量信息 四川大学硕士学位论文 的条件已经具备,模式识别在六十年代得到了蓬勃发展,并在七十年代初奠定 了理论基础,从而建立了它自己独特的学科体系。模式识别已经应用到分析化 学领域的有关方面,其中涉及最多的是分子光谱的谱图解析,在一些分类问题 上获得了成功。 m u n k - 等于1 9 9 0 年首次将线性神经网络应用于红外光谱的子结构解析,把红 外光谱的解析带入了一个全新的领域,从此引起红外光谱的计算机解析热潮 4 0 l 。随后各种方法,如各种人工神经网络4 们5 l ,偏最小二乘1 5 6 - 5 7 ,信号处理方 法如小波变换 2 9 , 5 8 等逐步引入到红外光谱的计算机解析中,使模式识别在红外 光谱的应用中得到很好的发展。 c a b r o l - b a s s 等使用了一个分等级的神经网络系统识别红外光谱的子结构 1 4 9 。首先把1 0 0 0 ( o 化合物光谱分为含苯环、含羟基、含羰基、含c - n f i 以及含 c = c 等5 大类,随后把这几个类进行进一步分类,总共3 3 个子结构。每一个下级 网络使用上一级网络输出的结果。以3 5 9 6 - 5 0 0g i r l 1 波段每1 2c r a 1 取2 5 9 个点作 为神经网络的输入,输出为“l ”和口,分别代表子结构存在和不存在。使用了 含有一个隐含层3 0 节点的反向传播神经网络对每个子结构进行识别,对化合 物作了全面但较为粗略的分类,涉及了数据库中一些常见化合物。 这些研究中大部分利用神经网络对子结构进行识别,而对特定类别的化合 物没有做深入研究,对化合物的特征吸收峰也没有深入的讨论。另外,其中应 用最多的人工神经网络在识别子结构时,对结构碎片的预测准确度不是很高, 且神经网络存在不稳定、容易陷入局部极小和收敛速度慢等问题1 5 6 - 5 q 。因此, 近年来,人们一直在寻找一种更好的模式识别方法来进行红外光谱的结构解析。 v a p n i k 等人于1 9 9 5 年在统计学习理论唧删( s t a t i s t i c a ll e a r n i n gt h e o r y , s l t ) 的基础上提出了支持向量机1 6 2 - 6 6 1 ( s u p p o r tv e c t o r m a c h i n e ,s v m ) ,它根据有限的 样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的泛化 能力。s v m 目前在化学中得到了一些较成功的应用1 6 7 - ? 0 ,本实验室先后分别用 改进的神经网络以及支持向量机对红外光谱中4 4 个岱1 1 以及1 6 个口1 1 常见的子结 构进行解析。结果表明,s v m 可以较好的对红外光谱的子结构进行识别。与a n n 相比,s v m 还具有稳定以及训练速度快等优点,是一种很好的辅助红外光谱解 析的工具。 四川大学硕士学位论文 2 方法原理 化学信息学( c h c m o i n f o m l a t i c s ) 是化学领域中近几年发展起来的一个新的 分支,是建立在多学科基础上的交叉学科,利用计算机技术和计算机网络技术, 对化学信息进行表示、管理、分析、模拟和传播,以实现化学信息的提取、转 化与共享,揭示化学信息的实质与内在联系,促进化学学科的知识创新m l 。 作为一门新兴的交叉学科,随着研究工作深入而广泛地开展,化学信息学 的数据分析方法内容与应用领域一直在不断扩充和更新 7 2 - 7 7 1 。下面简单介绍本 文所用的两种方法一支持向量机以及人工神经网络。 2 1 支持向量机 基于数据的机器学习是现代智能技术中的重要方面,化学计量学中的线性 回归、非线性回归和人工神经网络等传统机器学习算法都是以统计学的渐进理 论为依据的i ”l ,该理论的统计前提是统计规律要在训练样本接近无穷大时才逼 近实际值,化学化工实际工作中一般只能得到有限数量的样本,忽视这一矛盾 是造成实际计算中过拟合弊病的重要原因,这就迫切需要一种针对小样本的统 计预报方法。 针对经典统计数学这一弱点,v a p n i k 等人在2 0 世纪9 0 年代初期提出了一个 较完善的基于有限样本的理论体系,即统计学习理论 5 9 - 6 3 ,它是建立在结构风 险最小化原则以及v c 维概念基础上的一种小样本统计学习理论,为机器学习问 题提供了一个较好的理论框架。到九十年代中期,随着其理论的不断发展和成 熟。统计学习理论开始受到越来越广泛的重视,v a p n i k 等又在其基础上提出了 支持向量机【6 2 拍l ,它根据有限的样本信息在模型的复杂性和学习能力之间寻求 最佳折衷,以期获得最好的泛化能力。算法最终将转化为一个二次寻优问题, 从理论上说,得到的将是全局最优点支持向量机既能处理非线性问题,又能 抑制传统算法( 如人工神经网络等) 常遇到的过拟合弊病。对于线性可分问题的 二值分类,支持向量机产生一个满足分类要求的最优分类超平面,使得训练集 中属于不同类别的点正好位于该超平面的两侧,并且使平面两侧的空白区域最 【 四川大学硕士学位论文 大化。核函数的引入使得在原空间线性不可分的情况转换为高维空间的线性可 分问题来解决,这个特殊的性质能保证机器有很好的泛化性能,同时它巧妙地 解决了维数问题。下面简单介绍统计学习理论以及支持向量机理论。 2 1 1 统计学习理论简介 与传统统计学相比,统计学习理论是一种专门研究小样本情况下机器学习 规律的理论。它避免了人工神经网络等方法的网络结构难于确定、过拟合和欠 拟合以及局部极小等问题,被认为是目前针对小样本的分类、回归等问题的最 佳理论。 机器学习的目的是根据给定的训练样本求出对系统输入输出之间的依赖关 系的估计,使它能对未知样本的输出做尽可能准确的预测,并且通过定义风险 函数( r i s kf u n c t i o n ) 对学习效果进行评估。学习的目的就是使得期望风险最 小而期望风险无法直接计算,所以一般都是用经验风险最小化来代替期望风 险最小化。 v a p n i k 等人就传统的经验风险僻。似j ) 和实际的期望风险( r f w ,) 的关系提 出了以下结论:对于两类问题,对只有0 和1 两种取值的函数,经验风险和实际 风险之间至少以概率j 玎满足如下关系: 尺( w ) r 。( w ) + 2 1 其中h 为函数集的v c 维,它定义为能被集合中的函数以所有可能的2 “种方式分 成两类的向量的最大数目 ,j 是样本数。 由上式可以看出,实际风险由瓯部分组成:一个是经验风险,另一个称为 置信范围。那么统计学习所要解决的问题就是在保证分类精度的同时( r ,j 最小) ,降低学习机器的v c 维,从而使学习机器在整个样本集上的期望风险得 到控制,这就是结构风险最小化的基本原理。 1 4 四川大学硕士学位论文 2 1 2 支持向量机 2 1 2 1 线性可分 对于线性可分的情况,基本思想可用二维情况( 图2 1 ) 说明。图中,h 为两 类的分类线,h 1 和h 2 分别为两类中离分类线最近的点且平行于分类线的直线, h 1 和h 2 之间的距离称为两类的分类间隔。 图2 1 最优超平面示意图 s v s :支持向量 所谓最优分类线就是要求分类线不但能将两类没有错误地分开,而且要使 两类的分类间隔最大。前者是保证经验风险最小,后者是保证置信范围最小, 从而达到实际风险最小如果推广到高维,最优分类线就称为最优超平面。 训练样本集假定为“甄y o , i = l ,2 ,口,其中施为输入值,y i r 为对 应的目标值,沩样本数。如果由子集y i = + l 代表的模式和y m - i 代表的模式是线 性可分的,那么用于分离的超平面形式的决策曲面方程是: ,( d = w 7 x + b = o 2 - 2 其中石是输入向量,w 是可调的权值向量,6 是偏置对于一个给定的权值 向量和偏置,由方程2 - 2 定义的超平面和最近的数据点之间的间隔被称为分离边 缘。支持向量机的目标就是找到一个特殊的超平面,对于这个超平面分离边缘 四川大学硕士学位论文 最大。在这个条件下,决策曲面称为最优超平面。 为了使分类面对所有的样本正确分类并使得分类间隔最大, 如下条件: l ,7 玉+ 6 1 o m a x i m i i i l = 丽2 引入ia r g 阴n g e 函数解决上面问题,得到的最优分类函数为 m = 跏倭鹏“咖睿 2 1 2 2 线性不可分 就要求它满足 二3 2 - 4 2 - 5 线性划分的理想情况是训练样本集可以完全线性分离。当训练样本集不能 线性分离( 训练样本有重叠现象) 时,可以通过引入松弛变量每( 毛2 1 ) 唧删1 而转化 为线性可分的情况。松弛变量度量一个数据点对模式可分的理想条件的偏离程 度。线性不可分的原问题就是在条件2 6 的约束下寻找i d , 化代价函数( 式2 - 7 ) : m ( w r t + 6 ) l 一丘 i = 1 , 2 ,n 2 - 6 o ( w 孝) = 妻( ,w ) + c 磊 i=l二7 其中c 是一个指定的常数,称为正则化系数,它控制对错分样本的惩罚程度,c 越大表示对错误的惩罚越重 a 2 - 8 5 1 。 在式2 - 6 的约束条件下求式2 - 7 的最小值,即折衷考虑最大分类间隔和最少 错分样本,同样利用l a r g r a n g e 乘子的方法,把原问题转化为对偶问题加以解决, 就可以得到线性不可分情况下的最优超平面。 2 1 2 3 非线性问题 当涉及到非线性可分问题时,s v m 首先通过引入核函数将输入变量映射到 四川大学硕士学位论文 一个高维特征空间,使在输入空间线性不可分的问题在高维特征空间中线性可 分,然后在高维的特征空间中构造最优分类面嘲。 该超平面通过解决如下的二次规划问题得到: m a x a , 一去q d y t y ,k ( 而,x j ) 2 - 8 1 - - tdj d 约束躲善q 棚,( o 她c ) 抛 其中k ( 砧劫为核函数,常用的核函数有: 多项式核函数置“y ) = o y + 1 ) 2 - 1 0 g a u s s 径向基核函数 量( 五y ) = e x p - 4 x 一) ,| 1 2 撕2 j 2 - 1 1 s i g m o i d 函数量0 ,y ) = t a n h ( x y - b ) 2 - 1 2 考虑到适用性,本文选择径向基核函数,式2 1 l 中盯为核函数宽度。 求解上面的问题得到的最优分类函数为 ,o ) = s g n t 窆k ( 薯。工) + 6 2一13yia, l t = lj 采用s v m 算法,我们可以有如式2 1 3 所示的分类函数俐,对待识别样 本:当分类器俐 o 时,为指定类别;否则即为非指定类别。 2 2 人工神经网络 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k , a n n ) 的研究已有较长的历史,早 在1 9 4 3 年,心理学家w m c c u l l o e h 和数学家w ip i t t s 合作提出的兴奋与抑制型 神经元模型和h e b b 提出的神经元连接强度的修改规则,开始了神经科学理论 的研究。随后伺服机反馈自稳定系统、感知器等概念的提出,使神经网络迎来 了一次热潮。1 9 8 2 年,美国国家科学院的刊物上发表了著名的h o p f i e l d 模型理 论,该非线性模型的提出引起了各国学者的关注,使得人工神经网络的热潮再 1 7 四川大学硕士学位论文 次掀起。目前神经网络在研究方法上已形成多个流派,包括多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 计算机四级考试题库含答案
- 设备维修保养管理制度
- 自动控制元件及线路试题及答案
- 财务会计实习日记9篇
- 2025年安徽省初中学业水平考试历史冲刺试卷(二) (含答案)
- 2024-2025学年峨边彝族自治县教学质量检测七年级生物试题2025.01
- 打造微电影市场的新趋势网络剧行业公司的转型方向
- 2024年中考押题预测卷02(天津卷)-道德与法治(考试版)A3
- 【高中语文】《论语》《大学》《人皆有不忍人之心》联读课件+统编版高二语文选择性必修上册
- 牛津树自然拼读 第一级 Level 1 L1-U2-lesson1
- 《重症医学科建设与管理指南(试行)》
- 医用耗材一次性使用申请表
- GB/T 42068-2022农村产权流转交易市场建设和管理规范
- 第五课古典芭蕾(芭蕾舞鼎盛时期)
- 中小学生肥胖调查表
- 胃癌HER2判读及评分课件
- 学校机房网络规划与设计
- 中储粮警示教育心得体会三篇
- 船用空调电气控制系统简介课件
- 2009-2022历年河北省公安厅高速交警总队招聘考试真题含答案带详解2022-2023上岸资料汇编3
- 遥控器检验作业指导书
评论
0/150
提交评论