(检测技术与自动化装置专业论文)基于svm的瓦斯涌出的自学习模型研究应用.pdf_第1页
(检测技术与自动化装置专业论文)基于svm的瓦斯涌出的自学习模型研究应用.pdf_第2页
(检测技术与自动化装置专业论文)基于svm的瓦斯涌出的自学习模型研究应用.pdf_第3页
(检测技术与自动化装置专业论文)基于svm的瓦斯涌出的自学习模型研究应用.pdf_第4页
(检测技术与自动化装置专业论文)基于svm的瓦斯涌出的自学习模型研究应用.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(检测技术与自动化装置专业论文)基于svm的瓦斯涌出的自学习模型研究应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目:基于s v m 的瓦斯涌出的自学习模型研究应用 专业:检测技术与自动化装置 研究生:白峻尧 指导教师:杨世兴 摘要 ( 签名) 显堕盘芝 ( 签名) 越墨 本文的目的是利用s v m 这项新技术,通过对矿山监测监控系统中被测参数数据的 处理,为煤矿企业建立各项安全事故预测预报系统,以期提高我国的煤炭安全生产能力。 以支持向量机为本课题的基础算法,利用遗传算法进行特征提取,使用融合技术对 于从各种传感器采集到的数据进行处理,最后使用s v m 方法对于危险区进行分类,辅 助变动系数对于瓦斯的突变情况进行跟踪,这样充分利用了s v m 的分类能力,又兼顾 了实时数据的监测预报,最后给出了r u p 构架下的u m l 设计图。 由于本文研究的课题是以实际项目的形式出现,是面向应用的,所以文章从基础数 据的采集,预处理,特征提取,数据融合,支持向量分类,变动系数预报瓦斯突出,基 、于r u p 的软件构架设计都给出了详细的理论依据及具体的实际解决方案。论文章节安排 都是按照概要介绍,理论依据,实际应用模式进行论述,在第8 章将其它章节所述内容 系统的进行归纳并结合实际应用情况进行了相应阐述。由于软件构架的设计比较大,所 以u m l 图只给出了最重要的几个系统图形。 论文是根据煤矿的实际应用情况设计,采用的数据全部来源于西安西科测控设备有 限责任公司k j l l 0 煤矿瓦斯监控监测系统,因此该论文的算法及设计思想具有一般性, 也可用于其它监测监控系统的故障诊断系统的处理与应用。 关键词:遗传算法;特征选择;支持向量;数据融合;r u p 研究类型:应用研究 s u b j e c t :a nf o r e c a s t i n gm o d e lf o rc o a la n dg a sg u s h i n gb a s e do n s e l f - l e a r n i n gs v m s p e c i a l t y :d e t e c t i o nt e c h n o l o g ya n da u t o m a t i ce q u i p m e n t n a m e:b a i j u n y a o i n s t r u c t o r :y a n gs h i x i n g a b s t r a e t ( s i g n a t u r e ) ( s i g n a t u r e ) t h ea i mo ft h es u b j e c ti st op r o v i d es a f e t ya l a r ms y s t e mf o rc o a le n t e r p r i s ei no r d e rt o i m p r o v eo u rc o u n t r yc o a ls a f t yp r o d u c ea b i l i t y m a k i n gu s eo ft h en e wt e c h n o l o g y s v ma n d d a t af r o mm o n i t o r - c o n t r o ls y s t e m o nt h eb a s eo fs v ma r i t h m e t i c ,t h ea u t h o ri n t r o d u c et h eg aa n du s ei tt oc h o o s e c h a r a c t e r , a n dd e a lw i la l lk i n d so fd a t af r o ms e n s o r sb ya m a l g a m a t i o n a n dd i s t i n g u i s h d a n g e rz o n ef r o mn o r m a lz o n eb ys v m ,a n dr e g a r dc h a n g ec o e f f i c i e n ta sc r i t i c a lf l a g ,a l lo f t h e s ei st oi m p r o v ev e r a c i t yo f f o r e c a s t i n g ,a tl a s to f f e rt h ed e s i g no f u m lu n d e rr u p ; d u et ot h ea i mo ft h es u b j e c ti st oa p p l y ,s ot h ea u t h o rp r o v i d ed e t a i l e dt h e o r e t i c sa n d m a t e r i a lr e s o l v e n ti nd a t a c o l l e c t i o n ,d a t ap r e t r e a t m e n t ,c h a r a c t e rc h o o s e ,d a t a a m a l g a m a t i o n ,s v m s o r t i n g ,c h a n g ec o e f f i c i e n ta sc r i t i c a lf l a g ,s o f td e s i g nt r e s su n d e r r u p t h ea r t i c l ed i s c u s ss u m m a r yf i r s t l y , t h e o r ys e c o n d l y , p r a c t i c ea tl a s t t h ea u t h o rs l i mu p t h ec o n t e n th a sb e e nd i s c u s s e da n di n t e g r a t ei ti n t ot h ea p p l i c a t i o ni nc h a p t e r8 a n do n l yo f f e r s o m em a i nm a p so fu m l ,b e c a u s eo ft o ob i gt r u s s t h ei d e ao f d e s i g ni sa i ma tp r a c t i c e a l lo f d a t au s e dt ot e s ti sf r o mk j l l 0g a sd e t e c t i o n - c o n t r o ls y s t e mo fx i a nx i k ed e t e c t i o n c o n t r o lc o ,l d ,s ot h ea r i t h m e t i ci d e at od o 、v i t l l q u e s t i o n si sg e n e r i ca n dc o u l db eu s e di no t h e rm a l f u n c t i o nd i a g n o s i ss y s t e m k e y w o r d s :g e n e t i c a l g o r i t h m c h a r a c t e rc h o o s e d a t a a m a l g a m a t i o n s v mr u p t h e s i s :a p p l i c a t i o nr e s e a r c h 要拜技大学 学位论文独创性说明 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及 其取得研究成果。尽我所知,除了文中加以标注和致谢的地方外,论文中不包含 其他人或集体已经公开发表或撰写过的研究成果,也不包含为获得西安科技大学 或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中做了明确的说明并表示了谢意。 学位做储虢啼啦隅嵋绷,l 学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间 论文工作的知识产权单位属于西安科技大学。学校有权保留并向国家有关部门或 机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存和汇编本学位论文。同时本人保证,毕业后结合学位论文研究课 题再撰写的文章一律注明作者单位为西安科技大学。 保密论文待解密后适用本声明。 学位论文作者签名:刊文乙 指导教师签名:才墨盘吴 枷,f 年后月胡 1 1 瓦斯涌出的研究内容和意义 l 绪论 煤和瓦斯突出是严重威胁煤矿安全生产的自然灾害之一,因此煤与瓦斯突出危险性 预测是保障煤矿安全生产的重要前提。对矿井瓦斯突出做出正确的预测预报对矿山企业 有着重大的理论和实际意义。由于煤与瓦斯突出的机理比较复杂,影响因素较多,且具 有模糊性和不确定性,而且由于矿井的地质构造,因素之间的关系难以确定、随机干扰 成分多,瓦斯突出与煤层赋存的地质条件( 如煤层瓦斯含量、采深、煤厚、煤层倾角、 底板岩性、煤层间距、煤层透气性系数等) 、开采技术条件( 如采高、采煤方法、循环作 业方式、工作而单产、推进速度、开采顺序等) 、通风系统等都有关系【l j ,随着采掘深度 的加大和采掘速度的不断提高,煤与瓦斯突出等煤岩灾害动力现象日趋严重【8 j 。为了保 障矿工的生命安全和煤矿的正常生产,从事煤矿瓦斯防治的科技工作者,在突出的预测 预报和防突措施方面做了大量艰苦的工作。同时也对突h 机理进行了大量的实践探索和 理论研耕9 1 。 1 2 瓦斯涌出研究所面临问题 采煤工作面瓦斯涌出和突出问题是目前困扰全球采矿业的主要难题之一。采矿过程 可能产生突然或不稳定瓦斯问题,并且在某些条件下会发展成为潜在的危险。涌入到采 煤工作面的瓦斯量是由埋藏深度、工作面日产量、煤层瓦斯含量、煤层厚度、煤层问距 和日进尺等决定的【”。采煤工作面瓦斯的主要来源有含瓦斯的煤层、带有孔隙的围岩、 节理、断层和其它富含瓦斯的瓦斯聚集带。采矿过程会改变岩体的现有应力状态,有时 会带来突然的和不稳定的瓦斯突出问题。从煤层中扩散出的瓦斯量与岩层和煤层的物理 特性有关,同时也与其破坏程度有关。 随着科学技术的发展,煤矿采煤机械化程度也相应提高,多年沿用的打眼、放炮、 支架的炮掘工艺正被逐步取代。但是,伴随着机械化程度的提高,采煤工作面瓦斯涌出 量增加,涌出量不均匀,使事故率增加。为减少事故,分析掌握采煤工作面瓦斯涌出特 点及规律,以便指导生产是当今煤炭战线科研面临的新课题。 目前,国内外瓦斯涌出量预测方法可大体归为两类:一类是以数理统计为基础的矿 山统计法;一类是以瓦斯含量为基础的瓦斯含量法。对于开采、地质条件不同的预测区, 同一埋深的未采区,以及缺乏采掘资料的新矿区,矿山统计法就无能为力。瓦斯含量法 虽可以阐明瓦斯来源,但对瓦斯含量测定值的可靠性有较高要求,若测定含量时误差较 大,测点布置不合理,测量数据较少,都难以保证涌出量的预测精度。 西安科技大学硕士学位论文 随着计算机时代的到来和各行各业信息化、数字化的发展,产生了大量的数据。传 统的数据库技术和统计方法已不能满足人们对数据进行更高层次分析和利用的要求,导 致了“数据爆炸但知识贫乏”的现象,迫切需要新的技术和自动化工具来帮助人们将海量 数据转化为有用的信息和知识。且将潜在有用的信息和知识,表示成最终能被人理解的 高级模式。 1 3 本课题的研究内容 瓦斯涌出和突出从理论上讲,是可以预测的。现在预测的方法目前有很多,如趋势 外推法、回归模型法、时间序列法、人工神经网络法、灰色预测法、小波变换法等方法, 以及它们的各种组合方法。但要准确的分析预测瓦斯涌出和突出则要困难得多。主要是 因为瓦斯涌出受到很多未知和已知因素的影响,它可能是好多因素的合力作用结果。地 质结构,风速,温度,钻孔压力等都大大的扭曲了瓦斯强度本来的面目,使之变得难以 预测。本文的研究目标就是通过支持向量新技术求解出瓦斯涌出的数学模型从而形成具 有自主判断能力的专家系统。 本文课题将s v m 理论应用于瓦斯突出预测。通过对监控监测得到的数据的处理, 对于生产矿井中所发生的煤与瓦斯突出进行了定性定量分析,试图得到瓦斯涌出的模 型,这样,通过利用大量的历史数据和采用先进分析手段,本文就能够得到其发展演变 的规律,为安全生产提供一定的参考。支持向量机是v a p n i k 等人根据统计学习理论提 出的一种学习方法,近年来在模式识别、回归分析和特征提取等方面得到了应用。它是 由有限训练样本取得的决策规则对独立的测试集仍能够取得小误差的一种方法。支持向 量机算法是一个凸二次优化问题,能够保证找到的极值解就是全局最优解。这些特点表 明支持向量机是一种优秀的学习算法。 2 2s v m 的基本理论 2 1 概述 2s v m 的基本理论 大规模模式识别理论和方法在实际应用中具有重要意义,但其泛化能力的定量描述 一直缺乏有效的手段。人工神经网络方法在小规模识别问题中比较有效,但也有缺点, 如确定网络的拓扑结构尚无可靠的理论指导,易陷入局部最优解,同时对于大规模模式 识别问题泛化能力差。支持向量机是v a p n i k 等人根据统计学习理论提出的一种学习方 法,近年来在模式识别、回归分析和特征提取等方面得到了应用。支持向量机是根据 v a p n i k 提出的结构风险最小化原则来提高学习机泛化能力的方法,即由有限训l 练样本取 得的决策规则对独立的测试集仍能够取得小误差的一种方法。支持向量机算法是一个凸 二次优化问题,能够保证找到的极值解就是全局最优解。这些特点表明支持向量机是一 种优秀的学习算法。支持向量机的核心内容是在1 9 9 2 1 9 9 5 年间提出的【”,目前仍处于 发展阶段。支持向量机本质上是一种非线性数据处理工具,在模式识别( 字符识别、文 本自动分类、人脸检测、头的姿态识别) 、函数逼近、函数拟合、回归估计、密度估计、 数据挖掘、三维物体识别、遥感图像分析和非线性系统控制中均有很好的应用,在某些 方面已经有了一些结果,如基于核的主成分分析、非线性去噪、非线性模式重建以及数 据挖掘等。支持向量机是一项很有发展前途的技术,不存在局部极小值问题,且不需进 行网络迭代训练,求解速度明显高于神经网络,并具有较高的泛化能力。 2 2 机器学习的基本问题和方法 2 2 1 机器学习问题的表示 机器学习问题的基本模型,可以用图2 1 表示: 图2i 机器学习的基本模型 其中,系统s 是本文研究对象,它在给定一定输入x 下得到一定的输出y ,l m 是本文 所求的学习机,输出为y 。机器学习的目的根据给定的已知训练样本求取对系统输入输 西安科技大学硕士学位论文 出之间的依赖关系的估计,使它对未知输出作出尽可能准确的预测。 机器学习问题可以形式化的表示为:已知变量y 与输入x 之间存在一定的未知依赖 关系,即存在一个未知的联合概率f ( x ,y ) ,( x 和j ,之问的确定性关系可以看作是一个 特例) ,机器学习就是根据n 个独立同分布观测样本( _ ,h ) ,( x :,m ) ,( ,虬) ,在一组函 数 f ( x ,w ) 中求一个最优的函数 f ( x ,w o ) ,使预测的期望风险 r ( w ) = i l ( y ,f ( x ,w ) ) a f ( x ,y )( 2 1 ) 最小。其中, f ( x ,w ) 称作预测函数集,w n 为函数的广义参数,故 f ( x ,w ) ) 可以表 示任意函数集:l ( y ,f ( x ,w ) ) 为由于用f ( x ,w ) 对y 进行预测而进行造成的损失。不同类 型的学习问题有不同形式的损失函数。 2 2 2 复杂性与推广能力 在现代的新型控制领域或人工智能领域,曲线拟合成为一切分析的基础,无论是人 工神经网络或是模式识别中。在一个b p 网络中,要学习一组样本,本文首先要估计出 这组样本的数据模型,即拟合出样本的曲线,但是对于选择的模型由于不同人可能不一 样。在很多情况下,即使知道问题的样本来自于一个比较复杂的模型,但由于训练样本 有限,并不能确定预测函数的维数,用一次函数可以拟合,用二次也可以拟合,那末在 满足经验风险的同时,也要满足期望风险,即函数模型的推广能力要强。 2 2 3 曲线拟合存在的问题 在早期神经网络中,人们总是把注意力集中到如何使其经验风险最小,即己知的样 本数据,根据大数定律定义 1 上一 r e m p ( 6 0 ) 2 亡三( y f ,f ( x i ,甜) ) ( 2 2 ) 7 0 i = l 来逼近期望风险,传统的最小二乘拟合法就是利用损失函数 l ( ( y i ,f ( x ,c o ) ) = ( y f ( x ,国) ) ) 2( 2 3 ) 带入到经验风险中获得的。但人们很快发现一味追求最小化r e m p ( m ) 并不能达到好效 果,在某些情况下,训l 练误差过小反而会导致推广能力下降。 4 2s v m 的基本理论 1 0 05 0 05 10 图2 2f ( x ,d 1 = s i n ( a x ) 拟合采样点 如图2 2 ,假如有一组训练样本( x ,y ) ,x 分布在实数范围内,而y 取值在 0 ,1 】 之间,那末不沦这些样本依据什么模型产生的,只要用一个函数八墨鲫“【“) 去拟合 这些点,其中口为待定参数,总能找一个口使训练误差为如上图2 2 ,很显然,这个最 优函数并不能代表原来的函数模型,不能确保通过这些有限样本的拟合,函数模型会有 较高的推广性。尤其在有噪声情况下,本文更难确保函数的推广性。 如下图2 3 本文利用二次模型y = x2 产生1 0 个样本,分别用一次函数和二次函数根 据经验风险最小化原则去拟合,虽然只是模型是二次多项式,但由于样本有限,且受到 噪声的影响,用一次多项式拟合好于二次多项式拟合,如何比较两个模型的推广性及经 验风险,期望风险? 图2 3f ( x ,a ) = s i n ( a x ) 拟合采样点 星号点为已知样本点;实现为二次函数拟合结果( 最小均方误差m s e = o 0 8 4 5 ) 破折号为一 次拟合结果( m s e = o 0 5 9 6 ) ;点线是真实模型。 2 2 4 v c 维 本文在介绍v c 维之前,现学习几个定理。学习理论关键定理:对于外界损失函数, 5 0 5 5 0 o 0 叼 1 西安科技大学硕士学位论文 经验风险最小化学习一致的充要条件是经验风险在如下意义上一致的收敛于真实风险: l i me s u p ( r ( m ) 一r p m , ( c o ) - - - - - 占) 2 = o ,v 占0 ( 2 4 ) 其中,p 表示概率,r e m p ( m ) 和r ( ) 分别表示在n 个样本下的经验风险和对于同一个( 0 的真实风险。 所谓学习过程的一致性是指当训练样本数目趋向于无穷大时,经验风险的最优只能 收敛于到真实风险的最优值。只有满足一致性条件,才能保证在经验风险最小化原则下 得到的最优方法当样本无穷大时趋近于期望风险最小的最优结果。 r ( + i ”) 2 胄r 。,c o + i n ) 彳一r ( m i ,一 。 ,、l 即图示2 4 如下: 期望风险 氙 图2 , 4 经验风险与期望风险的一致性 生长函数:函数集的生长函数g ( n ) 定义为它在所有可能的样本集中的最大随机熵, 即g ( n ) = l n m a x n ( z 。) ,也就是说,生长函数反映了函数集把n 个样本分成两类最大 研 可能的分法数。显然,g f ”1 一l n 2 。由于它是所有可能的样本集中取最大,因此与样本 分布无关,根据定理:所有函数集的生长函数或者与样本数成正比,即g ( n ) = n l n 2 , 或者以下列样本数的某个对数函数为上界,即 厶 g ( n ) s h ( l n 二+ 1 ) ,n h ( 2 6 ) 玎 l 其中h 是一个整数,它是从生长函数g ( n ) = n l n 2 到g ( n ) - h ( l n n + 1 ) 的转折点,即当n = h n 时,有g ( h ) = h l n 2 而g ( h + 1 ) ( h + 1 ) l n 2 。生长函数的这种性质如图2 5 : 图2 5 生长函数性质 6 2s v m 的基本理论 v c 维对于一个指示函数集,如果生长函数是线性的,则它的v c 维为无穷大;如 果生长函数以参数为h 的对数函数为上界,则函数集的v c 维是有限的且等于h ,根据 以上定理,经验风险最小化学习过程一致的充要条件是函数集的v c 维有限,且这时的 收敛速度是快的。 根据统计学习理论中关于函数集的推广性的界的结论,对于指示函数集f ( x ,c o ) ,如 果损失函数q ( z ,) = l ( y ,f ( x ,脚) ) 的取值为0 ,或1 ,有如下定理定理:对于前面定义 的两类分类问题,对指示函数集中的所有函数( 当然也包含使经验风险最小的函数) ,经 验风险和实际风险之间至少以概率l 一玎满足如下的关系: r ( c o ) r 。( c o ) + s , 其中,当函数集中包含无穷多个元素( 即参数甜有无穷多个取值可能) 时, 洲_ n ,玛码竺兰:兰望( 2 ,) 而当函数集包含有限个( n 个1 元素时, s :2 l n n - l n r i f 2 8 、 甩 其中,h 为函数集的v c 维。通常,分类器都是无穷多种可能的,因此本文用2 5 式, 其中的a l 和口2 是两个常数,满足 口c4 ,和 2 ,在最坏的情况下,有, 0 0a2 a ,= 4 ,a ,= 2 ,此时这个关系可以进一步简化为: r ( w ) o ,i - 1 ,2 , 9 西安科技大学硕士学位论文 l ( w ,b ,口) = 去( w 7 w ) 一口, y ,【( w z ,) + 6 一1 )( 2 1 6 ) - i = 1 n 是引入的l a g r a n g e 系数,需要对w 和b 求l a g r a n g e 函数的极小值。根据约束优化理 论中的k f i h n t u c k e r 条件,( 2 1 6 ) 式中的极值问题简化为它的对偶问题,即在条件 y ,口,= 0 ,吒兰o ,i = 1 ,n 之下对噶求解f 列函数的最大值 j = 】 q ( c t ) = a 。一去口,口,y ,y ,( x ,x ,) ( 2 1 7 ) j = l - j ,j = l 若口为最优解,则 w = 口+ ,y 。t 。( 2 1 8 ) j = 1 即最优超平面的权系数向量是训练样本向量的线性组合。 根据k t 条件,这个不等式约束下的二次函数极值问题,存在惟一解且最优解满 足: 口。 。( w + z 。+ 6 ) 一1 ) = 0 ,i = l ,n , 因此,对多数样本口将为0 ,取值不为零的口对应于使式( 2 1 4 ) 等号成立的样本即 支持向量,他们通常是全体样本中的很少一部分。基于最优超平面的分类规则可用以下 指示函数表示 ,( x ) = s g n w * - x + b + = s g n ! 匹口? m ( t x + b ( 2 1 9 ) 2 4 支持向量机与核函数 2 4 1 支持向量机 如果用内积k ( x ,z 7 ) 代替最优分类面中的点积,就相当于把原特征间变换到一个新 的特征空间,此时式( 2 1 7 ) 的优化函数变为: q ( 口) = q 一 q 口,y ,y ,k ( x i ,x j ) ( 2 2 0 ) i = 1 山l j = l 而相应的判别函数式( 2 1 5 ) 也相应变为 ” 厂( x ) = s g n ( 口j 少。k ( z ,x ) + 6 )( 2 1 9 ) 忙i 算法的其它条件均不变。这就是支持向量机。 支持向量机的实现基于如下思想:通过某种事先选择的非线性映射,将输入向量x 映 射到一个高维特征空间z ,在这个高维空间中构造最优分类超平面,其过程见图2 8 。 1 0 2s v m 的基本理论 【 - - - = = , l l 蝻,凡窑捅 图2 8s v m 构造的最优超平面 支持向量机求得的分类函数形式上类似一个神经网,其输出是若干中间层节点的线 性组合,而每个中间层节点对应于输入样本与一个支持向量的内积,因此也被叫做支持 向量网络。 由于最终的判别函数中实际只包含与支持向量的内积和求和,因此识别时的计算复 杂度取决于支持向量的个数。 另一个问题是由于变换空间的维数很高,在这个空间中的线性判别函数的v c 维因 此也很可能很大,并不是一个很好的分类器。关于最优和j 。义最优分类面的推广能力, 有如下结论。 定理:如果一组训练样本能够被一个最优分类面或者广义最优分类面分开,则对于 测试样本分类错误的期望的上界是训练样本中平均的支持向亮占总训练样本数的比例, 即 e ( p ( e r r o r ) ) 焉器 r 2 : 因此,支持向量机的推广性也是与变换空间的维数无关的,只要能够适当的选择一 种内积定义,构造一个支持向量数相对较少的最优或广义最优分类面,则就可以得到 较好的推广性。 2 4 2 核函数 采用不同的内积函数将导致不同的支持向量机算法,目前得到研究的内积函数形式 主要有三类: ( 1 ) 采用多项式形式的内积函数,即 k ( x ,x ,) = x ,) + 1 】9 西安科技大学硕士学位论文 此时得到的支向量机是个阶多项式分类器。 ( 2 ) 采用核函数型内积 k ( 。) :e x p 一里亨乌 d 此时得到的支向量机是一一种径向基函数分类器。 ( 3 ) 采用s 型函数作为内积, k ( x ,x ,) = t a n h ( v ( x x ,+ c ) 此时得到的支向量机是一种两层的多层感知器神经网络。 2 5 二次规划问题的求解 3 按照求解二次规划问题的数值方法来求解式( 2 2 0 ) 计算量和内存需求量仍十分巨 大。当训练样本集很大时,直接计算是十分困难的,从而限制了s v m 的实际应用。p l a t t 提出的算法( s e q u e n t i a l m i n i a l o p t i m i z a t i o n ,s m o ) ,可将s v m 的二次规划问题分解为求 两个l a g r a n g e 乘子优化问题,可通过解析的方法逐步迭代求解,减少了对内存的消耗, 也极大地提高了训练的速度,使s v m 广泛应用成为可能20 1 。近来s sk e e r t h i 等提出 一种g s m o 算法并证明该算法可有效地提高s m o 算法的收敛速度。 考虑凸的二次规划问题( q u a d r m i cp r o g r a m m i n gp r o b l e m ,q p ) 1 一一 m i n f ( a ) = 口。q 口+ p 7 口 z s t a ,口,s6 ,v i ,y ,口。2c q 是对称半j f 定的,d ,b i ,v i ,y 。o ,v i ,定义0 为q p 的可能集合。先设 非空而且 f 在 上有下限,这样就暗示q p 问题有最优解。s v m 分类器设计中出现的二元问题是 q p 的一种特殊情形,此时 口,= o ,b ,= c ,c 0 ,y 。 一1 ,+ 1 ,c = 0 ,只= 一1 ,v i q h = y i y k ( x 。,x l 、,i ,j 其中x 。是第k 个输入训练模式,k 是满足m e r c e r 条件的核函数。则显然对此时的q p , 0 是非空的。因为 是紧致集,f 在 上有下限。因此要求的假设成立。 对o p ,k k t 条件是充要条件,为写出k k t 条件,定义l a g r a n g e 函数如下: 三= 去口7 q a + p r 口一一( d 。一a t ) + ,( 口,- b ,) 一( 口。y 。一c ) 定义f ) 表示为 坐塑生尘其中 q d ,表示【q 口 的第i 个元素。 _ y , 则对q p ,k k t 条件可 2s v m 的基本理论 a r 芒兰二= ( f 一) y 一口。+ t 。= o ,占0 ,( o f ,一日,) = o ,0 ,。( 口。一b ,) = 0 ,v i d 口 该条件在考虑每个i 的三种情况可分别简写为: o f 。= a i , ( f p ) y 。0 ( 2 ,2 1 ) a ,口。6 ,( f p ) y ,= 0 ( 2 2 2 ) 5 ,= b ,( f p ) y ,= 0 ( 2 2 3 ) 定义标号集如下: ,o ( o f ) = i :,口,b 。 ,1 l ( o f ) = i :y , 0 ,口。a i , ,2 ( 口) = i :y , 0 ,口,= a 。 , j 4 ) = i :y , i l 洲l a xf (口)一7(230) 由此给出g s m o 算法:对给定的p o 。 西安科技大学硕士学位论文 ( 1 ) 选定某一c 【o ,初始化:k = o ,0 【( o ) = 旺; ( 2 ) 如果( k ) 满足式( 11 ) n 停止: ( 3 ) 选取0 【处的偏离对( i ( k ) ,j ( k ) ) 在o 上只变化a i ) ,a j ( k ) 使f 最小,由此得( k + 1 ) ; 返回步骤1 。 d 3 数据预处理的基本概念 3 数据预处理的基本概念 3 1 概述 在处理实验数据或者监测数据的时候,常常会遇到个别数据偏离预期或大量统计数 据结果的情况,如果把这些数据和正常数据放在一起进行统计,可能会影响实验或者检 测结果的正确性,如果把这些数据简单地剔除,又可能忽略了重要的实验信息。这里重 要的问题是如何判断异常数据,然后将其剔除。判断和剔除异常数据是数据处理中的一 项重要任务,目前的一些方法还不是十分完善,有待迸步研究和探索。目前人们对异 常数据的判别与剔除主要采用物理判别法和统计判别法两种方法。所谓物理判别法就是 根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏 离正常结果,在实验过程中随时判断,随时剔除。统计判别法是给定一个置信概率,并 确定一个置信限,儿超过此限的误差,就认为它不属于随机误差范围,将其视为异常数 据剔除。 3 2 本课题中使用到的算法 3 2 1 拉依选定律 如果实验数据的总体x 是服从正态分布的,则 k p p3 d ) lo0 0 3 式中,u 与a 分别表示正态总体的数学期望和标准差。此时,在实验数据中出现大 于i x + 3 a 或小于p 一3 6 数据的概率是很小的。因此,根据上式对于大于p + 3 0 或小于 卜3 0 的实验数据作为异常数据,予以剔除。具体计算方法如下:对于实验数据x 1 ,x 2 , x 3 ,x n ,先计算其均值 再计算残差 则标准差 气z 一o e 柚) 曲一气2 ) 西安科技大学硕士学位论文 盯;丽 一后蓐嘲 如果某个测量值砧( 1 sd s “) 的残差满足 d “ 勘 - l 雄l 嚣 - l 麓 娶,y i 11 而lx 2 1 x吨x22 : 而,屯,捧 * z y 则认为x d 为异常数据,予以剔除。拉依达准则是最常用的异常数据判定与剔除准则。 3 2 2 五点三次平滑 设己知n 个等距点x o 葺 一t 上的观测( 或着实验) 数据为y o ,h ,则可以 在每个数据点的前后各取2 个相邻的点,用三次多项式 y = a oq - a l x - l - a 2 x 2 + a 3 x 3 进行逼近。根据最小二乘原理确定出系数。o ,a i ,0 2 ,a 3 ,最后可得五点三次平滑公式如 下: 记= 而1 ( 6 9 ”一:+ 4 咒- i _ 6 m + 4 y g + , - m + 2 ) 记= 去( 2 胙。+ 2 7 + 1 2 ”8 】+ 2 ) 多,= 去( 也- 2 + 1 2 y , - t + 1 7 川2 匈。) 死= 击( 2 一8 岫+ 1 2 h + 2 7 + 2 :) ,嘞; 3 数据预处理的基本概念 死= 去( 仉2 + 4 咒- 1 + - 6 m 地一6 9 y j + 2 ) 其中y ,表示y ,的平滑值,对于开始两点和最后两点分别由上述第一,二公式与四五公式 进行平滑。”5 。 3 2 3 遗失数据的弥补 在一些情况下,在一些重要的数据由于探头断线或者其它的缘故,使该时刻的数据 明显不和监测数据,此时在经过滤波之后,必须补齐该时刻的值,这样,就用到插值的 办法,主要有两种: ( 1 ) 当实验数据有重复,并且每一批实验至少有一个数据没有遗失时,可以用未遗 失的数据的平均值代替遗失的数据。表3 1 所示为一组实验数据,其中a 和b 为遗失的 数据,现在来弥补这两个数据: 表3 1 有重复实验数据的弥补 a152 35a3322 21 b1 2l bl2l31 6l5 铲( 蠢) ,圹( 1 5 + 2 4 + 3 5 + 3 3 + 2 2 + 2 1 ) 6 = 2 5 b * ( 毒) ,端2 ( 1 2 + 1 4 + 1 2 + 1 3 + 1 6 + 1 5 ) 6 = 1 3 7 这样本文就得到了遗失数据的估计值。 ( 2 ) 如果没有重复数据得实验,则用下法弥补: 表3 1 所示为一组实验数据,其中a 和b 为遗失的数据。与表3 2 不同的是,这组 数据没有重复数据。现在本文来弥补这两个数据: 令 芒蒜t :( 1 81 + 盘十o ) 2 3 4 、 。 则总离差平方和l t = 3 5 2 + 2 3 2 + 2 0 2 + a 2 + 2 0 2 + 1 9 2 + 2 0 2 + 1 5 2 + 1 2 2 + 1 4 2 + b 2 + 0 3 2 一c 组间离差平方和l a = 7 8 2 + ( 3 9 + a ) 2 + 4 7 2 + ( 1 7 + b ) 2 3 c l b = ( 6 9 + a ) 2 + ( 5 8 + b ) 2 + 5 4 2 】4 _ c 剩余离差平方和l 。= l t l a l b 。 望童殳些垄堂翌主兰堡垒墨 表3 2 没有重复实验数据的弥补 a la 2 a 3 焉。y g b j 3 ,s a 2 0 1 46 9 + b 2 2 s 2 0i 5b5 8 + b 2 o1 拿1 2e 35 | 瓦。够 7 。g3 9 - a4 71 7 + b1 8 1 + 酣b 合理的a 和b 值应使剩余离差平方和l 。最小,因此,本文的任务是求得l 。最小时 的a 、b 值。为此,对l e 求偏导数,并令其等于零: 可求得:a = 2 9 5 ,b = o 5 3 。 o o f l l 监掀监 ,r_,、_- 4 特征选择的基本概念 4 特征选择的基本概念 4 1 概述 、 特征选择就是一个从原有的特征集合中选择一个( 相对某种评价准则) 最优特征子集 的过程。研究如何把高维特征空间压缩到低维特征空间以便有效设计分类器就成为一个 重要的课题。任何识别过程的第一步,不论是用计算机还是由人去识别,都要首先分析 各种特征的有效性并选出最有代表性的特征。 一般特征选择从两个方面着手,一种方式是用映射( 或称变换) 的方法把原始特征变 换为较少的新特征,这就是特征提取。另一种方式就是从原始特征中去挑选出一些最有 代表性的特征来,这就是特征选择。 4 2 特征选择算法的分类 特征选择的方法主要有: ( 1 1 最优搜索算法:到目前为止唯一能得最优结果的搜索方法是“分支定界”算法; 它是一种自上而下方法,但具有回溯功能,可使所有可能的特征组合都被考虑到。由于 合理地组织搜索过程,使得有可能避免计算某些特征组合而不影响结果为最优,主要利 用了可分离性判据的单调性。 ( 2 1 次优搜索算法:分支定界法虽然比盲目穷举效率高,但在有些情况下计算量仍 然太大而难以实现,这时不得不放弃最优解而采取计算量小的次优搜索方法。 ( 3 1 模拟退火算法:模拟退火算法得益于材料的统计力学的研究成果。统计力学表 明材料中粒子的不同结构对应于粒子的不同能量水平。在高温条件下,粒子的能量较高, 可以自由运动和重新排序。在低温条件下,粒子能量较低。如果从高温开始,非常缓慢 地降温( 这个过程校称作退火) ,粒子就可以在每个温度下达到热平衡。当系统完全被冷 却时,最终形成处于低能状态的晶体。 4 3 特征选择算法的选用 由于特征选择算法研究的不断深入,出现了大量的特征选择算法,以后还会更多。 随着特征选择算法的增多,如何选用合适的特征选择算法便成为一个紧迫的问题。针对 具体的应用,除了具体领域的知识外,还需要对特征选择算法的技术细节有所了解。 ( 1 ) 特征选择的目的,大体上分为可视化、数据理解、数据去噪、冗余和不相关特 征的剔除、性能提高。而特征选择算法有三种模型,过滤器、封装器和混合模型。 但1 时问要求,特征选择过程对时间开销的关注程度,不同的时间限制影响着算法的 1 9 西安科技大学硕士学位论文 选用,首先是搜索策略方面,如果对时间没有要求,可以采用完全搜索获取更优解,否 则,需采用顺序搜索或随机搜索。另外是算法模型,不同的模型有不同的计算复杂性。 ( 3 ) 特征选择的输出形式,可分为两类:排序的列表和最小的子集。它们的别是所 选择的特征是否排序。 ( 4 ) 希望选择的特征数与原始特征数的比例,在决定合适的搜索策略时非常有用。 如果希望选择的特征数很少,可以采用前向选择策略。如果希望选择的特征很多,则可 以采用反向剔除策略。 ( 5 ) 类别信息,如果知道样本的类别信息,可以选用船督特征选择算法,若类别信 息未知,就需要非监督的特征选择算法,结合上一节算法分类中的学习类型,就可以选 用合适的特征选择算法。 ( 6 ) 不同的特征类型要求不同的处理机制。通常的特征类型有连续和离散特征,还 有名词性特征。 ( 7 ) 数据质量是指数据集中是否包含了缺值或噪声数据。不同的特征选择算法要求 不同的数据质量。 ( 8 ) 特征数与样本数的比例,通常样本数远大于特征数,但是,有时特征数可能很 大而样本数却很小,如文本挖掘和基因分析。在这种情况下,需要关注那些在特征数上 做更多强化工作的算法。 除了上面所列的因素,另外领域知识也可以帮助选用合适的特征选择算法,例如, 有经验的医生大概知道那些特征在判断病情时更有效,便可以加速算法的选用过程。综 合上面所列的各种因素和上一节的算法分类,一般可以找到合适的特征选择算法。 4 4 遗传算法的基本概念 4 4 1 概述 遗传算法( g e n e t i ca l g o r i t h m - - g a ) 是一种稳健、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论