(计算机应用技术专业论文)支持向量回归算法的研究及应用.pdf_第1页
(计算机应用技术专业论文)支持向量回归算法的研究及应用.pdf_第2页
(计算机应用技术专业论文)支持向量回归算法的研究及应用.pdf_第3页
(计算机应用技术专业论文)支持向量回归算法的研究及应用.pdf_第4页
(计算机应用技术专业论文)支持向量回归算法的研究及应用.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)支持向量回归算法的研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

支持向量回归算法的研究及应用 学科:计算机应用技术 研究生签字:孝小文 指导教师签字:;巾乡聿 摘要 支持向量机主要应用于分类和回归问题中,是继神经网络后机器学习的研究热点之 一。西气东输管材力学性能检测分析对质量控制起着非常重要的作用。本课题将支持向量 机用于西气东输二线用管材性能试验数据曲线拟合问题的研究当中,内容主要包括采用支 持向量机分类算法对管材试验系列温度落锤试验数据的拟合基函数进行自动分类;同时对 大量的冲击试验和落锤试验数据的进行拟合,以寻求数据间的关系,根据输入预测输出供 管材质量分析。 论文的主要工作包括: 1 ) 对机器学习、统计学习理论以及支持向量机的发展和研究现状进行了介绍。讨论 了核函数、v c 维、核参数选择等对支持向量机模型性能的重要性。 2 ) 以支持向量机分类理论为指导,对数据进行预处理,根据数据在拟合过程中所显 现的特性,对数据特征进行提取、归一,并结合网格搜索算法求解出最优参数, 选择最佳核函数,然后构建了支持向量机分类模型,用以解决基函数分类问题。 以m i c r o s o f t v i s u a lc 抖6 0 作为开发工具,实现了基函数分类功能,并将其应用于 实验中,预测正确率达到了8 0 ,说明该系统具有良好的分类效果。 3 ) 采用最d - - 乘支持向量回归机算法构造曲线拟合预测模型,该方法可对大量数据 进行快速的处理。在m a t l a b 环境下,使用该预测模型对西气东输二线用管材性 能试验中落锤和冲击试验数据进行拟合,预测结果的相对误差的均方差为 1 7 1 6 1 1 ,证明该模型在西气东输试验数据拟合预测领域可行有效。 本文是对曲线拟合基函数自动选择的初次尝试,实验结果在样本数据有限的情况下, 所得预测误差偏大,但本课题拓宽了支持向量机的应用领域。 关键词:西气东输;曲线拟合;基函数;支持向量机;支持向量回归 , s u p p o r tv e c t o rr e g r e s s i o na l g o r i t hm r e s e a r c ha n d a p p l i c a t i o n d i s c i p l i n e :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y s t u d e n ts i g n a t u r e : z 纵j 气p s u p e r v i s o rs i g n a t u r e : f r 巩 17 刃口 汾 a b s t r a c t s u p p o r tv e c t o rm a c h i n ei sm a i n l yu s e di nc l a s s i f i c a t i o na n dr e g r e s s i o np r o b l e m s ,i t a p p e a r st ob ea n o t h e rh o tr e s e a r c hm a c h i n el e a r n i n gm e t h o da f t e rn e u r a ln e t w o r k s t h e a n a l y s i so ft h ew e s t - e a s tg a sp i p e l i n ep e r f o r m a n c et e s tp l a y sav e r yi m p o r t a n tr o l ei nt h e q u a l i t yc o n t r 0 1 t h er e s e a r c hw o u l da d a p tt h es u p p o r tv e c t o rm a c h i n et h e o r yi n t ot h es t u d yo f c u r v ef i t t i n gp r o b l e m sw h i c hi sb a s e do nt h e2 帅w e s t - e a s tg a sp e r f o r m a n c et e s td a t a i tm a i n l y i n v o l v e ss u p p o r tv e c t o rm a c h i n ec l a s s i f i c a t i o na l g o r i t h mt o i m p l e m e n tc u r v ef i t t i n gb a s i s f u n c t i o na u t o m a t i cc l a s s i f i c a t i o n ,t h ef i t t i n gd a t ai so b t a i n e df r o mt h es e r i e st e m p e r a t u r ed r o p h a m m e rt e s ti nw e s t - e a s tg a sp i p ep e r f o r m a n c e m e a n w h i l e ,f i t t i n gc u r v eb a s e do nal a r g e n u m b e ro fi m p a c tt e s ta r dd r o pw e i g h tt e s td a t ai su s e dt oi n v e s t i g a t et h er e l a t i o n s h i pb e t w e e n t h ed a t a p r e d i c t i n gt h eo u t p u tw h i c hi su s e dt oa n a l y s i st h ep i p eq u a l i t y m yr e s e a r c hm a i n l yi n c l u d e d : 1 ) t h ei n t r o d u c t i o nt o w a r d st h ed e v e l o p m e n ta n dc u r r e n ts t u d yo fm a c h i n el e a r n i n g , s t a t i s t i c a ll e a r n i n gt h e o r ya n ds u p p o r tv e c t o rm a c h i n ea n dt h ed i s c u s s i o no ft h ei m p o r t a n c eo f k e r n e lf u n c t i o n ,v cd i m e n s i o n ,t h es e l e c t i o no fk e m e lp a r a m e t e r sf o rp e r f o r m a n c eo f s u p p o r t v e c t o rm a c h i n em o d e l 2 ) w i t ht h ei n s t r u c t i o no fs u p p o r tv e c t o rm a c h i n ec l a s s i f i c a t i o nt h e o r y , p r e p r o c e s s e dt h e d a t a a c c o r d i n gt ot h ed a t ac h a r a c t e r i s t i c sr e v e a l e di nt h ep r o c e s so fd a t af i t t i n g ,e x t r a c i n ga n d n o r m a l i z i n gt h ed a t ac h a r a c t e r i s t i c s ,o b t a i n i n gt h eo p t i m a lp a r a m e t e r sb yt h eu s eo fg r i ds e a r c h a l g o r i t h m ,s e l e c t e d t h eb e s tk e r n e l f u n c t i o n ,f i n a l l y ,b u i l d e d a s u p p o r t v e c t o rm a c h i n e c l a s s i f i c a t i o nm o d e l ,w h i c hi su s e dt os o l v ec l a s s i f i c a t i o np r o b l e m so fb a s i sf u n c t i o n u s i n g m i c r o s o f tv i s u a lc + + 6 0a sad e v e l o p m e n tt o o lt oa c h i e v et h ef u n c t i o no fc l a s s i f i c a t i o n a n d a d o p ti ti nt h ee x p e r i m e n t ,t h ea c c u r a c yi sb eu pt o8 0 ,w h i c hi n d i c a t e st h es y s t e mo w n sq u i t e g o o dc a t e g o r i z i n ge f f e c t 3 ) b yt h ea d o p t i o no fl e a s t - s q u a r e ss u p p o r tv e c t o rr e g r e s s i o na l g o r i t h mt oc o n s t r u c t c u r v e f i t t i n gf o r e c a s tm o d e l ,t h i sm e t h o dc a nq u i c k l yd e a lw i t hm a s s i v ed a t a u n d e rt h e t o o lo f t h em a t l a b u s i n gt h a tp r e d i c t i o nm o d e lt of i tt h ed a t aw h i c hi sf r o mt h ew e s t e a s tg a sp i p e p e r f o r m a n c et e s to ft h ed r o ph a m m e rt e s ta n di m p a c tt e s t ,t h ep r e d i c t i o nr e s u l t ss h o wt h a tm e a n s q u a r ee r r o ra b o u tr e l a t i v ee r r o ri s 17 1611 ,t h a tp r o v e si ti se f f e c t i v ei nt h ef i e l do fw e s t e a s t g a st e s td a t af i t t i n g t h ea r t i c l ei st h ef i r s ta t t e m p to v e rc h i v e f i t t i n gb a s i sf u n c t i o na u t o m a t i c a l l ys e l e c t i n g 昕啦 l i m i t e ds a m p l e s t h ee x p e r i m e n t a lr e s u l ti sm a d e ,s ot h e r em i g h tb es o m ee s t i m a t i n ge r r o r s , w h i l et h ea r t i c l eb r o a d e n e dt h ea p p l i c a t i o no fs v m k e yw o r d s :w e s t e a s tg a s ;c u r v ef i t t i n g ;b a s i sf u n c t i o n ;s u p p o r t v e c t o rm a c h i n e ;s u p p o r t v e c t o rr e g r e s s i o n 目录 1 绪论1 1 1 研究背景1 1 2 发展状况介绍2 1 2 1 经典的( 参数) 统计估计方法2 1 2 2 经验非线性方法3 1 2 3 统计学习理论3 1 3 支持向量机研究现状4 1 4 本文的研究内容和组织结构5 2 支持向量机7 2 1 机器学习理论基础一7 2 1 1 机器学习模型8 2 1 2 机器学习研究方面9 2 2 统计学习理论基础1 0 2 2 1 经验风险11 2 2 2v c 维的概念1 3 2 2 3 推广性的界1 4 2 2 4 结构风险最小化1 5 2 2 5 模型复杂度和泛化能力16 2 3 支持向量机基础17 2 3 1s v m 的思想17 2 3 2s v m 分类算法18 2 3 3 支持向量回归算法2 1 2 3 4 核函数2 3 2 3 5s v m 优化方法2 4 2 4 本章小结2 6 3 支持向量机模型构造2 7 3 1 数据预处理2 8 3 2 特征选择2 9 3 3 本文样本的特征提取方法3l 3 4 核函数的选择3 2 3 5 参数选择及交叉验证3 2 3 5 1 参数意义3 2 3 5 2 网格搜索3 4 3 5 3 交叉验证。3 4 3 6 本章小结3 5 4s v m 在输送管曲线拟合问题中的应用3 6 4 1 训练和测试样本的选取3 6 4 2 曲线拟合的分类3 6 4 3 分类模型在曲线拟合中的应用4 0 4 4 回归模型在曲线拟合中的应用4 5 4 5 本章小结4 9 5 总结与展望5 0 5 1 本文的主要研究工作5 0 5 2 思考和展望5 0 参考文献5 3 攻读硕士学位期间发表的论文5 5 j 毁谤感,s 6 学位论文知识产权声明5 7 学位论文独创性声明5 8 1 绪论 1 1 研究背景 1 绪论 西气东输工程是继三峡工程之后的我国又一举世闻名的项目,是西部大开发标志性工 程,它纵贯我国东西地域,输送压力高达1 0 m p a ,同时输送的距离也要长达4 0 0 0 k m ,并 且其沿途经过地域类型特别复杂,途径沙漠、山区、河流、戈壁、丘陵、盆地等,其造价 高达1 4 0 0 亿元人民币,因此西气动输中,对管道性能要求很高,一旦发生失效事故,将 会带来巨大的经济损失,甚至引发灾难性的事故,威胁人们的财产安全和良好的生态环境。 因此必须保证运送过程中管道具有足够的可靠度,这就要求对管道材料的质量进行精密细 致的检测,本文主要是以西气东输二线用管材性能试验数据为背景进行研究。在性能试验 中,检验人员要求解落锤试验中不同检测温度对断口剪切面积( s a ) 的影响关系,还 有任意两组试验数据中所刻画出该试验关系下的拟合曲线,根据拟合曲线研究该点集的形 状和走向。 科学实验研究中,经常要对实验的观测数据寻求两个物理量之间近似的解析函数关系 和曲线方程,这就是人们常说的数据拟合或曲线拟合,并且从这已知数据中总结规律,用 以预报未知,以便分析或计算,这样的问题在图形上表示即由测得的点去求曲线拟合。对 管材性能检测的试验中,对两类数据间关系,管材所采用科学试验中常常用到的曲线拟合 的方式进行分析。曲线拟合方法是工程上处理测量数据的一种实用数学方法。应用拟合曲 线的方式表示的数据,可使结果变得直观易懂,从而方便质量检验及比较。曲线拟合问题 在逆向工程和计算机视觉中有着广泛的应用。在实验、社会和行为科学中,实验和勘测常 常会产生大量的数据。为了解释这些数据或者根据这些数据做出预测、判断,给决策者提 供重要的依据。 本课题以本校人工智能研究所为中国石油天燃气管材研究所的西气东输二线用管材 性能评价数据库系统为背景,该系统是用于管材整体质量的统计分析评价、质量控制和持 续改进,包括数据信息的录入、查询、统计、网络传输、并对系列温度试验的数据进行曲 线拟合,同时自动生成报表。报表涵盖的各项性能试验的数据和曲线拟合图形,但在系列 温度落锤试验的数据进行曲线拟合中存在的一些问题。该问题是本课题需要研究的,它主 要是指,在对该落锤试验的数据拟合时,拟合基函数有可能符合3 次拟合要求,也可能在 s m o o t h i n gs p l i n e ( 平滑逼近) 拟合中取得很好的效果。这样就必须通过经验对数据分析, 用以判断它们是属于哪类曲线拟合基函数,若是没有经验或是数据存在较大误差,就只能 每个基函数的尝试,而且还有从几十页的报告中重新修改并生成新的曲线拟合,这样大大 增加了该所研究员的工作复杂度。所以这样就要求能够选择合适的基函数进行曲线拟合, 避免重复劳动。 两安t 业火学硕十学位论文 本课题采用支持向量机算法用以解决上述问题,即应用支持向量机分类算法在曲线拟 合基函数的分类中应用相关理论进行了研究,同时应用支持向量机回归算法进行曲线拟合 研究,结合该算法的突出优点,拟合出足够光滑的拟合曲线,并根据其输入预测输出,用 以填补数据,使西气东输管材数据完整。此法能满足在小样本情况研究统计学习规律的理 论,通过引入结构风险最小化准则来控制学习机器的容量,从而刻画了过度拟合与泛化能 力之间的关系【lj 。 1 2 发展状况介绍 对于本课题涉及两方面的问题及如何实现曲线拟合基函数的自动分类问题和支持向 量机回归算法的曲线拟合问题,对于前者该问题主要是模式识别问题f 4 】,对于后者主要是 回归问题。用于分类与回归的方法很多,如传统的统计分析方法以及神经网络方法等。这 些方法一直在工程中得以应用,并且占有一定的主导地位,但是它们在某些特定领域内还 存在许多的不足之处。例如,在传统的统计方法中,需要预先知道样本的先验分布,这需 要花费很大代价,而且要求样本数目趋于无穷大的渐进理论,但是这样的要求在实际情况 中往往难以满足,样本的数据总是有限的,因此在实际的工程中往往存在一些差强人意的 地方。神经网络方法虽然很好地解决了非线性问题,具有良好的自组织和自学习能力,能 够直接输入数据进行学习,并且具有推广能力和高度的并行性,但由于其自身存在着结构 不易确定、数学解释很复杂,并且设计时没有什么理论依据、易陷入局部极小等固有的缺 陷并且从神经网络本身得不到任何语义的信息,所以就限制了它在实际中的应用。同时, 神经网络的学习算法是以经验风险最小化为准则,并没有使期望风险最小化,与传统的最 小二乘法相比,在原理上缺乏实质性的突破,由于它没有实现期望风险最小化,所以容易 产生过拟合现象产生,从而导致了其推广能力的下斛2 1 。 分类和回归学习问题虽然有许多的区别,并且还有很多的不同研究内容,但它们之间 也存在很多相似,这些主要体现在以下几个方面,都是对输入输出变量间的关系的研究, 不同之处是分类关系问题输出是离散的类别值,而回归关系问题的输出是连续的数值。现 存的分类回归学习方法,有很多学习方法可以同时应用与他们两类问题中,如贝叶斯方法、 神经网络方法等,迄今为止,关于机器学习还没有一种被共同接受的理论框架,关于其实 现方法大致可以分为三种【j j : 1 2 1 经典的( 参数) 统计估计方法 经典的参数统计估计方法包括模式识别、神经网络等在内,现有机器学习方法共同的 重要理论基础之一是统计学。参数方法正是基于传统统计学的,在这种方法中,参数的分 布形式是已知的,训练样本用来估计参数的值。这种方法存在问题有:首先,它需要己知 样本分布形式,这需要花费很大代价;其次,传统统计学研究的是样本数目趋于无穷大时 的渐近理论,即当样本趋向于无穷多时的统计性质,现有学习方法也多是基于样本数无穷 大这一假设。但在实际问题中,样本数往往是十分有限的。虽然实际上人们知道这一点, 2 1 绪论 但传统上仍以样本数目无穷多为假设来推导各种算法,希望在样本较少时也能有较好表 现。因此当样本数有限时,以样本数目无穷多为假设来推导的理论上很优秀的学习方法, 在实际中表现却可能不尽人意,表现出较差的泛化能力。其中,近年来经常可以听到人们 谈论的所谓a n n 过学习问题就是一个典型的代表。 1 2 2 经验非线性方法 经验非线性方法如人工神经网络,这种方法利用已知样本建立非线性模型,克服了经 典统计估计方法的局限性,采用大规模并行分布式结构,因此具有较强的学习能力,可以 建立比较复杂的学习机器,并且在该情况下可以取得较好的学习精度,理论上它可以逼近 任意的连续函数和具有断点的非连续函数,如果隐层包含足够多的神经元,但是它是以比 较复杂的网络结构为代价,若网络结构不合理,容易出现欠学习和过学习等问题,因为它 只是单纯的追求更小的经验风险,若是经验风险和实际风险的差异比较明显,学习效果将 不是很好,将会导致泛化能力( 即推广能力) 的下降。同时因为它采用梯度方法求解,局 部计算比较简单,但是容易出现局部最小值问题,它以使用者的经验为指导,因此这种方 法缺乏一种统一的严密的数学理论体系为指导【4 】。 1 2 3 统计学习理论 v v a p n i k 等人从2 0 世纪六、七十年代就开始致力于小样本的机器学习研究,并建立 了统计学习理论的基本体系。该理论是针对小样本问题及泛化能力差等机器学习问题的理 论,这一理论一直是人们所关注的焦点。该理论体系是满足渐近性能的条件下,求解有限 样本情况下的最优结果。但是,其中多数工作集中在对已有( 基于传统统计学原则的) 方法 的改进和修正,或者利用启发式方法设计某些巧妙的算法。鉴于这些理论是初期发展开, 并没有很完善的理论方法,更没有理论应用与实践的好的算法,至此,这一理论没有得到 很好的重视与发展。直到二三十年后,即上个世纪末,伴随着支向量机的产生,这一理论 才得到了突飞猛进的发展,人们才开始重新重视起早在2 0 年前就应该重视的学术理论。 该理论的核心思想是通过控制学习机器的容量实现对推广能力的控制【6 】。 v a p n i k 等人提出的统计学习理论( s t a t i s t i c a ll e a r n i n gt h e c o r y ,s l t ) 是一种针对小样本 统计估计和预测的理论。核心内容包括:基于经验风险最小化准则的统计学习一致性学习; 统计学习方法推广性的界;在推广界的基础上建立的小样本归纳推理准则;实现新的准则 的实际方法。引入结构风险最小化准则来控制学习机器的容量,从而刻画了过度拟合与泛 化能力之间的关系。 在统计学习理论基础上建立的支持向量机学习方法得到了广泛的应用,它引入了结构 风险、核映射的思想,解决了传统方法的弊端即克服了传统方法的大样本要求、维数灾难 和局部极小问题,并在非线性问题处理中表现突出。它作为门刚刚开始的理论,很多方 面的研究在国外也是初露端倪,在国内也是刚刚起步,虽然支持向量机理论有坚实的理论 作为基础,但它在某些方面的应用还有许多的问题亟待解决,随着支持向量机的应用范围 两安1 :业大学硕十学位论文 的不断扩大,其理论基础需要不断的发展和壮大。本文正是在这种理论背景 量机方法为指导,在二次规划和线性规划的框架下对分类与回归中的基本方法进行研究, 并在此基础之上以西气东输二线用管材性能落锤试验数据为基础,把支持向量机理论应用 到对该数据的研究分析中去【7 1 。 本课题涉及到分类和回归两个方面,其中模式分类是模式识别中的一项重要内容,分 类也是人们认识一切事物的基础。模式识别从2 0 世纪2 0 年代诞生到6 0 年代迅速发展成 - - 1 7 学科,该学科在统计学、化工工程、人工智能、心理学和医学等领域得到了广泛的应 用。现存的模式分类的方法有很多种,传统的方法有贝叶斯决策理论方法、距离判别、 f i s h e r 判别、近邻分类和聚类法分段线性分类等,现在一些比较流行的模式分类方法有模 糊分类、粗糙集分类、神经网络分类以及支持向量机分类方法等【1 0 1 。 回归分析是试图从实际数据中寻找某种规律的方法,是对一个因变量对若干解释变量 依存关系的研究,它的目的即实质是由固定的自变量去估计因变量的平均值。鉴于它在生 产实践项目工程中的广泛应用,所以得到了快速的发展和完善,它由最初的最小二乘法发 展到现在已经经历了1 9 0 多年的历史,基于最小二乘法的模型回归方法虽然在实际应用中 存在良好的解释性,但是随着应用的不断深入,它总是存在或多或少的不足,因此岭估计 主成分估计,以及特征根估计、偏最小二乘法等多种有偏估计由此产生,为了解决满足对 多个因素预测值的问题,提出了多元线性回归模型;为了解决非线性问题,提出了非线性 回归模型。而后适用于各个方面的不同回归方法分别孕育而生。支持向量机的回归算法做 为作为一种新理论被引入到曲线拟合中,因为支持向量回归模型拟合的曲线在满足精度的 带内是光顺的i 1 2 j 。 1 3 支持向量机研究现状 科学实验中常用的数据处理算法有以下几种,当数据的规律接近线性时,用线性回归 总结规律,通常认为是标准的,最可靠的方法。如果规律偏离线性,则通常用人工神经网 络总结规律,或在线性方程中添加平方或者其他高阶项作非线性回归。除传统的线性回归 外,人工神经网络和各种模式识别技术都在广泛使用,并已取得许多成果。但是传统的方 法、神经网络经过人们的大量应用呈现了其不如人意之处,其大样本、泛化能力不强、过 拟合等缺点。在通常的实验中真实值和测量出的实验数据往往是有误差的,这就导致计算 出的结果有误差,得到的拟合方程已经不是一个精确的方程。在追求高的拟合精度的同时, 正是因为有这些因素的存在,才能为一些过拟合的存在提供了条件。针对上述问题,2 0 世纪9 0 年代中期,v a p n i k 创建了与多层前馈网络的模式识别相类似的基于统计学习的 一种机器学习新算法一支持向量机【1 3 1 。 支持向量机具有严格的理论和数学基础,如解的唯一性、不依赖输入空间的维数等等, 在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。同时它是基于结构 风险最小化( s r m ,鼬m c t 删r i s km i n i m i z a t i o n ) 的原则,不仅结构简单,而且各种技术 4 1 绪论 性能尤其是泛化能力明显提高。尽管支持向量机的基础理论研究发展时间很短暂,但它具 有坚实的理论基础,近几年涌现出的大量理论研究成果更为其应用提供了很好的支持。 支持向量机作为数据挖掘中的重要方法,其本质上说是一种基于小样本统计的模式识 别方法,是克服“维数灾难”和“过学习 等机器学习中传统问题的很有效手段。该算法 一经提出,就得到国内外学者的高度关注。在短短的几年里,就取得了很多令人瞩目的研 究成果。学术界普遍认为它是继神经网络之后的一个新的研究方向【1 4 】。 支持向量机是统计学习理论下的一种机器学习方法,它建立在结构风险最小化原则 ( s t r u c t u r a lr i s k m i n i m i z a t i o n ,简称s g m ) 基础之上,是统计学习理论中最年轻的内容。具 有很强的学习能力和泛化性能,能够较好地解决小样本、高维数、非线性、局部极小等问 题,可以有效地进行模式识别、回归估计、概率密度函数估计等。 虽然支持向量机发展时间很短,但是由于它的产生是基于统计学习理论的,因此具有 坚实的理论基础。随着支持向量机理论上不断的进行深入研究,产生了许多改进的支持向 量机,如a n t h o n y e t a l 等人提出了硬邻域支持向量机学习误差的严格理论界限,s h a w e t a y l o 也给出了类似的软邻域支持向量机和回归情况下的误差界限;v a p n i k 等研究了支持向量 机的泛化性能及其在多值分类和回归问题的扩展问题;s m o l a 提出了支持向量机一般意义 下的损失函数数学描述;t i k h o n o v 提出的具有特殊形式一种脊回归的正则化网络,g i r o s i 等将其应用到正则化网络的学习中,s m o l a e t a l 研究了状态空间中脊回归的应用。另外, 一些学者还扩展了支持向量机概念,如m a n g a s a r i a n 等人的通用支持向量机 ( g e n e r a l i s e d s v m s ) 。 在随后的近几年内,有关的应用研究得到了很多领域的学者的关注,在人脸检测、文 本自动分类、基因分类、目标识别、遥感图像分析、说话人语音识别、文字手写体识别、 非线性主成分分析、故障诊断、计算机入侵检测、图像处理等研究领域取得了大量的成 果。贝尔实验室率先对美国邮政手写数字库识别研究方面应用了s v m 方法,取得了较大 的成功喁j 。在随后的几年内,有关s v m 的应用研究得到了很多领域的学者的重视,并且 已逐步应用到了模式识别、文本分类、信号处理、图像分类、故障诊断等众多研究领域【9 】。 由此看出,基于统计学习理论和结构风险最小化原理的支持向量机算法具有巨大的研 究价值,将其优点和新的数学理论的结合发展出新的方便简洁的算法或在不同的领域应用 算法仍将是研究的热剧1 0 j 。 1 4 本文的研究内容和组织结构 本文在前人研究的基础上,采用支持向量机分类和回归算法应用于科学实验数据的曲 线拟合问题中,主要以支持向量机算法为背景通过使用支持向量分类机训练样本集,来预 测未知数据属于哪类基函数,从而实现了对曲线拟合中基函数的自动选取。同时引入支持 向量机回归算法实现支持向量机方法的曲线拟合。 首先,本课题数据为有限样本数据,在支持向量机理论的基础上以西气东输二线用管 两安t 业大学硕十学位论文 材性能的落锤试验数据为背景,并在通过对变量误差校正、数据处理、根据数据在拟合过 程中所显现的特性实现对数据特征的提取,再次把这些特征数据归一化,最后根据网格搜 索算法求解出最优参数选择,同时选择最佳核函数等操作构建该领域的支持向量机模型。 通过上述理论,在v c 环境下,建立了该模型的系统,本系统主要以支持向量机算法为背景 通过使用支持向量分类机训练样本集,来预测未知数据属于哪类基函数,从而实现了对曲 线拟合中基函数的自动选取; 其次,以支持向量机回归算法为基础,因为该算法具有很好的学习性能,通过引入最 小二乘支持向量实现对试验数据的曲线拟合,通过实验证明,该算法具有良好的拟合效果 和预测能力,在大样本情况下拟合曲线时效果尤为突出。 本文共分五章,内容安排如下: 第一章,绪论:介绍本文研究意义,简单描述曲线拟合问题,然后重点介绍现阶段对 于该问题的现有的算法,最后详细介绍支持支持向量机的研究现状。 第二章,支持向量机:简要介绍了机器学习理论基础和统计学习理论基础,着重阐述 了以统计学习理论为基础的支持向量机的基本原理。主要包括支持向量机分类和回归算法 两方面的研究,本章的工作为后续几章研究的理论基础。 第三章,在支持向量背景下,介绍数据预处理的目的和数据特征提取介绍,以西气东 输二线用管材性能落锤试验数据为分析以及对其进行预处理和特征的选取,在此引入参数 选择意义和核函数的重要性,并且介绍寻找最优参数的交叉验证算法。通过上述理论构建 该背景下的支持向量机曲线拟合基函数选择的分类模型。 第四章,支持向量机在输送管曲线拟合中的应用,其中包括分类和回归方面的应用, 详细介绍整个实验的具体过程,包括数据预处理结果,参数选择,算法的执行过程,对取 得的结果进行分析发现该方法的有效性。 第五章,结论:对全文进行了总结,并指出了进一步研究的问题与方向。 6 2 支持向量机 2 支持向量机 支持向量机( s u p p o r tv e c t o rm a c h i n e s v m ) 是统计学习理论中新兴的理论,同时它的 实用性也是最强的,从上世纪末以来受到了越来越多学者的重视,目前还处于不断发展的 阶段。它的优良特性是其它统计学习理论所不能比拟的。支持向量机的发展带动了统计理 论( s t l ) 的发展,因为支持向量机理论是以统计学习理论为基础,它具有简洁的数学形 式,在解决小样本、非线性及高维模式分类问题中有突出的优势,在防止训练过学习、欠 学习、运算速度和识别精度等方面表现都比较突出,同时该理论也应用到很多具体的实际 问题中,可以应用到函数拟合预测、回归估计概率密度函数估计等领域。它具有很直观的 几何意义,同时它比其它一些学习算法具有更好的泛化能力,而且它突破了神经网络中的 局部最优解的限制,克服了神经网络中的“维数灾难”问题。支持向量机主要包括了两方 面内容及分类和回归。本章将先阐述机器学习理论,通过统计学习理论的经验风险、v c 维等理论基础引出支持向量机的原理,在对支持向量分类算法和支持向量回归方法作较为 深入的介绍。 2 1 机器学习理论基础 学习是人类智能和获取知识的主要表现,有人曾这样定义学习,即学习是系统所作的 适应性变化,以使得系统在下一次完成同样或类似的任务时更为有效。它是人类的特有的 智能学习行为,应用到机器中就是机器学习。机器学习探讨和研究的是计算机如何模拟或 实现人类的学习行为总结规律,用以获取新的知识,组织已有的知识,使之不断改善机器 本身固有的性能。人如果通过学习可以突破自身,若是机器能够学习方可突破人类的智能。 机器学习起源于人工智能对人类学习能力的追求,上一阶段的研究几乎完全局限在人工智 能这一领域中( 学习本身是目的) 。而现在,机器学习已经开始进入了计算机科学的不同 领域,甚至其他学科,成为一种支持技术、服务技术( 学习本身是手段) 机器学习理论是 现代智能技术中的重要方面,它是一种复杂的智能活动,其本质就是从观测数据出发寻找 统计规律,并对未来进行预测,学习的过程紧密联系着推理过程,这个过程中是得到正确 规律,用于解释已知预测未知的知识增长的过程。这种能力被称之为泛化能力,该能力越 好,就代表该机器的学习能力越好。机器学习的主要研究内容是使机器通过识别和有效利 用现有知识来获取一些未知的新的知识或是新技能i l 引。 目前研究的机器学习可能不应再过多地强调模拟人的学习能力。而是把它当成是一种 研究的手段而非目的,主要应该研究它怎么样能够更好的应用于不同问题的研究,即各个 领域对其的要求、共性和要解决的问题,方可进行研究。 机器学习的任务就是设计某种或是某些方法和模型,利用该模型,在有限样本的情况 下,通过对己知数据的学习,寻求训练样本间待求的相互依赖关系,即对某系统输入数据 两安t 业大学硕+ 学位论文 输出数据之间的关系。学习后,使其能够对尽可能准确的预测和判断未知输出。提高机器 学习的推广能力( 也成为泛化能力) 是机器学习算法的研究目的。 机器学习主要涉及五方面的挑战问题:泛化能力、速度、可理解性、数据利用能力、 代价敏感。下面将一一介绍这些问题的主要内容。 1 ) 泛化能力问题,当下研究的几乎所有的领域,都是希望研究结果越准越好,这样 实现理论很好应用于实践才能取得很好的效果。因此在机器学习理论中,提高机 器学习算法的泛化能力是永远的追求。现阶段,泛化能力最强的技术包括支持向 量机和集成学习,他们具有相反的产生途径,前者是从理论应用于实际而后者刚 好相反,继承学习是在实践的以应用,并且产生了理论知识。那么怎样使其更“准” 的应用与实际中,从哪里突破,这是现在亟待解决与研究的问题。 2 ) 速度问题,所有领域研究问题都希望越快越好,加快速度也是永远的追求。现存 的一些机器学习算法中,都包含训练速度和测试速度,但是算法普遍存在的问题 是:训练速度快的往往测试速度慢,如k 近邻算法;测试速度快的往往训练速度 慢如神经网络。那么怎样能更使其“快”? 并且同时做到训练快测试也快,如果 可以的话,那么应该是什么样的算法呢? 3 ) 可理解性问题,绝大多数领域都希望有“可理解性”。如:医疗诊断、地震预测 等问题。目前很多技术领域的研究基本上都是“黑盒子”,如:神经网络、支持 向量机、集成学习。那么如把问题从黑盒子引入到白盒子,并且产生的白盒子是 以黑盒子为基础吗? 它们有什么区别和相似之处吗? 这个问题也是急需解决的。 4 ) 数据利用能力问题,当研究问题时,涉及到的数据中都会遇到脏数据的情况,更 有甚者有时只有脏数据,例如在w e b 的应用中。脏数据是指存在大量噪音、属性 缺失、不一致等无效数据,传统的脏数据处理方式只是简单的扔掉,难道脏数据 一点用也没有吗? 不能只是通过扔掉脏数据进行简单的处理。这样对其数据通吃 缺乏有效的理论依据,而且也会影响处理结果,应该有效的处理脏数据以达到较 低的错误率,而且如果判断脏数据也是应该考虑的问题。 5 ) 代价敏感性问题。现阶段研究的大多数领域中的错误代价都不一样,那么如何使 其都能够趋利避害,并且在达到较低的总错误率的基础上,趋利避害? 这也是应 该解决突破的问题。 以上存在的机器学习问题中,只要对任何一个问题上取得突破性进展,都可能成为对 机器学习的发展作出贡献。 2 1 1 机器学习模型 前面讨论了那么多机器学习的意义和重要性,那么它是怎么工作的昵? 下面将做详细 的介绍。如下图2 1 所示是机器学习的模型: 2 支持向鼍机 图2 1 基于数据的机器学习问题的基本模型 y 机器学习模型是指具体的样本出发找寻数据间的依赖关系的模型1 3 5 1 。即上图所示的 模型,该模型包括三个组成部分,它具有广义的结构和表述,涉及了许多特定的问题。一 般来说,这个模型涵盖了模式识别、回归估计和概率密度估计等三类典型问题。 它的三个主要部分分别是: 1 ) 数据产生器( g ) ,该产生器主要负责生成随机向量x er ”,玎n ,r 是实数, 指的是向量维数,该数是从满足未知分别f ( x ) 中独立取出的。 2 ) 训练器( s ) ,该训练器是对数据产生器的所产生的输入向量x 返回一个输出,该 输出满足该未知条件分布f ( x i y ) 。然后取出1 组独立分布的观测数据样本 ( 而,乃) ,( x 2 ,款) ,( 而,乃) ,用以表示训练数据集。 3 ) 学习机器( l m ) ,是指在可供选取的函数集 f ( x ,口) ,订人) 人为参数集合) 中, 通过学习机器,选择某函数,使输出最好逼近训练响应y 。 本学习机器的目标是从给定的可供选择的函数集中能够使该学习机器输出的 f ( x ,a ) 最好的逼近接近训练器的响应y 。也就是说通过该学习机器的学习,能够使得 输出更好的逼近反馈的函数的输出。 然后对该损失函数求期望得到的最小化风险泛函r ( 口) 为 r ( a ) = i 三( y ,f ( x ,a ) ) d f ( x ,y ) ( 2 1 ) 其中的上( 少,f ( x ,口) ) 就所说的损失函数,要是期望风险r ( a ) 最小化,即训练器s 的输 出y 与学习机器三m 给出的f ( x ,口) 之间损失的取期望最小值。仅有的条件是数据产生的随 机样本和未知的联合概率分布f ( x ,y ) 。在此应该明白一点是选取不同的损失函数可将会 形成不同的学习问题的模型。同时也把预测函数称作学习函数或学习机器1 1 4 】。 2 1 2 机器学习研究方面 机器学习主要涵盖三个方面的学习问题,主要包括模式识别、回归估计和密度估计等。 1 ) 模式识别,针对简单的两类分类问题,应用到上面的机器学习模型就是指把输出 y 转化成y = 0 ,1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论