




已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)基于支持向量回归的钻井成本预测方法研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 论文题目: 专业: 硕士生: 指导教师: 基于支持向量回归的钻井成本预测方法研究与应用 兰篆笔絮薹亨w 议马加传( 签名) 擘扣1 气 刘天时( 签名) q 羔= 竺, 摘要 近年来,随着石油价格的不断攀升,钻井企业的每年钻井井深和钻井成本大幅增加, 如何有效的控制钻井成本对钻井企业至关重要。钻井作业流程具有一定的特殊性和复杂 性,不同的区块、不同的井型和不同的技术等对钻井成本有着不同程度的影响,分析影 响钻井成本的因素和准确的预测钻井成本有利于钻井企业对成本进行有效的管理与控 制。 支持向量机是基于统计学习理论的新一代机器学习技术。使用结构风险最小化原则 代替经验风险最小化原则,泛化能力强,能有效地解决小样本情况下的回归预测问题。 首先阐述了支持向量机思想的理论基础的统计学习理论。重点对学习理论中的v c 维、泛化能力的界、结构风险最小化原则作了介绍,并分别介绍了支持向量机回归的基 本思想和基本算法。 其次结合具体的钻井成本数据,简要介绍了钻井作业流程和钻井成本构成,对影响 钻井成本的主要因素进行分析,描述了钻井成本预测中应用支持向量机回归方法的步骤, 依据实际的样本数据,进行数据试验,并与传统的b p 神经网络和多元回归方法进行了对 比,验证了支持向量机回归方法能获得更精确的预测。 接着介绍了参数搜索方法和直接确定方法,针对钻井成本数据变化较大的特点,提 出了一种新的参数搜索方法,并结合标准数据集和钻井成本数据集进行验证,得出该方 法是有效可行的。 最后结合支持向量机理论和钻井企业的实际情况设计了钻井成本预测系统,该系统 在企业的应用中取得了好的效果。 关键词: 论文类型: 统计学习理论支持向量机( s ) 支持向量机回归( s v r ) 钻井成本预测 参数选择 应用研究 英文摘要 s u b j e c t :r e s e a r c ho na n da p p l i c a t i o no fs v r - b a s e dw e l l d r i l l i n gc o s t sf o r e c a s t i n g m e t h o d s p e c i a l t y : n a m e : i n s t r u c t o r : c o m p u t e ra p p l i c a t i o nt e c h n o l o g y m aj i a c h u a n ( s i g n a t u r e ) i k 矗一 l i ut i a n s h i ( s 咖a t l i r e ) ) 工百:纵, a b s t r a c t w 池t h es t e a d yr i s i n go fo i lp r i c ei nr e c e n ty e a r s ,t h ed e p t ho fw e l l d r i l l i n ga n dd r i l l i n g c o s t si n c r e a s e sd r a m a t i c a l l y h o wt oc o n t r o ld r i l l i n gc o s t sf o rd r i l l i n ge n t e r p r i s e si sv e r y i m p o r t a n t w e l l d r i l l i n ga c t i v i t i e sa r es p e c i a la n dc o m p l e x d i f f e r e n ts e g m e n t s ,t y p e so fw e l l a n dt e c h n o l o g i e sa f f e c td r i l l i n gc o s t sd i f f e r e n t l y i ti sv e r yu s e f u lf o rd r i l l i n ge n t e r p r i s e st o e s t i m a t ea c c u r a t e l yb ya n a l y z i n gt h ee f f e c t i v ef a c t o r so nd r i l l i n gc o s t s s u p p o r tv e c t o rm a c h i n e ( s v m ) i sa n e wg e n e r a t i o no fs t a t i s t i c a l - - l e a r n i n g - t h e o r y b a s e d m a c h i n el e a r n i n gt e c h n o l o g yw h i c hc a ns o l v et h er e g r e s s i o nf o r e c a s t i n g 、析ms m a l ls a m p l e e f f e c t i v e l yb yt h er e p l a c e m e n to fs t r u c t u r a lr i s km i n i m i z a t i o np r i n c i p l et oe m p i r i c a lr i s k m i n i m i z a t i o np r i n c i p l e t h i sd i s s e r t a t i o nf i r s t l yd e s c r i b e st h et h e o r e t i c a lb a s e so fs v m s t a t i s t i c a ll e a r n i n gt h e o r y ( s l t ) i tf o c u s e so nt h ev cd i m e n s i o no fl e a r n i n gt h e o r y ,t h eb o u n d a r yo fg e n e r a l i z a t i o n , a n d s t r u c t u r a lr i s km i n i m i z a t i o n i ta l s oi n t r o d u c e st h ef u n d a m e n ti d e aa n da l g o r i t h mo fs v r t h e ni ti n t r o d u c e st h ew e l l d r i l l i n gc o s t sa n dt h ew e l l d r i l l i n gw o r kf l o wc o m b i n i n g 、析t l l t h ed r i l l i n gd a t a m e a n w h i l e ,i ta n a l y z e st h em a i ne l e m e n t sa f f e c t i n gd r i l l i n gc o s t s i ta l s o d e s c r i b e st h es t e p so fs v r a p p l i e di nd r i l l i n gc o s t sf o r e c a s t i n g ,a n di t u s e ss u p p o r tv e c t o r r e g r e s s i o nt oe s t a b l i s hac o s tf o r e c a s tm o d e lw i t hd r i l l i n gd a t aa c c o m p l i s h e db yad r i l l i n g e n g i n e e r i n gc o m p a n y ,w h i c ht h em o d e l sf o r e c a s tp r e c i s i o ni sh i g h e s tb yc o n t r a s t i n gm u l t i p l e l i n e a rr e g r e s s i o na n db pn e u r a ln e t w o r kw i t hs u p p o r tv e c t o rr e g r e s s i o n n e x ti td e s c r i b e st h ep a r a m e t e r so ft h es e a r c hm e t h o da n dd i r e c t l yd e t e r m i n em e t h o d a n e wp a r a m e t e rs e a r c h i n gm e t h o di s p r o p o s e df o rw e l l d r i l l i n g c o s t sd a t ac h a r a c t e r i s t i c s s i m u l a t i o ne x p e r i m e n t sb a s e do ns t a n d a r dd a t as e ta n dd r i l l i n gc o s t sd a t as e tr e v e a lt h a tt h e p r o p o s e dm e t h o di s a ne f f e c t i v ea p p r o a c hf o rs v rp a r a m e t e r ss e l e c t i o n 、析t 1 1g o o d p e r f o r m a n c e f i n a l l yi td e s i g n e dt h ew e l l d r i l l i n gc o s t sf o r e c a s ts y s t e mb a s eo ns u p p o r t v e c t o rm a c h i n e t h e o r ya n dd r i l l i n go ft h ea c t u a ls i t u a t i o no ft h ee n t e r p r i s e ,t h es y s t e mh a sa c h i e v e dg o o d r e s u l t si np r a c t i c e k e y w o r d s :s t a t i s t i c a ll e a r n i n gt h e o r y ;s u p p o r tv e c t o rm a c h i n e ;s u p p o r tv e c t o r r e g r e s s i o n ;d r i l l i n gc o s t sf o r e c a s t i n g ;p a r a m e t e rs e l e c t i o n t h e s i s :a p p l i c a t i o ns t u d y 学位论文创新性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他 人已经发表或撰写过的研究成果;也不包含为获得西安石油大学或其它教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做 了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名:型二丛 学位论文使用授权的说明 本人完全了解西安石油大学有关保留和使用学位论文的规定,即:研究生在校攻读 学位期间论文工作的知识产权单位属西安石油大学。学校享有以任何方法发表、复制、 公开阅览、借阅以及申请专利等权利,同时授权中国科学技术信息研究所将本论文收录 到中国学位论文全文数据库并通过网络向社会公众提供信息服务。本人离校后发表 或使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为西安石油大 学。 论文作者签名:堇兰丛日期:竺生:兰:塑 导师签名:塑:v 注:如本论文涉密,请在使用授权的说明中指出( 含解密年限等) 。 第一章绪论 第一章绪论 1 1 研究背景及意义 近年来,随着石油价格的不断攀升,钻井企业的每年钻井井深和钻井成本大幅增加, 在国内市场上,钻井企业来自同行业之间的竞争越来越激烈。钻井企业的主要业务是油 气开发井作业,主要流程包括前期的钻井设计、井位测量、现场勘查、搬家安装,后期 包括钻井、固井、录井、测井、物资供应、设备维护和完井等u 。,在整个生产过程中,投 资需要1 0 0 万到3 0 0 0 万不等,需要对各部门进行协调,组织难度大。同时钻井过程存在 很多未知因素和不确定因素,比如钻头损坏、井喷等,钻井生产风险性很大。因而钻井作 业因为地质条件复杂、地理位置偏僻等因素的影响,导致钻井生产投资加大,如何控制钻 井成本对降低钻井工程投资,提高钻井企业和油气生产企业的经济效益至关重要。 目前钻进成本的预测方法多是基于传统的统计预测,比如多元回归、灰色模型等。 统计预测方法是在模型结构和参数已知的前提下,通过训练样本数据,估计模型参数的 值。应用这些预测方法需要丰富的经验,还需要确定模型的结构,然而在处理实际预测 问题时,面对采样来的数据,需要多次的验证才能知道模型的结构形式。由于传统统计 学研究的前提是样本数目趋于无穷大时的渐进理论,而参数预测方法多数都是建立在渐 进理论基础之上的,因此只有当采样数据趋于无穷多时,传统的统计预测方法建立的模 型才趋于真实的模型。事实上,实际样本数目并不是无限的,很难满足这一前提。 近些年发展起来的人工神经网络属于经验非线性预测方法,能够依照需要,假设数 据内在相关性而构造非线性模型,克服了统计预测方法的部分缺点。然而,这些非线性 预测方法缺乏一定的数学理论基础,在神经网络结构选择和权重的初值设定上,仍需要 借助于专家经验,得到的模型通常只是局部晟优解,而并非全局最优解。 支持向量机是基于统计学习理论的新一代机器学习技术。由于使用结构风险最小化 原则代替经验风险最小化原则,泛化能力强,这样能较好地解决小样本情况下的学习问 题,同时把非线性问题转化为线性问题的方面采用了核函数的思想,降低了输入空间的 维数和算法的复杂度睇。随着钻井技术的进步,相同因素对钻井成本的影响会随之改变, 从而无法形成大样本数据,支持向量机能很好的解决该问题。 通过将支持向量机回归应用到钻井成本预测中,有效的提高了钻井成本预测的精度, 为钻井企业成本控制和管理成本提供可靠的依据和帮助,在钻井成本预测过程中,利用 最近的样本数据建立模型,提高预测精度,有效的降低了钻井企业风险。 1 2目前国内外的研究现状 1 2 1 钻井成本预测研究现状 钻井的成本预测是钻井企业成本管理的重要环节,科学的预测在成本设计阶段就能 西安石油大学硕士学位论文 有效的避免出现盲目决策的现象。在钻井成本预测方面,国外学者主要还是从非直接成 本因素方面研究,侧重技术进步对钻井成本的影响,主要有以下几位学者的观点。 f i s h e r 主要通过建立总成本模型:y 2 k 一一,其中y 为钻井成本,x 为井深,k 、q 为待估参数瞄。,模型是指数函数,反映的是技术进步对钻井成本的影响。f i s h e r 认为由 于前期成本、开发成本和钻井作业成本无关的生产成本的增加,导致了钻井成本增加了, 而随着技术的发展,钻井成本在总体上是不断降低的,总的观点是钻井成本的降低同技 术进步紧密相关。 n o r g a a r d 则利用生产函数模型对钻井成本数据进行分析,也得出了与f is h e r 相同 的结论,认为技术的进步降低了钻井作业的成本u 1 。 c o p p 采用f i s h e r 的指数函数模型,把井深划分为1 0 个区间段,依据美国1 9 6 6 1 9 7 1 年期间的钻井成本数据进行了详细的分析,得出钻井作业的实际成本呈现下降趋势,这 一结论与f i s h e r 的结论是相符的,但是c o p p 认为技术的进步对超深井成本的影响要大 于对浅井成本的影响。也就是说技术进步对降低浅井成本起到了作用,而并未降低超深 井的成本副。 国内学者对钻井成本的研究更侧重实际情况,对具体的问题进行研究,研究成果主 要有以下几个。 董世明等将钻井成本分为与井深有关的成本和与钻井周期有关的成本两大类,分析 认为要搞好成本预算,必须首先搞好钻井周期预测瞄。因为钻井成本中许多项目与钻井 周期有关。他们通过对中原油田勘探局的定向井进行详细统计分析,建立了一套计算定 向井钻井周期和成本的数学模式。 韩来聚、李洪乾等人在1 9 9 5 研究钻井成本的模型,发现钻井成本与钻机月速度( 钻井 进尺钻井周期) 成幂数关系h 。,并建立了模型c2 孙j f ,其中c 为钻井成本,a 、b 为方 程回归系数,i 为钻机月速度。利用胜利油田钻井成本数据建立了回归模型,并验证了 该模型的预测精度在1 8 左右。得出了提高钻机月速度可以有效降低钻井成本的结论, 认为钻井企业应该提高钻井工艺和技术,提高钻机月速度,降低钻井成本。 高燕云、李志学:i 譬1 9 9 6 年研究了钻井进尺成本与年累计进尺和钻机月速之间的关系, 并建立了预测模型:y 2 a + b i x i + b 2 x 2 。式中:y 为钻井进尺成本预测值,x l 为累 计进尺,x 2 为钻机月速,么、丑t 、召z 为待定回归系数归。,利用具体的油田数据进行了 检验,得出累计进尺比钻机月速对钻井成本有更大的影响的结论 李志学在2 0 0 4 年研究了分井型建模方法,按照井型分别建立了气开发井模型、气探 井模型和油开发井模型,依据具体的钻井企业数据进行分析,得出了钻井成本与钻井进 尺关系显著,而油探井模型的钻井成本与钻井周期关系显著,同时钻井作业成本与钻井进 尺和钻井周期成指数关系n 。 赵俊平、邹野在2 0 0 8 年提出运用灰色预测方法预测钻井成本总成本,灰色预测可以 弥补数理统计方法的缺陷,对样本数据要求较少,预测原理简单、运算方便,优于回归 2 第一章绪论 预测法的大样本和数学模型法的计算复杂性。在钻井成本预测中,建模的基本数据是 钻井成本,且影响钻井成本的因素具有灰信息覆盖,称为“灰因 ;而钻井成本是具体的、 确定的,具有白信息覆盖,故为“白果”,钻井成本是符合“灰因白果律 的灰色预测事 件。通过对具体钻井样本数据的处理及检验,建立了钻井成本灰色系统预测g m ( 1 ,1 ) 模 型。采用残差v ( k ) 评估预测精度,根据某钻井公司的实例,计算了2 0 0 0 2 0 0 7 年该公 司某油田探井的总单位成本并进行了可信度检验。检验结果表明:灰色预测方法操作简 单、预测精确度较高。最后运用该方法对未来几年某油田总单位成本进行了预测,得出 钻井单位总成本呈增长趋势的结论。 综上所述,传统的钻井成本预测方法大都是采用回归预测法或数学模型法。由于自 然条件的多样性,钻井的未知因素和不确定因素较多,现有的样本数据灰度较大,波动 性也较大,不易找出典型的变化规律。总体来讲,国外学者钻井成本的研究成果对钻井 行业成本预测有一定的现实意义。国内学者对钻井成本的研究则较符合实际情况,更多 关注是钻井井深、钻井时间和钻机月速度对钻井成本的影响,有些预测模型中关注进尺 因素对钻井成本的影响,各自根据实际情况分析得出适合的模型。这些预测模型的不同 表现出钻井作业的特殊性,影响钻井成本的因素具有一定复杂性。上述学者的研究成果 对我国油气钻井成本的预测具有借鉴意义。 1 2 2 支持向量机研究现状 1 9 9 5 年,v a p n i k 完成专著 t h en a t u r eo fs t a t i s t i c a ll e a r n i n gt h e o r y 这是 统计学习理论走向成熟和得到正式承认的标志。1 9 9 8 年,v a p n i k 出版 s t a t i s t i c a l l e a r n i n gt h e o r y 一文,充实了1 9 9 5 年v a p n i k 论著的理论证明一些新的成果。由于其 良好的非线性特性,采用了核函数思想,将低维特征空间映射到高维空间,将非线性问 题转化为线性可分问题求解,很好解决有限样本的模型构造问题,与渐近理论形成对照, 关于小样本理论( 非渐近理论) 的讨论广地开展起来,使它成为解决非线性问题的重要工 具【7 o 自从v a p n i k ( 1 9 9 5 ) 提出了c - s v m 阳3 以来,s u y k e n s ( 1 9 9 9 ) 提出了最小二乘支持向量 机( l s - s v m ) 蹭1 ,s c h o l k o p f ( 2 0 0 0 ) 提出v - s v m n 们,在与其他算法结合后,l i nc h u n - f u ( 2 0 0 2 ) 提出了模糊支持向量机n 1 3 ( f u z z y s v m ) ,z h a n gl i ( 2 0 0 4 ) 提出了小波支持向量机n 幻 ( w s v m ) ,随着研究的深入,支持向量机的种类很多,还将会有更多新的支持向量机。 s v r 的训练问题实质上是一个凸规划问题,或者其对偶问题,传统求解支持向量机 方法有积极集方法、梯度下降法,但是他们的求解效率很低,不适合大规模样本问题, 当样本数超过4 0 0 0 时,需要多达1 2 8 兆内存满足矩阵运算口1 。广大学者对传统的解凸二 次规划求解支持向量机的算法作了改进,提出了许多求解支持向量机的新算法。 b o s e r ( 1 9 9 2 ) 等人提出块算法c h u n k i n gn ,p l a t t ( 1 9 9 8 ) 提出了著名的s m o 算法n 钔, 将分解( 块) 算法推向极至,它将工作样本集的规模减到最少2 个样本,迭代求解。k e e r t h i 西安f i 油大学硕十学位论文 ss 对s m o 算法做了重大改进n 幻。 s y e dan 等人给出了s v m 增量训练算法,每次只选常规二次规划算法能处理的训练 样本,然后保留支持向量,剔除非支持向量,和新进来的样本混合进行训练n 们,g e r t g a u w e n b e r g h s 提出了一种增量减量式学习方法n 7 1 ,j m a ,c a r o z z a 等人利用g e r t 的思想 提出了一些新的增量式训练算法n 8 坞1 。 j s u y k e n s 提出了最t j 、- 乘支持向量机( l s s v m ) ,它把支持向量机的学习问题转化 为解线性方程组问题,因此具有较快的运算速度啪1 。 随着理论研究的不断创新,支持向量机与神经网络、遗传算法等方法对比,支持向量 机具有完善的理论和泛化性能优异、全局收敛、样本维数不敏感、不依赖于经验信息等 突出优势,进而应用范围更加广泛,s v m 主要应用于模式识别和回归建模问题乜1 1 。 s v m 在模式识别方面的应用,贝尔实验室最早应用在美国邮政手写数字识别,并对 人工识别、神经网络、决策树等方法进行了对比,表明s v m 明显优于其他方法。在手写 字识别、语音识别、文本分类、人脸图像识别,故障检测等问题得到了很好的应用乜铂。 s v m 在回归方面的应用,主要包括系统建模、经济预测、时间序列预测等。如f r a n c i s e ht a y 乜幻将支持向量回归应用于经济时间序列的预测,并同b p 神经网络进行比较,结 果表明支持向量回归方法明显好于b p 神经网络,分析了支持向量回归优于b p 神经网络 的原因。l iy u a nc h e n g 口卵等应用最小二乘支持向量机对电力负荷进行预测,取得了比常 规模型更好的预测精度。 1 3 本文研究的主要内容 钻井作业流程具有一定的特殊性和复杂性,钻井作业属于施工作业性质,不同区块、 不同井型的作业内容和作业量相差很大,从而导致单井成本和每米进尺成本差异很大, 影响钻井成本的因素既有可控因素,也有不可控因素。本文首先简要介绍支持向量机理 论基础上,依据具体的某钻井公司,对该公司业务范围内的多个区块进行综合分析找到 影响钻井成本的主要因素,利用支持向量机回归建立模型,对钻井成本进行预测,并与 传统的b p 神经网络和多元回归模型进行对比。针对钻井成本样本数据变化的特点,提出 了基于直接确定参数和网格搜索相结合的方法解决存在的问题,结合实际数据对提出的 方法进行了验证。 第一章:绪论。本章主要介绍课题背景、选题意义、国内外研究现状以及文章的研 究内容。 第二章:统计学习理论与支持向量机。本章系统地介绍了统计学习理论中的经验风 险最小化准则,v c 维和结构风险最小化准则。并介绍了基于统计学习理论的支持向量机 回归算法及其核函数。 第三章:支持向量机回归算法。本章介绍求解支持向量机回归算法,对分解法、块 选法、序贯最小化法的思想和实现步骤做了简要介绍。 4 第一章绪论 第四章:基于支持向量机回归的钻井成本预测模型。简要的介绍了钻井成本和钻井 作业流程,对影响钻井成本的主要因素进行分析,通过相关性分析与聚类分析,将样本 按照区块划分,描述了钻井成本预测中应用支持向量机回归方法的步骤,依据实际的样 本数据,进行数据试验,并与传统的b p 神经网络和多元回归方法进行对比,验证了支持 向量机回归方法能获得更精确的预测。 第五章:参数优化问题研究。首先简单的介绍了目前广泛采用参数搜索方法和直接 确定方法,其次针对钻井成本数据的特点,提出了一种新的参数搜索方法,并结合标准 数据集和钻井成本数据集进行验证,得出该方法有效可行。 第六章:钻井成本预测系统设计与实现。在第四章、第五章的理论基础上,对用户 的需求进行分析,设计了系统的总体结构、系统流程、数据库、功能设计,并基于l i b s v m 软件包实现了系统功能,并取得了良好效果。 第七章:结论与展望。本章主要对全文的工作进行了总结,并对今后的工作进行展 望。 5 西安石油大学硕士学位论文 第二章统计学习理论与支持向量机 统计学习理论( s l t ) 是v a p n i k 等人在7 0 年代末提出,一种针对有限样本的机器学 习理论,并在9 0 年代得到逐渐完善,其核心思想是通过控制学习机器的容量实现推广能 力的控制。统计学习理论为研究小样本情况下的机器学习理论和方法提供了理论依据, 支持向量机( s v m ) 方法是在这一理论中发展起来的一种新的通用学习方法,支持向量回 归( s v r ) 是s v m 的思想方法在解决回归问题时的推广口1 。 2 1 统计学习理论 v a p n i k 从理论上系统地分析了经验风险最小化准则成立的条件和有限样本下经验 风险与期望风险的关系,提出了统计学习理论。统计学习理论研究的核心内容包括经验 风险最小化原则下统计学习一致性的充分必要条件;关于统计学习方法推广性的界的结 论;构造利用小样本训练实例来最小化风险泛函的结构风险最小化归纳原则;实现结构 风险最小化的学习准则的算法h 1 。 2 1 1v c 维与泛化能力的界 统计学习理念的一个核心概念就是v c 维( v cd i m e n s i o n ) 概念,它是描述函数集或学 习机器的复杂或者说是学习能力的一个重要指标,在v c 维基础上发展了一系列关于统 计学习的一致性、收敛速度、泛化性能( g e n e r a l i z a t i o np e r f o r m a n c e ) 等重要结论。 v c 维是函数集容量的一种度量,指示函数集的v c 维的直观定义为:对于一个指示 函数集,如果存在h 个样本能够被函数集中的函数按所有可能的2 h 种方式区分,则称函 数集能够把h 个样本打散( s h a t t e r i n g ) ,函数集的v c 维就是它能够打散的最大样本数目 瞄1 。若存在任意数目的样本都有函数能将它们打散,则函数集的v c 维是无穷大。有界实 函数集的v c 维通过用一定的阈值将其转化为指示函数集来定义。目前只有一些特殊的函 数知道其v c 维,v c 维能够反映学习机器的学习能力,在样本数一定的情况下,v c 维越 高学习机器越复杂,学习能力越强。在实际的应用中,可以通过一定的技巧避开直接求 解v c 维问题。 统计学习理论是分析学习机器性能和研究学习算法的重要理论基础,从v c 维的概念 出发,系统地研究了不同类型的函数集经验风险和实际风险之间的关系,即泛化能力的 界,v a p n i k 口1 证明,期望风险r ( w ) 和经验风险r e m p ( w ) 满足一个上界对任意给定的 ,7 ( o _ l ,f = 1 , 2 ,并且( w 计最小,如图2 2 ,可以通过求解下面二次规划 问题求解最优超平面: + + + , 图2 - 2 最优超平面 r a i n ( w - w s t ( ( w t ) + 6 ) 一y f 一( q - a :) y , ( 公式2 1 1 ) 厶i i = s i = l 用2 1 1 将原优化问题2 5 转化为它的对偶问题,得: 1 ,i m a x r e ( a ) = 一去( q 一口;) ( 口_ ,- a j ) ( x 。x j ) - ( q z ) j l , f 。j = l f 以 , 旺( 口,一口;) = o i = l q ,彳o ,f = 1 ,2 , 求解该优化问题q ,a :0 的向量为支持向量。最优超平面 , 形= 乃( 西- - a j ) 瓴力 i = l ( 公式2 1 2 ) ( 公式2 1 3 ) , 线性可分问题的支持向量回归机为:厂( x ) = ( 西一口从而x ) + 6 i = 1 当训练数据集线性不可分时,约束条件y , ( w t ) + 6 】 = l ,f = 1 ,将不再成立,为了 不可分情况下构造最优分类超平面,通过引入松弛变量孝= ( 缶,并,当,占) 和惩罚参数 c ,即允许有错分的样本,求解软间隔分类超平面的规划问题为: 幽 o ,i = 1 l 对公式2 1 4 采用线性可分情况下的方法得到其对偶问题: 1 0 ( 公式2 1 4 ) 第二章统计学习理论与支持向量机 m a x 职口) = 一i 1 ( q z ) ( 吁一t 弦 一( 口f 一西沙,+ s ( q + 西) 二l j = l i = li = l , 旺 - , 0 = o ( 公式2 1 5 ) 闰 导q ,z o f = 1 ,2 , 求解公式2 1 5 可以得到最优超平面 2 2 2 支持向量机 支持向量机是统计学习理论中最实用的部分,其核心思想是将结构风险函数引入到 分类中,支持向量机还通过引入核函数实现高维特征空间中的内积运算的方法巧妙的解 决了非线性分类问题,并且使计算的复杂度不再取决于空间维数,而是取决于样本数量, 尤其是样本中的支持向量数。这些特点使支持向量机能有效的克服高维问题。 假设某一映射能够将样本从空间r “映射到高维特征空间h ,高维特征空间中样本 的内积为( 缈( 而) 驴( x ,) ,若存在某一个核函数使得下式成立: k ( x j ,x ,) = ( 缈( x f ) 缈( x ,) ) ( 公式2 1 6 ) 则可以用核函数隐式地决定非线性映射中,核函数是满足m e r c e r 条件的任意对称函 数,引入核函数后,训练集在高维特征空间h 中的情况下,构造最优超平面的问题为, 公式2 1 2 变为: m a x ( 口) = 一 ( q - a ;) ( a i - a j ) k ( x ,_ ) 一( q 一西耽 f ,i = li = l , 旺( 口f - a t ) = o i = 1 a i ,彳o ,i = 1 , 2o o ,i ( 公式2 1 7 ) 公式2 1 7 的优化为题可以公式2 1 2 有相同的形式,对应的非线性支持向量回归函 数为:厂o ) = ( 口;- a ,) k ( x ,x ) + 6 2 3 支持向量机回归 s v l d 方法是首先应用于分类问题,s v r 是分类问题中得到的结果在回归情况下的推 广,在回归情况下引入e 不敏感损失函数,不敏感损失函数的引入,不仅使得估计具 有鲁棒性,而且使它是稀疏的。 2 3 1 不敏感损失函数 不敏感损失函数描述的是这样的损失模型,如果预测值和观测值之间的差距小于 给定的,则认为是无损的,尽管预测值与观测值可能并不完全相等。不敏感损失函 西安石油人学硕士学位论文 数的形式为7 绷: 坳撇砌= l y - m 砌i 啦m 纠i 缀妙s c 怵 这里是事先取定的一个正数,图2 - 3 画出了损失函数的图像。 j l 。 y 0 y - f ( x ) 图2 - 3e 不敏感损失函数 + x 图2 - 4 不敏感区域 对于单变量线性函数y i = 五) + 6 ,不敏感损失意味着当样本点位于两条虚线 之间的区域里时( 图2 - 4 ) ,认为在该点损失为o 。两条虚线构成的区域称为占一带,只有 样本出现在s 一带外时,才有损失出现。f 不敏感损失函数的特点是:对样本点来说,存 1 2 第二章统计学习理论与支持向量机 在着一个不为决策函数提供损失值的区域,这个特点是其他许多损失函数不具备的。在 分类为题中,间隔外的点不为决策函数提供任何信息口, 2 7 a 2 3 2 支持向量机回归 假设对于给定的训练数据t = ( x l ,y 1 ) ,( x ,乃) ( x ,d ,其中 毛x = r “,y i y = r “,i - 1 ,z ,用线性函数y f = ( w ox f ) + 6 拟合数据,用公式2 1 8 定义的e 不敏感损失函数作为损失函数,用s p o d 原则进行风险最小化,那么就产生了对 回归的支持向量估计。通过使y ,= ( w o 鼍) + b 尽可能的平坦来控制函数的复杂性,等价 于最小化( w - w ,并综合考虑拟合误差,引入惩罚参数c 和松弛变量 f = ( 缶,并,毒,) 得到线性回归的优化问题n 1 : m i i l 帅2 + c 7 1 善1 ( 磊+ 等) 占j ( ( w x i ) + 6 ) 一y f 占+ 磊 y j 一( ( w 而) + 6 ) s + 等 毒,等,占 o ,i = 1 , 2 , ( 公式2 1 9 ) 对公式2 1 9 问题利用拉格朗日函数进行求解最优点,可以得到其对偶问题: m a x 形( 口) = 一去( 口j 一口;) q j - a j ) ( x , o 一( 口,- a t ) y t + s ( 口j + 口;) - i 。j = i d = li = l , 豇( q - a :) - o g = l 孚狐z o ,砷,z ( 公式2 2 0 ) 对于非线性问题引入核函数k ( x ,x ) = ( 9 ( x ,) 缈( x - ,) ) ,将公式2 2 0 转化为: m a x 职口) = 一i 1 ;一口:) ( 口,一巧弦( 五x j ) - e ( a ,- , o y ,+ s ;+ 口:) “辞li = l担l s j z ( a ,一口:) = o 导z 硼:1 一l l ”l 。 ( 公式2 2 1 ) 求解该优化问题q ,口;0 的向量为支持向量,选择a 的一个正分量a 0 ,计算 , b = j ,厂( 口:- a ;) k ( x ;,x j ) + 占 ( 公式2 2 2 ) i = l , 构造非线性c s v r 的超平面厂o ) = ( 口;- a ,) 七( 毛x ) + 6 j = l 步骤1 :选择一定数量的数据,构造训练样本集,t = ( x 。,y 。) ,( 而,y m ( x ,y ) , 其 中毛r = r “,y i y = r “,v i = 1 ,2 , 西安石油大学硕+ 学位论文 步骤2 :选择适当的精度参数c 、占和核函数k , 步骤3 - 求解最优化问题( 4 ) ,得a = ( 口1 ,口:,口,a ;) , 步骤4 : , 计算w = ( q 一口;k , ,霉l , 步骤5 :选择a 的一个正分量a , 0 ,计$ g b = y j - z ( 口q ) k ( t ,x ) + s , j = l 步骤6 :构造超平面( 功= ( z q ) 七( 而力+ 6 。 i = l 步骤7 :根据预测样本构造x i 向量,带入( x ) 解得目标值y i 2 4 核函数 支持向量机作为新型的机器学习算法,当遇到线性不可分问题是,将低维的非线性 函数从低维空间映射到高维的空间,只需要选择适当的核函数,不需要知道非线性映射 的具体形式,并通过这个核函数进行求解支持向量机,支持向量机巧妙的把高维特征空 间的点积运算转化为低维空间的核函数运算,解决在高维特征空间中维数灾难问题。不 同的s v m 需要不同的核函数,目前,还没有有效选择核函数的方法,但是,m e r c e r 条件 是核函数必须满足的,同时尽量准确地反映样本数据的分布情况,因此,核函数的选择 也是s v m 的一个核心问题订埘脚1 。 多项式核函数、高斯径向基( r b f ) 和s i g m o i d 函数是三种常用的核函数,在每一种核 函数中都有至少一个核参数控制着核函数的复杂性 1 ) 多项式核函数 k ( x ,x f ) = 【( x x f ) + l rq = 1 , 2 ,3 其中q 是多项式的阶数,特征空间维数很高情况下,会增加计算量,甚至在某些情况 得到错误的结果。 2 )高斯径向基核函数( r b f ) 1 2 k ( ,) :e x p ( 一掣) p 其中p 是径向基函数的宽度参数,它隐式地定义了从原始空间到高维特征空间中的 非线性映射,表现出较强的学习能力。基本特点如下: 当参数p 趋向于0 时,即全部样本点都是支持向量。 当参数p 大于0 并且充分小,任意给定的样本都可以正确分类。 当参数p 趋向于无穷大时,任意给定的样本被分为一类。 可以看出,高斯径向基核函数只有选择合适参数p ,就能有效的提高学习能力。 3 )s i g m o i d 核函数 k ( x ,x f ) = t 卸【1 l l 卜i ( x x i ) + c tj s j g m o i d 核函数存在一定的局限性,参数v 和c 只对某些值满足m e r c e r 条件。 1 4 第二章统计学习理论与支持向量机 2 5 小结 本章首先介绍了统计学习理论的核心概念,建立在v c 维理论基础上的结构风险最小 化归纳原则通过控制经验风险和置信范围控制实际风险的界,为建立具有好的推广性能 的学习机器提供了坚实的理论基础。其次介绍了支持向量机的构造和特点,说明支持向 量机方法是建立在统计学习理论的v c 维理论和结构风险最小化原理基础上的,根据有限 的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,能获得更好的推广能力。最 后介绍了支持向量回归原理与核函数的概念,指出支持向量回归能有效的解决线性与非 线性回归问题。 西安石油人学硕士学位论文 第三章支持向量机回归算法 支持向量机回归是一类特殊的最优化问题,实质是一个凸二次规划问题,其解中的 支持向量仅是样本集中的很小一部分,满足稀疏性,一定存在最优解,并且解事唯一的。 这些特性可以使大规模的训练问题变得可行,并且要求的存储量更少,速度更快。 由于传统的求解二次规划问题存在速度慢等问题,学者提出了一些改进的算法。目 前支持向量机回归的训练算法大多采用迭代解决最优问题,将原问题分解为多个小问题, 并遵循某种迭代策略,进行反复求解小问题,最终使收敛结果和原问题的最优解一致。 根据问题的分解和迭代策略的差异,可以分为一下几类:分解方法、增量学习算法和最 小二乘支持向量算法。分解法又可以分为块算法、分解算法、固定工作集学习算法和序 列最小优化算法。目前应用最多的是分解法中的序列最小优化算法,本文也是应用该方 法对钻井成本中的问题进行求解。 3 1k u h n t u c k e r 条件 在优化算法中经常提到的概念是优化问题的k u h n - t u c k e r 条件,它假设x 术是非线性 问题3 1 的最优解, m i n 厂( x ) s t g f ( x ) 0 忽( x ) 0 ( 公式3 1 ) 如果在x 木出的v g ,o ) 和v h 。 ) 线性无关,则存在彳和甜:使得3 2 式成立 肌口 v f ( x ) 一 v g ,( x + ) 一“;v 红( x + ) = 0 ( 公式3 2 ) i = li = l 3 2 式简称为k - t 条件,是3 1 最优化问题的必要条件,x 术为k t 点。支持向量机 优化问题,f ( x ) 是凸函数,g ( x ) 是凹函数,h ( x ) 是线性函数,该问题具有唯一最优点, 即k - t 点一定是问题的最优点瞄五引。 3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年注册会计师之注册会计师会计题库与答案
- 炸鸡店的形象设计与店面布置
- 炸鸡店的拓展与创新战略
- 房地产项目的绩效考核体系建立
- 心理教学课件
- 应对意外事件的项目管理策略
- 房地产项目的合同管理要点
- 环境经济项目合同履行国际声誉重点基础知识点归纳
- 环境灾害应急法律法规教育法规重点基础知识点归纳
- 孙俪的大气端庄妆容
- 注塑模具结构最清晰原创图文含动画
- 矿用设备详细讲解课件-ZYJ-M6型压风供水自救装置
- The Three Goats(课件)译林黑布林分级绘本
- GB/T 12241-2021安全阀一般要求
- 《职业病危害因素分类目录》(国卫疾控发〔2015〕92号)
- 特种作业人员台账及个人档案表
- 苏州历年英语中考作文回顾
- 浙江杭州市拱墅区2020~2021学年五年级数学(下册)期末检测卷
- 航空母舰课件
- 幼儿园复读申请书模板
- 江苏省建设工程资料表格(第六版)
评论
0/150
提交评论