(应用数学专业论文)基于偏最小二乘与神经网络耦合的储层参数预测.pdf_第1页
(应用数学专业论文)基于偏最小二乘与神经网络耦合的储层参数预测.pdf_第2页
(应用数学专业论文)基于偏最小二乘与神经网络耦合的储层参数预测.pdf_第3页
(应用数学专业论文)基于偏最小二乘与神经网络耦合的储层参数预测.pdf_第4页
(应用数学专业论文)基于偏最小二乘与神经网络耦合的储层参数预测.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基于偏最小二乘与神经 网络耦合的储层参数预测 作者简介:戈汉权,男,1 9 8 2 年1 月生,师从成都理工大学施泽进教授, 2 0 0 8 年0 6 月毕业于成都理工大学应用数学专业,获得理学硕士学位。 摘要 本文将偏最小二乘回归( p l s ) 与神经网络( n n ) 耦合,建立了储层参数预报模 型利用偏最小二乘法对影响储层参数的诸多因素进行了分析,提取了对因变量 影响强的成分,从而克服了变量间的多重相关性问题,降低了神经网络的输入维 数。 为了克服基于偏最小二乘特征提取方法非线性处理能力弱的缺点,提出应用 核偏最小二乘( k p l s ) 进行特征提取的方法,其优点在于k p l s 能非线性地抽取 输入特征的多个正交分量,并保持与输出变量的相关性;核主元分析具有能较好 地提取非线性特征的优势;k p l s 提出来就是为了处理过程非线性、多输入和数 据共线性等复杂问题。 针对核函数方法中单个核函数的局限性,以及p l s 非线性处理能力差的特 点,在研究单个核函数性质的基础上,提出了混合核函数p l s 特征提取算法,以 提高p l s 的非线性处理能力。混合核函数集中了多个局部和全局核函数,兼具局 部和全局特性,并可以通过参数调节局部和全局核函数对混合核函数的作用,应 用表明,混合核函数p l s 特征提取具有较好的数据适应性和非线性特性。 同时,利用神经网络建模可以较好地解决非线性的储层参数预测问题,在分 析m a t l a b 7 o 自带的径向基神经网络工具箱的基础上,提出了径向基神经网络输 入参数的改进方法。 试验结果表明,基于混合核函数的特征提取算法的r b f 神经网络方法与传统 的储层参数预测方法比较,取得了较好的效果。 关键词:偏最小二乘核函数神经网络储层参数预测 成都理工大学硕士学位论文 】o d e lf o rp r e d i c t i o o ft h er e s e r v o i rp a r a m e t e r b a s e do nt h ec o u p l i n go fn e u r a ln e t w o r km o d e lw i t h p a r t i a ll e a s ts q u a r em e t h o d i n t r o d u c t i o no ft h ea u t h o r :g e h a n q u a n ,1 1 1 a l e ,w a sb o r ni nj a n ,1 9 8 2 w h o s et u t o rw a sp r o f e s s o rs h i z e j i n h eg r a d u a t e df r 伽c h e n g d uu n i v e r s i t y o ft e c h n o l o g yi na p p lie dm a t h s 册j o ra n dw a sg r a n t e dt h e b s t e rd e g r e e i nj u n e ,2 0 0 8 a b s t r a c t am o d e lf o rp r e d i c t i i l g 廿l er e s e r v o i rp a r a m e t e rb 勰e do nt h ec o m b i n a t i o no f n e 删n e 押,o r ka n dp 删a ll e a s ts q u a r ci n e t l l o di sp m p o s e d t h ef k 觚a 丘b c t i n gm e r e s e r v o i rp a r a n l e t c ra r ea n a i y z e db ym e a n so fp a m a li e 鹤ts q u a r em e t l l o dt oe x a c t t h em o s ti m p o r t a mc 伽n p o n e m ss ot h a tn o t o n l yt h e 哪b l e mo fm l l l t i c o r r e l a t i o n 锄o n gv a r i a b l e sc a i lb es o l v e s b u ta l s o1 l l e 锄o u to fi r l p u td i m e n s i o i l so f 也en e 删 n e t 、v o r kc a nb er e d u c e d u s i l 唱k e m e lp l sf c r c u r ec 】( 订a c d o nm e t l l o dt 0o v e r c o m et h ed r a w b a c k so fp l s e x t r a c t i o ni 1 1d e a m 培谢t 1 1n 0 1 1 i i n e a rp r o c e s s ,k p l s 印p r o a c hb e a r st l l em e t r i t sn l a ti t c a nn o to n l ye x n to n l l o g o n a ls c o r ev e c t o r s 行o me x p l a i l a 乜o r y r i a b l e s ,b u ta l s o r 咖a i ng o o dc o 玎e l a t i o nw i mo u t p u t ( r c s p o n c e ) v 撕a b l e s s ok e m e lp l si sp r 叩o s e dt o c o p e 、i t ht h cn o n i i n e a r i t ya n dm u l dh i 曲d i m e n t i o no f 却u t 舭dc o l l i n e r 耐t y p 】o b l e mo f p r o c e s s w i t l lr e g a r dt o 地l i 血t a t i o i l so fs i n g l ek e n l e l 她dp o o rp e r f o m l a n c eo f n l m 撕t yo f p 枷a ll e a s ts q u 甜e s ( p l s ) ,m i x t u r e so f k e m e l sp l si sp r o p o s e da n dt l l i s m e t h o di s 印p l i e dt ot h en o d e l i n go ft 1 1 er e s e o i rp 越i i i l c t e rp r e d i c d o nt oi m p r o v et h e n o n l i n e r a r i t y a n dg e n e r a l i z a t i o n a b i l i t y o f 廿l em o d e l m i x t u r e so fk e r n e l 黜 c b a r a c t e r i z e db yb o t l lg l o b a la n dl o c a la b i l 时b e c a u s ei ti sc o m b m db ys e v e r a ll o c a l a n dg l o b a lk e l l l e l s ,a n dw ec a i lt h ei n f i u e n c eo fl o c a la n dg l o b a lk e m e l so nm e m i x t u r e so f k e m e i sb yt u n i n gt i ep a r a m e t e r s t h er c s u l t sh a v es h o 、v nt h a ts u c hf e r t w e tt a b s t r a c t 【也a c t i o nm e t l l o di ss u p e r i o rt oo t l l e ri 研t i l r ea ( 廿a c t i o nm 劬o d s b e s i d e s ,t 1 1 ea p p l i c a t i o no fn e u r a ln e 似o r kh e l p st 0 s o l v em ep m b l 锄o f o n - l i i l e a r i t ) ro ft h em o d e l w e 百v eo ma n e wm e m o da t ) o u tt 1 1 ei n p u tp 瑚e t e r so f t l l en e m ln e t w o r kb ya n a l y s i s i n gt h en e u r a ln e t w o r kt o o l si nt h em a t l a b 7 o a n dt h er e s u l to f 唧e r i i n c ti n d i c a t e st h a tr b f 州b a s e do n 也em u n ip a n i a l l e a s ts 小l a r e s ( p l s ) 锄凸j y s i s ,c o m p 雒e dw i t h 也em c t h o do f 仃a d i t i o n a lf e s e “o i r p r e d i c t i n ,舡l dh 髂o b 协i n e da b e 船re 廿b c t k e y 叮o r d s :p 删a ll e a s ts q l m m c t h o d k 锄e l 如皿c t i o nn e u 瑁l 瞅w o r k l l l e r e s e r v o i rp 踟n e t e r 删c t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得盛壑堡王太兰一或其他教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名 妒矿年厂月叶日 学位论文版权使用授权书 本学位论文作者完全了解盛壑理工盍堂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权盛酆理王盍堂可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 嚣嚣詈嚣缘他 学位论文作者导师签名彳也i 年逛! 一 阳6 年 月日 第1 章绪论 1 1 引言 第1 章绪论 在建立模型问题上,最为重要的是特征选择或特征提取,即从输入特征集合 中选择某种评估标准最优的特征子集但随着样本数目的增大,所需的计算时间 和空间存储资源都会成几何级数增加所以在系统模型问题中,特征提取非常重 要,可以降低学习问题的复杂性,提高学习算法的泛化性能,简化学习模型【l j 而 在利用地震属性进行储层参数预测的问题上,由于地震属性有几十甚至上百个, 如何从这些属性中选取较优的属性对储层参数进行预测,是一个重要的问题。再 者,实践表明,储层参数预测属于非线性问题。线性处理会带来很大的误差,在 众多的地震属性中,寻求能够反映储层特征的最少的参数,一直是地质学家和地 球物理学家的目标。 1 2 研究现状 1 2 1 偏最小二乘p l s 的研究现状 偏最小二乘尸岱( 肌f 胁,三p 船,一勋搬r 甜) 是近年来产生和发展起来的一种 具有广泛适用性的新型多元统计分析方法它是由肋肼和爿腼册在1 9 8 3 年提出 的。删,这种多元统计方法首先应用在化工领域,随后又在市场分析、资源分析、 工程建模以及金融等领域得到广泛的应用。偏最小二乘回归技术不仅能够提取反 映自变量的信息,而且同时能够提取反映因变量的信息,除此之外,它还能够剔 除变量之间的多重相关性,使得提取的变量和信息更能够真是的反映原始数据信 息,以用来进行预测分析使用。 到了上世纪8 0 年代至9 0 年代,最早由觇r 聊口h 肋掰提出的m 于q 三s ( d 础聆b r 胁r 谢f v e 尸c 以耐三p 口对一勋嘲r 甜) 法已经形成多种算法变种“,发 展出迭代法、特征根法、奇异值分解法等各种算法,它们极大地丰富了偏最小二 乘算法;随着对偏最小二乘回归理论和算法性质进一步的深入研究,由眈而增 成都理工大学硕士学位论文 于1 9 9 3 年提出了一种与 c l 剐三s 不完全相同的算法,即简单偏最小二乘算法 & 护龉( 唧跆尸甜哟,三e n 甜一曲“甜p s ) ,利用特殊的思想和途径,同样地实 现了偏最小二乘回归的基本思想“1 。 在比较了偏最小二乘与主成分分析在数据特征提取上的效果,结果表明偏最 小二乘在特征提取时由于同时运用了输入和输出数据的信息,比不考虑输出影响 的p c 4 方法更为优越。偏最小二乘回归方法与主成分分析回归建模方法的基本 思路相同,主要区别在信息综合与筛选过程中,它不但考虑自变量的降维与信息 综合,而且要考虑新的信息对因变量具有最佳的解释能力。可以说偏最小二乘回 归方法集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体,将 数据分析方法和对模型认识分析方法有机结合。所以蚴蝴踟如绷妙的 乃脚以教授称偏最小二乘回归为第二代回归分析方法。 1 2 2r 盱的研究现状 上世纪八十年代中期,p d w 棚提出了多变量插值的径向基函数( r 瑚d f b 鲫妇凡f 胛c ,f o 玎一剧扩) 方法”1 。1 9 8 8 年,肌口聊 阳d 和三o w p 首先将r 昂f 应用 于神经网络设计。对径向基函数和多层神经网络进行了对比,揭示了二者的内在 关系嘲。胁。咖和肋南研在1 9 8 9 年提出了一种新颖的神经网络一径向基函数 祷经风络( r 口d i 口lb 口s i s 艮n c f i o n h r 口ln e 嘶o r k r b f n n ) “。凰年缸c b n 论证了径向基函数网络对非线性连续函数的一致逼近性能“。 径向基函数网络( 月醐鼬,口黜捃n 玎州d 片他“阳,肌舢。睹一r b 删) 这一新 颖的网络类型的出现,给神经网络的研究以及应用带来了新的生机。径向基函数 网络是具有全局收敛特性的线性学习算法的前馈网络,r 最f 具有更有效的非线 性逼近能力。径向基函数网络学习速度快,广泛应用于数据的分类和时间序列的 预测等方面。但是,径向基函数( r 8 尸) 神经网络的基函数仅在特定区域才能响 应。这种局域性网络要求网络的神经元中心能够完全覆盖样本输入区域,并且只 有保持适当重叠时才能使每个神经元做出相应响应。实际的地震属性因素之间的 相关性较强,直接运用脚神经网络预测结果难以令人满意。因为当网络维数较 高时,通过控制神经元的分布以覆盖整个输入空间是比较困难的,即使在神经元 能够覆盖整个输入空间的情况下,控制神经元之间的重叠程度也很困难,不可避 免地会带来较大误差。 由于偏最小二乘回归方法在提取成分方面具有很好的解释性而且可以避免 第1 章绪论 因素之间的多重相关性,提取的成分作为输入变量再用神经网络进行预测仿真, 可以得到很好的预测效果,文中提出了使用心s 一脚f 、即s r 盯、 批= 尸船一足b f 模型预测方法,它将原来较大的输入变量群利用核函数变换和偏 最小二乘变换后得到一组个数较少的彼此不相关的新输入变量,并且该组变量能 包含原输入变量群的大部分信息。之后,再用这些个数较少的新输入变量作为 r 8 f 神经网络的输入进行模拟预测。由于,三s 、丘咒s 提取的成分之间是相互独 立的,所以由各提取成分组成的输入空间不存在自相关性,从而有效地简化了 r 尉7 网络在高维时难以寻找网络中心的问题,提高了预测精度。 1 2 3 地震属性的发展和储层参数预测研究现状 从八十年代末到九十年代初,一些非线性的新理论和新方法逐渐应用到石油 勘探领域,开展了一些有益的探索和研究,并取得了一系列具有实际应用效果的 研究成果。诸如高如曾、何光明“”等利用分形分维技术追踪含油气砂层和预测小 断层及缝隙发育带,采用模式识别神经网络进行岩性识别“、储集层油气检测和 含油气范围判别,小波变换用于提高地震信号的分辨率,混沌反演等在实际应用 中取得较好的效果。随着研究和认识的不断深入,非线性方法在研究复杂对象、 解决复杂问题等方面较之常规方法越来越显示出自身的优势,这一点已得到石油 物探界的共识“”。在用于储层预测的非线性方法中,神经网络是一种比较成熟也 是用得较多的一种方法。如文献“4 1 提出了应用改进的神经网络学习方法预测储层 参数,将有全局寻优特性的模拟退火算法( 删) 和快速收敛的局部寻优变尺度算 法( 麟) 有效地结合,提出了一种快速、高效的前向网络混合学习策略来训练 网络。文献“提出由自组织神经网络和b p 网络组成的双重神经网络用于储层预 测等。这些方法都是针对神经网络的不足之处加以改进。本文采用偏最小二乘 ( 儿s ) 与r 丑f 神经网络发相结合的方法应用于储层参数预测。 1 3 本文的研究内容与研究思路 1 3 1 研究内容 1 、对相关学者在有关构造、沉积方面的研究内容进行吸收、总结,认真了 解研究区域背景;根据工区内多 j 钻井岩芯资料,结合储层研究需要观察相关层 位地质剖面,取得一定样品数量,通过各种测试分析手段,取得研究所需基础数 据。结合钻井、测井资料和储层地质特征的研究成果,进行储层标定,以川东南 3 成都理工大学硕士学位论文 地区为例开展地震多属性分析储层物性参数预测方法研究,对储集层孔隙度等储 层参数进行预测。 2 、利用儿s 统计学等多学科综合理论和方法对地震多属性进行优化特征提 取,从而达到属性约简的目的;采用r 最f 径向基神经网络预测模型,并与传统 的多元回归模型和b p 神经网络预测模型进行比较。从而建立一个高效的、高精 度的储层物性参数预测方法。这其中包括了两个核心部分:地震属性优化特征提 取的方法确定、储层预测模型方法的比较和分析,而这中间的特征提取方法是本 次研究的重点和主要内容。根据这两个核心部分大致可以知道本次研究会涉及两 个问题:一地震属性参数优化约简的特征提取,即采用什么样的方法作为样本的 特征提取算法;二储层预测模型各方法的应用、比较和分析,也就是用所提取的 特征指标构成新的属性参数,应用各种储层预测模型方法,对结果做比较、分析。 3 、根据对该地区储层地质特征和储层物性参数预测的结果,选出其中最优 的模型。 1 3 2 研究思路 本项研究在借鉴和吸收已有的国内外在偏最小二乘、径向基神经网络以及储 层参数预测方法研究成果的基础上,依托四川盆地东南部地区有关地质、钻井、 测井、地震资料和数据,利用儿s 及其相关的改进算法等多学科综合理论和方法 对地震属性数据作特征提取,从而达到地震属性优化约简的目的;在借鉴前人在 偏最小二乘和径向基神经网络研究成果的基础上,建立一个基于p 船一皿珂神经 网络储层预测模型并与传统的多元回归和神经网络预测模型进行比较。为了使得 本研究具有科学性、合理性和系统性,特制定以下研究路线( 图1 1 ) 。该技术 路线充分考虑到理论和实践的并重,效率和时间的协调。按照这条技术路线,能 够保证本研究在有限的时间内取得有效的成果。 第1 章绪论 1 3 3 主要创新认识 研究区域 地质革誊分析 工 测井和地震数据 工 测井与地震 数据预处理 工 优化特征提取i k 一 , 建立物性参数 与地震性特征参数关系, 展开储层预测研究和应用 - 烹 p l s r b f 等方法应i 用于储层参数预测| l 1 卜一 皇 结果评价4 j与实际应用 田卜1 技术路线图 通过研究,本文取得以下主要认识: ( 1 ) 结合了偏最小二乘与径向基神经网络的优缺点,有机的将二者结合起 来组成了p l sr b f 的储层参数预测模型,有效的提高了模型的预测精度; ( 2 ) 在核函数方法基本原理的基础上,将核函数方法与偏最小二乘结合起 5 成都理工大学硕士学位论文 来,进一步的将偏最小二乘与核函数方法的优缺点结合起来,优势互补,试验结 果表明,模型的预测精度得到了一定的提高; ( 3 ) 根据相关学者的研究成果,利用不同的核函数性质的差异,将不同的 核函数组合起来,形成新的组合核函数,利用新的组合核函数具有多个单一核函 数的特征,将其与偏最小二乘算法结合,形成了m i ( p l s 的特征提取算法,再与 r b f 神经网络耦合,模型的预测效果得到进一步的改善。 ( 4 ) 在研究姒t a l b 7 o 自带的r b f 神经网络算法的基础上,利用上述的几 种不同的特征提取算法得到的相关结果,对r b f 神经网络输入参数做了相应的改 进。 ( 5 ) 本文将偏最小二乘分析发、核函数方法、径向基神经网络模型有机的 结合起来用于储层参数预测,较好的解决了储层参数预测中的非线性问题,使得 模型的预测结果较传统储层参数预测模型有了一定的提高。 核函数在本文的预测中起着非常重要的作用。不同的核函数往往对拟合结果 有很大影响。对于核函数类型和核函数的选择,本文中还是凭经验选择,而更多 的是依赖于相关学者在这方面一些研究成果,目前还没有系统的理论指导方法, 这一方面需要进一步的理论研究。 6 第2 章p l s 特征提取的基本理论 第2 章p l s 特征提取得基本理论 2 1 偏最小二乘( p l s ) 建模分析 2 1 1p l s 分析方法概述 偏最小二乘( ,缸砌,上阮甜一勋z 埘份) 方法是一种新型的多元统计方法。它 最早产生于化学领域,偏最小二乘算法的一个突出的特点是它将多元线性回归分 析、主成份分析和典型相关分析有机结合起来的一种综合的多元统计方法。在一 个算法下,同时实现了回归建模、数据结构简化和两组变量间的相关分析,给多 元数据分析带来了极大的便利。它主要用来解决多元回归分析中的变量多重相关 性或解释变量多于样本点等实际问题。 偏最小二乘的主要特点可以归纳为以下几个方面: ( 1 ) 偏最小二乘回归是一种可以处理多个因变量对多个自变量的回归建模问 题。特别当各变量集合内部存在较高程度的相关性时,用偏最小二乘进行建模, 比对逐个因变量做多元回归更加有效,其结论更加可靠,整体性更强。 ( 2 ) 偏最小二乘较好的解决了许多以往用多元回归分析方法无法解决的重要 问题。自变量之间的多重相关性问题和样本点不宜太少等问题都在偏最小二乘分 析下得到了较好的解决。 ( 3 ) 偏最小二乘回归可以实现多种数据分析方法的综合应用。它是集成了多 元线性回归分析、主成份分析、典型相关分析的基本功能为一体的综合多元分析 方法。所以密歇根大学的而m 鲫教授称其为“第二代”回归分析方法。 2 1 2p l s 建模原理与算法 偏最小二乘回归不再直接考虑因变量和自变量集合的回归建模,而是在变量 系统中提取若干对系统具有最佳解释能力的新综合变量( 新成分提取) ,再进行 建模。在上一节中我们已经提到,偏最小二乘集成了多元线性回归分析、主成分 分析、典型相关分析为一体的新型分析方法,其建模原理也是这三种方法的有机 结合。我们这里以多因变量对多自变量进行简单的分析与说明。 多因变量对多自变量偏最小二乘( p 州缸,上e 娜卜勋“酊) 算法步骤如下: ( 1 ) 首先将数据做标准化处理。z 经标准化处理后的数据矩阵记为 五= 五。,如,五一,五。k 。,经标准化处理后的数据矩阵记为 成都理工大学硕士学位论文 k = 【k 。,k 。k ,记是蜀的第1 个成分:w l 是五的第1 个轴,称为相关 系数向量,它是一个单位向量,即i h0 = 1 。 ( 2 ) 求矩阵矗j :五,最大特征值所对应的特征向量w l ,求成分,得: = 五m墨= 五号 其中:丑= 墨f l 圳 n 称为负载向量。 ( 3 ) 求z i e 墨矩阵最大特征值所对应的特征向量w 2 ,求成分f 2 ,得: f 2 = 墨w 2置= 五一f 2 e 其中:最= 乞州甜 ( 4 ) 至第步,求成分= j o ,是矩阵矗瓦一,最大特征值所对应 的特征向量。 ( 5 ) 通过上述的( 1 ) 一( 4 ) 步可以得到如下的递推公式: 嵋5 尚 q2 南 t | = x l 攀l 坼= 鼍l m a = 鲁 t = 警 如果五的秩是 ,k ,屯,岛, ,日,罡,只,最三者之间满足如下的关 系: = p t + 乞只+ f 3 只+ + c 根据交叉有效性,确定其提取五个成分,乞,岛,“可以得到一个满意的包含 8 第2 章p l s 特征提取的基本理论 原始信息量多的成分提取个数。 以上计算得到的向量、只和分别构成成分矩阵、负载矩阵和相关系数矩 阵。 从以上建模步骤可以看出,偏最小二乘的建模是建立在信息分解与提取的基 础上的。 在偏最小二乘建立模型过程中,我们并不需要选用全部得成分 ,2 ,岛, 来进行建模。在计算的多个成分中,第一个主成分最重要,随着主成份数增加, 重要程度依次降低,后续成分已不能够提供更有意义的信息时,以致采用过多得 成分只会破坏对于统计趋势的认识,引导错误的预测结论。因此,前面的主成分 在建立模型时比后面的主成分更有用。 但在建立模型时使用的主成分数过少,其模型预测准确度就会降低,这种情 况称之为不充分拟合。如果使用过多的主成分建立模型,就会将一些代表噪音的 主成分加到模型中,使模型的预测能力下降,这种情况称之为过度拟合。因此, 合理确定参加建立模型的主成分数对提高模型预测精度是很关键的。下面讨论确 定抽取成分个数z 的几种方法“。 a “舍一交叉验证方法”:每次舍去第f 个观测( f = 1 ,2 ,3 ,聍) ,用余下的n 一1 个观测按偏最小二乘回归方法建模,并考虑抽取后个成分后拟合的回归式,然后 把舍去的第f 个观察点上的预测值y 1 ) 。对扛l ,2 ,3 , 重复以上的验证,即 得到抽取_ j 个成分时第_ ,个因变量= ( ,= l ,2 ,3 ,p ) 的预测残差平方和为: p 足e 玛( 七) 窆( 一玩( 七) ) 2 ( ,= 1 ,2 ,3 ,p ) _ l i ,= ( 墨,丘,墨,耳) 。的预测残差平方和为朋e 孵( i ) = 刷哟( 后) 。使j ,的 j l l 预测残差平方和达最小值的i ,让,= 七。 b “分批交叉验证方法”:每次扣留连续的g 个观测作为检验数据集,g = 1 时 就是“舍一交叉验证方法”,类似地按使预测残差平方和达最小的准则确定抽取成 分的个数。 c “分裂样本( 印f 缸一j 舯妒肠) 交叉验证方法”:此方法中扣留起来作为检 验数据集的观测不必是连续的,而是按一定宽度抽取而成的。例如第一次扣留的 观测为 1 ,1 1 ,2 l ,) ,然后是( 2 ,1 2 ,2 2 ,) 等等。 9 成都理工大学硕士学位论文 c “随机样本交叉验证法”:此方法中扣留起来作为检验数据集的观测可以 是随机抽取。 在实际应用中,这些方法所确定的成分个数也不完全一致,最后确定成分的 个数可综合各种验证的结果及理论上给出的检验方法。 其中国外广泛采用的是“舍一交叉验证法”和“q ”验证法;g 0 1 0 b 、h e a t h 和w a h b 在岭回归中使用“舍一交叉验证法”对最优的蛉因子做估计;砌z 在多 元回归中被作为选择变量的一个常用方法;s w o l d 在主成份分析中,用其选择 成分个数;在儿s 估计中,也可以用其作为确定成分个数的准则,选出一个最优 的成分个数,使得算法停止。 普通的p 岱二乘依然属于线性方法,而现象之间的内在联系往往不是线性 的,更多的是错综复杂的非线性关系。因此必须结台非线性的“元素”,才能解 决显示中的复杂问题。然而,传统的咒s 理论只能建立线性回归模型,处理非线 性输入和输出关系效果较差,因此,如何通过拓展凡s 模型结构以便描述过变量 间的非线性关系成为近年来的研究热点,其中,1 9 8 9 年“7 3 伍德提出了二次多项式 偏最小二乘,为偏最小二乘回归方法的非线性化做了开创性的工作;1 9 9 2 年他 又提出了样条偏最小二乘回归“;杜兰德( d u r a n d ) “利用样条基函数,将自变量 与因变量之间的未知非线性关系按照各维自变量对因变量的拟线性关系相加展 开,再进行偏最小二乘回归求参,从而得到自变量对因变量的整体函数解析式。 文献。1 详细介绍了基于样条函数变换和基于核函数变换的偏最小二乘算法,分别 建立了相应的非线性咒s 模型,形成了一类基于函数集逼近理论的非线性咒s 建模方法 2 2k p l s 特征提取算法 2 2 1 核函数方法的原理和特点 近l o 年来,核方法作为处理非线性模型的有效工具,已经引起了广泛的关 注,时至今日已经发展出了诸多核方法,支持向量机 (吼谚印阮咖r 胁西打孵 ,s ) 、核主成分分析 tk e m e l 鼾 撺c p d lc o m p o 船硪a n 口舾缸。k e r 粥lp g 4 、核独立成分分析 t e r 憾ti h d e o e 耐e n fc o m p o n e ma n 口l v s i s ,e r 他 配a 、嘲、x m p 跚、k r l sn q 等算法借助于核函数将线性算法转换成非线性算法,在多个领域的得到成功运用 证明了核函数方法是一种将非线性问题转换为线性问题的非常有效的工具。这些 1 0 第2 章p l s 特征提取的基本理论 方法的主要思想是借助于核函数将数据非线性地转换到高维空间中,再借助以往 成熟而有效的线性分析工具和方法进行处理。可见,核函数方法为利用线性方法 解决非线性问题提供了一个新的思路。 核函数( r p ,) 的名称来源于积分算子理论,其定义为: 定义1 :我们将输入向量z 掣映射到一个删6 州空间,即 破( ,唬 ) ,唬 ) ,根据胁f 6 p r f 一砌础理论,胁,6 州空间中的内积有一个 等价表达式: = q 岛( 五) 啊( 恐) 营足( 葺,屯) ,q o ( 1 ) ,= 1 式中,k ( 一,屯) 为满足肘r 卯r 定理的对称函数,称之为核函数。 胁r 卯,定理告诉我们,任意连续对称函数都可作为核函数,则有:若畸,如, 是核函数,那么 1 ) 毛+ 也是核函数; 2 ) 以,口 = 0 是核函数; 3 ) 畸屯是核函数; 4 ) 若七( z ,x ) = 烛t ( x ,x ) 存在,则尼( x ,x 。) 是核函数。 目前常用的核函数有1 0 多种其中,但流行的核函数如下: 1 ) d 次多项式核函数为k ( x ,薯) = ( 1 + x ) 4 2 ) 高斯径向基函数为k ( 墨葺) = e x p ( 一忙一圳2 盯2 ) 3 ) 神经网络核函数为芷( x ) = t a i l h ( 七o _ ) + 岛) 等。 从核函数的定义,我们可以得到核方法的基本思想为:对于满足 和阳p r 条 件的任何核函数足( x ,薯) ,存在一个特征空间( 葫( x ) ,疙( x ) ,呜( x ) ,) ,在这一空 间中这个核函数生成内积。也即式( 1 ) 的左端绝对一致的收敛于函数丘( x ,而) ,即 足( x ,蕾) = q 岛( 葺) 岛( 如) 扛l 这时,样本空间的内积运算已替换成核,事实上,运算是在样本空间运行的, 而不是在高维特征空间进行,这就是核技巧的思想。上述思想可以用下图表示为: 1 1 成都理工大学硕士学位论文 圈2 1 辅入空间和高维特征空间之间的映射关系 ( 其中,西是实现输入空间至特征空间的高维映射) 肋鲫- 等。”首先采用该技术将线性支持向量分类机推广到非线性支持向量 机,在处理线性不可分的问题时取得成功;而跏占胁等。7 1 利用该技术“核化” 主元分析( p r 加碑耐c d 埘p d 弗p 删一m 如扫,p c z ) ,得到非线性形式得p c a 这 两个方面的工作,促进了核函数方法的研究,并逐步形成热潮。 概括的讲,核函数方法具有以下优点: ( 1 ) 核函数的计算量与特征空间的维数无关。由于输入空间的核函数实际上 是特征空间内积的等价。因此,在实际计算中,我们不必关心非线性映射矿( x ) 的 形式,只需要选定核函数k ( x ,t ) 就可以了。核函数比较简单,而映射函数可能 很复杂,且维数很高。因此,引入核方法才能克服“维数灾难”问题。因此,甚 至可以选择一些核函数,使得特征空间的维数为无穷大,以提高模式分类或回归 能力。 ( 2 ) 无需知道非线性变换函数矽( ) 的形式及其参数。原始输入空间进行的核 函数计算实质上是隐式地对应于用( ) 变换后的高维特征空间的运算,这样克服 了一般的映射方法中非线性函数结构及其参数的确定以及特征空间维数的限制。 ( 3 ) 不同的核函数确定了不同的非线性变换函数。核函数的形式和参数的变 化会改变特征空间的性质,进而改变各种核函数方法的性能。 ( 4 ) 核函数方法町以和不同的算法结合起来,形成多种不同的基于核函数技 术的方法。而且这两部分的设计可以单独进行,并可以为不同的应用选择不同的 第2 章p l s 特征提取的基本理论 核函数和算法。 ( 5 ) 核函数的确定比较容易,满足胁脚,条件的任意对称函数都可作核函 数。 目前,国内外对核函数方法发研究正方兴未艾,但是在核函数的理论与应用 研究当中,也存在一些问题需要进一步探索分析: ( 1 ) 如何进一步提高核函数方法特别是s v m 算法的运算速度。核函数方法通 常都包含对维数为n n ( 刀为样本数量) 的核函数矩阵进行特征分析,因此对于 大样本,这样的运算对内存空间等资源的消耗极大,也影响到核函数方法的实时 性。对各种核函数方法进行改进研究,目的就是保证精度的同时,提高算法的速 度。 ( 2 ) 核函数方法的应用。目前除了s 以外,其他的核函数方法很多不为人 们所熟悉,不少方法还局限于理论上的研究,而没有用到实际生产中去。因此, 在核函数与实际应用的结合方面还有很大的潜力可以发掘。 ( 3 ) 探索核函数方法新的应用领域和对现有算法进行有效改进。将核函数方 法应用于实际中,以解决那些传统方法所不能解决的问题,同时结合实际问题对 核函数方法作出适当的修改以期达到最佳效果。 ( 4 ) 核函数方法中核函数的研究。包括产生和发现新的核函数,以及如何根 据实际情况选择核函数以及确定核函数参数的问题等: ( 5 ) 在用核函数对传统方法进行改造后,改造方法往往失去了原有方法所具 有的清晰的物理含义。如何对改造方法重新进行解释将是今后的研究方向之一。 更进一步的研究表明,核函数与再造核希尔伯特空间 ( 足印阳如c 加g 缸聊酣肺舾p 印胛部,尼跚蕊) 是互相对应的”3 ,即任一核函数决 定了一个脚,而任一删也对应一个核函数。核函数方法可以看作是在 兄k 嬲中运用各种算法求解复杂问题,而兄k 船中的线性算法即对应原输入空间 的非线性算法。 核函数是作为一种非线性映射的隐式表达方法而提出来的。这种隐式表达方 法给我们分析映射的性质带来了不少的困难。但是反过来,在指导非线性映射的 情况下,构造与之对应的核函数,则是一个非常容易的事情,正如核函数的定义 所表达的一样,任何一种提特征提取时所构造的非线性变换,都可以通过式( 1 ) 来实现相应的核函数的构造。具体有基于特征变换的核函数、基于j j l 如r 卵,核函 数的性质组合核函数、借助于其他领域知识构造核函数( 基于协方差函数定义的 核函数、用距离函数定义的核函数等) 。 成都理工大学硕士学位论文 2 2 2 核函数方法的实现步骤 核函数方法的实现步骤可以用下图来表示,主要分为两步:核矩阵的构造和 算法的实现过程。核矩阵的元素是原始数据经过核函数计算得到的结果。核矩阵 的定义在第一节有详细介绍。注意到核函数矩阵是三三的对称矩阵,上为输入 数据的长度。 慝圈藤器阑厂_ 蘸蓦 m 朋卢崔蔓熏l 蓦ha 纠侧= 玉煳) | 鹾萄砌。匿薹誊薹萤,j l 一一n 睡豸罩翻砌匿基基匿圜,t 、7 核函数核矩阵 算法各种模型 田2 - 2 棱函数方法实现的基本步骤 2 2 3 核偏最小二乘算法 核偏最小二乘分析指的是用核函数方法实现非线性偏最小二乘分析a 偏最小 二乘考虑了自变量的降维与信息综合,而且要考虑新的信息对因变量具有最佳的 解释能力。即核偏最小二乘的思想是将j 通过映射庐( z ) 到特征空间,在特征空 间中再运用偏最小二乘算法,这样特征空间中的线性儿s 就对应原空间的非线性 关系,这样需要处理的样本是高维空间中的数据矿( x ) ,而不再是x 。 经过整理,得到核偏最小二乘算法步骤如下: 设巧= 置( 耳,_ ) = ( 薯) ( _ ) ,巧为矩阵k 的元素,足( 蕾,一) 为核函数。 a 核函数变换矩阵 ( 1 ) 对训练样本的输入矩阵墨进行标准化处理; ( 2 ) 对标准化处理后的输入矩阵j 0 进行核函数变换,构造出相应的核函数内 积矩阵巧,记为凰= 巧 b 偏最小二乘p 船算法步骤 ( 3 ) z 经核函数化处理后的数据矩阵记为j ,o = 【。,五:,k3 - ,k 丑x ,】,经 1 4 第2 章p l s 特征提取的基本理论 标准化处理后的数据矩阵记为k = 【k 。,k 】。,记是k 的第1 个成分 w l 是蜀的第1 个轴。称为相关系数向量,它是一个单位向量,即9w l0 = 1 。 ( 4 ) 求矩阵矗k ,:五,最大特征值所对应的特征向量w 1 ,求成分 ,得: = k m墨= 五日 其中:丑= 矗川椰,称为负载向量。 ( 5 ) 求捌i i 五矩阵最大特征值所对应的特征向量w 2 ,求成分屯,得: f 2 = 墨w 2五= 五一岛最 其中:最2 砘圳胛 ( 6 ) 至第步,求成分厶= 瓦一。,是矩阵砭。k 巧五一。最大特征值所对应 的特征向量。 ( 7 ) 利用p l s 的抽取成分个数,的几种方法选取合适的成分个数: 2 3m k p l s 特征提取算法 核函数方法中,不同的核函数确定了不同的非线性变换和特征空间,即核函 数选择及确定参数对他的建模结果有较大的影响,但这方面理论研究贫乏。如何 充分利用领域的先验知识来选择核函数,即实事求是的选择合适的核函数已成为 研究重点。肌妇知等。”在设计基于支持向量机的图像识别应用中,提出两种构 造核函数的方法,以考虑研究问题的局部特性。胁以等则提出了混合核函数 方法,以提高支持向量回归机的性能。 将多个不同的核函数结合起来后会有更好的特性,这是混合核函数的基本思 想。其中最常用的混合核函数的基本核函数如下: d 次多项式核函数为足( x ,葺) = ( 1 + x t ) 。 高斯径向基函数为石( x ,t ) = e x p ( 一肛一t 8 2 ,) 神经网络核函数为世( x ,x ,) = t a l _ 1 i l ( 后( x - t ) + 岛) 等。 1 5 成都理工大学硕士学位论文 2 3 1 不同核函数特征分析 对不同的核函数的特性进行分析,有利于我们选择合适的核函数进行组合。 但是核函数的类型有许多,解释他们各自的特性比较困难,然而,归结起来,核 函数有两种主要类型,即:局部性核函数和全局性核函数。下面我们就结合图形 针对不同的核函数的性质进行简单的分析。 1 径向基核函数的特性分析o ” 下图为鼢径向基核函数世 ,) = 唧( - 肛一五8 2 盯2 ) 当矿分别取o 1 、 o 2 、0 5 时的曲线图,0 2 为测试输入。从图中可以看出,对于g 口径向基核 函数,仅仅是在测试点o 2 附近小领域内的数据点的核函数值受影响。应此, g 口觚,径向基核函数核是一个局部性的核函数,其内推能力随着参数盯的增大而 减弱。 图2 - 3 径向基核曲线图 2 多项式核函数足 ,蕾) = ( i + x 鼍) 。特征分析删 下图为多项式核函数k ( x ,t ) = ( 1 + x 耳) 。当d 分别取1 、2 、3 时的曲线图, 这里仍然取o 2 为测试输入。从图中可以看出,对于多项式核函数,远离测试输 入的数据点的核函数值也受影响。因而,多项式核函数是一个全局性的核函数, 具有很强的外推能力,而且阶数越低,外推能力越强。 1 6 第2 章p l s 特征提取的基本理论 田2 - 4 多项式核曲线图 3 条件正定核及其性质 条件正定核来自于正则化理论啪1 ( r p g 讲口f f d 一曲p d 秽) ,现已证明可以用于 核学习方法中。 正定核定义:若一个对称的函数七:x z 斗且对所有的拧,置x ,产 生一个正定的g 阳m 矩阵,即对所有的丘月,下式成立: q o 巧 - o f ,_ 1 其中:蚝= _ j ( 置,_ ) ,x 是内积空间,r 是实空间。则k 称为正定核( 其实 正定核就是胁,鲫核) 。 条件正定核定义:若一个对称的函数七:z x 专r 对所有的h ,置属于 z 和所有e 属于r 且所有q 的和等于0 ,产生一个正定的g m 坍矩阵,即下式成 立。 其中:巧= ( 薯,_ ) c l cj k 4 _ o ,;l 则t 称为条件正定核( 条件正定核无需满足朋j ”条件,但可以用于核学 成都理工大学硕士学位论文 习方法中) 。 下面就是一个新的条件正定核。( 简称c p d 核函数) ,它是一个局部核函数。 此核函数是c p d 核函数,它并不满足胁r c p r 条件,但却可以用于核学习方法中。 由于c p d 核是个局部和,局部核使得相距很近的数据点对和函数值有影响, 即局部核仅仅对测试点附件的数据点有作用。c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论