




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 基于支持向量机在储层参数预测中的应用 作者简介:程伟,男,1 9 8 2 年1 1 月出生,2 0 0 4 年9 月师从于成都理工大学施泽 进教授,于2 0 0 7 年7 月获应用数学硕士学位。 摘要 利用地震资料来进行储层参数预测是油气勘探的一个重要组成部分,因此在 采用地震资料来提高储层参数的预测精度和可靠性时,需要最大限度的挖掘和利 用已有的地震与测井信息,以适应复杂储层油气田勘探开发的要求。 本文在对地震属性研究的基础上,较为系统阐述了地震属性优化的一些基 本问题。采用多元统计中的相关系数公式方法优选与孔隙度较为敏感的地震属 性参数,利用主成分分析对地震属性参数进行优化,以达到特征约减的目的, 同时也剔除地震属性彼此之间相关而造成信息冗余,并将优化的结果用于储层 参数的预测。 以川i 东南嘉陵江组储集层为例,在对区内储层地质特征精细研究的基础上, 发现该区内储集层的样本数据量较少,若采用传统的预测方法难以达到理想的效 果,本文尝试针对小样本学习的支持向量机模型应用到储层参数预测中。实验结 果表明基于主成分分析的支持向量机方法与传统的储层参数预测方法比较,取 得了较好的效果。通过该方法对工区内未知区域储层参数预测,并结合克里金 估计技术绘制工区内储层参数平面和空间分布特征,从而确定储集层的有利勘探 目标区。 关键词:地震属性优化;主成分分析;支持向量机:储层参数预 a b s t r a c t r e s e r v o i rp a r a m e t e rp r e d i c t i o no f a p p l i c a t i o nb a s e d o n s u p p o r tv e c t o rm a c h i n e i n t r o d u c t i o no ft h ea u t h o r :c h e n g w e i ,w a sb o r no nn o v e m b e ro f1 9 8 2 ,b ea w a r d e dt h es c i e n c e m a s t e r l sd e g r e eo f a p p l i c a t i o nm a t hi nc h e n g d uu n i v e r s i t yo ft e c h n o l o g yo nj u l yo f2 0 0 7 ,u n d e r t h eg u i d a n c eo f p r o f s h iz e j i n a b s t r a c t i ti sa ni m p o r t a n tp a r to fo i l - g a se x p l o r a t i o nt om a k eu s eo ft h ee a r t h q u a k em a t e r i a lf o rt h e r e s e r v o i rp a r a m e t e rp r e d i c t i o n ,t h e r e f o r ew h e nu s i n gt h ee a r t h q u a k em a t e r i a l 协e n h a n c et h e r e s e r v o i rp a r a m e t e rp r e d i c t i o np r e c i s i o na n dt h er e l i a b i l i t y , w es h o u l dt r yo u rb e s tt oe x c a v a t ea n d m a k ef u l lu s eo ft h ee a r t h q u a k ea n dt h eo i lw e l ll o g g i n gi n f o r m a t i o nf o rt h ec o m p l e xr e s e r v o i r o i l g a sf i e l de x p l o r a t i o nd e v e l o p m e n t t h i sa r t i c l eb a s e do nt h er e s e a r c ho fe a r t h q u a k ea t t r i b u t e ,e l a b o r a t e st h a tt h ee a r t h q u a k e a t t r i b u t eo p t i m i z e ss o m eb a s i cq u e s t i o n s i ta d o p t st h ec o r r e l a t i v ec o e f f i c i e n tf o r m u l am e t h o do f m u l t i v a r i a n t ss t a t i s t i c st oc h o o s eo p t i m a l l ye a r t h q u a k ea t t r i b u t ep a r a m e t e rw h i c hi sm o r es e n s i t i v e w i t ht h ep o r o s i t y , a n dm a k e su s eo ft h ep r i n c i p a lc o m p o n e n t sa n a l y s i st oo p t i m i z et h ee a r t h q u a k e a t t r i b u t ep a r a m e t e rm a da c h i e v et h eg o a lo f c h a r a c t e rr e d u c t i o n i n t h em e a n w h i l e ,i te l i m i n a t e st h e r e d u n d a n ti n f o r m a t i o nc a u s e db yt h ec o r r e l a t i o no ft h ee a r t h q u a k ea t t r i b u t e f u r t h e rm o r e ,t h e o p t i m a lr e s u l ti su s e df o rr e s e r v o i rp a r a m e t e rp r e d i c t i o n t a k i n gt h ej i a l i n gr i v e rg r o u pr e s e r v o i r a si nt h es o u t h e a s t e r np a r to fs i c h u a np r o v i n c ef o ra n e x a m p l e ,w ed i s c o v e r e dt h a ti nt h i sa r e at h er e s e r v o i rs a m p l ed a t aq u a n t i t yi sl e s sb yt h es c r u t i n y o f r e s e r v o i rg e o l o g yc h a r a c t e r i s t i c ,i f w eu s et r a d i t i o n a lf o r e c a s tm e t h o d ,i tw i l ld i f f i c u l tt oa c h i e v e t h ei d e a le f f e c t t h i sa r t i c l et r i e st oa p p l ys u p p o r tv e c t o rm a c h i n em o d e lf o rs m a l ls a m p l es t u d yt o t h er e s e r v o i rp a r a m e t e rp r e d i c t i o n a n dt h er e s u l to fe x p e r i m e n ti n d i c a t e st h a ts u p p o r tv e c t o r m a c h i n em e t h o db a s e do nt h ep r i n c i p a lc o m p o n e n t sa n a l y s i s ,c o m p a r e dw i t ht h em e t h o d o f t r a d i t i o n a lr e s e r v o i rp a r a m e t e rp r e d i c t i o n ,a n dh a so b t a i n e dab e t t e re f f e c t a c c o r d i n gt ot h e r e s e r v o i rp a r a m e t e rp r e d i c t i o no ft h eu n k n o w na r e ai nt h eo p e r a t i n gr e g i o nw i t ht h i sm e t h o d ,a n d c o m b i n i n gt h es u r f a c ea n ds p a t i a ld i s t r i b u t i o nc h a r a c t e r i s t i c so ft h er e s e r v o i rp a r a m e t e ri nt h e o p e r a t i n gr e g i o np r o t r a c t e db yt h ek r i g i n ge s t i m a t et e c h n i q u e ,t h ea d v a n t a g e o u se x p l o r a t o r y d e s t i n a t i o nd i s t r i c to f t h er e s e r v o i rb e d sj se n s u r e d k e y w o r d s :s e i s m i ca t t r i b u t e so p t i m i z a t i o n ;p r i n c i p a lc o m p o n e n t sa n a l y s i s ;s u p p o r tv e c t o r m a c h i n e ;r e s e r v o i rp a r a m e t e rp r e d i c t i o n 1 1 独创性声明 本人声明所呈交的学位论文是本人存导师指导下进行的研究j r 作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得盛壑理王太堂或其他教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者导师签名:蠢包肄鬯 学位论文作者签名:辛凯名 川年r 月j 同 学位论文版权使用授权书 本学位论文作者完全了解成都堡王盍堂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权盛壑堡王盔堂可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:辛凯等 明年r 月2 j 同 第一章引言 第一章引言 1 1 选题依据及研究意义 储层参数预测工作是油气勘探、开发的一个重要环节,但由于地下地质情况 复杂多变,受原始资料品质、预测方法及处理人员水平等多种因素影响,使其成 为一项难度很大的工作。而利用地震资料进行储层参数预测是油气勘探的一个重 要组成部分。采用地震资料来提高储层参数的预测精度和可靠性时,需要最大限 度地挖掘和利用已有的地震与测井信息,以适应复杂储层油气田勘探开发的要 求。 本文针对研究区储集层特征展开储层参数的研究和应用。研究区位于四川盆 地东南部,包括赤水外围区块、綦江区块,区内储集层有碳酸盐岩和碎屑岩两类, 其储集空间既受岩性的控制,也受长期构造运动的影响,普遍具有低孔、低渗、 横向变化大、非均质性极强,具有隐蔽性、复杂性和较高的勘探难度的特征。因 此,单独采用地质手段或地球物理手段难以对该类复杂储集层进行系统描述及有 效预测,必须将地质与数学方法紧密结合,最大限度地挖掘现有资料中的有效信 息,提高该地区储层参数研究的精度。 随着计算机软硬件环境的不断发展,目前地震属性发展到多达几十种,而在 地震资料解释工作一般仅利用几种属性,并且强烈地依赖解释人员的经验,这 就造成了地震资料中包含的大量地震信息没有被利用。因此,发展易于使用的 地震属性分析和优化技术、挖掘地震资料中包含的大量的有关目标层物性等方 面的信息,是油气勘探开发工作中需要重视的问题之一。针对区内储集层的特 征,把测井资料和地震资料结合起来分析,建立物性参数和地震属性参数的对 应关系来进行储层参数预测研究。根据该区内储集层的样本点数量少的特点, 若采用传统的预测方法难以达到理想的效果。因此,如何提高该区内储层预测的 精度和预测的效率,是本文重点要解决的问题。 通过地质手段精细描述各套储集层的地质特征进行储层优选,并在此基础上 将地质与数学方法紧密结合,展开储层参数预测研究,对未知区域的储集层物性 参数进行预测。以川东南嘉陵江组储集层为例进行针对碳酸盐岩储集层和碎屑岩 储集层储层预测方法的研究,对该地区进一步勘探具有重要的参考价值。 成都理l 人学硕十学何论文 1 2 国内外研究现状 1 2 1 支持向量机研究现状 支持向量机【“2 。4 l ( s u p p o r t v e c t o r m a c h i n e ,s v m ) 是2 0 世纪9 0 年代中期 发展起来的、以统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l t ) 为基础的新的 通用机器学习技术。由于其出色的学习性能,该技术目前已经成为国际上机器学 习领域的研究新热点,其核心内容1 9 9 2 年才开始提出,1 9 9 5 年v a p n i k 的 t h e n a t u r eo f s t a t i s t i c a ll e a r n i n gt h e o r y 一书的出版,标志着统计学习理论体系开始 走向成熟,它与传统的统计学习理论不同,是由于它基于结构风险最小化( s r m ) 原则,而不是传统统计学的经验风险最小化( e r m ) 原则,与传统的统计学习 理论相比,其性能的优越性在于结构简单,技术性能尤其是推广能力明显提高, 能够解决好大量现实中的有限、小样本学习问题,它是根据有限的样本信息在模 型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。与基于经 验风险最小化原则的神经网络相比,不存在过学习问题,有更好的泛化性能;此 外,支持向量机求解是一个凸二次优化问题,得到的解将是全局最优点,解决了在 神经网络方法中无法避免的局部极值问题。 支持向量机方法最早是针对模式识别问题提出来的,并且在许多领域获得成 功,随着v a p n i k 对s 不敏感损失函数的引入,近年来支持向量机已推广到线性和 非线性系统的回归估计,并展现了极好的学习性能,可控制的精度逼近任一非线 性函数,同时具有全局最优、良好的泛化能力等优越性能,因此支持向量机的应 用非常广泛。目前支持向量机主要应用在金融时间序列预测 5 , 6 1 和非线性系统参 数辨识1 7 , 8 9 1 与建模i 1 0 , 1 l l 。 1 2 2 地震属性的发展和储层参数预测的研究现状 地震属性技术【1 2 “3 1 4 1 5 1 从上个世纪6 0 年代末的直接烃类检测亮点开始,其 发展经历了几起几落。7 0 年代是地震属性技术的快速发展期,8 0 年代初又陷入 了低谷期,从9 0 年代开始,以相干体属性技术为代表的多维地震属性和多属性 分析方法在国外又重新兴起,并逐步带动了整个地震属性技术的发展,而我国 在这方面进展较为缓慢。因此对利用多属性技术提高地震资料的利用率,在生 产和理论研究中都有重要的意义。 储层参数预测1 1 6 d 7 1 是油藏描述的重要环节,在岩性勘探和油气开发评价中 起着举足轻重的作用。目前,储层参数预测方法可分为二大类:利用地震资料 第一章引言 进行地震属性的地质统计分析方法和地球物理反演方法。地震属性技术的发展 促进了储层参数预测技术研究的发展,综观近年来国内外有关储层参数预测研 究方法层出不穷达到了空前的活跃,主要有函数逼近与地质统计学、神经网络 方法以及它们的不同组合方法,但是随着油田勘探开发的不断深入,仍然有很 多需要逐步完善的地方。因此针对特殊地质情况复杂多变,受原始资料品质限 制来探索新的储层参数预测方法,提高预测的准确性是十分必要的。 1 3 本文的研究内容及研究思路 1 3 1 研究内容 1 、对前人有关构造、沉积方面的研究内容进行系统吸收、总结,深入了解 区域背景;观察工区内多口钻井岩芯,根据储层研究需要观察相关层位地质剖面, 取得大量样品,通过各种测试分析手段,取得研究所需基础数据。结合钻井、测 井资料和储层地质特征的研究成果,进行储层标定,以川东南地区为例开展地震 多属性分析储层物性参数预测方法研究,对储集层横向分布进行预测。 2 、利用p c a 统计学等多学科综合理论和方法对地震多属性进行优化特征提 取,从而达到属性优化的目的;采用支持向量机回归预测模型,并与传统的多元 回归模型和神经网络预测模型进行比较,从而建立一个的高效、高精度的储层物 性参数预测方法。这其中包括了两个核心部分:地震属性优化特征提取的方法确 定、储层预测模型方法的比较和分析,而这中间的储层预测方法是本次研究的重 点和主要内容。根据这两个核心部分大致可以知道本次研究会涉及两个问题:一 地震属性参数优化的特征提取,即采用哪些属性指标作为样本的特征指标;二储 层预测模型各方法的应用、比较和分析,也就是用所提取的特征指标构成新的属 性参数,应用各种储层预测模型方法,对结果做比较、分析。 3 、根据对该地区储层地质特征和储层物性参数预测的结果,针对各套储集 层进行综合评价,最终确定各套储集层的有利勘探目标区。 1 3 2 研究思路 本项研究在借鉴和吸收已有的国内外研究成果的基础上,依托四川盆地东南 部地区有关地质、钻井、测井、地震资料和数据,利用p c a 统计学等多学科综 合理论和方法对数据作特征提取,从而达到属性优化的目的;在借鉴前人研究成 果的基础上,建立一个基于支持向量机储层预测模型并与传统的多元回归和神经 网络预测模型进行比较。为了使得本研究具有科学性、合理性和系统性,特制定 3 成都理f 人学硕十学侍论文 以下研究路线( 图l 一1 ) 。该技术路线充分考虑到理论和实践的并重,效率和时 自j 的协调。按照这条技术路线,能够保证本研究在有限的时间内取得有效的成果。 测井和地震数据 上 数据预处理 上 地震属性优化特征提取 上 l 建立物性参数与地震属性特征参数关系,展开饼 层预测研究和应用 上 各种储层参数方法应用,分析比较结果 上 对朱知区域勘探 图i - i 技术路线图 4 第二章地震属性优化平储层参数预测模型研究 第二章地震属性优化和储层参数预测模型研究 2 1 地震属性理论知识 2 1 1 地震属性概述【1 6 ”1 卅 地震属性是叠前或叠后地震数据经过数学变换导出的能反映储层含油气性 的有关地震波运动学、动力学和统计特征的特征参数,是表征和研究地震数据内 部所包含的时间、振幅、频率、相位及衰减特性的指标。地震属性技术从6 0 年 代末、7 0 年代初问世以来,经历了7 0 年代的快速发展期,8 0 年代初的低谷期, 从9 0 年代开始,以相干体属性技术为代表的多维地震属性和多属性分析方法在 国外又重新兴起,并逐步带动了整个地震属性技术的发展。现在国内的油气勘探 中应用也非常广泛,其范围包括从单道瞬时同相轴属性计算到比较复杂的多道窗 口式地震同相轴属性提取,直至地震属性体的生成。应用方面也从简单的振幅异 常检测到储层参数与剩余油分布的确定以及油藏随时间推移的流体运动前缘监 测。 地震属性既包括简单的属性( 如地震道包络、瞬时相位和瞬时频率等) ,也包 括复杂的属性( 如地震道反演和a v 0 等) 。当地层中储层物性和充填在其中的流体 性质发生空间变化时,就会造成地震反射速度、振幅、频率等这些地震属性的相 应变化,这就是储层预测的主要依据。在目标地区地震地质情况确定的情况下, 只要储层或流体性质变化的特征参数达到某一相应的限度,地震数据就会有所反 映,表现为波形、能量、频率和相位等的一系列基于几何的、运动学的、动力学 或统计特征的变化。 井资料在井点处具有分辨率高、精确性高的特点,但鉴于成本,在地质目标 上不可能有大量的井。而地震资料覆盖范围广,并可直接或间接地反映地质目标 在纵向上和横向上的连续变化。将地震资料与井资料有机地结合起来进行分析, 优化地震属性,建立地震属性与已知井储层物性参数的对应关系,就能利用这些 地震属性的变化来预测储层物性参数的空间变化情况,从而发现最有利的储层, 为勘探和开发提供依据。 虽然这些属性和储层参数的关系已经推导出来,但是在这些属性参数中, 有的对储层物性参数的变化很敏感,可以准确的揭示地下异常,而有的对物性 参数的变化不敏感,这与特定地区的储层地质环境有关。因此,在实际使用时, 成都理i :人学硕十学何论文 属性的提取原则是尽可能的在物理意义上与某一物性有相关联系,并尽量使用相 关系数较高的属性。只有这样,才能寻找到将要使用的属性的优化组合,形成一 种较为可靠的油气预测方法。 2 1 2 地震属性的分类和提取 2 0 , 2 1 】 地震属性是从地震数据里推导出来的几何学、运动学、动力学或统计学特征 的特殊测量值。基于不同的应用目的,地震属性有不同的分类方法。 地震属性提取的方式有很多,通常是根据工区的勘探特点,即程度、研究对 象以及所需要解决的问题采用合适的方式来获得的。在叠后处理资料上提取地震 属性的基本方式有:剖面属性提取、同相轴属性提取和三维体属性提取。 ( 1 ) 基于剖面的属性该属性属于特殊处理的范畴,如速度、波阻抗和a v 0 振 幅提取等: ( 2 ) 基于同相轴的属性它是从地震数据中提取的并与一个界面有关的属性, 能提供有关界面上下或界面之间属性变化的信息; ( 3 ) 基于三维地震数据体的体积属性主要指地震道之间的地震信号相似性 和连续性的信息,可以从三维立体角度表征地震地质特征。 现在很多地震属性都是在水平叠加数据和叠后偏移数据的基础上提取的,将 来也可对叠前的地震数据进行属性提取,像叠前a v 0 属性。 2 1 3 地震属性数据的处理 多信息储层预测可用的地震属性数据量大,由于所提取的不同地震属性之间 类型不同各种属性之间量纲不一,数值量级别差别大,局部异常往往淹没在区域 背景上以及存在一些离群的异常数值等问题,在作储层参数预测之前,必须对地 震属性参数进行规格化和平滑处理呻】。处理结果的好坏对储层预测的效果有较 大的影响。 1 、提取剩余异常设某一属性为4 ,区域均值为 彳:i 1 n 4 ( 2 1 ) ,智 式中n 为地震道数,剩余异常值削,则为 6 4 | = a i a i 2 、数据规格化以下几种方法较为常用,以剩余异常为例。 6 第二章地震属性优化和储层参数预测模型研究 极差变化法 标准差标准化 线性归一化法 p :竺二竺墅 鲋一一爿 只圳,小志1 ) 善) 2 j 其中a 是经归一化处理过后的数据。 3 、平滑处理 只一。既 只= 型1 广一( 肌= 1 , 2 ,m ;| j = m 2 + 1 ) ( 卜5 ) 既 式中,既为第m 个平滑因子,m 为平滑因子长度。地震预测一般采用3 点或5 点平滑因子。3 点平滑因子为既= i 1 ,j 1 ,二) 1 ,5 点平滑因子为 睨= c 舄舄扣 2 2 地震属性优化技术 2 2 1 地震属性优化概述 随着科技的发展,各个领域的数据和信息急剧增加( 所谓的信息爆炸) ,并且 由于人类的参与使数据与信息系统中的不确定性更加显著( 复杂系统) 。如何从 大量的、杂乱无章的、强干的数据( 海量数据) 中挖掘潜在的、有利用价值的信 息( 有用信息) ,这给人类的智能信息处理能力提出了前所未有的挑战。由此产 生了人工智能研究的一个新领域一数据挖掘和数据库知识发现。 地震属性优化技术1 2 1 2 2 就是分析地震属性间的相关性,找出反映储层本质 特征的、相互之间独立的地震属性。目的是以地震属性为载体,从地震资料中 提取隐藏的信息,并把这些信息转换成与岩性、物性或油藏参数相关的、可以 7 成都理i :人学硕十学位论文 为地质解释或油藏工程直接服务的信息。由于地震属性与所预测对象之间的关 系复杂,不同工区和不同储层对所预测对象敏感的地震属性不完全相同,即使 在同一工区、同一储层,预测对象不同,对应的敏感地震属性也有差异。甚至 一些属性可能还起着干扰作用,为此必须在众多的地震属性中优选那些有用的 属性。 地震资料可提取的地震属性参数达几十个,要直接用这几十个参数进行预 测是不可行的,因为特征空间的维数太大会增加预测的计算量,同时由于这些 参数有些是相关的,存在信息冗余度,这样给问题的分析和计算带来困难,甚 至带来所谓的维数灾难。解决的办法可选取尽可能多的、可能有用的特征,然 后根据需要进行特征约简。因而在进行预测之前要进行样本空间压缩,经压缩 后可用较少的变量代替原来较多的变量,而又能基本上包含原来变量的信息。 2 2 2 地震属性优化方法1 2 1 2 “2 4 2 ” 地震属性参数优化方法可分为地震属性优选与地震属性降维映射两大类方 法。地震属性优选是从原有的地震属性的集合中选取那些特别合适的、对特定 地区( 特定地层) 敏感的属性。而地震属性降维中新地震属性是从大量原有地 震属性出发,经过对原有属性的某种变换构造用较少的变量代替原来较多的变 量,而又能基本上包含原来变量的信息。 1 ) 地震属性数据的的优选 研究表明,各种地震属性信息之间沟通方式、组合方式以及每一种属性反映 储层特征的灵敏度具有很大的不确定性。在不同的地区和不同的地质层位,对油 气类别或某种储层特征敏感的( 或有效的、最有代表性的) 地震属性组合一般存 在较大的差别,一些属性可能对预测分类还起着干扰作用,为此必须在众多的地 震属性中优选那些有用的东西,由于所研究的对象( 储层物性参数等) 与地震属 性之间的复杂关系,存在很强的不确定性,使人们难以直接从大直接从大量的属 性中选取有用的信息,因此必须采用数学方法和手段加以解决。为了准确地研究 地震属性与储层物性之间的关系,必须对属性参数进行认真合理的优选。地震优 选的方法有很多,比如专家知识的选择法、搜索法、关联度分析方法、聚类、交 会分析方法以及地震属性参数与储层参数的相关分析法等等。通常在利用地震属 性参数与储层参数的相关分析法在选取参数时,一般还要遵循以下几个原则: a 、尽量选择有物理意义的属性,这有利于建立储层物性与地震属性的关系, 而抽象的属性所表现的敏感性有可能只是一种偶然现象; b 、应避免使用呈周期性变化的数据求和来确定地震属性: 8 第- 二章地震属性优化和储层参数预测模型研究 c 、尽量使用相关系数较高的属性。 2 ) 地震属性降维 一般情况下,为了较全面地刻画处理对象的特征,需要提取的特征( 地震 属性) 个数比较多,也就是地震属性集的空间维数一般较高,这必然增加预测 分类的计算量,同时较高维数的空间内可能存在相关的地震属性,从而存在着冗 余信息。这种情况下,有必要对地震属性空自j 进行压缩。如果直接在高维特征 空间来进行储层参数预测,不仅运算量非常繁琐,而且结果也不一定理想,因 此合理地进行特征维数约简( 即降维) 是十分必要的。随着如今对于降维技术 研究的深入,降维的方法有很多,诸如主成分分析( p c a ) 和多重判别分析( m d a ) , 本文将使用p c a 对地震属性进行降维。 p c a 1 2 “2 7 。1 首先f l q ( p e a r s o n ) 1 9 0 1 年提出,经过1 0 0 多年的发展,逐步完善起 来。p c a 是考察多个变量间相关性的一种多元统计分析方法,它是研究如何通过 少数几个主成分( 即原始数据的线性组合) 来解释多个变量。具体说是求出几个 主成分,使其尽量多的保留了原始变量的信息,且彼此线性无关,这使得它在特 征选取、数据压缩等方面都有极为重要的应用。主成分分析的简要数学过程如 下。 对给定的n 个样本。m 个变量的样本数据矩阵: l = 薯1x h x 2 1x 2 2 毛2 。( 而,屯,而,) 往往由于变量x i 之间具有相关性,而增加了样本内部的错综复杂的关系,因此寻 找p 个变量m ,y 2 ,y p ( p m ) 使得乃满足 1 ) 乃= q 1 西+ a t 2 而+ + 口细工。 z = l ,2 ,p( 2 7 ) 2 ) y l ,y 2 ,y 。彼此不相关 因此,对于变量m ,y 2 ,y p 的求解。 p c a 算法具体步骤: ( 1 ) 对原始数据进行标准化处理。为消除变量之间在数量级或量纲上的不同,需 要把原始数据标准化处理。设表示第i ( i = 1 ,2 ,甩) 个样本第_ ,( _ ,= 1 ,2 ,所) 变量的对应的值,则x , j 的标准化值为: 9 成都理j :人学硕+ 学位论文 :笙三,( 2 - - 8 ) 。 盯 其中i = 言喜嘞,巳= 击喜( 而2 。x 是经过标准化变换后得到的数据矩 阵:x = ( ) 。 ( 2 ) 求标准化数据的相关矩阵: r = ( 。) ,= 石1 否n ( 2 - - 9 ) ( 3 ) 计算相关矩阵r = ( ) 的特征值 厶o ( 满足 = 埘) 和 其对应的特征向量,u m 。 “) 确定主成分个数。找出前p 个主成分,使喜鲁满足在百分之九十左右 即可。 ( 5 ) 前p 个主成分对应的特征值组成的矩阵为u m 。,则缩减后p 个综合指标 为y 。= x :。翔。p 。 3 储层参数预测模型研究 2 3 1 储层参数预测概述 储层参数预测 1 6 d 7 , 2 9 是油藏描述的重要环节,在岩性勘探和油气开发评价中 起着举足轻重的作用。目前,储层参数预测方法可分为二大类:( 1 ) 利用地震资 料进行地震属性的地质统计分析方法;( 2 ) 地球物理反演方法。 地震属性技术的发展促进了储层预测技术研究的发展。近十年内国内储层参 数预测研究方法主要以神经网络、函数逼近与地质统计学方法以及它们的不同组 合方法层出不穷达到了空前的活跃,但是随着油田勘探开发的不断深入,仍然有 很多需要逐步完善的地方。纵观已国内外发表的储层参数预测方面的论文,其研 究主要采用多元回归和神经网络方法,并在一些地方取得一定成功,但是随着油 气勘探难度增大,基于特殊工区的地质背景,这时再利用传统的方法来进行预测, 1 0 第二章地震属性优化和储层参数预测模型研究 往往不能达到满意的结果,所以探索储层参数预测方法来提高油气勘探的准确度 显得尤为重要。 2 3 2 储层参数预测模型 在这一节中我们将具体介绍一下多元线性回归模型、b p 神经网络模型和支 持向量机预测模型。 1 、多元线性回归模型 设因变l y 与自变量五,x 2 ,x m 有线性关系,那么建立y 的m 元线性回归 模型: y = 属+ 届而+ + 尾+ 善 ( 2 1 0 ) 属,届,成为回归系数;善是遵从j 下态分布n ( o ,盯2 ) 的随机误差。在实际问 题中,对y 与而,屯,作n 次观测,即,而一,( 1 f - 对依赖关系进行估计,使期 望风险 r ( 忉= l l ( y ,f ( x ,w ) ) d f ( x ,y ) ( 3 2 ) 最小。其中 f ( x ,w ) ) 称作预测函数集,w 为函数的广义参数, f ( x ,们 可以表示 任何函数集:l ( y ,f ( x ,w ) ) 为由于用f ( x ,w ) 对y 进行预测而造成的损失,不同类 型的学习问题有不同形式的损失函数。预测函数也称作学习函数、学习模型或学 习机器。 通过定义不同形式的损失函数可以构成三种基本的机器学习问题1 3 1 :模式识 别、函数逼近和概率密度估计。 对于模式识别问题,输出y 是类别标号,两类情况下y = 0 , 1 ( 或y = 一1 ,1 ) ) , 预测函数称为指示函数,损失函数定义为: 州y 舷嗍= o 嬲i : c 3 - - s , 使风险最小就是贝叶斯决策中使错误率最小。 函数逼近问题也即回归估计问题,假设训练机器的输出为实数值y ,为实函 数集合,f ( x ,w ) ,令损失函数定义为:l ( y ,f ( x ,w ) ) = ( y f ( x ,忉) 2 即采用最小 平方误差准则。 函数逼近就是在损失函数下使得风险泛函r ( w ) = i ( y ,f ( x ,w ) ) d f ( x ,y ) 最小 的函数。因此,对函数逼近问题来说,学习问题就是在概率测度f ( x ,y ) 未知, 1 4 第二章统计学习理论平支持向量机 给定数据的情况下,寻找使得r ( w ) 最小的密度函数。 而对于概率密度估计问题,学习的目的是根据训练样本确定x 的概率密度。 令估计的密度函数为p ( x ,们,则损失函数可以定义为:l ( p ( x ,w ) ) = 一l o g p ( x ,w ) 。 所要求的密度函数就是在损失函数下使得胄( w ) 最小化。换句话说,密度估计的 问题也即在相应的概率密度f ( x ) 未知,给定数据的情况下,寻找使得r ( w ) 最小 的密度函数。 3 1 2 经验风险最小化原则 在上面的问题表述中,学习的目标在于使期望风险最小化,但是,由于我们可 以利用的信息只有样本( 3 1 ) ,( 3 2 ) 式的期望风险并无法计算,因此根据概 率论中的大数定理,利用算术平均代替式( 2 - - 2 ) 中的数学期望,于是定义了: r 。( w ) = 丢喜工( y ,( ,w ) ) ( 3 4 ) 作为对( 2 2 ) 式的估计。由于b 。( 叻是用已知的训练样本( 即经验数据) 定义的,因此称为经验风险。用对参数w 求经验风险r ( w ) 的最小值来逼近期 望风险r ( w ) 的最小值,这一原则称为经验风险最小化( e m p i r i c a l r i s k m i n i m i z a t i o n ) 原则,简称e r m 原则。 传统的学习方法中采用了所谓经验风险最小化原则,即用样本定义经验风险 代替期望风险,事实上,用经验风险最小化原则代替期望风险最小化并没有可靠 的理论依据,只是直观上合理的想当然做法,但这种思想却在多年的机器学习方 法研究中占据了主要地位。人们多年来将大部分注意力集中到如何更好地最小化 经验风险上,而实际上,首先r ( 叻和r ( w ) 都是w 的函数,概率论中的只说明 了( 在一定的条件下) 当样本无穷大时r ( w ) 将在概率意义上趋近于r ( w ) ,并 没有保证r 。( 忉最小的w 与使r ( w ) 最小的w “是同一点,更不能保证r 。( w + ) 一定趋近于r ( w “) ;其次,即使可以假定当n 趋向于无穷大时( 3 4 ) 式趋近于 ( 3 2 ) 式,但在很多问题中的样本数目也离无穷大相去甚远,在有限的样本情 况下,也无法保证在这些前提下得到的经验风险最小化方法可以获得好的结果。 3 2 统计学习理论 统计学习理论就是研究小样本统计估计和预测的理论,它从理论上系统地研 究了经验风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系以 及如何利用这些理论找到新的学习原则和方法的问题,其主要内容包括四个方 面: 成都理i :人学硕十学何论文 1 )经验风险最小化原则下统计学习一致性的条件; 2 )在这些条件下关于统计学习方法推广性的界的结论; 3 )在这些界的基础上建立的小样本归纳推理原则; 4 ) 实现新的原则的实际方法( 算法) 。 其中,最有指导性的理论结果是推广性的界,与此相关的一个核心概念是v c 维。 3 2 1v c 维 为了研究学习过程一致收敛的速度和推广性,统计学习理论定义了一系列有 关函数集学习性能的指标,其中最重要的是v c 维( v a p n i k c h e r v o n e n k i s d i m e n s i o n ) 。在模式识别中v c 维的直观定义是:对一个指示函数集,如果存在h 个样本能够被函数集中的函数按所有可能的2 6 种形式分开,则称函数集能够把h 个样本打散;函数集的v c 维就是它能打散的最大样本数目h 。若对任意数目的 样本都有函数能将它们打散,则函数集的v c 维是无穷大。有界实函数的v c 维 可以通过用一定的阈值将它转化成指示函数来定义。 v c 维反映了函数集的学习能力,一般而言,v c 维越大则学习机器越复杂, 学习能力就越强。遗憾的是,目前尚没有通用的关于任意函数集v c 维计算的理 论,只对一些特殊的函数集知道其v c 维。例如在聆维实数空间中线性分类器和 线性实函数的v c 维是n + 1 ;函数f ( a ,x ) = s i n ( 甜) 的v c 维则为无穷大;而对 于一些比较复杂的学习机器( 比如神经网络) ,其v c 为除了与函数集( 神经网 络结构) 选择有关外,通常也受学习算法等的影响,因此其确定将更加困难。对 于给定的学习函数集,如何用理论或实验的方法计算它的v c 维仍是当前统计 学习理论中有待研究的一个问题1 3 2 。 3 2 2 学习机器推广的界 统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险 之间的关系,即推广性的界。关于两类分类问题,结论是:对指示函数集中的所 有函数( 包括使经验风险最小的函数) ,经验风险r 。m p ( w ) 和实际风险r ( w ) 之问以 至少1 一r 的概率满足如下关系【3 3 】: r ( 叻r w ( w ) + 1 1 h ( 1 n ( 2 n h ) + 1 ) - l n ( r 4 ) i ( 3 - - 5 ) v l n j 其中h 是函数集的v c 维,n 是样本数。 这一结论从理论上说明了学习机器的实际风险是由两部分组成的:一是经验 风险( g l l 练误差) ,另一部分称作置信范围,它和学习机器的v c 维及训练样本数 1 6 第二章统计学习理论和支持向量机 有关。可以简单地表示为: 胄( w ) r 一( w ) + o ( h n ) ( 3 6 ) 它表明,在有限训练样本下,学习机器的v c 维越高( 复杂性越高) 则置信范围越 大,导致真实风险与经验风险之间可能的差别越大。这就是为什么会出现过学习 现象的原因。机器学习过程不但要使经验风险最小,还要使v c 维尽量小以缩小 置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性。这也正是 大多数情况下选用较复杂的学习机器或神经网络即使能够获得较好的记忆功能 却得不到令人满意的推广性能的原因。 3 2 3 结构风险最小化原则 从前面的结论可以看到,传统的机器学习方法中采用的经验风险最小化原 则在样本数据有限时是不合理的。因为我们需要同时最小化经验风险和置信范 围。实际上,在传统方法中,我们选择的模型和算法的过程就是优化置信范围的 过程,如果选择的模型比较合适现有的训练样本( 相当于h n 值适当) ,则可以 取得比较好的效果。譬如在神经网络中,需要根据问题和样本的具体情况来选择 不同的网络结构( 对应不同的v c 维) ,然后进行经验风险最小化。 根据( 3 6 ) 式的理论依据这节给出一个一般原则,即结构风险最小化原则 ( s t r u c t u r a l 砒s km i n i m i z a t i o n ) ,简称s r m 原则。用它来解决经验风险和置信 范围这两项最小化风险泛函问题。 首先把函数集s = f ( x ,w ) ) ,w q 分解为一个函数子集序列( 予集结构) 为: 墨cs 2c c 砖c ( 3 7 ) 其中函数子集序列满足以下性质: 1 每个函数集墨拥有一个有限的v c 维:并且 髓h 2 ( 3 8 ) 2 每个子集的函数对应的损失函数或者是有界的非负函数0 q ( z ,功b ,或者 对一定的参数对( p ,“) 满足如下关系: 雩型1(32-9)sup p 0 1 一sf l ,扇 i q ( z ,w ) d f ( z ) 4 为了选择合适的瓯作为学习函数,可以将式( 3 9 ) 右边划分为两个部分即左 边项为经验风险和右边项为置信范围。如果给定样本数目栉,那么,随着v c 维 数目h 的增加,经验风险逐渐变小,而簧信范围逐渐递增。如图3 - 2 所示,真实 1 7 成都理l :人学硕十学位论文 风险的界是经验风险和置信范围之和,随着结构元素序号的增加,经验风险将减 小,而置信范围将增加。最小的真实风险的上界是在结构的某个适当的元素上取 得的。综合考虑经验风险与置信区的变化,可以求得最小的风险边界,它所对应 的函数集的中间子集可以作为具有最佳泛化能力的函数集合。 3 3 支持向量机理论 3 3 1 支持向量机简介 图3 1 结构风险最小化原理图 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 统计学习理论中最年轻的部 分,是v a p n i k 等根据统计学习理论中的结构风险最小化原则提出的新的通用机器 学习技术。目
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 计量所考试题库及答案
- 2025年贵州省遵义市继续教育公需课考试题(含答案)
- 2025年新疆籽棉订购合作合同范本
- 2025年贵州大生态公需科目考试题目及答案
- 2025年广西壮族自治区公务员行测(A类)真题及答案
- 2025年镇江市中考英语试题卷(含答案及解析)
- 兽医考试病理学真题及答案
- 煤矿电气焊考试题及答案
- 安全员证考试试题及答案
- 软通硬件笔试题及答案
- DB32-T 5082-2025 建筑工程消防施工质量验收标准
- 老年人骨折病人的护理
- 六年级道德与法治上册《公民的基本权利和义务》
- 自留地永久性转让协议7篇
- 成都理工大学工程技术学院《工程地质B》2023-2024学年第二学期期末试卷
- 企业员工音乐培训计划
- 中学七年级综合实践课件
- 2025年沪教版六年级数学上册月考试卷含答案
- 《无人机飞行操控技术》项目2 多旋翼无人机飞行操控
- 食品食材配送项目投标书范本
- 第五讲铸牢中华民族共同体意识-2024年形势与政策
评论
0/150
提交评论