【毕业学位论文】(Word原稿)基于支持向量机的测井曲线预测储层参数方法-应用数学_第1页
【毕业学位论文】(Word原稿)基于支持向量机的测井曲线预测储层参数方法-应用数学_第2页
【毕业学位论文】(Word原稿)基于支持向量机的测井曲线预测储层参数方法-应用数学_第3页
【毕业学位论文】(Word原稿)基于支持向量机的测井曲线预测储层参数方法-应用数学_第4页
【毕业学位论文】(Word原稿)基于支持向量机的测井曲线预测储层参数方法-应用数学_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目:基于支持向量机的测井曲线预测储层参数方法 专 业: 应用数学 硕 士 生: 张彦周 (签名) 指导老师: 刘叶玲 (签名) 摘 要 支持向量机由于其诸多的优良特性 , 近年来引起了广泛的关注,已经成为一个十分活跃的研究领域。本文较全面地研究了支持向量机的理论及应用方法,讨论了支持向量机中高斯核函数参数的选择问题,首次将支持向量机用于测井参数属性估计储层 属性中。 本文中,首先对支持向量机的理论基础 统计学习理论作了一个概述,主要论述了学习过程的一致性,如何控制学习过程的推广能力等问题,其次,对简单的线性可分数据,详细介绍了线性支持向量机的工作原理,即寻找具有最大的分离超平面;核函数的实质是通过一非线性映射把原空间上非线性可分的数据映射到另一个特征空间上的线性可分数据,然后利用与线性支持向量机完全一样的方法,在该空间建立一个超平 面 ,使其在原空间对应着一个非线性超曲 面 ,通过引入一个核函数使所有的计算在原空间完成。同时针对本文主要讨论的回归问题给以详细地说明, 支持向量机的解最终归结为一个凸二次规划,有全局最优解。简单介绍了支持向量机较常用的训练算法 序贯最小优化算法,自己编程用 现了该算法 ,数值试验结果表明支持向量机具有较强的学习能力。另外本文具体讨论了支持向量机中高斯核函数中参数 对支持向量机学习预测性能的影响, 证明了 参数 趋于零和无穷大情况下支持向量机的性质, 指出高斯核函数具有描述样本相似程度这一性质,通过数值实验和理论分析给出了一种选择高斯 核函数的方法 拐点法。进一步指出样本数据标准化对学习预测的影响,给出了标准化后选择较优高斯核函数参数的一个大致范围。 最后根据石油地质勘探的实际问题,将支持向量机运用测井曲线预测储层参数 孔隙度、参透率,同时与反向传播神经网络函数逼近法预测进行比较,结果表明,该方法预测精度高,方法稳定有效。支持向量机较好的解决了小样本测井勘探的实际问题。 关 键 词: 支持向量机,回归估计,高斯核函数,测井曲线,储层参数 研究类型: 应用研究 资助项目:国家科技部项目( 04 : VM : ( ( a of is a in VM of at we VM in In we an is of to We is to We to a a In an in we a in We in at VM is a at it a We of in it by of VM We VM VM in We of In we a a , we s we of to of , to in We VM in P of P It is as an VM in a : 录 I 目 录 1 绪论 . 1 究的目的和意义 . 1 球物理勘探的应用研究历史及现状 . 1 计模式识别在地质勘探中的应用 . 1 线性智能技术在地质勘探中的应用 . 错误 !未定义书签。 于小样本的非线性智能技术在地质勘探中的应用 . 3 文研究内容和研究方法 . 4 2 统计学习理论 . 6 习问题的表示 . 6 于实例学习的一般模型 . 6 种主要的学习问题 . 7 验风险最小化归纳原理 . 8 计学习理论的核心内容 . 9 习过程的一致性 . 9 习过程收敛速度的界 . 12 制学习过程推广能力 . 14 3 支持向量机 . 17 持向量简介 . 17 最优分类面 . 17 义最优分类超平面 . 19 类支持向量机 . 20 维空间中的推广 . 20 函数 . 21 造支持向量机 . 22 归支持向量机 . 23 性支持向量回归机 . 24 线性支持向量回归机 . 26 4 支持向量机的训练算法与核函数参数的讨论 . 29 持向量机的训练算法 . 29 持向量机的预测能力研究 . 30 持向量机的内插性能研究 . 30 目 录 支持向量机的外推性能研究 . 33 持向量机的抗噪音性能研究 . 34 斯核函数参数选择讨论 . 36 斯核函数参数的优选: . 36 斯核函数参数 0& 情况下的支持向量机性质 . 43 5 用支持向量机预测储层参数 . 47 言 . 47 持向量机预测储层参数的一般方法 . 48 井属性的优选与标准化 . 50 用实例 . 52 测井曲线预测孔隙度 . 52 测井曲线预测渗透率 . 56 持向量机应用于预测储层参数应注意的问题 . 60 6 结论 . 62 论 . 62 望 . 62 致 谢 . 64 参考文献 . 65 附 录 . 69 1 绪论 1 1 绪论 究的目的和意义 本课题的主要目的是研究支持向量机预测储层岩性参数问题。储层岩性参数,如孔隙度、渗透率是石油地质和工程的两个重要的参数,储层岩石渗透率和孔隙度分布的不均匀性直接影响油气分布、运移和开采。在油气勘探中,储层岩性参数是地质工作者估计储层含油气含量、确定井位的主要根据。开采井位确定的好坏直接影响着油气的开采层本。因此,预测岩石渗透率和孔隙度的分布是储层描述的重 要内容 ,对油田勘探和开发具有重要的意义。 由于储层分布的多相性和非均匀性,因此无论是直接或间接的测量孔隙度和渗透率都是一个非常困难和代价昂贵的工作。孔隙度和渗透率与测井属性参数如声波时差、自然伽玛、岩石密度、电阻率、自然电位、中子密度等有关,但并非都存在着明确的一一对应关系,在估计孔隙度和渗透率的过程中,测井的数目往往是固定且有限的,因此,很难用精确的算法来描述。 统计学习理论 (称 12是一种处理小样本的统计理论,为研究有限样本情况下的统 计模式识别和更广泛的机器学习问题建立了一个较好的理论框架,同时发展了一种新的模式识别方法 支持向量机 (称 能较好地解决小样本学习问题。目前,统计学习理论与支持向量机已经成为国际上机器学习领域的研究热点。但支持向量机方法也存在一些问题,如对一般函数的 (称 定问题、训练算法的改进问题及核函数的选择及参数的确定问题,尚未有很好的确定办法。 本文主要是利用支持向量机方法,通过测井属性参数来预测储层参数 孔隙度和渗透率,同时本文还讨论支持向量机中核函数性质及参数选择问题。 球物理勘探的应用研究历史及现状 计模式识别在地质勘探中的应用 建立在概率论和数理统计理论基础上的统计模式识别技术是一种传统的模式识别方法,有较为完善的理论基础。但对于目前地质储层的精确描述、老油田的再开发,统计方法正遇到越来越大的挑战。许多地质工作者致力于这方面的研究,法国石油研究院等提出用典型相关分析预测储层参数。他们认为,在储层参数的预测中,有许多地震属性与某一储层参数相关,那么可用多种属性预测这一参数,然而 这些地震属性与该参数西安科技大学硕士学位论文 2 的相关性有大有小,有些作用重复,相互抵消,因此他们通过典型相关分析优选出一组地震属性或测井属性,用于预测该储层参数。 在传统方法中,判别分析和回归分析技术是一种常用的、受欢迎的方法 34,由于储层参数与测井曲线或地震数据之间关系是非线性的,没有明确的一一对应关系,而判别分析与线性回归分析是一种线性分析方法,虽然简单,但需要把非线性关系线性化,所以 00 人工智能系统的发展和计算应用的可能。几十年来,模式识别研究取得了大量的成果,应用研究到许多领域。 模式识别技术是分析地质、地球物理、地 震资料、遥感与测井资料的有力工具。在油气勘探中,人们根据测井数据、岩芯采样及地震数据分析地下结构、分类岩相、预测储层参数(如孔隙度、渗透率)和预测油气储存情况,实际上是模式识别的应用。 对于将模式识别应用于勘探来说,在 70 年代以前,虽然已有学者在统计和多变量分析方面做过一些分散的努力,但将经典的模式识别方法用于勘探问题并未被认真考虑过 8。近年来随着计算机技术和模式识别技术的发展,这方面的应用越来越多,已有许多地质学家、地球物理学家、石油工程师、应用数学和计算机专家致力于这方面的研究。 非线性智能反演技术 在地球物理领域的应用始于 20 世纪 80 年代中期。由于大部分地球物理问题属于多参数、多极值的非线性优化反演问题,各种线性反演技术遇到了难以逾越的障碍和困难,使得非线性智能反演技术的研究得到迅猛发展。 ,10最先提出用模拟退火方法,解决反演难度较大的自动剩余静校正问题, 人 11最先研究利用遗传算法进行地震波形的非线性多参数反演 传算法、模拟退火算法以及各种改进或变形方法在自动剩余静校正 12、 演 13、层状介质反演14、地震子波估计、地震波形参 数反演等 15方面得到了广泛应用,且取得了初步的研究成果。 20 世纪 80 年代末,人工神经网络技术在地球物理领域的应用也悄然兴起,主要研究在模式识别上的应用。最初主要用网络模型来识别 “亮点 ”,地震波同相轴的追踪、地震道的编辑和地震波初至拾取、地震波波形参数反演以及测井储层参数反演、测井解释和油气横向预测等。 在国内,地球物理界的许多学者也致力于这方面的研究,肖慈殉 16、杨斌 17等研究了人工神经网络测井自动解释方法,彭真明 18、尹成 19用改进遗传算法作剩余静校正量的计算。王向公 20神经网络在 地层对比中的应用,蔡煜东 21用人工神经网络建立油田采收率模型,魏永佩 22人工神经网络及其在油气勘探开发中的应用,曹思远 23研究了储层预测中神经网络的应用,杨建礼 24研究了如何应用人工神经网络进行油气预测,姬战怀25研究了用测井曲线预测储层参数 正则化神经网络方法。另外,地矿部物化探研究所杨文采 26,27、中国地质大学姚姚 28、成都理工学院王山四 122等专家学者为此作了大量有益的研究工作。 随着油气勘探开发的不断深入,勘探目标随着油气勘探开发的不断深入,逐渐变深1 绪论 3 变小和更加复杂 ,勘探领域已由原来的构造油气藏向隐蔽油气藏延伸。现有的地震采集、处理及储层预测技术的精度已不能满足日益复杂的勘探对象的要求。以生物工程为基础的遗传算法、以统计物理学为基础的模拟退火和以人工智能为基础的神经网络等非线性智能技术,虽然为储层预测带来了生机但在实际应用中还是遇到了难于克服的困难,如计算速度、算法的稳定性和收敛性、神经网络的推广预测能力、网络结构设计不灵活、权值获取规则单一、易陷入局部最优解、推广预测能力差等不足 30 神经网络的学习需要大量的学习样本,样本越多样本含有总体的变化规律的信息 越多,对储层的预测就更准确。然而在实际的地质资料解释中,可作为训练样本的取芯数据及测井数据是很少的,因此大多数情况下,用神经网络解释测井或地震数据是一种小样本的学习问题。这必然使神经网络方法预测性能降低 25,所以寻找在小样本下的预测方法是油气测井勘探的关键所在。 于小样本的非线性智能技术在地质勘探中的应用 基于数据的机器学习问题是现代智能技术中的重要方面。研究从观测数据出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测,包括模式识别、神经网络等在内,现有机器学习方法共同的重要理论 基础之一是统计学。传统统计学研究的是渐进理论,即当样本数目趋于无穷大时的极限性质,现有学习方法多是基于此假设。但在实际问题中,样本数往往是有限的,这时很多方法都难以取得理想的效果。 其同事早在二十世纪六十年代就开始研究有限样本情况下的机器学习问题,由于当时这些研究尚不十分完善,在解决模式识别、回归估计等问题中往往趋于保守且数学上比较艰涩,而 90 年代以前并没有提出能够将其理论用于实践的较好的方法,加之当时正处于其他学习方法飞速发展的时期,因此,这些研究一直没有得到充分 的重视。直到 90 年代中期,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了一个较完善的理论体系 统计学习理论。同时,神经网络等较新兴的机器学习方法的研究则遇到一些重要的困难,如:如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等等。在这种情况下,试图从更本质上研究机器学习的统计学习理论逐步得到重视。 19921995 年,在统计学习理论的基础上发展出了一种新的机器学习方法 支持向量机 35在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其 他机器学习问题中。 法的几个主要优点有: 目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值; 理论上说,得到的将是全局最优点,解决了在神经网络方法中无法避免的局部极值问题; 西安科技大学硕士学位论文 4 高维空间中构造线性逼近函数来实现原空间中的非线性逼近函数,特殊性质能保证学习机有较好的推广能力,同时,它巧妙地解决了维数问题,使其算法复杂度与维数无关。 近几年来该算法已经在模式识别领域得到 了广泛的应用 ,并且已经在文本分类、图像识别、手写字识别 63、蛋白质同源检测及基因表达 64等方面取得了巨大的成功,对于小样本的分类问题 , 有调节参数较少、运算速度快等优点。通过地震或测井等信息进行油气预测是一种典型的非线性分类器设计问题 ,它具有已知样本数较少、属性空间维数高、没有明确的对应关系模型等特点。目前国内有少量学者已开始致力于支持向量机预测含油气性这一领域的研究,其中最早的有:姚凯丰,李衍达 43, 一种基于 征选择的油气预测方法;乐友喜,袁全社 44, 支持向量机方法在储层预测 中的应用。其中这些预测所选择的核函数是多项式核,张彦周 45采用窗口核函数估计储层厚度。 本文在此基础上针对某工区特殊的地质分布,主要用于测井曲线预测储层数性曲线及孔隙度和渗透率,支持向量机中运用高斯核函数来预测,并研究如何选择支持向量机的参数,来实现最优的预测效果,同时将此预测方法与神经网络方法进行了比较。 文研究内容和研究方法 具体来说, 基于支持向量机的测井曲线预测储层参数方法 的研究内容和相应的方法包括在下述六章: 第一章:绪论。阐述支持向量机在测井属性参数预测地质属性数据中的应用研究课题提出的目的和意义,在综合查阅各类相关文献和分析专利检索及手工检索结果的基础上评述国内外研究概况和存在的问题,确定本文研究内容的意义和研究方法的可行性。 第二章:统计学习理论。主要介绍了统计学习理论的一些核心概念和重要定理,分析机器学习的表示问题的内涵,特别是了解小样本学习问题的理论基础。 第三章:支持向量机。主要介绍支持向量机原理方法,包括支持向量机简介;简要介绍支持向量机在分类及回归问题中的应用。 第四章:支持向量机的训练算法与核函数选择讨论。研究支持向量机的训练算法,核函数参数对支持向量机性能的影响, 谈论了支持向量机的预测能力,及对于给定的样本如何选择合适的核函数问题。 第五章:支持向量机预测储层参数。本章是研究的重点,主要是依据测井属性参数用支持向量机预测储层属性孔隙度,渗透率。其中包括测井属性的优选方法,怎样才能得到较好的预测结果,并将此结果与神经网络预测结果进行了比较。 第六章:结论。总结各章研究成果。 本课题的技术路线: 1 绪论 5 图 本课题采取的技术路线 收集资料研究支持向量机理论 收集地震勘探和测井资料、数据 训练 预测试验 论 文 研究 数选择问题 属性数据的处理优选、标准化 西安科技大学硕士学位论文 6 2 统计学习理论 在 20 世纪 60 年代前苏联学者 V. 人提出统计学习理论,该理论研究从给定数据集中估 计函数依赖关系的方法。这是一个非常普遍的问题,涵盖了统计学的若干重要论题,特别是判别分析、回归分析和密度估计问题。统计学习理论是支持向量机的基础,但是 90 年代以前并没有提出能够将其理论用于实践的较好的方法。加之当时正处于其他学习方法飞速发展的时期,因此,这些研究一直没有得到充分的重视。直到 90 年代中期,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了一个较完善的理论体系统计学习理论。在统计学习理论的基础上发展出了一种新的机器学习方法支持向量,在解决小样本、非线性及高维模式识别问题中表现出许多特有的 优势,并能够推广应用到函数拟合等其他机器学习问题中。为了对学习问题进一步的研究,我们有必要对统计学习理论及 理论进行探讨。下面主要参考文献 1对统计学习理论作一概述。 本章主要介绍了统计学习理论的一些核心概念和重要定理,共分为 2 节:第 1 节介绍了学习问题的一般表示方法;第 2 节统计学习理论的核心内容。 习问题的表示 于实例学习的一般模型 从样本中寻找依赖关系的模型,我们称为从实例学习的模型。模型包括三个组成部分(见图 (1)产生器 (G),产生随机向量 , n NR 是实数, n 是向量的维数,它是从某一确定但又未知的分布 (2)训练器 (S),对每个输入向量 x 返回一个输出值 y ,产生输出的依据是某一确定但又未知的条件分布函数 F x y 。 (3)学习机器 (它能够实现一定的函数 ,,其中 是参数集合,即它能对每个输入向量 x 产生一个输出值 y ,但是 y 不是唯一的,而是满足 ,y f x , 为指标集。 2 统计学习理论 7 图 基于实例学习的模型示意图 学习机器观测到 l 个点对(我们称为训练集) : 1 1 2 2, , , , , ,y x y x x (学习的问题就是从给定的函数集 ,中选择出能够最好地逼近系统反馈的函数。这种选择是基于训练集的,训练集由根据联合分布 ,F x y F x F x y 的随机独立抽取 出来的 l 个观测组成,即观测样本 ( 为此引入一个损失函数 ,L y f x 以度量在给定输入 x 下系统反馈 y 与学习机给出的反馈 ,y f x 间的差异,并对该损失函数求期望得到风险泛函: , , ,R L y f x d F x y (我们的目的是寻找 R 的最小值,仅有的条件是训练样本 (而联合概率分布 ,F x y 未知。 种主要的学习问题 基于经验数据最小化风险泛函的学习问题是非常一般的。特别是它包括 3 个基本统计学问题: ( 1) 模式识别: 令系统的反馈值 0,1y , ,为指示函数集(指示函数仅取 0、 1 两个值)。考虑损失函 数 0 , , 1 , ,y f xL y f x y f x (西安科技大学硕士学位论文 8 此时, (的泛函 R 实际上就是分类错误率,模式识别问题就是寻找一个函数使其极小化分类错误率。 ( 2)回归估计: 令训练器的输出 ,并令 ,为实数集合,取损失函数如下: 2, , ,L y f x y f x (回归估计就是寻找一个函数 0,f x y d F y x ,使其极小化泛函 ( 0,是所求的回归函数估计。 ( 3)密度估计: 在 给 定 独 立 同 分 布 数据12,lx x 况 下 , 从 密 度 函 数 集 合 ,中寻找某一函数 0,使得风险泛函 ( ,R L p x d F x (极小化,其中损失函数为 , l o g ,L p x p x。 通过上面的问题,我们得到了学习问题的一般表示:设定义在空间 Z 上的概率测度 习的目标就是在给定的函数集 ,上最小化风险泛函 ,R Q z d F z (其中 给定了一定独立同分布的样本: 12, , , lz z z(验风险最小化归纳原理 在未知分布 们最小化( 我们依靠建立在训练样本集 (的经验风险泛函 2 统计学习理论 9 11 ,le m p (来代替实际风险 R ,这一原则称作经验风险最小化归纳原则( 称 则)。实质上是用使经验风险 (小的函数 ,近使风险 (最小的函数 0,对于一个归纳原则,如果对于任何观测 数据,学习机器都依照这一原则来选择逼近,则我们说这一归纳原则定义了一个学习过程。在学习理论中 则起着决定性作用。其实, 则是非常一般性的,如回归估计问题中最小二乘法、概率密度估计中的最大似然法等都是 则的具体体现。 用 则代替期望风险最小化并没有经过充分的理论论证,只是直观上合理的想当然做法,但这种思想却在多年的机器学习方法研究中占据了主要地位。人们多年来将大部分注意力集中到如何更好地最小化经验风险上,而实际上 ,即使可以假定当 l 趋向于无穷大时 (趋近于 (,在很多问题中的样本数目也离无穷大相去甚远。那么在有限样本下 则得到的结果能使真实风险也较小吗? 计学习理论的核心内容 统计学习理论就是研究小样本统计估计和预测的理论 ,主要内容包括四个方面: (1) 基于 则的学习过程具有一致性 ; (2) 学习过程收敛速度的非渐进性理论 ,即学习过程收敛速度的问题 ; (3) 控制学习过程推广能力的理论 ,即研究如何控制学习过程的推广能力 ; (4) 构造学习算法理论 ,即研究如何构造能够控制推广能力的学习机器 ; 这一节我们简要介绍前三个方面的内容,第四个内容将在下一章详细说明。 习过程的一致性 设 ,是对给定的独立同分布观测12, , , lz z 最小化的函数。 定义 于函数集 ,,定义其子集如下: : , ,c Q z d F z c 西安科技大学硕士学位论文 10 如果对于函数集的任意非空子集 , 都有 ,i n f i n le m 成立,则我们说 则对函数集 ,和概率分布 下简称一致性。 定理 函数集 ,满足条件: ,A Q z d F z B A R B 即 那么, 则一致性的充分必要条件是: 0 , 0s u pl i m P R R E M (即是指经验风险 在函数集 ,上在 (义下一致收敛于实际风险 R 。 定义 示函数集合的熵 ) 设 ,是指示函数集,考虑样本12,lz z z,令 12, , , ,q Q z Q z ,我们用 1 , lN z z 表示 q 取不同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论