(应用数学专业论文)基于支持向量机的测井曲线预测储层参数方法.pdf_第1页
(应用数学专业论文)基于支持向量机的测井曲线预测储层参数方法.pdf_第2页
(应用数学专业论文)基于支持向量机的测井曲线预测储层参数方法.pdf_第3页
(应用数学专业论文)基于支持向量机的测井曲线预测储层参数方法.pdf_第4页
(应用数学专业论文)基于支持向量机的测井曲线预测储层参数方法.pdf_第5页
已阅读5页,还剩86页未读 继续免费阅读

(应用数学专业论文)基于支持向量机的测井曲线预测储层参数方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目: 专业: 硕士生: 指导老师: 基于支持向量机的测井曲线预测储层参数方法 应用数学 张彦周 ( 签名) 多鞋姐 刘叶玲( 签名) 釜l 里硷 摘要 支持向量机由于其诸多的优良特性,近年来引起了广泛的关注,已经成为一个十分 活跃的研究领域。本文较全面地研究了支持向量机的理论及应用方法,讨论了支持向量 机中高斯核函数参数的选择问题,首次将支持向量机用于测井参数属性估计储层属性 中。 本文中,首先对支持向量机的理论基础一统计学习理论作了一个概述,主要论述 了学习过程的一致性,如何控制学习过程的推广能力等问题,其次,对简单的线性可分 数据,详细介绍了线性支持向量机的工作原理,即寻找具有最大的分离超平面;核函数 的实质是通过一非线性映射把原空间上非线性可分的数据映射到另一个特征空间上的 线性可分数据,然后利用与线性支持向量机完全一样的方法,在该空间建立一个超平面, 使其在原空间对应着一个非线性超曲面,通过引入一个核函数使所有的计算在原空间完 成。同时针对本文主要讨论的回归问题给以详细地说明,支持向量机的解最终归结为一 个凸二次规划,有全局最优解。简单介绍了支持向量机较常用的训练算法序贯最小 优化算法,自己编程用m a t l a b 实现了该算法,数值试验结果表明支持向量机具有较强 的学习能力。另外本文具体讨论了支持向量机中高斯核函数中参数仃对支持向量机学习 预测性能的影响,证明了参数盯趋于零和无穷大情况下支持向量机的性质,指出高斯核 函数具有描述样本相似程度这一性质,通过数值实验和理论分析给出了一种选择高斯核 函数的方法拐点法。进一步指出样本数据标准化对学习预测的影响,给出了标准化 后选择较优高斯核函数参数的一个大致范围。 最后根据石油地质勘探的实际问题,将支持向量机运用铡井曲线预测储层参数 孔隙度、参透率,同时与反向传播神经网络函数逼近法预测进行比较,结果表明,该方 法预测精度高,方法稳定有效。支持向量机较好的解决了小样本测井勘探的实际问题。 关键词:支持向量机,回归估计,高斯核函数,测井曲线,储层参数 研究类型:应用研究 资助项目:国家科技部项目( 0 4 c 2 6 6 1 1 0 8 9 3 ) s u b j e c t :a p p l i c a t i o no fs v m i np r e d i c a t er e s e r v o i rp a r a m e t e rf o r m w e l l l o g s p e c i a l t y :m a t h e m a t i ca p p l i c a t i o n c a n d i d a t e :z h a n g y a n z h o u s u p e r v i s o r :l i uy e l i n g a b s t r a c t ( s i g n a t u r e ) ( s i g n a t u r e 也屿 r e c e n t l y ,s u p p o r tv e c t o rm a c h i n e s ( f o rs h o r ts v m ) a t t r a c tm a n yr e s e a r c h e r sa n db e c o m e av e r ya c t i v ef i e l db e c a u s eo fi t sm a n yg o o dp r o p e r t i e s s v mi san e wa n dp r o m i s i n g t e c h n i q u e f o rc l a s s i f i c a t i o na n dr e g r e s s i o na n dh a v es h o w ng r e a tp o t e n t i a li nn u m e r o u s m a c h i n el e a r n i n ga n dp a t t e mr e c o g n i t i o np r o b l e m s ,t h i sp a p e rd i s c u s s e st h et h e o r yo fs v m t h o r o u g h l y , e s p e c i a l l yh o wc h o o s et h ep a r a m e t e ro ft h eg a u s sk e r n e ls v m ,a tl a s tw e d i s c u s s e st h ea p p l i c a t i o no f s v mi np r e d i c t i n gr e s e r v o i rp a r a m e t e rf o r mw e l ll o g i nt h ep a p e r w es t a r tw i ma no v e r v i e wo fs t a t i s t i c a ll e a r n i n gt h e o r yw h i c hi st h e t h e o r e t i c a lf o u n d a t i o no fs v m ,i n c l u d i n gt h ec o n s i s t e n c yo ft h es t u d yp r o c e s s ,a n dh o wt o c o n t r o lg e n e r a l i z a t i o no fs v m w et h e nd e s c r i b el i n e a rs u p p o r tv e c t o rm a c h i n ef o rs e p a r a b l e d a t a , w h i c hi st oc o n s t r u c tt h em a x i m a lm a r g i ns e p a r a t i n gh y p e r p l a n e w ee x p l a i nh o wt o i n t r o d u c ean o i l l i n e a rm a pw h i c hm a p st h ei n p u tv e c t o r si n t oaf e a t u r es p a c e i nt h i ss p a c e c o n s t r u c ta no p t i m a ls e p a r a t i n gh y p e r p l a n eu s i n gt h es a m em e t h o d ,a n di nf a c tw eh a v e c o n s t r u c t e dan o n l i n e a rd e c i s i o nf u n c t i o ni nt h ei n p u ts p a c e w ed i s c u s st h er e g r e s s i o n p r o b l e mi nt a i la ts a n l et i m e t h es o l u t i o nt os v mi sac o n v e xq u a d r a t i cp r o g r a m m e sp r o b l e m a te n d , a n di th a sag l o b a lo p t i m i z a t i o ns o l u t i o n w ew i l lb r i e f l yr e v i e ws o m eo ft h em o s t c e m n l o na p p r o a c h e sb e f o r ed e s c r i b i n gi nd e t a i lo n ep a r t i c u l a ra l g o r i t h m , s e q u e n t i a lm i n i m a l o p t i m i s a t i o na n dt h e ni m p l e m e n t a t i o ni ti nm a t l a bb yo u r s e l v e s t h eg o o d 把s d t so fr m m y e x p e r i m e n t ss h o wt h a ts v mr e a l l yh a sg r e a tg e n e r a l i z a t i o na b i l i t y 。w et h e nf o c u so no a r s k e r n e ls v ma n dd i s c u s sh o wt h ep a r a m e t e r 叮i n f l u e n c e st h eq u a l i t yo fs v mi nt a i l w e a l s os h o wt h a tg a n s sk e m e lf u n c t i o nc a nd e s c r i b et h el i k e n e s sd e g r e eo ft h es a m p l e i n a d d i t i o n , w ep r o p o s ean e wa l g o r i t h mf o rf i n d i n gag o o dp a r a m e t e r f r ,w ee a u e di n f l e x i o n m e t h o d w h a t 。sm o r e ,w ep o i n to u tt h ei n f l u e n c eo fs t a n d a r d i z et op r e d i c t ,a n dt h e ng i v e m o s t l ys c o p eo f t h ee x c e l l e n tp a r a m e t e r o ,w h i c hi ng a u s sk e m e l f u n c t i o na f t e rs t a n d a r d i z e d f i n a l l ya c c o r d i n gt oa c t u a lp r o b l e mt h a ti np e t r o l e u me x p l o r a t i o na n dp r o d u c t i o nf i e l d w ea p p l ys v mi np r e d i c a t er e s e r v o i rp a r a m e t e r :p o r o s i t y ,p e r m e a b i l i t y ,f r o mw e l ll o g c o m p a r i n gt h i sm e t h o dw i t hb pn e t w o r ks h o w st h a tt h i sn e wm e t h o dc a l la v o i dt h ep r o b l e m o ft h el o c a lo p t i m a ls o l u t i o no fb pn e t w o r k ,a n da c h i e v e dt h ee f f e c t sw i t hh i g h e rp r e c i s i o n i t i sa sa ne x c i t i n gm e t h o dt h a tu s i n gs v m i np e t r o l e u me x p l o r a t i o nf r o maf e ww e l l s k e yw o r d s :s u p p o r tv e c t o rm a c h i n e s r e g r e s s i o n g a u s sk e r n e l t h e s i s w e l ll o gr e s e r v o i rp a r a m e t e r :a p p l i c a t i o nr e s e a r c h 论文题目: 专业: 硕士生: 指导老师: 基于支持向量机的测井曲线预测储层参数方法 应用数学 张彦周 ( 签名) 多鞋姐 刘叶玲( 签名) 釜l 里硷 摘要 支持向量机由于其诸多的优良特性,近年来引起了广泛的关注,已经成为一个十分 活跃的研究领域。本文较全面地研究了支持向量机的理论及应用方法,讨论了支持向量 机中高斯核函数参数的选择问题,首次将支持向量机用于测井参数属性估计储层属性 中。 本文中,首先对支持向量机的理论基础一统计学习理论作了一个概述,主要论述 了学习过程的一致性,如何控制学习过程的推广能力等问题,其次,对简单的线性可分 数据,详细介绍了线性支持向量机的工作原理,即寻找具有最大的分离超平面;核函数 的实质是通过一非线性映射把原空间上非线性可分的数据映射到另一个特征空间上的 线性可分数据,然后利用与线性支持向量机完全一样的方法,在该空间建立一个超平面, 使其在原空间对应着一个非线性超曲面,通过引入一个核函数使所有的计算在原空间完 成。同时针对本文主要讨论的回归问题给以详细地说明,支持向量机的解最终归结为一 个凸二次规划,有全局最优解。简单介绍了支持向量机较常用的训练算法序贯最小 优化算法,自己编程用m a t l a b 实现了该算法,数值试验结果表明支持向量机具有较强 的学习能力。另外本文具体讨论了支持向量机中高斯核函数中参数仃对支持向量机学习 预测性能的影响,证明了参数盯趋于零和无穷大情况下支持向量机的性质,指出高斯核 函数具有描述样本相似程度这一性质,通过数值实验和理论分析给出了一种选择高斯核 函数的方法拐点法。进一步指出样本数据标准化对学习预测的影响,给出了标准化 后选择较优高斯核函数参数的一个大致范围。 最后根据石油地质勘探的实际问题,将支持向量机运用铡井曲线预测储层参数 孔隙度、参透率,同时与反向传播神经网络函数逼近法预测进行比较,结果表明,该方 法预测精度高,方法稳定有效。支持向量机较好的解决了小样本测井勘探的实际问题。 关键词:支持向量机,回归估计,高斯核函数,测井曲线,储层参数 研究类型:应用研究 资助项目:国家科技部项目( 0 4 c 2 6 6 1 1 0 8 9 3 ) 西妥料技太学 学位论文独创性说明 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及 其取得研究成果。尽我所知,除了文中加以标注和致谢的地方外,论文中不包含 其他人或集体已经公开发表或撰写过的研究成果,也不包含为获得西安科技大学 或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中做了明确的说明并表示了谢意。 学位论文作者签名多长彦浩】日期:勐牛- 2 箩 学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间 论文工作的知识产权单位属于西安科技大学。学校有权保留并向国家有关部门或 机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存和汇编本学位论文。同时本人保证,毕业后结合学位论文研究课 题再撰写的文章一律注明作者单位为西安科技大学。 保密论文待解密后适用本声明。 学位论文作者签名:姑罔 指导教师签名:茹i q 十呛 2 f 年月才日 西安科技大学硕士擘住论文 _ _ _ _ ;i i ;i | _ _ _ i i ;j i i i i i i i i i i i ;i i i i i i j _ _ i i i i ;i i i i _ ;i l ( 2 ) 一( 5 ) 所对应的而称之为支持向量( s u p p o nv e c t o r , s v ) ,q 一啦称为支持值。由 式( 3 2 0 ) 知,非支持向量( q = o ,酊= o 所对应的葺) 对没有贡献,只有支持向量 对国有贡献,即对估计函数,( x ) 有贡献,支持向量由此得名,对应的学习方法称为支 持向量机。 在支持向量中,( 4 ) 和( 5 ) 对应的五称为边界支持向量( b o u n d a r y s u p p o r t v e c t o r , b s v ) ,是超出占管道之外的数据点,( 2 ) 和( 3 ) 对应的五称为标准支持向量( n o m a l s u p p o r tv e c t o r , n s v ) ,是落在占管道上的数据点。因此,占越大,支持向量数越少, 但函数估计精度越低。 对于标准支持向量,如果o q c “= o ) ,由( 3 2 8 ) 式知,轰= 0 ,则由( 3 2 6 ) 式可得到 ( 国五) + 6 + s 一乃= 0 ( 3 3 0 ) 这样可计算估计函数中的参数b 为 6 = 咒一( q 一吁) ( _ _ ) 一f :咒一主1 ( 吻一q 懈一) 一s 0 3 d = 咒一( 吻一q ) ( _ 一) 一s 同样,对于满足o 酊 0 为惩罚系数,c 越大表示对超出占管道数据点的惩罚越大。采用拉格朗日乘 子法求解这个具有线性不等式约束优化问题,为: 鬻雠弦舶一制计s i = 1 彳) + i = 1 一彳) ) 眦壹( q q ) :0 0 3 6 ) 0 岱s c o z c 其中q ,i 为拉格朗日乘子。有最优化理论知:q i = 0 ,o q s c o i s c 我们称非同时为零的q ,q 所对应的毛为支持向量( s u p p o r tv e c t o r ,简称s v ) ;其中 o q c , t r = 0 ;q = 0 ,0 0 ( 4 4 ) 以x ( 原空间样本点之间的距离) 为自变量,j ,( 相似度) 为函数值,针对不同的盯 值做出函数的图4 7 。 西安科技大学硕士学位论文 图4 7 不同的高斯核函数参数盯= p l 的曲线 从函数图形中我们可以看出,相似度是原始空间相应点与点之间距离的单调递减函 数。参数盯的取值对原始空间和特征空的相似度的相互关系有很大的影响。对于任意两 个特征空间的点,它们之间的距离均小于l ( 性质5 ) 随着参数盯的减小,在某个距 离区间,特征空间两点间的距离急剧减小,此即高斯函数在一定区间的距离突变性。 我们可以想象如果数据分布比较密集( 比如数据间最大距离小于1 ,即z 茎1 ) ,如 果我们取高斯核函数参数盯较大( 如果取口= 5 ) ,如图4 7 所示,这些数据都集中于最 左边,即y 0 9 ,即这些数据的相似程度几乎一样,那么高斯核函数就没有起到很好的 分类作用,这样支持向量机的学习预测性能也必然很坏。相比之下,如果取高斯核函数 参数盯小一些盯= 0 5 ,这样分类效果要较好一些( 如图4 7 ) 。对数据稀疏的情况,道 理是类似的。 通过选取适当的参数值来控制距离突变的区间,从而可以根据数据的疏密程度来确 定参数盯,于是得出以下结论: 当数据比较密集时,即原空间点距x 较小时,盯应该较小; 当数据比较稀疏时,即原空间点距x 较大时,盯应该较大; 从图中我们还可以看出,高斯函数能将一些距离在类中心很远的点拉到类中心附 4 支持向量机的训练算法与核函数参数的讨论 近,所以对点集中存在的噪声点( 严格的来说是离群点) 有较强的抑制作用,即有较强 的抗噪声能力。 。 上面的结论虽然给出了依据样本疏密程度来选择高斯核函数支持向量机中参数o r 的原则,对实际有一定的指导意义,但是价值是有限的;其原因是数据比较密集或稀疏 是一个相对的概念,所以我们的结论只是一个定性的结果。那么怎样才能依据给定的样 本给出一个定量的结果那? 下面的问题是对给定的数据, “,m ) ,i = 1 ,2 , 对于高斯核函数,怎样才能找到适合的或最优的参数o r 。 一亡, 对于高斯核函数j ,= e 2 ,x 0 我们可以找到此函数的拐点,并且必在突变区间内部: 立:一三。 d xo r 2 盟:x 2 _ o r 2e d x 2 o r 4 令窘= 。j 孚e = 。 所以2 一o r 2 = 0 ,由因为工 o 盯 o ,所以= 盯 对于给定的样本,样本点之间的距离均值i 也就固定,样本之间的距离必然在均值 i 左右,若令= 盯= i ,即盯= 孑,这时高斯核函数便较大限度的分开训练数据。我们 称这种通过拐点来寻找较优高斯核函数支持向量机参数的方法为拐点法。图4 8 给出了 高斯函数曲线与拐点试意图。 西安科技大学硕士学住论文 图4 8 高斯核函数曲线与拐点( 盯= p ,f = 1 ,3 ,5 ,7 ) 首先需要注意的是孤立点对均值有较大的影响,要先剔除孤立点,如图4 9 。 用此方法求出的参数应该是最优值附近的参数,但是这个方法存在的问题是对于大 样本问题,原始空间样本之间的距离均值i 的求解将是一个不小的工作量。 敲惦啬集时i 霄弧立 图4 9 据分布情况 为了解决样本的分布所造成的参数选择困难的问题,我们可以考虑将样本标准化的 办法,通过上面的分析和图4 7 。它可以减少数据间疏密分布因素对我们选择参数造成 4 支持向量机的训练算法与核函数参数的讨论 的影响。 每种测井曲线采用不同的单位,数据的量纲和量级都不同,因此当这些数据作为样 本的分量直接输入后,对支持向量机的学习训练的影响程度是不同的。例如,支持向量 机可能突出量级特别大的数据指标的作用,而甚至排斥某些数量及较小的数据指标的作 用。为了均衡不同测井取向对数据的影响,通常在数据进行学习训练前需对每种数据分 别标准化。 设一分类问题有h 个待分类样本,有i n 个特性指标,则数据矩阵如下: x : x 。1 2 x 2 2 x j 2 规定x j o ,由不同的标准化方法有 ( 4 5 ) 若采用【o ,l 】均值标准化,则样本会分布于【o ,1 】,则样本间的最大值为o 删l ; 图4 1 0 给出了在此情况下的不同高斯核函数参数的曲线图。 若采用卜1 ,1 】标准差规格化,则样本会分布于【- l ,1 】,则样本问的最大值为 0 - o ,v i = l ,n ,且令同一类样本所对应尼的相同,分别记为反,尼且设个 样本点中每类个数分别为+ ,即n = j + - 我们须设法证明所设屈的满足k k t 条件,又满足k k t 条件的是唯一的,则 口= 屈 0 即为所求的解。 我们首先将所设的属带入k k t 条件的等式约束中,求出厦,应,然后判断它们是 否满足剩下的不等式约束,若满足,则屈即为所求解。 卫 属乃= 0 等+ 厦= - 应 ( 4 1 2 ) 层 咒( 国7 妒( 而) + 6 ) - q - - o j 乃( 7 p ( 而) + 6 ) = l 等国7 妒( ) + b :咒 4 1 3 ) 等兰属z _ j ( 而,_ ) + 6 :只 又因有口j 0 时( 4 1 1 ) 式成立,将其带入上式有届乃+ 6 = m a p p + b ,= 1 ( 4 1 4 ) 尻+ 6 = 一1 。 由( 4 1 2 ) 式( 4 1 4 ) 式可得 厦= 育2 n 肛可2 n + ,6 - 学 觋设厦= 育2 n 肛等,6 - 学,= 姜删( t ) 下证我们所设的屈 o ,v i = 1 ,n 该问题的满足k k t 条件 奄酚t - n + 卧邺一= n 。2 n 亍一n 2 n n + = o 4 支持向量机的训练算法与核函数参数的讨论 屈 咒( 国7 妒( 工) + 6 ) 一- = 屈 咒( 粪屈只七( ,_ ) + 6 一t 邑 咒( 屈m + 6 ) 一1 = 属【y y , 一1 】= 属x 0 = o ,i = 1 , - - - n 所以所设屈满足k k t 条件中的等式约束( 4 9 ) 式 乃( r 妒( x ) + 6 ) 一1 :乃f 兰届咒膏( 薯,_ ) + 6 1 一l = y l l p l y l + b ) - i = 弗一1 = 0 ,i = l , 所以所设屈满足k k t 条件中的不等式约束( 4 1 0 ) 式 因此我们所设的层都满足k k t 条件,并且对应的点就是支持向量,由于k k t 条件 的充分必要性,解的唯一性可知q = 属 0 ,从而所有的样本都是支持向量。 类似的,我们可以将此定理推广到软间隔分类超平面上即非线性可分情况下,定理 结论也是成立的。 定理4 3 2 当盯- - 0 时,高斯核函数的支持向量机可以把任意的训练样本正确分类, 同样在回归问题中它可以以任意的精度逼近训练样本, 证明:从4 3 1 定理的证明中可知, 咒( r 矿( 一) + 6 ) 一1 = o ,v f = l ,n 或国7 妒( 薯) + 6 = m ,v i = l ,n 即所有的样本均被正确分类。 定理4 3 3 当盯一佃时,高斯核函数的支持向量机推广能力或对新样本的正确判 断能力为零。 证明:由于l i m 唯= l i 。- | 卜吖么2 - l v 因此对回归问题判别函数为,( x ) = 乃q k “,x ) + 6 = q + 6 同时有条件乃q = o 所以( z ) = 6 判别函数为一超平面( 二维空间为一直线) ,对分类问题它把所有检验样本点看作 西安科技大学硕士学位论文 一类,即推广能力为零。 综上所述,盯_ 0 与盯- - - i , 佃,高斯核函数的支持向量机性质及预测性能时有很大 变化的,当盯j0 时,无论训练样本个数多少,支持向量机均能将他们正确分开,但由 v c 维的定义可知,此时高斯支持向量机的v c 维为无穷大。由第一章可知,它对新样 本的分类预测能力并不好,即推广能力并不是很好。当仃寸+ m 时,支持向量机的推广 能力为零。两种情况下,支持向量机的性能都不好。 大量的数值试验表明,对给定的数据样本,仃从小到大的过程中,支持向量机对新 样本的正确分类率从小变大又变小的过程,我们的目的是对给定的数据找到合适的方 法,对给定的预测样本分类错误率最小,如果对于固定的预测样本这并不是很困难。 方法一:我们可以每次t l :a 变化,如给定初始值c r o ,变化规律吒= 吒一。+ 1 l ,使其 在测试集中的推广误差西,d r ( 吒) = 圭k 一,( _ ) j 最小,其中,( x ) 为我们的判别函 j 。i 数,如第二章所示。 方法二:更为简单的方法是,我们用交叉检验,来判断最优的盯,基本思想是将训 练样本分为多组( 如k 组) ,取出其中的一组用来检验,其余的训练,求出一个最优的 盯,再从未取的组中取出一组用来检验,其余全部用来训练( 包括第一次取的) ,这样 得到k 个最优的仃,取其均值。 方法三,利用本文在上一节提出的方法,求高斯核函数的拐点,仃参数取样本点之 间的距离的均值z 。 但是对预测集是不确定的或是在线变化的,因为不同的预测集它们的最优盯是不同 的, 这一问题的研究一直以来是支持向量机领域研究的热点。 最后需要指出,本节讨论的盯斗0 与盯_ + m 并不是绝对意义上的。实际上,由上 一节讨论的高斯核函数的性质知,当盯 i i x , 一x ,0 时,即盯比样本之间的距离小得多时, 就达到了叮寸。的效果;类似情况,当盯忙一0 时,即盯比样本之间的距离大得多 时,就达到了盯_ 。的效果。这也验证了我们上一节得出的结论; ( 1 ) 当数据比较密集时,即原空间点距x 较小时,o r 应较大; ( 2 ) 当数据t t 较稀疏时,即原空间点距x 较大时,盯应较小 5 用支持向量机预测储层参数 5 1 引言 5 用支持向量机预测储层参数 地球物理探测的目的是利用获取的各种物理信息对地质体进行定性和定量评价。前 者是根据采集的地球物理信息寻找有利油气藏存在的地带和层位,后者是根据测量的各 种地球物理资料估算出地层的几个定量参数,如孔隙度,饱和度渗透率等,储层参数是 含油气性的一个重要标志,储层岩石渗透率和孔隙度分布的不均匀性直接影响油气分 布、运移和开采。对于勘探区块,可以提高钻井成功率,减少勘探成本:对于开发区块, 则为优化钻采方案提供了必要条件。因此许多地质工作者致力于储层参数的研究和预 测。 由于储层分布的多相性和非均匀性,因此无论是直接或间接的钡l l 量孔隙度和渗透率 都是一个非常困难和代价昂贵的工作。在传统方法中,判别分析和回归分析技术是一种 常用的、受欢迎的方法【3 】【4 】,由于储层参数与测井曲线或地震数据之间关系是非线性的, 没有明确的一一对应关系,而判别分析与回归分析是一种线性分析方法,虽然简单,但 需要把非线性关系线性化,所以误差较大很难取得令人满意的效果( 5 1 1 6 1 1 7 1 。 目前在勘探初期,预测渗透率一般采用经验法和地质统计法【5 ”。经验法的基本思路 是:根据大量统计数据可知,渗透率与孔隙度是相关联的。孔隙度越大的地层,渗透率也相 应较高,渗透率常常随着孔隙度的增大而增大。在实际应用中,一般是根据井中实测的孔 隙度与渗透率数据画出散点图,再根据散点图选择数学模型进行拟合,拟合误差最小的数 学模型即为建立孔隙度和渗透率函数关系的最佳数学模型。该方法预测渗透率要求的井 资料多,预测结果的误差较大【5 2 1 。地质统计法是利用大量的井点渗透率数据,将井点渗透 率与地震属性结合起来,建立渗透率与地震属性关系的最佳数学模型预测未知处的渗透 率。该方法不仅要求井资料多,而且要求井在平面上分布较均匀。通常,地震属性或测井 数据与渗透率间难以用具体数学式子表示。 人工神经网络在模式识别方面有较强的非线性映射能力和容错性能,故而能用神经 网络技术建立储层参数于测井数据或地震数据之间的联系。p m w o n g 掣5 3 】对神经网络 和判别分析作了比较认为,神经网络在渗透率与孔隙度预测中比判别分析有更好的准确 率。s j r o g e r s 等【卅比较了神经网络和回归分析在用孔隙度预测渗透率的表现,在采用 回归分析时,需假设渗透率和孔隙度之间的关系是己知的,实际上这个函数关系是未知 的,相反采用神经网络方法( bp 算法) 不需要假设这种函数关系,将神经网络理论应 用于测井岩性解释、井中油气预测、油气横向预测、地震数据分析中,大大提高了油气 预测水平5 5 1 1 5 6 1 5 1 钏,推动了油气勘探技术的蓬勃发展。 西安科技大学硕士学位论文 但同时注意到,bp 算法也存在着一些难以克服的缺点:在数据学习的过程中易陷 入局部最小点,影响全局优化;易发生过拟合,有时严重影响学习后该网络的泛化( 预 测) 能力口2 1 1 3 3 1 1 3 4 1 1 6 0 1 。 统计是我们面对数据但又缺乏理论模型时最重要的( 也是唯一的) 分析手段。传统 统计学所研究的是渐进理论,即当样本数目趋向无穷大时的极限特性,如:统计学中的 关于估计的一致性、无偏性和估计方差的界等都属于这种渐进特性。然而实际应用中, 这种前提条件却往往得不到满足,当问题处于高维空间时尤其如此,这实际是包括模式 识别、回归估计和神经网络等在内的机器学习理论和方法中的一个根本问题1 6 2 】。 自从1 9 9 5 年v a p n i k 及其合作者提出支持向量机 6 1 0 】的思想以来,该算法已经在 模式识别领域得到了广泛的应用,并且已经在文本分类、图像识别、手写字识别【6 3 】、蛋 白质同源检测及基因表达晔】等方面取得了巨大的成功,对于小样本的分类问题,sv m 具有调节参数较少,运算速度快等优点。通过地震或测井等信息进行油气预测是一种典型 的非线性分类器设计问题,它具有己知样本数较少等特点。目前国内有少量学者已开始致 力于支持向量机预测含油气性这一领域的研究,其中最早的有:姚凯丰,李衍达 4 3 1 ;乐 友喜,袁全社,其中这些预测所选择的核函数是多项式核。本文在此基础上针对某工 区特殊的地质分布,主要运用高斯核函数来预测,并研究如何选择支持向量机的参数, 已实现最优的预测效果,同时将此预测方法与神经网络方法进行比较。 5 2 支持向量机预测储层参数的一般方法 由第二章我们知,支持向量机的学习模型是一种监督学习过程,由测井数据预测储 层参数最常用的过程包括: 沿测井资料的目的层计算出反映其特性的若干测井属性( 振幅,频率、相位等) ; 通过该层的井中测试储层参数结果( 孔隙度、渗透率) 建立井中测井属性与井中 测试结果的关系; 利用这一关系推断出未知井所有井中储层参数的结果。 我们首先获取学习样本的信息,对于由测井属性预测孔隙度和渗透率的问题,对得 到的测井数据,首先选择一口或多口井,依据深度开一窗口,在此窗口内每个一定的深 度有一组测井属性数据,我们以此点深度和测井数据组成训练样本g x , ,以此点对应的 孔隙度或渗透率为y j ,如果以多口井为训练样本我们在训练样本点置加上此井的水平坐 标。 支持向量机通过对训练样本的学习获得一定的预测能力,训练后将预测的测井属性 数据作为输入、输出结果便是这一深度孔隙度或渗透率。支持向量机处理流程如图5 1 5 用支持向量机预测储层参数 图5 1 支持向量机预测流程 k a l k o m e y 在文献 6 1 】提出了一个假相关概率模型,所谓假相关是指在已知样本处两 种实际上并没有联系的属性之间的绝对相关值很大,通过从理论上对出现假相关的因素 进行分析,得出结论:测井( 地震) 属性与储层参数之间出现假相关的概率随着用于学 习的样本数目( 既有地震属性或测井属性,又有储层参数的控制点数) 的减少而增大;随 着参与预测的地震属性或测井属性数目的增加而增大,且地震属性之间并不完全相互独 立时( 实际情况基本如此) ,概率更大;随着学习样本处地震属性与储层参数之间的绝对 相关值的减小而增大。如果我们的随机抽样满足自由度为栉一2 的学生t 一分布,则用单 一测井( 地震) 属性进行预测时出现假相关的概率为 匕硼m m 吣等 叫, 其中,行是用于学习的样本点数;r 是学习样本处测并( 地震) 属性与储层参数之 间的绝对相关值。 西安科技大学硕士学位论文 当用k 个相互独立的测井( 地震) 属性进行预测时,出现假相关的概率为 k 1 一( 1 一p ,。) = p ,。( 1 一只。) ( 5 2 ) ,1 从上式可见,参与预测的地震属性数目从k 一1 个增加到k 个时的惩罚函数为 p ,。( 1 一p ,。) ( 5 3 ) 根据上述公式,我们可以定量计算出表征选择一个与储层参数并不相关的地震属性 作储层预测时风险大小的参数。 在实际工作中,井位数目是客观存在的,我们无法改变;但在选用测井( 地震) 属 性参数方面,则有必要作一些细致的分析工作,对测井( 地震) 属性参数进行优选,选 取与储层物性相关性较大的参数,尽量减少测井属性参数,以减少伪相关性。笔者认为, 要对储层进行精细描述,必须认真做好以下几点: ( 1 ) 对层位作精细解释。针对不同的地质任务,解释人员在层位追踪方面可能会有不 同的考虑,因此他们提供的解释方案可能不满足测井( 地震) 属性提取的要求。原则上 讲,解释的层位最好不要串相位;否则,尽管对时窗内的统计信息尚可容忍( 开设的时窗 必须大于所串的相位) ,但对沿层提取的信息将可能产生一些假象甚至误导。 ( 2 ) 对提取的测井( 地震) 属性进行筛选。剔除没有明显特征变化的属性,同时也要 考虑这些信息是否真正与所要研究的目标具有内在联系。此外,为了提高可信度,必须 对测井( 地震) 属性进行相关分析,将相关值较大的地震属性进行合并,以保证用于预 测的地震属性具有相对独立性。它会影响预测算法的稳定性。 ( 3 ) 了解工区范围内是否具有明显的相变特征,若有,则应考虑分块预测。 5 3 测井属性的优选与标准化 通过前面的分析可知,要提高预测的准确率,减少伪相关性,必须对测井( 地震) 属性进行优选。 同时由于并非所有测井( 地震) 属性都对特定的储层目标具有敏感性,所以也应该 进行测井( 地震) 属性的优选工作【6 5 1 。以往在做这项工作时,通常是选取一些曲线形态 起伏较大的属性。实际上,这样做并不总是有效,因为不同的属性代表不同的含义,而 这些含义可能与需要进行判别的目标是有区别的,因此可能导致误选。比如,在对井区 的资料进行油气分布预测时发现,对某些属性而言,在不同油气井之间的差异要大于某 些油气井与于井之间的差异,若将这些属性用于油气判别,其结果自然是不会太理想的 常用的优选方法有: ( 1 ) 基于相关的属性归类 首先对提取的所有地震属性进行互相关分析,将互相关值较大的属性进行合并,合 5 用支持向量机预测储层参数 并方法可以采用综合参数法。这样得到了一些反映这些( 彼此相关的) 属性共同特征的参 数,这些参数两两之间近似于相互独立,保证了模式算法的稳定性。 ( 2 ) 基于样本的属性优选 根据已知储层信息进行不同类别的学习样本粗选,并统计分析选取样本处各类属性 的均值和方差。显然,“均值”代表了某信息的集中位置,而“方差”则表示其离散程度。 如果某些属性在不同类别的样本上的均值差异较大并且对同类样本的方差较小,就说明 这些属性对不同类别的学习样本在一维线性空间可区分,也必然在支持向量机的超平面 上更可分,因而它就成为首选的属性参数,即是减小了式( 5 3 ) 中的k 。 ( 3 ) 基于统计的典型样本优选 在一般情况下,所选取样本的典型性是不够的,往往还会导致判别结果过于乐观。 通过最大方差变化率的分析,可以找出不够典型的样本。具体做法是对逐次去除某个样 本前后的方差的变化率进行统计分析,如果某个样本对大部分属性参数都引起了较大的 方差变化率,那么该样本一定是个“捣乱样本”,应该将其剔除。 在样本基本典型化以后,再采用非线性模式识别方法进行储层预测。这一步虽然减 少了用于学习的样本数胛,但由于提高了测井( 地震) 属性与储层参数的相关性,相当 于增大了式( 5 1 ) 中的r ,而r 比疗对假相关概率的影响还要大【6 1 】,所以从总体上还是减 小了出现假相关的概率。但如果样本太少时,由于其方差变化率不具备统计性,这一步 骤也就没有意义了。 每种测井曲线采用不同的单位,数据的量纲和量级都不同,因此当这些数据作为样 本的分量直接输入后,对支持向量机的学习训练的影响程度是不同的。例如,支持向量 机可能突出量级特别大的数据指标的作用,而甚至排斥某些数量及较小的数据指标的作 用。为了均衡不同测井取向对数据的影响,通常在数据进行学习训练前需对每种数据分 别标准化。 设一分类问题有, 个待分类样本,有m 个特性指标,则数据矩阵如下: 肖= x 1 1x j 2 z j 。 z 2 ix 笠x :。 x mx :2 x 肼 并规定x j o ,我们用极差规格化 x q = q 。q - x 。i 0 | 心。i 。- x 。j 。l 其中z 一= ,z 一,矗 ,z 。= 矗,z ,岛 。 西安科技大学硕士学住论文 对于标准化后的数据,当作为几种不同的测井属性参数用于学习和预测样本时,它 们可能与预测参数的密切程度不同,因此可根据他们与所要预测参数的关系,对他们分 别加权。但这种加权是人为的影响,对将来的预测结果有一定的经验因素。 由第四章的分析可知,标准化后数据分布于o ,1 1 ,对于支持向量机的核函数参数的 选择,我们给出了核函数参数的取值范围,即0 3 盯s l 。 5 4 应用实例 测井是一门边沿学科,它是将电磁学、声学、核物理学、热学、光学、力学等学科 的基本理论和测量方法,用于油气井和其它矿井中,依靠获取的大量信息进行资源评价。 在石油地质中,通常根据不同的测井曲线划分沉积相,预测储层孔隙度、渗透率、预测 岩性、评估储层油气含量等。根据测井理论及其方法,与孔隙度相关的测井方法有声波 测井、中子密度测井和岩石密度测井。与渗透性有关的测井有自然伽玛测井、电阻率测 井和自然电位测井。渗透率和孔隙度有较大的相关性,一般来说,孔隙度大渗透率相对 较大【4 3 1 。 我们的实际数据是国内某油田五口井,如表5 1 表5 1 测井表 每个深度点有测井数据,其中测井有深度、声波时差、自然电位、自然伽玛、补偿 中子、岩石密度、电阻率等1 1 种属性。孔隙度和渗透率是断断续续岩芯实测值。 我们的实验分为两类,即预测孔隙度和渗透率。 5 4 1 用测井曲线预测孔隙度 首先,依据根据测井理论及典型相关性分析优选出与孔隙度相关的6 种属性,分别 为深度、声波时差、自然伽玛、岩石密度、电阻率、补偿中子。然后将其分别标准化, 我们尝试利用单一的测井作为训练样本,但预测效果不是很好。由第四章我们得出的结 论,在f o ,1 1 标准化的情况下,高斯核函数参数的取值范围为o 3 盯l 。通过拐点法与 5 用支持向量机预测储层参数 交叉试验,我们得出支持向量的参数在盯= o 5 ,c = 跳w = 0 6 时效果较好。同时我们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论