



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于统计学习理论的钻具失效研究毕雪亮 王长江 闫 铁(大庆石油学院 黑龙江 大庆 163318)摘要:研究了统计学习理论和支持向量机技术,建立了基于统计学习理论的钻具失效学习模型,通过对小样本数据的学习进行优化,分析钻具失效问题。在此基础上,应用该模型对现场钻井数据进行了模拟预测实验,获得了和实际情况相一致的预测结果。研究统计学习理论及模型在石油钻井工程中的应用具有广阔的前景。关键词:钻具失效;统计学习理论;SVM;最优分类面;核函数 统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架;其核心思想就是机器学习要与有限的训练样本相适应,既有严格的理论基础,又能较好地解决小样本、非线性、高维数和局部极小点等实际问题,它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网络结构选择问题、局部极小点问题等);同时,在这一理论基础上发展了新的学习方法,如支持向量机(Support Vector Machine,简称SVM),将有力地推动机器学习理论和技术的发展1。统计学习理论成为九十年代末发展最快的研究方向之一,是一个十分值得大力研究的领域。有关钻具失效方面已有的研究主要集中在三个方面:一类是力学分析法,研究钻具的变形和进行应力分析,主要以A. Lubinski的微分方程法2和白家祉教授的纵横弯曲法3 等为代表,这些研究方法理论体系完善,但与钻具在井下的实际破坏情况有一定的差别;另一类是实验研究,则是指钻柱动力响应的实验,通过室内试验研究钻柱的变形及破坏规律4,一般是在一定的程度上模拟实际的受力状态,实验条件及受力状态与实际情况有一定差别;还有一类是根据钻井现场使用情况对钻具失效进行判断,比较直接,但主要是依据现场经验,在系统性和全面性方面有待改进,影响了其使用效率。运用统计学习理论研究钻具失效,从对国内外研究看,这方面的研究较少,很有必要进一步研究5,6。1 统计学习理论1.1 基本思想统计学习理论的基本思想就是通过让机器对大量信息的认知,进行内部学习、分析归类、记忆存储和随时更新等处理过程,达到做出预期输出的目的(基本结构框图见图1)。 统计数据D训练器S学习器Lx输出y预测输出 图1 统计学习理论基本结构框图1.2 核心内容统计学习理论是研究小样本统计估计和预测的理论,主要内容包括四个方面7:(1)经验风险最小化准则下统计学习一致性的条件;(2)在这些条件下关于统计学习方法推广性的界的结论;(3)在这些界的基础上建立的小样本归纳推理准则;(4)实现新的准则的实际算法。1.3 函数间隔 在特征空间中,样例对应于超平面的函数间隔定义为: (1)如果意味着被正确分类。超平面对应于训练集S的函数间隔分布就是训练集S中样例的间隔分布。有时所谓间隔分布的最小值指超平面对应于训练集S的函数间隔。图2显示了二维空间中两个点对应于超平面的几何间隔。当权重向量是单位向量时,这个几何间隔就等价于函数间隔。图2 两个点的几何间隔2 支持向量机 支持向量机是基于统计学习理论的学习方法,它通过构造最优超平面,使得对未知样本的分类误差最小。根据结构风险最小化原则,SVM通过最优超平面的构造,在固定学习机经验风险的条件下最小化VC置信度。对于两类线性可分情形,可直接构造最优超平面,使得样本集中的所有向量满足:(1)能被某一超平面正确划分;(2)距该超平面最近的异类向量与超平面之间距离最大,即分类间隔(margin)最大,则该超平面为最优超平面。其中(1)是保证经验风险最小;(2)是使VC置信度最小,从而使期望风险最小。距离超平面最近的向量称为支持向量。一组支持向量可以唯一确定一个超平面。2.1 最优超平面线性可分情况下的最优超平面,也称最优分类面,基本思想可用图3的二维情况加以说明。所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大。实点为支持向量最优超平面间隔图3 最优超平面2.2 SVM分类算法 设有个样本及其所属类别:超平面方程,能将两类样本正确区分,并使分类间隔最大的优化问题表示如下:在式 (2)的约束下求 (3)的最小值。通过非线性变换后的寻优目标函数为: (4)而相应的分类函数式为: (5)2.3 核函数核函数在支持向量机中起了重要作用,它将高维特征空间中的非线性运算转换为原输入空间的核函数计算,避免了“维数灾难”和确定非线性函数的形式和参数等复杂问题。不过核函数的选择却并不是容易的一件事,根据Mercer定律,核函数是满足Mercer条件的任意对称函数。常用的核函数有线性核函数、多项式核函数、径向基核函数和Sigmoid核函数四种7。3 基于SVM方法的钻具失效学习模型3.1 数据的预处理石油钻井中钻具失效的影响因素复杂,不同影响因素的影响程度不一样,这种错综复杂的关系后面可能隐藏着对我们钻井工程非常有利的规律,支持向量机方法对这类问题有一定的针对性,为挖掘这种规律提供了可能。具体钻井过程中,影响钻具失效的因素有:地层岩石的可钻性、井底温度、机械钻速、钻压、井斜角、探伤周期、腐蚀因素(存放过程中、井中流体)、钻具质量、倒换钻柱、有无“三器”(扶正器、稳定器、减震器)。通过对现场数据的调研,可获得30组现场钻井资料,包括13口失效井和11口正常井,见表1。 数据预处理原则为:机械钻速为发生钻具失效时的值(失效井)、该井最小值(无失效井);钻压栏里为依次为发生钻具失效时的数值(失效井)、该井最大值(无失效井);井斜角为该井最大值;腐蚀因素按照腐蚀的严重程度从严重到不严重取为1、2、3、4、5级,然后在这30组数据中取均值,级值低于均值的记为+1有腐蚀,级值高于均值的记为-1无腐蚀;钻具质量从理论不合格到理论合格依次取为1、2、3、4、5级,处理方法同腐蚀因素,最后不合格记为+1,合格记为-1;钻柱倒换无倒换记为+1,有倒换记为-1;有无“三器”分别记为+1和-1;失效井记为+1,正常井记为-1。 表1 钻井数据(注:带*为预测数据)序号可钻级值温梯(/m)机械钻速(m/h)钻压(KN)井斜角()探 伤周期(h)腐蚀因素钻具质量倒换钻柱有无三器有无失效15.00.02782.61704.80400+1+1-1+1+127.00.03121.942203.85350+1+1-1+1+136.00.02846.32604.36400-1+1-1+1+147.00.02510.452203.42350+1+1-1+1+159.00.02981.12203.81350-1+1-1+1+1612.00.03521.173604.57300+1+1-1+1+179.00.02213.03004.36300+1+1-1+1+189.00.02992.62803.48250+1-1-1+1+1910.00.02890.811404.94300+1-1-1+1+11010.00.02891.331404.94300+1-1-1+1+1118.00.02662.57803.78300+1+1-1+1+11212.00.03410.931805.35200+1-1-1+1+1139.00.02631.412003.87300+1-1-1+1+1149.00.02620.352503.8200+1-1+1+1-1156.00.02855.571603.39250+1-1+1+1-1165.50.02822.211603.67250-1-1+1+1-1177.00.02481.691804.41250+1-1+1+1-1186.50.02494.241502.57200+1-1+1+1-1196.50.02212.671803.37200-1-1+1+1-1206.00.02774.461502.22250-1+1+1+1-1216.00.02581.251802.0250-1-1+1+1-1225.50.02486.191502.42250-1-1+1+1-1237.50.01711.431604.75200-1-1+1+1-1247.00.02101.371804.76150-1-1+1+1-125*10.00.03110.462404.52350+1+1-1+1+126*7.00.02011.781802.71200+1-1+1+1-127*8.00.02482.41604.32400+1+1-1+1+128*6.50.02242.211604.15250-1-1+1+1-129*9.50.02691.21602.91300+1-1-1+1+130*7.00.02113.531602.18200+1+1+1+1-13.2 模型的建立及参数的优化 模型的建立方法分为以下几步:(1)选取前24组数据作为学习训练样本,其中含13组失效数据和11组正常数据;后6组数据作为模拟预测样本,含3组失效数据和3组正常数据。(2)通过计算待预测样本参数到最优分类面H的距离来确定其所属类别,核函数使用多项式核函数。(3)模型参数通过学习样本来确定和优化,误差由确定8。 3.3结果分析 通过样本学习确定的核函数和参数(d4),对后6组数据进行距离计算预测,结果见表2。表2 SVM对模拟预测样本预测结果模拟预测样本编号123456失效情况+1-1+1-1+1-1SVM预测结果sgn(f(xi)+1-1+1-1+1-1SVM样本到H的距离4.4648-1.56352.8819-1.36573.1709-2.0411 由表2可以看出,SVM预测结果和实际完全相符,表明建立的模型合理,所构造的最优分类面能够很好地将该类问题区分开来。d取4最为合理,这一点可以从不同d值与预测误差的关系曲线(见图4)看出。 图4 不同d值的预测误差4 结束语 (1)石油钻井中钻具失效影响因素复杂繁多,呈现高维非线性关系,统计学习理论中的支持向量机方法可在小样本下建模,构造最优分类面和选择恰当的核函数,通过学习能够挖掘出这种高维非线性关系的内在联系,达到准确预测的目标。 (2)通过本文的分析可以看出,用SVM建模并不是十分复杂,关键在于构造最优分类面H和确定核函数K,数据预处理亦要合理。 (3)支持向量机预测模型属于机器学习方法,可以从变动的样本数据中进行动态学习,挖掘隐含规律,具有较大的优势;研究统计学习理论及其模型在石油钻井中的应用具有较好的前景。参考文献:1 Tom M.Mitchell: Machine LearningM.北京第一版机械工业出版社 2003.3:236-290.2 赵国珍,龚伟安:钻井力学基础M.北京:石油工业出版社,1988.2:68-106.3 白家祉,苏义脑:井斜控制理论与实践M.北京:石油工业出版社,1990.4:218-259.4李鹤林,李平全,冯耀荣:石油钻柱失效分析及预防M.石油工业出版社,1999(12):2142205 李盼池,肖红,许少华:支持向量机在模式分类中的应用J. 大庆石油学院学报 2003,27(2):59-61.6 梅建新,段汕,潘继
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- IKFQFHFD-生命科学试剂-MCE
- 绝缘胶销售合同6篇
- 2025年台州市黄岩区卫健系统公开招聘卫技人员26人考前自测高频考点模拟试题及答案详解(各地真题)
- 2025年马鞍山市消防救援局招聘政府专职消防员38人考前自测高频考点模拟试题及答案详解(新)
- Glycine-CoA-Glycine-coenzyme-A-生命科学试剂-MCE
- 2025年合同研究组织项目建议书
- 2025年浙江台州温岭市中医院公开招聘编外员工9人(第四批)考前自测高频考点模拟试题及1套参考答案详解
- 保护环境从我做起议论文周记(15篇)
- 时尚化妆品推广方案
- 安全培训效果反馈调查课件
- 微信小程序电商代运营及品牌授权合作合同
- 赔偿保密协议书范本
- 古代汉语平仄试题及答案
- 马工程《艺术学概论》-绪论省公开课一等奖全国示范课微课金奖课件
- 汉服妆造培训课件
- 电能质量控制与安全标准手册
- 2025年自愿放弃房屋经营权协议书模板
- 巡视巡察工作流程
- 中秋国庆教师廉洁教育
- 产品安全防护培训课件
- 2024年中国信创产业发展白皮书(精简版)
评论
0/150
提交评论