




已阅读5页,还剩59页未读, 继续免费阅读
(计算机科学与技术专业论文)基于数据挖掘的油井复杂情况预测技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一e r e s e a r c ho fo i lw e l lc o m p l e xs i t u a t i o n sp r e d i c t i o n t e c h n o l o g yb a s e d o nd a t am i n i n g at h e s i ss u b m i t t e df o rt h ed e g r e eo fm a s t e r c a n d i d a t e :j i n hu a ny i n s u p e r v i s o r :w e n d o n gz h a n gs e n i o re n g i n e e r c o l l e g eo fc o m p u t e r & c o m m u n i c a t i o ne n g i n e e r i n g c h i n au n i v e r s i t yo fp e t r o l e u m ( e a s t c h i n a ) m 0m 5 舢7删5m 7 舢8舢1舢y ,:上, 关于学位论文的独创性声明 本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得的 成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致谢外, 本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得中国石油 大学( 华东) 或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志 对研究所做的任何贡献均已在论文中作出了明确的说明。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:芝金蝮同期:如f 降岁月岁口日 学位论文使用授权书 本人完全同意中国石油奎兰j 邋有权使用本学位论文( 包括但不限于其印刷版 和电子版) ,使用方式包括但不限于:保留学位论文,按规定向国家有关部门( 机构) 送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被查阅、借阅和 复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、缩印或其他 复制手段保存学位论文。 保密学位论文在解密后的使用授权同上。 学位论文作者签名:翌金建 指导教师签名: 同期:i f 年亨月多口r 日期:| | 年生月3 o 日 f l l 摘要 目前,油井复杂情况的预测主要依赖于专家经验,而油井勘探开发数据则主要应用 于统计与分析,缺乏对复杂情况预测方面的应用,这就使其失去了利用价值。随着数据 挖掘技术的发展,以往需要领域专家和分析人员进行大量人工分析的问题,如今可以直 接由数据挖掘得出基于知识的决策和预测。因此,基于数据挖掘的油井复杂情况预测技 术研究具有重要的理论意义。 介绍了油井复杂情况预测技术和数据挖掘技术的研究现状,总结分析了其中存在的 问题,完成了基于数据挖掘的油井复杂情况预测方案的设计,提出并解决了研究过程中 的关键问题,实现了关联规则算法的改进,并且将其与己知算法进行了比较和验证,最 后不仅预测了某种复杂情况( 以井漏为例) 的发生,而且寻找出了复杂情况之l 、日j 的关联 性。 将数据挖掘技术引入到油井复杂情况预测技术的研究中来,利用周围油井的勘探丌 发数据,实现了复杂情况的全面预测和动态预测,提高了预测效率和准确度,为陔领域 的发展提供一定的指导。 关键词:决策树挖掘,关联规则挖掘,a p r i o r i 算法,复杂情况 l r e s e a r c ho fo i lw e l lc o m p l e xs i t u a t i o n sp r e d i c t i o nt e c h n o l o g yb a s e d o nd a t am i n i n g j i n h u a ny i n ( c o m p u t e rs i c e n c ea n dt e c h n o l o g y ) d i r e c t e db ys e n i o re n g i n e e rw e n d o n gz h a n g a b s t r a c t a tp r e s e n t ,t h ep r e d i c t i o no fd r i l l i n gc o m p l e xs i t u a t i o n sm a i n l yd e p e n d so nt h ee x p e r t e x p e r i e n c e ,a n dt h ee x p l o r i n ga n dd e v e l o p i n g d a t ao fo i lw e l li sm a i n l yu s e di n s t a t i s t i c sa n d a n a l y s i sa n di sl a c ko f t h ea p p l i c a t i o no fp r e d i c t i n gc o m p l e xs i t u a t i o n s ,w h i c hm a k e s i tl o s ei t s v a l u e w i t ht h ed e v e l o p m e n to fd a t am i n i n g ,t h ep r o b l e m st h a te v e rn e e dd o m a i ne x p e r t sa n d a n a l y s t st od oal o to fm a n u a la n a l y s i sn o w c a nb eo b t a i n e dd i r e c t l yf r o md a t am i n i n gb a s e d o nk n o w l e d g eo fd e c i s i o na n dp r e d i c t i o n t h e r e f o r e ,t h e r e s e a r c ho fo i lw e l lc o m p l e x s i t u a r t i o n p r e d i c t i o nt e c h n o l o g y b a s e do nd a t am i n i n gh a sv e r yi m p o r t a n t t h e o r e t i c a l s i g n i f i c a n c e i n t r o d u c et h er e s e a r c hs i t u a t i o no fd r i l l i n gc o m p l e xs i t u a t i o nf o r e c a s tt e c h n i q u e sa n d d a t am i n i n gt e c h n o l o g y ,s u m m a r i z ea n da n a l y z e t h ep r o b l e m si n v o l v e d ,c o m p l e t et h e p r e d i c t i o ns c h e m ed e s i g no fc o m p l e xs i t u a t i o n s ,r a i s ea n d r e s o l v et h ek e yp r o b l e m st h a tm e e t i nt h ep r o c e s s ,i m p r o v et h ea s s o c i a t i o nr u l e sa l g o r i t h ma n dc o m p a r ea n dv e r i f yi t w i t ho t h e r a l g o r i t h m ,i nt h ee n d n o to n l yp r e d i c tc e r t a i nc o m p l e xs i t u a t i o n s ( t a k i n gl e a k a g ef o re x a m p l e ) , b u ta l s of i n dt h ea s s o c i a t i o nr u l e sa m o n g t h e m i n t r o d u c ed a t am i n i n gt e c h n o l o g yt ot h er e s e a r c hs i t u a t i o no fc o m p l e xs i t u a t i o nf o r e c a s t t e c h n i q t i e s ,m a k eu s eo ft h ee x p l o r i n ga n dd e v e l o p i n gd a t ao fo i l w e l la r o u n d ,r e a l i z et h e c o m p l e t ep r e d i c t i o no fc o m p l e xs i t u a t i o n s ,a n a l y z et h er e s u l t s a n dp r o v i d ec e r t a i ng u i d a n c e f o rt h i sf i e l dr e s u l t s k e yw o r d s :d e c i s i o nt r e em i n i n g ,a s s o c i a t i o nr u l e sm i n i n g ,a p r i o r ia l g o r i t h m ,c o m p l e x s i t u a t i o n s 目录 第一章前言一l 1 1 研究背景及意义1 1 2 国内外研究现状2 1 2 1 油井复杂情况预测技术研究现状2 1 2 2 数据挖掘技术研究现状3 1 3 主要研究内容6 1 4 论文章节安排7 第二章基于数据挖掘的油井复杂情况预测方案设计8 2 1 数据挖掘技术的选择8 2 2 利用数据挖掘预测复杂情况的设计思路9 2 3 基于数据挖掘的复杂情况预测架构设计9 2 4 涉及到的数据库结构设计1 2 2 5 本章小结1 9 第三章油井复杂情况预测技术研究的关键问题2 0 3 1 数据预处理中的字符串匹配2 0 3 2 不规范数据的预处理2 3 3 3 数据预处理中的数据转换2 4 3 4 预测井漏决策属性的选择2 6 3 5 训练样本的选择2 7 3 6 最小支持度和最小置信度的确定2 8 3 7 本章小结2 9 第四章关联规则算法的改进及验证3 0 4 1 基于数组的关联规则挖掘算法3 0 4 2 改进算法涉及到的相关概念及性质3 2 4 3 改进算法的算法描述3 3 4 4 改进算法的实例3 7 4 5 与基于数组的关联规则挖掘算法的对比分析3 9 4 5 i 算法分析3 9 4 5 2 实验结果分析4 0 4 6 本章小结4 0 第五章油井复杂情况预测技术的研究和应用4 l 5 1 预测井漏的发生4 l 5 1 1 预测井漏的发生的数据预处理4 l 5 1 2 井漏发生的预测流程4 3 5 1 3 井漏发生的预测结果分析。4 6 5 2 寻找复杂情况之间的关联性4 6 5 2 1 寻找复杂情况之间关联性的数据预处理4 6 5 2 2 寻找复杂情况之间关联性的预测流程一4 9 5 2 3 寻找复杂情况之间关联性的预测结果分析5 0 5 3 本章小结5 1 结论5 2 已完成的工作5 2 创新之处5 2 下一步的工作5 3 参考文献5 4 攻读硕士学位期间取得的学术成果5 7 致谢5 8 中困石油大学( 华东) 硕i :学位论文 第一章前言 1 1 研究背景及意义 石油钻井工程是一项隐蔽的地下工程,是利用机械设备从地球表面到地下油气层建 立起油气通道的过程【1 1 ,其中存在着大量的模糊性、随机性和不确定性。在钻井施工的 过程中,井喷、井漏等钻井复杂情况发生的可能性随时存在,多种钻井复杂情况同时发 生的随机性也随时存在,而这些钻井复杂情况往往是威胁钻井过程安全的隐患,也常常 是井下事故的先导,如果不能及时发现,将会造成不必要的损失,轻则影响钻井经济效 益,浪费大量人力、物力和时i 日j ,重则造成全井废弃和人身伤亡。因此,深化钻井复杂 情况预测技术的研究,及时综合分析和预测钻井复杂情况的发生,以避免钻井复杂情况 的进一步恶化,减少不必要的损失,具有重要的理论意义和实用价值。 目前,一方面,各大油罔主要依靠经验丰富的专家来对钻井复杂情况及井下事故进 行人为主观的预测和诊断,但是,由于专家人数的限制,时i b j 的局限,空l 日j 的变换等因 素,造成了专家经验的有限性,从而使油f f l 开发的需求得不到满足;另一方面,各大油 田依靠的人工智能中的专家系统或者神经网络部分,也主要建立在现有的专家经验的基 础上,这造成了人工智能中的一些技术也存在了很大的人为主观能动性,从而使各大油 阳钻井人员不能准确地预测某种钻井复杂情况是否会发生以及钻井复杂情况之问是否 存在潜在的关联性。近年来,随着综合录井仪,钻井传感器,钻井仪表等的出现,人们 可以连续监测和记录钻井工程井下参数,积累了大量的井史资料等钻井数据,人们对这 些大量的井史资料只能进行简单的录入,查询,统计等操作,缺乏发现它们背后隐藏的 规则和模式的机制。同时,利用钻井数据及现有数学方程等也很难建立满意的和合适的 数学模型。因此,如何合理利用长期积累的大量的井史资料准确预测钻井复杂情况的发 生是钻井工程面临的一大问题,实现钻井工程与其他学科的融合也是多学科发展的必然 趋势。 数据挖掘是- - 1 7 新兴的交叉学科,是数据库技术、数理统计技术、人工智能技术等 多学科技术和理论的融合体【2 】,具有很好的数据分类、风险评估、规律预测、关联规则、 聚集等功能【3 】,在银行,大型商场等很多领域得到了广乏的应用。因此,本文则主要是 借助于钻井工程过程中长期积累下来的大量井史资料,并且结合这些井史资料的数据特 点和数据挖掘技术的数据要求,通过数据预处理获得适合数据挖掘格式要求的目标数 第一章前高 据,然后借助相应的数据挖掘技术挖掘大量井史资料背后潜在的有用信息和规律机制, 提高钻井复杂情况预测的准确度。 随着数据挖掘技术的发展,进行基于数据挖掘的钻井复杂情况预测技术研究工作, 不仅可以促进计算机学科和石油学科的融合,而且可以钻井工作人员逐渐摆脱专家经验 的限制,依赖油井的数据及时准确地预测钻井复杂情况的发生,提高钻井复杂情况预测 的效率和准确度,为油田相关领域的发展提高一定的指导。 1 2 国内外研究现状 在石油钻井生产交流活动和技术人员的沟通中,人们经常遇到钻井复杂情况、井下 事故等问题概念【4 】。随着科技的进步,这些钻井问题也越来越得到人们的关注,如何借 助相关技术合理的预测和提前避免这些复杂情况的发生,成为钻井技术人员关心的话 题。本小节则是在综合钻井复杂情况预测技术和数据挖掘技术的基础上,一方面主要介 绍了钻井复杂情况预测技术的研究现状,另一方面则是主要介绍了本文主要用到的数据 挖掘技术的研究现状,以实现钻井工程与数据挖掘技术的跨学科融合。 1 2 1 油井复杂情况预测技术研究现状 早在9 0 年代中期,国外一些石油公司就开发了标准钻井模拟系统,虽然它可以快 速进行钻井方案的设计,但是此系统只能对钻井数据进行修改和更新,大部分还是依靠 专家经验,且不能预测钻井的复杂情况。随着钻井工艺技术由经验钻井、科学化钻井发 展到目前的自动化智能钻井阶段,大批的超深井、高难度水平井、分支井等先后被一直 捐j 有前沿的钻井技术的西欧、美国等国家开发完成,钻井复杂情况的预测技术也随着钻 井工艺技术的进步而进步,很多专家学者也在此方面做了大量的研究和实践工作。 1 9 9 9 年,许绛垣【5 】在“石油钻井事故预测与安全决策支持系统研究”一文中提出了应 用灰色预测理论的模型,较好地解决了石油钻井事故指标预测及灾变预测问题。同年, 史玉升【6 】等在“钻井过程实时状态监控与事故珍断专家系统一人工智能在钻井工程中的 应用之一”一文中提出了模式识别的具体应用,特别是人工智能中的专家系统和神经网 络对钻井过程中的实时状念监控与事故诊断。 2 0 0 4 年,孙中昌等【l 】在“钻井异常预测技术”一书中指出钻井工程施工技术人员在大 庆徐家围子选取2 0 余口深层钻井作为预测研究的实例,利用综合录井仪等先进设备收 集钻井数据,并且对数据变化进行综合分析,归纳总结数据变化特点,及时做好钻井复 杂情况的预测和预防,有效地避免了大量钻井复杂情况的发生,遏制其进一步恶化。经 2 中固石油人学( 华东) 硕i :学位论义 过多达1 0 0 余次的钻井复杂情况预测研究,证实钻井工程预测的成功率在9 9 以上。大 量的现场钻井工程预测实例,证实在钻井施工过程中,钻井施工技术人员已经逐渐脱离 了过去的对专家经验的依赖,代替的是越来越多的综合录井仪等设备在钻井异常事件或 复杂情况预测方面的应用【l 】。因此,众多的国内外专家学者越来越多重视钻井工程复杂 情况预测技术的研究和发展。 2 0 0 8 年,隋迎光在“基于专家系统的钻井复杂情况及事故诊断方法研究”一文中提出 在智能诊断方法中的专家系统里【7 1 ,人类专家经验被以适当的形式存储在了计算机中【7 1 , 然后,通过人类专家知识和模拟专家的推理过程,实现数学算法和控制工程的操作经验 的融合,最大限度地利用已有专家经验,避免了建立精确数学模型的困难,从而使钻井 复杂情况的监控和预测效果远远的优越于传统的预测和诊断方法【7 j 。 综上所述,目前,各大油田大部分都是对单口油井的复杂情况及其发生原因进行分 析和研究,没有充分利用同一区块范围内的油井的工程,地质等因素的相似性特点,缺 少对油井周围的同一区块范围内的各个钻井复杂情况及其发生因素的潜在关联规律性 的挖掘,不能满足油田开发的需求,造成大量井史资料不能充分发挥其应有的作用。 因此,综合考虑钻井复杂情况预测技术的研究现状,可以得出现有的预测方案或技 术主要存在以下几个问题: ( 1 ) 钻井复杂情况的预测过分依赖专家经验,容易受到专家人数有限等因素的限 制; ( 2 ) 研究对象往往只是一口井,忽视了对同一区块范围内的油井群体特点的研究; ( 3 ) 现有的钻井复杂情况预测技术侧重了对一种钻井复杂情况的预测,忽略了多 种钻井复杂情况之间的潜在关联性预测; ( 4 ) 积累的大量井史资料没有得到充分的利用,造成数据资源的浪费。 1 2 2 数据挖掘技术研究现状 1 2 2 1 关联规则挖掘的研究现状 关联规则挖掘【3 1 1 是在1 9 9 3 年由r a g r a w a l 等人首次提出,当时关心的问题是大型 超市中顾客购买的商品之间是否存在一定的关联性和规律性,后来就出现了“啤酒和尿 布”、“购物篮”等经典事例,从而得出了顾客交易数据库中商品项之问的潜在关联性p 引, 即关联规则问题。关联规则的主要研究对象是事务数据库,主要目标就是在大量的事务 数据库中发现各个事务项之间是否存在潜在的关联性,从而归纳总结出人们容易理解的 3 第一幸前苦 规律。继1 9 9 3 年,关联规则问题被首次提出后,1 9 9 4 年,a p r i o f i 算法也被r a g r a w a l 等人提出,并且成为了关联规则挖掘的经典算法之一。经典的a p r i o r i 算法是采用逐层 迭代的方式由频繁项逐层地寻找到所有的频繁项集,这就需要多次扫描事务数掘库,浪 费大量的时间,并且存在着以下几点问题或性能瓶颈: ( 1 ) 多次扫描事务数据库,需要很大的输入输出负载; ( 2 ) 可能产生大量的候选项集,浪费大量的时间和存储空间; ( 3 ) 数据库中存在较多的冗余数据,极大地影响了频繁项集的挖掘效率; ( 4 ) 稀有信息对最小支持度的要求较高,很难找到一个合适的最小支持度。 针对以上性能瓶颈,之后很多的国内外专家学者以a p r i o r i 算法为基础对其进行了 大量的研究和改进,以提高关联规则挖掘的效率。如文献 8 】中,s a v a s e r e 等人在1 9 9 5 年提出的p a r t i t i o n 算法,以内存大小为原则将数据库划分为n 个部分,串行处理每个划 分中的数据生成局部频繁项目集,然后遍历整个交易数掘库,生成全局频繁项目集,较 好地解决了内存限制问题。文献 9 】中,p a r k 等人在1 9 9 5 年提出的使用哈希技术的d h p 算法,利用h a s h 表求解频繁项目集。文献 1 0 中,t o i v o n e n 等在1 9 9 9 年提出采用随机 抽样方法挖掘关联规则算法s a m p l i n g ,首先在样本上丌采,然后在剩余数据上校验结果, 进而保证结果的正确性,较好地解决了算法效率问题。 关联规则算法的主要问题是寻找频繁项集。目前,寻找频繁项集的算法主要是 a p r i o f i 算法和f p g r o w t h 算法。前者主要是是通过扫描事务数据库来获得候选项集的支 持数,这就需要多次扫描数据库,也可能产生大量候选项集;后者则是由h a nj i a w e i 等 1 q 于2 0 0 0 年提出,该算法不仅不产生候选项集,而且只扫描事务数据库两次,第一次 实现频繁1 项集的筛选,第二次则是对频繁1 项集进行排序并且实现f p t r e e 的构造, 最后在f p t r e e 的基础上进行频繁项集的挖掘工作【i i 】。很多学者在寻找频繁项集的过程 中,以a p r i o f i 算法和f p g r o w t h 算法为基础从不同角度对它们进行了深入的研究。比如, 文献 1 2 】中提出了一种基于矩阵的频繁项集发现算法,该算法首先通过扫描事务数据库 将其转化为事务矩阵,然后采用逐点乘法运算方法,计算各个项集的支持数,但是它的 思想仍然是逐层搜索,浪费大量时间。文献 1 3 】中提出了一种基于矩阵的关联规则挖掘 算法,该算法首先通过扫描事务数据库将其转化为布尔矩阵,然后通过列向量的“与”运 算产生频繁项集,但是由于产生频繁项集的过程中需要进行大量的剪枝工作,因此,操 作量比较大。文献 1 4 q h 提出了一种基于数组的关联规则挖掘算法,该算法实现扫描事 务数据库一次,通过一维数组实现对候选2 项集的计数,并且不断删减事务个数,但是 4 中国石油大学( 华东) 硕i :学位论文 寻找项数大于3 的频繁项集时,还是需要产生候选项集。文献【1 5 中提出了一种基于矩 阵的频繁项集挖掘算法,该算法扫描事务数据库一次,把事务数据库转化成矩阵,将数 据库的事务和项集分别转化为矩阵的行和列,通过一系列的矩阵操作一次性产生所有的 频繁项集,但是需要进行大量的矩阵操作,耗费大量内存。文献【1 6 】提出了一种基于压 缩矩阵的a p r i o r i 改进算法,该算法改进了矩阵的数据结构,一方面,在一个单纯的事 务矩阵中,添加两个辅助行和一个辅助列,方便进行矩阵压缩,另方面,设置一个辅 助二维数组,用来记录下标组合情况,对矩阵进行彻底的压缩。文献【1 7 】提出了一种基 于向量的关联规则挖掘算法,该算法采用树形数据结构,利用基于树的孩子兄弟表示法, 将每个事务和项目运用相应的向量表示,利用向量的“逻辑与”和“逻辑或”计算项的支持 数,完成树结构的构造后,对树进行深度优先遍历,从而获得频繁项集。文献【1 8 】提出 了一种基于矩阵的频繁项集挖掘算法,该算法把所有事务转化为矩阵的行,把所有项和 项集转化为矩阵的列,在对矩阵操作时能一次性产生所有频繁项或项集,而且当支持度 改变时,不需要重新扫描数据库。 综上所述,虽然文献 1 6 1 8 】都扫描了数据库一次,但都沿用了a p r i o r i 算法的逐层 迭代的思想;产生大量重复的候选项集,增加了剔除重复候选项集的步骤,影响了算法 的效率;并且都对数组或矩阵进行了反复的操作,需要大量的时间和存储空间。因此, 本课题将数组和向量方法相结合,实现算法的纵向改进,既实现数据库的一次扫描,又 可以产生多余的候选项集和避免模式匹配,实现算法的横向改进,提高算法效率。 1 2 2 2 决策树数据挖掘的研究现状 决策树是由概念学习系统c l s t l 9 】( c o n c e p tl e a r n i n gs y s t e m ) 发展而来的,其主要 流程是首先寻找最有分辨能力的决策属性 2 州,然后把属性集划分成许多子集( 对应生成 许多分支) ,组成一个分类过程,即分支过程,然后对每个子集递归调用分类过程,直 到所有子集里面的数据都属于同一类型为止【2 0 】,这样就完成了利用训练集建立决策树的 过程,最后利用建立的决策树就可以对新的数据进行分类。虽然概念学习系统在当时是 一种很好的学习和分类方法,但是它也存在着一些不足,如处理的学习问题不能太大1 2 。 目前,比较具有影响力的决策树算法包括i d 3 ,c 4 5 ,c a r t ,s l i q ,s p r i n t 等, 其中,1 9 8 6 年,q u i n l a n 提出的i d 3 算法是决策树挖掘的经典算法,它采用分而治之策 略,在决策树的众多属性中选择决策属性:然后以该决策属性为标准对数据进行分类, 形成多个分支,以此类推,直至决策树的每个叶节点都是一个类为止;最后利用该决策 树模型对数据进行分类。以后的绝大多数决策树算法都是在i d 3 算法的基础上改进而来 5 第一章前苦 的,很多的专家学者也对其进行了大量的研究工作。 1 9 9 3 年,q u i n l a n j r 提出的c 4 5 算法克服了i d 3 算法“只能处理离散型数据”的缺 陷【2 i 】,保存i d 3 算法优势的同时也加入了新的元素,提高了算法的效率。1 9 9 8 年,刘 小虎等针对i d 3 算法的选择决策属性的问题提出在选择新属性时【2 1 】,引入考虑树的两层 结构问题。2 0 0 2 年,s a l v a t o r er u g g i e r i 2 1 在改进c 4 5 算法的基础上,提出了e c 4 5 算 法,它采用的二分搜索降低了线性搜索的阈值代价,但是算法的内存消耗也变大了。2 0 0 3 年,o l a r u r 【2 1 】提出了软决策树算法,它是一种模糊决策树,在考虑决策树结构的同时, 通过重修和磨合提高决策树的数据处理能力。 综上所述,很多专家学者在i d 3 算法的基础上,对决策树算法进行了改进,这些改 进方法不仅提高了算法的效率,而且也拓展了i d 3 算法的处理数据类型范围,即由最初 的离散型数据到现在的连续型数据,但是也有很多算法是以增大存储空间的消耗来换取 时问。由于钻井复杂情况预测中涉及到的属性值是离散的或者比较容易离散化,而且i d 3 算法【2 2 】学习能力较强,分类速度快,适合于大规模数据的处理,所以本课题主要是利用 i d 3 算法建立决策树,预测钻井复杂情况的发生。因此,钻井复杂情况预测的因果推导 的主要工作就是数据预处理,然后利用i d 3 算法对目标数据进行分类或者预测。 1 3 主要研究内容 基于数据挖掘的油井复杂情况预测技术研究主要是从预测某种复杂情况的发生和 寻找复杂情况之间的关联性两个方面进行。前者主要是利用决策树技术建立预测模型, 预测多种因素的共同作用是否会导致某种或某些复杂情况的发生( 本课题以井漏为例) ; 后者则主要是利用关联规则挖掘技术建立模型,预测一种复杂情况的发生是否会导致其 他复杂情况的发生,寻找复杂情况之间的关联性。在本课题中,着重于复杂情况之间的 关联性研究,根据原始数据的特点,着重对已有关联规则算法进行分析、研究和改进, 然后利用实际数据验证改进算法的效率。研究内容主要包括以下几个方面: ( 1 ) 综合分析油田勘探开发数据,研究数据特点,对数据进行预处理 通过数据收集和预处理,得到导致钻井某种或某些复杂情况发生的因素和周围钻井 已经发生的各种复杂情况。 ( 2 ) 针对( 1 ) 中得到的导致钻井某种或某些复杂情况发生的因素,利用决策树技 术建立预测模型,预测某种或某些复杂情况是否会发生。 ( 3 ) 对已有关联规则算法进行分析和研究,对原有算法进行改进或提出一种寻找 6 中国石油大学( 华东) 硕i j 学位论文 频繁项集的算法,使该算法更加适合油田数据挖掘的特点,然后,针对( 1 ) 中得到的 周围油井的各种复杂情况,建立关联规则模型,预测某种复杂情况的发生是否会引起其 他复杂情况的伴随发生。 ( 4 ) 实现改进的算法,并且利用实际数据验证改进算法,更好的预测钻井复杂情 况。 1 4 论文章节安排 本文各个章节的内容主要安排如下: 第一章主要介绍了本课题的研究背景,油井复杂情况预测技术和数据挖掘技术的研 究现状以及本课题的主要研究内容。 第二章主要介绍了基于数据挖掘的油井复杂情况预测的方案设计,主要包括本课题 的总体架构和数据库结构设计等。 第三章主要介绍了基于数据挖掘的油井复杂情况预测技术研究的关键问题及其解 决方法。 第四章主要介绍了关联规则算法的改进,并且将改进算法和已有算法进行了比较和 验证。 第五章主要介绍了油井复杂情况预测技术的研究和应用,验证预测模型的预测结 果,并且对其进行了总结和分析。 文章最后则是对基于数据挖掘的油井复杂情况预测技术研究进行了总结和展望,总 结了本课题已完成的工作和创新点,并且指出了下一步工作的出发点。 7 第二章基于数据挖掘的油井复杂情况预测方案设计 第二章基于数据挖掘的油井复杂情况预测方案设计 2 1 数据挖掘技术的选择 近年来,各大油f f l 积累的钻井数据越来越庞大,如何合理利用这些钻井数据为钻井 活动提供决策支持和如何发掘海量数据背后的潜在规律是钻井工作人员关注的课题之 一。数据挖掘就是利用分析工具发掘大量数据背后的规律的过程,于是,长期积累的井 史资料为数据挖掘提供了数据支持,而数据挖掘则为钻井复杂情况的预测提供了技术支 持。 在数据挖掘的应用中,寻找事务项之| 白j 关联性的技术主要是关联规则挖掘技术,技 术选择比较容易;而常用的实现因果推导的技术则主要是决策树和神经网络这两种,到 底选择哪种实现因果推导的技术将是本课题技术选择的一个重点和难点。 目前,一些专家学者也提出了一些基于神经网络等其他的预测钻井复杂情况的方法 和措施。如王宝毅等在“基于案例推理的钻井复杂情况专家系统”一文中提出了一种基于 案例推理的钻井复杂情况专家系统【2 3 1 ,该系统首先将以往已经发生过的典型钻井复杂情 况和典型事故的处理事例以一定的形式收集并组织起来建立起案例库,然后,借助于人工 智能中的案例推理技术对案例库中的事例进行相关的综合、分析和处理,实现钻井复杂情 况和井下事故的预测,目的在于借助专家经验来获取更多的钻井复杂情况预测案例, 对钻井过程中可能发生的多种的复杂情况进行及时、精确的预测和预防,但是其过多的依 赖于专家经验,具有很大的人为主观能动性,也受到专家人数不足的限制,缺乏数据的 科学支持。王杰等在“基于分层模糊推理的石油钻井事故预警系统”一文中提出了一种基 于分层模糊推理的石油钻井事故预警系统【2 4 】,该系统首先对收集的原始数据进行整理和 预处理,然后,进行阈值提取和逻辑计算,最后,采用“增一型”分层模糊模型进行推理。 虽然该系统解决了多维模糊推理中的典型维数灾问题,避免了因输入参数众多而造成的 推理规则数爆炸,但是它只是针对一口油井进行的分析,缺少一定的通用性和准确性。 廖明燕在“基于神经网络多参数融合的钻井过程状念监测与故障诊断”一文中提出了一 种基于神经网络多参数融合的钻井过程状态监测与故障诊断方法1 2 5 1 ,该方法分析了神经 网络进行诊断和预测的流程,首先,利用样本数据对神经网络进行训练来形成一定的模 式,然后,利用神经网络建立稳定的诊断预测模型,最后,在新样本数据输入各种参数 后,实现钻井过程的监测和诊断。 8 中国石油大学( 华东) 硕l :学位论文 综上所述,数据挖掘在钻井复杂情况预测方面的应用主要是依赖于神经网络技术, 但是神经网络处理的数据类型都是数值型,而井史资料的数据有些是非数值类型,比如 地质因素等数据特点,而相比于神经网络,决策树技术非常擅长于非数值类型的数据的 处理【2 6 j 。因此,本课题选择决策树挖掘技术处理钻井复杂情况预测的因果推导。 综上所述,基于数据挖掘的钻井复杂情况预测技术研究应用的关键技术就是关联规 则挖掘技术和决策树挖掘技术。 2 2 利用数据挖掘预测复杂情况的设计思路 石油钻井过程是一个隐蔽的多因素共存的复杂地下活动,一方面各种因素综合作用 可能会导致某种复杂情况的发生,另一方面复杂情况之间也相互影响,相互关联。因此, 基于数据挖掘的油井复杂情况预测技术研究首先就是以井史资料为原始数据,将每一口 油井看作一条数据记录,通过数据预处理采集其中的有用信息,如导致复杂情况发生的 因素和已发生的复杂情况;然后则是对复杂情况的两个阶段的预测:第一个阶段就是预 测某种复杂情况的发生,在这个阶段中,首先就是利用选定的训练集建立决策树预测模 型,然后则是通过实例来验证和评估决策树的预测性能;第二个阶段就是寻找复杂情况 之间的关联性,在此阶段中则是,将每口钻井看作一条事务,已经发生的复杂情况看作 关联规则的事务项,通过对每口油井复杂情况的研究,来寻找复杂情况发生的潜在关联 性;最后就是总结分析复杂情况的预测结果。 2 3 基于数据挖掘的复杂情况预测架构设计 预测钻井复杂情况的发生的总体架构如图2 1 所示。 9 第二章基十数据挖掘的油j i :复杂情况预测方案设计 数据预处理咽、利片j 数据挖掘技术预测圈、 图2 1 预测钻井复杂情况发生的架构图 f i 9 2 1t h es t r u c t u r ed i a g r a mo fp r e d i c t i n gc o m p l e xs i t u a t i o n s 由图2 1 可知,预测钻井复杂情况发生的总体架构主要包括三个模块,具体如下。 1 ) 数据预处理模块 预测钻井复杂情况发生的数据主要是前期的勘探数据,钻井过程中的随钻数据以及 油田工作人员的手工录入数据。这些原始数据格式并不适合数据挖掘要求的目标数据格 式要求,因此,需要对其进行清理,集成和转换等预处理操作后,才可以被应用到数据 挖掘和复杂情况预测的工作中,预处理的流程如图2 - 2 所示。 1 0 中国石油大学( 华东) 顾l :学位论义 原始数据 图2 - 2 数据预处理的流程图 f i g2 - 2t h ef l o wc h a r to fd a t ap r e t r e a t m e n t 由图2 2 可知,数据预处理模块主要包括两个预处理模块,它们分别是预测某种复 杂情况的数据预处理和寻找复杂情况发生的数据预处理。前者主要包括从数据库旱选择 和提取需要的数据,如钻井液的浓度等,然后,一些不规范的数据进行处理,最后,则 是通过数据的计算和转换,生成符合决策树挖掘的目标数据;而后者则主要是利用建立 的数据字典,对原始数据进行字符串匹配,生成复杂情况数据表,然后剔除数据表中无 挖掘价值的记录,如只发生一种复杂情况的记录,最后生成适合关联规则挖掘的目标数 据表,将在第五章中做详细介绍。 2 ) 利用数据挖掘技术进行复杂情况预测模块 该模块是本课题的重点,它的流程如图2 3 所示。 1 1 第二章幕于数据挖掘的油j i :复杂情况预测方案设计 图2 - 3 利用数据挖掘技术进行复杂情况预测的流程图 f i 9 2 - 3t h ef l o wc h a r to fp r e d i c t i n gc o m p l e xs i t u a t i o n sb a s e do nd a t am i n i n g 由图2 3 可知,该模块主要是利用目标数据建立数据挖掘模型,分别实现预测某一 种复杂情况发生的因果推导和寻找复杂情况之间的关联性研究,其中后者实现了关联规 则算法的改进,具体过程将会在后续的章节中进行详细的介绍。 3 ) 用户预测模块 该模块的用户分为油田技术人员和油田专家两种,其中前者获得某一口油井的基本数据 后,利用生成的规则库对其可能发生的复杂情况进行预测,并且根据预测结果对该油井 进行一系列的预防调整;而后者则主要是分析总结规则库中的规则,分析其中规则的合 理性和可信度,去除其中不可信的规则,进一步调整规则库,提高预测的准确度。 2 4 涉及到的数据库结构设计 好的数据库设计能够减少数据的冗余,保证复杂情况预测的准确性,并且可以提高 其预测效率。本课题中涉及的数据表主要是油罔数据库里的基本数据表,数据预处理阶 段用到的辅助数据表和用于数据挖掘的目标数据表,下面选取和本课题相关的属性进行 说明,各数据表之间的关系如图2 4 所示。 1 2 中国石油大学( 华东) 硕上学位论文 匝料数据表和油 。压据字典数黻 匝嗍探斤发数撇 图2 - 4 数据表之间的关系图 f i g2 - 4t h er e l a t i o n s h i pc h a n o fd a t at a b l e s ( 1 ) 基本信息表结构 1 ) 油井基本信息表结构 表2 - 1 油井基本信息表 t a b l e2 1t h eb a s i ci n f o r m a t i o no fo i lw e s 字段名拼音代码类型宽度小数位数主码 井号 j hv a r c h a r4 0 井别 j bv a r c h a r2 0 井型 j xv a r c h a r2 2 横坐标x h z b xn u m b e rl l2 纵坐标y z z b yn u m b e rl l2 所处区块s c q k v a r c h a r2 0 第二章基十数据挖掘的油爿:复杂情况预测方案垃计 注:根据油井基本信息表中的油井井口坐标及其所处的区块,可以确定油井周围的 地质情况。 2 ) 井史资料表结构 表2 - 2 井史资料数据表 t a b l e2 - 2t h eh i s t o r yd a t ao fo i lw e l l s 字段名拼音代码类型宽度小数侮数土码 井号 j hv a r c h a r4 0 起始时间 q l s s j d a t e2 0 结束时间 j s s jd a t e2 0 记录内容 j l n r l o n g 注:在该数据表罩一口油井可能对应数据表罩的多条记录,即一对多的关系,这是 因为复杂情况可能会在不同的时间发生。 3 ) 预测某种复杂情况发生涉及到的数据表结构 表2 - 3 岩性综述库表 t a b l e2 - 3t h el i t h o l o g yr e v i e wt a b l e 字段名拼音代码类型宽度小数位数主码 井号 j h场r c h a r4 0 靠 序号 x hi n t4 奉 层位c w v a r c h a r3 0 内容 n r l o n g 注:该表数据主要来源于油田工作人员的手工输入,用于记录油井的在不同层位的 地质岩性概况。 1 4 中国石油大学( 华东) 硕i :学位论文 表2 - 4 钻井液使用情况表 t a b l e2 - 4t h ed r i l l i n gf l u i du s et a b l e 字段名拼音代码类弛宽度小数位数主码 井号 j hv a r c h a r4 0 顶界深度 d j s d ln u m b e r72 底界深度 d j s d 2n u m b e r72 相对密度1 x d m d ln u m b e r82 相对密度2x d m d 2 n u m b e r82 注:该表用来记录油井在不同深度的钻井液使用情况,记录钻井液的基本信息。 表2 - 5 地层压力表 t a b l e2 - 5t h ef o r m a t i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年企业培训师(高级)理论知识试卷:企业培训师的培训师培训师培训与认证
- 南通启秀期中数学试卷
- 秦皇岛中考答案数学试卷
- 青山区期中考试数学试卷
- 蒲公英教育联盟数学试卷
- 宁波一上期中数学试卷
- 红酒销售基础知识培训课件
- 去年山东单招数学试卷
- 宁夏七年级数学试卷
- 2024年兰州市中医医院招聘笔试真题
- 2025年度充电桩充电设施安全检测与维修合同范本4篇
- 2025年中国宝武钢铁集团有限公司招聘笔试参考题库含答案解析
- 高级综合英语知到智慧树章节测试课后答案2024年秋浙江中医药大学
- 电信行业网络优化与安全保障措施
- JJF(京) 114-2023 安德森六级撞击微生物采样器校准规范
- 番茄病毒病图谱及简介
- 幼儿园情商培训
- 承插盘扣落地脚手架施工方案
- 物流无人机技术与应用解决方案
- DB14∕T 1822-2019 旅游景区安全评估规范
- 非营利性医疗机构医保政策制度
评论
0/150
提交评论