(计算机应用技术专业论文)数据挖掘在油田措施规划中的建模研究.pdf_第1页
(计算机应用技术专业论文)数据挖掘在油田措施规划中的建模研究.pdf_第2页
(计算机应用技术专业论文)数据挖掘在油田措施规划中的建模研究.pdf_第3页
(计算机应用技术专业论文)数据挖掘在油田措施规划中的建模研究.pdf_第4页
(计算机应用技术专业论文)数据挖掘在油田措施规划中的建模研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘在油田措施规划中的建模研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘在油田措施规划中的建模研究 王霞( 计算机应用技术) 指导教师:段友祥( 教授)龚安( 副教授) 摘要 随着油田开发的不断深入,为保证企业在稳产的前提下取得较好的 生产效益,急需对油田措施进行合理规划。油田措施规划的关键是建立 科学合理的规划预测模型。目前常用的均为固定数学模型,预测精度低。 措施效果预测的本质是一个复杂的非线性系统建模问题,数据挖掘中的 人工神经网络具有高度的非线性映射能力,能够较好的解决这类问题。 本文在对b p 算法进行了深入研究并作了适当改进后,建立了高精度措 施规划预测模型,并以该模型为基础对油田措施效果进行预测,取得了 较好的效果。 在研究过程中,针对遗传算法存在早熟及稳定性差等问题,提出了 基于非线性调整的自适应遗传算法( n l s a g a ) ,对交叉算子和变异算子 进行了优化,实现了交叉率和变异率的非线性自适应调整;针对传统的 b p 算法收敛速度慢,易陷入局部极小等缺点,提出了基于跳跃梯度的 l m b p 算法,给出了局部极小点的判断条件及梯度增加的速率等规则。 然后提出了综合利用n l s a g a 的全局寻优能力和l m b p 算法的快速收 敛能力改进学习算法并优化网络结构的两种策略。最后利用已有的实验 数据样本训练神经网络,验证了本文提出的预测模型,结果显示基于 n l s a g a l m b p 2 算法建立的模型预测精度更高。 关键词:数据挖掘,措施规划,b p 神经网络,遗传算法,预测 t h em o d e l i n gr e s e a r c ho fd a t am i n i n gi no i lf i e l d m e a s u r e p r o g r a m w a n g x i a ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e d b y p r o f e s s o r d u a n y o u - x i a n g ,g o n g a n w i t ht h ed e v e l o p m e n to fo i l f i e l d s ,i ti sn e c e s s a r yf o rt h ee n t e r p r i s et o m a k ear e a s o n a b l em e a ! q u r ep r o g r a m m i n gt oo b t a i nt h eb e t t e rb e n e f i tu n d e r t h es t a b l ep r o d u c t i o n t h ei s s u eo ft h eo i l f i e l dm e a s u r ep r o g r a m m h n gi st o c o n s t r u c tas c i e n t i f i ca n dr e a s o n a b l em o d e lo fm e a s u r e p r o g r a m m i n g p r e d i c t i o n a tp r e s e n t , t h ec o m m o n l ym o d e li st h e 觚e dm a t h e m a t i c a lm o d e l a n dt h ep r e c i s i o no fp r e d i c t i o ni sb a d l y t h ep r e d i c t i o no fm e a s u r ee f f e c ti sa c o m p l i c a t e n o n l i n e a rs y s t e m a r t i f i c i a ln e u t r a ln e t w o r ki so fs t r o n g e r c a p a b i l i t yt om a p p i n gn o n l i n e a rs y s t e m sa n dc a nr e s o l v et h i sk i n do f p r o b l e m s t h ea l g o r i t h mi sp r e s e n t e da n di m p r o v e di nt h ep a p e ri oe n h a n c e t h eg e n e r a l i z a t i o nc a p a b i l i t ya n dt h es t a b i l i t yo f t h em o d e l t h ed i s a d v a n t a g e so ft h es t a n d a r dg e n e t i c a l g o r i t h mr e s u l t si n p r e m a t u r ec o n v e r g e n c e ,b a ds t a b i l i t ya n d l o wc o n v e r g e n c es p e e d t h i sp a p e r p r o p o s e dag e n e t i ca l g o r i t h mb a s e do na d j u s la d a p t i v e l ya n dn o n l i n e a r l y t r a d i t i o n a lb pa l g o r i t h mh a sl o wc o n v e r g e n c es p e e da n di s s u b j e c tt of a l l i n t om i n i m a lp o i n t a na d a p t i v ea n dn o n l i n e a rg e n e t i ca l g o r i t h mi s a p p l i e d t oo p t i m i z e dc o n s t r u c ta n dw e i g h t s al m b pa l g o r i t h mb a s e do ng r a d i e n t j u m p i n g i s p r o p o s e d a n ds o m er u l e ss u c h a s t h e j u d g r n e n t c o n d i t i o n o f f a l l i n g i n t om i n i m a lp o i n ta n di n c r e a s i n gs p e e do fg r a d i e n tf i l ee s t a b l i s h e d t w o h y b r i da l g o r i t h m ,w h i c ha l ec o m b i n a t i o no ft h em o d i f i e dg e n e t i ca l g o r i t h m ( n l s a g a ) a n dt h el m b pa l g o r i t h m a l e p r o p o s e d f i n a l l y , e x i s t i n g e x p e r i m e n td a t as a m p l e sa l eu s e dt ot r a i nt h ea n n t h es i m u l a t i o nr e s u l t s s h o wt h a tm o d e lp r e s e n t e di nt h ep a p e ri sr e a s o n a b l ea n dt h ep r e d i c t i o n m o d e lb a s e do nn l s a g al m b p 2 i sb e t t e rt h a no t h e r s k e yw o r d s :d a t am i n i n g ,m e a s u r ep r o g r a m m i n g ,b pn e u t r a ln e t w o r k , p r e d i c t i o n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中国 石油大学或其它教育机构的学位或证书而使用过的材料。与我同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了 谢意。 签名:王毽 口了年4 月j 日 关于论文使用授权的说明 本人完全了解中国石油大学有关保留、使用学位论文的规定,即:学 校有权保留送交论文的复印件及电子版,允许论文被查阅和借阅;学校 可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段 保存论文。 ( 保密论文在解密后应遵守此规定) 学生签名; 导师签名: 量塑 中伊 昼叼年- - i 月1 日 岬年垆月日 中国石油大学( 华东) 硕士论文第1 章前言 第1 章前言 1 1 选题背景及研究意义 目前,国内大部分油田特别是东部油田已进入开发中后期,开发形 势日益严峻。面对产油量不断下降的现状,为确保稳产和经济效益,油 田现场采取了多种增产措施,主要有:压裂、酸化、大修、补孔、大泵 电泵、卡堵水、转抽等。各项措施的投入导致对应费用、工作量及开发 规律动态地发生变化。如何规划各项措施才能确保油田企业既要完成产 量任务,降低成本,增加效益,又要满足油田开发动态变化规律,实质 就是要优化各项措施与总费用和工作量之间的关系。油田措施规划能够 延长油田稳产年限提高采油速度,对提高采收率是十分必要的“1 。 随着计算机技术和数据挖掘技术的快速发展,以数据挖掘技术为依 托的计算机技术为油田措施规划提供了科学高效的解决手段。利用现有 的历史数据对油田的稳产措施进行合理规划,提高采收率和油田企业的 经济效益,为油田企业实现二次创业提供了技术上的保证。 数据挖掘技术能自动分析数据,并进行归纳性推理和联想找出数据 间的内在关联,发掘出潜在的、对信息预测和决策行为起着重要作用的 模式,从而建立新的业务模型,帮助决策者制定生产规划和市场策略, 最终达到做出正确决策的目的。所以,数据挖掘技术是解决油田措施规 划问题的理想手段。数据挖掘常用的技术有关联规则、决策树、规则归 纳、人工神经网络、遗传算法、最邻近技术等o 。 油田措施规划的关键是措施效果的预测,油田措施效果预测本质上 是一个对复杂的非线性系统的建模问题,难以用精确的数学模型来描述。 数据挖掘中的人工神经网络技术具有高度的非线性学习能力以及很强的 自适应、自学习以及容错能力,能够较好地解决这类问题。由于目前b p 网络是最常用的神经网络,所以本课题选取b p 网络作为主要数据挖掘方 法。利用b p 网络算法建立油田开发条件( 包括各措施的工作量和年注水 量) 和开发水平( 年产油量) 之间的关系模型,利用此关系模型可实现 对油田产量进行多因素非线性预测,进而获得油田的最佳措施规划方案, 1 中国石油大学( 华东) 硕士论文第1 章前言 避免了措施效果的统计,提高了规划与预测的可靠性。油田措施规划效 果预测,为油田的开发决策和发展战略提供了科学的量化依据,具有十 分重要的战略意义。 1 2 国内外研究现状 1 2 1 措施规划的国内外研究现状 由于对油田措施规划问题研究时间较短,所以目前国内外在措施规 划方面的研究成果相对较少,但是现场迫切需要通过措施规划这一技术 手段,提高决策能力,解决生产成本不断上升的问题,所以近几年对油 田措施规划的研究得到了各方面的重视并蓬勃发展起来。美国、俄罗斯 以及我国的一些科研单位、大专院校及石油公司对油田措施规划问题都 开展了积极的研究,从不同的角度对油田措施规划进行了建模“1 : 第一,从经济效益的角度出发建立的措施规划模型。其目标函数是 投资资金、利润、生产成本、措施费用和最大产量等。第二,从系统功 能的角度出发建立的措施规划模型。主要根据油气藏开发系统的特点, 引入状态变量和决策变量,具体分析油气田开发系统的投入与产出,建 立输入与输出关系的油气田开发规划模型。 纵观油田开发措施规划的理论研究,国内外研究者主要提出了以下 几类油田措施规划方法”1 : 1 经验统计方法。该方法机理清楚、结构严密、描述完整,但本质 上却属于经验判断,原因是模型中的部分参数甚至是关键参数都必须由 经验来确定。 2 数值模拟方法。该方法主要沿用了摄动方法,油藏流动系数和贮 存系数在平面上的变化通过人工分区表示,求解方法与最小二乘多元回 归法有关,并用非线性目标函数做多次调整处理。但是该方法所需要的 敏感系数需由多次模拟得到,每改变一个网格块参数,均需要重新模拟 一次,因此在实施上述非线性最小二乘调节过程中,经常遇到振动和其 它收敛不好的问题。 2 中国石油大学( 华东) 硕士论文第1 章前言 3 控制论与系统工程的方法。该方法已广泛应用到油田措施规划领 域,并收到了较好效果,但其缺陷是必须事先给定一个预测模型或模式, 通过统计以前若干年的措施工作量及措施效果来确定模型参数。但是油 田指标的变化是无法用一个固定模型来描述的,且统计措施效果主要凭 经验,误差较大,导致预测和规划结果误差较大。 这些方法在油田措旌规划中具有一定的效果,但是这些方法共同的 缺陷是事先给定一个数学预测模型,通过统计以前若干年的措施工作量 及措施效果来确定模型的参数,然而油田指标的变化无法用一个固定模 型来描述,同时统计措施效果目前主要凭人的主观经验,考虑的因素也 不全面,导致得到的预测精度不高。 综上可以看出,目前的实现方法都需要一定的人工干预,缺乏必要 的科学性,且在大量数据面前表现得无能为力。当前急需依托一种更为 科学和可靠的技术手段来解决现有措施规划方法存在的问题和不足:基 于神经网络的数据挖掘技术能够科学合理地处理大量非线性数据并建立 数据间的相互联系,是解决上述问题的较理想手段。 1 2 2 数据挖掘的国内外研究现状 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们 越来越希望能够将积累的数据转换成有用的信息和知识,以便更好地利 用这些数据进行决策。当前的数据库系统仅能实现数据的录入、查询、 统计等功能,但无法发现海量数据背后隐藏的具有决策意义的知识,无 法根据现有的数据预测未来的发展趋势。面对“被数据淹没,却饥饿于 知识”1 的挑战,数据挖掘和知识发现( d a t am i n i n ga n dk n o w l e d g e d i s c o v e r y ,d m k d ) 技术应运而生,并得以蓬勃发展,并显示出越来越强 大的生命力。 数据挖掘( d a t am i n i n g ,d m ) 就是从大量的、不完全的、有噪声的、 模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又 是潜在有用的信息和知识的过程”。发现知识的方法可以是数学的,也 可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以 被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据 3 中国石油大学( 华东) 硕士论文第1 章前言 自身的维护。由于数据挖掘是k d d ( 数据库中的知识发现) 过程中最为关 键的步骤,在实际应用中对数据挖掘和k d d 这两个术语的应用往往不加区 别。 目前,国外数据挖掘的研究方向及其发展趋势主要有:对数据挖掘 方法的研究和进一步发展,如近年来注重对b a y e s ( 贝叶斯) 方法以及 b o o s t i n g 方法的研究和提高;传统的统计学回归法在k d d 中的应用:k d d 与数据库的紧密结合。 在应用方面包括:k d d 商业软件工具不断产生和完善,注重建立解决 问题的整体系统,而不是孤立的过程。i b m 和微软都成立了相应的研究中 心进行这方面的工作。m e t ag r o u p 曾做出这样的评论“1 ,“全球重要的 企业、组织会发现,到2 1 世纪数据挖掘技术将是他们商业成功与否的至 关重要的影响因素”。i b m 公司发布了基于标准的数据挖掘技术一i b md b 2 智能挖掘器积分服务,可用于个性化的解决方案。两大统计软件公司s a s 和s p s s 也推出了各自的数据挖掘工具e n t e r p r i s em i n e r 和c l e m e n t i n e 。 与国外相比,国内对数据挖掘的研究起步稍晚。1 9 9 3 年国家自然科 学基金首次支持对该领域的研究项目。目前,国内许多科研单位和高等 院校竞相开展数据挖掘的基础理论及其应用研究,这些单位包括清华大 学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。 其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深 入的研究:北京大学也在开展对数据立方体代数的研究;华中理工大学、 复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等 单位开展了对关联规则开采算法的优化和改造:南京大学、四川联合大学 和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及w e b 数据挖掘。3 。对数据挖掘的研究涉及到各个领域,一般集中于学习算法 的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。 由于神经网络在数据挖掘领域的良好应用前景和成功应用,国内外 陆续开展了对于数据挖掘中的神经网络技术的研究。由于神经网络具有 一些十分吸引人的特点,如复杂系统、并行处理、分布存储、可变结构、 高度存储、非线性计算、自组织等,因此神经网络及其技术( 如遗传算 法、决策树推理等) 成为基于神经网络的数据挖掘研究的热点“”1 ,国 4 中国石油大学( 华东) 硕士论文第l 章前言 内外出现了大量的研究报道,如: 1 从神经网络对噪音的鲁棒性以及非线性函数逼近特性出发, h o n g u l 等人提出了规则提取的神经网络方法。 2 l u 和j a g i e l s k a 对已有的数据挖掘工具中的神经网络技术存在的 问题进行了分析,重点对黑箱问题进行了探讨,并提出了一些解决方法。 3 s e t i o n o 等人通过在神经网络中加入惩罚项和结构调整进行属性 特征提取,从而实现对属性的约简,为减少数据挖掘的计算复杂度提供 了前提条件。 4 g i l e s 等人提出从高程面上提取规则的神经网络连接方法是近年 来出现的研究方向之一。 1 3 课题研究内容及思路 油田措施规划的关键是通过研究油田产量与各种影响因素之间存在 依存关系,建立油田措施规划量与措施效果的数学模型,目标是根据输 入的措施量信息,对未来的措施规划效果进行预测。由于措施效果和各 措施量之间不是简单的函数关系,而是一种不严格、不确定的非线性关 系,所以必须找到一种能够高效处理大量非线性数据的技术工具。b p 神 经网络正是构造油田措施规划预测模型的理想工具。本文在对数据挖掘 技术、b p 神经网络和遗传算法的理论作了较为深入研究的基础上,以数 据挖据技术为依托在油田措施规划领域主要作了以下工作: 1 深入分析了面向数据挖掘的b p 网络模型,研究了b p 神经网络的 关键技术,包括训练样本集的前置处理、b p 神经网络结构参数的确定、 b p 网络结构的设计以及网络的训练和测试,从原理上分析了b p 算法存 在的不足,为改进和构建更加科学合理的神经网络模型奠定了基础。 2 针对在确定修正网络权值算法时传统b p 算法收敛速度慢、易陷入 局部极小的不足,提出了基于跳跃梯度的l m b p 算法,给出了局部极小点 的判断条件、梯度增加的速率等规则。 3 针对简单的遗传算法解决较复杂的优化问题时存在早熟及稳定性 差等问题,对遗传算法进行了改进,提出了基于非线性调整的自适应遗 5 中国石油大学( 华东) 硕士论文第1 章前言 传算法,对交叉算子和变异算子进行了优化,实现了交叉率和变异率的 非线性自适应调整。 4 对b p 神经网络存在的不足,提出综合利用基于非线性调整的自适 应遗传算法的全局寻优能力和l m b p 算法快速收敛能力改进学习算法并 优化结构的两种策略。通过实验验证表明,n l s a g a l m b p i 算法和 n l s a g a l m b p 2 算法缩短了模型的训练时间,提高了收敛速度,避免 了陷入局部极小,取得了较好的效果。 5 在解决了b p 神经网络存在的算法和结构的不足之后,基于以上研 究,建立了油田措施效果预测模型。通过属性相关分析和数据预处理, 把本文提出的方法用于油田措施效果的预测,预测结果与实际措施效果 相差不大,尤其是基于n l s a g a l m b p 2 算法建立的模型,预测结果更 加准确。 1 4 论文的组织结构 本文的组织结构如下: 第1 章前言。介绍了本文的研究目的、国内外研究现状及本文的主 要研究内容和方法,阐明了本文的研究意义和学术价值。 第2 章数据挖掘技术理论研究。重点研究了数据挖掘技术相关的基 本理论,包括数据挖掘的基本概念、处理流程、体系结构以及数据挖掘 的功能,对比分析了7 种常用数据挖掘算法的优缺点,为将数据挖掘技 术应用于油田措施规划作了理论的和算法上的准备。 第3 章面向数据挖掘的b p 网络模型研究。主要研究了标准b p 网络 模型和算法,以及面向数据挖掘的b p 神经网络的关键技术。 第4 章基于非线性调整的自适应遗传算法。深入研究了遗传算法的 理论知识,对遗传算法进行了改进,提出了一种基于非线性调整的自适 应遗传算法,实验结果证明,新算法提高了收敛速度,具有更可靠的稳 定性。 第5 章b p 神经网络的自适应全局优化策略研究与改进。首先针对b p 算法收敛速度慢,易陷入局部极小的缺点,提出了基于跳跃梯度的l m b p 6 中国石油大学( 华东) 硕士论文第1 章前言 算法;针对b p 神经网络存在的不足,提出综合利用基于非线性调整的自 适应遗传算法的全局寻优能力和l m b p 算法快速收敛能力改进学习算法并 优化结构的两种策略。 第6 章改进的b p 神经网络模型在油田措施规划预测中的应用。针 对油田措施规划效果预测的特点,用本文提出的两种算法的不同结合方 式建立网络模型,用于措施效果的预测,实验结果表明效果是比较理想 的。 第7 章结论与展望。对研究工作进行了总结,归纳了研究所取得的 成果和创新,并给出进一步研究的思路。 7 中国石油大学( 华东) 硕士论文第2 章数据挖掘技术理论研究 第2 章数据挖掘技术理论研究 2 1 数据挖掘的定义与功能 数据挖掘( d a t am i n i n g ,简称d m ) ,提出的历史虽然较短,但发展 的速度很快,研究过程中人们对数据挖掘赋予了多种的定义”“,例如: s a s 研究所( 1 9 9 7 ) :“在大量相关数据基础之上进行数据探索和 建立相关模型的先进方法”。 b h a v a n i ( 1 9 9 9 ) :“使用模式识别技术、统计和数学技术,在大 量的数据中发现有意义的新关系、模式和趋势的过程”。 h a n d e t a l ( 2 0 0 0 ) :“数据挖掘就是在大型数据库中寻找有意义、 有价值信息的过程”。 1 数据挖掘的定义 数据挖掘的定义可以从技术角度和商业角度分别加以阐述: 数据挖掘技术角度上的定义: 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含的,规律性的,人们事先未知的,但又是潜在有 用的并且最终可理解的信息和知识的非平凡过程。 数据挖掘从商业角度的定义: 按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐 藏的、未知的或验证己知的规律性,并进一步将其模型化的先进有效的 方法。从商业角度看,数据挖掘的主要特点是对商业数据库中的大量数 据进行抽取、转化、分析和模式化处理,从中提取商业决策的关键知识, 即从数据库中自动发现相关商业模式。 2 数据挖掘的特点 与传统信息处理方法相比,数据挖掘技术有其自身的特点: ( 1 ) 处理对象为大规模数据库,数据规模十分巨大,待处理的数据规 模可能达到g b t b 甚至更大; ( 2 ) 信息查询一般是由决策制定者提出的即时随机查询,往往没有精 确的查询要求,需要靠数据挖掘技术寻找其可能感兴趣的东西: 8 中国石油大学( 华东) 硕士论文第2 章数据挖掘技术理论研究 ( 3 ) 某些行动并没有实际发生或很少发生,因而他们对输出所造成的 影响没有在数据库中体现出来,需要利用数据挖掘技术从数据库中提取 有用的规则,为这种情况提出预测; ( 4 ) 由于数据变化迅速可能很快过时,因此要求数据挖掘技术能快速 对数据变化做出反应以提供决策支持,随着新数据的不断加入,规则需 要动态更新; ( 5 ) 数据挖掘中规则的发现主要基于大样本的统计规律,发现的规则 不必适用于所有的数据,当达到某一闽值时便可认为有此规律。 3 数据挖掘的功能 数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。 数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下 六类功能: 1 概念描述定性与对比 概念常常是对包含大量数据的数据集合总体情况的概述。对含有大 量数据的数据集合进行概述性( s u 姗e r i z e d ) 的总结并获得简明、准确的 描述,这种描述就称为概念描述( c o n c e p td e s c r i p t i o n ) “。 2 关联分析( a s s o c i a ti o n a na n a l y s is ) 关联分析就是从给定的数据集中发现频繁出现的项集模式知识,又 称为关联规则( a s s o c i a t i o nr u l e s ) 。关联可分为简单关联、时序关联、 因果关联三种类型。关联分析的目的是找出数据库中隐藏的关联网。 3 分类( c l a s s i f i c a t i n ) 分类就是找出一组能够描述数据集合典型特征的模型或函数,用于 分类识别未知数据的归属或类别( c l a s s ) ,即将未知事例映射到某种离散 类别之一。分类模型或函数可以通过分类挖掘算法从一组类别归属已知 的训练样本数据中学习获得。分类模型的构造方法有统计学方法( 如贝叶 斯分类法) 、机器学习方法( 如判定树方法) 、神经网络方法等。 4 预测 预测是数据挖掘的最重要的功能。主要有两方面的任务,一方面是 通过对数据的分析处理,估计一组数据中某些丢失数据的可能值或一个 数据集合中某些属性值的分布情况:另一方面,根据时间序列型数据, 9 中国石油大学( 华东) 硕士论文第2 章数据挖掘技术理论研究 由历史和当前的数据去推测未来的数据。 5 聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增 强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类 技术主要包括传统的模式识别方法和数学分类学。聚类技术的要点是在 划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵 的描述。 6 孤立点分析 数据库中可能包含一些与数据的一般行为或模型偏离很大的数据对 象,这些数据对象就是孤立点。大部分数据挖掘方法将孤立点视为噪声 或异常而丢弃,而在一些应用中( 如信用卡欺诈) ,罕见的事件可能比正 常出现的事件更有趣。在市场分析中,可用于确定极低或极高收入的客 户的消费行为。 7 演变分析( e v o l u t i o na n a l y s i s ) 数据演变分析描述行为随时问变化的对象的规律或趋势并对其建 模。这类分析除包括时间相关数据的特征化、区分、关联、分类或聚类, 还包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分 析。 2 2 数据挖掘的过程分析 2 2 i 数据挖掘的步骤 在实施数据挖掘之前,首先要确定采取什么样的步骤。很多软件供 应商和数据挖掘顾问公司都提供了一些数据挖掘过程模型,用于指导用 户开展数据挖掘工作。如s p s s 公司的5 a 方法一评估( a s s e s s ) ,访问 ( a c c e s s ) ,分析( a n a l y z e ) ,行动( a c t ) ,自动化( a u t o m a t e ) :s a s 公司的 s e k v a 方法一采样( s a m p l e ) ,探索( e x p l o r e ) ,修正( m o d i f y ) ,建模( m o d e l ) , 评估( a s s e s s ) 。 上述步骤虽按顺序排列,但数据挖掘过程并非是线性的,而是一个 循环往复反复迭代的过程,要取得好的结果就要不断反复重复这些步骤。 数据挖掘的基本步骤内容如下: 1 0 中国石油大学( 华东) 硕士论文第2 章数据挖掘技术理论研究 1 确定业务对象 清晰的定义业务对象,明确数据挖掘的目的是数据挖掘中的重要一 步。数据挖掘的最后结果是不可预测的,但要探索的问题应是有预见的, 盲目进行的数据挖掘是不会成功的。 2 数据准备 数据准备阶段又可进一步分为3 个子步骤:数据选择,数据预处理, 数据转换。数据选择是搜索所有与业务有关的数据信息,从中选择出适 用于数据挖掘的数据的过程。数据预处理通过采取多种措施确保数据质 量,为下一步的分析做数据上的准备。数据转换根据数据影射出一个分 析模型,建立的分析模型是数据挖掘成功的关键。 3 数据挖掘 综合运用数据挖掘的各种技术,对处理后的数据集进行开采挖掘。 这一步是整个d m 过程的核心。除了完善与选择合适的算法需要人工干预 外,数据挖掘工作都由挖掘工具自动完成。数据挖掘阶段首先确定使用 何种数据挖掘算法,同样的任务可以用不同的算法来实现,算法选择的 正确与否直接决定着能否得到合理的结果。选择实现算法要考虑两个因 素:一是不同的数据有不同特点,因此需要与之相关的算法来开采;二是 用户或实际运行系统的要求。 4 结果解释和评价 根据最终用户的决策目的对提取的信息进行分析,把最有价值的信 息区分出来,并且通过决策支持工具提交给决策者。如果不能令决策者 满意,这时则需要整个发现过程退回到发现阶段之前,如重新选取数据、 采用新的数据变换方法、设定新的数据挖掘参数值,甚至换一种挖掘算 法。此外,数据挖掘由于最终是面向人类用户的,因此可能要对发现的 模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类 决策树转换为i f - t h e n 规则。 中国石油大学( 华东) 硕士论文第2 章数据挖掘技术理论研究 综上所述,数据挖掘过程和基本步骤可用图2 1 加以描述 原始 数据 集 被选 择的 数据 预处 理数 据 数据选取l i 数据预处理| | 数据转换 数据准备 被转 换的 数据 被抽 取的 信息 数据挖掘 数据挖掘 图2 1 数据挖掘的过程和基本步骤 被同 化的 知识 分析和同化 解释评估 2 2 2 数据挖掘的体系结构 典型的数据挖掘系统的体系结构如图2 2 示,由图可见,数据挖掘系 统主要包括以下6 部分: 1 数据库、数据仓库及其它信息库。代表了数据挖掘的研究对象, 通常需要使用数据清洗和数据集成操作对这些数据进行初步的处理。 2 数据库或数据仓库服务器。根据用户的数据挖掘请求,数据库或 数据仓库服务器负责提取相关数据。 3 知识库。用于存放数据挖掘所需要的领域知识,这些知识将用于 指导数据挖掘的搜索过程,或者用于帮助对挖掘结果的评估。挖掘算法 中所使用的用户定义的阂值就是最简单的领域知识。 4 数据挖掘引擎。这是数据挖掘系统最基本的部件,由一组功能模 块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。 5 模式评估模块。该模块可根据趣味标准( i n t e r e s t i n g n e s s m e a s u r e s ) ,协助数据挖掘模块聚焦更有意义的模式知识。模式评估模块 1 2 中国石油大学( 华东) 硕士论文第2 章数据挖掘技术理论研究 也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘的实现方法。 数据 图2 - 2 典型的数据挖掘系统的体系结构 6 可视化用户界面。该模块用于用户与系统的交互。一方面用户将 挖掘要求以及挖掘搜索所需的相关知识通过该模块提交给系统,另一方 面系统通过该模块向用户展示或解释数据挖掘的中间过程和结果。 2 3 数据挖掘的常用算法和技术研究 数据挖掘技术能否满足工程实际的需要,关键在于数据挖掘过程中 方法的选择。数据挖掘的方法通常可以分为两大类“”,一类是统计型, 常用的技术有概率分析、相关性、聚类分析和判别分析等;另一类是人 工智能中的机器学习型,通过训练和学习大量的样品集得出需要的模式 或参数。由于各种方法都有自身的功能特点以及适用领域,所以数据挖 掘方法的选择将最终决定结果的质量和效果。下面逐一介绍数据挖掘中7 种比较行之有效的算法和技术: 1 决策树( d e c i s i o i lt r e e ) 1 3 中国石油大学( 华东) 硕士论文第2 章数据挖掘技术理论研究 决策树是通过一系列规则对数据进行分类的过程。首先是寻找数据 库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不 同取值建立树的分枝;在每个分枝中重复建树的下层结点和分枝的过程, 即可建立决策树。采用决策树,可以将数据规则可视化,其输出结果也 容易理解,比较直观。缺点是处理复杂性的数据时,分支数非常多,管 理起来难度很大。决策树法一般用于分类和预测,常用算法有c a r t , c h a i d ,i d 3 ,c 4 5 ,c 5 o 等。 2 遗传算法( g e n e t i ca l g o r i t h m ) 遗传算法是一种基于生物进化理论的全新优化空间搜寻法,其基本 观点是“适者生存”。在数据挖掘中,常把任务表示成一种搜索问题, 利用遗传算法强大的搜索能力找到最优解。具体是模仿生物进化的过程, 通过进行选择、交叉和变异遗传操作,直至满足最优解。在建立数据模 型时,将遗传算法与神经网络相结合,可以更好的提高模型的可理解性。 遗传算法己在优化计算搜索调度、分类机器学习方面显示出了明显的优 势。本文就用遗传算法优化b p 神经网络的结构和权值。 3 贝叶斯网络( b a y e sn e t w o r k ) 贝叶斯网络是基于后验概率的贝叶斯定理建立在对数据进行统计处 理基础上的数据挖掘方法。将不确定事件通过网络连接起来可以对与其 它事件相关的事件进行预测,其网络变量可以是可见的。贝叶斯网络具 有分类、聚类、预测和因果关系分析的功能,其优点是易于理解,预测 效果好,缺点是对发生频率很低的事件预测效果不好。 4 神经网络( n e u t r a ln e t w o r k ) 神经网络是最常用的数据挖掘技术之一,最早由心理学家和神经生 物学家提出,旨在寻求开发和测试神经的计算模拟“。它类似于人类大 脑重复学习的方法,先给出一系列的样本,进行学习和训练,从而产生 区别各种样品之间的不同特征和模式。样本集应该尽量体现代表性,为 了精确地拟合各种样本数据,通过上百次,甚至上千次的训练和学习, 系统最后得出潜在的模式。当它遇到新的样品数据时,系统就会根据训 练结果自动进行预测和分类。最大的特点是难于理解,即无法解释如何 得出结果和使用了什么规则。它需要很长的训练时间,需要大量的参数, 1 4 中国石油大学( 华东) 硕士论文第2 章数据挖掘技术理论研究 而且解释性较差。该算法的优点是对复杂问题能进行很好的预测,对噪 声数据的承受能力比较高,以及它对未经训练的数据分类模式的能力。 神经网络可细分为前馈式、反馈式和自组织神经网络,具有优化计算、 聚类和预测等功能。本文就使用改进后的b p 网络对油田措施规划效果进 行预测,取得了比较好的效果。 5 粗糙集( r o u g hs e t s ) 该理论是波兰p a w l a k 教授在1 9 8 2 年提出的,它是一种新的数学工具。 这一方法在数据挖掘中具有重要的作用,常用于处理含糊性和不确定性 的问题,发现不准确数据或噪声数据内在的结构联系。其主要优点就是 不需要任何关于数据的初始的或附加的信息,因此广泛应用于不确定、 不完整的信息分类和信息获取。 6 统计分析( s t a t i s t i c sa n a l y s i s ) 统计分析的理论基础主要是统计学和概率论的原理,是一种较为精 确的数据挖掘技术,它是一种基于模型的方法,包括回归分析、因子分 析和判别分析等。该方法的优点是容易理解,对结果描述精确。, 7 关联规则( a s s o c i a t i o nr u l e ) 关联规则是指从大量的历史数据中找出具有依赖性或关联性的知 识。在发现了具有强关联性的数据后,便可以这些数据为基础完成对企 业产品的组合销售。数据之间的关联性是依靠支持度和置信度这两个属 性来进行度量的。例如,购买商品a 和b 的客户有8 5 同时也购买了商品c , 用规则表示为a b j c ( 8 5 ) 。i f t h e n 规则:例如,“如果a ,b 和c 同 时发生,则d 发生的概率为8 5 。” 2 4 本章小结 本章首先介绍了数据挖掘理论的基本概念和主要功能,然后详细介 绍了数据挖掘的相关步骤和数据挖掘系统的典型体系结构。最后重点对 数据挖掘中的关键技术即算法作了较为深入的探讨,对比分析了7 种数 据挖掘算法的优缺点,为将数据挖掘技术的遗传算法和b p 神经网络应用 于油田措施规划作了理论的和算法上的准备。 】5 中国石油大学( 华东) 硕士论文第3 章面向数据挖掘的b p 网络模型研究 第3 章面向数据挖掘的b p 网络模型研究 3 1 标准b p 神经网络模型及算法 3 1 1b p 网络的结构 b p ( e r r o rb a c kp r o p a g a t i o n ,b p ) 神经网络,也称误差反向传播神 经网络,是一种由非线性变换单元组成的多层前馈网络。由 d e r u m e l h a r t 和j l m c c l e l l a n d 领导的科学家小组于1 9 8 6 年在并行 分布处理( p a r a l l e ld i s t r i b u t e dp r o c e s s i n g ) 一书中提出,并解决了 多层网络的学习问题,使得多层前馈网络已经成为应用最广泛的人工神 经网络。 b p 神经网络,一般由输入层、隐含层、输出层组成。1 9 8 9 年r o b e r t h e c h t n i e l s o n 证明了对于闭区间内的任意一个连续函数都可以用含有 一个隐含层的b p 网络来逼近,因而一个三层的b p 网络就可以完成任意的n 维到m 维的映射“”。这给了我们一个基本的设计b p 网络的原则,即一个三 层的b p 网络在解决问题时已经基本可以满足要求。虽然增加层数可以进 一步减低误差,提高精度,但同时使网络复杂化增加了网络的训练时间, 得不偿失。误差精度的提高可以通过增加隐含层的神经元数目来得到, 其训练效果比增加层数更容易,所以一般情况下应首先考虑增加隐含层 的神经元数目而不是增加隐含层来提高网络的精度。常见的三层b p 模型 如图3 1 所示。 输入层隐含层输出层 图3 - 1 三层b p 神经网络示意图 1 6 中国石油大学( 华东) 硕士论文第3 章面向数据挖掘的b p 网络模型研究 应该说明,各层神经单元的实际数目依赖于具体的应用问题,图中 各层单元数的多少并没有实际意义。上述b p 神经网络模型一般具有如下 几个特点: ( 1 ) 各层神经元仅与相邻层神经单元之间有连接。 ( 2 ) 各层内神经元之间无任何连接。 ( 3 ) 各层神经元之间无反馈连接是一种前馈网络。 仅仅搭建一个模型是没有意义的,神经网络在实际工作之前必须进 行学习,只有通过学习神经网络才能获得一定的“智能”。下面介绍神 经网络研究领域著名的b p 学习算法。 3 1 2 标准b p 网络的学习算法 b p 算法的基本思想是利用l m s 学习算法“”,在网络的学习过程中使 用梯度搜索技术,利用误差向后传播来修正权值,从而实现网络的实际 输出与期望输出的均方差最小化。 b p 算法的训练过程可分为两步:第一步,输入的信息流从输入层经 隐含层到输出层,逐层处理并计算出各神经节点的实际输出值,这一过 程称为信息流的正向传播过程;第二步,计算网络的实际输出与训练样 本期望值的误差,若该误差未达到允许值,根据此误差确定权重的调整 量,从后往前逐层修改各层神经元节点的连接权重,这一过程称为误差 逆向传播过程。其中的网络权值调整采用d e l t a 学习规则,即根据梯度法 沿着误差曲面的梯度最速下降,从而实现网络误差的最小化。 1 误差正向传播过程 以图3 1 所示的b p 神经网络为例,假设b p 网络的输入层节点数为, 隐含层节点数为,输出层节点数为k 。输入向量为 x 9 = ( x o ,x 】,x2 ,x j _ 1 ) ,其期望输出向量为d 9 = ( d o , d l ,d2 ,dk - 1 ) ,则有: ( 1 ) 输入层:o j = x ,f = o ,1 ,2 ,一1 ; ( 2 ) 隐含层:为简化推导,把各点的阈值当作一种特殊的连接权值, 其对应的输入恒为一1 。对于第j 个神经元的输入为: 1 7 中国石油大学( 华东) 硕士论文第3 章面向数据挖掘的b p 网络模型研究 , n e t ,= v pd f ,其中o o = 一1 、v i o 为阈值 t - - - - o 其第,个节点的输出为:0 ,= f ( n e t 。) ,j = 0 ,l ,2 ,j l ( 3 ) 输出层:同理,对于第k 个神经元的输入为: j n e t k = w 止oj 其中,o o = 一1 、m o 为阈值; j = o 其第k 个节点的输出为:o k = f ( n e t t ) ,七= o ,1 2 “,七- 1 定义b p 网络的能量函数( 误差函数) 为: k - i e ,= ( 彤一o f ) 2 k = 0 则个样本的总误差为: n 一1 i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论