




已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)油气生产信息数据仓库维层次结构模型与维护研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 论文题目: 专业: 硕士生: 指导教师: 油气生产信息数据仓库维层次结构模型与维护研究 计算机应用技术 高恚国( 签名) 方明( 签名) 摘要 油气田开发生产过程中,每天都会产生大量的生产数据信息,这些数据信息逐年累 积后逐步形成海量数据,如何从这些信息中把有价值的数据抽取出来进行有效利用,为 油气田开发生产提供决策依据已显得日趋重要。传统的以操作型处理为目的的数据库不 能有效地提供决策,需要构建相应的数据仓库管理历史数据和提供决策支持。维层次结 构模型( d i m e n s i o ns t r u c t u r em o d e l ) 是建立数据仓库的关键,它是数据的多维视图, 它给分析人员和管理人员的分析提供视角,直接影响着决策分析的结果正确与否。论文 在分析了油气数据仓库构建的基础上,研究提出了适合于油气数据仓库的数据结构模型 和数据维护策略,主要包括有: 设计提出油气生产信息数据仓库维层次数据结构模型。系统针对油气数据仓库维层 次复杂多变、维定义繁琐的特点设计了一种用户自定义的分析模型,通过对数据仓库维 模型的分析讨论,设计合理的油气数据仓库维结构模型,为联机分析处理( o l a p ) 提供 有力的基础,方便用户进行复杂的多维分析。 提出油气生产信息数据仓库的多维视图。视图存放着聚集过的数据信息,它本身也 可以看成是一个已经定义好的超级立方体。系统通过对广义索引和动态视图的定义使管 理者不用通过再次维与实体之间的映射而可以直接调用,简化了操作,提高了管理的灵 活性。 给出油气生产信息数据仓库的数据维护策略。系统根据油气生产数据仓库的要求对 维护策略、数据源中的数据变化的捕捉和维护算法的类型进行制定,采用时标法对数据 进行更新追加,保证了数据源中数据与数据仓库中的相应数据变化时同步更新。 关键诃:维层次结构模型、数据抽取、数据维护策略 论文类型:应用研究 u 英文摘要 s u b j e e t :r e s e a r c ho nt h ed i m e n s i o nm o d e la n dm a i n t e n a n c eo fo i li n f o r m a t i o n a l d a t aw a r e h o u s e s p e c i a l i t y :c o m p u t e ra p p h c a t i o nt e c h n o o g y n a m e :g a oz h i g u o ( s i g n a t u r e ) 血o :丛& 衄 :m i i n s t r u c t o r f a n g m i n g ( s i 印咖r e ) - 丘移也争 : ( s 咖a t l l r e ) 毖车坐算 a b s t r a e t am o u n to fd a t aa n di n f o r m a t i o no fp r o d u c t i o ni sp r o d u c e dd u r i n go i la n dg a sf i e l d d e v e l o p m e n ta n dp r o d u c t i o ne v e r yd a y , a n dt h ed a t aw o u l db e c o m ev e r yl a r g ea f t e ral o n g t i m e i th a sb e c o m ei m p o r t a n tg r a d u a l l yo nh o wt oa b s t r a c tt h ev a l i dd a t aa n di n f o r m a t i o n f r o mt h en u m b e ro fd a t ai n f o r m a t i o na n du t i l i z et h ev a l u a b l ed a t a b e c a u s ot h ec o n v e n t i o n a l d a t a b a s ew h i c ht h ep u r p o s eo fo p e r a t i o nc a n n o tw o 、,i d et h ev a l i dd e c i s i o n - m a k i n g , i tn e e dt o b u i l dt h e c o r r e s p o n d i n g d a t aw a r e h o u s et o m a n a g e l l i s t o f i c a ld a t aa n d p r o v i d e d e c i s i o n - m a k i n g t h ef o u n d a t i o no fd i m e n s i o ns t r u c t u r em o d e li st h ek e yo ft h ed a t a w a r e h o u s e i ti sm u l t i - d i m e n s i o nv i e w , a n di tp r o v i d et h ea n a l y z ea n g l eo fv i e wt oa n a l y z e p e r s o na n da d m i n i s t r a t o r s ,a l s oi ti n f l u e n c ed i r e c t l yt h er e s u l to f d e c i s i o n - m a k i n ga n a l y z e o n t h eb a s eo fb u i l d i n gf o u n d a t i o no fo i ld a t aw a r e h o u s e ,t h ep a p e rr e s e a r c hi ta n dp r o v i d et h e d a t as t r u c t u r em o d e la n dd a t am a i n t e n a n c es t r a t e g y t h a ti n c l u d i n g : d i m e n s i o ns t r u c t u r em o d e lo fo i ld a t aw a r e h o u s ew a sd e s i g n e da n dp r o v i d e d t h r o u g h a n a l y z ea n dd i s c u s so fd a t aw a r e h o u s ed i m e n s i o ns t r u c t u r e ,w ed e s i g nt h el o g i c a ld i m e n s i o n s t r u c t u r et h a tf i t t i n gt oo i ld a t aw a r e h o u s ea n dp r o v i d eap o w e r f u lf o u n d a t i o nf o ro l a p t h i s s y s t e md e s i g n sa na n a l y t i cu s e r - d e f i n e dm o d e l t op r o m o t eu s 盯c o n v e n i e n c e t h em u h id i m e n s i o nv i e ww a sa d v a n c e df o ro i li n f o r m a t i o nd a t aw a r e h o u s e a f t e r d e f i n i n gb r o a di n d e xa n dd y n a m i cd i m e n s i o ni tc a nb eu s e dd i r e c t l yn o tt h r o u g hm a p p i n g b e t w e e nd i m e n s i o na n do b j e c ta g a i n , u s i n gi tc a l ls i m p l yt h eo p e r a t i o no fa d m i n i s t r a t o ra n d i m p r o v et h ef l e x i b i l i t yo f m a n a g e d a t am a i n t e n a n c es t r a t e g yw a sg i v e nt oo i ld a t ai n f o r m a t i o nw a r e h o u s e t h i ss y s t e m w i l le s t a b l i s ht h ed a t am a i n t e n a n c es t r a t e g ya n dc a t c ht h ec h a n g eo fd a t aa n de d i tt h e m a i n t e n a n c ea r i t h m e t i c t h r o u g ha d o p tt i m e m a r km e t h o di tc a nk e e pd a t au p d a t e s y n c h r o n i z a t i o nb e t w e e nt h ed a t as o u r c ea n dt h ec o r r e s p o n d e dd a t ao f d a t aw a r e h o u s e k e y w o r d :d i m e n s i o ns t r u c t u r e e t ld a t am a i n t e n a n c es t r a t e g y t h e s i s : a p p l i c a t i o ns t u d y 1 1 1 学位论文创新性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其 他人已经发表或撰写过的研究成果;也不包含为获得西安石油大学或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名:高压f 訇日期: 一7 s ,j 学位论文使用授权的说明 本人完全了解西安石油大学有关保留和使用学位论文的规定,即:研究生在校攻读 学位期间论文工作的知识产权单位属西安石油大学。学校享有以任何方法发表、复制、 公开阅览、借阅以及申请专利等权利。本人离校后发表或使用学位论文或与该论文直接 相关的学术论文或成果时,署名单位仍然为西安石油大学。 日期:! ! ! 乙:哆 同期:坦2 笪笺 名 名 签 签 者作 师 文论 导 第一章绪论 1 1 研究背景及意义 1 1 1 研究背景 第一章绪论 石油工业是国家的支柱产业之一。石油油气开发生产是直接影响石油工业效益的关 键因素。油气开发生产涉及到多个学科领域,是一个人员与技术高度密集,集技术、管 理与经济等为一体的系统工程。国内不同石油企业信息化发展状况不尽相同,但共同点 是以生产处理、解释为核心的信息技术已在石油企业的生产经营中起着不可替代的作 用。 2 0 0 5 年,甘谷驿油矿与西安石油大学配合开发了甘谷驿油矿勘探开发数据库管理 信息项目系统并投入运行。“甘谷驿油矿勘探开发数据库管理信息系统”是针对甘谷驿 油矿勘探开发领域的生产、管理、科研的整体解决方案。包括开发科管理系统等多个子 系统。可以对甘谷驿油矿在勘探、开发领域已形成的近3 0 0 0 口探、油、水井所积累的 庞大钻井、地质、测井、压裂、测试、井史等信息和历史数据,进行及时有效的管理。 这些数据是指导油田进一步勘探开发、科研的基础数据,也是日常技术工作中单井作业 的常用数据,因此具有非常重要的意义。 1 1 2 研究意义 石油企业的所有重要决策,都离不开对数据的分析:油气资源是在分析勘探数据基 础上找到的;一个油气田的开发和开采方案,是在分析所有勘探开发生产数据的基础上 制定的,以生产数据处理、解释为核心的信息技术己在石油企业的生产经营中起着不可 替代的作用。数据是信息化的源头,没有数据或数据不真,上层应用做的再好也没有实 际意义。信息化要切实解决企业关心的问题,数据资源管理是关键。 数字油田建设的基础是油田资源的数字化,高效的数据管理是实现数字油田的前 提。油田勘探开发活动过程中产生大量的数据,这些数据本身是有关联关系的。只有从 油田行业的角度,实现了数据之间有机关联,才能实现数据一次录入、全局共享、信息 联动,才能从根本上解决底层数据的集成问题,才能为专业更好提供数据服务,否则接 口越来越多,运行效率和维护都将是问题。介于目前国内石油行业面临的紧迫形势,在 建立数据模型的过程中深入研究国际标准,高起点进行基础数据的集成工作,为将来应 用提供好的支持平台。该系统模型只是简要地对涉及油田核心业务数据的生产活动等进 行数据关联性分析和模型设计,依照这种思路,该系统模型还可以进一步向地质勘探、 钻井等石油行业等其它多个领域移植和推广,将有着广泛的应用前景和深远的实际意 义。 西安石油大学硕士学位论文 1 2 课题依据与现状 1 2 1 传统管理系统的缺点 计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了。最初的数据管 理形式主要是文件系统,少量的以数据片段之间增加一些关联和语义而构成层次型或网 状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式是固定的、死板的。 管理信息系统( m i s ) 起源于2 0 世纪6 0 年代。现有m i s 的商品软件中不少就是面向 某个或某类管理职能的。企业中具有条件的部门客观上不可能完整的设计整个系统的管 理信息系统,仅从本部门的利益出发率先实现了计算机管理。就企业的整体m i s 而言是 重复投资,是造成人、财、物极大浪费的直接原因。许多管理信息系统m i s 花费了巨大 的人力和物力,但投入使用运行后不久就夭折了,原因在于严重忽视软件工程的最后一 个也是最重要的一个环节维护而导致m i s 的失败。用户对即将建立的新系统没有直观 的预见性;开发起点较低,所使用的分析工具( 各种图表) 大部分要靠手工绘制,致使开 发周期过长;这种方法要求系统开发人员在系统分析过程中必须充分掌握用户的各种需 求、管理现状并预见可能发生的变化,这不太符合人们循序渐进地认识事物的客观规律。 1 2 2 数据仓库的优势 数据仓库的兴起实际上是数据管理的一种回归,是螺旋式的上升。今天的数据库就 好比当年的层次数据库和网型数据库,它们面向事务处理;而数据仓库就好比是当年的 关系数据库,它针对联机分析。所不同的是,今天的数据仓库不必再为联机事务处理的 特性而无谓奔忙,由于技术的专业化,它可以更专心于联机分析领域的发展和探索。经 过长期发展,联机事务处理系统的市场至9 0 年代中期出现饱和迹象,其增长速度明显 减慢。这导致各大数据库厂商的传统业务增长面临严峻挑战,寻求新的业务增长点成为 他们的当务之急。数据仓库的兴起无疑为数据库产品创造了巨大的市场,它将成为本世 纪末到下世纪初数据库市场的一个新的增长点。数据仓库是数据管理技术和市场上一个 方兴未艾的领域,有着良好的发展前景。数据仓库技术的发展自然包括数据抽取、存储 管理、数据表现和方法论等方面。在数据抽取方面,未来的技术发展将集中在系统集成 化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库 本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将 使数据库厂商明确推出数据仓库引擎,作为服务器产品与数据库服务器并驾齐驱。在这 一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面,数理 统计的算法和功能将普遍集成到联机分析产品中,同时与i n t e r n e t w e b 技术紧密结合, 推出适用于i n t r a n e t 、终端免维护的数据仓库访问前端。在这个方面,按行业应用特 征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库 2 第一章绪论 实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统 设计的必备。 计算机应用发展的数据仓库倾向是数据仓库发展的推动力。传统的联机事务处理系 统并不单独考虑数据仓库,但实际应用对数据仓库所能提供的功能却早有需求。因此, 许多事务处理系统近年来陷入一个两难的境地:在现有系统上增加有限的联机分析功 能,包括复杂的报表和数据汇总操作;一方面严重影响了事务处理联机性能,另一方面 统计分析又因系统结构上的种种限制而不能充分体现。其结果是:应用技术的发展是朝 着更加细化,更加专业的方向。在新一代的应用系统中,数据仓库在一开始便被纳入系 统设计的考虑,联机分析应用于普遍的事务处理系统之中。在数据管理上,联机事务处 理和数据仓库在应用中相对独立,使联机事务处理系统本身更加简洁高效,同时分析统 计也更为便利。面向行业的数理统计学向更为普遍的应用发展,并集成到应用系统的数 据仓库解决方案中。它们将立足于数据仓库提供的丰富信息,更好地为业务决策服务。 1 2 3 现状分析 目前,石油企业领导如果在石油油气生产开发而产生的大量生产数据的基础上要做 出一项决策,仍需要查询多个基于各种异构数据源的业务系统和外部系统后,进行大量 数据分析后才能做出决策,工作量大,且容易出现人为差错,从而影响决策的质量。同时 随着油气勘探开发工作的不断深入,难度不断加大和信息化建设推进,往往出现以下问 题: ( 1 ) 对于大量的数据不能提供一个统一的数据接口,不能采用一种通用的标准和规范, 共享通用的数据源; ( 2 ) 随着业务的增加,对于管理人员的操作越来越复杂,操作越来越多,用户分散, 相互联系程度低,信息相对封闭,共享程度低; ( 3 ) 大量日趋复杂的勘探开发业务依然或多或少的靠手工处理进行流转: ( 4 ) 信息加工、处理手段差,影响信息质量,无法直接从各级各类业务信息系统采集 数据并加以综合利用,无法对外部信息进行及时、准确的采集、利用,业务系统产生的大 量数据无法提炼升华为信息,及时提供给决策部门; ( 5 ) 有的业务信息系统平台及开发工具互不兼容,无法在大范围内应用。 1 3 数据仓库在石油行业的应用和存在的问题 1 3 1 应用现状 如何加快石油行业的信息化建设,提高工作效率,更好的利用现有的大量数据做出 正确的决策是当前石油企业发展的必然要求。随着数据仓库技术和联机分析处理技术的 西安石油大学硕士学位论文 不断发展,各级石油企业逐渐建设自己的数据仓库。目标是建立一个集成、共享的企业 级信息平台,为企业提供多维信息统计分析、关系挖掘、查询检索和报告生成工具,为 管理层提供及时有效的决策信息。概括起来,目前数据仓库主要在以下几个方面来进行 研究: ( 1 ) 应用在石油行业物资管理方面。例如在文献 2 7 基于数据仓库技术的物资管 理系统研究与开发一文中运用数据仓库技术将物资管理常规业务处理部分生成物资管理 系统的源数据库集合,通过数据的提取、集成、转化工具,将数据从数据库转移到数据 仓库中,再利用各种分析工具( 查询检索工具、报表生成工具、多维数据的o l ap 分析工 具、数据挖掘d m 工具等) 实现决策系统的各种要求。 ( 2 ) 应用在装备维修管理方面。在文献 2 8 数据仓库技术在装备维修管理中的应 用一文中将单位装备消耗定义为主题,它含有四个维:时间维、单位维、装备维、器材 维。时间维根据分析需求维层次划分为年、半年、月,单位维划分为一级、二级、三级 单位,装备维描述装备器材的主题及汇总层次。在本文中充分体现了维层次和维分类在 数据仓库分析的重要性。 ( 3 ) 应用在石油生产管理方面。在文献 2 9 建立综合石油数据仓库需要解决的主 要问题文章中主要是运用数据仓库技术将原来孤立的、异构的生产信息系统经过整合、 集成后达到查询一个综合信息不必再到各个业务系统进行分别查询和人工处理的目的。 它使得企业能够使多种业务应用系统、多种异构数据源并存、并实现动态数据源的动态 及时、互访和信息的挖掘及综合利用。 1 3 2 存在问题 虽然数据仓库技术与联机分析处理技术在国内石油生产方面的研究与应用已经开 展,但是还很不成熟。由于国内石油行业生产情况复杂,加上以往的石油生产管理系统 名目繁多,没有统一的标准规划,使数据仓库技术在石油生产上的应用开展得非常缓慢。 这主要有两方面的原因: ( 1 ) 油气生产数据仓库中的数据来自多种业务数据源,这些数据源可能是在不同的 硬件平台上,使用不同的操作系统,因而数据以不同的格式存在不同的数据库中。如何向 数据仓库中加载这些数量大、种类多的数据,已成为建立油气生产数据仓库所面临的一 个关键问题。如果数据仓库中的信息不准确,那么这个数据仓库便形同虚设。而由于历 史原因油气生产数据仓库的数据来源格式多样,这就给建立油气数据仓库带来了很大的 困难。 ( 2 ) 目前使用的多维数据模型主要由星型模型、雪花模型、星网模型等。各种模 型都有自己的优点和缺点。设计一个适合于油气生产数据仓库的数据模型就需要从油气 生产需要的角度出发,需要对油气生产的决策需求又很深的认识,并具备石油生产的一 4 第一章绪论 些专业知识,这样就给油气生产数据仓库在油田行业的开展应用带来了难度。 1 4 论文的主要研究工作 在油气生产信息数据仓库系统中,分析并定义该数据仓库组织结构,对该数据仓库 进行数据获取、数据管理( 主要有数据抽取、数据转换、数据清理、数据集成、元数据 管理) ,并且设计适合该系统的维结构模型以及数据的维护研究这是本论文研究的思路。 本文的内容主要分为六章: 第一章绪论 本章在分析和讨论油气数据仓库现状和存在问题的基础上,阐述了本文的选题依据 是将数据仓库技术与i n t e r n e t 结合起来,提出了本论文的主要研究内容和研究重点。 第二章油气数据仓库的总体分析 本章在研究数据仓库理论的基础上分析了油气数据仓库的数据来源、特点等内容, 提出了油气生产信息数据仓库的系统结构的具体规划,并简要说明了主要平台的功能。 第三章油气数据仓库数据建模 本章首先分析了多维数据模型及其组织模式,并提出了概念模型、逻辑模型、物理 模型的设计原则,定义并引申了设计中用到的代数操作。详细介绍了油气数据仓库的概 念模型设计、逻辑模型设计和物理模型设计,这是本系统的设计重点。 第四章油气数据仓库数据组织与维护 本章主要介绍油气数据仓库的数据组织和维护策略。首先根据油气数据仓库分析的 需要确定油气生产数据的粒度和数据组织形式,组织一个好的原子仓库是数据分析的关 键步骤,它直接决定着整个数据仓库的执行效率。在本章的最后简要介绍了元数据的作 用和分类,在数据仓库的数据处理和维护方向上主要是运用元数据来进行数据维护。 第五章油气生产信息数据仓库的设计与实现 根据系统的设计,编程实现油气数据仓库的系统软件。简单介绍了系统的总体设计、 维表设计、数据分析、数据视图等方面的实现技术。 第六章是对整个论文工作的总结和展望。 西安石油大学硕士学位论文 第二章油气数据仓库总体分析 油气数据仓库通过对以往油气生产业务数据库中的大量静态业务数据进行抽取、转 换、过滤和清洗,形成综合并面向分析的数据仓库数据,然后为决策支持系统的决策处 理过程提供有效的支持,也可以为其它的信息处理系统服务。首先简要介绍一下数据仓 库的一些基本定义和特点。 2 1 数据仓库简介 2 1 1 数据仓库的概念及特点 1 9 9 2 年,业界公认的数据仓库之父w h i n m o n 在其所著建立数据仓库一书中 提出了数据仓库的概念:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史 变化的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理 解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型 数据库:其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组, 并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 1 、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分 离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指 用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统 相关。 2 、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相 互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、 清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保 证数据仓库内的信息是关于整个企业的一致的全局信息。 3 、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某 个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的 查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 4 、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中 的数据通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用数据仓库的时 点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出 定量分析和预测。 6 第二章油气数据仓库总体分析 2 1 2 数据仓库系统与传统数据库系统的区别 由数据仓库的概念可以看出,数据仓库系统与传统的m i s 系统( 或者o l t p 系统) 有 着很多区别,同时又有一定的联系。 首先,数据仓库系统是为了分析,并最终辅助决策管理,所以它是面向企业的中高 级管理人员,尤其是企业发展方向的掌握者。而传统的o l t p 系统大多是为了处理日常 的业务管理,所以它是面向一般的业务员、操作员。 其次,一般数据仓库系统的数据来源于m i s 系统所产生的大量历史数据或者其它数 据源,在很大意义上,数据仓库系统利用了o l t p 系统的数据,并按照企业的主题重新 组织数据,建立一个企业内部或者部门内部的统一的数据平台,所以底层数据组织的设 计是围绕主题来展开的;而传统的0 l t p 系统要根据企业业务的规则来设计数据模式。 第三,数据仓库系统一般只对数据进行查询,几乎不进行插入、删除、更新等操作 ( 除了在仓库系统周期性维护时) :而传统的o l t p 系统则要频繁地进行插入、删除、更新 等操作。表2 一l 列出了两者的比较。 表2 - 1 数据仓库系统与传统_ i s 系统的比较 数据仓库系统传统m i s 系统 实现目标分析查询,决策支持日常业务处理,数据处理 使用用户 仓、i p 绎弹涣簧者 操作员 数据组织目标面向主题面向业务操作 对数据的操作查询、计算插入、删除、更新 数据更新频率周期性频繁 建立数据仓库并不是要取代原有的运行数据库系统,其目的是为了将企业多年来已 经收集到的数据按一个统一且一致的企业级视图组织并存储。然后对这些数据进行分 析,从中得出有关企业经营好坏、客户需求、对手情况以及以后发展趋势等有用信息。 帮助企业及时、准确地把握机会,以求在激烈的竞争中获得更大的利益。作为数据库技 术的一种新的应用,数据仓库用数据库管理系统来管理其中的数据。也就是说,数据仓 库是企业范围内数据的处理,它将分散的企业内各种跨平台的数据经过重新组合和加 工。数据仓库最根本的特点是物理地存放数据,而且这些数据并非是最新和专有的,而 是来源于其他的数据库。建立数据仓库的最终目标是建立一个较全面、完善的信息应用 的基础,然后利用该信息基础支持高层决策分析。最终用户可以在数据仓库的基础上进 行数据的深层挖掘、多维数据分析、动态查询和动态生成报表等。数据仓库能够为企业 决策者方便地分析企业发展状况,进而为企业决策提供有效的途径。 7 西安石油大学硕士学位论文 2 2 油气数据仓库的数据分析 2 2 1 油气生产数据来源 油气生产信息数据仓库的数据主要来自于开发科系统日常数据、修井作业系统日常 数据、井下作业系统日常数据、采油生产系统日常数据、注水生产系统日常数据等。按 照统一或者一定的规范和原则将数据清洗和整理成为全部一致并且适于分析的数据形 式的过程。根据具体分析活动的需要,系统要求可以按照多种处理周期进行数据的处理, 例如年、季度、月、周、日;根据不同业务系统的特点,也会采取灵活的数据处理周期, 例如每日抽取和处理最近两个月的数据等。 ( 1 ) 开发科系统主要包括以下数据 钻井及井位基本数据 油层( 层位) 砂体数据 压段使用情况数据 定向井连续测斜数据 钻井生产数据 固井生产数据 测井生产数据 射孔生产数据 探井试油数据 油井生产数据 ( 2 ) 修井作业系统主要包括以下数据 下工具作业井数据 修井事故数据 安装数据 ( 3 ) 井下作业系统主要包括以下数据 井下单井压裂施工基础数据 油水井安装数据 ( 4 ) 注水生产系统主要包括以下数据 注水井生产数据 受益油井生产数据 ( 5 ) 采油生产系统主要包括以下数据 措施井生产数据 非正常井录入数据 各系统的数据主要来源于s o ls e r v e r 数据库中,但也有一定数量的数据是来自于 第二章油气数据仓库总体分析 a c c e s s 数据库和e x c e l 表中,也有少量的数据是来自于d b f 格式的数据表中。在将数 据统一放到数据仓库中的原子仓库中时就需要进行数据转换、数据抽取、数据过滤、数 据清洗和加载。 2 2 2 油气生产数据特点 油气生产信息数据仓库系统需要统计的数据涉及到上述系统,统计的数据有以下几 个特点: ( 1 ) 数据格式多种多样,一致性较差,存在数据冗余。主要体现:使用的数据格式均 不相同,并且各个系统相对独立。在系统单独作用的情况下,一般都没有问题,但要将 这些不同系统或不同时期的数据集中起来综合利用,就可能出现数据不齐全,不一致或 重复的现象。 ( 2 ) 数据来源多,但数据存放分散,缺乏统一管理。统计数据不仅来源于统计系统 内部,也来源于企业和其他相关部门或单位。这些统计数据一般分散存放在各个统计专 业科室的数据库中,而且大多只保存近期数据,缺乏集中存放和管理不同专业、不同时 期统计数据的有效手段,因此不利于统计数据的进一步加工利用。 ( 3 ) 数据量很大,但对数据资源的开发利用不充分。统计指标多,数据量大,各级 统计部门除了将这些数据汇总成为统计报表、统计年鉴、市情手册或经济卡片之外,缺 乏对专业统计数据进行各种深层次分析、综合、提炼、挖掘和展现的应用软件,因此很 难对丰富的统计数据资源进行二次开发利用,最终用户可利用的分析、预测数据不多, 能辅助决策的有效信息就更少。 ( 4 ) 偏重于上报统计报表,忽视了政府宏观决策支持和企业微观决策支持。以前统 计部门的职能主要是为上级统计机关报送统计报表。现在统计部门不仅要为上级统计机 关报送统计报表,而且还要更多地为辅助本级政府宏观决策和企业微观决策及时提供各 种信息和情报。 2 3 油气生产信息数据仓库的系统结构 2 3 1 数据仓库的传统体系结构 数据仓库体系结构的提出是为了简化数据仓库方案的设计、实现和管理。用于描述 在构建、使用和管理数据仓库的过程中各个构件的相互关系。基于用户的反馈以及针对 数据仓库的新的发现,数据仓库的体系结构将随着时间不断发展和完善。 数据仓库作为数据存储的一种组织形式,它从最初的数据源获取原始数据,按照决 策的要求重新组织,形成了具有不同粒度的综合数据层,这是数据仓库的一个方面:另 外,数据仓库还需对其存储的数据进行操纵、分析、挖掘和管理等以支持决策。数据仓 9 西安石油大学硕士学位论文 库系统是对原始数据进行抽取、转换、过滤、清洗和加载,并对数据仓库中存储的数据 进行更新、管理、使用和表现的相关软件工具的集合,用以支持数据仓库应用或管理 决策。数据仓库系统通常由管理部分、数据仓库、o l a p 服务器和前端应用四都分组成。 这四部分关系如图2 一l 所示。 数据管理数据仓库前端应用 图2 - 1 数据仓库的传统体系结构 2 3 2 油气数据仓库的系统结构规划 鉴于上述油气数据仓库的特点,借鉴数据仓库理论进行系统结构的设计。系统总体 上采用c s 结构,根据统计系统的功能定位和功能分担原则,对系统进行功能层次结构 的界 定。统计系统首先是一个数据平台,它能为用户提供明细数据、统计指标和报表,其中 明细数据是以经过集成的主题数据集的形式下载给用户的,供用户使用。系统的结构如 图2 2 所示。系统在借鉴数据仓库理论的同时,还着重考虑了统计系统以下自身的一些 特点。 ( 1 ) 在油气报表层次上,系统中需要生成的日常报表,其总体层次关系是:对于有日 报的报表,月报是日报的累加,年报是月报的累加。 ( 2 ) 新增油气子系统时,由于新增子系统的影响涉及到生产、统计、产量等相关方 面,所以只能在系统原有架构内增强相应的数据集成功能,在数据集成功能中增加新统 计指标的计算逻辑,但是这类修改是在原有系统框架内进行的,这样就充分降低了新增 子系统对系统的影响。 ( 3 ) 在原有数据范围内新增统计项目时,只需通过交互界面添加新项目的计算逻辑, 而不必修改原有系统内的程序,在这种情况下,新增统计项目一般不会对系统产生影响。 第二章油气数据仓库总体分析 ( 4 ) 当某个统计单位的统计程度由粗变细时,数据集成之前的功能不需要修改,只 需通过改进数据集成功能,把新导入的数据加工成原来的统计指标。 ( 5 ) 发生新增油气统计表时,如果新增的表在整体系统覆盖的范围内,处理方式就 按照新增表的方式进行,当新增的表在整体系统覆盖的范围之外,则在数据源处增加新 的源文件接口,然后在数据集成部分将新的统计数据归入相应的统计主题库中。 ( 6 ) 系统能够提供给用户的功能包括两个方面,一方面是前台应用功能;另一方面 是用户通过专用的前端报表分析工具和统计系统主题数据连接,进行报表制作、数据查 询分析等功能。 统 。 数 计 户 数据 报 分 - 口 据 析 分 集表 平 析 市管 台 m 理 台 口 口 iiii 网络通信平台( t c p i p 、支持i n t e r n e t ) q o l a p 数据服务平台 。 数据抽取平台( e t l ,数据转换、数据装载) 1 r 数据服务器平台 i r 数据接口平台( o d b c 、j d b c 、a d o ) i r uuuu i j 声懈二 e x c e l 数据司i 它数据库 图2 - 2 油气数据仓库系统结构图 下面就油气数据仓库系统结构对照数据仓库的四个部分分别进行阐述: 1 、油气数据仓库管理部分 油气数据仓库的数据来自多个数据源,包括组织内部数据和外部数据源。正如前面 西安石油大学硕士学位论文 提到的,数据仓库系统的源数据取自m i s 系统或者其它系统所产生的操作型数据,或者 称之为历史数据。从这种意义上说,若没有了这些数据,数据仓库系统将成为无本之木, 无源之水。同时,又要充分考虑源数据的特征,以便能够以较小的代价来获取这些数据 信息。在确定油气数据仓库信息需求之后,需要进行数据建模。确定从事务型数 据源到油气数据仓库的数据抽取、清理和转换过程,分析、划分维数据以及确定物理存 储结构。一般的,关系型数据库、非关系型数据库以及其他各种数据文件均可以作为操 作型系统的数据文件,在这种系统中数据是当前的,详细的,并且不断更新变化。而数 据仓库要把操作型系统产生的源数据、历史数据经过一系列的变化集成到数据仓库之 中。这些变化主要包括抽取( e x t r a c t i o n ) 、清洗( c l e a n i n g ) ,转换( t r a n s f o r m a t i o n ) 、 最后装载( l o a d ) ,它们可以简称为e t l 工具。最终在数据仓库、数据集市中,数据有一 致的数据形式,以便于分析决策。元数据是数据仓库的核心,用于存储数据模型、定 义数据结构、转换规则、数据仓库结构和控制信息等。管理部分包括对数据的安全、归 档、备份、维护、恢复等工作。 2 、油气数据仓库部分 油气数据仓库部分是数据存储部分,主要包括了历史数据、当前数据、综合数据和 元数据。这部分主要是在前期构建油气数据仓库时将数据从油气生产数据库中按照一定 的要求转换到数据仓库的原子数据仓库中,首先将业务型生产数据经过抽取转换到原子 仓库的历史库中,然后再根据主题、分析粒度将数据进一步细化成当前数据和综合数据, 同时建立元数据来进行总体的管理协调。例如:在确定了并主题的条件下,先将要分析 的采油生产表中的业务型数据经过提炼转到历史库中,形成历史表:然后再根据分析的 粒度( 当前、月、年) 来进一步抽取、合并数据,形成当前数据和综合数据。 3 、o l a p 服务器 o l a p 服务器包含了为根据主题分析而生成的大量分析型数据和根据用户预定义的 超级立方体,从而能为具有明确的数据分析范围和分析要求的用户提供高性能的决策支 持。 4 、前端应用 前端应用主要包括检索查询、多维数据的o l a p 分析,统计分析以及进行数据挖掘。 油气数据仓库的构建和管理非常繁琐、复杂,同时包含许多复杂的技术,如数据的抽取、 转换、加载( e t 功能,数据一致性维护,各种主题的维护,元数据的管理等) ,但是本 文研究的重点在用户工具,用于获取仓库中的信息,同时将其用各种形式展示给用户。 它是油气数据仓库系统的一个窗口,通过它,可以看到仓库中大量有价值的信息,这也 是油气数据仓库系统应用价值的最直接体现。 1 2 第二章油气数据仓库总体分析 2 4 本章小结 本章在研究数据仓库理论的基础上分析了油气数据仓库的数据来源、特点等内容, 提出了油气生产信息数据仓库的系统结构的具体规划,并简要说明了主要平台的功能。 西安石油大学硕士学位论文 第三章油气数据仓库数据建模 数据仓库、o l a p 都以多维数据模型为基础。多维数据模型是数据分析时用户的数 据视图,是面向分析的数据模型,可以给分析人员提供多种观察的视角和面向分析的操 作。该模型将数据看作多维的数据立方体。下面介绍油气数据仓库中多维数据模型及其 有关概念。 l 油气数据仓库的概念模型 多维数据概念模型是一种高层模型,它是对应用主题的较高层次的抽象。概念模型 描述的是从客观世界到主观世界的映射,通过概念模型,我们用计算机世界的模型和语 言对客观世界中的具体问题进行了描述。 在概念模型中,常用的表示方法是e r 模型,另一种很好的方法是面向对象的分析 方法。e r 模型形式简单易于理解,便于同用户交流,同时可以对问题进行更深入细致 的描述。概念模型处于最高抽象层,它包含分析业务问题的主题、主题中应该包含相关 的实体和实体之间的关系。 要将企业模型映射到油气数据仓库的概念模型,主要的工作有界定系统边界、确定 主题域。 3 1 1 油气数据仓库系统边界的界定 为了制定一个长期的生产策略,油田决策者目前所要进行的分析主要有:分析井的 产量趋势、分析钻井单位的任务情况。要进行上述分析,所需数据应该包括:井产量数 据、井压段数据、井增产措施数据、钻井单位的钻井数据等。 延长油矿包括的二级单 位很多,信息量非常大,我们只对采油子系统、开发可子系统、注水子系统、修井子系 统等四个部门,进行了多维数据分析。根据多维立方体“多维数据模型围绕中心主题进 行组织”的指导思想,本文把分散在各个子系统的数据按照不同的主题重新进行组织, 并按照多立方结构的形式把它们分别存放到多维立方体的不同子立方中。 3 1 2 油气数据仓库主题的确定 经过反复认证,认真分析研究,根据决策工作的需要,经过对原有数据库系统的分 析,确定了油气数据仓库信息系统的主题如下: l 、井信息主题:通过对井基础信息、产量等信息的分析; 2 、钻井单位信息主题:通过对钻井单位的钻井类型、钻井质量等信息的分析。 1 4 第三章油气数据仓库数据建模 3 2 油气数据仓库的逻辑模型 逻辑模型实际上就是关系模型,它是用来构成关系型数据仓库的。它具有严格的数 学基础一关系数据理论。逻辑模型主要包括事实表模型的建立、维表模型的建立,数据 模型的建立。 3 2 1 事实表模型的设计 根据上述确定的主题域及分析所需,设计本系统的事实表模型如下: 井型维 井深维 井名维 区块维 圈3 - 1 井主题模型 钻井类型维 钻井日期维 图3 - 2 钻井单位主题模型 时间维 钻井质量维 井主题事实表: l 、采油生产表( 井名、日期、日产油量、录入员等) ; 2 、压段使用表( 井名、层位、压段类别,压裂液种类、加砂量等) ; 3 、增产措施并( 井名、措旖日期、措施原因、措施类别、日产油量等) ; 钻井单位主题事实表: 1 、钻井生产表( 井名、井别、钻井单位、扶正器个数、开钻日期、钻井质量等) 2 、侧井生产表( 井名、井型、测井单位、测井结果、测并日期、测井类型等) ; 西安石油大学硕士学位论文 3 、固井生产表( 井名、井位、固井日期、固井单位、水泥用量、固井质量等) 3 2 2 维表模型的设计 维表是在数据仓库中存放维的实体,它是对事实表分析时可以实际操作的对象,下 面根据油气数据仓库维表建立的需要对维表的组成元素进行简要介绍: 1 ) 维( d i m e n s i o n ) 维是人们观察数据的特定角度。例如,油田企业常常关心井产量数据随着时间推移 而产生的变化情况,这是从时间的角度来观察井的生产情况,所以时间是一个维( 时间 维) 。油田企业也还关心井在不同地区的生产情况,这是从地理分布的角度来观察井的 生产情况,所以地理分布也是一个维( 地理维) 。这些观察数据的角度称之为维。 2 ) 度量( m e a s u r e ) 度量也称变量,是一个数值的度量指标。数据本身并没有意义或者说意义未定,例 如“1 0 0 0 ”,它可能是某井的产量,一个单位的职工人数,也可能是某产品的单价等。 度量则描述了数据“是什么”,说明了数据的实际意义,如“产量”、“人数”,“单价” 等都是度量,而“
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 员工行为课件
- 公路局应急知识培训总结课件
- 2025年湖南湘西州吉首市石家冲街道卫生服务中心招聘见习生模拟试卷及一套答案详解
- 公装家具定制知识培训课件
- 2025甘肃陇南慈航精神康复医院招聘17人考前自测高频考点模拟试题及参考答案详解1套
- 2025河南商丘市实达国际人力资源合作有限公司招聘辅助人员30人考前自测高频考点模拟试题附答案详解(模拟题)
- 2025贵州黔西南州交通建设发展中心招聘公益性岗位工作人员3人考前自测高频考点模拟试题及答案详解(夺冠)
- 2025广东惠州市惠城区招聘公办义务教育学校硕博教育人才65人(第二批)考前自测高频考点模拟试题及答案详解1套
- 2025广西石化分公司春季高校毕业生招聘20人考前自测高频考点模拟试题及答案详解(名师系列)
- 2025北京大学高分子化学与物理教育部重点实验室主任招聘考前自测高频考点模拟试题及1套完整答案详解
- 气象科研课题申报书
- 2023年中级统计师《统计工作实务》试题真题及答案
- 2025年专题讲座-纪念抗战胜利80周年93阅兵
- 电厂安全学习培训课件
- 免疫细胞治疗安全性评价-第1篇-洞察及研究
- 车间师带徒管理办法
- 事业位协议班培训合同
- 2025年中国50岁以上成年人益生菌行业市场全景分析及前景机遇研判报告
- 第9课《天上有颗南仁东星》公开课一等奖创新教学设计
- 腹部外伤文库课件
- 医院门诊急诊统筹管理方案
评论
0/150
提交评论