




已阅读5页,还剩76页未读, 继续免费阅读
(信号与信息处理专业论文)基于数据仓库造价分析系统的研究与开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于数据仓库造价分析系统的研究与开发 刘青松( 信号与信息处理) 指导教师:单亦先( 教授) 摘要 应石油工程造价分析是计划投资和工程结算的决策依据,也是工程项目实现成本 控制、项目管理的基础和关键。为了各级造价管理人员能够及时、准确地掌握石油工 程造价情况,提高造价管理工作的效率,适油田信息化建设的需要,中石化石油工程 造价管理中心决定开发造价分析系统。 由于造价分析系统的数据来源于分布在各油区的多个专业系统,数据量大,造价 中心获取油区源数据困难,传统的数据库结构不能满足系统要求,本文提出了基于分 布式数据仓库的解决方案。数据仓库能够对多个数据源有效集成,并按主题进行重组, 适用于支持决策的面向分析型数据处理。本文介绍了数据仓库及相关技术的基本概念 和方法,深入分析了造价分析系统需求,重点论述了造价分析数据仓库的概念模型设 计、逻辑模型设计和物理模型设计,并研究了数据仓库的联机分析处理和数据挖掘方 法。该系统在造价中心建立全局数据仓库,在各油区建立局部数据仓库,全局数据仓 库保证了中心造价管理人员对全部造价数据的分析要求,局部数据仓库通过在油区内 采集数据降低了数据采集难度,同时也为油区造价管理人员提供了独立的统计分析平 台。在系统实现中,p l s q l 存储过程很好地实现了数据仓库数据的e t l 过程;建立 三层系统架构,表现层采用s t i u t s 框架,业务层采用s 埘n g 框架,而数据层采用j d b c 接口,不仅缩短了开发周期也简化了系统维护;e x c e l 导出和栏目定制技术满足了用 户对系统前端展示的需求。 分布式数据仓库在造价分布系统中的应用,满足了各级造价管理员的工作需要, 同时对类似系统的设计也有很好的借鉴作用。 关键词:数据仓库,分布式,造价分析,联机分析处理 t h er e s e a r c ha n dd e v e l o p m e n to fc o s ta n a l y s i ss y s t e m b a s e do nt h ed a t aw a r e h o u s et e c h n o l o g y l i uq i n g s o n g ( s i g n a la n di n f o 肌a t i o np r o c e s s i n g ) d i r e c t e db yp r o s h a ny i x i a n a b s t r a c t c o s ta 1 1 a l y s i so fp e t r 0 1 e u me n g i n e e r i n gi s t l l er e f e r e n c eo fd e c i s i o n m a l ( i n go nt 1 1 e p l a l l l l e di n v e s t m e n ta 1 1 dp r o j e c ts e t t l e m e n t ,a 1 1 di ti sa l s ot 1 1 ef o u l l d a t i o na 1 1 dk e yo fr e a l i z i n g c o s tc o n t r o la 1 1 dp r o j e c tm a i l a g e m e m t h ed e c i s i o nt od e v e l o pc o s ta i l a l y s i ss y s t e mm a d eb y t h es i n o p e cp e t r o l e u me n g i n e e r i n gc o s tm a n a g e m e n tc e n t r ei sb a s e do nt l l ef o l l o w i n g g o a l s :t oe n a _ b l ec o s tm a n a g e ra ta 1 1l e v e l st 0m a s t e rm es i t u a t i o no fp e t r o l e u me n g i n e e r i n g c o s tt i m e l ya n da c c u r a t e l y ,t oi m p r o v et h ee m c i e n c yo fc o s tm a n a g e m e n t 、o r k ,t oa d 印tt o n e e do fo i l f i e l di n _ f - o n n a t i o nc o n s n l l c t i o ne t c t h ed a t ao fc o s ta 1 1 a l y s i ss y s t e m ,w h j c hc o m e sf o n nan u m b e ro fp r o f e s s i o n a ls y s t e m s a 1 1 di sd i s t r i b u t e di nt h eo i lr e g i o n ,p o s s e s s e sa 伊e a tc 印a c i 够s oi ti sv e 巧d i m c u l tf o rt 1 1 e c o s tc e m e rt 0o b t a i nt l l eo i ls o u r c ed a t a t h et r a d i t i o n a ls t r u c t l l r eo ft 1 1 ed a t a b a s es y s t e mc a l l n o tm e e tt 1 1 er e q u i r e m e n t so fs y s t e m i nt l l i sp a p e r ,m es o l u t i o nf o rt l l es y s t e mw m c hb a s e d o nd i s t r i b u t e dd a t aw a r e h o u s ew a sb r o u 曲tu p d a t aw a r e h o u s ec a l le f f e c t i v e l yi n t e 铲a t e m u l t i p l ed a t as o u r c e s ,a n db er e c o m b i n e da c c o r d i n gt ot h es u b j e c t s oi ti s s u i t a b l et ob e u s e dt os u p p o r tt h ed e c i s i o n m a l ( i n g o 矗e n t e da n a l y s i so fd a t ap r o c e s s i n g i nt h i sp a p e r ,t l l e b a s i cc o n c e p t so fd a t aw a r e h o u s ea n dr e l a t e dt e c l l l l 0 1 0 9 ya n dm e t h o d sw e r ep r e s e m e d f u n h e r t t l o r e ,w eh a v ea n a l y z e dt h er e q u i r e m e n t so ft h es y s t e mc o s t e s p e c i a l l y ,、v eh a v e d i s c u s s e dt h ed e s i g no ft h ec o n c e p tm o d e l ,l o g i cm o d e la n dp h y s i c a lm o d e l b e s i d e s ,w e h a v es t u d i e dt h em e t h o d sf o ro n l i n ed a t aw a r e h o u s ea n a l y s i sa 1 1 dd a t ae x c a v a t i n g t h i s s y s t e mb u i l d s9 1 0 b a ld a t aw a r e h o u s ei nc o s tc e n t e ra 1 1 dl o c a ld a t aw a r e h o u s ei no i lr e 百o n g l o b a ld a t aw a r e h o u s ee n s u r e st h er e q u i r e m e n t so fa l lc o s td a t aa n a l y s i sb yt h ec o s t m a l l a g e ri nc o s tc e n t e r l o c a ld a t aw a r e h o u s em a k e st h ed a t aa c q u i s i t i o ne a s yb yc o l l e c t i n g d a t ai no i lr e g i o no n l y ,i ti sa l s op r o v i d e sa 1 1i n d e p e n d e n tp l a t f o n no fs t a t i s t i c a la n a l y s i sf o r c o s tm a n a g e r si n o i lr e g i o n i ns y s t e mi m p l e m e n t a t i o n ,e t lp r o c e d u r eo fd a t ai nd a t a w a r e h o u s ew a sr e a l i z e dw e l lb yp l s q ls t o r e dp r o c e d u r e u s i n gt h r e e l a y e rs y s t e m 觚n e , i nw h i c hs t r u t sf 锄e w o r ki sa d o p t e db yp r e s e n t a t i o nl a y e r ,s p r i n gf a m e w o r kf o rb u s i n e s s 1 a y e ra i l dj d b cf o rd a t al a y e r ,h a sn o to n l ys h o r t e n e dd e v e l o p m e n tp e r i o d ,b u ta l s om a d e s y s t e mm a i m e n a n c ee a s y t h ee x c e le x p o r ta i l dc 0 1 n j lc u s t o mt e c l l i l o l o g ys a t i s f yt h e r e q u i r e m e mo fs y s t e m 行o n te n dd i s p l a yf o ru s e r s t h e 印p l i c a t i o no fd i s t r i b u t e dd a t aw a r e h o u s ei nt 1 1 ec o s td i s t r i b u t i o ns y s t e mm e e t st 1 1 e r e q u i r e m e n to fa d m i l l i s t r a t o r sf o rd i f f e r e n tl e v e l s o nt h eo t h e rh a n d ,i ts u p p l i e sav e 巧 i m p o n a n tr e f e r e n c ef o rd e s i g no fs i m i l a rs y s t e m k e yw o r d s :d a t aw a r e h o u s e , d i s t r i b u t e d , c o s ta n a l y s i s ,0 l a p 关于学位论文的独创性声明 本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得 的成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致 谢外,本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得 中国石油大学( 华东) 或其它教育机构的学位或学历证书而使用过的材料。与我一同 工作的同志对研究所做的任何贡献均己在论文中作出了明确的说明。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:弛聋圭 日期:枷留年月z 日 学位论文使用授权书 本人完全同意中国石油大学( 华东) 有权使用本学位论文( 包括但不限于其印刷 版和电子版) ,使用方式包括但不限于:保留学位论文,按规定向国家有关部门( 机 构) 送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被查阅、 借阅和复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、缩 印或其他复制手段保存学位论文。 保密学位论文在解密后的使用授权同上。 学位论文作者签名: 麴盘圭尘 指导教师签名:二孳虹 日期:加哼矿年多月寥日 日期:钞巧1 年月p 日日期:钞而年6 月y日 中国石油大学( 华东) 硕士学位论文 第1 章绪论 工程造价即工程价格,一般指为建成一项工程,预计或实际在土地市场、设计 市场、技术劳务市场,以及承包市场等交易活动中所形成的施工工程和建设工程总 价格。工程造价分析,是在建设项目施工中或竣工后,对施工图预算执行情况的分 析,即设计预算与竣工结算对比,运用成本分析的方法,分析各项资金运用情况, 核实预算是否与实际接近,能否控制成本,分析的目的是总结经验,找出差距和原 因,为改进以后工作提供依据。而石油工程造价是指完成一个石油工程建设项目所 需费用的总和,包括石油专业工程、地面工程、材料、设备及其他相关费用。石油 工程造价分析主要针对以定额为依据实行预结算管理的工程项目进行详细分析,是 计划投资和工程结算的决策依据,也是工程项目实现成本控制、项目管理的基础和 关键。 1 1 课题的来源及研究意义 随着中国石化股份公司上游企业e i 冲的实施、石油工程造价管理业务的拓展以 及各管理部门对石油工程造价信息的需求不断增加,对石油工程造价计算机管理系 统提出了新的更高的要求。需要建立一个涵盖造价管理各业务层面、技术先进、操 作方便、安全可靠的石油工程造价综合业务管理平台。石油工程造价管理中心组织 了对股份公司相关管理部门及各分( 子) 公司需求的深入调查研究,在此基础上决 定开发了“中国石化石油工程造价业务管理信息系统 。该系统由多个子系统组成, 其中两个主要定额结算管理专业子系统为“石油专业工程造价管理系统 、“地面 工程造价管理系统”。两个子系统主要为定额结算管理提供了实际业务处理工具, 同时也提供一些简单的业务报表统计功能。由于这些系统使用的传统的数据库,并 且数据库内只有本业务范围内的数据,为造价中心这样上层管理部门( 目前下辖1 4 个油田的造价管理部门) 提供决策分析的功能根本无法在这种专业子系统中实现。 所以造价中心提出了开发设计“石油工程造价分析系统”的需求。 造价分析系统的数据来源基本是由“石油专业工程造价管理系统、“地面工 程造价管理系统”两个专业子系统提供,业务基础数据都是由中石化下属各油田单 独的数据库服务器存储,通过一定的数据传输机制,造价中心将各油田业务数据收 集到中心数据库服务器,然后进行全面的数据统计分析。由于两个专业定额结算系 统的数据结构各自相对独立,数据内容非常多,在各油田服务器上面处理能力都能 第l 章绪论 胜任,但是如果最终提取所有油田的关键业务数据到造价分析系统中来,所面临的 是巨大的数据容量,如果继续保持分专业、分业务来保存数据,对数据的分析会带 来艰巨的工作量,因为数据分析需要面对形式各样的存储结构。据此,需要通过建 立数据仓库来把各个专业的数据汇总到一起,使所有业务数据与统计分析数据分离, 以利于历史数据保存和业务运行与统计分析互不影响。将数据汇总到数据仓库还能 够支持数据挖掘和多维数据分析,增强了造价分析能力,使造价管理者能够及时准 确的得到造价信息。为了满足各级造价管理用户对决策分析的需要,从网络实际情 况出发,采用分布式的数据仓库结构。 数据仓库技术起源于对大量数据进行处理的需要,是随着业务应用的需要而产 生的。它是计算机和数据应用发展到一定阶段的必然产物,数据仓库系统为企业提 供准确而完善的信息,为实现以客户为中心的业务策略提供了技术上的可行性。数 据仓库是伴随着信息与决策支持系统的发展过程产生的。与传统的数据技术相比, 数据仓库为决策分析提供了更好的支持,跳出了传统的联机事务处理的范畴。因此, 近几年来数据仓库技术发展很快,并在各个行业都得到了很多的应用。数据仓库是 一个综合的解决方案,对原始的操作数据进行各种处理并转化成一个有用的信息的 处理过程,主要是用来帮助企业有关主管部门和业务人员作出更符合业务发展规律 的决策。 数据仓库的目的是要建立一种体系化的数据存贮环境,将分析决策所需的大量 数据从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、 统一的信息,企业内不同单位的成员都可以在此单一的环境之下,通过运用其数据 与信息,发现全新的视野和新的问题、新的分析与想法,进而发展出制度化的决策 系统,并获取更多经营效益。尤其对于跨区域经营的公司来说,利用数据仓库技术 尤其是分布式数据仓库技术能有效整合各分支机构在运营过程中产生的大量数据, 并进行科学的管理、分析和监控,将为企业实行统一化的经营决策奠定坚实的数据 基础。 本课题通过把数据仓库技术应用到石油工程造价分析系统,解决了系统设计开 发的一系列难题,实现了石油工程定额、材料价格的跟踪分析及动态管理。随着石 油工程施工新技术的发展以及材料价格市场的开发,客观上对石油工程定额和材料 价格动态管理的要求更加迫切,要求定额的调整和价格变化实现及时在线更新,通 2 中国石油大学( 华东) 硕士学位论文 过对定额执行情况的跟踪分析为定额的调整提供依据:通过对材料价格的跟踪分析, 揭示影响工程造价的因素、预测工程造价规模。为总部和油田企业决策层提供信息 支持。股份公司、各分( 子) 公司的决策层能及时得到造价管理动态数据信息,实 现投资项目管理的投资估算功能,以此来实现石油工程造价的综合分析,为企业的 管理及决策提供帮助。 1 2 国内外研究现状 数据仓库是2 0 世纪8 0 年代出现的数据管理新技术,9 0 年代在国外迅速发展起 来。作为一个新兴的研究领域,很多大学和公司都在这个领域内进行着广泛深入的 研究,其中尤其以斯坦福大学、i b ma l m a d e n 研究中心、维斯康辛大学、微软和 a t & t 的研究最具代表性。斯坦福大学的一个名为“m i p s ”项目,研究目标是生 成一些高效的、自动集成异构数据源的算法和工具。这个课题组提出了一个基本的 数据仓库模型和一些相应的算法。i b ma l l n a d e n 研究中心和微软的一个称为“q u e s t 的项目,研究重点是多维数据库的建模和组织。维斯康辛大学和a t & t 的研究侧重 于实视图o l a p 数据组织、数据立方体计算等方面,例如用“增量视图维护”方法 来维护多数据源情况下的实视图的一致性;实视图的选择方法;为数据仓库中的数 据建立多种索引并进行优化以提高查询性能等。数据仓库是一个庞大复杂的系统, 如何对它进行有效而正确的管理是数据仓库研究的重要课题。它包括许多内容:资 源管理、查询调度、数据组织、视图管理、前后端功能分割、元数据组织等,尤其 是当数据仓库正在调入或刷新大量实视图和索引时发生了故障,系统应如何建立检 查点,如何恢复,也是需要深入研究的重要方向。 国内的数据仓库市场也首先在电信、金融、保险等领域进行了应用。随着我国 企业信息化建设步伐的不断加快,全球性市场竞争的加剧,越来越多的企业也逐步 认识到利用数据仓库技术获得决策支持的重要性,开始建设自己的以数据仓库为中 心的企业信息系统,希望能对历史数据进行具体而又有针对性的分析与挖掘,以期 从中发现新客户和客户新的需求。从2 0 0 0 年开始,国内的一些企业已经开始建立数 据仓库,确切地讲应该是开始探索和使用一些多维分析工具和前端展现工具。2 0 0 3 年,数据仓库在银行、电信等行业已经开始推广。如今,数据仓库技术在国内的研 究与应用已开始形成热潮,许多企业、大学和科研机构都参与了进来。 数据仓库在决策分析系统中的应用已经趋于成熟,形成了多种开发模式和结构 第l 章绪论 模型。随着许多大规模企业和跨区域经营的出现,普通集中式数据仓库已不能满足 要求,这就需要建立分布式数据仓库。现在分布式数据仓库技术刚刚起步,甚至还 没有被广泛认可的定义。本文结合造价分析系统对分布式数据库进行了探索性研究。 1 - 3 本文主要工作 本文对数据仓库的相关理论作了深入的研究,并结合石油工程造价分析系统对 分布式数据仓库的设计和应用作了深入的分析和探讨。主要工作如下: 第1 章,绪论。简要介绍了课题的来源,以及课题相关技术的国内外研究现状 和本文的主要工作。 第2 章,相关技术理论基础。详细介绍了决策支持系统、数据仓库和联机分析 处理的基础理论知识和相关的概念。论述了决策支持系统的发展和作用,介绍了分 布式数据仓库及数据仓库的发展方向;另外,详细介绍了联机分析处理的变量、维 等基本概念。 第3 章,系统的需求分析和总体设计。对石油工程造价分析系统的需求和数据 源进行了深入分析,介绍了中石化的网络现状,在此基础上给出了系统的总体设计, 包括各个模块的功能设计和系统用户权限设计。最后介绍了系统的开发和运行环境。 第4 章,造价分析数据仓库的设计。设计确定了数据仓库的分布式体系结构, 并通过数据仓库的概念模型设计、逻辑模型设计和物理模型设计完成了造价分析系 统数据仓库的核心设计。最后介绍了数据仓库的e t l 过程的三个步骤。 第5 章,造价分析系统的联机分析处理与数据挖掘。主要介绍了联机分析处理 的数据组织和多维分析及其在造价分析数据仓库中的应用,对数据挖掘算法进行了 研究并以决策树算法为例介绍了它的实现过程。 第6 章,造价分析系统的实现。对实现造价分析系统所用到的存储过程、系统 架构、e x c e l 导出和栏目定制等关键技术做了介绍,并给出了系统界面截图。 总结与展望。总结了本文的主要工作,并提出了对研究工作的进一步展望。 4 中国石油大学( 华东) 硕士学位论文 第2 章相关技术理论基础 2 1 数据仓库技术 2 1 1 数据仓库的产生 信息技术的不断推广应用,将企业带入了一个信息爆炸的时代。每时每刻都有潮水 般的信息出现在管理者的面前,等待管理者去处理、去使用。这些管理信息的处理类型 主要分事务型( 操作型) 处理和信息型( 分析型) 处理两大类。事务型处理也就是通常所说 的业务操作处理。这种操作处理主要对管理信息进行日常的操作,对信息进行查询和修 改,目的满足组织特定的日常管理需要。在这类处理中,管理者关心的是信息能否得到 快速的处理,信息的安全性能否得到保证,信息的完整性是否遭到破坏。信息型处理则 是指对信息做进一步的分析,为管理人员的决策提供支持,例如为决策支持系统( d s s ) 提供信息分析的支持。这类处理必须访问大量的历史数据才能完成,而不像事务型处理 那样,只对当前的信息感兴趣【1 3 1 。 由于传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批 处理等各种数据处理工作,而且传统数据库中只保留当前的管理信息,缺乏决策分析所 需要的大量历史信息,所以传统数据库虽然在联机分析处理( o l t p ) 中获得了较大的成 功,但却无法满足管理人员的决策分析要求。为了满足管理人员的决策分析需要,在数 据库基础上产生了能够满足决策分析所需要的数据环境数据仓库( d a t aw a r e h o u s e , d w ) 【4 。7 1 。 数据仓库是近年来兴起的一种新的数据库应用,在中国已经有了快速发展,很多企 业己经建立了自己的企业级数据仓库,这些企业主要集中在金融,电信,教育等行业, 但是中外企业在数据仓库的实施和应用水平上还存在相当大的差距,这主要是由于中国 的企业需求层次不高和国内还没有形成一套统一的关于商业智能的评判标准所造成的。 2 1 2 数据仓库的定义 业界公认的数据仓库之父w h i m o n 对数据仓库的定义是:数据仓库是一个面向主 题的、集成的、不可更新的( 相对稳定的) 、反映历史变化的数据集合,用于支持管理 决策。 从w h i m o n 关于数据仓库的定义中可以分析出,与传统的数据库相比数据仓库具 有这样一些重要的特性8 圳】: ( 1 ) 面向主题。数据仓库中的数据面向主题,与传统数据库面向应用相对应。主 第2 章相关技术理论基础 题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域;数据 仓库围绕的一些主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据 建模与分析,而不是集中于组织机构的日常操作和事务处理。数据仓库排除对于决策无 用的数据,提供特定主题的简明视图。因此面向主题可以说是数据仓库技术的精髓,也 是数据仓库和其他数据存储系统( 如关系数据库、事务处理系统和文件系统) 的本质区 别。 ( 2 ) 集成的。数据仓库中的数据是集成的,指在构建数据仓库的过程中,多个外 部数据源内格式不同、定义各异的数据,按既定的策略经过抽取、清洗、转化等一系列 处理,最终构成一个有机的整体。数据仓库的数据并不直接取自业务的处理过程,而是 对业务数据库的内容进行处理后得到的。 ( 3 ) 相对稳定的。数据仓库总是物理地分离存放数据,这些数据源于操作环境下 的应用数据。通常,它只需要两种数据访问:数据的初始化装入和数据访问,而且不能 对数据仓库中的细节数据自行进行改动。由于这种分离,数据仓库不需要事务处理、恢 复和并发控制机制。所以,细节数据几乎是不能进行更新的,而只能进行追加。 ( 4 ) 反映历史变化。数据仓库中的数据一般包含历史信息,记录了企业从过去某 一时间点到目前的各阶段的信息,这与操作型数据库主要关心当前业务数据状态是有根 本区别的。决策管理人员通过数据仓库中的历史信息,可以对企业的发展历城和未来趋 势做出定量分析和预测。 另外,在数据仓库中,为了提高分析的响应速度,往往需要优化查询处理过程。而 且,一个数据仓库必须有效地支持相应的决策支持分析工具,决策支持分析工具应能充 分利用数据仓库的结构,否则数据仓库就难以发挥出应用的作用,建立数据仓库也就失 去了意义【1 2 1 4 1 。 2 1 3 数据库与数据仓库 数据库与数据仓库两者的关系可以从以下三方面体现f 1 5 - 17 】: 首先,数据仓库是对数据库的发展。数据仓库对数据库发展的贡献是将操作型数据 和分析型数据区分开,为不同的用户提供不同性质的服务。数据库面向事务处理而数据 仓库主要支持联机分析处理,数据库系统与数据仓库系统比较见表2 1 【8 】: 6 中国石油大学( 华东) 硕士学位论文 表2 一l 数据仓库与数据库对比 i a b l e 2 一l c o m p a r i s o no fd a t aw a r e h o u s e a n dd a t a b a s e 其次,数据仓库与数据库是互补的,数据仓库的产生不是要代替原来的面向事务型 的数据库,而是两者一起组成一个有组织的数据库体系化环境,见图2 1 。 操作型环境企业级 数据抽取 部门级 图2 1 有组织的数据库体系化环境 f i 9 2 - 1o r g a n i z a t i 佃a ls y s t e m a t i s me v i r o n m e n to fd a t a b a s e 再者,数据仓库需要以下数据库技术的支持: ( 1 ) 高性能数据库服务器。d w 的应用不同于传统数据库( d b ) 的联机事务处理系 统( o l t p ) 应用。传统d b 的应用是操作型的,而d w 的应用是分析型的,它需要高性能 7 对比内容数据库数据仓库 数据内容 当前值 历史的、存档的、归纳的、 计算的数据 数据目标面向业务操作程序,重复处理面向主题域,分析应用 数据特性动态变化,按字段更新静态、不能直接更新,只 能定时添加、刷新 数据结构高度结构化,复杂,适合操作计算简单,适合分析 使用频率局中到低 数据访问量每个事务只访问少量记录有的事务可能需要访问大 量记录 对响应时间的要求以秒为单位时间长 第2 章相关技术理论基础 的数据库管理系统( d b m s ) 核心的支持,以便较快地获得分析结果,这通常需数秒至数 分钟。虽然比o l t p 的响应时间长一些,但由于分析型应用涉及的数据量大,查询要求 复杂,因此,对d b m s 核心的性能要求更高,同时d b m s 必须具有良好的查询优化机 制。 ( 2 ) 并行数据库技术。d w 中的数据量大,而且随着时间的延长,新的数据还会 不断进入。d w 中的数据库通常是g b 甚至t b 级的,可谓是超大规模数据库l d b ) 。 而并行数据库技术是存储和管理v l d b ,并提供对v l d b 复杂查询处理的有效技术。 ( 3 ) 数据库互操作技术。d w 中的数据大多来自企业或行业中己运行的长时期预 测( l t p ) 数据库或外部的数据源。这些数据库常常是异构的,甚至是文件系统中的数据。 d w 必须从这些异构数据源中定期抽取、转换和集成所需要的数据,并把它们存入d w 中。因此,异构数据源之间的互访和互操作技术是必需的。 2 1 4 数据仓库的数据组织 数据仓库是存储数据的一种组织形式【1 8 1 9 1 ,它从传统数据库中获得原始数据,先按 辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层。随着 时间的推移,由时间控制机制将当前基本数据层转为历史数据层。可见数据仓库中逻辑 结构数据由3 层到4 层数据组成,它们均由元数据( m e t a d a 啪组织而成【8 1 ,见图2 2 。 高度综合数据 轻度综合数据 当前细节数据 早期细节数据 图2 2 数据仓库中的数据组织 f i 9 2 2d a t ao r g a n i z a t i o ni d a t aw a m h 伽s e ( 1 ) 早期细节数据 早期细节数据指存储过去的详细数据,它反映了真实的历史情况。这类数据随着时 8 中国石油大学( 华东) 硕士学位论文 间的增加,数据量也变得很大,但使用频度低,一般存储在转换介质中( 如磁带) 。 ( 2 ) 当前细节数据 当前细节数据指最近时期的业务数据,它反映了当前业务的情况,数据量大,是数 据仓库用户最感兴趣的部分。随着时间的推移,当前细节数据由数据仓库的时间控制机 制转为早期细节数据。 ( 3 ) 轻度综合数据 轻度综合数据指从当前基本数据中提取出来,以较小的时间段( 粒度) 统计而形成 的数据。这类数据较细节数据的数据量小得多。 ( 4 ) 高度综合数据 高度综合数据从轻度综合数据中提取出来,十分精炼,是种决策数据。 整个数据的组织结构由元数据统一来组织,它不包含任何业务数据库中的实际数据 信息。 2 1 5 分布式数据仓库 数据仓库环境有单一中央集成和分布式两种类型。大部分企业建立和支持单一的中 央数据仓库环境,但是在某些特定场合,建立分布式数据仓库环境可能更能满足需要, 取得更高的经济效益。随着企业规模的扩大,业务不断向多个地区扩展,企业兼并或小 企业联合组成大集团等,许多企业的运作模式自然形成一种分布式管理结构。 文献 1 】将分布式数据仓库分为三种类型,分别是: 第一类,技术上分布的数据仓库。这种数据仓库环境包括了大量数据,他们分布在 多个处理器上。从逻辑上看只有一个数据仓库,但从物理上看,存在许多有紧密联系但 存放在不同的处理器上的数据仓库。也就是说这种数据仓库只是在物理上是分布式的, 而在逻辑上是集中式的,分布式特性对用户来说是透明的。 第二类,独立演进的分布式数据仓库。由于政策和机构上的差异等,通常首先独立 的建立一个数据仓库,再建立另一个数据仓库。因为所有的数据仓库是在不同时间分布 独立的建立起来的,也就是说这种数据仓库环境是以一种不协调的方式建立起来的。这 种情况被称为独立演进的分布式数据仓库。 第三类,局部数据仓库和全局数据仓库组成的分布式数据仓库。这种数据仓库环境 适用于业务是在不同地域或不同的生产线上进行的情况。局部数据仓库是在远程站点上 提供和处理数据,而全局数据仓库提供的是在整个业务范围集成后的数据。这种分布式 数据仓库可以采用先建局部数据仓库后建全局数据仓库的白下而上的开发模式,也可以 9 第2 章相关技术理论基础 采用先建好全局数据仓库再分布建局部数据仓库的自上而下的开发模式。不过一定要就 是统一的设计,尤其要将维度统一。 ( 1 ) 局部数据仓库 局部数据仓库是数据仓库的一种形式,仅包含对分支机构有意义的数据。每个局部 数据仓库都有它自己的技术、数据、处理器等等。局部数据仓库是为不同地区的分布或 不同的技术联营组织创建的。局部数据仓库除了作用环境是局部的外,具有与其他任何 数据仓库相同的功能。换句话说,局部数据仓库包含的是在局部站点上的历史和集成的 数据。 ( 2 ) 全局数据仓库 全局数据仓库的范围涉及整个企业或组织,而企业内部的每个局部数据仓库的范围 只涉及各自服务的局部站点。全局数据仓库的范围是在企业级上被集成的业务。全局数 据仓库的数据来源通常是局部数据仓库。全局数据仓库中包括了必须在企业级被集成的 信息。 2 2 联机分析处理 传统的数据库系统,即联机事物处理系统,作为数据管理手段,主要用于事物处理, 但它对分析处理的支持一直不能令人满意。因此,人们逐渐尝试对o l t p 数据库中的数 据进行再加工,形成一个综合且面向分析的环境,以更好的支持决策分析。数据仓库和 联机分析处理是决策支持系统的有机组成部分。数据仓库从分布在公司内部各处的 o l t p 数据库中提取数据并对所取的数据进行预处理,为公司决策分析提供所需的数据; o l a p 则利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析 结果返回给决策分析人员。 2 2 1o l a p 的定义 联机分析处理o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 【2 0 。2 3 1 的概念是由关系数据库之 父e f c o d d 于1 9 9 2 年首先提出来的。联机分析处理0 l a p 是使分析人员、管理人员或 执行人员能够从多角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实 反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的 一类软件技术。 f a s m i ( f a s ta n a l y s i so fs h a r e dm u l t i d i m e n s i o n a li n f o n l l a t i o n ) ,即共享多维信息的快 速分析。这是o l a p 的简明定义,它清楚地将o l a p 的特征描述了出来: 1 0 中国石油大学( 华东) 硕士学位论文 ( 1 ) 快速性( f a s t ) :用户对o l a p 的快速反应能力有很高的要求。系统应能在5 秒内 对用户的大部分分析要求做出反应。如果终端用户在3 0 秒内没有得到系统响应就会变 得不耐烦,因而可能失去分析主线索,影响分析质量。对于大量的数据分析要达到这个 速度并不容,因此就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运 算、特别的硬件设计等。 ( 2 ) 可分析性( a n a l y s i s ) :o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析 尽管系统需要事先编程,但并不意味着系统已定义好了所有的应用。用户无需编程就可 以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可 以在o l a p 平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析 工具、成本分配工具、意外报警、数据开采等: ( 3 ) 多维性( m u l t i d i m e n s i o n a l ) :多维性是o l a p 的关键属性。系统必须提供对数据分 析的多维视图和分析,包括对层次维和多重层次维的完全支持事实上,多维分析是分析 企业数据最有效的方法,是o l a p 的灵魂; ( 4 ) 信息性( 1 1 1 f o 肌a t i o n ) :不论数据量有多大,也不管数据存储在何处,o l a p 系统 应能及时获得信息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制 性、可利用的磁盘空间、o l a p 产品的性能及与数据仓库的结合度等。 ( 5 ) 共享性“s h a r e d ) :共享性是在大量用户间实现潜在地共享秘密数据所必须的安全 保密要求和并发控制。 2 2 2o l a p 的基本概念 o l a p 是基于多维数据模型的,为了更好的理解o l a p ,首先介绍一下o l a p 的相 关概念2 4 之5 1 。 ( 1 ) 变量 变量也称作度量值,是数据的实际意义,是人们观察事物的焦点,它主要描述数据 “是什么”。一般情况下,变量总是一个数值度量指标,具有可加性。在多维数据集中, 变量存放于多维数据集的事实数据表中。即变量是最终用户浏览多维数据集时重点查看 的数字数据。度量值的选择取决于最终用户所请求的信息类型。 ( 2 ) 维 维( d i m e n s i o n ) 是指人们观察事务的特定角度。如将各月份的井下工程结算情况 进行对比,就是从时间的角度来观察结算情况,所以时间是一个维( 时间维) 。若考虑 各分公司的工程结算情况,即从单位的角度来对比工程结算时,单位也是一个维( 单位 第2 章相关技术理论基础 维) 。 ( 3 ) 维的层次 人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的多个描述层 次,我们称这些描述层次为维的层次。例如,时间维可以分为年度、半年、季度、月度、 周、日期等不同维层次,单位维可以分为分公司、二级单位、三级单位等不同的维层次。 ( 4 ) 维成员 维的一个取值称为该维的一个维成员,如果一个维是多层次的,那么该维的维成员 是由各个不同维层次的取值组合而成。 ( 5 ) 多维数组 变量与其关联的维的维成员构成一个多维数组,表示为( 维1 ,维2 ,维n , 变量) 。当维数为3 时,多维数组表现为一个数据立方体,当维数超过3 时,多维数组 表现为超立方体。如石油工程结算金额数据若是按时间、项目类型和工程专业组织起来 的三维立方体,加上变量结算金额,就组成一个多维数组( 时间,项目类型,工程专业, 结算金额) ,如果在此基础上再扩展一个单位维,就得到一个四维的超立方体结构,其 多维数组为( 单位,时间,项目类型,工程专业,结算金额) 。 ( 6 ) 数据单元( 单元格) 多维数组的取值称为数据单元。当多维数组的各个维都选中一个维成员,这些维成 员的组合就惟一确定一个变量的值。此时,数据单元就可以表示为( 维1 成员,维2 成 员,维n 成员,变量的值) 。例如,在单位、时间、项目类型和工程专业维上各 取维成员“胜利油田分公司 、“2 0 0 7 年1 2 月”、“投资项目 和“物探工程”,就 惟一确定了变量“结算金额 的一个值“1 0 0 万元 ,则该数据单元可表示为:( 胜利 油田分公司,2 0 0 7 年1 2 月,投资项目,物探工程,1 0 0 万元) 。 1 2 中国石油大学( 华东) 硕士学位论文 第3 章系统的需求分析和总体设计 在了解了数据仓库相关技术后,下面来对造价分析系统的需求进行概述和分析,并 在此基础上对系统进行总体功能结构设计。 3 1 造价分析系统的设计要求和现状分析 3 1 1 设计要求 造价分析系统从石油工程造价管理的特点及影响造价管理的主要因素分析入手,充 分借鉴先进的造价动态管理体系和技术架构,并采用先进的计算机信息管理技术,以网 络作为通信和数据交换平台,紧密结合市场价格机制和石油工程造价的实际特点,开发 适合石油工程造价实际需要的价格管理技术平台,形成完善、标准、规范的造价分析系统; 为石油工程造价提供科学的分析基础,并为单井工程造价的调整和制定提供依据,实现 石油工程造价从调整后分析到调整前预测的战略性转变,并逐步探索科学、完善的价格 分析模型和价格管理模式,更好的辅助领导决策。 3 1 2 现状分析 在造价分析系统开发之前,中石化的造价分析工作主要存在以下几点的困难: ( 1 ) 造价管理困难 造价分析参考资料均为手工整理的纸质资料以及各个油区造价分析的标准难以统 一,造成造价中心对影响石油造价变更的原因不能全面掌握,提高了石油工程造价管理 的难度。 ( 2 ) 决策判断滞后 工程造价管理是手工处理e x c e l 表的方式进行价格的制定、调整。由于不能及时 获取各方面的信息,各级领导对石油工程造价变动不能快速准确地做出判断和决策。 ( 3 ) 预算准确性低 造价中心与各油区之间由于没有高度信息化的价格管理系统,造成造价信息无法及 时更新和传递,影响工程造价预算的准确性 3 2 系统业务需求 造价分析系统是在各专业管理的基础上,提炼出相关数据,满足不同层级管理的需 要。整合完善后的造价分析系统将在满足内部业务管理需要的同时,更着重满足横向上 计划、财务部门等相关部门及总部领导的要求,做到数据共享,进一步提升造价管理工 作在经营管理当中的作用。跟据需要和现状考虑系统主要有三个方面的功能需求:预算 第3 章系统的需求分析和总体设计 员统计台帐及预结算进度等日常管理报表、各个管理层次需要的综合查询报表,各个层 次专业人员需要的造价分析,每个内容跟据用户级别设置不同查询内容。 3 2 1 业务用户预结算统计台账及日常预结算进度查询 对预算员设置本人所作预结算的统计台帐功能,并能按照专业特点进行相关关键参
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年矿产资源勘探工程师职业资格考试试题及答案解析
- 2025年教师资格认定考试试卷及答案解析
- 2025年健身教练员执业能力水平考核试题及答案解析
- 2025年建筑装潢工程师资格考试试题及答案解析
- 2025年机器人操作员职业技术水准测验试卷及答案解析
- 课件中强调重点的声音
- 2025年化妆品品质监督员资格考试试题及答案解析
- 课件中位数众数
- 2025年广播节目策划师资格认定考试试题及答案解析
- 2025年互联网营销师面试问题集
- 2025秋人教版(2024)二年级上册数学教学计划
- 2024年福建浦开集团有限公司招聘考试真题
- 2025四川内江市法院系统招聘聘用制审判辅助人员120人笔试参考题库附答案解析
- 养老院安全培训课件
- 风电发电机组电控系统知识-安全链部分课件
- PMBOK指南第6版中文版
- 医疗质量管理工具课件
- 急性上呼吸道感染病人的护理
- 小学教师量化考核表
- 房建监理平行检查记录表格模板(参考版)
- 计算机操作系统(第四版)-汤小丹-课后习题答案
评论
0/150
提交评论