




已阅读5页,还剩73页未读, 继续免费阅读
(油气田开发工程专业论文)数据仓库在中国石油统计管理中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国石油勘探开发研究院硕士学位论文 a b s t r a c t t h i sp a p e rc a r r i e do u tt h ed i s c u s s i o na n dr e s e a r c ho ft h es t a t i s t i c s & i n q u i r ya n a l y s i s s y s t e m ( s i a s ) w h i c hw a sb a s e do nt h ed a t aw a r e h o u s e ( d w ) t e c h n o l o g y as c a l a b l ed w a r c h i t e c t u r ep r o p o s e di nt h i sp a p e rh a sb e e na d o p t e da sp r e l i m i n a r ys c h e m ef o rt h e p e t r o c h i n ad a t aw a r e h o u s ea r c h i t e c t u r ea n dw i l lb ei m p l e m e n t e di nt h ef u t u r ea f t e rf a r t h e r a m e l i o r a t i o n ;f u r t h e r m o r e ,t h es t u d yf o re t la c t u a l i z a t i o no ft h es y s t e m ,m u l t i d i m e n s i o n d a t am o d e l ,a n da p p l i c a t i o n sf u n c t i o n se t c i nt h ep a p e ri sau s e f u lr e f e r e n c ea n dg u i d a n c e t oe s t a b l i s hd w s y s t e mf o rp e t r o c h i n a a san e wc o n c e p t i o ni nd a t am a n a g e m e n tt e c h n o l o g y , d a t aw a r e h o u s ef i r s ta p p e a r e d i n1 9 9 0 s t h ed a t aw a r e h o u s ei n t e g r a t e sa l lk i n d so fi n f o r m a t i o na n dt h e np r o v i d e s m a n a g e r se f f i c i e n ti n f o r m a t i o nf o rs t r a t e g i cd e c i s i o ni nt i m eb yu s i n gt h em u l t i d i m e n s i o n a l d a t aa n a l y s i sa n dd a t am i n i n gt e c h n o l o 百e s ,w h i c hm a k et h ee n t e r p r i s ec o u l dw i ni nt h e c o m p e t i t i o n s a san e wt e c h n o l o g y , t h ee m p l o y m e n to fd ws t a r t e dj u s tn o wi nc h i n a ( i n c l u d i n gp e t r o c h i n a ) a l t h o u 曲i th a sb e e nm o d e r a t e l yw i d e l ya p p l i e di nt h ew o r l d d wi sq u i t ed i f f e r e n tf r o mt h et r a d i t i o n a ld a t am a n a g e m e n tt e c h n o l o g i e si nm a n y a s p e c t s ,s u c h a sd a t a o r g a n i z i n gf o r m ,a r c h i t e c t u r e ,i m p l e m e n t a t i o n s t r a t e g y i m p l e m e n t a t i o n m e t h o d e t c ,a n a l y z i n g t h es t a t i s t i c s m a n a g e m e n t s i t u a t i o na n d i n f o r m a t i o ns y s t e mo fp e t r o c h i n a ,t h i sp a p e rs t u d i e dt h ek e yt e c h n o l o g yo fd wa n ds i a s b a s e d o n d w : t h i s p a p e rc o a l e s c e n tt h es t r o n g p o i n t o ft h et w om o s tp o p u l a re n t e r p r i s ed w a r c h i t e c t u r e sa n db r o u g h tf o r w a r dt h es c a l a b l ed wa r c h i t e c t u r e t h ed wa r c h i t e c t u r e o f f e r s a p p r o p r i a t ef l e x i b i l i t y a n d e x p a n s i b i l i t y , m e e t st h ed e m a n do fl o n g t e r m d e v e l o p m e n t ,a n de f f e c t i v e l yr e d u c e sa n dp r o t e c t sp r o p h a s ei n v e s t m e n t t h ee t ls t u d yi nt h i sp a p e r , c h a n g e dt h ea c t i v e d a t ae x t r a c t i n g i n t op a s s i v e d a t a o b t a i n i n g ”b yt h ew a yo fe s t a b l i s h i n gu n i f o r mb u s i n e s ss t a n d a r df o rd a t ac o l l e c t i o n ,t h e l i 中国石油勘探开发研究院硕二e 学位论文 d i f f i c u l t yo f e t l c o u l db er e d u c e dd r a m a t i c a l l y t h es t u d yo f m u l t i d i m e n s i o n a ld a t am o d e l w h i c ha i m sa tt h ea c t u a lc a s ea n a l y z e st h ed i f f e r e n tr e a l i z a t i o nm e t h o d sd e e p l ya n d p r o v i d e st h em o s to p t i m a lm e t h o d t h ea p p l i c a t i o nf u n c t i o ns t u d yf i n d so u ta n dc a t e g o f i z e s t h ea p p l i c a t i o nf u n c t i o n so fs i a si nd e t a i l t h e s ea b o v es t u d i e sa r eu s e f u lr e f e r e n c em a d g u i d a n c et oe s t a b l i s hs i a ss y s t e mb u i l to nd w k e y w o r d s :d a t aw a r e h o u s e w ) ,d a t am a r t ( d m ) ,a r c h i t e c t u r e ,s t a t i s t i c sm a n a g e m e n t i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得中国石油勘探开发研究院或其它 教育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 签名:巡日期也坠p 关于论文使用授权的说明 本人完全了解中国石油勘探开发研究院有关保留、使用学位论文的规定,即: 中国石油勘探开发研究院有权保留送交论文的复印件,允许论文被查阅和借阅: 学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存 论文。 签名:博一导师签名 日期:伸s 占f 0 中国石油勘探开发研究院硕士学位论文 第l 章绪论 1 1 数据仓库系统的产生 自从1 9 6 9 年e f c o d d 博士发表了著名的关系数据模型的论文之后,数据管理便 进入了一个崭新的时代,从传统的文件系统、层次或网状数据库等封闭数据库系统进 入了关系型数据库系统。各行各业都使用关系模型建立了自己的o l t p ( 联机事务处 理) 系统,近三十年来,数据库系统的应用主要就在o l t p 系统。 关系数据库系统具有数据结构化、最低冗余度、较高的程序与数据独立性、易于 扩充、易于编制应用程序等优点,各类管理信息系统( m i s ) 几乎都是建立在关系数 据库系统的基础之上,各企业利用自己的o l t p 系统在业务运作过程中收集了大量数 据。但如何对这些数据进行整理、集成;如何高效的分析、利用这些海量的数据,从 中发现高价值的信息来支持企业的决策。传统的业务处理系统在应用中逐渐显示出其 不足之处: 往往只能反映局部的数据信息,很难反映全局、部分全局的信息; 不容易实现数据的对比、分析; 无法表示出数据随时间变化的规律: 缺乏分析挖掘能力,很难获得隐藏在数据背后的规律,对决策支持的能力有限。 这些问题已越来越受到企业界和r r 界的重视。数据仓库的出现,为解决上述问 题提供了一种极具价值的技术。正如著名的数据仓库专家r a l p hk i m b a l l 所说: “我 们花了二十多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。” 在2 0 世纪8 0 年代,数据仓库还是一个“异端邪说”。数据库的研究者坚持认为 应该建立单一的数据模型去满足多种用途。“为了不同的目的,建立不同的数据模型”, 这种说法显得过于标新立异。然而,正是这种学说使得数据仓库蓬勃发展,既包括集 成化的数据,又包括历史数据;既有细节数据,又有综合性的摘要数据。这些特性使 数据仓库为企业打开了信息分析、预测、挖掘的大门。 中国石油勘探开发研究院硕士学位论文 而今数据仓库已经进入一个快速发展阶段。当现代企业开始重视信息的价值时, 数据仓库就成为一个必然的选择。企业要想在激烈的竞争中获胜或是取得有利地位, 必须要能够透过复杂而多变的商业环境,通过对比、分析等手段从庞大的商业信息中 寻找数据内在规律和有用信息,从而快速做出方向性的决策和计划,并付诸实施。企 业对信息的需求大大加剧,正是数据仓库得以快速发展的根本原因。 1 2 课题来源 中国石油天然气股份有限公司( 以下简称中国石油) 为了加快各业务领域的信息 化建设,通过信息技术全面提升企业的整体管理水平,于2 0 0 0 年1 1 月完成了中国 石油信息技术总体规划( 以下简称总体规划) 。总体规划清晰地描述了中 国石油未来信息工作管理体制、组织结构及主要工作内容,提出了信息系统建设项目 实旌的优先次序和项目解决方案,测算了信息化工作投资规模,并进行了投资与收益 分析。总体规划是中国石油未来信息技术能力的蓝图,将未来5 年中国石油要实施的 i t 项目分为7 条主线,共3 4 个工作包( 详见图1 1 ) 。它清晰描述了企业如何获得 这些能力。总体规划所设计的r r 项目是中国石油的一项重要任务,它确保其信 息技术架构与中国石油的业务战略目标一致。数据仓库就是其中一个工作包。 图1 1 中国石油信息技术总体规划工作包分类 2 中国石油勘探开发研究院硕士学位论文 i t 总体规划工作包的实施,为数据仓库建设创造了良好的软硬件环境。上 下游应用系统( a 、b 工作包) 、e r p 项目( c 工作包) 以及电子商务( d 工作包) 项目的实施,为数据仓库提供了数据源;企业信息门户( e 2 ) 为信息访问和数据展现 提供了统一平台;基础设施改进项目及i t 管理改进项目( f 、g 工作包) 为数据仓库 建设提供了安全可靠的外部环境和有力的组织保障。数据仓库将在各应用软件包之 上,整合基础信息,面向管理层为决策分析服务。 中国石油数据仓库系统的总体建设目标是:建立一个集成、共享的数据仓库系统 管理平台;整合不同来源的数据,发挥历史数据价值,提高数据分析的能力;为企业 各层次人员提供多维信息统计分析、关系挖掘、查询检索和报表生成工具;实现企业 数据向信息、知识的转化,为管理层决策提供及时有效地支持。 数据仓库建设是由业务和数据需求驱动,滚动建设的过程。本着“整体规划、分 步实施”的原则,中国石油数据仓库的整体实施预计将分为四期完成。其中第一期预 计1 2 个月完成,后三期建设在2 4 个月内完成。 第一期建设的主要工作内容包括:完成中国石油数据仓库总体架构的设计和搭 建,并以股份公司规划计划部综合统计业务、审计部财务审计业务、领导办公周报等 为业务主题,利用数据仓库技术实现上述业务的分析和预测,为管理层提供决策支持, 增强企业应变能力。 1 3 主要研究内容 在勘探院学习期间,我师从软件中心刘明新教授学习企业信息化及具体实现。基 础理论课程完成后我有幸进入了中国石油数据仓库项目,参与了项目前期的部分实践 工作。在此期间我参与的主要工作包括:业务需求分析、数据仓库一期实施方案编制 等。由于项目涉及多个业务职能部门,本人以规划计划部统计处的综合统计业务为重 点完成了上述工作。 以下本文将简要介绍数据仓库相关概念,数据仓库建设的策略和实施步骤;同时 简要介绍中国石油统计业务管理现状及需求。最后结合项目实际对中国石油数据仓库 3 中国石油勘探开发研究院硕士学位论文 体系架构,及基于数据仓库技术的综合统计查询分析系统的关键技术问题进行研究和 探讨。 由于本人水平有限,经验尚浅,文中定有许多疏漏之处,敬请老师同学指正! 以上主要介绍了项目来源及本人的主要工作,以下各章内容安排如下: 第二章数据仓库技术。简要介绍数据仓库相关技术; 第三章数据仓库设计和实施。简要介绍数据仓库开发方法和数据仓库实施策略及 实施步骤: 第四章统计管理现状及需求分析。以中国石油总部和大庆油田分公司统计业务管 理为例,介绍中国石油统计管理现状和信息系统现状,及其需求。并对现状和需求进 行了初步分析; 第五章基于数据仓库技术的统计查询分析系统应用研究。针对中国石油数据仓库 实施特点,介绍了一种可变的数据仓库体系结构:并对基于数据仓库技术的统计分析 查询系统的关键技术进行了初步探索; 第六章总结与展望。对本文进行了小结并对今后工作提出了展望。 4 中国辐油勘探开发研究院硕士学位论文 第2 章数据仓库技术 数据仓库是2 0 世纪9 0 年代初期提出的概念,它是数据管理技术上一个新兴的领 域。数据仓库技术起源于对大量数据进行处理的需要,是随着业务应用的需要而产生 的。与传统的数据库技术相比,数据仓库为决策分析提供了更好的支持,跳出了传统 联机事务处理的范畴。 数据仓库是诸多学科相互交叉、综合应用的技术,它以数据库技术作为存储数据 和资源管理的手段,以联机分析处理技术和方法作为提取信息的有效手段,以数据挖 掘作为知识和规律发现的途径。数据仓库与传统的数据管理技术,在概念、体系结构、 层次结构、数据展现和分析手段各方面存在较大的区别。以下从这些方面简要介绍数 据仓库的相关技术。 2 1 数据仓库的定义及特点 目前,数据仓库技术尚处于不断的发展、完善之中,数据仓库之父b i l li n i t l o n 在 1 9 9 2 年出版的( b u i l d i n gt h ed a t aw a r e h o u s e 一书所提出关于数据仓库的基本定义被 广泛接受。他把数据仓库定义为:数据仓库( d a t a w a r e h o u s e ) 是一个面向主题的 ( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n - v o l a t i l e ) 、反映历史 变化( t i m ev a r i a n t ) 的数据集合,用以支持管理决策。 以上定义清楚地指出了数据仓库有以下几个特点:数据仓库中的数据是面向主题 的、集成的、不可更新的( 稳定的) 、随时间不断变化的,建立数据仓库是为了更好 的支持决策的制定。 面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数 据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使 用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相 关。 5 中国石油勘探开发研究院硕士学位论文 集成的 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独 立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清 理的基础上经过系统加工、汇总和整理得到的,消除了源数据中的不一致性,保证了 数据仓库内的信息是关于整个企业的、一致的全局信息。 相对稳定的 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的 数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进 入数据仓库以后,一般情况下将被长期保留。数据仓库中一般有大量的查询操作,但 修改和删除操作很少,通常只需要定期的加载、刷新。 反映历史变化 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包 含历史信息。系统记录了企业从过去某一时间点( 如开始应用数据仓库的时间点) 到 目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量 分析和预测。 2 2 与传统m i s 系统的区别 数据仓库不同于传统的管理信息系统。在很多方面,两者存在根本的区别: m i s 系统数据仓库 面向应用面向主题 详细的 详细的和结合的、或提炼的 在访问瞬间是准确的代表过去的数据、快照 为臼常工作服务 为管理层服务 可更新不可更新 重复运行启发式运行 处理需求预可知处理需求事先不知道 6 中国石油勘探开发研究院硕士学位论文 生命周期符合s d l c 完全不同的生命周期c l d s 对性能要求高 对性能要求宽松 一次访问一个单元 一次访问一个较大的数据集 事务处理驱动 分析处理驱动 更新控制是一个主要关心的问题无更新控制问题 高可用性 较宽松的可用性要求 非冗余性总是存在冗余 支持日常操作支持管理需求 访问频繁访问很少或是适量的 以上比较说明原始数据和导出型数据之间存在着较多的差别,不应该保存在一 起。一个好的事务型数据库不能很好的支持分析型操作;而一个好的分析型数据库也 不能高效的为业务处理服务。因此,应将它们分开,分别组织操作型数据环境和分析 型数据环境。 2 3 数据仓库体系结构 数据仓库体系结构是在建立数据仓库平台时所贯彻的一个整体蓝图,是底层基 础,用来指导在建立和管理数据仓库平台时必须制定的大多数决策。以下介绍几种常 见的数据仓库体系结构,并分析其适用范围及优缺点。 2 3 1 直接报表模式 这种模式之所以称为直接报表( d i r e c tr e p o s i n g ) ,是因为业务人员直接通过一些 o l a p 工具直接访问业务系统中的数据,产生所需要的报表或者进行相关数据分析。 这种结构非常简单,只要把o l a p 工具与现有业务系统连接,能够进行联机信息访问 就可以了,它能够快速的向业务人员提供灵活的多维分析报表。 直接报表模式提供一种简单、有效的方式,利用业务处理系统中积累下来的历史 数据,为业务人员提供了局部或部分全局的信息视图。尽管这种方式与经典的数据仓 库理论存在一定区别,但仍然可以说是一种简单的数据仓库技术应用。目前,在越来 7 中国石油勘探开发研究院硕士学位论文 越多的业务处理系统中,依靠这种方式来产生报表或做多维数据分析,这种方式比传 统的通过编程来生成报表的方式要便捷、高效。 这种方式的主要问题在于:数据访问内容有限,局限于单一业务处理系统中现有 在线数据;无法提供统一的信息视图;同时对业务系统处理性能有一定影响。 2 3 2 独立数据集市模式 独立数据集市( i n d e p e n d e n td a t am a r t ) 也被称为部门级数据仓库,往往是针对特定 部门的业务需求而设计的,在这种结构中,没有统一的数据存储。之所以在数据集市 前冠以“独立”两字,是强调这些数据集市彼此之间相互独立,具有不同的数据存储 模型。 直接报表模式 独立数据集市模式 图2 1直接报表模式和独立数据集市模式 在这种结构中,i t 人员必须针对每个数据集市设计独立的e t l 处理程序,把各 业务系统的操作数据按照需要分别转换到每个独立数据集市中。这种策略将使整个系 统变得异常复杂和难于维护,在投资方面也是得不偿失。这种结构最主要的问题在于 8 中国石油勘探开发研究院硕士学位论文 没有统一的企业数据存储,不能为企业提供统一的信息视图。建立过多的独立数据集 市将给今后的整合带来难以逾越的困难。 2 3 3 虚拟数据仓库模式 虚拟数据仓库不需要从业务系统抽取数据到数据仓库中去。用软件工具或中间件 建立一个中间层,在中间层中映射业务系统数据的相关属性,如数据的物理位簧,数 据字段信息等。中间层接收用户的请求,并将请求转发到目标业务系统,查询结束后 再由中间层将结果返回给用户。 这种方式投资小,不用建立新的数据存储系统,而是尽可能利用原有业务系统, 大多数操作仍由原系统完成。中间层主要完成两个工作:数据的映射;请求和查询结 果的转发。 这种模式的主要缺点:所有查询操作仍由原系统完成,会对原业务系统造成较大 的压力;同时由于数据没有经过统一的清理和转换,所以对原业务系统数据要求较高, 各系统中的同一数据必须采用一致的表达方式,否则数据的一致性无法得到保障。当 业务系统较少,且各系统运行压力较轻时,采用这种模式可以取得较好的效果,但这 种模式很难作为大中型企业的企业级数据仓库的最终解决方案。 以上三种数据仓库的体系结构,都可以作为过渡性或试验性的体系结构,快速建 立相对简单的应用,证明数据仓库技术的实用价值;或者作为小型企业或部门级应用 9 中国石油勘探开发研究院硕士学位论文 的体系结构。当大中型企业面临复杂、异构的多业务系统,差别各异的部门需求、以 及庞大的历史数据时,以上三种结构显得力不从心。对于企业级数据仓库,基本的要 求是整个企业能够共享统一的数据存储模型,为各级业务人员提供一致的信息视图。 2 3 4h u ba n ds p o k e 模式 这种结构与独立数据集市的主要差别在于增加了一个企业级数据仓库,它需要一 个r d b m s 来驱动。e t l 流程首先将业务处理系统中的数据按照统一的存储模型加载 到中央数据仓库,然后再按照各部门特定的需求,把相关数据复制到物理上独立的部 门数据集市。因为中央数据仓库汇集了来自各业务处理系统的数据,同时也负责向各 数据集市提供信息,看上去像一个h u b ( 集线器) ;而业务人员在进行数据分析与信息 访问时将根据需要连接到不同的数据集市,这种交叉复杂的连接看上去就像s p o k e ( 车 轮辐条) 一样。g a r t n e rg r o u p 把这种数据仓库称为“h u ba n ds p o k ed a t aw a r e h o u s e ”。 “h u ba n ds p o k e ”结构解决了统一数据存储模型、数据一致性的f q 题,但从实 际使用的角度来看仍有一定缺陷。主要体现在两方面:一个是业务人员对信息的访问 非常不方便,很难进行跨数据集市的信息分析。另一个问题是当数据集市增加时,系 统整体投资可能会增加,同时也增加了管理的复杂性。 2 3 5 集中式数据仓库模式 集中式数据仓库将详细数据分析、部分的数据转换与清洗等复杂处理均集中在中 央数据存储,同时也将逻辑数据集市设立在中央数据存储之内。逻辑数据集市由在基 础数据之上形成的小结表或者逻辑视图组成。物理数据集市设立在中央数据仓库之 外,并提供专有的软硬件设备,一般都使用o l a p 服务器,按照特定需求组建多维立 方体来提供多维信息分析。 中央数据存储采用符合数据库范式理论( 一般为第三范式) 的存储模型来保存基 础数据,从而为整个企业提供一致的信息视图。数据集市主要针对粒度较粗、预先定 义的分析需求。对于动态的业务查询,粒度较细的或者针对基础数据的分析则由中央 数据仓库提供。 1 0 中国石油勘探开发研究院硕士学位论文 $ $ $ h u b a n d s p o k e 模式 集中式数据仓库模式 图2 3 企业级数据仓库模式 业务人员既可以访问多维立方体,也可以访问中央数据仓库内的概要表或者逻辑 视图。基于o l a p 服务器的数据集市比基于r d b m s 的数据集市容易维护,缺点是基 于o l a p 服务器的数据集市规模有一定限制。 这种数据仓库模式将详细数据分析、部分的数据转换与清洗等复杂处理均集中在 中央数据仓库,从而对作为数据仓库引擎的r d b m s 和相应的服务器带来了极大的挑 战。对数据仓库引擎和相应的数据库服务器有较高的要求。它们需具有优良的线性扩 展能力,及较高的并行处理能力,因此需要的投资较大。 2 4 数据仓库层次 作为企业级的数据仓库,从逻辑上通常可分为:数据源层、数据整合层、数据存 储层、分析展现层。以下分别介绍各层的功能。 中国石油勘探开发研究院硕士学位论文 2 。4 。1 数据源层 数据源是数据仓库系统数据的来源,是整个系统的数据源泉。通常包括企业内部 信息和外部信息。内部信息包括存放于各业务系统中的业务处理数据和各类文档数 据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。 图2 4 数据仓库的多层结构 2 4 z 数据整合层 数据整合层从数据源层获得原始的业务数据,并对其进行一致性处理,按主题进 行数据重组和格式转换,然后装载到数据仓库系统中。 数据仓库系统需要从多个数据源中抽取和汇总各种业务数据,数据从业务系统到 数据仓库不是简单的复制过程,需要较复杂数据处理转换。通常有三个过程:数据抽 取( e x t r a c t ) 、数据转换清洗( t r a n s f o r m a t i o n ) 、数据装载( l o a d i n g ) ,上述过程 简称为e t l 。 e t l 按照统一的规则集成数据从而提高数据的价值,完成数据从数据源向目标数 据仓库转化。e t l 过程是实施数据仓库的重要步骤,在数据仓库建设中最难的部分是 1 2 中国石油勘探开发研究院硕士学位论文 用户需求分析和数据模型设计,而e t l 是实施中最为繁琐、占用资源最大的部分, 工作量通常占整个实施的6 0 左右,这是从国内外众多实践中得到的普遍共识。如 果能有效的减少e t l 阶段的工作量,将大大加快实施进度。 2 4 3 数据存储层 数据存储层是整个数据仓库系统的核心,对存储到企业级数据仓库系统中的数据 进行集中管理。在数据存储层中,数据分别存放在两类数据库中:关系型数据库和多 维数据库。 数据存储是数据仓库系统的中心,取自多个数据源层的明细数据,以及用于分析 的汇总数据都存储在这个中心,它在逻辑上是一个完整的库。 数据存储层逻辑上可进一步细分为三个部分:操作数据存储( o p e r a t i o nd a t a s t o r a g e ,o d s ) 、中央数据仓库、数据集市。这三部分的作用及数据组织方式各不相 同。 2 4 3 1o d s o d s 是为了保证数据移动的顺利进行而开设的阶段性数据储存空间,它是业务 系统原始数据进入数据仓库前的暂存区。需要进入数据仓库的各个业务系统的数据首 先直接快速传输到o d s 中,在o d s 中经过清洗、转换、映射等复杂的数据处理,再 经过一定的汇总或直接转移到目标数据仓库中。数据在o d s 中进行清洗、转换,保 证了数据的快速导入,减轻了业务系统的压力。 o d s 还转移一部分业务系统细节查询的功能。o d s 的数据从粒度、组织方式等 各个方面都保持了与业务系统的一致,原来由业务系统产生的报表、细节数据的查询 能够从o d s 中进行,从而降低业务系统的查询压力。 o d s 这一数据存储区是可选的,在某些数据仓库的具体实现中可能不包含这一 区域,源数据的抽取、清洗、转换操作由e t l 工具完成后直接进入中央数据仓库。 中国石油勘探开发研究院硕士学位论文 2 4 3 2 中央数据存储 中央数据存储保存所有最详细的业务数据。该层数据直接来源于经过清洗转换的 数据,数据的组织方式可能已经完全不同于原始的业务系统。中央数据存储中的数据 组织形式通常采用三范式。 2 4 3 3 数据集市 根据业务需求将数据仓库数据分成几个独立的数据集市,每个数据集市面向不同 的业务部门,完成不同的查询和分析需求。数据集市中的数据通常由中央数据存储中 的详细数据聚合而来,根据数据聚合程度的不同包含轻度、中度、高度聚合三种不同 的层次。汇总的方式将依据数据量的大小和使用频率综合考虑。有关数据集市的描述 请参照以后章节。 2 4 4 数据展现层 数据展现层将各种不同的数据源封装在一个统的界面下,实现同一的、简单的 信息访问。利用企业信息门户构成数据仓库访问的统一入1 :3 ,各种信息访问可在同一 方式下进行。 展现层可根据用户分析需求提供多种信息访问方式,如报表、随即查询、多维分 析和数据挖掘等。 2 4 5 元数据管理 元数据管理是企业级数据仓库系统的重要组成部分,利用它可以对数据仓库系统 本身以及所有相关的业务流程、业务规则、业务系统进行完整的描述,而且可以方便 的对这些相关描述进行查询和检索。数据仓库与传统的业务处理系统的显著区别之一 是频繁的变化,元数据管理是数据仓库适应频繁变化的重要保证。有关元数据的进一 步描述请参照以后章节。 2 5 数据集市 数据仓库在管理、决策中的作用逐渐为人们认同,但是在企业范围内构建数据仓 库的工作量大、代价高。一方面,如何满足组织中不同层次管理决策要求是一个需要 1 4 中国石油勘探开发研究院硕士学位论文 解决的复杂问题;另一方面,在实施过程中由于很难全面了解、组织管理决策要求, 造成项目进度拖延,或是建成的数据仓库起不到应有的作用而导致失败,于是提出了 数据集市的概念。 数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持服务;而数据 集市是部门级的,通常只是为某个局部范围内的管理人员服务,因此又被称为“部门 级数据仓库”( d e p a r t m e n td a t a w a r e h o u s e ) 。不同的数据集市可以分布在不同的物 理平台上,也可以逻辑的分布于同一物理平台上,它的灵活使得数据集市可以独立的 实施。 数据集市有两种,独立的数据集市( i n d e p e n d e n t d a t a m a r t ) 和从属的数据集市 ( d e p e n d e n td a t am a r t ) 。 数据源数据源 从属数据集市独立数据集市 图2 5 从属数据集市和独立数据集市 从属数据集市,是指它的数据直接来源于中央数据仓库。这样做的目的有两个: 一是保证企业范围内数据的一致性;二是为关键部门建立能保证查询反应速度的数据 集市。 1 5 中国石油勘探开发研究院硕士学位论文 独立数据集市,它的数据直接来源于各生产系统。许多企业在计划实施数据仓库 时,往往出于投资等方面的考虑,最后建成的就是这种结构的数据集市,用来解决个 别部门比较迫切的决策问题。在这种结构中,i t 部门必须设计多个数据转换程序, 把各个生产系统的操作数据转换到各个数据集市中,以保证数据的一致性。显然,建 立过多的独立数据集市,将使整个系统变得非常复杂和难以维护。 2 6 多维数据模型 2 6 1 星型模型 创建和使用星型模型的好处是可以为系统处理优化数据。通过数据预连接和建立 有选择的数据冗余,为访问和分析过程简化数据。 图2 6 星型模型 星型模型是由一点向外辐射的建模范例,中间有一单一对象沿半径向外连接到多 个对象,大多数数据集市都采用“星型模型”来表示多维数据概念模型。星型模型反 映了最终用户对商务查询的看法。星型模型中心的对象称为“事实表”,与之相连的 对象称为“维表”,商业分析中需要了解的指标都用维表来表述。 一个简单逻辑的星型模型由一个事实表和若干个维表组成。事实表包含基本的商 业数据或企业指标,可以由成千上万行组成。在数据仓库中除了事实表和维表的数据 外,还可能包含一些已预先处理的综合数据,这些数据可以通过创建一些概况表进行 存储,以提高查询数据的速度。 1 6 中国石油勘探开发研究院硕士学位论文 2 6 2 雪花模型 雪花模型是对星型模型的扩展,每个维度都可以向外连接到多个详细类别表。在 这种模式中,维表除了具有星型模型中维表的功能外,还连接上对事实表进行详细描 述的详细类别表,详细类别表通过对事实表在有关维上的详细描述达到了缩小事实 表、提高查询效率的目的。 图2 7 雪花模式 雪花模型对星型模型的维表进一步标准化,对星型模型中的维度表进行了规范化 处理。雪花模型的维度表中存储了正规化的数据,这种结构通过把多个较小的标准化 表( 雨不是较大的非标准化表) 联合在一起来改善查询性能。 星型模型和雪花模型都只适合数据集市,而不适合数据仓库。数据集市在很大程 度上根据需求来形成的,这与数据仓库不同。数据仓库是根据企业信息需求而非部门 信息需求建立的,它为一个非常大的群体服务,其对于任何个需求集市而言,其性 能和便捷性都不是最优的。而数据集市是根据部门的特殊需求建立的,可根据不同部 门的需求,将数据集市建成一个最优的星型或雪花型结构。 2 7 联机分析处理 当今的数据处理大致可以分成两大类:联机事务处理o l t p ( o n l i n et r a n s a c t i o n p r o c e s s i n g ) 、联机分析处理o l a p ( o n - l i n ea n a l y t i c a lp r o c e s s i n g ) 。o l t p 是传统 数据库的主要应用,主要面向基本的、日常的事务处理,如银行交易。o l a p 是数据 1 7 中国石油勘探开发研究院硕士学位论文 仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查 询结果。 2 7 1 联机分析处理概念 联机分析处理( o l a p ) 的产生稍晚于数据仓库,正是因为数据仓库要求系统能 够较快速响应用户各类查询、分析请求,并且能从多个视角观察结果数据,从而孕育 了o l a p 的思想。传统的联机事务处理( o l t p ) 可以较好的完成日常业务处理,但 要对数据进行深层次探索,尤其对主题进行多角度、多层次分析显得力不从心,o l a p 的出现正好能够实现以上目标。 0 l a p 概念首次出现在1 9 9 3 年e f c o d d 博士的一篇题为为用户和分析员提供 联机分析处理的论文中,文中描述了o l a p 的十二条规则,包括o l a p 模型必须 提供多维概念视图、透明性准则、存取能力准则、稳定的报表性能、c l i e n t s e r v e r 体 系结构等。这十二条规则可作为o l a p 的特征以及评价和购买o u 婶产品的标准, 详细条目参见附录一。 o l a p 从数据仓库中的集成数据出发,提供面向分析的多维数据模型,使用多维 分析方法从多个角度、多个侧面及多个层次对数据进行分析、比较,使用户以更接近 自然的方式分析数据。 o l a p 的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,其 技术核心是“维”。维是人们观察客观世界的角度,是一种高层次的类型划分。维一 般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属 性定义为多个维,使用户能对不同维上的数据进行比较。 o l a p 的基本分析操作有钻取( r o l lu p 和d r i l ld o w n ) 、切片( s l i c e ) 和切块( d i c e ) 、 以及旋转( p i v o t ) 等。 钻取。钻取是改变维的层次,变换分析的粒度。它包括向上钻取( r o l lu p ) 和向 下钻取( d r i l ld o w n ) 。向上钻取是在某一维上将低层次的细节数据概括到高层次 1 8 中国石油勘探开发研究院硕士学位论文 的汇总数据,或者减少维数;而向下钻取则相反,它从汇总数据深入到细节数据 进行观察或增加新的维度。 切片和切块。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的 分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。 旋转。旋转是变换维的方向,即在表格中重新安排维的放置( 如行列互换) 。 2 7 2o l a p 分类 o l a p 是以数据仓库或数据库为基础,其基础数据来自o l t p 数据库系统。o l a p 系统中的数据分为两类:细节数据和综合数据,综合数据是针对细节数据进行不同级 别的聚合得到的。 按照o l a f 对数据的组织形式主要分为三种:第一种是多维o l a p 型 ( m u l t i d i m e n s i o n a lo l a p ,m o l a p ) ,它要求建立专门的多维数据库系统;第二种 是关系型o l a p ( r e l a t i o n a lo l a p ,r o l a p ) ,即利用现成的关系数据库技术来模拟 多维数据。以上两种方法各有其优缺点,所以综合两者的优点,出现了混合型o l a p ( h y b r i do l a p ,h o l a p ) 。此外,还有桌面型o l a p ( d e s k t o po l a p 。d o l a p ) 。 2 7 2 1 多维型o l a p m o l a p 中,将分散在各o l t p 的数据源经过清洗、整理和转换后存入数据仓库。 并根据维信息进行计算、合并等预处理,得到综合数据,并将结果按一定的层次结构 存入多维数据库中,从而建立很多“实视图”。它不同于一般的数据库视图,其中含 有大量数据,并真实储存在多维数据库中。m o l a p 的结构使得它能快速响应用户的 分析请求,并将分析得到的结果返还给用户,这主要得益于多维数据库独特的结构, 以及其中预处理程度很高的数据。然而,这些预处理是预先定义好的,这也限制了 m o l a p 的灵活性,同时综合数据扩大了数据的规模,所以不适合数据量特别巨大的 数据仓库。此外,m o l a p 要求维数不宜过大,否则将影响效率。 1 9 中国石油勘探开发研究院硕士学位论文 2 7 2 2 关系型o l a p r o l a p 在功能上类似于m o l a p ,它以关系数据库为中t x , ,用二维表来组织数 据,表现多维用户视图。当用户发出多维分析请求时,o l a p 服务器将这些请求转换 为s q l 语句,并将结果转换为多维视图返回给用户。 在r o l a p 中,数据的预处理程度不高,但灵活性高,用户可以动态定义统计和 计算方法,并且有成熟稳定的关系产品管理工具和开放的s q l 接口,可移植性好。 但性能不如m o l a p ,因为表连接等操作需要较大的系统开销,为了降低r d b m s 处 理开销,通常采用星型模型设计方案。 r o l a p 利用现成的关系数据库技术来模拟多维数据。因为在当今企业的业务系 统中,基于关系数据库的管理系统占绝大多数,同时也积累了大量的业务数据,建立 基于关系的r o l a p 系统,更具健壮性,也更切合实际。 2 7 2 3 混合型o l a p h o l a p 是m o l a p 与h o l a p 的融合,它同时利用了多维数据库和关系数据库。 在h o l a p 中,底层的数据( 最细粒度的数据) 是保存在关系型数据库中的,而汇总 的数据还是存放在多维数据库中。这样既可以利用c u b e 的预计算能力,也可以不限 制查询的范围,直接查询到实时的数据。它结合了m o l a p 和r o l a p 的优点,当客 户端用户提交一个分析请求时,系统透明的从m d d b 中获取综合数据或从r d b m s 提取细节数据。 h o l a p 的优势在于它能在性能需求和存储需求间找到一个平衡点,从而充分利 用系统性能。 2 7 2 4 桌面型o l a p 随着硬件成本的不断降低,很多用户拥有高性能的个人电脑,可以通过利用这些 资源来处理多维计算中的一些、甚至大部分工作,也就是说,将很多工作移交给客户 端来完成。d o l a p 将大部分的计算都放在客户端进行,因此又被称为实时o l a p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程项目多个方案(3篇)
- 2025年修改符号试题及答案
- 城市燃气管道更新改造工程社会稳定风险分析及风险应对策略研究报告
- 工程营地防灾方案范文(3篇)
- 2025年消毒管理办法培训试题及答案
- 儿童护齿饮食安排
- (完整版)土方开挖施工方案
- 货物委托公路运输合同书4篇
- 霍乱恢复期护理查房
- Lesson 54 Sticky fingers说课稿-2023-2024学年初中英语第二册新概念英语
- 2025-2026学年浙美版(2024)小学美术二年级上册(全册)教学设计(附目录P168)
- 2025年时政热点考试模拟题库目及解析答案
- DB63-T 1921-2021 交通运输专业空间数据分类与编码规范
- 2025年部编版八年级道德与法治上册全册教案
- 2025年移动式压力容器充装R2作业证考试练习题库含答案
- 北师大版(2024版)三年级上册第七单元第6节《生活中的小数》教学设计
- 2025年中国银行招聘考试试题及答案
- 土石方工程的合作协议书
- FZ/T 81019-2014灯芯绒服装
- C语言程序设计案例教程-完整版ppt全套教学教程(最新)
- 吴通天线技术交流
评论
0/150
提交评论