




已阅读5页,还剩63页未读, 继续免费阅读
(计算机软件与理论专业论文)qhse环境下的商务智能系统设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
韭塞銮塑太堂亟堂焦逭塞 虫塞埴噩 中文摘要 摘要:本文结合中国石油具体项目,详细阐述了一个q h s e ( q u a l i t y ,h e a l t h , s a f e t y & e n v i r o n m e n t ) 环境下的商务智能系统的设计和实施过程,并详细介绍了基 于这个新的信息平台的应用q h s e 报告系统的设计和实现。 1 论文分析了中国石油的信息化状况和现实业务需求,综述了数据仓库的概 念与特征,并根据以往数据仓库系统的构建经验,总结出数据仓库建立的过程。 2 研究了数据挖掘技术的理论和方法,针对当前q h s e 系统数据充足但无法 利用的问题,作者提出了数据挖掘在q h s e 业务中的应用方案,将o l a p 和数据 挖掘技术引入q h s e 系统中,发掘系统中潜在的有价值模式。 3 在联机事务分析领域,论文集中探讨了o l a p 的概念与特点,结合o l a p 的实现方式总结出数据仓库与o l a p 协作的基本框架,并对多维数据模型进行了 深入解析。 4 论文提出一个多维分析服务和分析报告共享服务相结合的商务智能应用架 构,并在架构总体设计思路的基础上,对该架构中的诸如多维分析平台、分析报 告服务器等组成部分的特征集和逻辑结构进行了设计。 5 结合中国石油q h s e 报告系统的设计和开发,详细分析了一个实际应用的 商务智能项e t 的分析和建设过程,给出了商务智能项目设计和实施方案。首先通 过需求分析确定系统主题域,对数据源进行分析和理解,然后以一个典型的业务 主题为例,依次进行了数据仓库的逻辑模型设计和物理模型设计,并展示了o l a p 分析图例。 关键词:数据仓库;数据挖掘;e t l ;o l a p ;q h s e ;b 1 分类号: a b s t r a c t a b s t r a c t :i nt h ev i e wo ft h es p e c i f i cp r o j e c to fp e t r o c h i n a ,t h ed e s i g na n d i m p l e m e n tp r o g r e s so f b ii 1 1t h eq h s e e n v i r o n m e n ti sd i s c u s s e di nd e t a i l a n ds od o e s t h eq h s ep r o j e c t 1 t h ei n f o r m a t i o ns y s t e mc o n d i t i o na n dt h ep r a c t i c a lr e q u i r e m e n to fp e t r o c h i n ai s a n a l y z e d a n dt h ec o n c e p ta n dc h a r a c t e ro fd a t aw a r e h o u s e ( d w ) a r ei n t r o d u c e d a c c o r d i n gt ot h ee x p e r i e n c eo ft h ec o n s t r u c t i o no fd w ,t h ee s t a b l i s h m e n tp r o g r e s so f d wi sc o n c l u d e d 2 b r i e f l y ,t h er e s e a r c ha r e a sa n dm e t h o d so fd a t am i n i n ga r ei n t r o d u c e d t h e r ea r e e n o r m o u sd a t aa c c u m u l a t e da c c o m p a n y i n gw i t ht h ea p p l i c a t i o no fq h s e i n t e r e s t e d p a t t e r n sa l em o r ei m p e r a t i v ei nt h ef i e l do fd a t a b a s e af e a s i b l ed e s i g no fd a t am i n i n g i nt h eq h s ei si n t r o d u c e d 3 t h ec o n c e p t sa n dp e c u l i a r i t yo ft h eo l a pa r ed i s c u s s e di nt h ef i e l d c o m b i n e d w i t ht h er e a l i z a t i o nm e t h o do ft h e0 l a p ,t h ef r a m e w o r ko fd wa n d0 l a pi s c o n c l u d e d a n dt h em u l t i d i m e n s i o nm o d e l i sd i s c u s s e ds p e c i f i c a l l y 4 t h e p a p e r i n t r o d u c e san e wb i a p p l i e d a r c h i t e c t u r ew h i c hi n t e g r a t e s m u l t i d i m e n s i o n a ld a t a - a n a l y s i ss e r v i c e sa n dr e p o r t - s h a r i n gs e r v i c e s b a s e do nt h e f e a t u r es e t sa n d l o g i c a l s t r u c t u r e so ft h ea r c h i t e c t u r e s c o m p o n e n t s s u c ha s m u l t i d i m e n s i o n a l - a n a l y s i sp l a t f o r m ,a n a l y s i s - r e p o r ts e r v e ra n ds oo n 5 t a k i n gq h s er e p o r ts y s t e ma sa ne x a m p l e ,t h ep a p e rd i s c u s s e st h eb u s i n e s s a n a l y s i sa n dt h eb u i l d i n gp r o c e s so ft h eb u s i n e s si n t e l l i g e n c ei nd e t a i l s ,a n dg i v e st h e d e s i g na n di m p l e m e n tm e t h o do f t h ep r o j e c t :i n s t ,d e t e r m i n et h et o p i cf i e l da c c o r d i n gt o t h er e q u i r e m e n ta n a l y s i s ,a n dg e tt h em e a n i n go fd a t as o u r c e so ft h es y s t e m ,t h e n c o m p l e t e dl o g i c a la n dp h y s i c a lm o d u l ed e s i g nf o rt w ot y p i c a lb u s i n e s ss u b j e c t ,t h e o l a pr e s u l t sa l s os h o w e di nt h ec h a p t e r k e y w o r d s :d a t aw a r e h o u s e ;d a t am i n i n g ;e t l :o l a p ;q h s e ;b i c l a s s n 0 : 致谢 本论文的工作是在我的导师卢苇教授的悉心指导下完成的,卢苇教授严谨的 治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来卢苇 老师对我的关心和指导。 感谢我的父母家人,一直以来给我以面对困难的勇气和决心。他们的宽容和 支持,让我经历生活的周遭,却能保持健康的心态,懂得珍惜和努力,理解和宽 容。 在实验室工作及撰写论文期间,实验室的各位同学对我论文的研究工作给予 了热情帮助,并不厌其烦的承担了校对工作,在此向他们表达我的感激之情。 1 绪论 1 1选题背景 q h s e ,是英文单词质量( q u a l i t y ) 、健康( h e a l t h ) 、安全( s a f e t y ) 、环保 ( e n v i r o n m e n t ) 的首字母缩写。是指在管理中一切以人为中心,以满足人对健康、 安全、环境保护的要求为主导,同时兼顾产品和项目的质量保证,是目前国际石 油界通行的管理体系。 q h s e 管理体系作为一种先进的系统化、科学化、规范化的管理方法,被国际 石油界公认为是外树形象、内强素质,并能够不断提高企业管理水平和综合竞争 能力的一种重要手段。更为重要的是,在目前激烈的国际市场竞争中,它已经成 为石油企业进入国际市场的“通行证”。近年来,我国石油企业纷纷开始关注并着手 建立和实施q h s e 管理体系,并取得了明显的成效,使企业管理工作逐步走上与 国际接轨的道路,为我国石油企业能够应对激烈的市场竞争创造了良好的条件。 中国石油q h s e 项目包括q h s e 信息系统和q h s e 报告系统,整体计划3 0 个月。涉及中国石油股份公司、专业公司、地区公司及其直属单位。参与项目建 设的q h s e 业务人员、信息技术人员、系统设计和实施人员、软硬件服务提供商 多达1 0 0 余人。整个项目专业性强、范围广、工作量大、实施难度大。q h s e 系统 的建成将是全球最大、用户最多、系统功能最全的q h s e 集成应用系统,而在此 基础上建立的q h s e 报告系统则将是我国第一个q h s e 信息管理领域的商务智能 系统,这将成为中国石油在国内甚至国际q h s e 管理领域领先地位的重要标志。 1 2 商务智能基本思想 在竞争日益激烈的商业环境中,对信息处理和利用能力的强弱是企业兴衰成 败的关键。充分地利用、发掘企业现有数据,能帮助企业决策者发现市场规律和 趋势,监控风险,面对快速变化的商业环境做出更敏捷、合理的商业决策,从而 提高企业的竞争力。随着全球经济步入信息分析的年代,企业及政府机构都希望 通过智能的软件产品和服务处理其最重要的资产信息,商务智能( b u s i n e s s i n t e l l i g e n c e ,简称b i ) 技术也就是在这样的背景下孕育发展起来的。 商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商 务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商 务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能 力。 商务智能是数据仓库、o l a p 和数据挖掘等技术的综合运用。它允许用户查询 和分析数据仓库。进而得出影响商业活动的关键因素,最终帮助用户做出更好、 更合理的决策。当信息化发展到一定程度,核心业务系统和管理信息系统不能满 足解决一些涉及分析、报表问题的需要时,就需要引入b i 系统。b i 的优势在于从 海量的数据中提取“财富”。b i 可以为企业提供四类功能: 首先是报表分析,这是商务智能最初步、最基本的功能。随着企业信息化的 不断深入,企业普遍需要报表和分析的功能,但是大部分企业的统计报表还依靠 e x c e l 去实现,长期的手工制表方法导致了一些错误的思维:用户往往认为b i 系 统和原来的业务系统是一样的,原来的记帐方法现在还要保持;现在的商务系统 只是单纯的把原来手动的东西全部自动化。这也是b i 建设的误区之一。 第二步是o l a p 分析( o n l i n ea n a l y t i c a lp r o c e s s ) ,联机分析处理。报表只能 说明到现在为止做的情况怎么样。企业一旦发现整个季度的销售下滑,就需要找 出什么环节出了问题,原因是什么,就需要使用o l a p 。所以o l a p 分析应该称 做例外分析更合适,即一旦发现问题,帮助企业找出是什么原因造成的。 通过前两步,掌握了以前发生的事件,以及发生的原因,第三步就应该看到 现在为止发生了什么,以便及时做出预警。例如银行,某个信用卡帐户之前消费 业务很少,某一时问点后消费量突然变大,是否会存在欺诈行为? 此时使用b i 系 统可以及时给出预警。 第四步就是要知道将来会发生的事情,对未来可能发生的情况做出预测。但 是做预测首先要求数据量要大,这就要求企业对于数据具有足够的积累。这也是 为何电信和金融行业在b i 方面做的更好的原因之一。 商务智能与交易系统之间的差异主要体现在系统设计和数据类型上( 见表1 1 和表i - 2 ) 。交易系统把结构强加于商务之上,不管何人来进行交易活动,都会遵循 同样的程序和规则,而且一旦一个交易系统设计出来以后,轻易不会改变。而商 务智能则能适应商务变化,因为它是一个学习型系统,能不断适应商务变化的需 求。在商务智能系统中,变化越多越好。如果商务智能不能变化以解决新的问题, 就不能满足商务的需要。从技术的角度讲,商务智能系统中变化的是数据、数据 模型、元数据、报告和应用软件。商务智能的真正挑战就在于设计和管理一个总 在变化的系统,这好比是一个没有终点的旅行。 表1 1 商务智能系统与交易系统在系统设计上的差异 交易系统商务智能系统 流程自动化决策支持 设计目标为效率设计目标为效果 为商务设定结构适应商务变化 对事件做出反应预测事件 劬造最优化的交易环境仓造最优化的查询和分析环境 2 j e 塞窑 垣 盔 堂 巫堂焦监塞绪论 交易系统和商务智能的区别还在于各自所管理的数据的类型不同。交易系统 跟踪的是最近的交易情况,保留极有限的历史情况( 通常只有6 0 n 9 0 x ) 。而商务智 能系统维持来自多个交易系统、多年的交易情况,因而许多企业都保有几十甚至 几百t e r a b y t e s 的数据( 美国的希尔斯商店7 0 个t e m b y t e s 的数据,联合利华单独北美 公司就有1 0 6 个t e r a b y t e s 的数据) 。商务智能系统通过总结和计算建立需要跟踪的商 务指标。商务智能之所以要从交易系统中独立出来,是因为二者放在一起会互相 影响,后者不能保证查询、分析和报告所需要的速度,前者影响后者的正常运行。 表1 2 商务智能系统与交易系统在数据类型上的差异 交易系统商务智能系统 当前或近期历史 不断更新定期更新 因来源不同而不同整合的 以应用软件导向的以主题为导向的 只有细节层面的 细节的、总结过的和衍生的均有 1 3 课题来源、实现手段及目标 在很多信息化起步比较早的行业,比如电信和金融,b i 已经显现出强大的功 能。中国石油在分析自身实际情况,以及业务需求的强烈推动下,实施b i 项目。 q h s e 报告系统则是商务智能在石油行业q h s e 环境下的应用。 在这一期工程中,主是要把q h s e 业务整体框架构建起来,把各种业务的分 散的源数据按照数据仓库的需求集中起来导入数据仓库中,把数据累积起来进行 相关主题的展示并为下一期的数据挖掘做积累。本文结合质量模块业务流程和规 范,描述在参与q h s e 系统建设过程中的心得。 整个系统采用了b s 体系架构。在这种结构下,用户界面完全通过浏览器实 现,一部分事物逻辑在前端实现,但主要事物逻辑在服务器端实现,形成三层结 构。b s 结构利用不断成熟和普及的浏览器技术实现原来需要复杂专用软件才能 实现的强大功能,并节约了开发成本,是种适应分布式访问的软件系统构造技 术。企业内的i n t e m e t 服务器可以接受安装有w e b 浏览程序的i n t e m e t 终端的访问, 作为最终用户,只要通过w e b 测览器,各种处理任务都可以调用系统资源来完成, 大大简化了客户端,减轻了系统维护与升级的成本和工作量,降低了用户的总体 拥有成本。目前我们要求全国各地的用户通过网络连接的方式访问到我们的b i 门 户。 在服务器的前,后台的开发选择了相应的软件。由于建立数据仓库需要存储海 量数据并要求对这些数据在最短时间内进行处理,因此后台开发选用了n c r 公司 3 的t e m d g a 数据库,该数据库对于海量数据的处理和存储在性能方面有着很强的 优势,在银行等高端领域有着良好的口碑和广泛的运用。 o l a p 模型工具使用c o g n o s 公司的o l a ps e r v e r ,由于主要采用了m o l a p 方式,需要建立主题立方体。o l a p s e r v e r 是很成熟的建模工具,而且对t c r a d a t a 数据库的支持也很可靠;前端应用开发工具有m i c r o 姗,i b m ,b o 等多个公司的 多种产品。通过对m o l a p 的支持,开发周期和展现结果方面的综合比较最终选 择了c o g n o s 公司的t r a n s f o r m e r ,p o w e r p l a y ,r e p o r t n e t 等。客户端则通过浏览器 展现相应的主题和操作。在开发过程中采用r o l a p 和m o l a p 相结合的技术手 段解决系统问题和提高系统性能。采用模块化结构,提高可重用性。提供相应的 接口,为今后的扩充和二次开发提供了方便。 希望通过这一系列的过程能够建立起一个完整的商务智能系统,能够提高企 业的分析决策能力,完成一个数据仓库、数据挖掘在石油行业q h s e 环境下应用 的完整方案,为企业的发展提供强有力的支持。 q h s e 报告系统的最终目标是:收集地区公司级q h s e 业务相关的大量基础 数据,基于先进的数据仓库数据建模分析技术,为中国石油股份公司、各专业公 司级领导和管理人员提供数据分析、展现工具,最终达到为q h s e 业务提供决策 支持的目标。 1 4本文的主要工作及组织结构 本文通过在中国石油实旄q h s e 报告系统的过程,从讨论如何在石油行业进 行一个完整的b i 项目的设计和实施入手,从理论和实践两方面给出相应的后台系 统流程、架构及解决方法,此外还会对此过程中一些细节技术进行讨论给出解决 方法。本文的结构如下: 第一章:绪论 分析项目背景与现状,简介商务智能的相关概念,结合项目的需求确认该项 目的目标、任务、本文要达到的目标并且给出简要实现手段。 第二章数据仓库与数据挖掘相关技术研究 本章通过分析数据仓库的演变与发展,从理论上了解数据仓库的重要概念, 区分了o l t p 和o l a p 的概念及联系。提出了如何从理论上构建企业级的数据仓 库。对数据挖掘技术的定义、模式与技术方法进行了介绍,并对数据挖掘技术在 石油行业q h s e 业务中的应用进行了探讨。 第三章:联机事务分析o l a p 本章采用与o l t p 进行对比的方式,解释了o l a p 的概念与特点,并介绍了 o l a p 的实现方式及多维数据模型,并在章节中给出了数据仓库与o l a p 协作的 基本框架。 第四章:现有b i 解决方案架构与应用模式的改进 4 从企业数据分析应用的实际情况出发,讨论了现有商务智能解决方案在功能、 架构以及应用模式上的缺陷,然后提出了一个多维分析工具与报告分发共享相结 合的改进方案,并详细阐述了该方案各组成部分的体系结构及特征集。 第五章:q h s e 系统设计与实现 本章在前面章节理论介绍的基础上结合实际项目,给出了石油行业q h s e 业 务进行b 1 分析的系统架构,系统处理流程,总体实施策略。并在总体实施策略中 详细描述了e t l 的流程。 第六章:结论 本章对整个论文的工作进行了总结。并对系统需要进一步修改和完善的地方 提出了自己的意见。 2 数据仓库与数据挖掘相关技术研究 2 1数据仓库的相关技术 2 1 1 数据仓库的概念与特征 本世纪8 0 年代中期,数据仓库之父w i l l i a mh i n m o n 在其著作建立数据仓 库( b u i l d i n gt h ed a t aw a r e h o u s e ) 一书中对于数据仓库给予如下描述【i 】:数据仓库 是一个面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e ) ,相对稳定的( n o n - v o l a t i l e ) 、 反映历史变化( ,n m ev a r i a n t ) 的数据集合,用于支持管理决策 2 1 1 9 1 。根据数据仓库概 念的含义,数据仓库具有以下四个特征【5 】: 1 ) 数据仓库的数据是面向主题的。 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离, 而数据仓库中的数据是按照一定的主题域进行组织。主题是一个层次较高的数据 归类标准,它是与面向应用的传统数据库相对应的【l5 1 。主题是指用户使用数据仓 库进行决策时所关心的重点方面,每一个主题基本上对应一个宏观的分析领域, 每一个领域有自己的逻辑内涵且互不相交。 2 ) 数据仓库的数据是集成的。 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互 独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽 取、清理的基础上经过系统加工、汇总和集成得到的,以消除源数据中的不一致 性,保证数据仓库内的信息是关于整个企业的一致的全局信息。 3 ) 数据仓库的数据是相对稳定的。 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓 库的数据主要供企业决策分析之用,反映的是一段相当长的时间内历史数据的内 容,是不同时间点的数据库快照的集合b 6 。数据仓库所涉及的数据操作主要是数 据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数 据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加 载、刷新。 4 ) 数据仓库的数据是反映历史变化的。 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通 常包含历史信息。系统记录了企业从过去某一时间点到目前的各个阶段的信息, 通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测【1 7 l 。所以, 数据仓库必须随着时间的变化不断添加新的内容,即数据仓库必须不断捕捉o l t p 数据库中变化的数据,追加到数据仓库中去。另外,因为数据仓库中的数据包含 有大量的综合数据,这些数据也要随着时间的变化不断的进行重新综合。 6 综上所述,数据仓库是以现有企业业务系统和大量业务数据的积累为基础。 数据仓库不是静态的概念,只有把信息及时交给需要这些信息的企业数据仓库使 用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。 而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库 的根本任务。因此,从产业界的角度看,数据仓库更像一种过程,是对分布在企 业内部各处的业务数据的整合、加工和分析的过程。 2 1 2 数据仓库的体系结构 数据仓库体系结构的提出是为了简化数据仓库方案的设计、实现和管理。用 于描述在构建、使用和管理数据仓库的过程中各个构件的相互关系。基于用户的 反馈以及针对数据仓库新技术的发明,数据仓库的体系结构将随着时间不断发展 和掌整 数 铤 仓 库 锋 理 数粼仓库掏建教粼仓雅健婀 - - - l敬嘏仓簿份毫蓐譬邋设t l + 勺掬篷 信终 息端 静娜 鑫莨p j 二 飘 rt _ 黢锻教瓣 链 豁感 o 【 a p 模式 转按制笈稚 冗熬粼耀( 持久饿效掌正数粼) l l数粼仓席髂惩 c 争数粼流 一冗数撰流 图2 1 数据仓库的体系结构图 从图2 1 所示的数据仓库系统的体系结构中,我们可以看到在横轴上体现了数 据仓库系统在时间上的发展、演化;从数据仓库的设计、构建到数据仓库的使用; 在纵轴上体现了数据仓库的多层管理体系,并最终依靠元数据管理和集成整个数 据仓库系统。 从图中还可以看到数据从源数据经过整合到数据仓库、数据集市,再经过分 析处理到最后用户界面显示。数据具有流动的单向性以及存储的层次阶段性。下 面简单介绍这个数据流动过程中的相关实体和处理。 7 j e 塞銮垣态硒堂焦迨毫熬堡金廛曼熬据揎坦担羞越苤班塞 数据源 正如前面提到的,数据仓库系统的源数据取自于m i s 系统或者o l t p ( o n l i n e t r a n s a c t i o np r o c e s s i n g ,联机事务处理) 系统所产生的操作型数据,或者称之为历史 数据。 同时,又要充分考虑源数据的特征,以便能够以较小的代价来获取这些数据 信息。例如,当前关系数据库技术相当的成熟,并且在大量的现有系统中均采用 了r d b m s ( r e l a t i o n a ld a t a b l em a n a g e m e n ts y s t e m ,关系数据库管理系统) 来管理 数据,所以在集成时,采用基于关系的数据仓库存储、管理方法将是目前十分经 济的选择。 e t l 过程 一般的,关系型数据库、非关系型数据库以及其它各种数据文件均可以作为 操作型系统的数据文件。在这种系统中数据是当前的、详细的,并且不断更新变 化。而数据仓库要把操作型系统产生的源数据、历史数据经过一系列的变化集成 到数据仓库之中。这些变化主要包括抽取( e x t r a c t i o n ) ,清洗( c l e a n i n g ) 、转换 ( t r a n s f o r m ) 、最后装载( l o a a ) ,简称为e t l 过程。最终在数据仓库、数据集市( d a t a m a r t s ) 中,数据有了一致的形式,以便于分析决策。 数据抽取是一件技术含量不高,但非常繁琐的工作。在对其进行设计时,要 注意如下的问题: ( 1 ) 数据抽取的规则要作为元数据进行规范和管理,抽取过程中的源表、源字 段、目的表、目的字段、转换规则以及转换条件都要作详细记录。这样不仅便于 编程人员实现,而且在抽取规则或逻辑模型发生变化时也便于修改。 ( 2 ) 如何记录业务数据库中的变动情况是数据抽取中一个重要的环节。由于数 据仓库中按时间保存数据,因此不同时间点之间数据的差异就成为一个关键性因 素。通常可以利用数据库管理系统提供的手段在数据库级产生数据变动日志,再 根据日志判断数据的变动情况完成抽取,这是一个从性能、可操作性以及对原业 务系统的影响等多方面综合考虑都比较理想的方法。 ( 3 ) 当数据仓库中同一表里的数据来自于原有系统中不同的表,甚至不同的库 时,抽取时务必保证这些数据单位一致,而且都满足同一时间条件。 ( 4 ) 数据抽取不仅要考虑数据的提取,还要考虑抽取的时间安排和执行方式, 这样才是一个完整的数据抽取方案,也才能确保抽取出来的数据准确、可用。 数据仓库与数据集市 数据仓库按照企业业务主题模式存储事务型系统信息和历史数据信息;数据 集市是指为了某种分析目的而组织的一些数据信息,一般是面向企业的部门,也 可以说是小型部门级的数据仓库。它们用于实现数据的存储、管理。当然,为了 便于分析查询,将采用一些特定的数据组织的方法,从而构建成用于分析的数据 平台。数据源经过e t l 工具进入数据仓库、数据集市。 数据导航与用户工具 终端用户工具( e n du s e rt o o l s ) 用于获取数据仓库中的信息,主要包括各桌面产 品、定制的分析工具和客户程序。通过前端的工具分析、查询仓库中的数据,挖 掘其中的信息,并通过报表等各种形式展示。 2 1 3 企业数据仓库的建立步骤 在数据仓库的环境中可以应用各种不同的数据模型。在设计和完善数据库时, 应该从哪几个层次角度来考虑数据模型的建立? 针对这个问题,不同的模型设计 者和数据库管理员会有不同的考虑因素。通常,主要从三个不同的层次加以分析: 企业组织的交流、逻辑的表结构、物理的表结构。 首先从第一个层次看,任何企业都需要一种交流机制保证团体之间的沟通。 从本质上讲,这也正是企业空间模型( b d m ) 的初衷所在。数据模型为企业提供了 一种环境,让企业人员对数据的组织加以理解。那些对数据模型完全不知的人员, 往往不能正确的使用模型,从而被隔离在这个数据交换环境之外。幸好大多数企 业人员具备理解b d m 的能力和素质。目前,这种理解通常表现在用户通过商业智 能工具进行数据交互的能力。在传统的系统开发中,很重要的一点就是评价逻辑 数据模型并把它转换为合理的、科学的表结构,这种设计通常集中于运行性能的 指标上。而对于现在的空间数据模型,这一点正在逐渐淡化,因为,空间数据模 型主要基于快速查询分析的要求,需要保持用户对模型的理解度。总之,b d m 的 设计要考虑到企业相关人员对数据组织的理解程度。 第二个层次是逻辑表结构的设计。这一过程也就是将空间数据模型转换为维 度表和事实表的过程。在建立维度表时可能会有多种方案可供选择,但必须考虑 的一些重要因素是:现存的d b m s 的需求、所选择的b i 工具以及数据获取工具等。 换而言之,逻辑表结构的设计要基于所选择或所能提供的技术手段。任何企业人 员对数据空间模型的理解都基于所使用的商业智能工具,因此既然投资了某种技 术,数据模型的设计就要保证该技术的有效实施。在逻辑表的设计中,首先要考 虑所选择的商业智能工具是否支持聚合导航,如果不支持,就必须采用传统的模 式。其次,在事实表的设计中还要注意到与维度表主键相匹配的键值,另外还要 确定逻辑表中字段的数值类型、长度等等。最后,还要根据实际的使用效率确定 9 事实表的聚合集。 第三个层次是物理表的详细设计。这一层次与其他的物理设计没有本质上的 区别,当然前提是d b a 完全了解所使用的维度结构。如果d b a 对于数据模型没 有足够的了解,所涉及的物理结构通常会违背空间模型的建立原则。在物理表的 设计中,要考虑到数据的物理分区、字段的顺序、行簇的建立和索引的需求等等。 在数据空间模型的设计过程中,设计小组成员之间要进行确切的分工,并明 确其责任。同时为了保证各项任务的顺利完成,成员之间还要进行密切的合作。 数据仓库系统的原始需求不明确,且不断变化与增加。开发者最初不能确切 了解到用户明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分 需求。更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的 开发是比较合适的,因为原型法的思想是从构建系统的简单的基本框架着手,不 断丰富与完善整个系统。但是,数据仓库的设计开发又不同于一般意义上的原型 法,数据仓库的设计是数据驱动的。这是因为数据仓库是在现存数据库系统基础 上进行开发,它着眼于有效地抽取、综合、集成和挖掘己有数据库的数据资源, 服务于企业高层领导决策分析的需要。但需要说明的是,数据仓库系统开发是一 个经过不断循环,反馈而使系统不断增长与完善的过程,这也是原型法区别于系 统生命周期法的主要特点。因此,在数据仓库的整个开发过程中,自始至终要求 决策人员和开发者的共同参与和密切协作,要求保持灵活的头脑,不做或尽量少 做无效工作或重复工作。 对企业自身来说,数据仓库的建设是一个系统工程,是一个不断建立、发展、 完善的过程,通常需要较长的时间。这就要求各企业对整个系统的建设提出一个 全面、清晰的远景规划及技术实施蓝图,将整个项目的实施分成若干个阶段,以“总 体规划,分步实施、步步见效”为原则,不仅可迅速从当前投资中获得收益,而且 可以在已有的基础上,结合其他已有的业务系统,逐步构建起完整、健壮的数据 仓库系统。 企业数据仓库的建设通常按照快速原型法予以实施,主要包括:确定范围、 环境评估、分析,设计、开发、测试和运行等几个阶段。同时企业数据仓库又是 一个在原型的基础上进行不断迭代的过程。 l 、确定范围 确定范围的主要任务包括了解方向性分析处理需求,确定信息需求,确定数 据覆盖范围。方向性需求包括:决策类型、决策者感兴趣的问题( 或对象) 等。在确 定范围时应该重视的因素是必须用户驱动和数据驱动相结合,同时可以借鉴国内 外己有的成功经验。 2 、环境评估 1 0 韭塞塞逗盔亟竺丝途塞熬堡垒廑皇塾堡建塑担苤整苤班窒 环境评估是对企业数据仓库系统建设的软硬件环境进行选型和准备。 在硬件平台选择中需要选择与数据仓库系统规模相适应的核心服务器,同对 我们认为数据仓库系统平台与业务处理平台应该相分离。 软件平台的选择主要包括数据仓库引擎、o l a p 引擎、前端分析展现工具的选 择。对产品进行测试是软件选型的一种有效方法,企业根据自身的数据状况对各 类产品进行测试。 3 、分析 分析阶段主要包括两个方面的任务是深入了解数据源和分析数据仓库系统所 包含的主题域及其相互之间的关系。分析阶段必须坚持用户参与。并且与原有系 统开发或维护人员进行深入的沟通。 4 、设计 数据仓库设计的主要任务包括:与操作型系统接口的设计和数据仓库本身的 设计两个部分的内容。其中与操作型系统接口的设计主要是指数据抽取、清理、 转换和刷新策略的设计。从多个不同的数据源中抽取数据,需要解决数据的不一 致性,保证数据的质量。其中的不一致性主要包含模式冲突和语义冲突。从操作 型数据库模型到数据仓库模型的转变需要大量细致的工作,例如: 消除纯粹是操作型的数据 一将包含在多个表中的有关数据进行合理合并 一适当增加部分导出数据 一在码值中增加时间关键字 _ 按照合适的数据粒度进行综合 数据仓库本身的设计包括数据仓库逻辑数据模型的设计与数据仓库物理数据 模型的设计。由于目前数据仓库产品尚未形成一套统一的标准,因此在数据仓库 设计阶段必须要有数据仓库专家和数据仓库系统产品提供商的参与。 5 、开发 开发阶段所要完成的主要内容包括数据仓库建模、数据抽取和加载模块、数 据访问模块以及开发实际应用模块。实际应用的开发通常都是从急需的业务开始 进行,应该重视的因素有必须包括行业专家的参与,同时必须有数据仓库专家的 参与。 6 ,测试 测试是保证系统可靠性的重要手段。数据仓库测试与般软件系统测试不同 的是数据仓库的测试不仅包括对软件系统的测试,同时包括对数据的测试。在测 试阶段必须保证测试的充分性,同时注意钡4 试数据的覆盖范围。 7 、运行 系统运行主要包括用户培训、数据加载、数据访问及应用等。在数据仓库系 统的运行过程中,不断收集用户新的需求。数据仓库系统的建设不可能一蹴而就, 它是一个不断建立、完善的过程。这个过程是随着业务量、业务范围和客户的发 展而发展的,其成长的速度非常之快,同时随着业务的发展,数据仓库的价值也 将随之增长。 2 2 数据挖掘技术 2 2 1 数据挖掘的定义和模式 数据挖掘( d a t am i n i n g ) 是一个从数据中析取有用的,先前未知和最终可理解的 知识的过程。析取的知识是一组规则的集合,这些规则是对数据库中数据属性、 模式( p a t t e r n ) 、产生频度、对象簇集等的描述。析取的知识可以用来在数据库记录 间识别联系,为被挖掘的数据库产生摘要,形成预报和分类模型,这些知识最终 提供给决策支持系统 2 2 1 。数据挖掘由一组操作组成,各种各样的技术,如:规则 归纳、神经网络、概念簇集、关联发现等支持着这些操作。在市场调查、金融分 析等实际应用中信息提取需要各种数据挖掘操作和技术结合使用。数据挖掘又常 作为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 的一个主要环 节来加以认识( 如图2 2 所示) 。 数据挖掘 图2 2 数据库中的知识发现过程 1 2 2 2 2 数据挖掘的技术方法 数据挖掘通常有以下几种方法【4 】: ( 1 ) 统计分析方法 统计分析方法是最基本的数据挖掘技术方法之一。常用的统计分析方法有: 判别分析、因子分析,相关分析、多元回归分析、偏最 b - - 乘回归方法等。 判别分析:建立一个或多个判别函数,并确定一个判别标准,然后对未知属 性的对象,根据测定的观察值,将其划归己知类别中的类。 因子分析:用较少的综合变量来表达多个观察变量。根据相关性大小把变量 分组,使得各组内的变量之间相关较高,不同组变量间的相关较低。 相关分析和回归分析:相关分析是用相关系数来度量变量间的相关程度。回 归分析是用数学方程来表示变量间的数量关系。 偏最小二乘回归:主要研究的是多因变量对多自变量的回归建模,特别当各 变量内部高度线性相关时,用偏最小二乘回归更加有效另外,偏最小二乘回归 比较好地解决了样本个数少于变量个数等问题。在数据挖掘领域,统计分析方法 可用于分类挖掘和聚类挖掘。 ( 2 ) 遗传算法 遗传算法是种优化技术,首先对求解的问题进行编码( 染色体) ,产生初始群 体:然后计算个体的适应度,再进行染色体的复制、交叉互换、突变等操作,便 产生新的个体。重复以上操作,直到求得最佳或较佳个体。遗传算子主要有3 种: 繁殖( 选择) 算子、交叉( 重组) 算子和变异( 突变) 算子。遗传算法可起到产生优良后 代的作用,经过若干代遗传,将会得到满足要求的后代( 问题的解) 。为了适应遗传 算法,往往把数据挖掘任务表达为一种搜索问题,发挥遗传算法的优化搜索能力。 遗传算法具有计算简单、优化效果好的特点,它在处理组合优化问题方面也有一 定的优势,可用于聚类分析等。 ( 3 ) 粗糙集方法 粗糙集合论是一种刻画不完整性和不确定性的数学工具,能有效地分析不精 确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理,从中 发现隐含的知识,揭示潜在的规律。在数据挖掘领域,粗糙集方法被广泛应用于 不精确、不确定、不完全的信息的分类和知识获取。 ( 4 ) 决策树方法【1 4 j 决策树方法就是利用训练集生成一个测试函数,根据不同取值建立树的分支 在每个分支子集中重复建立下层结点和分支,这样便生成一棵决策树然后对决 策树进行剪枝处理,最后把决策树转化为规则,利用这些规则可以对新事例进行 分类。这种方法实际上是根据信息论原理对数据库中存在的大量数据进行信息量 分析,在计算数据特征相互信息的基础上提取出反映类别的重要特征。典型的决 策树方法有分类回归树( c a r t ) i d 3 ,c 4 5 等。在信息不完整时,决策树方法可能 漏掉有价值的规则。决策树方法主要用于分类挖掘。 ( 5 ) 神经网络方法 神经网络方法的原理是模拟人脑的神经元结构,以m p 模型和h e b b 学习规 则建立起前馈式网络、反馈式网络和自组织网络3 大类多种神经网络模型。基于 神经网络的数据挖掘工具对于非线性数据具有快速建模能力,其挖掘的基本过程 是先将数据聚类,然后分类计算权值。神经网络的知识体现在网络连接的权值上。 在数据挖掘的应用方面,当需要从复杂或不精确数据中导出概念和确定走向比较 困难时,利用神经网络技术特别有效。经过训练后的神经网络可以想象成具有某 种专门知识的“专家”,可以像人一样从经验中学习。 ( 6 ) 模糊逻辑 模糊数学研究的是“亦此亦彼”的模糊住。模糊数学是继经典数学、统计数学之 后,是数学领域的一项重大成果。针对一个问题,复杂性越高,有意义的精确化 能力就越低。模糊性是客观存在的,当数据量越大而且复杂性越大时,对它进行 精确描述的能力越低,也就是说模糊性越强。在数据挖掘领域,模糊逻辑可以进 行模糊综合判别,模糊聚类分析等。 ( 7 ) 规则归纳 关联规则:例如,购买商品a 和b 的客户有8 5 同时也购买了商品c ,用规 则表示为a ,b c ( 8 5 ) 。典型的关联规则挖掘算法有a p r i o r i 和d h p ,它们都 属于数据库遍历算法。 ( 8 ) 聚类分析 聚类分析主要是根据事物的特征对其进行聚类或分类,即所谓物以类聚,以 期从中发现规律和典型模式。这类技术是数据挖掘的最重要技术之一。除传统的 基于多元统计分析的聚类方法外,近年来模糊聚类和神经网络聚类方法也有了长 足的发展。 ( 9 ) 最近邻技术 通过k 个与之最相近的历史记录的组合来辨别新记录。这种技术可用做聚类、 偏差分析等挖掘任务。 ( 1 0 ) 可视化技术 这是一类辅助方法。可视化数据分析技术拓宽了传统的图表功能,它采用比 较直观的图形图表方式将挖掘出来的模式表现出来,使用户对数据的剖析更清楚, 例如可把数据库中的多维数据变成多种图形。数据可视化大大扩展了数据的表达 和理解力,对于揭示数据中的状况、内在本质以及规律性起到很大作用,因而受 到日益广泛的重视。 2 2 3 数据挖掘在石油行业q h s e 中的应用研究 数据挖掘( d 1 田与q h s e 的结合有广阔的应用前景,就中油q h s e 业务的实际 情况来看,至少有以下几个应用场景。 1 4 1 d m 与质量检测系统的结合。即使用d m 技术在质量检测数据库中发现有 价值的检测模式和检测项目搭配模式;为建立合理高效的产品质量监督检 验的体系进行高效分析,提供不同而有针对性的产品检验方法等。如,从 检验中心的工作经验可以知道,每年夏季的汽油由于受天气的影响,某些 检测指标将会发生变化,产品检测项目应该作相应的调整。这些经验固然 对于企业的生产经营是有帮助的,但是现代企业面临的激烈竞争不能够满 足于这种粗放的管理手段。利用数据挖掘技术,我们可以将汽油检测指标 的起伏与其主要影响因素气温的季节性变化相结合,同时可以分析影 响天气的诸多因素,得到季节、气候、相关汽油产品等与产品质量之间的 定性定量关系,为制定合理的检测计划提供合理的市场信息。 2 d m 与劳保采购系统的结合。即使用d m 技术发现不同员工、不同年龄层 次、不同婚姻状况、在不同季节采购不同物品的采购信息。这样可以将合 适的员工在合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 入路职工安全培训宣传课件
- 例检员安全培训计划课件
- 2026届山西省晋中市榆社中学物理高三上期末监测试题
- 邯郸常态化管理办法
- 工业化的起步和人民代表大会制度的确立讲课文档
- 校友基金官方管理办法
- 社区疫苗接种管理办法
- 高级导游等级考试(导游综合知识)在线自测试题库及答案(2025年湖南省)
- 跨文化抑郁差异-洞察及研究
- 机载数据森林覆盖变化监测-洞察及研究
- 2025年国家法律职业资格考试《客观题卷一》模拟题及答案
- 冷板液冷标准化及技术优化白皮书
- 2025四川成都新都投资集团有限公司招聘23人笔试历年参考题库附带答案详解
- 中班健康《我会用伞》
- DG-TJ08-2461-2024 旧住房更新改造查勘标准
- 消化道早癌筛查健康宣教科普
- 事故隐患内部报告奖励制度培训
- 篮球教练培训课课件
- 国际田径邀请赛行业深度调研及发展项目商业计划书
- 渐冻症患者的麻醉管理要点
- 鹦鹉热治疗讲课件
评论
0/150
提交评论