(管理科学与工程专业论文)数据仓库技术及其应用研究.pdf_第1页
(管理科学与工程专业论文)数据仓库技术及其应用研究.pdf_第2页
(管理科学与工程专业论文)数据仓库技术及其应用研究.pdf_第3页
(管理科学与工程专业论文)数据仓库技术及其应用研究.pdf_第4页
(管理科学与工程专业论文)数据仓库技术及其应用研究.pdf_第5页
已阅读5页,还剩128页未读 继续免费阅读

(管理科学与工程专业论文)数据仓库技术及其应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

abs tract d a t a wa r e h o u s i n g i s a k i n d o f t e c h n o l o g y t h a t w a s f o u n d e d r e c e n t l y a n d d e v e l o p e d r a p i d l y . i n o u r c o u n t r y , s i n c e i n t r o d u c e d i n 1 9 9 6 , i t w a s p a i d a t t e n t i o n t o b y m a n y p e o p l e . d i v i d e d i n t o t w o p a r t s -t h e o r y a n d a p p l i c a t i o n, t h e t h e s i s s t u d i e s t h e d a t a w a r e h o u s i n g . i n c h a p t e r l ,b a c k g r o u n d , c o n c e p t i o n a n d p r o p e r t i e s o f d a t a w a r e h o u s i n g a r e i n t r o d u c e d f i r s t l y , a n d t h e d a t a w a r e h o u s i n g a n d d a t a ma r k e t a r e c o mp a r e d . t h e n , t h e a u t h o r i n t r o d u c e s p r i ma r y p r o d u c t s o f d a t a w a r e h o u s i n g n o w a d a y s . i n c h a p t e r 2 , me t h o d s o f o l a p a n d d m a r e a n a l y z e d . c h a p t e r l a n d c h a p t e r 2 a r e s e t f o r t h t h e o r e t i c a l l y . i n c l u d i n g t h r e e c h a p t e r s , t h e s e c o n d i s a p p l i c a t i o n p a r t . i n c h a p t e r 3 , t h e m e a n i n g a n d c u r r e n t s i t u a t i o n a n d e x a m p l e s o f d a t a w a r e h o u s i n g a p p l i c a t i o n a r e a n a l y z e d a n d i n t r o d u c e d . i n c h a p t e r 4 , f r o m l o g i s t i c , p h y s i c a l , i n f o r ma t i o n a n d t e c h n o l o g i c a l p o i n t o f v i e w , t h e s y s t e ma t i c o f d a t a w a r e h o u s i n g i s a n a l y z e d . t h e n me t a d a t a a n d t h e d e s i g n o f d a t a w a r e h o u s i n g a r e e l a b o r a t e . i n l a s t c h a p t e r , t h e a u t h o r d e mo n s t r a t e s t h e a p p l i c a t i o n o f d a t a w a r e h o u s i n g . t h e e x p e r i e n c e s a n d m e t h o d s i n a s p e c t o f d a t a w a r e h o u s i n g a p p l i c a t i o n s u m m e d t h r o u g h t h e p r a c t i c e s i n s k s b u r e a u . ke y wo r d s : d a t a w a r e h o u s i n g ; o n - l i n e a n a l y t i c a l p r o c e s s i n g ; d a t a mi n i n g ; me t a d a t a 中 南 大 学 二 商 管 理 学 欢 硕 d : 论 夕二 引言 经过数年的发展,数据仓库技术在国外己经逐渐发展完善,并 且随着电子商务的全面展开, 数据仓库也成为人们经常提及的名词, 数据仓库技术的一个分支,客户关系管理也与网上交易,供应链管 理一起构成一个全面的整体电子商务解决方案。各大数据仓库解决 方案提供商都纷纷把目标投向电子商务领域,甚至有专家预言数据 仓库已经由数据仓库转向商业智能,而现在正在向电子智能 ( e - i n t e l l i g e n c e ) 转变,以s y b a s e 为#f it , 2 0 0 0 年,s y b a s e推出 e p a l c r m解决方案套件,就是为了向这个目标迈进,o r a c l e 公司也有相 应的举措,在 o r a c l e公司的电子商务高级论坛上,数据仓库,供 应链管理与电子商务套件技术作为三大专题,备受听众欢迎。 在国内,数据仓库市场经过数年的低迷,去年逐渐有回升的趋 势。主要契机有以下几点,一方面,由于银行商业化的步伐正在加 大,各大中型银行在入世的压力下,开始重新考虑自身的业务,特 别是自己的信贷风险管理方面特别注意,因而有关信贷风险管理和 风险规避的决策支持系统的需求逐渐多了起来。其次由于电子商务 的迅速发展, 象 8 8 4 8 这样的网站, 开始考虑如何提高顾客的忠诚度, 为客户提供更进一步的贴身服务,除此之外,各大型企业如移动通 信局等也开始考虑着手进行决策支持 以及数据仓库规划 。 这些都会引起人们对数据仓库技术进一步的关注。 虽然国内的数据仓库市场经过了这么多年的发展,但是,比起 国外大企业所建的巨型企业级数据仓库来讲,其实还是只能算是刚 刚起步,还存在很多的不足之处,主要表现为一下几点: . 电脑应用水平较低,无法提出决策支持需求。所以很多企业 无法马上实施数据仓库, 以深圳华为为例, 1 9 9 8年斥资数千万美元, 请 i b m顾问组的人做了调查分析,结果是华为暂时不适合上数据仓 库。 华为在国内应该是数一数二的大型 i t企业, 内部管理及其严格, . 公 71 右 备 今一 - .l 召盟j* - 尝 监备乱 可想而知其余企业的情况了,也有部分企业有这样的眼光,能够排 除困难,接受数据仓库解决方案,但是成功的案例并不是很多。 . 缺乏数据仓库方面的人才, 数据仓库是一个实践性很强的技 术,而且需要一个相对实力较高的小组来完成,而且在目前用户不 成熟的情况下, 需要设计者能够站在 c i o或 c e o的角度来设身处地 的为客户着想,帮助客户挖掘出深层次的决策支持的需求。国内现 有的技术人员很少有能够担负这种责任的。而一些独立的顾问,则 要么只懂管理。要么只懂技术,缺乏这样的复合型人才,所以导致 很多数据仓库项目只停留在表面,无法达到一定的深度,更不用谈 所谓 b p r了。 . 缺乏以国内环境为背景的范例和成功应用, 现在看到的所有 案例和应用,大多都是从国外来的,毕竟存在着文化差异,国外的 东西不能直接拿来使用,举一个例子,国外的报表大多都是一张表 说明一个问题,并不要求复杂,但是国内的报表总是非常复杂,可 见中西方的思考问题的方式也存在差异,所以很多用户虽然感觉到 数据仓库是一个好东西,但是总是不愿意做第一个吃螃蟹的人。 . 数据仓库概念过大,很多用户总感觉可望不可及,而且现在 数据仓库技术总是流于形势,未能与具体的行业和应用建立联系, 虽然 s a s有过这方面的尝试,但是还是过于空泛,没有达到预期的 目标,而且数据仓库一般都是一种较为高层的应用,在建设是需要 通盘考虑企业的i t 整体规划, 所以这种技术只有落到实处才能有它 的生命力。 可见在国内,数据仓库市场实际上是非常广阔的.只是山于存 在着这样那样的问题,从而阻碍了数据仓库在国内的发展,如果谁 能够首先解决这些问题,做出一个成功的,有足够说服力的数据仓 库应用,谁就可以在这个市场上领先一步. 并迅速占领市场,毕竟 数据仓库市场的门槛还是比较高的。 并不是说想进入就可以进入的。 本文旨在探讨如何将数据仓库技术有效地应用在企业信息系统 的实际开发 中。 中 南 大 学口 二 商 肠 理 学 晓 4 ,斑 士 i 仑文 上篇理论篇 第一章 数据仓库概论 1 . 1数据仓库产生的技术背景 数据仓库技术是近几年出现的、发展迅速的一种技术,它可以 充分利用数据仓库已储存的信息帮助决策者进行决策。 数据仓库的投资回报率( r o i ) 是惊人的。 1 9 9 6 年, 全球企业在数 据仓库上的平均投资回报率为 4 0 1 %.据 幸福杂志调查,截止 1 9 9 9 年底, 吐界5 0 0 强中己有 9 2 %的企业建成或正在建设数据仓库。 数据仓库与 i n t e r n e t 一样,己成为当今计算机技术发展的一大热点。 近几年来,有大量的有关数据仓库的技术涌现出来。 为什么在有了这么多数据库产品之后,人们还需要应用数据仓 库技术?简单地说,是由于计算机技术应用需要的推动。 当年的数据库技术的发展是由于联机事务处理( o n - l i n e t r a n s a c t i o n p r o c e s s o l t p ) 应用需求的推动。联机事务处理要求数 据共享,且能快速响应。数据库技术,特别是基于 e . f . c o d d提 出的关系理论的数据库技术,将数据集分成了甚少冗余的实体 ( e n t i t y ),然后又将它们按一定关系 ( r e l a t i o n s h i p )编织成一个有 机的整体,较完美地满足一 t o l t p的应用需求。利用记录级封锁技 犬,事物处理对于实体的插入( a d d ) 和更新( u p d a t e ) ,只涉及数据媒 体的可能最小空间,其它实体的相关更新通过关系保持一致性和完 整性。这个切合当时 o l t p 应用实际需求的理论和技术的成功,推 动关系数据库产品风靡世界。 象计算机技术的迅速发展一样,激烈竞争的市场也激发了各行 各业对计算机应用的更多样的需求。计算机用户己不再满足于计算 机能帮助他们迅速地处理业务,他们需要从大量的业务数据中探索 中 甫 大 学 工 h 布芍 国 .学 袄: _ 巨性二 卡 仑文 业务活动的规律性,市场的运作趋势,并从中得到参与市场竞争所 必需的决 策 由此 ,产生了对 d s s ( d e c i s i o n s u p p o r t s y s t e m ) 一决策支持系统 的需求。支持决策就要进行数据、信息的分析,这就产生了联机数 据分析处理的需求( o l a p ) 。决策支持所依据的数据从哪里来,当然 是成功运行着的业务处理数据库 中的数据 。所以最早的决策支持所 进行的数据处理就是直接使用数据库中的数据.可称之为 r o l a p , 即利用关系数据库的数据进行联机分析处理。开始人们认为具有各 种查询和报表功能的数据库系统可以提供一个单位所需要的所有决 策需要的信息。 当r o l a p只使用很少的关系数据库表时,这一操作是可行的。 这种操作往往是针对局部问题进行的决策支持数据分析。但面对市 场的决策往往是涉及整个企业范畴的数据和信息。这就要求启动大 量的数据库表,并将多表中的数据按一定的规律拟合起来,形成恰 好针对所支持决策问题的数据内容。这个过程可能非常复杂,且耗 费大量资源。如果企业的数据分布在若干个系统中,这样的数据整 合过程儿乎难以完成。 除此之外,在 一个数据库表中的每一条记录也并不是某项决策 都需要的, 这要按决策支持的需要编制专用的数据筛选程序。再者, 联机事务处理系统中的数据有一个特性:即每一条记录都有产生, 反复的变更、修改,直至数据记录不再变化的过程,称之为, 数据到 位” 。例如.一个物料在一个工厂产生了,联机事务处理系统就要增 加一条相应的记录。这个物料不断地进行加工,就要在它记录中记 入加工的参数;当这个物料加工成产品,被发货出厂,就要再登录 这些出厂信息,此后,记录其生产过程的数据就再也不能修改了。 如果要进行产品生产周期的分析,就只能用发货出厂后的那些物料 的数据。而不能使用同一表中的正在加工的物料的数据。 由此可见,直接使用联机事务处理系统中的数据进行决策支持 数据的分析处理是会产生许多麻烦的,甚至是不可能实现的。这时 中甫 大 学二 二 商 昔理 学欢 硕 .士论 大 . . . .鱼口.口目.鱼胆鱼鱼, 州也 鱼 鱼鱼 鱼 鱼 ,硬旦旦 鱼鱼鱼鱼鱼 旦旦卫 皿里 鱼鱼 少 旦 旦 旦 旦 巨 旦 口 组 里旦 旦 旦 旦 旦 旦 旦 目巴 巴三 旦 旦 旦 旦 旦巴 曰 里 . 旦 旦 旦巴 巴巴 巴里旦 旦 旦 旦巴 巴 曰,巨.旦 旦组 曰巴 曰.目 巨 旦旦巴巴 曰.,巨旦巨已 巴 巴 巴 曰曰里旦 旦 候,人们就会问,为什么系统中有我需要的数据 ,而我却无法利用 呢! 这不是说关系数据库不好 ,而是老产品遇到了新任务。e - r型的 数据结构能完美地执行联机事务处理,但不适应较大规模的决策支 持数据分析,尤其不适应企业级的决策支持数据分析处理 的需要。 适应这一需求 ,应运而 生的就是数据仓库技术 。 1 . 2 什 么是数据仓库 ? 在信息系统( i n f o r m a t i o n s y s t e m , i s ) 的以往研究与 发中,主 要问题是如何将数据更好地存储在数据库中。9 0 年代,i s的研究重 点之一则是如何寻找一种更好的方法, 将数据从数据库中提取出来。 对用户而台 ,数据应用比数据存储更有意义,而数据仓库( d a t a w a r e h o u s e, d w ) 就是这样一种新型的数据管理技术, 同时也是基 于数据库的数据开采( d a t a m i n i n g,d m ) 和知识获取( k n o w l e d g e d i s c o v e r i n g i n d a t a b a s e,k d d ) 的数据基础。 严格来说,数据仓库技术并非新概念。决策支持系统( d e c i s i o n s u p p o r t s y s t e m , d s s ) 研究中d e s 的定义和d s s中d b m s ( d a t a b a s e m a n a g e m e n t s y s t e m ) 描述都具有数据仓库技术的很多特征,但并没 有从理论上和实践上进行系统化的深入研究. 8 0 年代初, “ 公认的数据仓库之父” w i l l i a m . h . i n m o n 在“ id 录系统” 、“ 原子数据”( a t o m i c d a t a ) 和 “ 决策知识系统”等专题研 究报告中,提 出了数据仓库或信息仓库的概念并给出了基木框架描 述。当时,i b m也正在从事一项 “ 以关系数据库为基础的公司数据 的集成化仓储”的计划。1 9 9 1 年,i b m宣布了该项计划 “ 信息仓库 构架 -i n d e p t h,对数据库产业带来了很大震动。 wi l l i a m. h . i n m o n 认为, 数据仓库是九十年代信息技术( i n f o r m a t i o n t e c h n o l o g y , i t ) 体系结构中的一个重要组成部分, 是数据库产业发 展的重点 。 wi l l i a m. h . i n m o n在其” b u i l d i n g t h e d a t a wa r e h o u s e ” 一书中给 中 甫 大 学x 育 带 a 学 隽 七 = m士 论 文 出了数据仓库的定义:“ 数据仓库是面向主题的、整合的、稳定的, 并且时变地收集数据以支持管理决策的一种数据结构形式。 ” 这一定 义指出了数据仓库和事务处理系统之间的主要差异。数据仓库的目 标是为了制定管理的决策提供支持信息,这与 o l 丁 p系统的快速响 应需要显著的不同。正像企业为了发展要进行业务重组一样,为了 支持管理决策需要也要按决策业务科目的要求重组 o l t p系统中的 数据 ,并要按不同决策,分析 内容分别组织使之方便使用 。这种基 于主题 的模式从用户角度来看就是多重的数据 重组结构 。 从应用的角度来看,任何一个公司和企业,在订货、存货清单、 票据清单、账目消算、客户服务以及财务报告等方面都存在大量的 业务应用和技术环节。数据仓库的作用在于:从这些应用系统中获 取信息并转换到一个新的数据库,通过对新数据库中的历史信息和 面向主题的信息进行分析,为决策提供支持。以往的产品系统,如 订货或购置系统,则很难从中获得有关商业发展状况的信息。数据 仓库是企业决策支持的一部分。在做出下一个决定前,每个商业机 构中的行政人员和分析人员都需要将许多关键商业问题搞清楚,例 如:哪些产品最有利可图?哪些客户会为我们带来最大利益?哪些 环节需要花费很高的费用?哪些市场活动运行得最好?为什么?我 们有可能会失去哪些客户?为什么? 这些都是数据仓库要回答的 “ 百万利润” 问题,也同时是一个最大的市场。 据g a r t n e r 估计, 6 0 % 的关系数据库管理系统被用作决策支持系统的应用开发。 l . 3数据仓库的特性 由上面的定义,我们可以归纳出数据仓库的四个特性:数据仓 库的数据是面向主题的;数据仓库的数据是集成的;数据仓库的数 据是稳定的;数据仓库的数据是随时间不断变化的。 中 南 大 学二 二 商 管 理 学 欢 硕 d : 论 文 1 . 3 . 1 主题 与面 向主题 与传统数据库面向应用进行数据组织的特点相对应,数据仓库 中的数据是面向主题进行组织的。主题是一个抽象的概念,是对企 业信息系统中的数据在较高层次上的综合、归类并进行分析利用的 抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的 分析对象 。 面向主题的数据组织方式,是在较高层次上对分析对象数据的 完整、一致的描述,能完整、同一地刻画各个分析对象所涉及的企 业的各项数据,以及数据之间的联系。所谓较高层次指相对面向应 用的数据组织方式而言,按主题进行数据组织的方式具有更高的数 据扣 i 象级别。 面向应用的数据组织方式与面向主题的数据组织方式的区别在 于 : 首先,面向应用进行数据组织,调查的重点是 “ 数据”和 “ 处 理” ,在进行数据组织时充分考虑企业部门之间组织机构、企业各部 门的业务活动特点,反映每个部门的实际业务处理的数据流程。其 抽象程度还不够高,没有完全实现数据与应用的分离,没有数据库 这一概念提出的本来意图:数据与数据处理得分离,即要将数据从 数据处理或应用中抽象出来、解放出来,组织成一个和具体应用独 立的世界。它偏重于对联机事务处理( o n - l i n e t r a n s a c t i o n p r o c e s s , o l t p ) 的支持,而将数据应用逻辑与数据在一定程度上又重新捆绑 在一起了。造成的后果是:使得本来是描述同一客观实体的数据山 于与不同的应用逻辑捆绑在一起而变得不统一;使得本来是一个完 整客观实体的数据分散在不同的数据库模式中。但是,这种方式能 较好地将数据库模式和企业的现实业务活动对应起来,从而具有很 好的操作性,便于将企业原来各项业务从手工处理方式向计算机处 理方式的转变。所以在进行 o l t p数据库系统开发是,面向应用的 数据组织方式仍不失为一种有效的数据组织方式,它可以较好地支 中市 大 学二 商 营理 学 欢 硕 士 论 文 巴里里里曰曰巴里里里巴巴巴里巴里 持 o l t p . 其次,而向主题的数据组织方式是根据分析要求将数据组织成 一个完备 的分析领域 ,即主题域 。这种主题域应具有如下两个性质: 今 独立性 。即主题域可 以和其它 主题域之 间有交叉 的部分 ,但 它必须具有独立内涵 ,即要求有明确的界限。应强调的是:主题之 间的重叠是逻辑上的重叠,而不是同一数据 内容的重复物理存储; 主题之间的重叠仅是在细节级上的重叠,因为在不同的主题中的综 合方式是不同的;二 卜 题间的重叠并不是两两重叠。荃于一个主题的 所有表都含有一个称为公共码键的属性作为其主码的一部分。公共 码键将各个表统一联系起来,体现它们是属于同一个 主题的。 . 完备性 。即要求对 任何一个主题分析处理要求 ,应 能在这 一 主题 内找到 该分析处理所要求的一切内容:若某一分析处理要求涉 及现存主题之外的数据 ,则应将这些数据增加到此 主题中来 ,从而 逐步完善主题。主题是一个在较高层次上对数据的抽象,这使得面 向主题 的数据组织可 以独立于数据的处理逻辑 ,因而可以在这种 数 据环境上方便地开发新的分析型应用 ,而且它也是适用于建设企业 全局 数据库 的数据组织方式 。 1 . 3 . 2 数据仓库数据的集成性 数据仓库的数据主要作分析用,分析用数据最大特点在于它不 局限于某个其体的操作数据,而是对细节数据的归纳和整理。 数据仓库的数据是从原有分散的数据库数据中抽取出来的。而 操作型数据与分析型数据之间差别很大。数据仓库每一个主题所对 应的源数据在原有的各分散数据库中有许多重复和不一致的地方, 且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起; 数据仓库中综合数据不能从原有数据库系统直接得到。 因此,数据集成是必要的,这一步是数据仓库建设中最为关键、 最为复杂的一步。我们不仅要统一原始数据中的所有矛盾之处,如 同名异义、异名同义、单位不统一、字长不一致等,而且要进行数 8 中 育 大 学二 月 . 管 男 皿学 花 忆 不 口t 七 士 仑文 据综合和计算,将数据统一到数据仓库的数据模式上来,还监视数 据源 的数据变化,以便更新和扩充数据仓库。 1 . 3 . 3 数据仓库数据的稳定性 数据仓库主要为信息分析提供经过综合的、集成的 、面向某一 分析主题的数据,这些数据原则上不允许信息分析人员直接对数据 执行修改或删除操作。所涉及主要是维护查询。数据仓库数据反映 的是一段相当长时间内历史数据的内容,是不同时间内数据快照的 集合,以及基于这些快照进行统计、综合和重组的导出数据,而不 是联机处理的数据,不进行实时更新。快照是来自其他数据库的一 个表或者表的子集的最新拷贝. 因为数据仓库只进行数据查询操作,所以数据仓库管理系统 ( d a t a w a r e h o u s e m a n a g e m e n t s y s t e m , d w ms ) 要比d b ms 简单得 多。d b ms中许多技术难点,如完整性保护、并发控制等等,在数 据仓库的管理中几乎可以省去。但由于数据仓库的查询数据量往往 很大,所以对数据查询提出了更高的要求,要采用各种复杂的索引 技术;同时由于数据仓库面向企业的高层管理者,他们会对数据查 询界面友好性和数据表示提 出更高的要求。 1 . 3 . 4 数据仓库数据的时变性 数据仓库中的数据稳定性是针对应用来说的,即用户进行分析 处理时不能进行数据更新操作。但并不是说,在从数据集成输入数 据仓库开始到最终被删除的整个数据生存周期之中,所有的数据仓 库数据都是永远不变的。 数据仓库数据是随时间变化而变化的,即数据仓库要按时间不 同时期来组织数据。具体表现在三个方面: 第一,数据仓库随时间增加新的数据内容。数据仓库系统必须 把 o l t p数据库变化的数据,追加到数据仓库中去,也就是要不断 -声森韶匕一. - 一 x e r rr rse t e 生成 o l t p数据库的快照,经统一集成后追加到数据仓库中。但对 于每次的数据库快照确实不再变化,捕捉到新的变化数据,只不过 又生成一个数据 的快照增加进去,而不会对原来的数据库快照进行 修改 。 第二 ,数据仓库随时删去旧的数据 内容。数据仓库的数据也有 存储期限,一旦超过了这一期限,过期数据就要删除。只是数据仓 库 内的数据时限要远远 长于操作型环境的数据时限。在操作型环境 中一般只保存 0 - 9 0天的数据, 而在数据仓库中则需要保存较长时限 的数据 ,如 5 - - 1 0年 ,以适应 d s s趋势分析要求 。 第三,数据仓库中包含了大量综合数据,这些综合数据中很多 与时间有关,如数据经常按时间段进行综合,或者隔一定时间进行 抽样等。这些数据要随时间变化不断进行重新综合 。 因此,数据仓库中数据的码键都包含有时间项,以标识数据的 各历史时期。表 1 给出了传统数据库存储的数据与数据仓库存储的 数据之 间的区别 。 表 !数据仓库 与数据库 中数据 的比较 比较 内容操作数据仓库数据 存在时间生存期短,经常变化长期存在,相对静态 存取结果记录层的存取需求以聚集方式集合存取 存取方式反复的事务存取模式定期地报告式的特定查询 修改方式实时修改周期性地大批量修改装入 驱动方式事件驱动:过程产生数据数据驱动:数据支配过程 操作读写操作只读 规模儿个 gb可达 1 o o g b + 1 . 4数据仓库与数据集市 通常,d s s主要有两种实现方式,即建立一个数据集市( d a t a m a r k e t ) 或一个数据仓库。到底哪一种更能满足决策支持的要求并且 cp vr z pl *一一 一- s 79 r ; b 3k * - l 4 c 适合企业今后的发展,是近年来学术界和有关供应商激烈争论的一 个话题 。 b 曰n mo n首次提出“ 数据仓库” 这一名词时, 它最初被设计为一 个商业数据库,具有稳定性( 主要成分不变) 、 历史性( 包含历史信息) 和面向主题( 信息由客户、产品和市场等组成) 等特点。这些最初的 “ 数据仓库” 根据对 客户、产品、销售情况和财务状况等信息的分析, 得到对企业活动的整体认 识。 多年以来客户发现:尽管企业级数据仓库很有吸引力,但是具 体操作起来有些难度 。1 9 9 6年“ i d c研究” 调查结果表 明:尽管为建 立数据仓库平均投入 了三年多时间和近 3 2 0万美元 ,5 0 %没有达到 应有的效果。从项目开始算起,三年后,大多数商人发现所面临的 商业问题已经不再是开始建立时的样子,发生了很大变化。另外, 尽管开发进度被延长了一年又一年,仍然做不到让所有感兴趣的客 户对想看到什么信息给出明确的需求定义。因而“ 企业数据模型” 的 确立如同练习一样进行 了一年又一年。在最近的 1 8 - 2 4个月的时间 里,出现 了 一种新 的解 决办法 ,那就是数据集市 。 一般来说,一个数据集市是按照某一特定的部门的决策支持要 求而组织起来的,针对一组主题的应用系统。例如,财务部拥有 自 己的数据集市,用来进行财务方面的报表和分析、市场推广部、销 售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供 辅助手段。 数据集市有很大的灵活性,因为可以根据企业具体问题、部门 的机遇、行业或不同应用来进行定制。数据集市的优点在于它与数 据仓库相比,能使企业以快速、较低廉的成本且较容易地建立数据 仓库。通常,企业建立一系列的数据集市,用来处理一定范畴内的 问题,快速决策可使企业对市场机会做出快速反应。 有许多人赞同此观点。以美国红硅( r e d b r i c k ) 公司为代表,其 总裁 r a l p h k i m b a l l 在 1 9 9 7 年 2 月的一篇论文中提出: “ 数据仓库是 一些数据 的集成 ” ,认 为企业 多建立一些数据集 市 ,将来 自然就会形 易 婆 会 卷 今巴 一一今. - z ) r * 留 鳖恶 t z e x 成了数据仓库。 此种说法立即遭到了i n m o n 的反驳, 他在1 9 9 8 年 1 月旗帜鲜明地指出, “ 你可以在大海中捕捉到很多的小鱼并堆积起 来, 但他们仍然不是鲸鱼” 。 同年 5 月, 他又在 数据管理综述 ( d a t a m a n a g e m e n t r e v i e w ) 中, 发表了“ 数据集市不等于数据仓库”的论 文,进一步阐述两者的区别及各自的适用场合。 事实上,数据集市即是一个小的数据仓库。只是它更精练,更 加面向主题。 如果说数据仓库是建立在企业级的数据模型之上的话。 那么数据集市就是企业级数据仓库的一个子集,它面向的是不是整 个企业系统,而是部门级业务,并且只面向某个特定的主题。它起 到 “ 化整为零”的作用,可以在一定程度上缓解访问数据仓库的瓶 颈。所以作者认为,数据仓库与数据集市的主要区别不是规模大小 的问题,而是涉及的范围的差异。这种区域上的差别导致了不同的 框架、不同的用户类型。数据集市适用于较底层次的用户,数据仓 库适用于较高层次的用户。 建立一个大而全的数据仓库,的确是实施周期一长、见效慢、费 用昂贵,但有利于各级数据仓库的一致性控制。 相对而言,独立的数据集市在最初实现起来可能不太复杂也不 太昂贵,然而这种优势会随数据集市的多元化而消失。一旦一个单 位创建了两个或两个以上的数据集市,最大的问题就是如何使它们 之间协调一致,如何使它们实时操作,以及如何维护所有的数据抽 取和转换。 另外, 当一个单位要创建两个或两个以上的数据集市时, 会发现每一个都要经过一个重新的设计、抽取、加载和查询步骤。 于是,在面对多个数据集市的开发时,如何共享设计和结构成为一 个有现实意义和挑战性的问题. 因此,作者认为,各企业在建立数据仓库还是先建立数据集市 的问题上,要根据各自企业的实际情况而定。企业规模大而经费不 足的,可以先建数据集市,再逐步扩充、完善.应注意的是建立数 据集市时, 使得数据集市在扩展后可以集成为全企业级的数据仓库。 企0 a ll . 樟 小 、经 拚充足时 .可 先建立全局级数据仓库 ,再在此基 础 r 4 . )o 踌尝-一一-币一-,- 上组织建立部门级、个人级数据仓库。 对于数据集市协调共享问题,可以采用一种全新的数据仓库概 念一“ 运作型数据存储 ( o p e r a t i o n a l d a t a s t o r e , o d s ) 。在o d s 方 式下,数据被从业务数据库中复制到一个中心位置,再从这里被抽 取到多个数据集市中。o d s是从客户、产品和其他商业角度来组织 的,被称为商业状况的“ 实时快照” 。它不包含历史信息,但可以很 容易地满足一个历 史数据库或一组面向主题的数据集市的需要。我 们一般称之为“ 合并式数据仓库” ,因为它在进入决策支持数据库以 前是一个信息的结合点。o d s虽小,却能被经常地修改 ,因而非常 适合于建立在 a d a p t i v e s e r v e r e n t e r p r i s e和 r e p l i c a t i o n s e r v e r 上。 1 . 5数据仓库主要产品分析 现有的数据仓库工其厂商可分为三种类型: , 单点产品供应商, 如b u s i n e s s o b j e c t s , c o g n o s 等。 这类厂商 的软件仅局限于某一功能或用途。 . 部分解决方案提供商,如 o r a c l e , i b m, s a s , mi c r o s o f t 等。 这类厂商的产品可以完成构造数据仓库的一些任务,但工具 不全面,较多地依赖第三方厂家的补充。 . 全面解决方案提供商,现在只有 c a能够提供以元数据为核 心的,结构化的,包容构造数据仓库的各项技术的全面解决 方案 。 1 . 5 . 1 i b m公司数据仓库解决方案 i b m数据仓库解决方案称为a d a t a wa r e h o u s e p l u s ! 。它主要提 供大量的产品和服务,其目的是要给出一个基于单一结构的集成方 案。 p e r f o r m a n c e c o m p u t i n g 公司 r . f i n k e l s t e i n 认为: “ 看起来 i b m 在全局的自顶而下的、集成的数据仓库方案是最佳的此方案基于一 个强大的体系” 。d b 2系列是 i b m数据仓库策略的支撑者。 1 3 一君离斋七一一 一一-,-,- i b m产品有一个优点, 大多数运行数据都是从 i b m系统中的数 据仓库抽取,并u数据也储存于此数据仓库中。因此,紧密集成是 一种 自然的方式。问题在于: 儿乎所有的 i b m产品仅能用于 i b m平 台 。此外 ,r. f i n k e l s t e i n认为 :“ 在 i b m 数据仓库 中,需要考虑 的 唯一 问题是如何将 第三者的前端工具 与 d b 2系列 的关系数据库相连 接 , i b m在此方面提供的功能很弱。 i b m 提供 了三种数据仓库 方案 : 独立的数据市场。主要针对一个部门或一种商业功能组织。 依赖的数据 市场 。类似于独立的数据市场 ,但与数据源连接 时,要受到信息技术组织的控制和管理 。 全局数据仓库。 由工厂实现管理, 并受到企业体系结构支持。 其中,全局数据仓库方案可以基于 v ms上 d b 2 ,或者 a i x p a r a l l e l e d i t i o n上 d b 2 . v i s i a l wa r e h o u s e 方案可以荃于 o s / 2上的 d b 2 ,或 a i x上 的 d b 2 , 艺在 实现 时成本较低 。i b m 中的数据 管理 需要使用 d a t a g u i d e 系列。 在数据挖掘方面,i b m 己具有一系列知识发现-l 具。这些 1 . 具 提供的知识发现技术包括关联、顺序模式、分类和聚簇。i b m r e s e a r c h还提d 了p a r a l l e l v i s u a l e x p l o r e r ,它是一种强大的分析技 术,用平行坐标来可视化多维空间,这也是多维数据的其他集合表 达形式 。 1 . 5 . 2 o r a c l e 公司数据仓库解决方案 o r a c l e 解决方案是围绕 o r a c l e 数据库、工具和应用系统建立数 据库,帮助公司访问以不同格式、不同地点存储的信息。起核心功 能包括数据存储和管理、垂直市场应用、数据存取和开发工具。其 数据仓库的特征由两个属性指定: o r a c l e 产品线的广度和 w a r e h o u s e i n i t i a t i v e ( wt i ) 的合作者数目。o r a c l e 也可以s y s t e m m a n a g e m e n t t o o l s i n i t i a t i v e ( s mt i ) ,以便满足系统管理和性能管理的需要。 o r a c l e 提供的功能源于 r d b ms引擎 o r a c l e 7 , o r a c l e ?的功能 1 4 中甫 大 学 二二 商 管 理 学 院 硕 士 论 文 .皿曰曰.口曰弓国.曰曰吕 在不断增弧,最新推出的 o r a c l e 8加强了分区视图、位图索 引等功 能,以满足数据仓库 的功能需求 ;将其应用于垂直 市场可潜在地提 供预制的数据仓库。其技术也可用于开发和数据分析 ,并能提供第 三 方 的 软件 产 .1 , n a 1 . 5 . 3 微软数据仓库解决方案 mi c r o s o f t 公司提供了一系列产品全面支持数据仓库应用以及创 建和维护数据仓库: s q l s e r v e : 关系数据库管理系统用作数据仓库。 s q l s e r v e r 自身和 i n t e r n e t i n f o r m a t i o n s e r v e r . mi c r o s o f t e x c h a n g e , s n a s e r v e r 结合可形成一个数据集市的工作平台。 mi c r o s o f t a c c e s s , e x c e l , v i s u a l c + + , i n t e r n e t e x p l o r e r 和 即将推出 o l t i 服务器可用于桌面数据分析工具。 s q l s e r v e r 因其高效的并行处理体系结构、先进的查询优化 器、强大的数据复制功能,使得许多用户不再拘泥于专用的数据仓 库解决方案。 mi c r o s o f t 的o l t p服务器支持 mo l t p ( 多维 o l t p ) , r o l t p ( 关 系。 up ) 和h o l t p ( 混合o l t p ) 技术。在客户端,mi c r o s o f t 提供了 d e s k t o p d a t a c u b e s e r v e r ,以使用户从客户端访ip7 o l t p 数据。 mi c r o s o f t o l t p服务器的一个关键优点是对 o l t p数据实现方案中 “ 数据膨胀”问题提出了自己新的解决方案。它结合了智能的聚合 选择方法,只自动生成所有聚合组的一个子集,而剩一 的聚合只在 需要时快速生成。这项技术在不牺牲性能的基础上,有效地节约了 存储 。 1 . 5 . 4 s y b a s e 公司数据仓库解决方案 s y b a s 。 公司在客户端和服务器之间增加应用服务器, 把用户逻辑 放置在中间层即应用服务器上,形成三层客户/ 服务器结构。s y b a s e 中 甫 大 学z 商 管 j 盆学 花 纪 石 反侧 匕论 文 卑.里口里粤.曰口里粤曰已三巴口曰粤吕曰曰巴巴里巴日 日 日 日 日 日 日 日 县目翻 口 . 曰 曰 曰 曰吕 吕 吕吕 翻留日 吕吕吕 吕目 留.吕吕 吕 吕 目 吕 吕 . . . 吕 吕 目 吕 . . . . . . . 目 翻 目 行. . . 的数据仓库建立方法是山业务应用逆向构造进行,从数据集市开始建 立企业体系结构。s y b a s e 公司q u i c k s t a r t d a t a ma r t 捆绑0 - 划为在 9 0 天内实现数据集市提供了快速、 低风险和完整的解决方案。 比如, s q l s e r v e r , s y b a s c i q等j : in.其中s y b a s e i q为 一 个高性能的、一纷 业化 的决策支持服务器 ,是此方案的核心,它采用 了申请专利的 b i t - wi s e 索 引技术,比传统 b - t r e e索 引提 高响应速度快 了 1 0 - - 1 0 0倍 。 1 . 5 . 5 i n f o r mi x 公司数据仓库解决方案 i n f o r m i x数据仓库环境包含四个部分:关系数据库、数据仓库 管理软件、数据存取工具以及开放式系统平台。 m e t a c u b e 体系的结构是 i n f o r m i x数据仓库策略的具体实现。 me t a c u b e 采用了 “ 星型”模式,为用户现有的关系数据库提供了 一个直观的多维视图,而无需专用的多维数据库。me t a c u b e 整个 产品的核心是元数据驱动的数据仓库引进,即系列产品中的 me t a cu b e. 1 . 5 . 6 p l a t i n u m t e c h n o l o g y 公司解决方案 p l a t i n u m t e c h n o l o g y 公司的数据仓库解决方案为企业提供完整、 一致的数据,以保持商业决策的及时、正确性。 p l a t i n u m t e c h n o l o g y 的数据仓库解决方案包括数据抽取和提炼、 数据分布、 元数据管理、 数据存取和分析( o l a p , e i s 、报表) 、保险、销售和营销决策支持 等几个方面。它提供的数据仓库工具包括异构数据库之间数据双向 复制的应用系统开发工具i n f o p u m p 和功能强大灵活的关系型o l a p 工具 i n f o b e a c o n 等; 提供的数据仓库前端业务智能解决方案工具包 括使用户能够快速建立和使用的图形化企业信息系统应用的基于 wi n d o w s 的查询和报表工具 f o r e s t ?i协 i i i i乃 n 部 门 , !” i- - 1 5二 i刀 i i s为 i 11 7 1 ” 中 甫 , 学 二 商 管 x 吐 学 欢 硕 创 卜 y 仑 文 表 5( 单位:万美元) l * ix(i冲度 3 攀 度! 禅班 娜门1 9 9 5 年 1 4 9 6 年 i 卯, 年 宜 的 年 1 拍5 年 ! 9 肠 年 . 的, 年 皿 , 蛤 年 娜门i 2 0】 2加 劝 3 51 2 51 s i!1 4 娜门2一1 2 5 1 2 0s ii s i1 5!2 3i s 1 2 娜 门 3l加 i l af j $ 1!劝 11i s 1 -11

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论