(计算机系统结构专业论文)数据仓库中档案数据的并行导入.pdf_第1页
(计算机系统结构专业论文)数据仓库中档案数据的并行导入.pdf_第2页
(计算机系统结构专业论文)数据仓库中档案数据的并行导入.pdf_第3页
(计算机系统结构专业论文)数据仓库中档案数据的并行导入.pdf_第4页
(计算机系统结构专业论文)数据仓库中档案数据的并行导入.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机系统结构专业论文)数据仓库中档案数据的并行导入.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 近年来,随着各种计算机应用技术的不断进步,例如数据库技术和网络技术, 以及企业对决策信息的需求,数据仓库技术正在逐渐成为信息领域一种发展迅猛 的新兴计算机技术。虽然数据库技术在事务处理方面取得了巨大的成功,但是随 着数据量的飞速增长和查询复杂程度的提高,数据库技术越来越难以满足人们对 决策分析的要求了。为了形成一个综合的、面向分析的环境,从而对决策提供支 持,人们提出了数据仓库技术。 本文首先介绍了数据仓库技术的基本概念和特点,然后简单介绍数据仓库的 体系结构和数据组织。接着介绍了设计和实现数据仓库e t l ( 抽取转换装载) 处 理过程。文章讨论了数据抽取、数据清洗、数据装载、数据转换的方法和策略。 若要从数据仓库中做出有意义的分析,则数据仓库中必须要有一定数量的历 史数据。为了缩短历史数据积累的时间,本文在这一部分着重讨论了如何在数据 仓库中的导入档案数据。要在数据仓库中导入档案数据必须考虑导入的速度问题。 在对比分析了档案数据顺序导入、逆向导入和并行导入三种方法的基础上,着重 介绍了并行导入方法的策略。提出了基于客户机服务器模式的档案数据并行导入 的方案。在整个处理流程中,数据整合是实现并行导入的关键步骤,详细描述了 历史数据并行整合的方法。最后,通过模拟实验对并行性的性能进行了分析讨论。 通过导入档案数据来快速提高数据仓库的数据量,是数据仓库技术发展到一 定阶段后的必由之路。本文提出的并行导入方案大大加快导入档案数据这一工作 的效率,使得数据仓库在最短时间内最大限度的提高了数据量,从而进行有效的 决策分析。随着企业竞争的加剧和数据仓库技术水平的提高,导入档案数据方案 及相关技术将会被越来越多的企业所应用。 关键字:数据仓库:档案数据;并行;数据整合 华南理工大学硕士学位论文 a b s t r a c t i nr e c e n t y e a r s ,w i t h t h ec o n t i n u o u sa d v a n c e m e n to fv a r i o u s c o m p u t e r a p p l i c a t i o nt e c h n o l o g ys u c hd a t a b a s et e c h n o l o g ya n dn e t w o r k st e c h n o l o g y ,a n dt h e n e e d so fd e c i s i o n s u p p o r ti n f o r m a t i o no fe n t e r p r i s e ,d a t aw a r e h o u s et e c h n o l o g yi s b e c o m i n g an e wa n da d v a n c e dc o m p u t e ri ni n f o r m a t i o nf i e l d ,a n di th a sb e e n d e v e l o p e dv e r yq u i c k l y d a t a b a s et e c h n o l o g y h a s g o tg r e a t a c h i e v e m e n ti n t r a n s a c t i o np r o c e s s i n g ,b u t ,w i t ht h er a p i di n c r e a s eo fd a t aa n dt h ea s c e n d i n gd e g r e e o fc o m p l e x i t yo fq u e r y ,d a t a b a s et e c h n o l o g yc a nn o tm e e tt h en e e do fd e c i s i o na n d a n a l y s i s i no r d e rt oc o n s t r u c ta ni n t e g r a t e d ,a n a l y s i s o r i e n t e de n v i r o n m e n tt h a tc a n p r o v i d ea n a l y t i c a ls u p p o r tf o rd e c i s i o n m a k i n g ,d a t aw a r e h o u s et e c h n o l o g yc o m e s i n t ob e i n g f i s t ,t h eb a s i cc o n c e p t sa n dt r a i t so fd a t aw a r e h o u s ea r ed e p i c t e di nt h i st h e s i s , t h e nd a t ao r g a n i z a t i o na n da r c h i t e c t u r eo fd a t aw a r e h o u s ea r ei n t r o d u c e di nb r i e f a e t l ( e x t r a c t 、t r a n s f o r m 、l o a d ) p r o c e s sf o rd w ( d a t aw a r e h o u s e ) i sd e s i g n e da n d r e a l i z e d t h i sp a p e rd i s c u s s e st h et e c h n i q u ea n ds t r a t e g yo fd a t ae x t r a c t i n g ,c l e a n i n g , l o a d i n g ,t r a n s f o r m i n g v o l u m e so fh i s t o r i c a ld a t aa r er e q u i r e df o r m e a n i n g f u la n a l y s i s i nd a t a w a r e h o u s e i no r d e rt os h o r t e nt h et i m ef o ra c c u m u l a t i n gh i s t o r i c a ld a t a ,h o wt o i m p o r ta r c h i v ed a t ai n t od a t aw a r e h o u s ei sd i s c u s s e di n t h i sp a r t w h e ni m p o r t i n g a r c h i v ed a t ai n t od a t aw a r e h o u s e ,t h ep r o b l e mo fi m p o r t i n gs p e e di sn e e d e dt ot h i n k a b o u t b a s i n go nt h ea n a l y z ea n dc o m p a r i s o na m o n gt h r e ea r c h i v ef i l e si m p o r t i n g m e t h o d s ( o r d e r l yi m p o r t i n gm e t h o d ,c o n v e r s e l yi m p o r t i n gm e t h o da n dp a r a l l e l i m p o r t i n gm e t h o d ) ,t h i sp a p e rh a si n t r o d u c e dt h es t r a t e g i e so fp a r a l l e li m p o r t i n g m e t h o d a na r c h i v ed a t ap a r a l l e li m p o r t i n gm e t h o db a s e do nc l i e n t s e r v e rm o d ei s p r e s e n t e d i nt h ew h o l ep r o c e s sf l o w ,d a t aa g g r e g a t i o ni s t h ek e ys t a g et or e a l i z e p a r a l l e li m p o r t i n g a g g r e g a t i o nm e t h o d s o fv a r i o u sk i n d so fd a t aa r ea n a l y z e d , e s p e c i a l l yt h ea g g r e g a t i o nm e t h o do ft e m p o r a ld a t ai sd e s c r i b e di nd e t a i l f i n a l l y ,t h e p e r f o r m a n c eo fp a r a l l e l i s mi sd i s c u s s e d h i g h t e n i n gt h ev o l u m e so f d a t ao fd a t aw a r e h o u s eb yi m p o r t i n ga r c h i v ed a t ai st h e k e yw a yo fd e v e l o p m e n to fd a t aw a r e h o u s et e c h n o l o g y t h ep a r a l l e li m p o r t i n gm e t h o d q u i c k e n sg r e a t l yt h ew o r ko fi m p o r t i n ga c h i v ed a t a t h i sm e t h o dt r y s i t sb e s tt o h i g h t e nt h ev o l u m e so fd a t ao fd a t aw a r e h o u s ei ns h o r t e s tt i m e ,t h e nt h em e a n i n g f u l a n a l y s i sa n dd e c i s i o n sc a nb em a d e w i t ht h ei n t e n s ec o m p e t i t i o nb e t w e e ne n t e r p r i s e s a n di n c r e a s eo fd a t aw a r e h o u s et e c h n o l o g y ,m o r ea n dm o r ee n t e r p r i s e sw i l la d o p t i m p o r t i n ga c h i v ed a t am e t h o da n dr e l a t e dt e c h n o l o g y k e y w or d :d a t aw a r e h o u s e :a r c h iv ef iie :p a r a ie i :d a t aa g gr e g a t i o n :t e m p o r a i d a t a i i i 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其它个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 名:弓钦育吼嬲年川日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权华南理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上相应方框内打“4 ”) 作者签名: 导师签名: 日期:伽岖年6 月7 日 日期:蛔阵6 月日 霞 冰泓 第一章绪论 1 1 研究背景 第一章绪论 近年来,随着网络和数据库技术的飞速发展,企业进入了信息爆炸的时代。 摆在广大企业管理者面前的管理信息有事务型处理和分析型处理两大类。对于事 务型处理,传统数据库的联机事务处理( o l t p ) 基本上使企业管理者摆脱了繁重的 制表业务和数据处理工作。而对于分析型处理,却面临着数据源越来越多、数据 量越来越大的新难题,难于从浩瀚的数据中获取有用的信息,从而做出准确迅速 的决策。因此能从根本上很好的解决上述问题的数据仓库技术f 在悄然兴起,越 来越受到人们的重视。为了能够在复杂激烈的竞争环境中求得生存与发展,不少 企业不惜投入巨大的资源在原有的数据库基础上创建自己的数据仓库,特别是银 行、电信、证券等行业的企业。可以说数据仓库日益成为企业在激烈市场竞争中 生存和发展的制胜法宝。 1 2 发展现状 作为一个新兴的研究领域,数据仓库发展得很快,许多大学和公司都在这个 领域进行着广泛深入的研究,其中尤以斯坦福大学、i b ma l m a d e n 研究中心、威 斯康辛大学、微软和a t & t 的研究最具代表性”。斯坦福大学进行了一个名为 “w h i p s ( w a r e h o u s i n gi n f o r m a t i o np r o j e c t a ts t a n f o r d ) ”的科研项目,他们 的研究目标是要生成一个高效的、自动集成异构数据源的算法和工具。这个课题 组已经提出了一个基本的数据仓库模型和一些相应的算法。i b ma l m a d e n 研究中 心和微软进行了一个称为“o u e s t ”的项目。他们的研究重点是多维数据库的建模 与组织。威斯康辛大学和a t t 的研究则侧重于实视图( m a t e r i a l iz e dv i e w ) 、o l a p 数据组织、数据立方体计算等方面。 而在商业应用方面,i b m 、o r a c l e 、s y b a s e 、c a 、n c r 、i n f o r m i x 、m i c r o s o f t 、 和s a s 等有实力的公司相继( 通过收购或研发的途径) 推出了自己的数据仓库解 决方案,b o 和b r i o 等专业软件公司也在前端在线分析处理工具市场上占有一席 之地“。 i b m 公司提供了一套基于可视数据仓库的商业智能( b i ) 解决方案,包括: v i s u a lw a r e h o u s e ( v w ) 、e s s b a s e d b 2o l a ps e r v e r5 0 、i b md b 2u d b ,以及 来自第三方的前端数据展现工具( 如b o ) 和数据挖掘工具( 如s a s ) 。 华南理工大学硕士学位论文 o r a c l e 数据仓库解决方案主要包括o r a c l ee x p r e s s 和o r a c l ed is c o v e r e r 两个部分。o r a e l ee x p r e s s 由四个工具组成:o r a c l ee x p r e s ss e r v e r 是一个m o l a p ( 多维o l a p ) 服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存, 同时也能够访阿多种关系数据库;o r a c l ee x p r e s sw e ba g e n t 通过c g i 或w e b 插 件支持基于w e b 的动态多维数据展现:o r a c l ee x p r e s so b j e c t s 前端数据分析工 具提供了图形化建模和假设分析功能;o r a c l ee x p r e s sa n a l y z e r 是通用的、面 向最终用户的报告和分析工具。o r a c l ed i s c o v e r e r 即席查询工具是专门为最终 用户设计的,分为最终用户版和管理员版。 s y b a s e 提供的数据仓库解决方案称为w a r e h o u s es t u d i 0 ,包括数据仓库的建 模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。 i n f o r m i x 于1 9 9 8 和1 9 9 9 年相继收购了国际上享有盛誉的数据仓库供应商 r e db r i c ks y s t e m 和数据管理软件供应商a r d e n t ,并提供了完整、集成的数据仓 库解决方案。 c a 于1 9 9 9 年收购了p l a t i n u mt e c h n o l o g y 公司后,得到了完整的数据仓库 解决方案,包括:e r w i n 数据仓库设计工具、i n f o p u m p 数据转换与抽取工具、 i n f o b e a c o nr o l a p 服务器、f o r e s t t r e e s 前端数据展现工具、p r o v i s i o n 系统 监视与作业调度工具和d e c i s i o n b a s e 元数据管理工具等。 n c rt e r a d a t a 是高端数据仓库市场最有力的竞争者,主要运行在n c r w o r l d m a r ks m p 硬件的u n i x 操作系统平台上。1 9 9 8 年,该公司也提供了基于 w i n d o w sn t 的t e r a d a t a ,试图开拓数据集市( d a t am a r t ) 市场。总的来看,n c r 的产品性能很好,t e r a d a t a 数据仓库在l o o g b 、3 0 0 g b 、1 t b 和3 t b 级的t p c d 指 标测试中均创世界纪录。 m i c r o s o f t 将o l a p 功能集成到m i c r o s o f ts o ls e r v e r7 0 中,提供可扩充 的基于c o m 的o l a p 接口。它通过一系列服务程序支持数据仓库应用。数据传输服 务d t s ( d a t at r a n s f o r m a t i o ns e r v i c e s ) 提供数据输入输出和自动调度功能, 在数据传输过程中可以完成数据的验证、清洗和转换等操作,通过与m i c r o s o f t r e p o s i t o r y 集成,共享有关的元数据;m i c r o s o f tr e p o s i t o r y 存储包括元数据在 内的所有中间数据;s q ls e r v e ro l a ps e r v i c e s 支持在线分析处理;p i v o t t a b l e s e r v i c e s 提供客户端o l a p 数据访问功能,通过这一服务,开发人员可以用v b 或 其他语言开发用户前端数据展现程序,p i v o t t a b l es e r v i c e s 还允许在本地客户 机上存储数据;m m c ( m i c r o s o f tm a n a g e m e n tc o n s o l e ) 提供日程安排、存储管理、 性能监测、报警和通知的核心管理服务:m i c r o s o f to f f i c e2 0 0 0 套件中的a c c e s s 和e x c e l 可以作为数据展现工具,另外s o ls e r v e r 还支持第三方数据展现工具。 s a s 公司也加入了数据仓库市场的竞争,并提供了特点鲜明的数据仓库解决 方案,包括3 0 多个专用模块。其中,s a s w a ( w a r e h o u s ea d m i n i s t r a t o r ) 是建 第一章绪论 立数据仓库的集成管理工具,包括定义主题、数据转换与汇总、更新汇总数据、 元数据管理、数据集市的实现等;s a s m d d b 是s a s 用于在线分析的多维数据库服 务器:s a s a f 提供了屏幕设计功能和用于开发的s c l ( 屏幕控制语言) ;s a s i t s v ( i ts e r v i c ev is i o n ) 是i t 服务的性能评估和管理的软件,这些i t 服务包括计 算机系统、网络系统、w e b 服务器和电话系统等。s a s 系统的优点是功能强、性能 高、特长突出,缺点是系统比较复杂。 b u s ih e s so b j e c t s ( b 0 ) 是集查询、报表和o l a p 技术为一身的智能决策支持 系统。它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多 维数据,具有较好的查询和报表功能,提供钻取( d r i l l ) 等多维分析技术,支持多 种数据库,同时它还支持基于w e b 浏览器的查询、报表和分析决策。 1 2 数据仓库目前存在的问题 众所周知,数据仓库的开发周期非常之漫长。近几年如火如荼的进行着的数 据仓库的研究与商业应用,出现了许多值得借鉴经验的成功案例,也出现了很多 的行之有效的数据仓库相关的开发工具和管理工具,使得数据仓库开发周期有了 很大幅度的下降。但是由于数据仓库规模大,复杂程度高这些固有的特性,开发 周期依然是很长的。例如,由知名信息技术厂商ncr ( 香港) 有限公司支持开 发的上海证券交易所数据仓库项目,仅仅是二期的预计开发周期就为12 个月, 测试周期就为2 个月。笔者所参与的i b m 公司主持开发的香港中国银行数据仓库 项目和n c r 公司的中国农业银行广东省分行的数据仓库项目,开发周期也是接近 两年时间。 数据仓库需要经过漫长的时间进行数据积累。数据仓库区别于一般的操作型 业务系统数据库,是因为它保存了大量的历史数据,企业管理者就可以从数据的 历史变化趋势进行分析预测。因而如果要作出有效的分析预测,必须保证数据仓 库中积累了足够数据量的数据,一般来说需要一两年的数据量。 企业投入资金庞大。数据仓库的开发需要庞大的软件开发人员和业务人员, 高性能的硬件设施,同时众多数据仓库产品也需要企业进行巨大的前期投入,建 模工具、数据抽取工具、展现工具、数据挖掘工具等价格都不菲。 数据仓库是高风险高回报的项目,i n t e r n a t i o n a d a t ac o r p o r a t i o n 研究结 果显示,其平均投资回报率为4 0 1 ,而失败率却高达5 0 。 项目失败的原因是多方面的。漫长的开发周期再加j 二漫长的数据积累时间, 一个大型的数据仓库从项目开启到真正能收到效益的时间跨度长达三四年,这是 项目失败的主要原因之一。高额的投资迟迟无法得到回报,导致企业者渐渐对项 目失去了兴趣与信息,支持力度大大减小,甚至可能在项目中期选择放弃,不再 华南理工大学硕士学位论文 投入资金。 1 3 论文的主要工作和意义 前面谈到一个大型的数据仓库从项目启动到它真正发挥作用将要花费几年时 间的问题,如何缩短这漫长的过程已经成为数据仓库领域中急需解决的问题。 为了解决这一问题,可以从两个方面入手,缩短数据仓库搭建时间和缩短数 据仓库数据积累时间。 很多研究都是从缩短数据仓库搭建时间入手的,例如使用各种e t l ( 抽取转 换装载) 工具,可以简化繁杂的e t l 处理的生成与维护。这方面的努力是必需的, 而且也取得了很大的成效。但由于数据仓库项目本身的复杂性,所以当搭建数据 仓库时间下降到一定程度之后,就再很难显著地减少了。 本文从缩短数据积累时间的角度出发,引入了档案数据导入的解决方法,使 得数据仓库的搭建和数据的积累并行起来,从而缩短了数据仓库从创建到有效投 入使用的时间。在这基础上,为了加快档案数据的导入提出了并行导入档案数据 的方案,进一步的加快数据仓库回报时间的缩短。关于在数据仓库中导入档案数 据的问题,目前国内尚无专门的论著和论文可供参考,因此本文所做出的研究结 果,有实际的应用价值和意义。 1 4 论文内容组织 本文的后续章节安排如下: 第二章首先从传统的数据库系统到数据仓库的发展历程谈起,比较了两者之 间的异同。然后介绍了数据仓库技术的基本概念和特点,数据仓库的体系结构和 数据组织。 第三章讨论了e t l ( 抽取转换装载) 处理过程。导入档案数据实际上就是对 档案数据进行一种特殊的e t l 处理的过程,因而专门用一章的篇幅来介绍一般的 e t i 。处理过程。根据笔者所参与的数据仓库项目的实际情况,分析、设计,并实 现一个数据仓库e t l 处理过程。文章讨沦了数据抽取、数据清洗、数据装载、数 据转换的方法和策略。 第四章从数据仓库要进行有效决策分析所需的数据量谈起,分析了导入档案 的必要性和可行性,在对比分析了档案数据顺序导入、逆向导入和并行导入三种 方法的基础卜,着重介绍了并行导入方法的策略。 第五章提出了基于客户机服务器模式的档案数据并行导入的方案。因为在整 个导入的处理流程中,数据整合是实现并行导入的关键步骤,详细描述了历史数 据并行整合的方法。 第一章绪论 最后一章首先对并行的性能进行了理论的分析,然后设计了一个有效的模拟 实验,对并行导入方案的正确性进行了验证,然后根据实验结果数据对并行导入 的性能进行了分析讨论。 华南理t 大学硕士学位论文 第二章数据仓库基本概述 2 1 从数据库到数据仓库 数据仓库的思想并不是一下子形成的,而是伴随着决策支持系统的发展过程产 生的。在过去的几十年里,联机事物处理技术在生产自动化和高效采集数据的事务 处理取得巨大成功的基础上,人们产生了一种新的思想,就是利用已有的数据来获 得决策信息,于是构建决策支持系统( d s s ) 成为信息处理领域的一个新的挑战。由 于数据库技术取得的巨大成功,因此在一开始的阶段,在现有的数据库上直接建立 d s s 成为自然而然的选择。但是事情的发展并不如人们意料的那样顺利,随着数据 量越来越大,查询也越来越复杂,在已有数据库基础上直接建立的d s s 逐渐出现了 许多难以克服的问题。主要的问题有: 1 缺乏组织性 关系数据库中,各个部门在进行分析的时候,为了不影响联机效率,都是利用 自己的抽取程序将所关心的一小部分从原始数据库中出去出来,再对其进行分析。 每个部门或单位都这样各行其是的进行抽取,并且在抽取的基础上还有进一步的抽 取。这种横向与纵向的无节制的发展,必然导致“蜘蛛网”( s p i d e rw e b ) 的产生。 虽然网上任意两个节点的数据可能归根结底是从一个原始库中抽取出来的,但他们 的数据没有统一的时间基准,抽取算法各不同,抽取级别也不相同。并且可能参考 了不同的外部数据。因而,对同一问题的分析,不同节点却会产生、甚至截然相反 的结果。这必将使决策者无从下手。 2 效率极为低下,数据难以转为有用的信息 一个公司每一个阶段的业务都积累了大量的数据。然而,这些数据只是一种处 于原始状态的资源,管理层想要在此基础双生成一个报告,就会遇到很大困难。传 统的应用于o l t p 的d b 是面向应用、事务驱动的。应用本来就千差万别、零散琐碎 的,而且为了提高性能,数据还经常被分散在多个子系统中。因而,要利用支持 o l t p 的d b 进行分析是十分困难的。分析所需要的主题内容可能分散在许多应用中。 同一字段在不同应用中又可能存在着同名异义、异名同义、单位不同、字长相异等 许多难以识别的矛盾。当然,制定报表是一个不错的选择,但是问题是无法预知将 来所需的报表是个怎样的形式,由于报表的专用性,这次产生的结果对于今后的报 表不会有什么帮助。届时将需要对系统进行二次开发和更新,那样将损耗大量人力 物力,增加了成本。 3 其他困扰着基于传统数据库决策分析系统的问题 第二章数据仓库基本概述 比如,分析需要时间比较长,而o l t p 则要求尽快做出响应,如果进行一次大 规模的分析,对o l t p 性能的影响是难以忍受的。另外,决策支持系统常常需要一 段历史时期的数据来分析趋势,而数据库中一般只存储短期数据,且各个应用领域 的保存期限也不一样,在分析时难以满足决策支持系统的需要。 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想 法。但在实际的操作中,人们却发现要获得有用的信息并非想象那么容易: 第一,所有联机事物处理强调的是数据更新处理性能和系统的可靠性,并不关 心数据查询的方便与快捷:联机分析和事务处理对系统的要求不同,同一个数据库 在理论上难以做到两全其美; 第二,业务数据往往被存放在分散的异构环境中,不易统一查询访问,而且还 有大量的历史数据处于脱机状态,形同虚设; 第三,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式 并不适合非计算机专业人员进行业务上的分析和统计。 正是由于上述原因,人们越来越认识到在原有数据库的基础上构建决策支持系 统并不是一个明智的选择,长远来看甚至可以说是根本行不通。于是,人们将决策 支持系统从联机事物处理的数据库系统中独立出来,数据来源自联机事物处理系统 和外部数据源,专门为分析统计和决策支持应用服务,形成一个综合的、面向分析 的环境。而独立出来的决策支持系统正是数据仓库。 2 2 数据仓库概念和特点 业界对数据仓库作出了各种各样的定义,但是目的还没有一个统一的说法。 世界卜公认的数据仓库之父w h i n m o n 在其著作 b u i l d i n gt h ed a t aw a r e h o u s e 一书中给予数据仓库如下描述:数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的 ( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n v o l a t i l e ) 、 反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策。对于数据仓库 的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析 型数据处理,它不同 j 企业现有的操作型数据库;其次,数据仓库是对多个异构 的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在 数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 1 面向主题。 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离, 而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是 指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型 华南理t 大学硕士学位论文 数据库相关。数据仓库的创建和使用都是围绕着主题实现的,因此必须考虑要进 行有效的决策分析需要确立那几个主题,例如笔者参与的中国农业银行的一个数 据仓库的项目中,数据仓库就包含帐户( a c c o u n t ) 、团体( p a r t y ) 、产品( p r o d u c t ) 、 位置( l o c a t i o n ) 、事件( e v e n t ) 、渠道( c h a n n e l ) 、组织( o r g ) 等几大主题。 在划分主题的时候需要保证各个主题的独立性,每个主题都要有自己独立的内涵, 各个主题之间要有明确的界线。在主题确立以后,需要确定每个主题的数据来自 于哪些操作型数据库,例如银行中帐户主题的数据,不但来自于存折业务系统, 还要来自于信用卡业务系统和信贷业务系统等等。进行决策分析时还需要确定从 哪个主题中抽取数据,有不少决策分析还需要同时从不同的主题中抽取数据。 2 集成。 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互 独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽 取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一 致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。集成主要包 括以下两种一致性处理 ( 1 )编码一致性处理。 举例说明,对于银行系统中的货币编码,有的操作型源系统采用0 0 1 来表 示人民币,有的采用r m b ,有的采用c h n ,在数据仓库中对于人民币到底 是采用r m b 还是采用c h n 来表示并不重要,重要的是必须将这些五花八门 的编码统一成一致的编码形式,例如全部统一为r m b 。 ( 2 )属性度量单位一致性处理。 在不同的操作型源系统中,对同一属性可能会采用不同的度量单位来表示, 例如描述对象的长度时,有的采用厘米、有的采用英寸,有的采用码。在数据仓 库中应该采用统一的度量单位,例如采用厘米,因而在操作型源系统的数据进入 数据仓库时需要根据各自的度量单位进行换算操作。 3 非易失。 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓 库的数据主要供企业决策分析之用,为了保证分析结果的公正性、客观性、科学 性,所涉及的数据操作主要是通过分析工具对数据仓库中的数据进行查询分析, 一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中 一般有大量的查询操作,但修改和删除操作很少。数据仓库中的数据分为当前数 据和历史数据,随着时间的增长,操作型数据库中的数据发生变化,因而在一定 的时间间隔后数据仓库要进行刷新操作,当前数据按照一定的规则转换成历史数 据,同时插入新的当前数据,数据仓库在一定的时间间隔内是稳定的。 4 反映历史变化。 第二章数据仓库基本概述 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通 常包含历史信息,系统记录了企业从过去某一时点( 如开始应用数据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做 出定量分析和预测。因而数据仓库的不是一个简单的信息库,不是一个静止的概 念,而是一个随着操作型数据库的变化而变化的一个无限发展的概念。每隔一段 固定的时间,操作型数据库的数据会被导入到数据仓库中,而数据仓库旧版本的 数据并不会被删除,依然保存在数据仓库中。 2 3 数据仓库与数据库的区别 数据仓库是数据库发展而来的,是数据库系统发展到一定阶段的必然要求, 但是两者既有紧密的联系,又在很多方面存在着相当大的差异。 数据库是数据仓库的主要引擎,同时数据库技术的发展推动数据仓库技术的 发展。数据库是为了支持实时数据的操作性处理服务的,针对非常具体的业务, 为特定应用服务的;数据仓库是为了数据分析和发现潜在信息而设计的,为决策 的制定服务。 数据库中的数据一般来源于业务系统,只需要当前的数据,历史数据即使保 存下来也未得到充分的利用;数据仓库中的数据既有业务系统中的当前数据,也 有大量的历史数据,还包括其他所有与决策分析有关的其他数据。 数据库中存储的一般是当前和近期的细节数据,可根据实际情况对其进行随 时的增、删、改等操作,一次操作数据量小;数据仓库中存储的数据相对比较稳 定,经过较长的一段时间之后才进行更新,一次操作数据量大。 数据库中的数据是为了应用程序提取的方便组织的,数据结构有层状、网状 和关系结构,按关系结构设计的数据模型是当前比较成熟和完美的数据模型,它 以关系二维表的形式存放数据;数据仓库中的数据虽然也以关系表的形式存放, 但组织的规则不同。数据库中一般不允许有冗余,而数据仓库中设置了综合数据 固有大量冗余,这主要是为了提高查询分析的速度。 2 4 数据仓库体系结构 对数据仓库而言,系统体系结构十分重要,它包括了所有数据仓库的主要元 素。数据仓库的主要元素和与数据仓库相互作用的主要外部实体包括数据源、数 据临时区、元数据、数据仓库数据库、各种应用工具和管理工具以及数据仓库的 用户呻1 。 9 华南理工大学硕士学位论文 图2 - 1 数据仓库的体系结构 1 业务系统和外部数据源 数据仓库的数据来源非常广泛,构成数据仓库的数据包括业务系统中的数据 和外部数据源,即不仅包括企业内部各部门的有关数据,而且还要企业外部的、 甚至是竞争对手的有关数据。但是需要注意的是,数据仓库只是定期从业务系统 中获得事务数据的快照,而不对事务数据进行更改。换句话说,用户不使用数据 仓库来处理工资表、控制银行存款或者管理存货。 2 数据临时区 数据临时区又叫做数据中间存储区,是一种关系数据库。它将原始数据与数 据仓库中的数据隔离开来,以保证数据仓库的完整性,并允许它执行准备显示信 息和支持客户端访问的主要功能。数据临时区应该包含数据抽取、清洗、装载和 转换的过程。构建数据仓库的重要一环,就是从数据源中提取所需的数据,然后 将其转换成数据仓库的数据库结构和内部格式再经过清洗处理,最终按照预先定 义好的数据仓库模型,将数据加载到数据仓库中去。 3 元数据 元数据是关于数据仓库的数据,讲述的是源数据和数据仓库中的目标数据本 身的信息,其作用在于拥有中心信息仓库告知数据仓库中有什么、它们来自何处、 它们在谁的管辖之下以及其他更多的信息。也可以通过使用查询工具对元数据进 行访问而得知数据仓库中有什么、在哪里可以找到它、哪些人被授权可以访问它 i o 第二章数据仓库基本概述 以及已经预先求出的汇总数据有哪些。 4 数据仓库数据库 数据仓库数据库包含着粒度低的细节数据和粒度高的综合数据,同时还有反 映数据变化过程的历史数据。由于数据仓库不用于处理个别事务,所以在设计组 织它的数据库时没有必要考虑事务存储和检索模式( 使用若干的某个码,一次处 理一个记录) ,而是可以针对用于分析的完全不同的访问模式将数据仓库优化。 5 应用工具 数据仓库应用工具通常包括2 种:一种是用于向数据库提出问题的最终用户 接口,此接口位于称为联机分析处理( o l a p ) 的程序中,对分析需要的数据按照多 维数据模型进行再次重组,用以支持用户多角度、多层次的分析,发现数据趋势 :另一种是用以揭示数据模式的自动工具,通常被称为数据挖掘( d a t am i n i n g ) , 是从数据中析取有用的、先前未知和晟终可理解的知识的过程。特定的数据仓库 要具有这两种工具,至少也必须具备其中的一种。 6 管理工具 数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。包括对数 据仓库的数据管理和数据仓库的元数据管理。例如,m i c r o s o f t 公司的d a t a t r a n s f o r m a t i o ns e r v i c e s 、i b m 公司的d a t aw a r e h o u s ec e n t e r 和a s c e n t i a l d a t a s t a g e 都是很好的管理工具。 7 数据仓库的用户 数据仓库是为它的用户而存在的,没有了用户数据仓库也就没有任何用处了。 从数据仓库的最终用户来看,可以分成信息的使用者和知识的挖掘者两大类型。 信息的使用者是以一种可以预测的、重复的方式来使用数据仓库。信息的使 用者在使用数据仓库之前知道他们要了解什么,往往是每天都对数据仓库进行有 规则的数据访问,在访问过程中往往只访问很少的一部分数据,而且对于数据的 访问常常能够获得结果。他们对数据使用一些预先定义好的查询,执行一些简单 的处理。 知识的挖掘者对数据仓库的使用是不规则的,有时很长时间不使用数据仓库, 有时却连续地长期使用。他们在使用数据仓库过程中,常需要对数据仓库中的海 量数据进行挖掘。挖掘的目标可能是:在企业所面对的客户群中哪些是使企业盈 利的客户? 这些使企业盈利的客户一般具有哪些特征? 他们在采购过程中常常采 购哪些产品? 所采购的这些产品相互间具有什么关系? 知识挖掘者在进行知识的 挖掘过程中,常常一无所获,但是如果一次偶然的收获会使数据仓库的巨大投资 得到丰厚的回报。他们对数据很少进行预先定义的查询,而是提交一些复杂、动 态的查询,要求数据仓库进行一些复杂的数据处理。 华南理工大学硕士学位论文 2 5 数据仓库数据组织 为了更好的说明问题,我们首先介绍一下数据仓库中常见的数据组织形式。 以文件的方式来表述,可以分为以下四种文件的数据。 ( 1 )简单堆积文件。 将每日由操作型系统中提取并加工的数据逐天积累并存储起来。 ( 2 )轮转综合文件。 数据存储单位被分为日、周、月、年等几个级别。在一个星期的七天中,数 据被逐一记录在每日数据集中:然后七天的数据被综合并记录在周数据集中;接 下去的一个星期,日数据集重新被使用,以记录新数据。同理,周数据集达到五 个后,数据再一次被综合并记入月数据集。以此类推。轮转综合结构十分简捷, 数据量较简单堆积结构大大减少。当然,它是以损失数据细节为代价的,时间越 的数据,细节损失越多。 ( 3 )简化直接文件。 它类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一个 星期或一个月作一次。 ( 4 )历史数据文件。 通过两个连续的简化直接文件,可以生成另一种历史数据文件,它是通过比 较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直接文件也可 以生成新的历史数据文件。 当然,数据仓库中不可能是用文本文件的形式来保存数据的,最终还是需要 用关系型数据库的“表”的形式来实现数据的组织。按“表”的形式,数据组织 方式可分为虚拟存储方式、基于关系表的存储方式和多维数据库存储方式三种。 1 虚拟存储方式 虚拟存储方式上虚拟数据仓库的数据组织形式。它没有专门的数据仓库数 据存储,数据仓库中的数据仍然在源数据仓库中,只是根据用户的多维需求及形 成的多维视图,临时在源数据库中找出所需要的数据,完成多维分析。这种组织 方式比较简单、花费少、使用灵活。但同时它也存在一个致命的缺点,即只有当 源数据库的数据组织比较规范、没有数据不完备及冗余,同时又比较接近多维数 据模型时,虚拟数据仓库的多维语义层才容易定义。而一般数据库的组织关系都 比较复杂,数据库中的数据又存在许多冗余和冲突的地方,在实际中这种方式很 难建立起有效的决策服务数据支持。 2 基于关系表的存储方式 基于关系表的存储方式是将数据仓库的数据存储在关系型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论