




已阅读5页,还剩67页未读, 继续免费阅读
(计算机系统结构专业论文)基于国内银行数据仓库的etl构造方案研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 如今,随着越来越多的银行业务系统的出现,对于银行领域而言,这既是个 机会也是个挑战。因此能否对大量的业务信息快速地做出决策关系到银行的兴衰 成败。其实,大多数企业并不缺少决策数据,例如:联机交易的历史数据、研究 分析结果等等。问题的关键不在于数据的量,而在于数据的质:一致性、准确性、 时效性和复杂性。银行如果能够利用数据仓库技术,那么不但能够实现快速数据 查询,挖掘其传统系统中潜在的原来无法被直接利用的信息,同时也能使银行对 当今最为关注的业务领域进行分析,例如客户关系管理,市场促销管理等,促进 银行各项业务的发展。 利用数据仓库的数据e t l 技术,将与客户相关的数据集中起来,可以构造银 行数据仓库( e d w b a n k i n gd a t aw a r e h o u s e ) 的过程。但是,随着企业中数据量 不断增加,数据仓库的数据承受量就会越来越庞大。银行系统若完全采用单一的 数据仓库模型,性能将十分低下。因此,基于单一数据仓库的不足,以及银行数 据物理上分离的特点,可以采用分布式数据仓库来代替单一数据仓库的方法。 本文在分析了国内银行现状的基础上,结合e t l 技术的特点,提出了e t l 技 术构造数据仓库的基本构架。此构架应用于从银行的源系统到最终的目标数据仓 库系统整个过程。它通过相应的控制机制可以实现数据仓库的自动构造。并且提 出了在构造过程中处理阶段的划分方式和一些处理方法,以便当数据模型变动时, 避免大规模修改仓库的构造。 本文详细描述了e t l 构造数据仓库的步骤,以及相应的处理方法。并介绍了 分布式数据仓库比传统的单一数据仓库能更好的适应银行系统的应用。提出了分 布式技术结合e t l 技术的分布式e t l 技术。并且可以将本文中的数据仓库构造 方法应用于包括银行领域在内的其他相似领域中。 关键字:抽取,转化,导入,数据仓库,分布式系统 华南理工大学工学硕士学位论文 a b s t r a c t n o w a d a y s ,w i t ht h ea p p e a r a n c eo fv a r i o u sb a n k i n gb u s i n e s ss y s t e m s ,i ti s ab i g c h a n c ea n da l s oag r e a tc h a l l e n g ea sf o rb a n k i n gf i e l d t h e r e f o r ei t i sv i t a lf o rt h e f u t u r eo fb a n k st om a k ear a p i da n de f f i c i e n td e c i s i o na c c o r d i n gt ot h eg r e a ta m o u n t o fb u s i n e s si n f o r m a t i o n i nf a c t 、m a n yc o r p o r a t i o n sa r en o tl a c ko ft h ed a t as o u r c ef o r d e c i s i o ns u p p o r t f o re x a m p l e ,h i s t o r i c a ld a t ao fo n l i n et r a n s a c t i o n ,r e s u l t s o f a n a l y s i se t c s ot h ep r o b l e md o e sn o tl i ei nt h eq u a n t i t yo ft h ed a t ab u tt h eq u a l i t yo f t h ed a t a ,l i k ec o n s i s t e n c y ,v e r a c i t y ,c o m p l e x i t ye t c w i t hd a t aw a r e h o u s et e c h n o l o g y , ab a n kc a nn o to n l yr e a l i z et h ef a s td a t aq u e r ya n dm i n i n gt h et a l e n ti n f o r m a t i o n w h i c hc a nn o tb eu s e dd i r e c t l yi nt h es o u r c es y s t e m ,b u ta l s oa n a l y z et h ef o c u s e d b u s i n e s sf i e l d sf o rab a n k ,s u c ha sc l i e n tr e l a t i o n s h i pm a n a g e m e n t ,s a l e sp r o m o t i o n m a n a g e m e n te t c a l t o g e t h e ri tc a na c c e l e r a t em a n yk i n d so fb a n k i n gf i e l db u s i n e s s w i t he t lt e c h n o l o g ya n db r i n g i n gt h ed a t a r e l e v a n tt oc l i e n t st o g e t h e r ,t h e p r o c e s so fb u i l d i n gt h ed a t aw a r e h o u s ec a nb ef i n i s h e d b u tt h ep r o b l e mi s ,w i t ht h e l a r g e ra n dl a r g e rd a t ai nt h eb a n k i n gf i e l d ,t h ec a r r y i n g c a p a c i t yo ft h es y s t e m b e c o m e sm o r ep r e s s e d i fab a n kt a k e sas o l od a t aw a r e h o u s em o d e l ,i t sp e r f o r m a n c e w i l lb el o w e r o nt h eb a s eo ft h ed e f e c to ft h es o l o d a t aw a r e h o u s em o d e la n dt h e a d v a n t a g eo ft h ed i s t r i b u t e dd a t as o u r c ei nb a n k i n gs y s t e m ,t h ef o r m e rm o d e lc a nb e r e p l a c e db yt h ed i s t r i b u t e dd a t aw a r e h o u s em o d e l t h i sp a p e ra n a l y s e st h ee x i s t i n gd o m e s t i cb a n k i n gf i l e da n dt a k e sa d v a n t a g eo f t h ee t l t e c h n o l o g y ,a n dp r o v i d e sab a s i cf r a m e w o r ko fb u i l d i n gt h ed a t aw a r e h o u s e w i t he t lt e c h n o l o g y t h i sb u i l d i n gp r o c e s si st h r o u g ht h er o u t ew h i c hi sf r o ms o u r c e s y s t e m st ot h eo b j e e t - o r i e n t e dd a t aw a r e h o u s e t h i sp r o c e s sc a nr e a l i z et h ea u t o m a t i c b u i l d i n gd a t aw a r e h o u s ew i t hr e l e v a n ta u t o m a t i cm e c h a n i s m i ta l s oc o m e su pw i t h s o m es t a g e sw h i c ha r ed i v i d e df r o mt h ew h o l eb u i l d i n gp r o c e s sa n ds o m er e l e v a n t m e t h o d s ,s ot h em a s sm o d i f i c a t i o n sc a nb ea v o i d e dw h e nd a t am o d e li sc h a n g e d t h i sp a p e rd e s c r i b e ss p e c i f i cs t e p sa n dr e l e v a n tp r o c e s sm e t h o d so fb u i l d i n gt h e d a t aw a r e h o u s ew i t he t lt e c h n o l o g y i ta l s oi n t r o d u c e si t i s b e t t e rt ob u i l da d i s t r i b u t e dd a t aw a r e h o u s et h a nas o l od a t aw a r e h o u s ef o rt h eb a n k i n ga p p l i c a t i o n s i t a l s oc o m e su pw i t had i s t r i b u t e de t l t e c h n o l o g yw i t ht h ec o m b i n a t i o no fd i s t r i b u t i o n t e c h n o l o g ya n de t lt e c h n o l o g y t h i sp r o c e s so fb u i l d i n gd a t aw a r e h o u s ei nt h i s p a p e rc a nb ea p p l i e dt oo t h e rs i m i l a rf i e l d sb e s i d e sb a n k i n g k e y w o r d :e x t r a c t ,t r a n s f o r m a t i o n ,l o a d ,d a t aw a r e h o u s e ,d i s t r i b u t i n gs y s t e m 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律后果由本人承担。 作者签名:1 鼠忿日期:2 口d s 年6 月2 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上相应方框内打“”) 作者签名:) 司庀 导师签名:幽氐 日期:) - d 口f 年6 月2日 日期:噼g 月日 第一章绪论 1 1 背景 第一章绪论 九十年代时髦的商业用语是“利用技术来取得竞争优势”。人们不禁要问,这 句话的含义是什么? 银行行业为实现这一口号在做些什么 1 l ? 简单来说,取得竞 争优势意味着不仅有能力承受变化甚至驾驭变化,而且有能力趁着变化而兴旺发 达起来,能够在今天和明天更加瞬息万变的市场取得胜利。这意味着要利用新的 运行模型为客户提供前所未有的价值水准。这意味着把信息作为公司的资产,既 容易存取又容易共享,使最终用户和客户都得到好处。 银行客户越来越强烈地要求得到“随时随地”的服务,因此,信息的可用性、 可存取性是必须解决的重点。信息的压力还来自于银行内部,这是因为银行本身 需要有更好的信息以确实地支持它十分紧要的营销、服务和决策任务。 银行怎样才能满足对这种战略信息的根本需求昵? 要靠数据仓库。数据仓库 是银行业当前正在实施的一种主要的催化技术。简而言之,数据仓库使银行业能 够发挥许多新作用,因而变得更有竞争力,更接近客户。数据仓库并不是新概念, 它许多年来走过曲折的道路,断断续续地试验,结果是毁誉参半。之所以如此, 主要是因为它以前只是从运作的系统中复制数据,再装入另外的文件里,然后就 宣布可以进行存取( 所有这切都是在局限性很大、用户友好性很差的大型机环 境中进行的) 。 是什么东西给数据仓库注入了新生命? 是分布的开发式客户服务器结构。这 种结构的出现促使数据仓库成为关键的成功因数。开放系统的客户服务器环境的 美妙之处在于:它的连接性和互可操作性使银行可以开发新的、更灵活的系统以 满足最终用户的需要,同时又能与原有的传统系统连成一体。这对于数据仓库的 概念更新有着很大的意义。 这意味着可以在不破坏或不干扰银行的传统运作系统的情况下,在传统环境 的附近以更低的成本、更高的效率建立数据仓库。这意味着银行可以利用它们现 有的技术来执行运作任务,同时又实旌诸如数据仓库之类的催化技术来更好、更 快地为客户服务。另外,由于数据仓库的一个主要优点是它的灵活性和可扩展性, 这就意味着银行可以在需要时再增加服务器,因而避免了在系统能力上做出大量 的超前投资而实际上目前还无此必要。 华南理工大学工学硕士学位论文 数据仓库这一技术如何帮助银行取得梦寐以求的竞争优势呢? 什么是数据仓 库呢? “数据仓库之父”w h i n m o n 在“记录系统”、“原子数据”和“决策支持 系统”等专题报告中,提出了数据仓库或信息仓库的概念,并在其著作b u i l d i n g t h ed a t aw a r e h o u s e ) ) 中给出了数据仓库的定义 2 , 2 1 , 2 2 1 :数据仓库是支持管理决策 过程的、面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e d ) 、随时间而变的 ( t i m e v a r i a n t ) 、持久的( n o n v o l a t i l e ) 数据集合。w a y n ew e c k e r s o n 的定义【2 3 l 是:数据仓库是一个专门的数据存储地,它包括了从各种操作系统得到的大量有 价值的数据,操作数据依据商业目的而转变为一致的形式,通常这些数据按聚合 公式或商业规则总结起来。v i e i k is a u t e r 的定义【2 4 】:数据仓库是与操作系统相分 离的数据管理系统,它是面向对象的、时变的、集成的、稳定的。数据仓库公司 r e db r i c ks y s t e m 的定义1 2 副是:数据仓库是特别为信息检索而设计的关系数据库 管理系统。 从概念上说,数据仓库是基础十分广泛的一种能力,实质上是把运作数据转 换成商业信息,帮助银行解决许多不同的复杂商业难题。从技术上说,数据仓库 是企业内部单位的运作数据和事务数据的中央仓库,这些数据经过了归一,平衡, 协调和编辑。它是为最终用户进行分析处理而专门设计的,使最终用户可以针对 任何一个经营单位或整个企业、用任何一个需要的参数去存取市场数据以及客户、 产品或事务的信息。这种能力明显地有别于以前的其它方法。那些方法实际上是 把客户数据锁在一直被叫做“数据监狱”的数据库里。数据库已演变成分散的、 独立的子系统,没有能力从统一的角度提供客户的有关信息,或指出哪些服务和 产品与所有客户的关系最密切。 数据仓库有能力对整个企业各部门送来的各种信息进行统一和综合,这实际 上是决策支持和客户管理的一次革新1 2 】。银行可以用它来取得各个重要方面的数 据与分析结果,例如利润、市场分析和风险管理等,进而改善银行的自身管理。 举例来说,数据仓库用户可以立即得到其单位当前所处地位的准确报告;了解其 公司面临的风险,包括各项事务到整个银行所有业务面临的风险;并对市场和法 规条例的需要迅速做出反应。 此外,数据仓库对于客户管理和营销还有许许多多的好处。由于银行能够看 到所有帐户和每个人的信息,因而银行终于有能力真正了解到客户并更好地向他 们提供服务。另外,之所以要把涉及每件事情的大量信息都集中到数据库,总的 想法是要在客户的各个生活阶段中知道该客户能使银行前进到哪里,并提供所谓 的“预期服务”。 换句话说,银行将能够在客户还未认识到他的某种需要之前就预测到他的需 要。比方说,银行将知道客户的汽车已用了4 年,所以将建议向他提供一笔汽车 贷款,帮助他更快地买到新车;银行将知道新生儿出世的信息,并向家庭建议一 2 第一章绪论 个更高层次的教育计划。了解到的客户信息越多,银行就越能够更好地预测下一 个潜在的业务,并通过交叉推销来提供更多的服务。这种信息不是来自于运作中 的客户信息文件:只有客户机一服务器数据仓库环境( 它也包含其他的外界信息 如市场统计信息) 才能提供这种信息。 对于数据仓库常发生的一个重大误解是把它看作是一个静止不变的产品,而 没有把它看作是一个动态的、不停变化的过程一这个过程为全企业的管理系统奠 定信息基础。该系统可用来测算利润,管理和分析风险,进行市场分析,帮助规 划和加强客户服务计划和市场推进计划。与现买现装的产品不同,成功的数据仓 库实际上是一个过程,它要求银行仔细分析它的基本原则、决定需要哪些运作数 据和外部数据源,然后利用一种严密的方法把所有的数据集中起来,再变换成“有 用的信息”。 数据仓库过程一旦开始实旌,就没有终结的时候。它的可用性和中肯性在极 大程度上来自于其信息的新鲜性。因此,银行必须不断对它进行更新,注入新的 统计信息和新的事务档案。 当各家银行独自思考如何才能更有竞争力时一一如何更好、更快地把产品推 入市场? 如何更好地为客户服务? 如何更好地揽到客户? 一一越来越多的银行选 择数据仓库作为答案。数据仓库是测算利润、管理和分析风险、进行市场分析以 及加强客户服务与营销活动等的催化技术;它在支持和管理突飞猛进的商业变化 以及在保持这种竞争优势方面已日益扮演着举足轻重的角色。 然而,虽然随着国内越来越多的领域对数据仓库的不断关注,并且也取得了 相当的成果,但毕竟我国对数据仓库的研究还比较晚,对其掌握也不是很成熟, 从数据仓库目前的实际应用来看,还远远未能达到人们的要求。首先,由于数据 仓库的构造工作主要是面向工程的,于是国内包括银行在内的领域基本上都是按 照国外一些公司的构造模式来进行,但是由于国内这些领域的现状与国外是有很 大差别的,于是在构造过程中就会发生多次的返工来寻求一条真正可行的构造方 案,这样就大大降低了数据仓库的构造效率;其次,对于数据仓库的数据源系统 由于操作需要而经常发生的变化,以及支持决策系统由于需求分析的变化而产生 的目标模型的改变,缺乏一种比较稳定的构造数据仓库的方案;再次,对于不断 增加的源数据量,在对决策分析提供了更加丰富的数据资源的同时,也对数据仓 库的数据承载能力要求越来越高。因此,是否能提出一个比较稳定的、适合国内 相关领域现状且适应于日益增加的源数据量的数据仓库构造方案,将成为数据仓 库能否在国内领域,特别是国内银行领域中有效利用的关键。 华南理工大学1 二学硕士学位论文 1 2 数据仓库技术与发展现状 1 2 1 数据仓库的产生与发展 计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了。最初的 数据管理形式主要是文件系统,少量的以数据片段之间增加一些关联和语义而构 成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式 是固定的、死板的。到了1 9 6 9 年,e f c o d d 博士发表了他著名的关系数据模型 的论文。此后,关系数据库的出现开创了数据管理的一个新时代。 二十多年来,大量新技术、新思路涌现出来并被用于关系数据库系统的开发 和实现:客户服务器体系结构、存储过程、多线索并发内核、异步i o 、代价优 化,等等,这一切足以使得关系数据库系统的处理能力毫不逊色于传统封闭的数 据库系统。而关系数据库在访问逻辑和应用上所带来的好处则远远不止这些,s q l 的使用已成为一个不可阻挡的潮流,加上近些年来计算机硬件的处理能力呈数量 级的递增,关系数据库最终成为联机事务处理系统的主宰。整个8 0 年代直到9 0 年代初,联机事务处理一直是数据库应用的主流。然而,应用在不断地进步。当 联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处 理系统已经不是以获得市场竞争的优势,他们需要对其自身业务的运作以及整个 市场相关行业的态势进行分析,而做出有利的决策。这种决策需要对大量的业务 数据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争环境下, 这种基于业务数据的决策分析,我们把它称之为联机分析处理,比以往任何时候 都显得更为重要。如果说传统联机事务处理强调的是更新数据库,即向数据库中 添加信息,那么联机分析处理就是从数据库中获取信息、利用信息 3 1 。因此,著 名的数据仓库专家r a l p hk i m b a l l 写道:“我 f 】花了二十多年的时阊将数据放入数 据库,如今是该将它们拿出来的时候了。” 事实上,将大量的业务数据应用于分析和统计原本是一个非常籁单和自然的 想法。但在实际的操作中,人们却发现要获得有用的信息并非如想像的那么容易: 第一,所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并 不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同f 4 1 ,同一 个数据库在理论上都难以做到两全:第二,业务数据往往被存放于分散的异构环 境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设; 第三,业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适 合非计算机专业人员进行业务上的分析和统计。因此有人感叹:2 0 年前查询不到 第一章绪论 数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题, 人们设想专门为业务的统计分析建立一个数据中心,它的数据从联机的事务处理 系统中来、从异构的外部数据源来、从脱机的历史业务数据中来。这个数据中心 是一个联机的系统,它是专门为分析统计和决策支持应用服务的通过它可满足 决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。这个概 念在9 0 年代初被提出来,如果需要给数据仓库一个定义的话,那么数据仓库就是 一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要 研究和解决的问题就是从数据库中获取信息的问题。 那么数据仓库与数据库( 主要指关系数据库) 又是什么关系呢【5 】? 回想当初, 人们固守封闭式系统是出于对事务处理的偏爱,人们选择关系数据库是为了方便 地获得信息。我们只要翻开c j d a t e 博士的经典之作a ni n t r o d u c t i o nt od a t a b a s e s y s t e m s ) ) 便会发现:今天数据仓库所要提供的正是当年关系数据库所要倡导的。 然而,“成也萧何,败也萧何”,由于关系数据库系统在联机事务处理应用中获得 的巨大成功,使得人们已不知不觉地将它划归事务处理的范畴;过多地关注于事 务处理能力的提高,使得关系数据库在面对联机分析应用时又显得“老革命遇到 新问题”,即今天的数据仓库对关系数据库的联机分析能力提出了更高的要求,采 用普通关系型数据库作为数据仓库在功能和性能上都是不够的。它们必须有专门 的改进。因此,数据仓库与数据库的区别不仅仅表现在应用的方法和目的方面, 同时也涉及到产品和配置上的不同。 以辨证的眼光来看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋 式的上升。今天的数据库就好比当年的层次数据库和网型数据库,它们面向事务 处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。所不同的 是,今天的数据仓库不必再为联机事务处理的特性而无谓奔忙,由于技术的专业 化,它可更专心于联机分析领域的发展和探索。 从厂商的角度看,经过长期发展,联机事务处理系统的市场至9 0 年代中期出 现饱和迹象,其增长速度明显减慢。这导致各大数据库厂商的传统业务增长面临 严峻挑战,寻求新的业务增长点成为他们的当务之急。数据仓库的兴起无疑为数 据库产品创造了巨大的市场,它将成为本世纪末到下世纪初数据库市场的一个新 的增长点。因此,数据仓库的概念一开始便伴随着浓烈的市场炒作。对于广大用 户来说,只有从自身应用需求出发,破除技术和概念的神秘性,避虚就实,密切 关注技术发展的方向,方可获得满意的产品、解决方案和经济效益。 数据仓库的概念一经出现,就首先被应用于金融、电信、保险等主要传统数 据处理密集型行业。国外许多大型的数据仓库在1 9 9 6 1 9 9 7 年建立。那么,什么 样的行业最需要和可能建立数据仓库呢? 有两个基本条件:第一,该行业有较为 成熟的联机事务处理系统,它为数据仓库提供客观条件;第二,该行业面临市场 华南理工大学工学硕士学位论文 竞争的压力,它为数据仓库的建立提供外在的动力。 1 2 2 数据仓库的关键技术 那么,数据仓库都有哪些组成部分和关键技术呢【6 j ? 与关系数据库不同,数据 仓库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性, 因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、数据的表 现以及数据仓库设计的技术咨询四个方面。在此,将分别讨论每一个环节垆j 。 1 数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境, 它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储 介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调 度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的 同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、 成败对数据仓库中信息的有效性则至关重要。 在技术发展上,数据抽取所涉及的单个技术环节都已相对成熟,其中有一些 是躲不开编程的,但整体的集成度还很不够。目前市面上所提供的大多是数据抽 取工具。这些工具通过用户选定源数据和目标数据的对应关系,会自动生成数据 抽取的代码。但抽取工具支持的数据种类是有限的;同时数据抽取过程涉及数据 的转换,它是一个与实际应用密切相关的部分,其复杂性使得不可嵌入用户编程 的抽取工具往往不能满足要求。因此,实际的数据仓库实施过程中往往不一定使 用抽取工具。整个抽取过程能否因工具的使用而纳入有效的管理、调度和维护则 更为重要。从市场发展来看,以数据抽取、异构互连产品为主项的数据仓库厂商 一般都很有可能被其他拥有数据库产品的公司吞并。在数据仓库的世界里,它们 只能成为辅助的角色。 2 管理和存储 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了 它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用 什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。 数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据 量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只 有关系数据库系统能够担当此任。关系数据库经过近3 0 年的发展,在数据存储和 管理方面已经非常成熟,非其他数据管理系统可比。目前不少关系数据库系统己 支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一 步增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个g b 甚至到 6 第一章绪论 t b 的数据已是一件平常的事情。一些厂商还专门考虑大数据量的系统备份问题, 好在数据仓库对联机备份的要求并不高。 数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用 户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用户的请 求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用户访问系统 的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高。 此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务,将 该请求并行处理。因此,并行处理技术在数据仓库中比以往更加重要。大家可以 注意一下,在针对数据仓库的t p c d 基准测试中,比以往增加了一个单用户环境 的测试,称为“系统功力”。系统的并行处理能力对“系统功力”的值有重要影响。 目前,关系数据库系统在并行处理方面已能做到对查询语句的分解并行、基于数 据分割的并行、以及支持跨平台多处理机的群集环境和m p p 环境,能够支持多达 上百个处理机的硬件系统并保持性能的扩展能力。 数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对关系 数据库而言,因为其他数据管理环境连基本的通用查询能力还不完善。在技术上, 针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据 排序和采样等诸多部分。普通关系数据库采用b 树类的索弓i ,对于性别、年龄、 地区等具有大量重复值的字段几乎没有效果。而扩充的关系数据库则引入了位图 索引的机制,以二迸制位表示字段的状态,将查询过程变为筛选过程,单个计算 机的基本操作便可筛选多条记录。由于数据仓库中各数据表的数据量往往极不均 匀,普通查询优化器所得出的最佳查询路径可能不是最优的。因此,面向决策支 持的关系数据库在查询优化器上也做了改进,同时根据索引的使用特性增加了多 重索引扫描的能力。以关系数据库建立的数据仓库在应用时会遇到大量的表间连 接操作,而连接操作对于关系数据库来说是一件耗时的事儿。扩充的关系库中对 连接操作可以做预先的定义,我们称之为连接索引,使得数据库在执行查询时可 直接获取数据而不必实施具体的连接操作。数据仓库的查询常常只需要数据库中 的部分记录,如最大的前5 0 家客户,等等。普通关系数据库没有提供这样的查询 能力,只好将整个表的记录进行排序,从而耗费了大量的时间。决策支持的关系 数据库在此做了改进,提供了这一功能。此外,数据仓库的查询并不需要像事务 处理系统那样精确,但在大容量数据环境中需要有足够短的系统相应时间。因此, 一些数据库系统增加了采样数据的查询能力,在精确度允许的范围内,大幅度提 高系统查询效率。总之,将普通关系数据库改造成适合担当数据仓库的服务器有 许多工作可以做,它已成为关系数据库技术的一个重要研究课题和发展方向。可 见,对于决策支持的扩充是传统关系数据库进入数据仓库市场的重要技术措施。 数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据库在数 华南理工大学工学硕士学位论文 据仓库领域遇到的最严峻的挑战之一。用户在使用数据仓库时的访问方式与传统 关系数据库有很大的不同。对于数据仓库的访问往往不是简单的表和记录的查询, 而是基于用户业务的分析模式,即联机分析。它的特点是将数据想像成多维的立 方体,用户的查询便相当于在其中的部分维( 棱) 上施加条件,对立方体进行切 片、分割,得到的结果则是数值的矩阵或向量,并将其制成图表或输入数理统计 的算法。 关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库发展的 早期,人们发现采用关系数据库去实现这种多维查询模式非常低效、查询处理的 过程也难以自动化。为此,人们提出了多维数据库的概念。多维数据库是一种以 多维数据存储形式来组织数据的数据管理系统,它不是关系型数据库,在使用时 需要将数据从关系数据库中转载到多维数据库中方可访问。采用多维数据库实现 的联机分析应用我们称之为m o l a p ( m u l t i d i m e n s i o n a lo n l i n ea n a l y t i c a l p r o c e s s i n g ) 瞪】。m o l a p 是一类软件技术,它使分柝人员、经理、管理人员通过 对信息( 维数据) 的多种可能的观察形式进行快速、稳定一致和交互式的存取, 以便管理决策人员对数据进行深入观察 3 1 , 3 2 。多维数据库在针对,j 、型的多维分析 应用有较好的效果,但它缺少蓑系数据库所拥有的并行处理及大规模数据管理扩 展性,因此难以承担大型数据仓库应用。这样的状态直到“星型模式”在关系数 据库设计中得到广泛应用才彻底改变。几年前,数据仓库专家们发现,关系数据 库若采用“星型模式”来组织数据就能很好地解决多维分析的问题。“星型模式” 只不过是数据库设计中数据表之间的一种关联形式,它的巧妙之处在于能够找到 一个固定的算法。将用户的多维查询请求转换成针对该数据模式的标准s q l 语 句,而且该语句是最优化的。“星型模式”的应用为关系数据库在数据仓库领域大 开绿灯。采用关系数据库实现的联机分析应用称为r o l a p ( r e l a t i o n a lo n l i n e a n a l y t i c a lp r o c e s s i n g ) s l 。目前,大多数厂商提供的数据仓库解决方案都采用 r o l a p 。 在数据仓库的数据存储管理领域,从当今的技术发展来看,面向决策支持扩 充的并行关系数据库将是数据仓库的核心。在市场上数据库厂商将成为数据仓 库的中坚力量。 3 数据的表现 数据表现是数据仓库的门面。这是一个工具厂商的天下。它们主要集中在多 维分析、数理统计和数据挖掘方面。 多维分析是数据仓库的重要表现形式,由于m o l a p 系统是专用的,因此, 关于多维分析领域的工具和产品大多是r o l a p 工具。这些产品近两年来更加注 重提供基于w e b 的前端联机分析界面,而不仅仅是两上数据的发布。 数理统计原本与数据仓库没有直接的联系,但在实际的应用中,客户需要通 第一章绪论 过对数据的统计来验证他们对某些事物的假设,以进行决策。与数理统计相似, 数据挖掘与数据仓库也没有直接联系。而且这个概念在现实中有些含混。数据挖 掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现蕴 藏在数据之中的规律。这听起来虽然很吸引人,但在实现上却有很大的出入。市 场上许多数据挖掘工具其实不过是数理统计的应用。它们并不是真正寻找出数据 的规律,而是验证尽可能多的假设,其中包括许多毫无意义的组合,最后由人来 判断其合理性。因此,在当前的数据仓库应用中,有效地利用数理统计就已经能 够获得可观的效益。 4 数据仓库设计的技术咨询 在数据仓库的实施过程中,有一些更为基本的问题需要解答。它们包括:数 据仓库提供哪些部门使用? 不同的部门怎样发挥数据仓库的决策效益? 数据仓库 需要存放哪些数据? 这些数据以什么样的结构存放? 数据从哪里装载? 装载的频 率多少为合适? 需要购置哪些数据管理的产品和工具来建立数据仓库? 等等。这 些问题依赖于特定的数据仓库系统,属于技术咨询的范畴。 事实上,数据仓库绝不是简单的产品堆砌,它是综合性的解决方案和系统工 程。在数据仓库的实施过程中,技术咨询服务至关重要,是一个不可缺少的部分, 它甚至比购买产品更为重要。目前,数据仓库的技术咨询主要来自数据仓库软件 产品的供应商和独立的针对数据仓库技术的咨询公司。 1 2 3 数据仓库技术的现状 在我国,数据仓库市场启动比较晚,主要由于当时我国的应用基础尚不完善 和企业意识不足。但随着我国信息化建设的逐渐完善和应用意识的提高,许多行 业如电信、金融、税务等逐步认识到数据仓库技术对于企业宏观发展所带来的巨 大经济效益,纷纷建立起数据仓库系统。据c a r n t e r g r o u p 的一份数据仓库市场占 有率的报告显示,到2 0 0 3 年止,美国的数据仓库销售额占世界的5 8 ,亚湖只 占7 5 1 2 “。从中不难看出我们的差距。和国外相比,国内的数据仓库市场还不 成熟,主要的原因有以下几个方面:首先,建设数据仓库的前提是要有大量的数 据,特别是历史数据。近几年来我国数据库建设有了长足的发展,但与国外的发 展程度相比仍相差2 0 年时间。目前国外数据库己是海量,而国内除了银行、电信 等少数行业以外,数据积累都不够充分,数据库的规模也不大,并且有的数据库 建完以后常常因为没有资金维护而变成了“死库”。其次,数据仓库应用主要是一 个建立的过程,实践性非常强,而从国内的情况来看,真正能够完整实施数据仓 库方案的人才严重缺乏,因此制约了国内数据仓库市场的发展。第三,目前数据 仓库工具没有国产的,而由于东西方技术文化的差异,造成数据表现不符合国内 9 华南理工大学1 _ = 学硕+ 学位论文 客户要求,导致必须重新制定开发方案,从而延长了建设周期。同时数据仓库产 品价格居高不下的原因也影响了其在国内的推广。 另外,由于数据仓库技术体系的不成熟,无论在中国还是在世界其他国家, 数据仓库的应用都收到了一定的制约。首先,数据仓库技术还没有达到数据库技 术的成熟度和易用性,目前市场上的数据仓库产品都是基于一个通用的技术平台 设计的,虽然解决了不同用户的分析需求,但没有将特殊领域的商业逻辑与数据 仓库技术集成,因而分析效果不可能达到峰值。其次,数据仓库的应用有两大类, 一类是做分析型工作的o l a p ,另一类是做预测型工作的数据挖掘。目前基于数 据挖掘的算法层出不穷,还没有经历一个大浪淘沙的沉淀,而数据库中的检索技 术经过人们多年的摸索,己经形成几种固定成熟的技术模式,这是数据仓库产品 没有达到数据库产品实用性的另一个原因。所以目前数据仓库技术的发展仍处于 积累阶段。 1 2 4 数据仓库的未来发展方向 数据仓库是数据管理技术和市场上个方兴未艾的领域,有着良好的发展前 景。在此,我们将从技术、应用、市场等几个方面探讨数据仓库的未来发展 2 7 , 2 8 - 2 9 ,3 0 。 数据仓库技术的发展自然包括数据抽取、存储管理、数据表现和方法论等方 面。在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转 换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可 能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库 厂商明确推出数据仓库引擎,作为服务器产品与数据库服务器并驾齐驱。在这一 方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面, 数理统计的算法和功能将普遍集成到联机分析产品中,同时与i n t e r n e t w e b 技术 紧密结合,推出适用于i n t r a n e t 、终端免维护的数据仓库访问前端。在这个方面, 按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案 的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明 确分支,成为管理信息系统设计的必备。 计算机应用发展的数据仓库倾向是数据仓库发展的推动力。传统的联机事务 处理系统并不单独考虑数据仓库,但实际应用对数据仓库所能提供的功能却早有 需求。因此,许多事务处理系统近年来陷入一个两难的境地:在现有系统上增加 有限的联机分析功能,包括复杂的报表和数据汇总操作;一方面严重影响了事务 处理联机性能,另一方面统计分析又因系统结构上的种种限制而不能充分体现。 其结果是:应用技术的发展是朝着更加细化,更加专业的方向。在新一代的应用 1 0 第一章绪论 系统中,数据仓库在一开始便被纳入系统设计的考虑,联机分析应用于普遍的事 务处理系统之中。在数据管理上,联机事务处理和数据仓库在应用中相对独立, 使联视事务处理系统本身更加简洁高效,同时分析统计也更为便并i j 。面向行业的 数理统计学向更为普遍的应用发展,并集成到应用系统的数据仓库解决方案中。 它们将立足于数据仓库提供的丰富信息,更好地为业务决策服务。 在市场上,这里从厂商和用户两个方面看数据仓库的发展。对于提供数据仓 库产品和解决方案的厂商来说,严酷的市场竞争是永恒的主题。未来的发展将是 不提供完整解决方案的厂商可能被其他公司收购,例如从事数据抽取、提供专用 工具的软件公司很可能并入大型数据库厂商以提出完整的解决方案。能够持续发 展的厂商大致有两类:一是拥有强大的数据库、数据管理背景的公司;二是专门 提供面向具体行业的、关于数据仓库实施的技术咨询的公司。 从用户的角度看,数据管理的传统领域,如金融、保险、电信等行业中的特 定应用,如信用分析、风险分析、欺诈检测等,是数据仓库的主要市场之外,数 据仓库的应用随着现代社会商业模式的变革而进一步普及和深入。近年来,一场 悄悄的革命正在改变产品制造和提供服务的方式,它就是数字化定制经济模式。 在这个世界里,用户可以购买一台根据自己要求组装的计算机、一条根据自己体 形设计的牛仔裤、一种根据自己身体需要而生产的保健药、一副与自己脸型相配 的眼镜,大规模的定制不仅是一种制造过程、后勤系统、或者推销策略,它很可 能成为下一世纪企业生产的组织原则,就像成批生产是本世纪的组织原则一样。 在未来大规模定制经济环境下,数据仓库将成为企业获得竞争优势的关键武器。 总之,数据仓库是一项基于数据管理和利用的综合性技术和解决方案,它将 成为数据库市场的新一轮增长点,同时也成为下一代应用系统的重要组成部分。 数据仓库对于广大计算机用户,包括中国用户,并不遥远;它看得见、摸得着、 买得到。数据仓库技术其实也不神秘至少比绝大多数统计学定理来得简单。相 信大家必能在数据仓库的实施和使用中获得满意的效果。 1 3 课题的研究内容 数据仓库技术是现今计算机领域的一个研究热点,比较基本的、主要的研究 内容包括以下几个方面:数据仓库的基本原理;构造数据仓库的e t l 技术介绍; 数据仓库构造的实际
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自考专业(公共关系)考试历年机考真题集含完整答案详解(夺冠)
- 自考专业(金融)模拟试题带答案详解(考试直接用)
- 环保公司数据备份管理规章
- 自考专业(国贸)通关考试题库含答案详解(综合卷)
- 自考专业(计算机应用)高分题库(历年真题)附答案详解
- 潜在客户拓展营销活动方案
- 中考数学总复习《 圆》考前冲刺练习试题有答案详解
- 农场肉羊养殖建设项目可行性研究报告
- 重难点解析冀教版8年级下册期末测试卷含答案详解【A卷】
- 自考公共课检测卷及参考答案详解(达标题)
- 2025年山东省菏泽市中考英语真题(无答案)
- 2025劳动合同书示范文本下载
- 急性阑尾炎病人护理课件
- 水利水电工程单元工程施工质量验收标准第8部分:安全监测工程
- 2026年高考政治一轮复习:高考政治主观题背诵提纲汇编
- 骨科手术切口感染的预防与控制
- 电商数据分析报告顾问合同
- 电子信息类专业导论(第3版)课件全套 张有光 00 课程简介 - 12 中国大学教育:理念与实践
- 馕小屋管理办法
- (2025)全国辅警考试题库及答案
- 钢结构设计质量保证体系及措施
评论
0/150
提交评论