(计算机科学与技术专业论文)下一代数据仓库模型data+vault的研究及其应用.pdf_第1页
(计算机科学与技术专业论文)下一代数据仓库模型data+vault的研究及其应用.pdf_第2页
(计算机科学与技术专业论文)下一代数据仓库模型data+vault的研究及其应用.pdf_第3页
(计算机科学与技术专业论文)下一代数据仓库模型data+vault的研究及其应用.pdf_第4页
(计算机科学与技术专业论文)下一代数据仓库模型data+vault的研究及其应用.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机科学与技术专业论文)下一代数据仓库模型data+vault的研究及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

下一代数据仓库模型d a t av a u l t 的研究及其应用 摘要 现在,数据仓库技术已经同益成熟并在各个行、l k 得到了广泛的应用。各电信 公司、金融机构、政府机构和企业都i e 在或者着手建立自己的数据仓库,并在其 基础卜建立各种应用,进行决策支持等分析操作,从而更好地为机构的管理和决 策服务。 作为一种解决方案,数据仓库还是以传统的关系数据库系统作为存储数据和 管理资源的基本手段。数据仓库的模型技术刑于数据仓库的实施有着至关重要的 作用。 数据仓库模型技术发腱年今,历经了传统的第三范式( 3 n f ) 关系模型、星型 模型、雪花模型等。进入卜个世纪9 0 年代,一种新的数据仓库模型d a t av a u t 被提了出来。d a l av a u il 模型被普遍地认为是下一代数据仓库模型的典范。 本文首先介绍了常用的数据仓库模型技术星犁模型,并分析了3 n f 在星 型模型中的作用。然后,介绍了本文主要研究的数据仓库模型由d a nl i n s t e d t 提出的卜一代数据仓库模犁d a t av a u l t ,并详细描述了d a t av a u t 模型的定义、 构成、作用。 详细介绍并讨论了d a t av a u l l 模型技术的概念后,结合d a nl i n s t e d t 的论 述与银行 f 现场稽核系统项目的实施,本文总结了构建d a t av a u l t 模型的力法 与参考原则,并将这些方法和原则运用j :银行非现场稽核风险指标系统。 作为一种新型的数据模型技术,应该能够跟已有的模型兼容转化。为此,本 文详细地研究并提出了操作型的3 n f 模型弓分析型的星型模型向d a t av a u t 模 型的转化方法,并将该转换方法运用于银行非现场稽核个人信贷系统。 在实际项目i 运用d a t av a u t 模型取得了很好的效果。水文的最后,总结 rd a t av a u l t 模型的研究与应用,并作了进一步t 作的展望。 关键词:星型模型3 n fd a t av a u l th u bl i n ks a t e l l i t e n e x te v o l u t i o ni nd a t am o d e l i n g o fd 钥r a w a r e h o u s i n g d a t a v a u l t r e s e a r c ha n da p p l i c a t i o n a b s t r a c t a tp r e s e n t ,d a t aw a r e h o u s i n gt e c h n i q u eh a sb e e nu s i n gi n a l lk i n d so ff i e l d e v e r y t e l e c o m m u n i c a t i o nc o r p o r a t i o n ,f i n a n c i a lo r g a n i z a t i o n ,g o v e r n m e n to f f i c ea n ds o m e o t h e rc o r p o r a t i o n sh a v eb e e nb u i l d i n gt h e i ro w nd a t aw a r e h o u s et os u p p o r td s sa n d o t h e ra n a l y t i c a lp r o c e s s i n gi no r d e rt oa s s i s ta d m i n i s t r a t i o nm o r ee f f i c i e n t l y a sas o l u t i o n d a t aw a r e h o u s i n gs t i l lu s e sd b m st oc a r r yo u td a t as t o r a g ea n d r e s o u r c em a n a g e m e n t 、d a t am o d e lt e c h n o l o g yi sv e r yi m p o r t a n tt od a t aw a r e h o u s i n g b yn o w , t h e r eh a v e b e e n3 n f , s t a rs c h e m aa st h ed a t am o d e l i n gt e c h n o l o g y i nt h e 19 9 0 s an e wc e n c e p ta b o u td a t aw a r e h o u s i n gm o d e l i n gn a m e dd a t av a u l tw a s i n t r o d u c e d t h ed a t av 【l u l ti st h en e x te v o l u t i o ni nd a t am o d e l i n g t h i st h e s i sb e g i n sw i t ht h ed a t aw a r e h o u s i n gm o d e l i n gt e c h n i q u ei nc o t m n o m b s e ,s u c h a ss t a r s c h e m a ,3 n fe t c t h e n ,a n o t h e rd a t aw a r e h o u s i n gm o d e l i n g t e c h n i q u e ,t h a ti s ,d a t av a u l to r i g i n a t e da n dc l a i m e db yd a nl i n s t e d t ,i si n t r o d u c t e da n d i t sd e f i n i t i o n s t m c t u r ea r ed e s c r i p t e dt o o a t i e ri n t r o d u c t i n gt h ec o n c e p ta b o u td a t av a u l ti nd e t a i l w i t ht h ep r e s e n t a t i o no f d a nl i n s t e d t - is u m m a r i z et h em e t h o do fc o n s t r u c t i n gd a t av a u l ta n ds o m er e f e r e n c e r u l e sf o rd a t av a u l t t h e s em e t h o d sa n dr u l e sd oa l s oc o m ef r o f f ls o m eb a n k i n g c o r p o r a t i o no f ff i e l da u d i t i n gs y s t e mw h i c hp r o j e c tih a de x p e r i e n c e df o ro v e ro ne y e a n a sf a ra san e wm o d e l i n gt e c h n o l o g yi sc o n c e r n e d ,d a t av a u l ts h o u l d b e t r a n s f o r m e df r o mo t h e re x i s t i n gd a t aw a r e h o u s i n gm o d e l s oih a v ee x p l o r e dt h e t r a n s f o r m a t i o nf r o m3 n fo rs t a rs c h e m at od a t av j u l ta n dp r e s e n t e ds o m em e t h o d s a n dk e yi s s u e sa b o u ti to fc o u r s e a 1 1t h e s en l e t h o d sh a v e b e e ni m p l e m e n t e di ns o m e b a n k i n gc o r p o r a t i o no f ff i e l da u d i t i n gs y s t e r n i nt h ee n do ft h et h e s i s t h e r ea r en o to n l ys o m ec o n c l u s i o n sa st od a t av a u l t m o d e l i n gt e c h n i q u eb u ta l s os o m ep r o s p a c ea b o u tt h et e c h n i q u e k e yw o r d s :s t a rs c h e m a3 n fd a t av a u l th u bl i n ks a t e l l i t e 独创性( 或创新性) 声明 本人声明所争交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,沦丈中1 i 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或汪书而使片j 过的利料。与我一司下作的同志对本研究所做的任 何贡献均已在论文q j 作了明确的说明并表示了谢意。 中请学位论文与资料善有不实之 本人签名:主泌 处,本人承担一切相关责任。 日期:塑! 茎- f 关于论文使用授权的说明 学位论文作者完全了解北京邮 乜大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 尉斤向国家- h 关部门或机构送交论文的复e 1 ,1 - t :和磁盘,允许学位论文被查阅秆j 借 阅;学校可以公布学位论文的全部或部分内容,可以允r :采用影印、缩印或其它 复伟手段保存、汇编学位论文。( 保密的学位论文在解密后遵i r 此规定) 北京邮电大学硕f :学位沦立f 一代数据仓库模型d a t av a u l t 的研究及j t :l , 、z 用 1 1 研究背景 第一章前言 近年来,国内外信息技术领域巾悄然兴起并日益成熟的数据仓库技术在各个 行业得到了广泛的应用,比如银行、 u 信等企、i k ,鄙在建立数摒仓库束作为企、i p 的决策分析支撑系统( d s s ) 。 数据仓库是种解决方案,而不是现成的产品。数据仓库还是以传统的灭系 数据库模型作为存储数据承i 管理资源的基本建模手段。 数据仓库模型技术发展至今,历经了传统的第三范式( 3 n f ) 关系模型、晕型 模型、雪花模型等。进入f :个 ! 纪9 0 年代,由丁 第曼范式模型、星型模型的扩 展性、业务适应性的方面问题逐渐暴露, 种新的数据仓库模型d a t av a u l t 被提了出来。d a t av a u l t 模型被普遍地认为是下一代数据仓库模型的典范。 d a t av a u l t 综合了第三范式模型数据规范化和星型模型主题集中化二者的 优点,摒弃了前两者模型中动态管理、业务适应、多主题、性能等方面的缺陷, 从而成为下代企业数据仓库架构的主要模型。 1 2 国内外研究情况和面临的挑战 d a t av a u lt 模型结构从 :个世纪9 0 年代末提出到现在,引起了许多、k 内专 家学者的关注。d a t av a u l t 模型在客户关系管理( c r m ) 、企业信息t 厂( c i f ) 、 商务智能( b t ) 、企、l k 信息模掣( e d i ) 等诸多数据仓库应用 得到了发展和体现。 在国内,目| j 数据仓库的项目的实施都是针对氽业的实际业务需求进行,就 是说,目前数据仓库的的设计大多都是需求驱动的。随着、业务需求的复杂程度不 同,数据仓库模型形色各异,已经不仅仅局限于单一的星型雪花模型或者传统 的3 n f 规范化模型,代之的是各类模型的混和。在这些混和的数据模型中,经常 有d a t av a u l 模型思想的体现,或者具有d a t av a u l t 模型的雏形,这些都为进 一步研究、实施d a t av a u l t 模型在实践中做了储备。 从数据仓库的概念从一提出,就与多维分析联系到了一起,随之产, j 的星型 模型币好满足了多维分析的需要,从而使得大多数人认为数据仓库就是犟型模 型,而总是用星型模型的思维定势去思考数据仓库相关的f u j 题。这必然造成数据 仓库设计、使用、发展的局限性。 本文就是冲破了星型模型的思维束缚,研究了另一种数据建模方法刈丁数据 仓库实施的作刚和意义。 1 3 本文要解决的问题 本文t 要研究数据仓库中关于数据模型的问题,丰要包含以下的内容 星犁模犁在数据仓j 牟 ,的作用及其存在的问题; 数据仓库中3 n f 的作用和体现; 新一代的数据仓库模型d a t av a u l t 的描述; 北京邮电人学硕1 学佗论立卜_ 一代数据仓库模型d a t av a u l l ,的研究及e 应用 d a t av a u l t 模型的构建方法与参考原则; 3 n f 与星型模型向d a t av a u l t 的转化; d a t av a u l t 在数据仓库项目实施,f ,的应用。 1 4 本文结构 本文共八章,第一章描述问题的背景和国内外的研究现状;第二章概述数据 仓库模型技术及现状:第三章陈述了d a t av a u l t 模型的定义与结构;第四章总结 了d a t a v a u l t 模型构建的方法与原则:第血章结合本人参与的银行非现场稽核系 统期工程,具体摊述u d a t a v a u l t 在数据仓库中的应用;第八荸讨论基于其他 模型的数据仓库向d a t av a u l t 模型的转化:第七章以本人参与的银行非现场稽核 系统二期工程为例,实际地描述了星型模型向d a t a v a u l t 模型的转化,第八章是 本文的结论与d a t a v a u l t 模型进一步的展望。 北京邮电人学砸i 学位论史f 一代数据仓库模型d a t av a u l t 的研究及j l 应用 2 1 数据仓库 第一章数据仓库模型技术概述 2 1 1 数据仓库的产生 随着计算机技术的飞速发展和仓业界0 i 断提出新的需求,数据仓库技术应运 而生。传统的数据库技术足以单一的数据资源,即数据库为t l i 心,进行事务处理、 批处理到决策分析等各种类型的数掘处理丁作。然而,1 i 同类型的数据处理有着 其不同的处理特点,以单一的数据组织方式进行组织的数据库并不能反映这种差 异,满足不了数据处理多样化的要求。 总结起来,当前的数据处理可以大致地划分为两大类:操作型处理和分析犁 处理。操作型处理也叫事务处理,是指对数据库联机的h 常操作,通常是坩一个 或一组记录的查询和修改,主要是为企q 的特定应用服务的,人们关心的是响应 时间、数据的安全性和完整性。分析型处理则用于管理人员的决策分析。例如, d s s 、e i s 和多维分析等,经常要访问大量的历史数据。 两种数据处理之间的巨人差异使得操作型处理和分析型处理的分离成为必 然。这种分离,划清了数据处理的分析环境与操作环境之问的界限,从而导致了 支持分析型处理的数据仓库的产牛。 2 1 2 数据仓库的特征 针对对数据分析处理的需要,数据仓库的特征可以概括为四点: _ 一数据仓库的数据是面向主题的:主题是一个在较高层次卜对数据的抽象, 使得面向主题的数据组织可以独市于数据的处理逻辑; - 数据仓库的数据是集成的:数据仓库的数据是从原有的分散的数据库数 据中抽取来的; _ 数据仓库的数据是不可更新的:数据仓库的数据主要供企、l p 决策分析之 用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作; 数据仓库的数据是随时间不断变化的:数据仓库随时问变化不断增加新 的内容。 2 2 数据仓库巾的数据模型技术 2 2 1 星型模型与雪花模型概述 现在比较流行的数据仓库模型足多维数据模型。往关系数据库系统中,这种 模型通常以犟型模式、雪花模式的形式存在。 星型模式( s t a rs c h e m a ) :最常见的模型范例足星型模式,其中数据仓库包 北京邮电大学帧j 学位论文卜一代数据仓库模型队tav a u l l 的酬宄技j l 心用 括 口一个大的包含大批数据且不含冗余的中心表( 事实表) ; 口 + 组小的附属表( 维表) ,每个维度一个。 一雪花模式( s n o w f l a k es c h e m a ) :雪花模式是星型模式的变种,其中某砦维 表是规范化的,因而把数据进步分解到附力l l 的表t 。跟星型模式的主要不 网在于,雪花模式的维表可能是规范化形式,减少了部分冗余。 2 2 23 n f 在数据仓库中的运用 数据模型的规范化州o r m a l i z a t i o n ) ,简单地讲,就是同样的数据只在一个地 方存放,这对于考虑存储成本的情况以及更改、插入较为频繁的o l t p 系统来说 是有意义的。 然而,对于查询分析操作较多的数据仓库系统,一次分析操作可能会涉及到 许多彳i 同的数据,如果这样的操作在规范化的数据模型上执行,势必会关联到不 同的地方去柃索需要的数据,从而导致分析响应速度降低。 所以,数据仓库模型的设计,需要考虑降低规范级别( d e n o r m a l i z a t i o n ,又叫 作反规范化) ,瞬同时又要顾及规范化设汁对于仓库数据导入( e t l ) 的好处。 在这样的数据导入与数据分析对于数据模型的双重要求下,星型模型( s t a r s c h e m a ) 作出了两者的折衷:事实表采取了完全规范化的第三范式( 3 n f ) 模型,而 维表采取了第:范式的设计模型。有时也会把维表的设计规范化,就成了所说的 零忙堪犁( s n ? 、y 鲤砖;? 譬砷。 然而,当运辩j 星型模型构建一个大型的数据仓库系统的时候,仅仅是把几个 犀型主题简单地堆积而成,没有考虑主题之间的内在的联系。 2 3 数据仓库模型的发展历程 数据仓库模型技术发展至今,历经了传统的第三范式( 3 n f ) 关系模型、星掣 模型雪花模型等。上个世纪9 0 年代术,由于第三范式模型、星型模型的扩展性、 业务适应性的方i 酊问题逐渐暴露,一种新的数据仓库模型d a t av a u l t 被提 了出来。d a t av a u l t 模型被普遍地认为是下一代数据仓库模型的舆范。 图2 i 说叫了数据仓库模型的演化过程。 上个世纪6 0 年代产牛的第i 范式( 3 n f ) 模型,适应了在线的业务系统 ( o l t p ) 。进入8 0 年代,为了适虑同益扩张的数据仓库的需求,传统的第三范式 模型中,主键被加入了时间戳作为丰键的一部分。 8 0 年代中期出现的星型模型解决了面向主题的一系列问题:聚合、数据模 型结构的变化、信息的重用与共享、支持联机分析处理( 0 l a p ) 等。这些以单个 主题为中心的结构就是后来所说的数据集市。单主题的集市模型很快被应用到了 多薰题的数据仓库中。通过数据集市的堆积来满足1 1 益增长的企业数据仓库的需 求,这些数据集市被称为致性的数据集市。 北京l 耶电大学硕l j 学位论文 f 一代数据仓库模掣d a tav a l - 1 1 的研究殷jlj 避用 就是说,现行的企业数掘仓库是简单地把几个星型模型叠加而成的。 然而,随着企、【p 数据仓库规模的进一步扩张,数据量的不断增大,无论是 3 n f 模型还是星型模型都逐渐暴露出了一系列不足之处。 卜个世纪9 0 年代m 现的d a t av a u l t 模型正是综合了3 n f 的规范化特征! 和星 型模型t 题集中一者的优点,摒弃了| j 两者模型中动态管理、业务适应性、分散 多主题、性能等方面的缺陷,从而成为下一代企、数据仓库架构的主要模型。 2 4 现有数据仓库模型技术的不足 当运崩丁- 企业数据仓库时,每个模型技术都有一定的局限性。这些模型技术 仪仪是便于设计而没有门面向具体任务的实现。这就降低了最终数据仓库的町 用性,常常引发数据仓库世界的“圣战”。下面的篇幅将讨论这些模型最终应用 于数据仓库的效果与其最初设讨之间的差距。 2 4 13 n f 的问题 3 n f 主要存在以下的问题:时间驱动的上键造成父表子表天系的复杂性、 级连修改的影响、实时数据导入以及查淘访问的困难、钻取分析的问题等。还存 在自顶向下的架构必然导致的白顶向下实现的困难。 图2 - 2 以时间做主键的3 n f 模型 图2 2 所示的是 个用柬用来实现数据仓库8 j 3 n f 模型架构,可以看到时问 做了父表的主键部分,而这在反映细节数据的时变特性时是必需的。 北京邮电人学硕 学位论文f 一代数据仓库模掣d a iav 州】l 的研究成:脚娅用 图中3 n f 主要存在扩展性与灵活性的问题。如果再增加一个父表的话,所 有的二r 表都会被级连修改:或者,如果新的一行被插入到一个已经存在的父表中 ( 其实仪仅是主键中的w , j - f n j 发生了变化) ,那么所有的子表里的数据行必须被重新 分配一个新的主键,这种级连修改对于数据处理与数据模型维护的影响非常大一 一模型越复杂,影响也就越严重。这使得扩展与维护一个企、【p 级的数据仓库非常 嘲难,这就是3 n f 作为数掘仓库模型架构的结果。 2 4 2 一致性数据集仃多事实表数据不一致的问题 星型模型构建的数据仓库包含些事实表和一些维表,事实表与维表之间通 过主外键关联。在罐型模型。 | ,尽管多个事实表可以共享荦个维表( 一致性维) , 从而构成一致性数据集市,但事实表之问相对独立,这就可能造成 题数据冗余、 甚至不一致的现象。 致性数据集市构成的数据仓库是一些事实表的集合,这些事实表与维表通 过主外键关联。换吉之,就是一些相互关联的星犁模型的集合,这就引起了许 多问题:独守的丰题信息可能导致的数据冗余问题、数据查询结构的不一致的问 题、扩展性问题、维度不一致情况卜- 事实表链接的困难、导入数据的同步问题、 有限的企业视图与数据挖掘的问题。 此外,星型模型通常是自底向卜架构和自底向卜实现的,而一致性数据集市 却是自预向下架构和自底向上实现的。一砦试验表明,臼底向上架构与自底向上 实现通常来说足易于实现的。 _ 致性数据集市设计中最棘手的事情是需要预先设计合适的维度。就是说当 数据被聚合成为事实的利候,要确保这些聚合数据在集市的整个生命周期的一致 性,而且各个事实表的结构f i 会改变。就是说,新的维度彳i 能被加入到任何一个 事实表中。这就限制了模型设计的扩展性与灵活性。 图2 - 3 一致性数据集市 如图2 3 所示,如果r e v e n u e 事实表结构被修改的活,将变成另一张事实表。 如果给其中的张事实表增加个维度的话,事实的粒度通常会改变,集市的一 致性将会收到影响。一般来讲具有相同维度的事实表可以链接在一起。而这是 在各个事实表的聚合数据粒度一致的情况”1 , a 成立的,随着系统的增 受,这种一 致性是很难保证的。 6 北京| 】| | j 电犬学坝 。学位论文卜代数捌仓库模掣d a t av j 】1 的司究及lj 世川 2 4 3 星型模型中的多值维问题 在星型模型的设计中,多值维一般是刁i 允许出现的。也就是说,事实表中的 每条记录的各个维度在相应的维表中应该只有一个维值与之对应,甭则就属j 二多 值维现象。 然向,存实际的敬计r r ,这样的多值维现象又是常常需要的。就是对j :事实 表的某个维度,在维度本身属性外变的情况下,该维度会有多个值与之相关,比 如说,在一个银行的关1 j 储蓄帐户的月事实表巾,要把帐户作为一个维度,丽在 不改变原来事实表的维度设置的情况下,又需要反映与帐户相关的客户信息,这 就需要把客户维度也与该事实表关联,这时,就出现了多值维的现象,因为每个 客户可能有多个帐户,而缚个帐户又可能跟多个客户对应( 比如某人j | ! 他的家人 会有联合帐户等) 。 在足型模型的设讣中解决这类多值维问题的常见办法是使用一个i i e l p e r 表 来映射多对多的关系,同时给各个映射关系加以必要的权重。 h e l p e r 虽然解决了多值维问题,但使得星型模型变得很不规范。 图2 - 4 为一个使用h e l p e r 表解决多值维示例。 a ( c o l i i f lt oc u s t o l r ”rm a p m o n t h l y c c o u n 【f a c t a c c o t m l d i m e n s i o n ( h e l p e r t a b l e ) ( u s t o n l ,e r d i i l l e l l s a o l l u u j l t ”y t rh 1l “,t r 4 q 1 一。,1 。, m o n t h k e y ( f k ) 尊p e c 嘶i 础y ( 嗣 b a l a n c eb 甜a n 雌 i n t e r e s tp a i d p r i m a d h o l d e rk g 通d 瞿扭 a d d r e s s o v e r d r a f t p o l i 。ye n d d d 胁 a c t i v i t vc o t m t b e h a v i o r v , r o f i l e# 。i 霉l l j 罐船自帮 图2 - 4h e l p e r 表解决多值维问题 北京邮电人学硕1 学位沦义 下一代数据仓库模型d a tav a u l1 的研究发3 t - , ;z 用 第三章d a t av a u l t 模型的定义与描述 3 1d a t av a u l t 模型的定义 c o r ei n t e g r a t i o np a r t n e r s 1 n e c t 0d a nl , in s t e d t 提出了d a t av a u l t 数据仓库模型的概念并这样定义了d a t av a u l t 模型: “d a t ay a u l t 是个丽向细节的、追踪历史的、出一些规范化数据表组成 的唯一的关联表集,用来支持一个或者多个业务功能域。” “d a t av a u l ti sad e t a i lo r i e n t e d ,h i s t o r yt r a c k i n ga n du n i q u e l y 1 i n k e ds e to fn o r m a l i z e dt a b le st h a ts u p p o r toneo rm o r ef u n c t i o n a a r e a s o fb u s i n e s s ” d a t av a u l t 模型是用来架构一个企业级数据仓库( e d w ) 的,而不足数据集市。 如果有适当的硬件与数据库引擎作支持,d a t av a u l t 构建的数据仓库可以作为 操作数据存储( o d s ) 使用。跟3 n f 和星型模犁相比,d a t av a u l t 模型更能够盘经 济而合理的物理空闻内处理大量的多粒度的数据。 d a t av a u l t 是建立在规范化的数学原理上的,在d a t av a u l t 内部,也有类 似于星型模型、3 n f 的结构,比如维表、多对多关系的表连接等。d a t av a u l t 跟其他模型的主要不同点在于数据表之删关系的表示、实体属性的存储结构以及 基于时间粒度的细节数据的存储。多年来,d a t av a u l t 的建模方法已经在许多 不闻的领域中得到了实践,确实为数据仓库的设计与实施提供了一个呸实而有效 的,i 法。 3 2d a t av a u l t 组件功能的描述 为了使得数据仓库模型设计简洁,d a t av a u l t 将模型划分为爆量少的功能组 件,主要有h u b 、l i l l k 和s a t e l l i t e 三类组件。d a t av a u l t 模型的、设计主要围绕业 务功能域,以原子的业务实体逐步展j i :,进而扩充至整个企业数据仓库的范围。 其中h u b 代表业务实体卜键,l i n k 在h u b 之问提供业务实体之间的业务关联与 交易,而s a t e l l i t e 则提供了h u b 代表的业务实体的上下文描述信息。每个功能组 件在尽量保持灵活的扩展性与易维护性的同时,还吸取了传统数据模型的设计思 路与方法。 3 2 1h u b 组件的功能描述 l t u b 是一个单个的数捌表,足一个仅仅包含了简单的业务实体键值的p - 0 表, 这止匕、i p 务键是在业务交易中经常用到的,比如,发票号( i n v o i c en u m b e o 、员。j :号 ( e m p l o y e en u m b e r ) 、客户号( c u s t o m e rn u m b e r ) 、部件号( p a r tn u m b e r ) 以及车辆号 ( v i n :v e m c l ei d e n t i f i c a t i o nn u m b e r ) 等。如果业务键被丢失了,那么关于该业务实 体的上下文相关描述信息都将会被丢失。h u b 组件还包含一砦其他的信息: 一代理键( s u r r o g a t ek e y ) 一可选的部分,是+ 个、【k 务尤天的键值或者序列 北京邮电大学硕t 。学位论文 下一代数据仓库模型o a t av a u l l 的州究及i 应用 号 一数据装载时间( l o a dd a t a t i m es t a m p ) - - 记载该业务键被装载的时问: 记录源( r e c o r ds o u r c e ) 一记录该业务键的来源,用来做数据源追踪之用。 卜品雨 声i 司 i “d t 8l i r e c o i l b u a nl 憋。 0 l i t c m e r ,l o b dd 氍p , c f :ds r c 溅 1 a b c l 2 3 4 5 61 0 1 2 之0 m a h u f a ct 2 o 4 o 6h u j i _ b f l o o 7p p r u3 2 6 02 2 - 2 0f 1 n n c e 8 p a f j 6 2 e 9 5e 0 n t r a c t s 99 2 s a b c 2 9 8 52 2 2 oc o n t r a c t s 1 09 3 h f ll a2 2 2 。0 0c o n t r a c t s 图3 - 1 客户h u b 示例 图3 1 表示的是一个关于客户的h u b 的结构以及在数据库中数据的示例,其 ”t ,客户号( c u s t o m e r # ) 是主键,i d 是为了表连接方便i 阿设的代理键。 在如上的示例中,如果客户h u b 要获取客户号作为业务键,在帐户记录上可 能有一个数字格式的客户t 号1 2 3 4 5 ,而该客j l i 在合同记录罩的客户号却可能是 a c l 2 3 4 5 ,前面加有字母前缀。在这种情况下,在h u b 中客户号还要以字母数字 的格式出现。尽管h u b 中客户号字段可以被设置为足够长,使其能够存放来自帐 户与合同两个,1 i 同业务域的客户号码。而结果是客户h u b 中列于司客户将柯两 个号码:1 2 3 4 5 和a c l 2 3 4 5 ,分别具有不同的记录源,一个来自帐j 。、一个来自 合同。这最然需要对数据进行清洗与整合,使之编码+ 致。 一般来阱,h u b 的主键从h u b - f | “伸”h ;来,与其他h u b 的、j p 务键构成业 务交易,这时,就需要构建l i n k 组件。 3 2 2 l i n k 组件的功能描述 l i n k 是一个多对多的3 n f 表。在两个或者多个业务实体( 由各自相应的h u b 表 示) 之间,l i n k 表示业务实体之f n j 的、i k 务关联或交易。l i n k 的逻辑结构以及住数 据库中数据的示例如图3 2 所示,l i n k 的周围有与该l i n k , f f l 关的h u b ,还可能存在 关于l i n k 迸一步的 :1 i 文描述信息( 这将在s a t e l l i t e 2 j t 件的描述部分中讨论) 。l i n k 包含如下一些信息: 代理键( s u r r o g a t ek e y ) 一可选的部分,是个、务无关的键值或肯序列 号,如果有多r 两个h u b j j n 入i 亥l i n k 的话,考虑到组合t 键的性能问题,可以考虑 使用代理主键; h u b l h u b n 的置键一多个与该l i n k , - 目灭的h u b 的主键伸入到i 。i n k 中作为 组合主键来表示h u b 之削的业务关系; 数据装载时i i ( l o a dd a t a t i m es t a m p ) - - 记载该i i n k 中各个h u b 键之间的 、i k 务关联建立的时川: 一记录源( r e c o r ds o u r c e ) 一已录该数据的来源,用柬做数据源追踪之用。 北京酣j 电大学硕t j 学位论文 卜一代数据仓库模型d a t av a u ll 晌研究发j e 应用 网 l “”l i 盈4 d 盘誓;l ,一l i di cus t o m e r l a 口0 t s 上 a b :3 4 5 61 0 1 2 2 0 m a n u f c t l j i d i r , v i d i l ) d t 。【”rd : l 一 1 0 0 1 0 。4 4 2 0 c 0fj n a n c e z1 0 1 l1 8 - 1 q - z o o o f i n a n e e t oih l v hl o n o r oj c rd 二r :* i , o o i i n y 2 1 2 4 0 - 1 4 - 2 0 0 0f i n a n c e 1 0 1 i i n y 2 1 6 1 0 - 1 4 - 2 0 0 0f i n a n c e 图3 - 2 客户与发票之间的l i n k 示倒 为了解决扩展与维护的灵活性问题,l i i l k 设计成为多对多的3 n f 关系,这种 建模方法适合于数据仓库,1 i 适合于o l t p 业务系统。而如果l i n k 中期望的是一 对多的关系的话,用来装载数据的应用程序( 存储过程) 必须负黄确保+ 对多关系 的成市。父于d a t av a u l t 模型设计的基本原则在本文的后面一部分中会被讨论。 通过几个h u b 和l i i l k 之训的关联,基本卜可以表示f “一个、务关系或肖。 个业务域,d a t av a u l t 中的另一组件是用来进步描述业务的上下文说明信息, 主要有何时、何地、何物构成了该业务的交易情况等一些信息。例如,车辆号 ( v i n :v e h i c l ei d e n t i f i c a t i o nn u m b e r ) 不仅仅是一个交通t 具的标识,客户可能想知 道这个号码的车足什么样的车子( 比如说足蓝色的丰m 货车) 或者通过驾驶员的 编号可以知道这个驾驶员的名字等。 3 2 3s a t e l i t e 组件的功能描述 s a t e l l i t e 是关于h u b 的上下文相关描述信息。所有的这些信息都有可能随着时 问发生变化。因此,s a t e l l i t e 必须不仅能够存储新的数据,而且还要包含或者变 化前的历史数据。例如,v i n 号可能不会改变,f e i 足,如果这辆车被改装后就 可能不再是原米的那辆货车了,或者如柴驾驶r 员j a n e 把它卖给了另一个驾驶员, 那么它的驾驶员编弓也会改变。 s a t e l l i t e 包含如l 、一些信息: s a t e l l i t e 4 - 键:是h u b 或者l i n k 的主键“伸入”到s a t e l l i t e 作为主键; s a t e l l i t e 主键:数据装载时间( l o a dd a t a t i m es t a m p ) - - 记载该描述信息在 数掘仓库的有效时f h j ,为了在s a t e l l i t e 中保存历史数据而将其作为主键的部分; 一代理键( s u r r o g a t ek e y ) 一可选的部分,是。个业务无关的键值或者序列 弓; 一记录源( r e c o r ds o u r c e ) - - 记录该信息的来源,用来做数捌源追踪之用。 图3 3 是一个关于客户姓名的s a t e l l i t e 结构以及在数据库中数据的示例,其中 i 己录了一段时间内客户姓名的变化情况,还包含了各个客户姓名的不同出处。这 就使得数据仓库保存了最为详细的历史粒度数据,从而可以用来进行审计跟踪。 注意到1 0 a dd t s 是作为组合主键的一部分,因为s a t e l l i t e 是以时问为顺序组织而通 过客户代理键访问的。 s a t e l l i t e 组件非常类似于r a l p hk i m b a l l 定义的第二类渐变维,保存了粒度级 别的增量数据,用来为相应的h u b 提供上下文描述信息。例如,v i n l 2 3 4 5 6 7 令天 北京邮电人学石贞j 学位论文卜一代数据仓库模掣h tav a u l1 的”f 究及避朋 表示一辆蓝色的丰| = _ 1 1k 车,i 叮征明天可能表示红色的= f 卜车。这样,颜色就可 以成为一个辆汽车的s a t e l l i t e 。s a t e l l i t e 的设计i d ( 决于数据冗余的程度和数掘的变 化频率的快慢。比如说,如果一辆车是用来租赁的,那么它的可用i f _ 租时间可 能每天都在变化,而f l 变化的频率比车子的颜色、属主要快。类似这样的问题, 可能会为一个h u b 设计多个s a t e l l i t e 。对于多个s a t e l l i t e 的情况,涉及到不司类描 述信息在时间上同步的问题,d a t av a u l t 为此也提供了解决方法,这就是下文要 提刮f l g p o i n t i nt i m e 辅助袁, p r i n u t vk e y l a d dr s r 1 d t w # n 对 5 5 ”1 6 “w lh h “l p d a t eu j e i l 巾d a t eu i h 。i 暖i 。i 嚣。伟谳1 蓄、7 “r c rds r c 麓罐 11 0 1 2 0 0 a 8 cs u p p l i e sm a n uf a c t 11 0t 4 - 2 0 a 8 cg u p p l l e en cm a n u f a e t 1 0 0 12 0 p cw 口r l d w i d tm h u f c t s u d p l i er si nc 11 22 2 0 0 0a 自cd e fl n r p or a t e dc o h t r a e t s 21 01 4 - 2 0 w o f l d w i d es u p p l e i1 t c 0 t r a c t s 图3 - 3 客户姓名s a t e l l i t e 示例 3 2 4p o i n t i n t i m e 辅助表的描述 为了在同个h u b 的1 i 同s a t e l l i t e 之间的信息能够在时间上同步,从而方便数 据访问,d a t a v a u l t 提供了辅助表来解决这个问题。 还以上一节关于汽车的属性为例,一辆车的维度可能有1 6 0 多个属性,如果 使用第二类渐变维米处理属性改变的话,要是关于汽车出租的属性租用揣发生了 变化,其他1 6 0 多个没有发生变化的属性都将被复制为一条新的记录。那么,为 什么非要让变化频率慢的属性随着变化频率快的属性重复呢? 如柴使用第一或 第i 类渐变维的话,就会造成部分或者全部历史数据的丢失。刈于这种情况,伞 少麻该有两个s a t e l l i t e :汽车的租用者与汽车的可维护部件。如果第一天租用汽 车的是d a n ,第二:天是j a n e ,这就需要l i n k 来表示这种关系。在i 。i n k 上将会自i 多 个s a t e l l i t e 来表示租用者、租赁时间以及汽车的状况以及客户的评价等。 问溢 l 垫型坠l l 黜l d d 嘞l l 鹳“h d 9 鹚l i 塑竺竺:l e s 0触00 ln 删! l ) 蛙甜si ,0 雌ss l c r do t s m l 曲拍 b o l 一d 协i t 2 g t 彝1 4 矗o 融 m 1 m 撕髋嘉篙蒜黼 c 幢ll 0 t si f d 1 1 1 0 4 1 - 枷ol 瑚c 铀f ,i i i ; 3 w f h 11 2 t 噼0l 坤c 掌螂a 鼬 c u s t o m e rn a m es i t e g i t tc u s t o n 图3 - 4p o i n m n t i m e 表示例 案 北京邮电

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论