




已阅读5页,还剩47页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库元数据管理架构研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
j e 塞銮煎太堂亟堂焦监塞虫塞攮要 中文摘要 元数据是描述数据仓库业务数据结构和建立方法的数据,是联系数据仓库各 部分的纽带;对元数据的管理是数据仓库开发的全部过程中需要重点关注的焦点 和核心,而元数据管理本身也需要有系统、科学的方法、技术和工具作为强有力 的支撑。 本文通过深入剖析数据仓库的系统架构和数据模型,对元数据仓储理论和实 践进行研究并提出数据仓库元数据管理的解决方案,主要从以下几方面展开讨论: ( 1 ) 明确数据仓库中元数据的范畴、作用和管理原则。 ( 2 ) 通过数据仓库的系统结构和其中的业务数据模型总结元数据存储模型的 特征,并进而确定对元数据的建模方法。 ( 3 ) 探讨元数据集成标准,基于应用规范并综合集中式和分布式两种基本管 理架构优点提出一种联邦式的元数据管理架构。 ( 4 ) 基于存储体系和应用体系两个层次设计实现数据仓库元数据管理系统, 提出支持双向迁移的元数据仓储方案。 本文工作重点集中在对元数据建模的研究和对其仓储架构的设计两个部分, 同时分别从用户、系统开发人员以及项目管理的角度审视数据仓库项目中的元数 据管理内涵,在遵循标准的同时灵活多变以力图提高元数据管理解决方案的健壮 性和通用性。 关键词:元数据;元模型;联邦式架构;双向迁移 分类号:t p 3 1 1 1 3 a b s t r a c t i nd a t aw a r e h o u , m 醐 a t ai su s e dt od e s c r i b eb u s i n e s sd a t as t r u c t u r ea n d b u i l d i n gm e t h o d s , w h i c hi saf i g a m e n to fa l ld a t aw a r e h o u s ec o m p o n e i 】皓m e t a d a t a l l 口m n a g e m e n t i sah o ta r 髓w h i c hn e e d st op a ys e r i o u sa t t e n t i o n0 1 1t h ew h o l e d e v e l o p m e n to ft h ed a t aw a r c h o u s e , a n da l s on e e d sas t r o n gs u p p o r to fs y s t e m a t i c , s c i e n t i f i cm e t h o d s ,t e c h n i q u e sa n dt o o l s t h i sp a p e ra n a l y z e st h ea r c h i t e c t u r ea n dd a t am o d e lo f d a t aw a r e h o u s e ,a n d 3 p o s 8as o l u t i o nf o rd a t aw a r e h o u s em e t a d a t am a n a g e m e n tb yr e s e a r c h i n go l lt h e m e t a d a t aw a r e h o u s i n g t h e o r ya n dp i 戤虹阮t h i sp a p e rd i s c u s s e st h ef o l l o w i n ga s p e n : ( 1 ) f i g u r eo u tt h es c o p e , r o l ea n dm a n a g e m e n tp r m c :i p l 鹤o fm e t a d a t ai nd a t a w a r e h o u s e ( 2 ) s u m m a r i z et h em e a d ms t o r a g em o d e lf e a t u r e sb ya i l a l 弘她t h ea r c h i t e c t u r e a n dt h eo p e r a t i o n a ld a t am o d e lo fd a mw a r o h o u s e , a n dt h e nc h o o s et h em e t h o do f m e t a 蛐m o d e l i n g ( 3 ) d i s c u s st h es t a n d a r d so fm e t a d a t 乱p r o p o s eaf e d e r a la r c h i t e c t u r eo fm c t a d a t a m a n a g e m e n tb a s e do ns p e c i f i c a t i o ni n t e g r a t e da d v a n t a g e so f c e n 仃a l i z e da n dd i s t r i b u t e d m a n a g e m e n ta r c h i t e c t u r e ( 4 ) d e s i g na n di m p l e m e n tad a t aw a r e h o u s em e q a d a t am a n a g e m e n ts y s t e mb a s e d o nt h es t o r a g ea n da p p l i c a t i o nh i e r a r c h y a n dp r o p o s eas o l u t i o nf o rm e t a d a t as t o r a g e w h i c hs u p p o r t sd o u b l e - d i r e c t e d m i g r a t i o n t h i sp a p e rf o c u s e so nt h em e t a d a t am o d e l i n ga n dt h ed e s i g n o f s t o r a g ea r c h i t e c t u r e c o m p r e h e n dt h ec o n n o t a t i o no f m e t a d a t am a n a g e m e n ti nd a t aw a r e h o u s ep r o j e c tf r o m d i f f e r e n tv i e w sr e s p e c t i v e l y i no r d e rt oa c h i e v eam o r er o b u s ta n dv e r s a t i l em c t a d a t a m a n a g e m e n ts o l u t i o n , t h i sp a p e ru t i l i z e sf l e x i b i l i t ym e t h o d sw h i l eo b s e r v i n gm o t a d a t a s t a n d a r d k e y w o r d s :m e t a d a t a ;m e t a m o d e l ;f e d e r a la r c h i t e c t u r e ;d o u b l e - d i r e c t e dm i g r a t i o n c i a s s n o :t p 3 “1 3 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文储签名畅在中 签字日期:2 - 0 0 7 年肛月2 f 日 尸 渺m 苛岬, 轹 签 期 口 j 师 日 导 字 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:牺在、 7 签字日期:生一。7 年肛月2 f 日 致谢 光阴似箭,转眼间岁月匆匆而过。三年来在学识渊博的老师们的谆谆教诲下, 在实验室众多师兄、师姐帮助中,我学到了丰富的专业知识和不懈追求、努力探 索的科研精神,这些宝贵财富使我受益终生。 在此要特别感谢我的导师林友芳副教授,与林老师结识并有幸师从于他开启 了我生命中的重要转折。在整个研究生学习其间,林老师严谨的治学态度和科学 的工作方法潜移默化地影响着我,他勤奋、踏实的研究精神时时刻刻鞭策着我; 林老师悉心指导我们完成一系列的科研工作,在学习上和生活上都给予我莫大的 关心和帮助,在此真诚地对林老师表示深深的谢意! 在课题研究和相关项目进展期间,也得到黄厚宽教授的诸多指导和帮助,在 此对黄老师表示衷心的感谢。 在实验室工作及撰写论文期间,与同一课题研究组的牛筱峰、施洋同学开展 了多次卓有成效的讨论,在此向他们表达我的感激之情。 最后深深感谢艰辛中任劳任怨的父母,勤劳朴实的他们给了我无私的爱和无 尽的支持,也给了我永远的激励去回报他们的殷殷期盼l 1 绪论 1 1 前言 1 1 1 元数据的概念 根据一般定义,元数据( m e t a d a t a ) 是关于数据的数据,描述了数据的结构、 内容、链和索引等项内容。在传统的数据库中,元数据是对数据库中各个对象的 描述,如数据字典就是对数据库、表、列、视图和其他对象的定义。在数据仓库 系统中,元数据被定义为描述数据及其环境的数据,它描述了数据仓库中的许多 对象表、列、查询、商业规贝i j 及数据仓库内部的数据转移,可以帮助数据仓 库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描 述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技 术元数据( t e c h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s sm e t a d a t a ) “1 。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数 据仓库使用的数据,它主要包括以下信息: 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的 定义,以及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式; 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇 总、预定义的查询与报告: 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、 数据提取、清理、转换规则和数据刷新规则、安全( 用户授权和存取控制) 。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实 际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库 中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、 对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公 式和报表的信息;具体包括以下信息嘲: 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据 模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不 懂数据库技术和s q l 语句的业务人员对数据仓库中的数据也能做到心中有数。 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员 在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。 这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出 了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的 表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。 每个数据仓库的独立组件中都有自身元数据,如关系型数据库的数据字典、 e t l 工具的转换关系库、多维工具的知识库等。除此之外,还有一些反映关系变化 的元数据在并不存在于数据仓库的组件中,而是存在数据仓库开发过程的各种文 档中。只要是针对数据仓库中数据及其处理过程的描述都可以理解为元数据,但 是是否所有的数据仓库元数据都需要作为元数据管理系统的数据则要视元数据管 理功能需求和作用而定。 1 1 2 元数据的作用 元数据是数据仓库的重要构件,是数据仓库的指示图,在数据源抽取、数据 仓库开发、商务分析、数据仓库服务和数据求精与重构等过程中都有重要的作用。 在图1 1 中可以看到元数据在整个数据仓库开发和应用过程中的巨大影响,定义 描述能力强且内容完善的元数据一定程度上对数据仓库进行有效地开发和管理具 有决定性意义。 一一困 国 一 业务数据和外部数据 向用户的显示、分析 主题区立方体 图1 1 数据仓库元数据影响域 f i g u r e1 1i m p a c td o m a i n o fm e t a d a t ai nd a t aw a r e h o u s e 2 圈r 冒。四 一般来说,数据仓库中元数据有两方面的用途。首先,元数据能提供基于用 户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次, 元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持 系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要 支持以下五类系统管理功能“: ( 1 ) 描述哪些数据在数据仓库中。终端用户一般不了解数据仓库的仓储细 节,也不可能像数据仓库管理员或开发人员那样熟悉数据库技术,因此迫切需要 一个转义工具能够使他们清晰地理解数据仓库中数据的含义。元数据可以实现业 务模型与数据模型之间的映射,从而帮助最终用户理解和使用数据。 ( 2 ) 定义要进入数据仓库中的数据和从数据仓库中产生的数据。与其说数 据仓库是软件开发项目,不如称它为系统集成项目,因为数据仓库的构建就是从 操作型业务系统中提取数据信息的过程,对外所提供服务本质上也是将对历史数 据进行分析处理并向用户展现的过程。元数据定义数据仓库的数据源加载接口和 面向最终用户提供报表数据模型的接口,在项目实施过程中指导数据仓库的建设, 并帮助用户对数据仓库信息来源及服务模式进行理解。 ( 3 ) 记录根据业务事件发生而随之进行的数据抽取工作日志。e t l 过程是构 建数据仓库最复杂、最困难的部分,在具体设计过程中,大部分的策略论证、技 术难点都集中在这一环节,数据抽取细节元数据对管理员监测数据仓库系统运行 状况的重要性不言面喻。 ( 4 ) 记录并检测系统数据一致性的要求和执行情况。由于数据仓库的数据 集成通常来源于多个业务数据系统,运行中也涉及多个处理流程,为保证对外服 务信息的质量需对整个系统的数据一致性进行实时检测并记录数据同步操作的执 行结果。 ( 5 ) 衡量数据质量。作为决策支持的重要依据,数据仓库对外提供服务的 同时必须实时收集用户从业务角度对数据使用情况的反馈,记录数据服务的查询 效率、数据需求的满足程度等质量信息,以提供统计信息协助对数据仓库的维护 管理。 总之,元数据的内容反映数据仓库存储的数据内容以及其与数据源之间的关 系,是联系数据仓库各部分的主要纽带。通过元数据库,数据管理员可以实现对 数据仓库的全面管理维护,终端用户可以对数据仓库的数据仓储内容有一个系统 的了解。 1 1 3 数据仓库元数据管理现状 数据仓库元数据研究虽然得到广泛关注,但还没有建立比较成熟的理论体系, 甚至没有一个明确的定义。建立统一的数据仓库元数据模型和管理规范,是数据 仓库元数据研究领域必须解决的问题。 元数据可以被称为是数据仓库乃至商业智能( b i ) 系统的“灵魂”,正是由于 元数据在整个数据仓库生命周期中有着重要的地位,各个厂商的数据仓库解决方 案都提到了关于对元数据的管理。但遗憾的是对于元数据的管理,各个解决方案 都没有明确提出一个完整的管理模式;它们提供的仅仅是对特定的局部元数据的 管理。当前市场上与元数据相关的数据仓库工具大致可分为四类啪: ( 1 ) 数据抽取工具:把业务系统中的数据抽取、转换、集成到数据仓库中, 如a r d e n t 的d a t a s t a g e 、c h ( 原p l a t i n u m ) 的d e c i s i o nb a s e 和e t i 的e x t r a c t 等。这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。 ( 2 ) 前端展现工具:包括 ) l a p 分析、报表和商业智能工具等,如m i c r o s t r a t e g y 的d s sa g e n t 、c o g n o s 的p o w e r p l a y 、b u s i n e s s0 b j e c t s 的b o ,以及b r i o 等。它 们通过把关系表映射成与业务相关的事实表和维表来支持多维业务视图,进而对 数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元数据相 对应的语义层。 ( 3 ) 建模工具:为非技术人员准备的业务建模工具,这些工具可以提供更高 层的与特定业务相关的语义。如c a 的e r w i n 、s y s b a s e 的p o w e r d e s i g n e r 以及 r a t i o n a l 的r o s e 等。 ( 4 ) 元数据存储工具:元数据通常存储在专用的数据库中,该数据库就如同 一个“黑盒子”,外部无法知道这些工具所用到和产生的元数据是如何存储的。 还有一类被称为元数据知识库( m e t a d a t ar e p o s i t o r y ) 的工具,它们独立于其它 工具,为元数据提供一个集中的存储空间。包括微软的r e p o s i t o r y ,c a 的 r e p o s i t o r y ,a r d e n t 的m e t a s t a g e 和s y b a s e 的w c c 等 这些工具都是针对某一特定的市场需求来完成专用的集成或访问功能,并且 多数工具彼此之间难以结合,不容易共享信息,给对数据仓库进行统一的元数据 管理造成了困难 总的来说,元数据管理还是一个不成熟的领域。从业务上看,很多人对于建 立一个元数据管理、交换平台的目的并不明确,也无法确定集中这些元数据究竟 会给企业带来多大价值。从目前国内企业所处的阶段看,建立这样一个平台并不 能产生多少价值;即便是在平台的建设初衷和谁来使用这个平台等问题上,也是 见仁见智例。 从技术方面看,统一的元数据标准尚未真正建立起来,一般的元数据管理工 具大多提供的是元数据交换功能,但这些交换无法处理涉及与众多工具进行交互 4 的情况。这类工具如果不能完全集中所有的元数据,整个数据仓库中的数据流就 会出现断层,所谓一致性的元数据管理平台也就无法建立起来。 1 i 4 本文的研究目的和意义 研究数据仓库中元数据的管理主要有两个层面的意义。 首先,对于数据仓库系统本身,利用元数据管理更好的反映其运行过程中的 数据源分析、集成影响分析、版本控制以及质量管理统计等信息,并由此指导对 数据仓库的使用。 从更高层次上考虑,通过对数据仓库中不同格式元数据的统一建模管理研究 企业级的数据交互,对建立企业内部甚至企业之间的数据集成、数据交互标准进 行探索。 基于以上两方面目标,本文将分别对元数据的建模方式、仓储架构和同步方 式以及面向用户的应用设计进行探讨 1 1 5 元数据管理系统的设计原则 元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数 据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递, 协调各模块和工具之间的工作。 在数据仓库环境上构建元数据管理系统是非常困难的,但在数据仓库项目的 实施过程中,这个环节又是非常重要的。在建立元数据管理系统的过程中,不能 在开始的时候就追求大而全的元数据管理系统,要坚持以目标驱动的原则,在实 旌阶段要采取逐步增加的建设原则”。总体步骤如下: ( 1 ) 如果是在建设数据仓库的初期,那么首先要确定元数据管理系统的管理 范围。系统范围确定的原则是面向数据仓库项目的具体需求优先保障重点的部分, 不求大,只求精。 ( 2 ) 系统管理范围确定以后,把现有系统的元数据整理出来,加入语义层的 对应,然后将这些元数据保存到一个专门的元数据知识库中,通常建立在关系型 数据库基础之上。 ( 3 ) 确定元数据管理的内容。构建元数据管理系统可能只是想通过元数据来 管理数据仓库中数据的流动过程以及有关数据的转换方式,以保证数据仓库开发 和使用人员理解数据仓库中数据转换的整个历史过程;也可能是为了通过元数据 跟踪数据仓库的服务质量统计信息,以方便管理员衡量其作为决策支持系统的性 5 能和效率。 ( 4 ) 确定元数据管理的应用架构,采用合理的应用架构可以显著提高元数据 管理工作的完成效率;广义的架构包括元数据存储体系的设计以及遵循元数据管 理标准的应用层面解决方案。 综上,建立元数据管理系统一定要壑持关注标准,又不被标准所束缚的原则, 实现符合自身目标需求的元数据管理解决方案。 1 2 论文主要内容 1 2 1 研究内容 元数据管理的范围涉及数据仓库的整个环节,元数据管理系统架构是与企业 数据仓库架构并行的体系,因而元数据管理本身是一个完整的数据信息管理系统, 元数据管理的内容涵盖了从需求分析、功能定义到设计、开发、应用、维护的整 个过程。本文结合企业级数据仓库的架构和数据模型特征设计协调整个数据仓库 运作的元数据管理系统,提出一种有关元数据集成、仓储和应用的解决方案,总 结起来,包括以下三部分内容: ( 1 ) 定义元数据需求。元数据根据属性可分为业务元数据和技术元数据,元 数据需求则包括应用需求( 技术及业务需求) 和系统管理需求两个部分。在面向 决策支持的数据仓库领域,元数据管理的实质为提供数据仓库所有已集成数据的 概要描述和查询索引,因此元数据需求同数据仓库的构建过程、系统架构和业务 数据层次紧密相关。本文从数据仓库解决方案的一般架构出发对其业务数据模型 和元数据模型的层次进行深入解析,比对了元数据的两种建模方式并通过实例描 述验证了对象模型在元数据管理应用中的实际功效。 ( 2 ) 实现元数据管理。元数据管理主要包括元数据集成、元数据存储以及元 数据变更三个部分,影响元数据管理的因素涉及元数据标准和元数据架构两个方 面。本文综合集中式和分布式两种基础架构的优点提出一种联邦式的元数据管理 架构,并基于c 删标准定义了数据仓库元数据仓储中的数据存储格式:同时,设 计实现元数据仓储的抽取、集成和管理的流程。 ( 3 ) 实现元数据应用。元数据应用按功能可划分为管理支持型应用和指导型 应用,包括元数据查询、报表展示、分析支持等。本文在数据仓库元数据管理系 统的应用体系设计中提出数据服务层的概念,为不同的元数据使用对象提供统一、 通用的交互平台。 另外,本文对元数据管理系统中的数据安全管理、数据审计管理、用户权限 6 控制管理及系统本身的运行维护进行了探讨 1 2 2 论文安排 第一章,主要介绍了元数据的概念、作用、数据仓库领域的元数据管理现状 以及元数据管理系统的设计原则,并对全文的研究内容进行概括阐述。 第二章,基于企业级数据仓库的一般架构详细分析了数据仓库的业务数据模 型和元数据模型,根据实例讲述了对象模型在元数据建模过程中的应用并对元数 据进行子模型的层次划分。 第三章,介绍业界现行的元数据模型标准,即公共仓库元模型( c w m ) ,同 时在分析集中式和分布式两个基本架构的基础上提出联邦式的数据仓库元数据管 理架构。 第四章,讲述了数据仓库元数据管理系统的实现,其中包括元数据存储体系 设计和元数据应用体系设计。 第五章,总结全文工作,并对下一步的研究工作进行展望。 7 2 数据仓库中的数据模型 2 1 数据仓库系统架构 按照普遍接受的定义,数据仓库是一个面向主题的、集成的、非易失的且随 时问变化的数据集合,用来支持管理人员的决策“。为适应数据仓库多阶段、多层 次的应用特点,企业级数据仓库应采用多层次、可扩展的框架结构,以具有高度 的扩展能力和方便的系统开发和维护性能。一个完整的数据仓库解决方案的系统 体系架构中包括:数据源层、数据采集层、数据存储与管理层、应用服务层、门 户管理与最终用户层,每层中的元数据信息由元数据管理系统统一协调管理。如 图2 1 所示是数据仓库的层次架构示意图。 应用 服务器 数据源层 数据采集层数据存储与管理层应用服务层门户管理与最终用户层 源系统信息:e t l 过程:d - 信息: 应用服务层信息:门户管理信息: 系餐运行结构 肼映射关系 哟理謦型数据结构l 【p i 关键业务指标安全认证 技巷墼据结构 e t l 程序信息 墼塑兰典 数据分析模型访问控制 业务数据结构数据转换规则 磐廛壁 数据库目录帮助文档结构 数据清洗规则数据库目录 ; 元数据管理 图2 1 数据仓库的层次架构 f i g u r e2 1a r c h i t e c t u r eo fd a t aw a r e h o u s e s 圄晶 9 学9 一 ( i ) 数据源层 数据源层主要包括企业核心业务系统和其他业务系统的源数据,该层在组织 结构和空间分布上具有多样化的特征。数据仓库可通过o d b c 、j o b c 、o l e - d b 等多 种标准接口与这些系统互连。 ( 2 ) 数据采集层 数据采集层主要完成源数据向数据仓库的抽取、传输、转换和加载,这个过 程也叫e c t l ( e x t r a c t 、c l e a n i n g 、t r a n s f o r m a t i o n 、l o a d i n g ) 处理,需要配备 e c t l 服务器完成数据抽取、清洗、转换和加载工作。由于各个源系统的业务处理 周期和处理方式不同,导致各种源数据的更新周期和方式有较大差异。数据采集 层必须能够适应和满足这些变化和需求,保证数据及时、正确、完整地进入数据 仓库。 ( 3 ) 数据存储与管理层 数据存储与管理层是整个数据仓库的核心,它存储和管理来自各种源数据系 统的数据,并为访问用户提供数据服务。这些数据是按照逻辑数据模型分主题进 行组织、重构和存放的,包括当前数据和较长期的历史数据。本层的核心是企业 级逻辑数据模型的规划与设计,逻辑数据模型是所有应用的基础。 ( 4 ) 应用服务层 应用服务层包括o l a p 服务器、w e b 服务器、应用服务器等。该层为用户访问 数据仓库提供各种方式的服务,从而实现访问方式的多样化和信息存取的透明化。 ( 5 ) 门户管理层与用户层 按照用户使用数据仓库的方式和特点,可以将数据仓库用户划分为业务人员、 业务分析人员、决策人员和知识工作者等。该层为数据仓库终端用户提供统一的 门户、安全认证和用户权限管理,并为用户管理报表、查询文档提供个性化定制。 在整个数据仓库的体系架构中,存在两种不同类型的数据。第一种是业务数 据,其中存放了来自数据源系统的和各种具体业务有关的所有数据,它的存储主 体包括o d s ,d d s 和o l a p 数据等;第二种是元数据,即用来描述或者帮助企业对 数据仓库中的数据进行发现、管理、控制和理解的数据。 对于上述每个数据仓库层次,都分别会产生各自的元数据用来描述该层次的 规则逻辑以及驱动其业务流程。就如同其基因序列,修改元数据的内容可以影响 整个数据仓库的行为;同样,调整数据仓库的行为也应通过修改元数据的内容来 实现。 结合数据仓库系统的架构层次划分,下文将分别对数据仓库中存储的两类数 据模型进行深入分析 9 2 2 数据仓库业务数据模型 典型的数据仓库和业务分析环境常常用信息供应链( i n f o r m a t i o ns u p p l y c h a i n ,i s c ) 来描述啪,即数据从其源头流出,经过一系列的精化处理,最终产生 信息产品。这些信息产品对于企业的决策具有重大的战略价值,图2 2 即为一个 典型的i s c 示例。 图2 2 数据仓库信息供应链 f i g u r e2 2i n f o r m a t i o ns u p p l yc h a i no fd a t aw a r e h o u s e 从作为数据源的日常业务系统开始,经过多次的精化处理,数据仓库在信息 供应链的流动过程中生成了多种不同粒度、不同级别、面向不同应用的数据集合。 但作为面向决策支持的集成系统,数据仓库主要包含了三大业务存储主题:0 d s 数 据、d d s 数据和0 l a p 数据“”。 2 2 1o d s 模型 0 d s ( 0 p e r a t i o n a ld a t as t o r e ,操作数据存储) 是用于支持企业日常的全局应 用的数据集合,将企业日常数据视为业务处理的基础,它可以向数据仓库传送数 据。 完整的数据仓库解决方案具有非常复杂的数据来源,这些数据存放在不同的 地理位置、数据库和应用之中,数据仓库直接从这些业务系统实现对历史数据的 抽取相当困难。o d s 就是用于存储从业务系统直接抽取出来的数据,这些数据从 数据结构、逻辑关系上都与业务系统基本保持一致,但是在抽取过程中极大地降 低了向数据仓库进行数据加载时转换的复杂性。一般看来,o d s 存储层是从业务 系统过渡到数据仓库核心数据层的中间模型,其设计接近于业务系统,目标是面 向数据仓库层屏蔽不同业务数据之间的差异。 1 0 一般来说,o d s 数据模型具有以下特点: 面向主题性。作为数据仓库核心数据存储的先导,o d s 必须完成数据源集 成后的分主题预处理以为e t l 过程提供前提,但此时的主题较数据仓库系统的最 终主题划分较为粗糙。 集成性。o d s 存储模型的数据来源于各个操作型业务性系统,数据经过了 一定程度的转换。每个主题的数据可能来源于多个业务系统,是各业务系统数据 的统一集成。 可变性以及相对即时性。如果业务系统的数据已经集成到o d s 模型中,业 务系统的数据近期有了更新,可以对o d s 层的相应数据进行更新,但这种更新一 般不会频繁发生。另外,作为业务系统与数据仓库之间的缓冲,o d s 模型存储的 一般都是各业务系统的近期数据,过期数据将作为历史积累进入数据仓库,不再 保存在o d s 模型中。 2 2 2d d s 模型 d d s ( d e c i s i o nd a t as t o r e ,决策数据存储) 即数据仓库层数据,按主题组织 面向各种应用提供数据服务,并为后续0 l a p 模型提供基础数据。 d d s 是数据仓库系统的核心数据模型,用于存放企业完整的详细历史数据, 其设计目标是建立一致的、集成的、面向主题的且相当粒度化的战略信息库,作 为决策支持环境的单一的企业级数据存储。d d s 模型的数据主要来自0 d s 层,为 各种应用提供数据服务,并为后续数据层次即联机分析处理提供基础数据。 广义的d d s 数据包括数据仓库层和数据集市层,分别对应企业整体和部门级 别的应用。数据集市( d a t a m a r t ) 也可叫做“小数据仓库”,它是一个从操作型数 据及其他的为某个特殊专业人员、团体服务的数据源中收集数据的仓库。从范围 上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中 抽取出来的。每个数据集市包括来自中央数据仓库的历史数据的子集,用以满足 特定部门、团队、客户或应用程序分析和报告需求。通常情况下,数据集市主要 用于存储和维护部门级数据,并且只面向某个特定的主题。 0 l p ( 0 n l i n ea n a l y t i c a lp r o c e s s i n g ,联机分析处理) 是数据仓库最为典型 的应用,这就从本质上决定了 ) l a p 主题的选择是数据仓库建设中最关键的问题之 一,关系到整个数据仓库系统建设的成败,最终用户进行的0 l a p 分析都是建立在 这个基础之上的。 在主题选定好并通过数据抽取、数据的轻度汇总和生成事实表等步骤之后, 我们就可以把生成好的事实表数据从数据仓库中加载到o l a p 服务器上,形成数据 立方体( c u b e ) 来供前端工具进行访问。 尽管各个o l a p 服务器上构造数据立方体的具体方式有所不同,但整体来看数 据立方体的构造过程分为以下几个方面: ( 1 ) 定义c u b e 的维度和度量等信息。 ( 2 ) 定义数据抽取和转换规则:这个抽取和转换是指从数据仓库中到o l a p 服务器的抽取和转换。 ( 3 ) 指定c u b e 的存储方式:有些o l a p 服务器支持多种存储方式,但是有一 些只支持一种。存储方式的选择可能依赖于物理条件和查询要求的响应时间。 ( 4 ) 定义c u b e 的刷新方式等。 在数据仓库中,c u b e 有多维存储和关系存储两种基本存储方式,另外也可采 用基于关系和多维的混合存储方式。o l a p 是为用户实施分析预先准备的数据模型, 其问仿照了用户的多角度思考模式,可直接提供辅助决策的应用。 2 3 数据仓库元数据模型 除了业务数据以外,整个数据仓库还有一套非常复杂的元数据对业务数据进 行抽象描述。元数据可看作业务数据的抽象模型,而这些元数据本身也需要有一 个数据模型对其进行抽象描述,即业务数据模型的模型,被称为元模型( m e t a k i o d e l ) 。数据仓库的数据模型虽然是变化的,但这些变化都将被记录在元数据中, 元数据的内容虽然随着数据仓库的数据模型之变化而变化,但元模型可以是不变 的。元模型是用来存储各种元数据的物理数据库模型,它与其他模型的区别在于 它包含用于支配系统中数据的业务方法和规则,因此元模型实际上是对被建模数 据更高层次的抽象“”。 如果将元数据视作数据仓库中有关数据的信息描述,元模型存储的则是关于 信息的信息。一般来说,元数据有两种建模方法,即传统关系模型和通用对象模 型,在实际的数据仓库项目应用中,应根据具体需求对二者进行权衡和折衷。 2 3 1 通用对象元模型 在对象模型中,真正的模型实际上非常微小而且很通用。对象模型包含固定 数量的实体,在其结构中存储实体信息和关系。信息的实际布局被存储在元模型 中,形成了模型中的模型这为存储任意信息提供了很大的灵活性,因为这并不 1 2 需要改变模型本身”。 在对象模型( o b j e c tm o d e l ) 中,驱动业务的关系和事实被存储在一系列的 表中。对象模型的优势在于其获取自身对象以及对象之间关系的能力,它的不足 之处是要求使用对象模型的程序必须知道如何将信息重新组合成有意义的信息。 对象模型不能轻易地揭示存储在其结构中的隐含信息,或者可以通过一个应用程 序来完成从模型中提取信息的工作。对象模型可以很容易地处理所有数据元素尚 处于未知状态或者会在以后增加的情况。 图2 3 显示了一个由三个实体组成的基本通用对象模型结构,包括对象 ( 0 b j e c t ) 表、对象类型( 0 b j e c tt y p e ) 表和对象层次( o b j e c th i e r a r c h l ) 表。 为阐述如何在通用对象模型中存储元数据,现引入某铁路局的管理层次和业 务应用为例进行辅助说明“”。包含的部分对象及关系如下: 某铁路局人员编制分为部门领导和业务人员; 部门领导可以分管客运业务或货运业务; 业务人员可以负责客运业务或货运业务; 客户可以下订单或对服务进行投诉; 每份订单都包含金额信息; 业务人员处理订单。 0 b j e c t ( 对象表) o b j e c tt y p e ( 对象类型表) 黪囊斓黼黧 o b j e c tt y p ei d ( f z ) o b j e c td e s c r i p t i o n o b j e c t _ m e t a d a t a , o b j e c tt y p ed e s c r i p t i o n p a r e n to b j e c tt y p e o b j e c t t y p e _ b u s i n e s sm e t a d a t a 图2 3 在通用对象模型中存储元数据 f i g u r e2 3s t o r em e t a d a t ao fc o m m o no b j e c tm o d e l 在通用对象模型结构中,对象类型表被用于存储数据仓储中所需的最底层对 象,类似于定义对象的子类,如图2 4 所示。表中的对象类型标识符 ( o b j e c t _ t y p e _ i d ) 字段为人为定义,用于在数据库中唯一确定一个对象类型, 1 3 它通常是在向表中插入一行数据时产生的一个序列码。 o b j e c tt y p e ( 对象类型表)字段描述 酽鳓氟礞笺嘲”鬻 定义对象类型的 瑟燮鬻隧稳鬟蠹翼箩鲤瀚 唯一标识符( i d ) o b j e c tt y p ed e s c r i p t i o n ( 对象类型描述) 对象类型描述 p a r e n to b j e c tt y p ei d 对包含该对象类型 ( 父对象类型描述) 的对象类型的引用 o b j e c tt y p el i e t ad a t a ( 对象类型元数据) 关于对象类型的元数据 图2 4 对象类型表( o b j e c tt y p e ) 的字段描述 f i g u r e2 4f i e l dd e s c r i p t i o no fo b j e c tt y p et a b l e 对象类型表中的对象类型描述( 0 b j e c tt y p e _ d e s c r i p t i o n ) 字段包含了对所 存储的对象类型的简要描述,描述不需要很长,但必须易于理解。并且由于元数 据仓储的预期用户并不明确,该描述应该尽量具有通用性。第三个字段是父对象 类型标识符( p a r e n t _ o b j e c t _ t y p e _ i d ) ,用于定义存在的对象类型的层次结构, 它能有效避免对元数据的遗漏,但前提是确保此层次结构的正确性。对象类型元 数据( o b j e e t _ t y p e _ m e t a _ d a t a ) 字段则用于存储所需对象类型的业务信息,是对 象类型本身的元数据。 对应某铁路局应用的例子,对象类型表的存储内容如表2 1 所示。 表2 1 对象类型表( o b j e c tt y p et a b l e ) 内容示例 1 4 对象表保存了需要存储的即在对象类型表中定义的所有对象的每条元数据, 如图2 5 所示 o b j e c t ( 对象表)字段描述 一0 b - e c ti d ( 然) 。鬻 定义对象的 氯黪黧熟囊碧囊纛龋 唯一标识符( i o ) o b j e c tt y p ei d ( f k ) 指向对象类型表的外键 ( 对象类型标识符) ( 外键) o b j e c td e s c r i p t i o n ( 对象描述) 对象的简要描述 o b j e c tm e t ad a t a ( 对象元数据) 关于被存储对象的元数据 图2 5 对象表( o b j e c t ) 的字段描述 f i g u r e2 5f i e l dd e s c r i p t i o no fo b j e c tt a b l e 对象标识( o b j e c r _ i d ) 字段是人为定义的标识符,用于在数据库中唯一确定 一个对象;作为对象表的主键,它提供一种将来获取对象信息的手段。对象类型 标识符( o b j e c t _ t y p e _ i d ) 字段引用对象类型表的主键作为参照,以确定所引用 对象的类型。参照完整性要求任何表的外键引用必须指向被参照表的有效行,即 o b j e c t _ t y p e _ i d 的值必须存在于对象类型表中,否则就会丢失对象的元数据。从 另一个角度,参照完整性也保证了两个表之间的关系在更新和删除操作时能保持 同步。对象描述( o b j e g t _ d k s c r i p t i o n ) 字段包含对象的简要描述,对象元数据 ( o b j e c tm e t a _ d a t a ) 字段存储了包括业务规则、业务数据在内的重要定义和描 述信息。表2 2 列出了铁路局对象的示例数据。 l s 表2 2 对象表( o b j e c tt a b l e ) 内容示例 在通用对象模型中的最后一个表是对象层次表,它定义了一条信息链,包含 特定对象实例之间的关系,如图2 6 所示。 o b j e c th i e r a r c h y ( 对象层次表)字段描述 鬻”一o b j e e tj d ( f k ) “i 秀 。( 对象标识德) ( 乡 键)i 定义对象的 一唯一标识符( i d ) p a r e n to b j e c ti d ( f k )指向该对象的 ( 父对象标识符) ( 外键)所有者对象的引用 o b j e c th i e r a r c h ym e t ad a t a 关于被存储对象的元数据 ( 对象层次元数据) 图2 6 对象层次表( o b j e c th i e r a r c h l r ) 的字段描述 f i g u r e2 6f i e l dd e s c r i p t i o no fo b j e c th i e r a r c h yt a b l e 对象标识符( o b j f t _ i d ) 字段是指回主对象表的外键,表明日前层次涉及到 哪个对象。父对象标识符( p a r e n t _ o b j e c t _ i d ) 被用来确定在对象层次上哪个对 象是当前对象的上一级,称为当
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年计划共用电责任合同3篇
- 安全施工岗前教育培训课件
- 东莞石龙装饰工程方案(3篇)
- 广西莲城板材有限公司年产8万立方米生态板项目环评报告
- 玻璃厂玻璃知识培训内容
- 广西大力神制药股份有限公司整体技改项目(非辐射类)环境影响报告表
- 猫咪画课件教学课件
- 猫咪先生课件
- 安全教育活动培训制度课件
- 工厂通风工程定制方案(3篇)
- 英语人称代词和物主代词练习题(附答案)
- 2022中国国家职业分类大典
- 快递公司快递员操作流程预案
- 高中语文++《大学之道》课件++统编版高中语文选择性必修上册
- 2022-2023年度省职业院校学生专业技能大赛装配式建筑智能建造赛项竞赛规程
- 化工产品销售管理制度
- 闽2023-G-01先张法预应力高强混凝土管桩DBJT13-95
- 前列腺电切手术
- 掌握敏锐观察和细节把控的沟通技巧
- 贵州省安顺市平坝区第二中学2023-2024学年七年级数学第一学期期末考试模拟试题含解析
- 2024年中国融通旅业发展集团有限公司招聘笔试参考题库附带答案详解
评论
0/150
提交评论