




已阅读5页,还剩70页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库用户工具的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 f 数据仓库技术是二4 一世纪九十年代计算机应用技术的一个研究热点,用以满足用 户芥断增长的分析处理数据、获取信息的要求。建立数掘仓库系统有利于企业提高自 身的竞争能力,更向用户提供了有价值的信息,实现了双赢。y 本文主要分析、研究了数据仓库系统中的用户工具。用户工具用于帮助用户获取 数据仓库中的信息,其中主要包括联机分析处理、多维分析统计、报表的印刷以及图 形丁:具等。 本文哎计并实现了基于关系的三层o l a p 工具,其中包括基于星型模式的多维建 模,多维分析的实现以及多样的数据发布。 本文提出并实现了多维报表模型,以及相应报表格式的转换方法,并且用数字表 格、图形等多种形式展示结果。 在0 【, p 工具中采用了x m l 作为元数据交换的标准,从而实现各个功能构件的集 成与交互。 在分析研究的过程中,本文以现实的连锁药店数据仓库系统e - c h a i n 为例t 说明 了如何利用这些方法和原则来实现数据仓库系统的用户工具。 关键词:数据仓库,联机分析处理,, 胃p z g 星型模式,多维模型 a b s t r a c t d a t aw a r e h o u s e ( d w ) t e c h n i q u ei so n eo ft h em o s tp o p u l a rc o m p u t e rr e s e a r c h h o t s p o t si n1 9 9 0 s i tf u l f i l1 st h ei n c r e a s i n g n e e df o ra n a l y t i c a lp r o c e s s i n g a n di n f o r m a t i o nr e t r i e v a l a n dt h ed v s y s t e m s b e n e f i tf o rb o t he n t e r p r i s e s a n dc u st o m s t h eu s e rt o o l si nt h ed ws y s t e m s ,w h i c h a r eu s e df o rr e t r i e v i n gi n o r m a t i o n inw a r e h o u s e 。i sm a i n l ya n a l y z e d a n dr e s e a r c h e d t h e y i n c l u d e0 n i in e a n a l v t i c a lp r o c e s s i n g ( o l a p ) ,m u l t i d i m e n s i o n a la n a l y ms ,r e p o r tt o o l s ,c h a r t t o o l sa n ds oo n at h r e e 一1 a y e ro l a pt o o lb a s e do rr e l a t i o n s h i pi sd e s i g n e da n di m p l e m e n t e d t h et 0 0 1i n c l u d e sm u l t i d i m e n s i o n a l s t a r s c h e m am o d e li n g a n a i y z i n g a n d in f o r m a t i o i lr e l e a s i n g inv a r i o u sw a y s t h em u lt i d i m e n s i o n a lr e p o r tm o d e l a n dc o r r e s p o n d i n g d a t af o r m a t t r a n s f o r mm e t h o da r ep r o p o s e da n di m p l e m e n t e d a n dt h ed a t a a r es h o w e di nb o t h t a b l e sa n dc h a r t s t h e0 1 a pt 0 0 1a d o p t s t h e i n d u s t r y s t a n d a r d x m l ( e x t e n s i b l em a r k u p l a n g u a g e ) ,w h ic hisu s e df o rm et a d a t ae x c h a n g in ga n dc o m p o n e n t sint e g r a t io n t h isp a p e rt a k e sa na c t u a lc h a i nd r u gs l o r e sd ws y s t e m e c h a i na sa n e x a m 廿1 et oi l l u s t r a t eh o wt of o l l o wt h e s ep r in c i p l e sa n dm e t h o d st o i m p l e m e n t d ws y s t e m sa n dt h e i ru s e rt o o l s k e y w o r d s : m u l t i d i m e n s i o n a l a鲫鼬盯n s以吣盯惦胛 乩e惦n吼 a ln ; 0 m 南京航空航天人学顶 “学位论文 1 1 传统m i s 系统的发展 第一章绪论 计算机应用从科学计算进入数据处理是一个划n 口代的转折,使计算机从少数干: 学 家手中的珍品成为广大科技人员和管理人员工作中的得力助手和有力工具。 数据处理是指对各种形式的数据进行收集、存储、加工和传播的一系列活动的总 和。 数据库是数据管理的重要技术,是计算机科学的一个重要分支。并且,数扼库管 理系统( d b m s ) 早已经从专用的应用系统发展成为通用的应用系统。因为数据库j 有 数据结构化、最低冗余度、较高的程序与数掘的独立性、易于扩充、易于编制成川程 序等优点”,各类管理信息系统( b i i s ) 几乎都是建立在数据库设计之上。 传统的b i i s 系统在数据存储、管理、查询和支持只常事务等方面做得干【| 当m 巴, 但是随着时代的发展,以及人类对信息探求要求的不断提高,传统的h i s 系统逐渐i a 示出其不足之处: - 往往只反映局部的数据信息很难做到反映全局、部分全局的信息: 更倾向于对数掘的同常业务操作; 不容易实现数据的对比、分析; 无法表示出企业随着时i 可变化的规律: 缺乏分析挖掘能力很难获得隐臧在数据背后的规律从而指导决策支持。 1 2 数据仓库系统的产生 当今,企业间的竞争f | 趋激烈,企业对计算机应用系统有了更多的需求,她已不 能满足应用系统仅仅处理具体的业务。企业要想在竞争中获胜或是取得有利地位,必 顽要能透过复杂而多变的商业环境,通过对比、分析等手段挖掘出其中的内在规:h 干 有用信息,从而快速作出方向性的决策和计划,并付诸实施。企业的经营管理者、决 策者必须要及时地从大量的原始数据中挖掘出有价值的信息并通过多种视角分析, 准确掌握企业的经营历史和现状,了解市场需求,从而作出重要的决策,山此产7 l 决 策支持系统( d e c i 8 i o r ls u p p o r ts y s t e m s ,d s s ) 。 决策支持系统在数据的处理、组织和管理方面同传统的m i s 系统有着很大不同。 一般的数掘库管理系统由于自身的限制无法实现决策支持系统对较大规模数据的分 析,所以传统的b i t s 系统或者联机事务处理( o l t p ) 显得力不从心,它无法实现对数 数据仓席川户j j l 的j l i f 究1 实现 拥的深层分析和探索,于是人们丌始寻找一种新的适合1 i 决策支持系统数搦纠【织。j 符 理的技术,数据仓库( d a t aw a r e h o u s e ,d w ) 技术便在这种需求下应运j t d q - 。 数据仓库技术是为了实现对数据的分析、挖掘,用于支持决策管理。i , l 以晓,数 据仓库是一个统一的数据平台,从而使人们很容易实现以上目标。 1 3 选题依据与研究现状 i n t e r n e t 和数据仓库技术是九十年代出现的两大热点它们似乎有着一个j 同 的特点那就是最大程度的实现数据、信息的共享,以满足信息时代人们f 1 益增k 的 各种需求。数据仓库系统的实现根本上要求分柿化、网络化因此将二者结合起来, 是一件非常自然的事。 一方面,利用网络使在地理上分柑的人们都非常容易地获取信息:另。方面,利 用数据仓库技术将各类数据集成起来,便于用户查询分析,获得其想要的各种信崩、。 即利用网络这种载体以及各种相关技术和先进的经营理念,利用数据仓库技术将企、 及领域内的数掘进行发布。这样,不仅企业以及广大用户可以获得更有价值的信息, 而且企业和服务提供商可以获得高额的回报。早在1 9 9 6 年7 月,m e t ag r o u p ( 荚闺 著名的i t 咨询公司) 就提出了数据仓库将来的着眼点是“d w + r o l a p + w w w = $ $ $ ! ”。 本课题f 是利用数据仓库这个数掘信息的统一平台,着眼于利用用户工具从一 t 获 取并展示有价值的数据信息。即利用当今先进的数掘仓库技术和网络载体,结合a s 的现代化企业营运模式,重于获取、挖掘重要的信息和知识。 目6 “,多家公司都提出了数据仓库系统解决方案。就其数掘仓库用户工具束u f , o r a c l e 提出了o r a c l ee x p r e s sw e ba g e n t 用于支持基于w e b 的动态数据展现,以 及o r a c l ee x p r e s sa n a l y z e r 报告、分析工具;c a 公司的f o r e s t & t r e e s 前端数槲展 示工具:m j c r o s o f t 推出了s q ls e r v e r ,a n a l y s i ss e r v i c e s ,另外利用e x c e l 实现 数掘报表:b u s i n e s so b j e c t 推出了集查询、报表、o l a p 于一身的智能决笨支持系统 等等“。 这些产品在功能上己较为完善但仍然存在着很多不足:首先,它们这些产品都 与其特定的工具、环境捆绑在一起,并且各自都采用了自己的数据库产品,兼容性较 差:各阶段组织分析过程所依赖的或者产生的元数据有着各自独立的管理,彼此无 法实现j 享;配置这些产品的过程非常复杂,并且软硬件的成本很大。 正是基于以上原因,本文把研究的重点放在数据仓库的用户工具上,井设汁、实 现了基于o 【。a p 的用户工具。数据仓库的用户工具集中体现了数据仓库的价值所相:, 它用于帮助人们获取数据仓库中的信息。主要包括联机分析处理工具( o l a p ) 、可视 化工具、统计工具、图形用户界面建立程序、电子表格、报表生成器、数据访问工具- 使用山软件公司或第三方提供的工具实现数据的访问分析和显示的过程,并定制报 南京航空航- 人人学f i ! 【t 。0 他忿义 表和图形显示工具。 1 4 研究内容 本文结合星型模式的建模方法,给出了数据仓库系统中基于关系的联机分析处删 ( o i a i ,) :具的详细设汁、实现方案:结合电子表格e x c e l 的数据报表展示方法,抽 象出了一种多维报表的设计、实现方法,井实现了定制报表和图形显示工具。最后, 介绍了实现网页信息发椎的支持技术,并将o l a p 工具应用于一个现实的商、【k 数j i :仓 库系统。 本文的研究内容主要分为八章: 第一章介绍了计算机数掘管理的发展历程,闸述了本文的选题依据是将数仓j 1 j 技术与i l l t e r n e t 结合起来,从而实现信息的查询和共享,并给 上 了本文的研究l 摔 和研究的要点。 第二章讲述了数据仓库理论,包括其概念和特点,分析了数据仓库的佛系结构, 并针对数掘仓库技术中的几个重要部分:体系结构的设计方法、e t l 工具、,i 数掘,:等 进行了分析,最后对用户工具的研究内容进行解释。 第三章重点介绍了利用o l a p 技术进行建模,并引出多维模型的概念,概要分析 了三层o l a p 工具的设计方案,并对其特点进行了音c j # j i - 。 第四章介绍了星型模式建模方法,并利用它构建o l a p 工具的分析主题,定义了 详细的数据结构,并且利用x m l 实现o l a p 工具元数据的交换。 第血章详细分析了o l a p 工具中分析请求和多维分析的实现,抽象出一种多维报 表模型以及多维分析对象,最后解释了利用s q l 的查询实现,并给出了优化奄砌的卅 施。 第六章重点阐述了o l a p 工具中的展示工具,包括报表数据格式的转换,定 , l j j l f j j 报表印刷工具以及图形比较工具。 第七章以一个目标数据仓库系统为例实现了o l a p 工具的应用,介绍了系统的背 景和用户需求,并对系统进行了功能模块的分析和剖析,对其重要的部分给二,了图示 说明。 第八章对全文进行总结和展望。 图1 1 显示了本文的组织结构。 垫塑鱼堡坐l ! 星盟业壅生塞型 | 玺| 1 1论文内容组织 4 堕墨堕至堕盔叁兰塑! = ! ! ! 堕堡苎 第二章数据仓库技术 1 9 9 2 年,业界公认的数据仓库之父w 】 i n m o n 在其所著建立数据仓库 5 巾提出了数据仓库的概念“1 :数据仓库是面向主题的、集成的、稳定的、随时m 变化 的数据集合,用以支持决策管理。 定义中指出了建立数据仓库系统的目的在于为制定决策管理提供信息依据,片指 出了数掘仓库四个重要的特点。 2 1 数据仓库的特点 首先,数据仓库是面向主题的。主题在逻辑上对应企业巾某个宏观分析领域所涉 及的分析对象”1 ,例如销售量,库存量等都是主题。f 像企业为了发展要进行、止务重 组一样,为了支持管理决策需要也要按决策业务科目的要求重组o l t p 系统中的数据, 并要按不同主题、分析内容分别组织使之方便使用。这种基于主题的模式从j 】。,j 皮 来看就是多重的数据重组结构n ,。 其次,数据仓库是集成的。数据仓库中的数据来自于多个不同的操作型、历l 殳数 据源,而且不同的数据源可能对相同事物的表达不相同,例如:表达性别,可能有( m , r ) ,或者是( 0 ,l ) ,为此在将数据载入数据仓库时要将数据进行转换并儿消洗, 除去不适合的数据,确保数据完整统一,最后将数据加载到数据仓库中。 再次,数掘仓库是稳定的。数据被载入到数据仓库之后,一般很少进行变动,除 了加载新的数据,或者为了减少数据量将部分历史数据进行备份,转移。所以,往 不同的时刻,钊对数据仓库进行相同的分析查询,应该得到相同的结果。 最后数据仓库是随时问变化的。时间在数据仓库中是一项很重要的信息,所以 在数据加载时,很多数据要加上时间戳。而且,随着时问的推移,要不断加载新的数 据,所以晓是随历史不断演化的。 2 2 与传统m i s 系统的区别 由此可见,数据仓库系统与传统的m i s 系统( 或者o l t p 系统) 有着很多区别, 同时又有一定的联系。 首先,数据仓库系统是为了分析,并最终辅助决策管理,所以它是面向企、i p 的t 1 i 高级管理人员,尤其是企业发展方向的掌握者:而传统的o l t p 系统大多是为了处删 r | 常的业务管理,所以它是面向一般的业务员、操作员。 其次,一般数据仓库系统的数掘来源于m i s 系统所产生的大量历史数据或肯j # 它 数据仓n :川户i j 1 f i ;j f , j r 究o j 实现 数掘源,在很大意义上,数据仓库系统利用了o l 。t p 系统的数据,并按照:f i = = 业的。卜题 重新组织数据,建立一个企业内部或者部门内部的统- - f l , 3 数据平台,所以底层数据组 织的设i :t 是田绕主胚来展丌的;而传统的o l t p 系统要根据企业业务的规则来设刮数 据模式。 第三,数据仓库系统一般只对数据进行查询,几乎不进行插入、删除、更新等操 作( 除了在仓库系统周期性维护时) ;而传统的o l t p 系统则要频繁地进行插入、删除、 更新等操作。表2 1 列出了两者的比较。 表2l数据仓库系统与传统m j s 系统的比较 数据仓库系统传统m i s 系统 实现目标分忻卉询,决策支持日常业务处理,数据处理 使_ l j 川户企业经理、决策者多为操作员 数据组织的目标面向主题面向业务操作 对数据的操作多为卉啕、计算,报少插入、插入、删除、更新、布咖 删除、更新 数据更新的频率周期性( 如按月载八数据)非常频繁 2 3 数据仓库的体系结构 数掘仓库体系结构的提出是为了简化数据仓库方案的设汁、实现和管理。f l j j :拙 述在构建、使用和管理数据仓库的过程中各个构件的相互关系”7 。基于用户的反馈以 及针对数据仓库的新的发现,数据仓库的体系结构将随着时问不断发展和完善。 数 据 仓 库 管 理 墼堡鱼鹰嫩堡 i 墼擐垒腹焦川 数据仓库分析主题设计与构建 1 ii 终端岂户 卑一蛘 圆圆叵匝叵 元数据库( 持久性共享元数据) _ 数据仓库管理 = 数据流 一j c 数据疏 剀2 1数据仓席的体系结构 从图2 1 所示的数据仓库系统的体系结构中,我们可咀看到,在横轴上体现了数 据仓库系统在时唰上的发展、演化。从数据仓库的设计、构建到数据仓库的使用;在 纵轴上体现了数据仓库的多层管理体系,并最终依赖元数据来管理和集成整个数据仓 6 审 南京航空航人人学硕l 学位沧史 库系统。 从图中还可以看到数据从源数掘经过整合到数据仓库、数据集市,再经过分析处 理最后到用户界面显示。数据具有流动的单向性以及存储的层次阶段性。f 面简l n 介 绍这个数据流动过程中的相关实体和处理。 2 3 1 数据源 i f 女h | j i 面提到的,数据仓库系统的源数据取自m 1 s 系统或者o l t p 系统所产生的 操作型数据,或者称之为历史数据。从这种意义上说,若没有了这些数据,数据仓库 系统将成为无本之木,无源之水。 同时,又要充分考虑源数掘的特征,阱便能够以较小的代价来获取这些数搦信息。 例如,当前关系数据库技术相当的成熟,并且在大量的系统中均采用了r d b m s 来管理 数据,所以在集成时采用基于关系的数据仓库存储、管理方法将是目简报纤济的选 择。 2 3 2e t l 工具 一般的,关系型数据库、非关系型数据库( 例如i m s ) 以及其他各利l 数掘文r l :均 可以作为操作型系统的数据文件,在这种系统中数据是当前的,详细的并且不断更 新变化。而数据仓库要把操作型系统产生的源数据、历史数据经过系列的变化集成 到数据仓库之中。这些变化主要包括抽取( e x t r a c t j o l l ) 、清沈( c l e a n s in g ) 、转换 ( t f a l l s f o r m ) 、最后装载( l o a d ) ,它们可以简称为e t l 工具。最终在数抓仓库、数 据集市巾,数据有一致的数掘形式,以便于分析决策。 2 3 3 数据仓库与数据集市 数据仓库按照企业业务主题模式存储事务型系统信息和历史数据信息:数据集1 日 是指为了某种分析目的而组织的一些数据信息,一般是面向企业的部门。它们用1 :实 现数据的存储、管理。当然,为了便于分析查询,将采用一些特定的数据组织的方法, 从而构建成用于分析的数据平台。数据源经过e t l 工具进入数据仓库、数掘集市。 2 3 4 数据导航与用户工具 终端用户工具( e n du s e rt o o s ) 用于获取数据仓库中的信息主要包括各桌而 产品、定制的分析工具和客户程序。通过前端的工具分析、查询仓库叶i 的数折:,挖掘 其中的信息,并通过报表等各种形式展示。 数据仓库的构建和管理非常繁琐、复杂,同州包含许多复杂的技术,如数据的抽 数掘仓席川户i :且的研究j o 实现 取、转换、加载( e 1 l ) ,复制,数据一致性维护,各种主题的维护,元数据的管删等 但是本文研究的重点在用户工具,用于获耿仓库中的信息同时将其用各利一形,胜_ i 给用户。它是数据仓库系统的一个窗口,通过它,可以看到仓库中大量有价值r i 月一 季度一 年是时蚓的一个层次,其中反映了四个级别。 数据仓库j l j j l lij 1 的脚究与实现 l 芏| 3 1 多维数据模剐实例 针列多维数据模型,可进行多种操作如旋转( p i v o t i l l g ) ,转动立方体以裎示 特定的面;切片、切块( s li c i n g ,d i c in g ) ,在某个维的一个参数值、值域上对立方 体进行投影,得到立方体的子集;在某个维上将立方体向高级别聚合,如在时问维【: 由r 向月聚合,称之为上翻( r o l 卜u p ) ,与上翻相反方向的操作称为f 铺 ( d r i ll - d o w n ) 。 多维模型是数据仓库多维分析的逻辑模型,而数据立方体可以作为多维模型的实 现抽象。目前,已有几种有关数据立方体的理论模型。其中,i b ma l m a d e n 研究【1 1 1 5 ( i b mh l m a d e nr e s e a r c hc e n t e r ) 提出的多维数据立方体模型最具代表性,0 l 牛 细内容及特点参见文献 1 0 5 3 。 3 4 构建面向主题的o l a p 工具 3 4 1 传统分析处理系统的局限 同样的,o l a p 工具也要根据业务规则进行仓库的数据库设i r ( 注:在此晓的均 是基于关系数据库的o l a p ) 。在传统分析系统中,各项业务分析,报表数据的获取都 是通过一套各自的分析查询来实现的,例如要实现商品销售的统计,系统实现吲就是 针对具体的销售表和相关维表进行编程实现,是种完全静态的绑定,若业务规则莉 有改动,则必须重新分析,并修改源代码。如若又要增加商品库存的统计则义要进 行一系列的编码浪费了很多人力和资源。而且维护的代价很大,随着系统功能f j 珥i 断增加,对分析、统计工具的修改将要持续,这必然导致系统的不稳定和一些可i 棚窬, 错误出现的几率将不断上升。 3 4 2o l a p 工具的改进 在经过了对系统的分析之后,我们发现,在个业务领域内,有很多内容是相通 4 ! ! ! 兰堕至些盔叁堂堡土竺丝堕兰 的、可以公用的。例如观察数据的角度,即所谓的维度在很多主题中是共有f l ,h 在 主题分析中反复出现,这些维度的信息就可以在业务分析中被共享。有了多维模型后 我们可以看出,所有的主题分析其本质是相同的。 因此我们作出了修改,将建立主题的过程单独抽取出来,出数掘仓库管理员根据 具体业务动态的配置,并通过元数据来记录详细的配置信息。由此,增加或删除个 分析主题变得比原先容易得多,只要高级管理员增加或删除一个主题便可( 当然,底 层的数掘库设计要作相应调整,并且要获取或删除相关数据信息) ,无需另外修改源 程序或者说只需少量修改,系统的维护变得非常简单,大大节约了人力物力,l q i l i 也 无形巾提高了系统的稳定性”“。 3 5o l a p 工具的设计方案 本文给出了一个o i ,a p 工具的设计方案。”,该方案是基于r o l a p ,也就是说,底 层采用关系数据库来实现。图3 2 表示了o l a p 工具的用例圈。由系统管理员维护底 层的数据库t 针列领域内的业务逻辑建立和配置各个分析主题;用户针对主题,发 分析请求,以获得想要的结果数据。 一 幽3 2 o l a p 系统州倒模型 3 5 1 三层体系结构 下面给出了一个三层的o l a p 工具的设计实现方案”i ,如图3 3 所示。 数据仓忭j i jj i ? 1 的l i j 究o 。艾现 谚田恤 幽3 3o l a pi 凡的体系结构 o l a p 工具给最终用户提供了面向企业内部应用逻辑的视图,这种多维观| 】,称 之为语义层( s e m a n t i cl a y e r ) 或用户层。它向用户屏蔽了底层数据的物理模j f f j - n 节提供了访问,并从多个角度分析主题数据的能力,主要包括用户的分析晴求和对 返回结果的展示样式设定。语义层一般是面向企业的高层领导和决策者,他们指定分 析、比较,获得相关数据,并通过报表等形式展现出来,山此可以发现舰律,得到结 论并作出预测和方向性的决策。 一个多维视图应被存为元数据,并通过管理层( a d m i n is t r a t i v el a y e r ) 米处雕 它的创建、修改和配置。管理层是实现多维视图的核心所在,它主要包括主题的配胃 管理、主题的多维模型分析以及数据发布。管理层是面向具有专业知识的高缴数据仓 库分析、设计、管理人员,他们了解数据仓库、o l a p 的分析、建模。 管理层最终要访问底层的数据,称之为数据层( d a t a 】a y e r ) 。在数据层巾,存 放了己组织好的关系型数掘,并出r d b m s 管理。这些数据可以是数据仓库或数据集市 中的数掘,在一些情况下也可咀是直接经操作型数据源转换而柬的数据。 3 5 2o l a p 工具的特点 首先它采y l l - - 层结构将数据管理,分析处理管理和用户界面分丌层次清晰 南京航空航犬人学硕卜学佛论文 其中的各个功能模块关系层层相扣,并且底层模块向高层模块提, f l n 务; 各个模块提供了不同的抽象层次和透明性,例如在用户层,用户看到的足个 个与业务相关的分析主题,又如在多维分析实现部分,它封装了底层的数掘库访i - j , 在逻辑上真丁f 呈现了个多维视图模型: 能够动态的组织、配置各种分析主题,使系统易于维护降低成本; 元数掘将各个功能模块紧紧粘合在一起; 整个数据结构呈现出以分析主题为中心的特点,如图3 4 所示,关于各个部分 详细的数据结构定义将在后面的几个章节中分别介绍; 具有多样的数据展示能力,可以通过g u i 的方式、w e b 的方式将数拢:信息j 行 发如,并用报表,各种图形等多样的手段形象、生动地展示数据。 3 6 本章小结 削3 4数据结构以主题为中心 本章首先介绍了o l a p 的概念、特征以及分类阐述了o l a p 数据存储平u 处理的方 法。分析了数据仓库的抽象概念模型一多维模型。基于以上理论,提出了本章、也足 本文的一项核心内容:面向主题的o l a p 用户工具。它采用三层结构,以实现簿一层 各个不同级别的抽象,并给出了概要的体系结构图以及o l a p 工具的特点,其1 1 i 的各 个功能模块的详细设计、实现将在后续的章节中逐一论述。 数据仓席川户i 且的 0 i 究匕实现 第四章构建多维分析主题 在三层o l a p 工具中管理层是核心部分,主要包括主题管理,多维分析处耻以及 数据的发斫i 。主题管理是要根据业务分析的需要构建领域内一个个的主题。限如j 面 提到的,每个主题就是一个多维模型,可以将其想象成一个立方体( 三维) 结构或者 超立方体( 超出三维) 结构,主题的指标在所有维度的交叉点处。在o l a p :具r 仉 底层的数据由r d b m s 管理,要将这种多维模型映射到底层的关系数据库表中,可以采 用星型模式。 4 1 星型模式 0 【a i ,以多维分析为基础,多维模型是多维数据库和数掘仓库的数挪 逻辑模, 日口面提到了多维模型的各种操作:旋转、切片、切块、上翻、下钻等,要将多维分析 在关系中得以实现,一般采用星型模式( s t a rs c h e m a ) ,此外还有雪花模式( s n t ) w f l a k e s c h e m a ) 。 4 1 1 星型模式的含义 星型模式的核心思想是要在数据库中的数据之问建立简明、清晰的关系,它址 张中心事实表( f a c tt a b l e ) 和若干个逻辑上围绕这个事实表的相关维裘 ( d i m e n s i o nt a b l e s ) 组成。事实表中包含了业务事实数据,而维表分佰在目 实表的 外围,就像星星的角一样,描述了业务的各个维度。多维分析是面向主题的事实表 拙述了主韪的数据,维表则从不同的角度描述对主题的分析尺度”。 产品表 铺售事实袭 幽4i屉刑模式 南京航空航天人学硕t 他论文 事实表中的每条记录除了指标外含有每个维表的外键( 主键在各个维表中) , 这些键的组合构成了事实表的主键,将事实与各个维联系起来事实表巾在所有维 交叉点即为一个或多个指标。星型模式具有建模方便,结构简单清晰,便于用户理解 等优点,并能支持用户从多个维度对数掘进行分析。图4 1 显示了一个典型的越j 诅模 式。 4 1 2 为什么采用星型模式 在传统o l t p 系统中,为减少数据冗余,消除关键数掘操作( 插 、删除、更新) 可能引发的异常,要针对关系模式进行规范化( n o r m a l i z a t i o n ) 处理,即根捌需要 对关系进行一定程度的分解。这样数据库模式往往较复杂,包含很多表表与表之n - j 的联系较多。在这种模式下,提高了对数据的操作效率但降低了数据的查询敛:钲。 在数据仓库系统中,主要进行联机查询、分析处理,因此往往查询比较复杂,而插入、 删除、更新的操作很少,显然规范化的数据库设计方式已不适合了,必须发汁简即的 数掘库模式。星型模式就是一种行之有效的方法,它让不具备数据库专业知l 谚 的、i k 务 专家也能够比较容易地理解、使用数掘仓库中数据库的数据模式“。 由此,使用星型模式有其自身的优势: ( 1 ) 有利于构造多维分析: ( 2 ) 规范了s q l 语句的联机操作,减少连接层次和复杂性,提高了查询性能: ( 3 ) 有利于s q l 的动态生成: ( 4 ) 支持多表连接。 4 1 3 星型模式的设计 星型模式的中心事实表包含的数据量很大,而且随着时剧的推移不断增加。目 实 表的数掘部是从m i s 系统或是其他数据源中载八的。事实表的设计要注意以下求项: ( 1 ) 事实表中应该包含业务分析和决策所需的所有基础数据; ( 2 ) 事实表中的数据粒度要根据业务需求来确定: ( 3 ) 数据的记录方式要根据用户的业务需求确定。 而维表的内容相对比较固定,不随时间的推移显著变化并且一般只占少量的存 储空间。维表的设计要注意到维的各个级别,并且维表的数据要尽力穷尽业务所需的 所有取值。 通过对源数据进行校验、整理,用以保证数据进入仓库时是一致的。但这还远远 不够,对数掘仓库的数据库中的数据要进行一致性维护主要通过星型模式中:l 键 和外键m 的参照完整性( r e f e r e n t i a li n t e g r i t y ) 实现。它要求事实表qj 外键的墩 值必须属于相应维表中主键的值域。在星型模式中主键和外键之间的连接是表】n j 连 iq ;强 数据仓库j i j ,、i :具的l i j 究1 ,实现 接【j o in ) 的唯一途径。 4 1 4 雪花模式 雪花模式是星型模式的一种扩展,它剥维表进一步层次化。它的优点是最大限度 地减少数据存储量并且联合较小的维表来改普查询性能”。 雪花摸式增加了用户必须处理的表的数量同时也增加了一些查询的复杂度。雪 花模式可以使系统进一步专业化和实用化,同时降低了系统的通用程度。”。 4 2 主题管理 在面向主题的o l a p 工具中,主题管理实现了向多维分析模块和用户层提供多绯 分析主题,而屏蔽了内部的库表实现细节,即透明地向用户提供分析主题。 考虑到在一类商业应用逻辑下,有些维度内部的层次、级别关系较为固定,h | j 不 受分析主题的影响,能较为普遍地适用于一组相关主题,这些维被称之为共亭绯”1 , 共享维能够被多个分析主题用作维,而不必针对每个里型模式重复定义一套相同的维 信息:另有一些维,是与某个特定的主题关联紧密,称之为私有维,它们只被特定1 | 题用作维。 为了实现维度能够被多个主题共享,所以将对维信息的管理和对多维主题的管理 分7 l :,在维度信息管理模块中定义维度,包括指定其剥应的维表,设定内部的层次、 级别关系等:而在多维主题管理模块中设定主题,主要是指定事实表,设定指标干维。 图4 2 显示了主题( 多维模型) 管理的用例图。 削4 2多维模型管理j h 例模型 其中分析主题的建立是基于维度的管理,因此要从维度管理蜕起。 的京航空肮火人学坝 :0 0 似沦文 4 2 1 维度管理 维度的配置要幽数据仓库管理员柬完成。首先指定维度列应的维表,设定维度 名称和重要属性;从字典信息中获取维表的字段列表,从中选出维度各个级别的剥应 字段,并按照由高到低的顺序排列。如果出现一个维度中有多个层次,则钊对每个层 次分别发定其各个级别。默认的所有的维都有个最高级别一全体( a 1 1 ) ,表示包含 这一维的所用成员。维度管理将这些设定的信息通过元数据记录、保存。 维度管理涉及到的信息包括维度信息,维级别信息,和维成员信息。 ( 1 ) 维信息 一般情况下,每个维只有一个层次,但当维很复杂时,i j 能有多个层次, f 州f 每 个层次都要记录其信息,以便针对不同的分析要求选择不同的层次( 关于层次的概念 参见第3 3 节) ; 维信息的数据结构定义如下: d i m e n s i o n r e c ( 叭m i d ,d i m _ n a m e ,d m t b l n a m e ,h e v e l c o u n t s h a r e d ) : 其中d i m j d 是维度的i d 号,用于唯一标t 5 维度;d i m n a m e 是用户给维度的命 名:d i m t b l n a m e 是维表的名称;l e v e l c o u n t 是维度的级别数目;s h a r e d 表征垓维度 是否是共享维。 ( 2 ) 维级别信息 针对每个维度,都可能有一个或多个级别,表示不同的聚合粒度( 关于级别的概 念参见第3 3 节) ; 维度数别的数据结构定义如下: d i m l e v e l r e c( l e v e l n a m e ,l e v e i f l d n a m e d i m i j l ; 其中l e v e l n a m e 是维度级别的名称,l e v e l f l d n a m e 是指定维表的字段名称, d a t a t y p e 和l e n g t h 分别代表字段的数据类型和长度,l e v e l n o 是级别号,从1 丌始, 2 ,3 级别依次降低( 0 代表最高级别a 1 1 ) d i m i d 代表所属的维度r d 。 ( 3 ) 成员信息 用于记录每个维度的各个数别的成员信息,一般维表的数掘量不大,且信息捌剥 固定,因为成员分柑呈现树状,所以每个成员要记录其父节点; m e m b e r r e c ( m e m b e rjd ,s t r v a ll i e ,p a r m e m b e r i d ,l e v e l n o ,口j 亿j 曲: 其巾m e m b e r j d 和p a r m e m b e r _ i d 分别代表成员及其父成员的i d 号,s t r v a 】t i e 是维度成员值的字符串表示l e v e i n o 和d i m _ i d 含义同上。 每个维的一个层次都可能包含一个或多个级别,而每个级别上都可含有离敝的成 员取值,维度、维度级别和维度成员关系如下图所示: 一 墼塑垒堑型! ! :墨塑业壅兰壅堡 维皮定义 维度成员 需要说明的是,i d 号和名称( * n a m e ) 代表了两个级别的命名,一个面向计算机, 另一个面向用户,都要求不可重复。在内部处理时一般都是通过i d 号来 : l 别或哲 关联t 在所有数据结构定义中,加粗表示唯一( 类似主继) ,剁体表示关联( 类似外 键) 。 4 2 2 多维主题管理 多维主题的配置同样是由数据仓库管理员来完成。主题管理用于配置、维护领域 拥关的一个个业务分析对象。它将逻辑上的主题与底层的数据联系起来。 多维主题管理的信息包含主题的概要信息主题的指标信息,维度及表关联信息。 ( ”主题的概要信息 主要记录了与主题相关的各种浇明信息,相关的数据结构定义如下: s u b j e c t r e c ( s u b j e cl i d ,s u b j e c t n a m e ,d e s c r i b e f a c t t b l n a m e ,c r e a t o r d a t e ) : 其巾s u b j e c t i d 是主题的i d 号,s u b j e c t n a m e 、d e s c r i b e 是主题的名称年【i 况1 归, f a c t t b l n a m e 是主题事实表的名称,c r e a t o r 、d a t e 是创建者及创建时问。 ( 2 ) 指标信息 记录主题中的各项指标信息,定义如下: m e a s u r e r e c ( m e a f d n a m e ,m e a n a m e ,a g g r e g a t e t y p e ,& t b j e c t 脚: 其中m e a n a m e 是指标的名称( 这在用户建立查啕,以及报表中将是很重要的信 息) m e a f l d n a m e 是事实表中对应的字段名称,a g g r e g a t e t y p e 表明指标聚合的类型 ( 女口a v g ,s u m ,c o u n t ,m a x 】,f i n 等) ; ( 3 ) 维度信息 记录星型模式中周围的各个维度尤其要建立事实表中维字段( 外键) 和维衷t , 的主键间的关联。 d i m e n s i o n r e c ( 0 i m j d ,d i m p k e y f l d n a m e f a c t f k e y f l d n a m e ,s u b j e c t m ) : 其中o i m _ i d 是维度的i d 号,d i m p k e y f l d n a m e 指定维表中的主键字段, f a c t f k e y f l d n a m e 指定事实表中i 0 m - 键,s u b j e c t i d 是主题i d 。 每个主题都包含若干个指标,以及维度当然由于有兆享维的存在,一个,孛维 南京航空航犬人学硕l 学付论文 可能被多个主题应用,它们之间的关系如下图所示 4 2 3 元数据的交换 现在数据仓库所面临的一项大挑战是集成在设计、转换、存储和管理数据仓库时 所需要的所有不同的工具,共享并复用元数据的能力可以大大减少构建、使用和管理 数据仓库的丌销,降低复杂性”“。 0 m g 组织提出了通用仓库元模型”。1 ( c o m m o nw a r e h o u s em e t a m o d e l - o t m ) ,旨在 方便数据仓库工具、平台以及在分和式异构环境中的元数据交换a 现在包括1 1 1 m , 0 n is v s ,n c r , y p e r i o ns o l u t i o n ,o r a c i e ,u b sa g 等多家公司共同提交了c w m 胤 范,并得到了s u n ,h p 等许多公司的支持。 c w m 基于三个重要的工业标准: u m l :u n i f i e dm o d e l i n gl a n g u a g e ( 统一建模语言) ,是o m g 组织的一个建模 标准; m o f :m e t ao b j e c tf a c i 】i t y ( 元对象设备) 是o m g 组织元模型、元数掘库的 标准: x m i ! x m lm e t a d a t ai n t e r c h a n g e ( x m l 元数据交换) ,是o m g 组织元数据交换 的标准。 图4 3 显示了由三个标准形成的o m g 元数据库体系结构的核心: l 苗苗凿7 t o o lsa n d r e p o s i t o r i e s +干 o b j e c t l r e q u e s f 。( 志 o b j e c ts e r v i c e s | ! l4 3o m g 元数据库( m e t a d a t ar e p o s i t o r y ) 体系结构 现在让我们把目光投向业界数据交换的标准:可扩展标记语言。“8 曲譬 数据仓席户f :贝n 口聊f 究与实现 4 3 可扩展标记语言 x m i 。是由w 3 c 组织于1 9 9 8 年2 月发柑的一种标准,是一套定义语义标记的觇| j ! | j , 这些标记将文档分成许多部件并对这些部件加以标识。它是- - q , 元标记语白,能够定 义用于定义其他与特定领域有关的、语义的、结构化的标记语言。的句法语言。 一般柬浇,一篇x m l 文档包括三个要素:数据、结构以及显示方式”。列。 :t m l , 来说,显示方式内嵌在数据中,这样在创建文本时,要时时考虑输出格式,如果因为 需求不同而需要对同样的内容进行不同风格的显示时,要从头刨建一个全新的文档, 重复二r 怍量很大。此外i t m l 缺乏对数据结构的描述,对于应用程序理解文档内容、 抽取语义信息都有诸多不便”“。 x m l 把文档的三要素独立丌来,分别处理。首先把显示格式从数据内容巾独讧 来,保存在样式单文件( s t y l es h e e t ) 中,这样如果需要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 区块链能源管理研究-洞察及研究
- 2025年数字版权交易创新跨境平台开发项目可行性详尽分析
- 2025-2030药用食品代工模式分析及自有品牌与ODM发展路径研究报告
- 无公害蔬菜科普教育基地创新创业项目商业计划书
- 小龙虾美食社区创新创业项目商业计划书
- 智慧农业信息化基础设施创新创业项目商业计划书
- 坚果林下经济多元化创新创业项目商业计划书
- 教育信息化0时代移动学习应用市场潜力与用户行为分析报告
- 叉车安全方面的测试题目及答案解析
- 会计从业考试资格题库及答案解析
- 国家保密培训课件
- 工商业光伏施工总承包合同
- 参考儿科急危重症抢救预案及流程
- 高铁司机长时间专注心理调节专题报告
- 关于医院“十五五”发展规划(2026-2030)
- T/CHTS 10130-2024高韧超薄沥青磨耗层技术指南
- 活动人员分工安排方案
- 米糠油项目可行性分析报告
- DB31T 1235-2020 高层民用建筑消防安全管理要求
- 《汽车构造基础知识》课件
- 《人工智能通识基础(慕课版)》-教学大纲、课程标准
评论
0/150
提交评论