已阅读5页,还剩57页未读, 继续免费阅读
(计算机软件与理论专业论文)原生xml数据仓库模型研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着数据仓库技术的发展,数据组织越来越复杂,数据源也越来越多样化, 传统的数据仓库已经不能很好地适应新的要求。x m l 是一种可扩展的标记语言, 具有可扩展性、结构性、平台独立性、自描述性、灵活性、规范、简单性等优点。 x m l 具有上述的优点,因此,把x m l 和数据仓库结合起来,构造原生x m l 数 据仓库就能很好地解决传统数据仓库遇到的问题。本文以此为背景,对原生x m l 数据仓库进行研究探索,提出了基于模式树的x m l 数据预处理模型和x m l 多 维数据模型,为决策支持提供了良好的数据基础。 本文首先阐述了数据仓库的产生和发展,介绍了数据仓库和x m l 的关键技术, 包括数据仓库的体系结构、o l a p 相关理论、多维数据模型及d t d ,x m ls c h e m a 等技术。 随后提出了基于模式树的x m l 数据预处理模型_ x e t l ,从数据模型和谓词 模式研究x e t l 模型,然后基于x e t l 模型定义并实现e t l 过程中属性选择、 空置处理、聚合以及属性重命名四类主要的转换处理操作。 接着,研究x m l 数据仓库的存储标准,提出了原生x m l 数据仓库的语义定 义从而建立原生x m l 数据仓库多维模型,并证明原生x m l 数据仓库多维模型 的完备性和有效性。 最后,在该数据立方体上实现了各种o l a p 操作,初步完成了原生x m l 数 据仓库系统。这种数据仓库的实现方案,保证了数据仓库系统的稳定性、灵活性 和可扩展性,适应了新一代w e b 应用的需要。 关键字:数据仓库;x e t l 过程处理;多维模型 a b s t r a c t w i t ht h et e c h n o l o g i c a ld e v e l o p m e n to ft h ed a t aw a r e h o u s e ,t h ed a t ao r g a n i z a t i o n i sb e c o m i n gm o r ea n dm o r ec o m p l e x ,a n dt h ed a t as o u r c e sa r ei n c r e a s i n g l yd i v e r s i f i e d t h e r e f o r e ,t h et r a d i t i o n a ld a t aw a r e h o u s ec a nn ol o n g e rv e r yw e l la d a p tt ot h en e w r e q u i r e m e n t s x m li sa ne x t e n s i b l em a r k u pl a n g u a g e ,w h i c hh a st h ea d v a n t a g e sl i k e s c a l a b i l i t y , t h es t r u c t u r a la b i l i t y , p l a t f o r mi n d e p e n d e n c e , s e l f - d e s c r i p t i o n ,f l e x i b i l i t y , s t a n d a r d i z a t i o n , a n ds i m p l i c i t y s i n c ex m lh a st h ea b o v e - m e n t i o n e da d v a n t a g e s , t h e r e f o r e ,w h e nw ec o m b i n ex m lw i t hd a t aw a r e h o u s e sa n dc r e a t et h en a t i v ex m l d a t aw a r e h o u s e ,t h ep r o b l e m se n c o u n t e r e di nt h et r a d i t i o n a lw a r e h o u s ec a nb ew e l l s o l v e d b a s e do nt h i sb a c k g r o u n d ,t h i sp a p e rh a sas t u d ya n dp r o b ei n t ot h en a t i v e x m ld a t aw a r e h o u s ea n dp u tf o r w a r dt h ex m ld a t ap r e p r o c e s s i n gm o d e lb a s e do n p a t t e mt r e ea n dt h ex m lm u l t i - d i m e n s i o n a ld a t am o d e l ,t h u sp r o v i d i n gag o o dd a t a f o u n d a t i o nf o rd e c i s i o ns u p p o r t t h i sp a p e rf i r s t l ys t a t e st h ee m e r g e n c ea n dd e v e l o p m e n to ft h ed a t aw a r e h o u s e , i n t r o d u c e st h ek e yt e c h n o l o g i e so fd a t aw a r e h o u s ea n dt h ex m l ,w h i c hi n c l u d ed a t a w a r e h o u s ea r c h i t e c t u r e ,r e l e v a n to l a p t h e o r y , m u l t i d i m e n s i o n a ld a t am o d e la n dt h e d t d ,x m ls c h e m at e c h n o l o g y t h e nx e t l ,t r e e b a s e dx m ld a t ap r e - p r o c e s s i n gm o d e l ,i sp r o p o s e d x e t l m o d e la r es t u d i e df r o mt h ed a t am o d e la n dp r e d i c a t em o d e l ,a n dr e a l i z ei nt h ee t l p r o c e s sb a s e do nx e t lm o d e ld e f i n i t i o nf o u rm a i nc o n v e r s i o n so fa t t r i b u t es e l e c t i o n , t h ev a c a n c yp r o c e s s i n g ,p o l y m e r i z a t i o na n da t t r i b u t e sr e n a m e n e x t ,t h i sp a p e rr e s e a r c h e si n t ot h es t o r es t a n d a r d so fx m ld a t aw a r e h o u s e ,p u t s f o r w a r dt h es e m a n t i cd e f i n i t i o no ft h en a t i v ex m ld a t aw a r e h o u s ea n de s t a b l i s h e st h e n a t i v em u l t i d i m e n s i o n a lx m ld a t aw a r e h o u s em o d e la n dd e m o n s t r a t e st h e c o m p r e h e n s i v e n e s sa n de f f e c t i v e n e s so ft h en a t i v em u l t i d i m e n s i o n a lm o d e lo fx m l d a t aw a r e h o u s e l a s t l y , t h i sp a p e rh a sr e a l i z e dav a r i e t yo fo l a po p e r a t i o n si nt h ed a t ac u b ea n d h a sc o m p l e t e dap r e l i m i n a r yn a t i v ex m ld a t aw a r e h o u s es y s t e m t h er e a l i z a t i o n s o l u t i o no fs u c had a t aw a r e h o u s eh a se n s u r e dt h es t a b i l i t y , f l e x i b i l i t ya n ds c a l a b i l i t y o ft h ed a t aw a r e h o u s es y s t e ma n da d a p t e dt ot h e a p p l i c a t i o nn e e d so ft h en e w g e n e r a t i o no fw e b k e yw o r d s :d a t aw a r e h o u s e ;x e t lp r o c e s s i n g ;m u l t i d i m e n s i o n a lm o d e l 厦门大学学位论文原创性声明 本人呈交的学位论文是本人在导师指导下,独立完成的研究成 果。本人在论文写作中参考其他个人或集体已经发表的研究成果, 均在文中以适当方式明确标明,并符合法律规范和厦门大学研究 生学术活动规范( 试行) 。 另外,该学位论文为() 课题( 组) 的研究成果,获得() 课题( 组) 经费或实验室的资 助,在() 实验室完成。( 请在以上括号内填写课题 或课题组负责人或实验室名称,未有此项声明内容的,可以不作特 别声明。) 声明人( 签名) 研聊及 秒百年否月乡日 厦门大学学位论文著作权使用声明 本人同意厦门大学根据中华人民共和国学位条例暂行实施办 法等规定保留和使用此学位论文,并向主管部门或其指定机构送交 学位论文( 包括纸质版和电子版) ,允许学位论文进入厦门大学图书馆 及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博 士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘 要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。 本学位论文属于: () 1 经厦门大学保密委员会审查核定的保密学位论文,于 年月日解密,解密后适用上述授权。 () 2 不保密,适用上述授权。 ( 请在以上相应括号内打“”或填上相应内容。保密学位论文 应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密 委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认 为公开学位论文,均适用上述授权。) 声明人( 签名) : , 年 研缈召 多月日 第一章绪论 1 1 数据仓库技术 第一章绪论 数据库及其理论已经出现很长时间,早期的数据库主要是一些独立的数据 库,应用于企业数据处理的各个方面从事务处理到批处理,再到分析处理。 早期的大多数数据库系统主要集中于操作性的日常事务处理。随着时间的推移和 企业的发展,这些数据库系统在实际运行过程中积累了大量的业务数据,如产品 数据、销售数据、客户数据及市场数据等。这些数据是宝贵的资源,其中隐含着 丰富的信息和有用的知识,有可能对决策产生重大影响。如何从大量的数据中挖 掘出有用的知识,帮助人们在变化迅速竞争激烈的市场中迅速做出正确的决策是 人们感兴趣的课题,具有非常重要的现实意义【1 1 。 传统的企业数据库系统( 管理信息系统) 即联机事务处理系统( o n - l i n e t r a n s a c t i o np r o c e s s i n g , 简称o l t p ) 作为数据管理手段,主要用于事务处理,但它 对分析处理的支持一直不能令人满意。因此,人们逐渐尝试对o l t p 数据库中的 数据进行再加工,形成一个综合的、面向分析的、更好的支持决策制定的决策支 持系统( d e c i s i o ns u p p o r ts y s t e m ,简称d s s ) 。企业目前的信息系统的数据一般由 d b m s 管理,但决策数据库和运行操作数据库在数据来源、数据内容、数据模式、 服务对象、访问方式、事务管理乃至无力存储等方面都有不同的特点和要求,因 此直接在运行操作的数据库上建立d s s 是不合适的。数据仓库( d a t aw a r e h o u s o 技术就是在这样的背景下发展起来的。 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可 修改的数据集合【2 】。数据仓库概念的提出,不但为有效地支持企业经营管理决策 提供了一个全局一致的数据环境,也为历史数据、综合数据的处理提出了一种行 之有效的解决方法。 和传统的数据库相比,数据仓库存放的是静态历史数据,只能定时添加、刷 新,它的结构相对比较简单,面向的是中高层的管理人员为他们提供决策支持。 数据仓库的访问频率较低但访问量却远高于数据库的访问量。数据仓库在访问响 应时间上的要求不是很高,不像数据库要求响应速度在几秒内。不同层次的管理 原生x m l 数据仓库模型研究与应用 人员均可利用数据仓库进行决策分析,提高自己工作的管理决策质量和效果【3 1 。 建立数据仓库的目的不是要取代原有的数据库系统,而是为了将多年来己收 集到的数据按一个统一、一致的视图组织、存储,对这些数据进行分析,从中得 出有关发展趋势的信息,帮助决策者及时、准确地把握机会,做出有利发展的正 确决策。 1 2 数据仓库技术的发展现状 从1 9 9 0 年正式提出至今,数据仓库已经经过了十几年的发展,在理论研究、 实际应用、市场与工程实践上都取得了显著的成果,有着广阔的发展前景。数据 仓库的研究已经成为当前高校及各研究机构的研究热点,许多国际上重要的学术 会议都发表了大量的数据仓库研究方面的论文。 数据仓库理论方面的发展,主要体现在数据抽取、存储管理、数据表现和方 法论【4 】等方面。在数据抽取方面,将主要集中在系统集成化方面;在数据管理方 面,将使数据库厂商明确推出数据仓库引擎,作为服务器产品与数据库服务器并 驾齐驱;在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中, 同时与i n t e r n e v w e b 技术紧密结合,推出适用于i n t e m e t 终端免维护的数据仓库 访问前端;数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明 确的分支,成为管理信息系统设计的必备。 另一方面,数据仓库也已经从理论走向了实际应用,各大数据库技术提供商 都把数据仓库当作未来的一个重要的方向,纷纷提供了自己的数据仓库及其相关 产品。例如,i n f o r m a t i c a 、a s c e n t i a l 和b u s i n e s s o b j e c t 公司的e t l 工具。n c r 、 i b m 和o r a c l e 的t e r a d a t a 、d b 2 和o r a c l e 9 i 数据仓库服务器。h y p e r i o n 、c o g o n s 和m i o r o s o f t 的e s s b a s e 、p o w e r p l a y 和a n a l y s i ss e r v e r o l a p 服务器。s i m o nf r a s t e r 大学、i b m 和m i c r o s o f t 的d b m i n e r 、d b 2d a t am i n i n g s e r v e r 和m i c r o s o f ta n a l y s i s s e r v e rd a t am i n i n g 服务器。 从数据仓库的应用领域来看,数据仓库技术应用的领域一般都具有以下两个 特征:第一,该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条 件;第二,该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力。 因此,数据仓库概念一经提出,就很快被应用于金融、电信、保险等主要传统数 2 第一章绪论 据处理密集型行业。现在,数据仓库除了在以上传统应用领域继续发展外,其应 用范围正在不断的扩大,比如:商业零售业、物流货运、交通运输、广告业务的 发展也很广阔。 总之,数据仓库是一项基于数据管理和利用的综合性技术和解决方案,数据 仓库的产生是信息技术发展的必然结果,它将成为数据库市场的新一轮增长点, 随着现代社会商业模式变革的进一步普及和深入,数据仓库将成为企业获得竞争 优势的关键武器。 1 3 课题的背景和意义 数据仓库概念的提出,不但为有效地支持企业经营管理决策提供了一个全局 一致的数据环境,也为历史数据、综合数据的处理提出了一种行之有效的解决方 法。 随着时间的推移、企业的合并或重组,数据仓库越来越庞大,数据源也日趋 多样化,并且随着数据挖掘的深入,需要解决的问题和面临的挑战也就不断的出 现: ( 1 ) 怎样从异构数据源中提取有用的信息; ( 2 ) 怎样实现数据仓库或数据集市之间的交互或整合; ( 3 ) w e b 数据挖掘( 或网络数据仓库,w e bw a r e h o u s i n g ) 的兴起。越来越多的组 织把网络视为其商业和交流的一个重要组成部分,因此网络上的数据对于这些组 织的各种决策的影响日趋重要5 1 。由于网络上数据无结构化或半结构化的特性( 信 息以h t m l 格式存储,不包含语义元数据) ,以及缺乏对数据源的控制【6 】,怎样 从这些无结构或半结构的数据中获取有用的信息成为w e b 数据挖掘( 或网络数据 仓库,w e bw a r e h o u s i n g ) 的首要问题。 x m l 是一种旨在描述和交换各种结构数据、简单易用的、独立于用户平台 的通用标记语言【7 1 ,x m l 对数据的丰富表达能力和在数据仓库中利用数据立方 体从多维观察数据,两者相比较存在着相似性,它们都是多维和有层次的【8 1 ,因 此可以以此为基础,将两者相结合,充分发挥两者的长处,利用x m l 技术建立 数据仓库的多维数据模型,从而为各种多维模型之间的交流提供了一个统一的平 台,并用x m l 来定义和记录多维数据模型中的元数据,为以后的元数据的集成 3 原生x m l 数据仓库模型研究与应用 与管理奠定了坚实的基础。x m l 数据仓库也在此基础上提出来。 将x m l 应用于数据仓库具有如下优势【9 】: ( 1 ) 容易实现数据在w e b 上发布,x m l 数据可以不做任何修改就和h t m l 一样在网络中传输; ( 2 ) 有利于数据集成,x m l 可以解决异构数据源之间的兼容问题; ( 3 ) 支持本体数据处理,客户接收到数据后可以根据自己的需要解析数据, 并做进一步编辑处理,减少网络流量,有利于信息共享; ( 4 ) 可以实现数据的独立更新,一部分数据变化后,不需要修改全部数据, 也不影响数据表现形式。 由上所述,本课题主要研究如何设计这种基于x m l 的数据仓库多维数据模 型以及该模型对应的e t l 过程,以便更高效的建立基于x m l 的数据仓库和x m l 数据仓库基础上的o l a p 分析处理,对于后续的数据挖掘的研究具有重要的意 义。 1 4 本文的主要工作 在查阅了国内外大量文献资料的基础上,对现在的x m l 数据仓库理论方法 和x m l 相关技术进行了深入研究与扩展,主要完成了下列的工作: ( 1 ) 原生x m l 数据仓库的数据预处理 研究x m l 的预处理,提出基于模式树的x m l 转换处理过程x e t l ,从数 据模型和谓词模式研究x e t l 模型,然后基于x e t l 模型定义e t l 过程中属性 选择、空置处理、聚合以及属性重命名四类主要的转换处理操作。 ( 2 ) 建立原生x m l 数据仓库多维数据模型 研究x m l 数据仓库的存储标准,提出原生x m l 数据仓库的语义定义从而 建立原生x m l 数据仓库多维模型,并证明原生x m l 数据仓库多维模型的完备 性和有效性。 ( 3 ) 研究原生x m l 数据仓库的o l a p 操作 利用提出的多维数据模型来研究并实现各种o l a p 操作,如切片,切块,翻 转等。 4 第一章绪论 1 5 本文的组织结构 本文研究的是原生x m l 数据仓库模型。主要完成从x m l 数据预处理、多 维模型的建立以及原生x m l 数据仓库的各种o l a p 操作的工作,整篇论文具体 的组织结构如下: 第一章:综述,阐述了数据仓库技术的概念及其发展现状,接着给出本课题 的研究背景和意义,并指明了本文完成的主要工作; 第二章:相关技术研究及原生x m l 数据仓库的提出,介绍了相关的背景知 识并提出了原生x m l 数据仓库模型,概括了数据仓库的概念和特征,阐述了数 据仓库的体系结构,联机分析处理技术以及多维数据模型,概述了x m l 的相关 概念以及相关的约束文档类型;总体概括了原生x m l 数据仓库的整体架构,简 要介绍了基于模式树的x e t l 过程处理和x m l 多维数据模型 第三章:基于模式树的x e t l 过程,先简要介绍了e t l 的相关知识,接着 详细介绍了x e t l 的模型,在此基础上提出并实现了各种x e t l 操作; 第四章:基于x m l 的多维数据模型的设计,提出了基于x m l 的多维模型, 并证明了该模型的有效性和完备性,完成了多维模型的各种操作的设计和实现, 初步完成了该模型的原型系统; 第五章:应用与总结展望,介绍了原生x m l 数据仓库的应用情况,总结了 本文的研究内容,并对未来研究方向作了展望。 5 第二章相关技术研究及原生x m l 数据仓库的提出 第二章相关技术研究及原生x m l 数据仓库的提出 2 1 数据仓库 2 1 1 数据仓库相关技术 2 1 1 1 数据仓库的概念和特征 数据仓库起源于决策支持系统( d s s ) ,是一种为决策支持数据分析提供数据 支持的工具与技术。数据仓库的创始人i n m o nw h 提出了数据仓库( d a t a w a r e h o u s e ,d m 的概念【2 】:“数据仓库是面向主题的、集成的、稳定的、随时间 变化的数据集合,用以支持决策过程。 由数据仓库的概念可知,一般数据仓库具有以下四个典型特征: ( 1 ) 数据仓库是面向主题的。 传统操作型数据库的数据组织是面向事务处理任务,不同业务系统之间各自 独立,而数据仓库中的数据是按照一定的主题进行组织【1 0 1 。一个主题通常与多个 业务系统相关。所有主题综合起来应能覆盖企业的所有经营业务活动范围。 ( 2 ) 数据仓库的数据是集成的。 数据仓库的数据是从原有的分散的数据库数据中抽取出来的。数据仓库的每 一个主题所对应的数据源在原有的各个分散数据库中有许多重复和不一致的地 方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起;由于各个 应用系统在编码、命名习惯、实际属性、属性度量等方面的不一致性,在数据进 入数据仓库之前,要经过统一与综合,消除这些不一致。 ( 3 ) 数据仓库的数据是相对稳定的。 数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户 进行分析处理时并不进行一般意义上的数据更新操作。因此,对使用者来说,数 据仓库在一定时间间隔内是稳定的。 ( 4 ) 数据仓库的数据是随时间不断变化的。 数据仓库中的数据随时间的不断变化,主要表现在以下三个方面:会随时间 变化不断增加新的数据内容;会随时间变化不断删去旧的数据内容;数据仓库中 7 原生x m l 数据仓库模型研究与应用 包含大量的综合数据,这些综合数据很多跟时间有关,会随着时间的变化不断地 进行重新综合。 2 1 1 2 数据仓库的体系结构 2 1 1 2 1 数据仓库的数据组织结构 数据仓库要把各部门分散的日常营运数据转化为集中统一、随时可用的信 息,就必须对数据进行加工。数据仓库是在原有关系数据库基础上发展形成的, 但不同于数据库系统的组织结构形式,它从原有的业务数据库中获得的基本数据 和综合数据被分成一些不同的层次【l i 】。一般数据仓库的结构组成包括当前基本数 据,轻度综合数据,高度综合数据和元数据,如图2 1 所示。 数据仓库中的数据按照粒度的划分可分为四级:早期业务系统的细节级、当 前细节级、轻度综合级、高度综合级。数据源经过抽取、清洗、转换后,首先进 入轻度综合级,并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高 度综合级,老化的数据将进入早期细节级。由此可见,数据仓库中存在着不同的 综合级别,一般称之为粒度。粒度越大,表示细节程度越低,综合程度越高。在 数据仓库中,多维粒度是必不可少的,粒度既影响数据仓库中数据量的多少,也 影响数据仓库所能回答询问的种类。 图2 - 1 数据仓库的数据结构 一匝囹 一匡囹 一臣圃 一匹囹 第二章相关技术研究及原生x m l 数据仓库的提出 2 1 1 2 2 数据仓库的体系结构 数据仓库系统是一个包含四个层次的体系结构【1 2 】【1 3 1 ,一个典型的数据仓库 系统通常包含数据源、数据存储与管理、o l a p 服务器以及前端工具与应用四个 部分,具体如图2 2 所示。 ( 1 ) 数据源:是数据仓库系统的基础,是整个系统的数据源泉。数据可以存 在于异构数据库中,如s q ls e r v e r 、o r a c l e 、a c c e s s 等,也可以是存放于如文本 文件、x m l 文件中。 ( 2 ) 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键 是数据的存储和管理。数据仓库不是简单的生产系统的业务数据的堆积,需要针 对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。 数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常 称为数据集市) 。元数据管理:整个数据仓库的所有描述性信息、管理信息、调 度信息等都是数据仓库的元数据。一个数据仓库要想得到很好地持续性建设和被 很好地使用,元数据管理是必不可少的。 ( 3 ) o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织, 形成多维数据集,以便进行多角度、多层次的分析,并发现趋势。 ( 4 ) 前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查 询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据 分析工具主要针对o l a p 服务器,报表工具、数据挖掘工具既针对数据仓库,同 时也针对o l a p 服务器。 9 厦生x m l 数据仓库模型研究与应用 数挺仓唯监测,j 难掣- 图2 - 2 数据仓库体系结构 2 1 2 联机分析处理( o l a n 技术 啊* * + 6 :篙肾一 联机分析处理的概念最早由先系数据库之父e e c o d d 于1 9 9 3 年提出的。 c o d d 认为联机事务处理( o l t p ) 己不能满足终端用户对数据库查询分析的要求 s q l 对大数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要 对关系数据库进行大量计算才能得到结果,而盘询的结果并不能满足决策者提出 的需求。因此,c o d d 提出了多维数姑库和多维分析的概念,即o l a p 。o l a p 是一类软件技术,它使分析人员、经理、管理人员通过对信息( 维数据) 多种可能的 观察形式进行快速、稳定、一致和交互式的存取,以便对数据进行深入观察和分 析。 2 1 2 io l a p 的概念 o l a p 委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员 能够从多种角度对从原始数据中转优出来的、能够真正为用户所理解的、并真实 呻一 一曼 卜黑一 第二章相关技术研究及原生x m l 数据仓库的提出 反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入 了解的一类软件技术。o l a p 的目标是满足对决策人员和高层管理人员的决策支 持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此o l a p 也可以说是多维数据分析工具的集合。 2 1 2 2o u 妒的技术特征 ( 1 ) 快速性:用户对o l a p 的快速反应能力有很高的要求,这需要一些技术 上的支持,如专门的数据存储格式、大量的预计算、特别的硬件设计等。 ( 2 ) 可分析性:o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。 用户可以在o l a p 平台上进行数据分析,也可以连接到其他外部分析工具上,如 时间序列分析工具、数据挖掘工具等。 ( 3 ) 多维性:多维性是o l a p 的关键特征。o l a p 系统必须提供对数据的多 维视图和分析,包括对多级别维的支持。事实上,多维分析是分析企业数据最有 效的方法,是o l a p 的灵魂。 ( 4 ) 信息性:不论数据量有多大,数据存储在何处,o l a p 系统应能及时获得 信息,并且管理大容量信息。 2 1 2 3o l a p 与o l t p o l t p ,也叫联机事务处理( o n l i n et r a n s a c t i o np r o c e s s i n g ) ,表示事务性非常 高的系统,一般都是高可用的在线系统,以小的事务以及小的查询为主,操作人 员和低层管理人员利用计算机网络对数据库中的数据进行查询、增加、删除、修 改等操作,进而完成事务处理工作的过程。o l a p 则是专门为支持复杂的分析操 作而设计的,侧重于对决策人员和高层管理人员的决策支持,可以应分析人员的 要求快速、灵活地进行大数据量的复杂查询处理,并以直观的形式把查询结果提 供给用户。 原生x m l 数据仓库模型研究与应用 表2 - 1o l t p 与o l a p 的对比 o t t p o l a p 致粼庠瓢嫡始f l :致靛喀! 奎m 致旄妓妓掂色炜数据 p , t t1 7 性放技: i :靠拍:坟 i 肖赫兹槲扔电 , :数捌 绝常性巫滔敏州 f :r t 楚鞴 i l - f 周;! j 性嘲砺致据 次缝理的敛拄1 ;r 少+ 次缝h 的故援,:i i l 影 对确随时o j 爱求较高 确晦埘n 靠埋 j 融户艟人州户 i 少 两l 向臻f :人睫、支i 1i l 僚缬像l f 柚;匙蕺入醍、支地j 鲤兹缓 喇l 内如例、寓物辍鞠 阳l 分 i 、分 j i 驻功 o l a p 和o l t p 是两类不同的应用,o l t p 面向操作人员和低层管理人员, o l a p 面向决策人员和高层管理人员;o l t p 是对基本数据的查询、增加、删除、 修改等操作处理,它以事务数据库为基础;而o l a p 更适合以数据仓库为基础的 数据分析处理。o l a p 中历史数据、明细数据、综合数据等均来自o l t p 所依赖 的底层事务数据库。o l a p 数掘较o l t p 的数据要多一步数据多维化或预聚集处 理操作,以满足快速统计分析和查洵的需要。除了数据上的不同之外,o l a p 的 前端工具的界面风格和数据访问方式也与o l t p 有差别,o l a p 多采用便于非数 据处理专业人员理解的方式如多维报表、统计图等来实现数据的输出,同时用户 可以方便地对数据进行切片、切块、上卷、下转和旋转等多维分析操作。而o l t p 多为操作人员提供经常使用的固定格式的报表,用户的查询和数据显示方式也比 较固定、规范【1 2 】【1 4 】。 2 1 2 4o l a p 数据组织方式 多维o l a p ( m o l a p ) 、关系o l a p ( r o l a p ) 和混合型o l a p ( h y b r i d o l a p , 简称h o l a p ) 是o l a p 的三种具体形式。其中多维o l a p 是基于多维数据库存 储方式建立的o l a p ;关系o l a p 是基于关系数据库存储方式建立的o l a p : h o l a p 表示基于混合数据组织的o l a p 实现。 ( 1 )r o l a p 1 2 第二章相关技术研究及原生x m l 数据仓库的提出 r o l a p 将分析用的多维数据存储在关系数据库中并根据应用的需要有选择 地定义一批实视图作为表也存储在关系数据库中。不必要将每一个s q l 查询都 作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实 视图。对每个针对o l a p 服务器的查询,优先利用已经计算好的实视图来生成查 询结果以提高查询效率。同时用作r o l a p 存储器的r d b m s 也针对o l a p 作相 应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位 图索引、s q l 的o l a p 扩展( c u b e ,r o l l u p ) 等等。 r o l a p 将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数 据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员 类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成 了”星型模式 。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使 用多个表来描述,这种星型模式的扩展称为”雪花模式”。 ( 2 ) m o l a p m o l a p 将o l a p 分析所用到的多维数据物理上存储为多维数组的形式,形 成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总 结数据作为多维数组的值存储在数组的单元中。由于m o l a p 采用了新的存储结 构,从物理层实现起,因此又称为物理o l a p ( p h y s i c a lo l a p ) ;而r o l a p 主要 通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此 称为虚拟o l a p ( v i r t u a lo l a p ) 。 ( 3 ) h o l a p 由于m o l a p 和r o l a p 有着各自的优点和缺点,且它们的结构迥然不同,这 给分析人员设计o l a p 结构提出了难题。为此一个新的o l a p 结构混合型 o l a p ( h o l a p ) 被提出,它能把m o l a p 和r o l a p 两种结构的优点结合起来, 如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性,能满足 用户各种复杂的分析请求。 2 1 3 多维数据模型 2 1 3 1 多维数据模型的相关概念 ( 1 ) 对象:在分析型处理中我们所关注与聚焦的分析客体称为对象,对象是 1 3 原生x m l 数据仓库模型研究与应用 分析型应用中的注视焦点,一般在一个相关应用中有一个或若干个对象。如在销 售数据分析中,销量是其中一个对象。 ( 2 ) 维:是人们观察数据的特定角度。例如,企业常常关心产品销售数据随 着时间推移而产生的变化情况,这时是从时间的角度来观察产品的分析,所以时 间就是一个维,我们可以称之为时间维;企业也时常关心自己的产品在不同地区 的销售分布情况,这时他是从地理分布的角度来观察产品的销售,所以地理分布 也是一个维,可以称之为地理维。 ( 3 ) 维的层次:某个维可能存在细节程度不同的多个描述方面,我们称这多 个描述方面为维的层次。一个维往往具有多个层次,例如描述时间维时,可以从 日期、月份、季度、年份等不同层次来描述,那么日期、月份、季度、年份就是 时间维的层次;同样,城市、地区、国家是地理维的三个不同层次。 ( 4 ) 维成员:维的一个取值称为该维的一个维成员。如果一个维是多层次的, 那么该维的维成员是在不同层次的取值的组合。例如,假设时间维具有日期、月 份、年份这三个层次,分别在这三个层次上取一个值,就得到了时间维的维成员, 即“某年某月某同”,但在很多情况下,并不要求在各个层次上都取值,例如“某 年某月”,或“某月某r ”等都是时f b j 维的成员。 ( 5 ) 粒度:粒度是数据仓库中综合程度高低的一个度量。粒度越小,数据细 节程度越高,综合程度越低,相反,粒度越大,数据细节程度越低,综合程度越 高。 ( 6 ) 多维数组:一个多维数组可以表示为:( 维l ,维2 ,维n ,变量) 。 ( 7 ) 数据单元( 单元格) :多维数组的取值称为数据单元。当多维数组的各个维 都选中一个维成员,这些维成员的组合就唯一确定了一个变量的值。那么数据单 元就可以表示为( 维1 ,维2 ,维1 1 ,变量的值) 眩】 ”1 。 2 132 多维结构上的操作 多维数据分析方法是一种数据仓库技术,多维分析是指对以多维形式组织起 来数据立方体采取切片,切块、旋转等各种分析动作,以求解剖数据,使最终用 户能从多角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的 信息和内涵。多维结构上的操作主要有五种:切片、切块、旋转、下钻及上卷【1 】【1 6 1 。 1 4 第二章相关技术研究及原生x m l 数据仓库的提出 ( 1 ) 上卷( r o l l - u p ) 和下钻( d r i l l d o w n ) 上卷( r o l l u p ) ,又称为上钻( d r i l l u p ) ,是指通过一个维的概念分层向上攀升 或者通过维归约,在数据立方体上进行聚集。例如在时间维上,从m o n t h 层向 上到y e a r 层聚集数据,即数据立方体按y e a r 而不是m o n t h 对数据分组。 下钻( d r i l l d o w n ) ,是上卷的逆操作,通过维的概念分层向下或引入新的维来 实现。例如在地理维上,从c o u n t r y 层下钻到更详细的c i t y 层时,数据立方体详 细地按c 时对数据分组聚集。 f o o dc l o t hp h o n ed r i n k ( c ) l t 鼬是i ) 图2 - 3 由地点维和时间维进行上卷和下钻操作的结果 图2 3 所示的是一个由产品维、地点维和时间维组织起来的产品销售数据, 用多维数组表示为( 地点,时间,产品,销售额) 。假设地点维有“城市”和“国 家”两个级别,时间维有“季度”和“月份”两个级别,产品维只有“类型”一 个级别。 1 5 原生x m l 数据仓库模型研究与应用 图2 3 中的立方体( a ) 表示当前立方体,其地点维的当前级别是“城市,时 间维的当前级别是“季度”。如果在地点维上进行一次上卷操作,则结果如图2 3 中的立方体( b ) 所示,在立方体( b ) 中,时间维和产品维保持不变,地点维的当前 级别变为“国家”,单元格中表示的销售额也要按照国家进行汇总,例如:( b ) 中地 点“美国”在第一季度( q 1 ) 的产品“f o o d ”的销售额为2 0 0 0 ,可以看作是由立方 体( a ) 中地点“n y ”) 和”c h ”在第一季度( q 1 ) 产品“f o o d ”的销售额1 5 6 0i i i4 4 0 的汇总。而单元格( “加拿大”,”q 1 ”,”f o o d ”,1 0 0 0 ) 贝j j 是单元格( “t o ,”q 1 ”, ”f o o d , 3 9 5 ) 和( ”v a ”,”q1 ”,”f o o d ”,6 0 5 ) 的聚集结果。由此可知通过上卷操作 可以得到更概括的信息。 ( 3 ) 切片( s l i c e ) 在多维数组中的某一维上选定一维成员的动作称为切片。即在多维数组( 维 1 ,维2 ,维n ,度量) 中选一维,即维i ,并取其一维成员( 设为“维成员v i ) ,所 得的多维数组的子集( 维l ,维2 ,维成员v i ;,维n ,度量) 称为在维i 上的一 个切片。 产 。娲 维 地l t 嘏 图2 4 切片操作举例 地区维 例如图2 4 中是一个由产品维、地区维和时间维组织起来的产品销售数据, 用多维数组表示为( 地区,时间,产品,销售额) 。若在图2 4 中左图的时间维上 选定维成员“1 9 9 7 年1 月 则可以得到时间维上的一个切片( 地区、“1 9 9 7 年1 1 6 第二章相关技术研究及原生x m l 数据仓库的提出 月”、产品、销售额) ,如图2 - 4 中右图所示。 ( 4 ) 切块( d i c e ) 在多维数据的某一维上选定某一区间的维成员的动作称为切块,即限制多 维数组的某一维的取值区间。从另一角度来讲,切块可以看成是在切片的基础上, 进一步确定各个维成员的区间得到的片断体,也即有多个切片叠合起来。 ( 5 ) 旋转( r o t a t e ) 转轴( p i v o t ) 一种目视操作,它转动数据的视角,提供数据的替代表示。通过旋转可以得 到不同视角的数据。如图2 5 所示,在二维数组:( 产品维,时间维) 经旋转后可 变为:( 时间维,产品维) ,即将横、纵坐标交换( x ,y ) - - ( y , x ) ,通过旋转可以得到 不同视角的数据。 产 品 维 时m 维 2 1 3 3 多维数据模型的分类 图2 5 旋转操作举例 t t , f f 【l j 维 l 产| 1 1 1 1 嘏l i e : 按照多维数据模型的实现方式可以分为星型模型cs t a rs c h e m a 、雪花模型 ( s n o w f l a k es c h e i n a ) 和事实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 检验科血常规检测标本采集指南
- 2025企业在履行合同中需关注的风险与合规事项
- 2025技术合作科技与资本对接项目合同
- 2021年北京重点校高一(下)期中物理试卷试题汇编:机械能守恒定律
- 2025年散货及快递运输的货物运输合同示范文本
- 2025关于餐厅装修设计合同的模板
- 2025中非合作项目贸易合同范文
- 药剂科药师妇产科用药指导手册
- 运用儒学管理的企业
- 语言康复教师音乐培训
- 立体构成之-面立体构成
- 圣乔治呼吸问卷SGRQ
- 开启雨淋阀操作说明
- 改进维持性血液透析患者贫血状况PDCA
- 提高出院患者随访率PDCA
- PPCG03维修方案和经济性课件
- 中控ECS-700学习课件
- 2017修订《城市规划设计计费指导意见》
- 局部解剖学课件:背部
- 2017年技术手册产品说明书蒸烤一体机
- 希腊神话-大力神-赫拉克勒斯
评论
0/150
提交评论