(计算机软件与理论专业论文)聚集策略的研究与数据仓库系统的构建.pdf_第1页
(计算机软件与理论专业论文)聚集策略的研究与数据仓库系统的构建.pdf_第2页
(计算机软件与理论专业论文)聚集策略的研究与数据仓库系统的构建.pdf_第3页
(计算机软件与理论专业论文)聚集策略的研究与数据仓库系统的构建.pdf_第4页
(计算机软件与理论专业论文)聚集策略的研究与数据仓库系统的构建.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据仓库系统是基于分析型数据环境的高级辅助决策工具。聚集体现了数据仓库集 成性的重要特征,提供了一种便于使用、快速而且响应时间一致的多维数据集合,为o l a p 以及其它应用提供了基础。所以如何通过聚集元数据构造合理高效的聚集策略是构建数 据仓库系统非常重要的一个环节。 本文给出了深化到维层次一级的聚集方案的定义,为维层次级的聚集策略提供了依 据。在数据仓库和联机分析工具的研究和开发的实践中,提出了一种基于元组表示的聚 集管理和优化策略。本文讨论了聚集方案之间的生成关系,给出了用于求解聚集方案之 间最优生成路径问题的方法;基于对数据仓库质量、数据仓库的维护与优化的研究,在 分析和处理联机访问日志的基础上提出了基于数据仓库质量的用户适用策略和聚集策略 优化方法。 本文根据数据仓库反生命周期的特点,在分析和处理联机访问日志的基础上,基于 对聚集策略的研究,试图利用a g e n t 的自主性、反应性、社会性等特性对数据仓库的聚 集元数据主动、动态地进行更新优化,使得系统管理员可以从盲目性与繁琐的工作中得 到解脱。笔者在数据仓库技术与o l a p 技术的基础上,在遵循c o r b a 规范的v i s i b r o k e r 软件平台上,构造了一个主动式的聚集元数据优化模型。从而动态地调整与优化聚集策 略,以提高数据仓库系统中o l a p 的效率和性能,增强系统的主动适应能力。 本文的研究内容基于笔者参与开发的科研项目。s e id ws t u d i 0 1 0 是我们研究室为 中国人民银行大连清分清算中心基于m i d a s 软件体系结构及中间件技术开发的关系型数 据仓库系统;s e id ws t u d i 0 2 0 是我们研究室为大连国际合作集团公司开发的基于开放 元数据的数据仓库系统。文中给出了两个系统的构建及部分实现方案。 关键词:数据仓库;联机分析;聚集策略:数据仓库质最;公共对象请求代理结构; 软件代理 a b s t r a c t d a t a w a r e h o u s e ( d w ) i sh i g h e r d e c i s i o n m a k i n g t o o l sb a s e do l l a n a l y t i c d a t a e n v i r o n m e n t a g g r e g a t i o ni n c a r n a t e s t h ei m p o r t a n tc h a r a c t e ro f t h ei n t e g r a t i o no f d w , o f f e r sa t y p eo f d a t aq u e r ym e c h a n i s mt h a ti se a s yt ou s e ,f a s ta n dc o n s i s t e n tr e s p o n s et i m e ,p r o v i d e s f o u n d a t i o nf o ro l a pa n do t h e ra p p l i c a t i o n s s oh o wt oc o n s t r u c tr e a s o n a b l ea n de f f e c t i v e a g g r e g a t i o ns t r a t e g yv i aa g g r e g a t i o n m e t a l d a t ai st h ee m p h a s i so f d w s y s t e m t h i sp a p e ro f f e r st h ed e f i n i t i o no fa g g r e g a t i o ns c h e m ed e e p e n i n gt od i m e n s i o nl e v e l , w h i c h p r o v i d e sb a s i sf o ra g g r e g a t i o ns t r a t e g y , p u t sf o r w a r d at y p eo f s t r a t e g yf o ra g g r e g a t i o n m a n a g e m e n ta n dn a v i g a t i o nb a s e do nt u p l e s p a p e rd i s c u s s e st h eg e n e r a t i n gr e l a t i o n s h i p b e t w e e n a g g r e g a t i o ns c h e m e s ,p u t s f o r w a r dt h e w a yt o f i n d o p t i m i z e dp a t h b e t w e e n a g g r e g a t i o ns c h e m e s p a p e rb r i n g sf o r w a r d au s e r a p p l i c a b l es t r a t e g yb a s eo nd wq u a l i t y , a n d a d v a n c e saw a yw h i c hc a l ld e l e t eu n n e c e s s a r ya g g r e g a t i o ns c h e m e s ,s ot h a t a g g r e g a t i o n s t r a t e g yc a l lb eo p t i m i z e d d w s y s t e mi sd r i v e nb ya n a l y s i s i nt h i sp a p e r , a c c o r d i n gt oi n v e r s el i f ec i r c l eo fd w : b a s e do nt h eo b 心a c c e s s i n gl o g ,g r o u n do nr e s e a r c ho f a g g r e g a t i o ns c h e m e ,t r yt ou s et h e a u t o n o m y 、r e a c t i v i t ya n ds o c i a l i t yo fa g e n tt or e f r e s ha n do p t i m i z et h em e t a d a t ao fd w d y n a m i c a l l y , s ot h a ta d m i n i s t r a t o r sc a l lb r e a ka w a yf r o me y e l e s sa n do n e r o u sj o b a u t h o r c o n s t r u c t sa na c t i v ea g g r e g a t i o nm e t a d a t ao p t i m i z a t i o nm o d e lw h i c hi sb a s e du p o nd wa n d o l a p t e c h n o l o g ya n dv i s i o b r o k e rp l a t f o r mt l l a tf o l l o w sc o r b ac r i t e r i o n , w h i c hc a na d j u s t a n d o p t i m i z ea g g r e g a t i o ns t r a t e g yd y n a m i c a l l y , b u i l du pa d a p t i n ga b i l i t yo fs y s t e m t h ec o n t e n to f p a p e ri sb a s e do ns c i e n t i f i cr e s e a r c hp r o j o c td e v e l o p e dp a r t l yb ya u t h o r s e i d ws t u d i 0 1 0i s d e v e l o p e d f o rb a n ko fc h i n ab a s e do nm i d a sa n dm i d d l e w a r e t e c h n o l o g y s e i d ws t u d i 0 2 0i sd e v e l o p e d f o rd a l i a ni n t e r n a t i o n a lc o o p e r a t i n gg r o u pb a s e d o n o p e nm e t a d a t a p a p e r a l s og i v e s p a r t o f t h er e a l i z a t i o ns c h e m e k e yw o r d s :d a t a w a r e h o u s e :o l a p :d a t a w a r e h o u s eo u a i i t y :a g g r e g a t j o ns t r a t e g y c o r b a ;s o f ta g e n t 0 前言 随着市场竞争的加剧和信息社会需求的发展,从大量数据中提取制定市场策略的信 息就显得越来越重要了。这种需求既要求联机服务,又涉及大量用于决策的数据,传统 的数据库系统已无法满足这种需求。数据仓库是计算机应用领域的新概念,是一个面向 信息管理的方法,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。数据 仓库将决策支持所需的信息从企业的日常营运数据中分离出来,为决策支持提供一个更 好的环境。数据仓库就是为把分散的,难于访问的营运数据转换为集中统一,随时可用 的信息而建立的一种数据存储结构。这种存储结构中存储的信息是直接为在此基础之上 的o l a p ( o n l i n ea n a l y t i c a lp r o c e s s ) 、决策支持系统( d s s ) 或行政信息系统( e i s ) 等应用服务的。 数据仓库技术自i b m 公司w h i n m o n 博士提出以来,在理论与产品上都取得了显著 的成绩,在许多领域得到了广泛的应用。但是,正如w h i n m o n 博士所言,数据仓库与 生俱来的反生命周期的生存方式,决定了我们不能按常规的软件工程方法开发数据仓库 应用。由于数据仓库元数据的提出者对企业模型、科学决策、原有事务处理环境以及对 数据仓库技术认识的不同,往往在使用过程中暴露出大量的问题,经不起用户的使用而 最终处于淘汰边缘。所以,建立在粗糙的元数据初始值之上的数据仓库系统需要在不断 运转的过程中对元数据进行调整与优化,以此来适应需求的变化、提高系统的性能和用 户满意度。然而,传统的数据仓库元数据的调整与优化方法都要求用户熟知企业模型、 了解原始数据、对数据仓库具备相当程度的知识背景,并且对元数据调整的过程往往凭 借用户或管理员的经验与直觉进行。 聚集是数据仓库技术的主要特征之一【l 】。无论是在数据仓库设计还是在联机分析处 理中聚集都是一个重要的概念。聚集提供了一种便于使用、快速而且响应时间一致的数 据查询机制,为o l a p 等应用提供了基础。聚集可以避免重复资源集中的运算,在为用户 提供最终查询结果的同时有效地减少资源耗费。 当数据量非常庞大时,如何构造有效的聚集策略和查询导航策略是一个非常重要的 问题。作者在实际的数据仓库系统科研项目的设计、开发过程中,对数据仓库技术尤其 是聚集策略问题进行了较深入的研究。本文给出了基于元组的聚集查询导航方法和基于 数据仓库质量的聚集策略优化方法,试图在用户联机分析日志的基础上,依据数据仓库 质量的要求,以主动的方式对数据仓库的聚集元数据进行动态的维护与优化,从而提高 系统的效率和用户的满意度,增强数据仓库系统的主动适应能力。本文给出了基于c o r b a 技术和a g e n t 技术的聚集策略优化技术方案,并在数据仓库系统的构建案例中给出了系 统的体系结构、功能描述及部分实现方案。 1 绪论 1 1 数据仓库与联机分析处理技术 1 1 1 数据仓库技术 数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用于支持管理 层的决策制赳”。数据仓库技术中引入了维和指标等几个重要的概念。维是指对数据对 象进行观察分析的角剧1 1 。指标是分析对象的数值表示【”,反映了数据对象的度量属性。 每个指标都依赖于一组维,这些维提供了该指标的上下文关系。人们观察数据的某个特 定的角度存在着细节程度不同的描述层次,这些描述层次被称为维的层次。从概念模型 的角度来说,数据仓库就是由维、指标等数据仓库元素组成的,其组成方式可以分为星 型、雪花型等模型,其实例由多个事实表、维表等数据实体组成;从逻辑模型的角度来 说,数据仓库可以由数据立方体来表示,通过立方体代数实现立方体运算;从物理模型 的实现上又可分为关系型存储( r o l a p ) 、多维存储( m o l a p ) 以及混合型存储( h o l a p ) 等方式。 田1 数据仓库体系绪构 f i g la r c h i t e c t u r eo fd a t aw a r e h o u s e 如图1 所示,数据仓库的体系结构从总体上可分为数据源层、数据仓库层与客户端 层。数据源是数据仓库系统的基础,是整个系统的数据源泉,数据源本身可以是异构的、 分布的,可以来源于多种渠道,包括企业内部o l t p 系统中的数据、市场调查报告及各种 文档之类的外部数据和知识库等;数据仓库层中的数据仓库管理系统在元数据库( m e t a d a t a b a s e ) 的指导下通过数据采集工具从数据源层抽取数据,经主题化、集成与必要的 聚集( a g g r e g a t e ) 后存入数据仓库之中;为了提高客户端的分析与辅助决策的能力,数 据仓库管理系统还在元数据的指导下针对不同的用户群( c l i e n t s ) ,从数据仓库中提取 数据,生成主题化更高、聚集程度更大的数据集市( d a t am a r t ) 分发给各用户群以供有 较大差异的用户群使用。数据集市是数据仓库内容的子集,包含针对部门级或特定业务 领域的数据,适合部门级的业务需求并为特定用户服列”。数据仓库中的数据分为当前 数据层、轻度综合层、高度综合层和历史数据层。 聚集策略的研究与数据仓库系统的构建 1 1 2 联机分析处理技术 联机分析处理( o n 一1 i n ea n a l y t i c a lp r o c e s s i n g ) 简称o l a p ,是c o d d 于1 9 9 3 年提 出来的概念。o l a p 是一项使用存储于数据仓库中的信息给数据分析人员以灵活、可用、 及时的方式构造、处理和表示综合数据的技术,是数据仓库的验证型分析工具【2 】【3 l 。o l a p 以多维分析为基础,刻画了在管理和决策过程中对数据进行动态多层面、多角度的分析 处理的要求,支持决策的制定。 如图2 所示,o l a p 采用三层c s 体系结构,客户层能够方便地浏览数据仓库中的数 据,支持各种o l a p 操作;o l a p 分析服务器层存储数据仓库中的综合数据,预先对数据 进行聚集及合并,提供高效的数据存取以及分析预处理:第三层是企业服务器层,存储 数据仓库中的细节数据。o l a p 强调执行效率和对用户命令的及时响应,力图处理数据仓 库中浩如烟海的数据,并将之转化为有用的信息,从而实现对数据的归纳、分析和处理。 o l a p 的重点是组织数据仓库中的综合数据、实现复杂的、特定的查询,对数据仓库中的 大量数据进行分析处理,满足决策支持和多维环境特定的查询与报表需求。 o l a p 的过程就是根据数据分析的要求,从原始数据中构造各种数据立方体,并对立 方体执行相关的操作,再把结果返回给用户。联机分析可以提供强大的统计分析功能和 报表功能。按照c o d d 的1 2 条准则1 2 】,o l a p 应具备以下特性:多维概念视图、透明性准 则、存取能力准则、稳定的报表性能、客户月1 i t 务器体系结构、维的等同性准则、动态稀 疏矩阵处理准则、多用户支持能力准则、不受限的跨维操作、直观的数据处理、灵活的 报表生成、非受限的维与维之间的层次。其中,o l a p 最显著的特性可以概括为多维性 ( m u l t i d i m e n s i o n a l ) 、快速响应性( f a s t ) 、分析性( a n a l y s i s ) 、信息性( i n f o r m a t i o n a l ) 和共享性( s h a r e d ) 。 图2o l a p 在数据仓库系统中的应用 m 9 2o l a pa p p l i c a t i o ni nd a t aw a r e h o u s e o l a p 的标准运算【2 】p 】包括切片( s l i c e ) 、切块( d i c e ) 、向上归并( r o l l i n g u p ) 、 向下钻取( d r i l l i n g d o w n ) 、旋转( p i v o t ) 、维的增加、维的退化、指标的增加、指 标的退化、维一指标转换( 简称d m 转换) 和指标一维转换( 简称转换) 等。随着o l a p 技术和立方体代数的发展也许还会出现新的运算形式,不过有些运算的定义还不存在统 第一章绪论 一的标准。比如切片、切块运算,是指在维上进行的选择和投影运算,是对多维数据集 的局部分析。但是对切片和切块的概念目前还仁者见仁。有些学者认为在某个维上选定 一个维成员,就得到了在该维上的一个切片,而在某一维上选定某一区间的维成员的动 作就叫做切块;而另外一些学者认为选定多维数据集的二维子集的过程叫做切片,选定 多维数据集的三维子集的动作叫做切块。 数据立方体( d a t ac u b e ) 是数据仓库和联机分析处理的核心概念之一,是多维数据库 和以多维分析为基础的联机分析处理技术的核心机制【4 】。而立方体模型与立方体代数之 间的关系恰恰就像是关系模型与关系代数之间的关系一样。本文参考 4 5 6 给出了数 据立方体的形式化定义如下。 定义1 1 数据立方体 数据立方体是一个六元组c u b e = ( d d o m ,d ,m d o m ,m ,f u n c ,a g g r ) ,其中 ( 1 ) d d o m = d l d o m x xd k d o m ,n o ,称为维的域; ( 2 ) d = d l ,d 。) ,称为维标识集,d i ( 1 i n ) 是d l d o m ( 1 i n ) 的标识: ( 3 ) m d o m = m i - d o m x x m l d o m ,k o ,称为指标的域; ( 4 ) 秘 m 1 ,m k ,称为指标标识集,m i ( 1 i k ) 是m l d o m ( 1 i k ) 的标识; ( 5 ) f u n c :d d o m m d o m 是d d o m 到m d o m 上的部分映射,称为立方体的基( c u b e b a s e ) ; ( 6 ) a g g r 是m d o m 上的聚集函数。 记( d d o m ,m d o m ,a g g r ) 为数据立方体c u b e 的特征( s i g n a t u r e ) 。 当维和指标的值域都明确时,可以用维的标识来代表维的名称和维的域,使用指标 的标识代表指标的名称和指标的域。 这时,数据立方体可以简记为四元组c u b e = ( d ,m ,f u n c ,a g g r ) 。 只要概念和定义是确定的,就可以在数据立方体的基础上通过立方体代数实现联机 分析处理的标准运算。 1 2 数据仓库系统的发展现状与所面临的问题 作为一个新兴领域,数据仓库技术已经取得了长足的进展,出现了不胜枚举的商业 系统和工具。比如c a ( c o m p u t e ra s s o c i a t e s ) 公司的d e c i s i o nb a s e 、i b m 公司的d b 2 、 o r a c l e 公司的o r a c l ew a r e h o u s eb u i l d e r 、i n f o r m i x 的d a t a s t a g e 、s y b a s e 的w a r e h o u s e s t u d i o 、微软的s q ls e r v e r 以及n c r ( n a t i o n a lc a s hr e g i s t e r ) 公司的s c a l a b l ed a t a w a r e h o u s e 等都提供了各自的数据仓库解决方案,在业界出现了百家争鸣的局面。基于 数据仓库技术,还出现了很多用于完成实际决策问题所需的各种查询检索工具、多维数 据的o l a p 分析工具、陇工具等,为实现决策支持系统的各种要求提供了支持。 目前,数据仓库技术已经在证券业、银行领域、税务领域、保险业、控制金融风险 领域、客户服务及营销领域、保健领域、高端信息系统领域、空间信息领域都拥有广泛 的应用。在国内,数据仓库技术也已经得到了初步的应用。如深圳国信证券,菲奈特与 深圳华安保险公司,中国银行省、市两级金融管理信息系统采用数据仓库技术,深圳市 国税局与深圳奥尊电脑公司合作开发的新一代税务信息化系统,南京市利用数据仓库技 术实施贷款证制度等。 不过数据仓库技术的研究方兴未艾,业界尚不存在可靠的、完善的、被广泛接受的 聚集策略的研究与数据仓库系统的构建 数据仓库标准7 1 ,影响了数据仓库项目的实施。数据仓库技术以及o l a p 应用还缺乏准确 的、共同认可的数学理论基础与数据模型i b 】。数据仓库技术在海量数据存储吲、数据组 织1 10 1 、立方体计算、数据聚集、数据集成、数据压缩与索引优化、查询优化【1 1 l 【“j 【”】、聚 集优化、数据质量及标准化等方面都还有待于进一步的发展。同时数据仓库技术的发展 也依赖于并行处理技术,分布式计算技术等业界其它技术的发展1 1 4 j 。 数据仓库中存储了许多实视图【”】( 实体化的数据立方体) 占据着大量的存储空间, 在数据量很大且存储空间有限、用于维护视图的c p u 时间有限,同时又要最大限度缩短 o l a p 查询时间的情况下,对所有视图都进行实体化是不可能的。所以实视图的选择问题 ( v s p ) 是数据仓库领域非常重要的问题,它直接影响用于决策支持的数据质量和数据仓 库的效率与维护代价 1 卯。为了解决v s p 问题,很多研究人员提出了一些解决方法 【16 】f 1 7 】【1 8 】【1 9 1 。显而易见的方法是在一系列查询中应用完全搜索算法进行实视图选择,然而 如果搜索空间很大时,这种算法代价很高、不切实际。h g u p t a 提出g r e e d y 算法,它检 索- d , 部分状态空问,使实视图满足空间的条件限制,达到了时间要求。k e n n e t h a r o s e 研究了动态视图的修改问题。j y a n g 给出了一个v s p 问题的结构和算法,其基本思想是 选择大部分视图可以共享的公共子视图进行实体化。还有学者用基于自然选择和基因遗 传原理的遗传算法来解决v s p 问题。虽然在实视图选择问题上已经取得了一定的进展, 但是由于对聚集方案的考虑大多是基于维组合的,而没有深化到维层次,所以对深化到 维层次一级的聚集策略问题讨论得不多。 正如数据仓库之父i n m o n 博士所言,数据仓库是反生命周期的【“。建立在粗糙的元 数据初始值之上的数据仓库系统,由于数据仓库元数据提出者对企业模型、科学决策、 原有事务处理环境以及对数据仓库技术认识的不同,往往在使用过程中暴露出大量的问 题。当前比较流行的一些数据仓库管理系统或者是一些联机分析服务器,如i n f o r m i x 的m e t ac u b 、m i c r o s o f t 的o l a ps e r v i c e s 以及i b m 的b u s i n e s si n t e l l i g e n t 等,对数 据仓库的创建、聚集策略的维护等工作都要求用户必须熟知企业模型、了解原始数据、 对数据仓库技术具备相当程度的知识背景。即便是提供了一些维护与优化功能,但总的 来说,由这些工具搭建的数据仓库都是一次生成的,除了可对数据进行定期更新和对元 数据进行人工修正以外,数据仓库系统缺乏对环境的主动适应能力。 1 3 本文的主要工作及内容安排 在数据仓库系统中,聚集策略显得尤为重要。聚集体现了数据仓库集成性的重要特 征,其实质就是要在数据仓库的多维数据空间中事先进行一些切片、切块运算,并保留 分析结果【i 】。聚集提供了一种便于使用、快速而且响应时间一致的数据查询机制,为o l a p 以及其它应用提供了基础【4 】【6 】。所以如何通过聚集元数据构造合理高效的聚集策略是数 据仓库系统非常重要的一个环节。 当维的个数及维的层次很大时( 维的层次又有可能有很多维成员) ,所有聚集方案的 个数将会很可观。从聚集过程所消耗的时间与聚集数据所占用的空间两个方面来讲,可 能都是让用户无法忍受的。所以,如何科学地选择聚集方案、导航聚集查询、构造高效 的聚集策略将会直接影响到o l a p 等应用系统的性能。本文以实际的科研项目为背景,对 聚集策略问题进行了一定的研究并阐述了系统的构建过程与部分实现方案。 第一章绪论 本文的主要研究工作: 1 本文给出了深化到维层次级的聚集方案、聚集策略的定义和特定多维数据集聚集 方案数目的求解公式。 2 ) 在数据仓库和联机分析工具的研究和开发的实践中,给出了一种基于元组表示的 聚集管理和导航策略。 3 ) 讨论了聚集方案之间的生成关系,给出了用于解决聚集方案之间最优生成路径问 题的方法,从而可以得到聚集代价最小的聚集方案关系图。 4 ) 基于对数据仓库质量、数据仓库维护的研究,给出了基于数据仓库质量的用户适 用策略和基于时间、空间复杂性与用户适应度的聚集策略优化方法。 本文涉及的项目开发工作: 1 ) 本文将c o r b a 技术与a g e n t 技术引入到数据仓库系统当中。在分析和处理联机访 问日志的基础上,基于v i s i b r o k e r 平台构造了一个主动式的聚集元数据优化模型。 2 ) 介绍了笔者基于m i d a s 软件体系结构及中间件技术,为中国人民银行大连清分清 算中心开发的关系型数据仓库系统s e id ws t u d i 0 1 0 。 3 ) 详述了为大连国际合作集团公司开发的基于开放元数据的数据仓库系统s e i 晰 s t u d i 0 2 0 。该版本中加强了元数据管理、数据采集、聚集和联机分析处理等子系统的功 能,并将数据仓库质量纳入到了系统当中。 在研究室开发s e is t u d i o 系列软件的过程中,本人完成了数据仓库子系统的开发和 联机分析子系统的部分开发,尤其在立方体实体化和聚集策略等功能模块中融入了自己 的研究内容,具有一定的实用价值。 本文提出的元组是以开放元数据的形式存在的,通过元组实现聚集的管理和聚集寻 径的优化。该方法已应用于笔者参与开发的s e id w s t u d i 0 1 0 系统当中。目前,该系统 在中国人民银行大连清分清算中心正常运转。 数据仓库系统是基于分析型数据环境的高级辅助决策工具【3 】,所以数据仓库系统是分 柝驱动的。本文根据数据仓库反生命周期的特点,试图利用a g e n t 的自主性、反应性、 社会性等特性对数据仓库的聚集策略元数据动态、主动地进行更新优化,从而增强系统 的主动适应能力。该部分内容的技术基础、研究内容及实现目标如图3 所示。本文结合 对数据仓库维护、聚集策略优化和数据仓库质量( d w q ) 的研究,给出了聚集策略优化的 技术方案,并在笔者为大连国际合作公司研发的数据仓库系统s e id ws t u d i 0 2 0 的设计 与开发中得到了部分实现,本文给出了该系统的详细方案。 囤a 聚集优化的研究内容及实现技术 f i 9 3a g g r e g a t i o n ss t u d yc o n t e n ta n d i m p l e m e n t 5 聚集策略的研究与数据仓库系统的构建 需要说明的是,本文中提到的a g e n t 技术并非特指具有智能性与知识的符号表示及 其推理规则的智能体,而着重指的是具有主动能力和反应能力的逻辑程序实体。 本文的结构如下:第章绪论,概要性地介绍了数据仓库技术与联机分析技术的应 用背景、发展现状及其所面临的问题,并简单介绍了本文的主要研究工作及内容安排。 第二章数据仓库聚集策略的研究是本文的重点,给出了聚集方案、聚集关系的定义:提 出了- - 4 中基于元组表示的聚集管理和导航策略;给出了求解聚集方案最优生成路径的方 法,并基于数据仓库质量的用户适用策略给出了一种聚集策略优化方法。第三章聚集策 略优化的实现技术方案,论述了a g e n t 技术和c o r b a 技术在数据仓库系统中的作用,并 给出了基于c o r b a 和a g e n t 技术的聚集策略优化的实现方案。第四章数据仓库系统的构 建,介绍了笔者开发的数据仓库系统s e id w s t u d i 0 1 0 和s e id w s t u d i 0 2 0 ,是前面章 节研究内容的具体应用背景,文中给出了关键部分的实现过程。第五章结论与展望,对 全文的工作进行了总结,并提出了需要进一步研究和解决的问题。 2 数据仓库聚集策略的研究 本章介绍了笔者的主要研究内容。给出了深化到维层次级别的聚集方案的定义、讨 论了聚集方案之间的生成关系;给出了一种基于元组表示的聚集管理和导航策略;给出 了用于求解聚集方案之间最优生成路径问题的方法;基于对数据仓库质量、数据仓库的 维护与优化的研究,在分析和处理联机访问日志的基础上提出了基于数据仓库质量的用 户适用策略和聚集策略优化方法。 2 1 数据仓库元数据的研究 2 1 1 元数据的作用 元数据是关于数据的数据,是对数据的结构、内容、键码、索引等信息的描述【”。 元数据是数据仓库的神经中枢,用于管理和控制数据仓库的建立和维护【1 】。元数据主 要用来存储企业的业务模型和数据模型,是数据信息化的核心部件。在数据仓库中,元 数据描述了数据仓库的数据和环境。如何构建元数据及实现高效的元数据管理。在一个 成功的数据仓库系统中是必不可少的。也正是由于有了元数据,d s s 分析人员才能有效 地利用数据仓库。 元数据可以帮助技术人员明确全面地理解潜在数据源的物理布局及所有数据源的业 务定义,帮助数据仓库用户有效地使用数据仓库中的信息。元数据可以透明或半透明地 为决策者提供所需的内容。基于开放元数据的数据仓库系统,可以通过更改与优化系统 的元数据达到数据仓库维护与优化的目的。 为了便于元数据的表示与交换,元数据的标准化工作正在进行。o i m 是m i c r o s o f t 定义的元数据存储的标准模型,己成为国际元数据联盟m d c 所倡导的元数据标准。o i m 主要依赖于被广泛接受的工业标准:采用u m l 作为基本的描述模型,使用x m l 作为元数 据的交换标准,采用s q l 进行数据检索。两m i c r o s o f tr e p o s i t o r y 是m i c r o s o f t 提供的 一种可以用来实现元数据管理的工具。 2 1 2 元数据的组成 数据仓库系统中,元数据的组成如表1 所示。数据仓库系统中的元数据分为技术元 数据( t e c h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s sm e t a d a t a ) 【1 1 l s 】。技术元数据是关 于数据仓库系统技术细节的元数据,帮助i t 人员扩展和维护数据仓库;业务元数据是技 术元数据的一个辅助,联系着商业用户和企业中的相关数据,它帮助用户在数据仓库中 寻找所需要的商业信息,定义了使用者和数据仓库系统之间的语义关系。元数据是数据 仓库中所有内容和所有处理过程的一个全面的仓库和文件,是数据仓库中所有信息的线 索。比如在数据采集过程中,元数据是数据映射的依据;在数据汇总过程中,元数据又 是汇总算法的依据。 由于数据仓库反生命周期的特点,数据仓库是基于粗糙的元数据建立的。数据仓库 元数据的内容并不是一成不交的,需要管理与维护。本文阐述的数据仓库聚集策略优化 的实质是就指对数据仓库系统中聚集元数据的优化。 鍪壅苎堕盟堕壅皇壑塑垒鏖墨竺! ! 塑堡 一 一一 袅1 数据仓库元数据 t a b l e ld a t aw a r e h o u s em e t adata 项目内窖 j 数据仓库的指标指标i d 、指标名、指标属性、指标公式、指标域 2 2 数据聚集的研究 2 2 1 聚集的作用 聚集( a g g r e g a t i o n ) 是指按照维粒度、指标与计算元的不同,依据实际分析需要对 底层数据进行记录行压缩和表联接、属性合并等预处理【l 】【4 】。其中,粒度( g r a n u l a r i t y ) 是指包含在数据单元中数据的细节级别。越细节的数据粒度级越低:越综合的数据, 粒度级越高【1 】。聚集就是根据用户可能的查询预先计算好的数据汇总,聚集提供了一种 便于使用、快速而且响应时间致的数据查询机制,为o l a p 等应用提供了基础。 多维数据集是o l a p 技术将聚集数据组织成为多维结构所使用的方式。维及其层次结 构级剐反映了可以向多维数据集提出哪些套询。聚集数据按维所指定的坐标存储在多维 结构单元中。例如,问题“1 9 9 8 年硬件产品按季度和地区的销售额如何? ”。这类查询 会从满足所指定条件的坐标处返回很多单元集合。查询返回的单元数目取决于p r o d u c t 维h a r d w a r e 级别中的成员数、1 9 9 8 年的四个季度和g e o g r a p h y 维中的地区数目。 聚集数据具体存储的位置与多维数据集的存储方式相关。如果多维数据集以多维结 构( m o l a p ) 来存储,则聚集和分区源数据的复本一起存储在多维结构中:如果多维数据 集以混合型结构( h o l a p ) 存储,则聚集存储在多维结构中,而关系型的源数据存储在关 系型结构中;如果多维数据集以关系型结构( r o l a p ) 来存储,则聚集与关系型的源数据 一起保存在关系结构中。各种存储方式都有各自的优势。 2 2 2 聚集方案与聚集策略 聚集将低级别的数据预先概括并存放到中间表。这些聚集表允许应用程序预测用户 r 第二章数据仓库聚集策略的研究 查询,避免重复资源集中的运算,可以在得到最终查询结果的同时有效地减少资源耗费。 对多维数据集中所有可能的聚集进行预先计算可以给所有查询带来几乎最快的响应时 间。但是,聚集的存储和处理需要大量空间与时间。存储要求不仅取决于维和指标的数 目,而且还取决于维中级别的数目和每一级别成员的数目。所以,当数据量非常庞大时, 对数据仓库中的所有数据都按照所有的可能进行聚集是不现实的。 基于聚集方案的含义及其之间的关系对聚集策略的重要意义,笔者对其进行了一定 的研究。本文给出了聚集方案和聚集策略的定义以及在特定维集合和指标集合上聚集方 案个数的求解公式,并在下文中讨论了聚集方案之间的关系。 定义2 1 聚集方案 设数据立方体c u b e = ( d d o m ,d ,m d o m ,m ,f u n c ,a g g r ) ,其中维d = f d l ,d 2 ,d 3 ,d 。j ,维 d i 的层次链表示为s l s s 2 s 。,m e n ,1 i n 。我们把在c u b e 上按照各维及其层次与指 标组成的每一种聚集组合,称为一个聚集方案,由所有聚集方案构成的集合的子集即构成 聚集策略。聚集方案可以表示为序列s c h e m e j = ( s m j i s m j 2 s m i i s m m ) ,其中o 聚集的形式多种多样:聚集可以沿着数据仓库中的多维数据的任何一维或多维 进行。如果维分层次,聚集可以在任何一个层次上进行。 聚集算法也有多种方式,常用的有m a x ,m i n ,a v e ,s u m ,c o u n t 等。其中以s u i i 方式使用最多,并且除算法外这几种聚集方式的操作相同,下面的论述都以s u m 为例。 2 3 1 2 元组表示法 无论是在数据仓库设计还是在联机分析处理中聚集都是一个重要的概念,聚集管理 都是一个重要的内容。目前对聚集的存储、优化原理及机制问题讨论较多,而对涉及到 聚集表达方法等聚集管理的基础性问题研究的不多。对这一部分进行研究将直接影响到 聚集的查询、优化等相关问题,具有一定的理论和现实意义。由于数据仓库中数据量大、 聚集之间关系复杂,种类繁多以及数据仓库中的维不断在变化的特点,给聚集的管理和 聚集的优化导航带来了困难。所以聚集管理的基础是找到一种对动态聚集的静态描述方 法,用其作为聚集的表示方式,来解决上面提出的问题。本文将给出的元组表达方法就 是解决上面问题的一种很好的方案。 本文提出的元组法的基本思想是把聚集包含的每个维当作元组中的一个元素来处 理,用元组来管理聚集,从而增强聚集的可控性,可以方便的进行聚集查询、聚集优化、 维和维层次的增加和删除等。在这里我们把事实表看作是聚集的一个特例,即零聚集。 用户的事实表和聚集可以采用相同的调用方式,但是必须首先进行统一编号处理。参照 2 i 中我们给出的聚集方案的定义,具体编号原则为:令元组( d h d 2 , u i ,d d 。) 对应一 个主题下的某一聚集,n 是主题中包含维的总数,d i 是第i 维的层次,数据类型是整型, 如果第i 维分m 层,d i 的值域是 o o ,m 或d ;= 9 9 。 聚集策略的研究与数据仓库系统的构建 设数据仓库的某一主题的维的个数n = 3 ,图4 给出了其一个聚集方案( x y z ) 和由它 可以生成的其它聚集方案之间的关系,这其中x = f s m i ,y = s m 2 l ,z = i s 掩 ,它们代表了 聚集方案( s m 。s m 2 s m 3 ) ,图4 中聚集方案之间的箭头方向为聚集方向( 也即向上归并方向) 。 聚集之间是有关联的。根据以上分析,全体元组的集合对于聚集形成偏序集。图4 给出了一个元组( x ,y ,z ) 和由它可以生成的其它聚集的关系。推论可得: 1 ) 每一个聚集方案代表的聚集都能够至多生成n 个直接聚集,任何一个聚集都可以 由细节数据( 9 9 9 9 9 9 ) 生成。 2 ) 若一个聚集方案代表的聚集能够由另外一个聚集方案经过某一维的一次聚集( 指 跨一个层次) 生成。那么第二个聚集方案就称为第一个聚集方案的双亲,如( 0 2 0 0 0 0 ) 是 ( 0 1 0 0 0 0 ) 的双亲,即( 0 1 0 0 0 0 ) 是由( 0 2 0 0 0 0 ) 产生的,反过来,( 0 1 0 0 0 0 ) 是( 0 2 0 0 0 0 ) 的孩 子。 3 ) 每一层中所有的聚集方案元素加起来的总和都相同,且父层的元组元素和比孩子 层的大1 。 4 ) 每一个子聚集( 事实表除外) 最多可由n 个父聚集直接生成,即每个孩子都最多 有1 1 个双亲。由这r 1 个双亲生成目标聚集的效率是不同的,还有可能存在有的双亲聚集 没有生成,这可能就要用到祖父层的聚集了,并且有必要从这些聚集中选取最优的聚集 以最快的速度产生结果。 0 0 i 维成桃。 i 囤馨罂受攀骚夏晕萝 i 的篙,之0 二j ,0 雇层细节数据 团 囤4 元组之间的偏序关系 f i 9 4s e m i - o r d e rr e l a t i o ni nt u p l e s 由于进行聚集的函数不止一种,因此有必要对聚集方案进行必要的扩充。例如,可 以在聚集方案中增加一位来代表聚集的函数,这样就进一步完善了聚集方案的表示方法。 如上面的聚集方案可以增加一位变成( s m l s m 2 s m 3 f ) ,其中f 代表各种聚集函数。由于各种 聚集方法的管理和寻径导航都是相同的,所以以下讨论仍以s u m 函数为例。 2 3 1 3 元组表示法的优点 首先,用户的查询、聚集都可以被元组实体化。由于每一个聚集都有唯一的元组对 应,并且编码方式固定,这样可以为动态的聚集找到一个静态的管理方法。 其次,由于某一主题的维、维层次等都有可能变动,如果每次都重新生成聚集将花 费很多时间。而采用这种编码方式可以保存原来的聚集不做任何的修改,只要把编码对 应的位修改就可以了,并且原来的聚集可以继续使用。例如,设一聚集的元组为( x ,y ,z ) , 如果需要增加一个具有n 个层次的维,那么这个聚集的元组就变成了( x ,y ,z ,0 0 ) ,而聚 集的内容不需要进行任何的修改。 另外,由于聚集生成是动态的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论