(计算机软件与理论专业论文)一种支持群体决策的数据仓库模型.pdf_第1页
(计算机软件与理论专业论文)一种支持群体决策的数据仓库模型.pdf_第2页
(计算机软件与理论专业论文)一种支持群体决策的数据仓库模型.pdf_第3页
(计算机软件与理论专业论文)一种支持群体决策的数据仓库模型.pdf_第4页
(计算机软件与理论专业论文)一种支持群体决策的数据仓库模型.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 群体决策支持系统( g d s s ) 是一种用来提高群体决策活动的有效性的决策 支持系统。它能够支持具有共同目标的群体成员求解半结构化、非结构化的决策 问题,是d s s 中新兴的、并受到重视的一个发展领域。g d s s 将通信技术、计 算机技术和决策支持技术集合起来,使问题的求解条理化、系统化。数据仓库是 一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用以支持 企业或组织的决策分析处理。数据仓库一开始是定位在为高层管理者提供战略决 策支持,但是随着企业群体决策支持需求的不断增加,这种方式已不能适应决策 过程中对信息的广泛性和响应速度的要求。 为更好的支持企业或组织的群体决策需求,本文以社会医疗保险系统为背 景,采用o r a c l e 数据库系统作为底层的存储系统,建立了一个支持企业群体 决策的多数据仓库模型。这里所谓多仓库指的是为满足群体决策过程中对信息的 准确、全面的要求,我们将社保系统中所涉及到的尽可能多的内部、外部数据仓 库结合起来,构筑了一个全新的群体决策支持。模型主要包括为群体决策提供支 持的多个数据仓库,数据管理模块,模型管理模块,控制调度模块,以及为决策 查询提供支持的模型元数据等。 为了满足社保系统群体决策过程中对查询响应速度的要求,在建立这样一个 多仓库系统的同时,应该选择一个合适的数据模型,保证在海量数据的环境下, 及时、快速地得出查询结果,以帮助决策者们做出正确的决策。本文仔细研究了 现有的数据仓库的各种模型,仍然采取了最常用的基于关系理论的数据模型 雪花模型作为基本的存取模型,但为了更好的支持群体决策,我们在雪花和对象 混合模型的基础上引入了组合维的概念,增加了维表和事实表之间的复杂灭联, 形成了一种新的模型粗粒度雪花模型。利用这些组合维和它们之间的复杂关 联,用户可以快速的直接查找到所需对象,从而提高查询的效率。作为例证,本 文也给出这两种模型在理论和实践中的性能比较。 在使用数据仓库时,设计好与模型相适应的元数据可以使各种操作更加方 便。在数据仓库中,需要用元数据来描述系统的信息,因此元数据的设计是数据 仓库设计中一个关键的方面。由于数据仓库模型本身描述起来非常复杂,因此在 山尔人学 ! 十导:位论文 我们这样一个多仓库系统中,描述模型的元数据也非常复杂,象关系数据库那样 用关系存储元数据有一定的困难,需要一种更好的方法存储、使用元数据。经过 研究和比较,本文决定采用x m l 存储元数据,因为x m l 的特点就是可以由用 户自己定义复杂数据结构。通过x m l ,我们可以定义任何复杂的元数据,作为 例子,我们设计了多仓库模型中几种元数据的格式。 为了实现基于粗粒度模型的多数据仓库原型系统,本文对粗粒度模型的建模 工具进行了初步的设计,提出了建模工具的设计方案,并演示了几种建模工作的 流程。 最后,本文演示了医保工作中一个群体决策的工作流程,充分说明s g d m d w 在实践中的应用价值。 关键词:群体决策,数据仓库,粗粒度雪花模型,组合维,复杂关联,元数 据 山东大学硕士学位论文 a b s t r a c t g s s si sak i n do fd e c i s i o ns u p p o r ts y s t e mu s e dt oi m p r o v et h ee f f i c i e n c yo f g r o u pd e c i s i o na c t i v i t y i tc a d _ s u p p o r t t h ed e c i s i o n m a k e r sw h oh a v et h es a m e i n t e n t i o nt os o l v eh a l f - s t r u c t u r e ,u n s t r u c t u r e dp r o b l e m i ti san e wd e v e l o p i n gr e g i o n a n dr e g a r d e di m p o r t a n c e g d s sm a k e st o g e t h e ro fc o m m u n i c a t i o n ,c o m p u t e ra n d d e c i s i o n s u p p o r t , a n d m a k e st h e p r o b l e m c o n s e c u t i v ea n d s y s t e m i c t h e d a t a w a r e h o u s ei sas u b j e c to r i e n t e d 、i n t e g r a t e 、n o n - v o l a t i l e 、t i m ev a r i a n td a t as e t ,u s e d t os u p p o td e c i s i o nm a k i n g a tt h eb e g i n n i n g ,d a t aw a r e h o u s ei ss u p p o r t e dt op r o v i d e d e c i s i o n s u p p o sf o r a d v a n c e dm a n a g e r s , b u tw i t ht h e i n c r e a s i n gd e m a n do ft h e e n t e r p r i s e d e c i s i o n s u p p o r t t h i s m e t h o di s n ts a t i s f i e dw i t l lt h e u n i v e r s a l i t y o f i n f o r m a t i o na n dt h er e s p o n s i n gs p e e do nt h ep r o c e s so f g r o u p d e c i o n t og i v et h ee n t e r p r i s eo r o r g a n i z a t i o ng r o u pd e c i s i o n ab e t t e rs u p p o r t ,w eu s e s o c i a lm e d i c a li n s u r es y s t e m ( s i ) a si t sb a c k g r o u n d ,a n do r a c l ed a t a b a s es y s t e m a si t s p h y s i c a ls t o r a g es y s t e m ,b u i l d as u p p o r t i n gg r o u pd e c i s i o nm u f t i w a r e h o u s e m o d e l t h em u t i l - w a r e h o u s ei sm e a n tt h a tt os u p p o r tt h ev e r a c i t ya n du n i v e r s a l i t yo f i n f o r m a t i o n ,w em a k et o g e t h e ra l lp o s s i b l ed a t aw a r e h o u s ef r o ms i ,i n t e ra n d o u t e r ,b u i l dan e ws u p p o r t i n gg r o u pd e c i s i o nm u t i l - w a r e h o u s em o d e l t h em o d e l i n c l u d e st h em u l t i d a t aw a r e h o u s ef o rs u p p o r t i n gg r o u pd e c i s i o n ,d a t am a n a g e m e n t m o d u l e ,m o d e lm a n a g e m e n tm o d u l e ,c o n t r o l i n gs c h e d u l e rm o d u l ea n dm o d e lm e t a d a t af o rd e c i s i o nq u e r y i n g t os a r i s f yt h es p e e d i n gd e m a n di nt h ep r o c e s so f g r o u pd e c i s i o n ,b e f o r eb u i l d i n g t h i sm o d e l ,w es h o u l ds e l e c tap r o p e rd a t am o d e l t h e r e f o r eo u rm o d e ls h o u l dg e tt h e q u e r yd a t ae f f i c i e n t l ya n dq u i c k l yi nt h em a s sd a t a , w h i c hc a nh e l pu st od e s c i d e s a t i s f i e d ,t h ea u t h o ro ft h i s p a p e ri n t r o d u c e dan e wc o a r s e l yg r a n u l a rs n o w f l a k e m o d e lb a s e s do ns n o w f l k em o d e la f t e r m a n yr e s e a r c h s a n d c o m p a r i s o n w e r e m a d e b u tf o rb e t t e rs u p p o r t i n gg r o u pd e c i s i o n ,b a s e do no b j e c ta n ds n o w f l a k em i x e d m o d e l ,w e i n t r o d u c ean e wi d e a - - a s s e m b l yd i m e n s i o n ( a d ) ,i n c r e a s et h ec o m p l e x r e l a t i o nb e t w e e na da n df a c tt a b l e u s i n gt h el i n kw ec a nq u i c k l ya n dd i r e c t l y i l i 山东大学硕十学位论文 l o c a t et h eo b j e c tw h i c hw ew a n t ,s oo u rd a t w a r e h o u s em o d e lh a s t h eo u t s t a n d i n g a c c e s s c a p a b i l i t y i ti s v e r yi m p o r t a n tt oo p e r a t ed a t a i nu s i n gt h ed a t aw a r e h o u s es y s t e mi fw e w o u l dh a v eag o o dm a n a g e m e n to fm e t ad a t a s om e t ad a t ai sac r u c i a la s p e c ti nt h e e n v i r o n m e n to fd a t aw a r e h o u s e t h e r ea r es o m ed i f f i c u l i t y si ns t o r i n gm e t ad a t ai n r e l a t i o na sr d b m sd i df o rt h ec o m p l e x i t yo fm e t ad a t ai nd a t aw a r e h o u s es ow en e e d ab e t t e rm e a n st os t o r ea n dm a n a g em e t ad a t a a f t e rm a n yr e s e a r c h sa n dc o m p a r i s o n a b o u tm e t ad a t ai nd a t aw a r e h o u s ew e r em a d et h ea u t h o rc h o o s ex m l t os t o r ea n d m a n a g et h em e t a d a t ab e c a u s ex m li sv e r yg o o da td e f i m n gc o m p l e xd a t as t r u c t u r e t h u sw ec a nd e f i n ec o m p l e xm e t ad a t aw i t hx m la to l l rw i l l a se x a m p l e s ,w e d e s i g n e ds o m ef o r m a t s o fm e t ad a t ac o n c e r n e dw i t ht h en e wm i x e dm o d e li nt h i s p a p e r f o rt h en e x te x p e r i m e n ti nt h ep r o t o t y p es y s t e m ,t h ea u t h e ro ft h i sp a p e rs i m p l y d e s i g n e d t h et o o lo fm o d e l i n gd e f i n i t i o na n dp u tf o r w a r dap r i m a r ys c h e m aa n d d e m o s t r a t e ds e v e r a lw o r k i n gf l o wf o rm o d e l i n g i nt h ee n d ,t h ep a p e rd e m o s t r a t e saw o r k i n gf l o wf o rg r o u pd e c i s i o ni ns i ,m a k e s a d e q u a t e l yo u to f t h e v a l u eo fs g d m d wi np r a c t i s e k e y w o r d s :g r o u pd e c i s i o n ,d a t aw a r e h o u s e ,a s s e m b l yd i m e n s i o n ,c o m p l e x r e l a t i o n ,m e t ad a t a 原创性声明 本入郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名_ 乙! 墨 日期:趟i :p 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文韵规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名磊班导师签名 山东大学硕士学位论文 第一章绪论 在现代社会中,模糊性、随机性无处不在,这使得个体对问题处理的信息和 能力明显不足。大量实际问题都不是程序化决策能解决的,而是半结构和非结构 化问题,这使得个体对该类问题的处理可靠性大为降低,为此通过群体间信息交 流、讨论,最后通过一定决策准则寻找到问题的合理解决。这在一定程度上类似 于通过增加元件的冗余性来提高可靠度。因此,群体决策是人们对复杂问题处理 的一种必然形式。 同时,计算机网络和数据库技术的迅速发展和广泛应用,使得企业管理进入 一个崭新的时代。广大基层管理人员摆脱了繁重的制表业务和数据处理工作,管 理工作得到进一步规范化,许多业务得到了联机事务处理信息系统的支持。然而, 面对当今竞争日趋激烈与瞬息万变的市场经济,各级管理人员迫切需要面对不同 层次的大量信息迅速作出抉择。这就要求各级管理人员能够从大量复杂的业务数 据中获取各自权限内的决策信息,及时把握市场变化的脉搏,作出正确有效的判 断和抉择。特别是随着数据库系统的逐日运行,数据的堆积将越来越庞大,这种 需求就比以往任何时候都更加迫切。从各级决策者的角度看,数据处理的重点应 该从传统的业务过程扩展到对业务数据的联机分析处理( o l a p ) ,并从中得到面 向各种管理主题的统计信息和决策支持信息。数据仓库就是针对解决上述问题所 产生的一种技术方案,是基于大规模数据库的决策支持系统环境的核心。 1 1 背景 1 9 9 8 年,国务院下发了关于建立城镇职工基本医疗保险制度的决定。基本医 疗保险费用由用人单位和职工共同缴纳,缴费率的的确定要切实考虑财政和企业 的实际承担能力,也要考虑各地所能承受的基本医疗保险责任,使基本医疗保险 与当地经济发展水平相适应。根据省级单位制定的参考线,各统筹地区可按前3 年财政和企业实际医疗费支出占职工工资总额的比例测算。 在实施山东省社会医疗保险项目中,我们发现医疗保险制度中有太多的比例 数据需要确定,比如省级部门制定的参考线、病人看病的缴费比例、起伏线的确 山尔人学硕士宁:位论文 定等等。如果发生亏空,我们就要考虑是病人看病的缴费比率太低,或者是起伏 线制定的不合理等等。这些比例的合理确定既保证了财政的收支平衡,又能确保 人民能够看得起病。特别是参考线的确定,关系到全省所有缴费单位的缴费比率, 因此需要考虑各个地市的经济财政状况和人民的生活水平,也需要各个地市熟悉 相关情况的决策者们共同参与,确定起来非常困难。我们发现各个地市的财政经 济状况虽然有很大的不同,但是他们的共同特点是都拥有一个庞大的详细而完整 的数据库系统其中包含了医保资金流转的详细过程,都拥有熟悉本地医保现状的 决策专家。 在过去的几年,数据仓库经历了突飞猛进的发展,在大量的行业中得到了应 用。同时数据仓库技术也有了迅速的发展,表现在数据仓库数据模型( d a t a w a r e h o u s em o d e l i n g ) 、数据仓库设计( d a t aw a r e h o u s ed e s i g n ) 、数据仓库体系结 构( d a t aw a r e h o u s ea r c h i t e c t u r e ) 、数据仓库维护( d a t aw a r e h o u s em a i n t e n a n c e ) 、 数据仓库数据管理( d a t aw a r e h o u s ed a t am a n a g e m e n t ) 、数据仓库数据操作( d a t a w a r e h o u s eo p e r a t i o n a li s s u e s ) 以及查询优化( o p t i m i z a t i o n ) 等技术方面叫【1 2 1 。 数据仓库( d a t a w a r e h o u s e ,d w ) 提供了对o l a p 和决策支持系统( d s s ) 的支持, 但是现今的以d w 为基础的d s s 大都不能很好的支持决策者之间的协同决策。近 年来,对于g d s s 的需求也产生了爆炸性的增长,已进入到了实用化阶段,并积 累了开发过程中的丰富经验。为辅助决策者4 j n 定这些比例数据,我们在数据仓 库的基础上引入群体决策支持系统( g d s s ) 的概念,提出了一种支持群体决策 的多仓库模型,辅助决策者们制定更加客观的比例数据。这种多仓库的数据模型 以分析企业的不同生产活动为目标,既可以为决策者们的协同决策提供辅助帮 助,又可以为决策者们提供面向某个主题的决策服务,为决策者们提供统一的协 同决策支持平台。 1 2 本文的贡献 本文在实施山东省社会医疗保险系统的背景下,以支持医保系统相关群体决 策的制定为目标,认真研究了多仓库的数据存储模型和元数据的管理和使用及其 对群体决策的支持,做出了以下的贡献: ( 1 ) 提出了一种新的系统模型支持群体决策的多仓库模型( s g d m d w ) 山东大学硕士学位论文 s e g d d w s 是一种支持群体决策的多仓库模型,它以多个数据仓库为信息来源, 通过模型元数据提供对多仓库的联合操作。它的最大的特点是提供了对多仓库平 台的支持,使得数据仓库之间的信息可以共享,为决策者们制定更加合理的决策 提供帮助。仓库的建立是相互独立的,我们甚至可以使用系统外部的数据仓库。 ( 2 ) 基于o r a c l e 数据库,提出了一套粗粒度雪花模型的实现方案。 为了更好的实现s g d m d w 对群体决策的支持,我们需要采取一个好的数据 存储模型,以提高信息查询的速度。本文在仔细研究了现有的数据仓库的各种模 型后,对雪花模型中的维表改进,设计了一种新的数据模型粗粒度雪花模型, 这是一种对象和关系混合的模型。新的模型仍然采取了最常用的基于关系的模型 雪花模型作为基本的存取模型,但为了更好的支持群体决策,在 3 】的基础 上对它加以扩充和改造。在这个模型中,引入了组合维的概念,增加了一些数据 仓库中对象之间的复杂关联,用以描述数据仓库中对象之间的关系。利用组合维 以及他们之间的复杂关联,用户可以快速的直接查我到所需对象,从而提高查询 的效率。组合维还可以使模型更直观,更有利于提高应用开发的效率。我们通过 理论和实验论证了粗粒度模型的优点。 ( 3 ) 初步设计了粗粒度模型的建模工具,给出了模型的工作流程,并设计 了几种元数据的存储方案。 山尔人学硕士学位论文 第二章相关工作介绍 七十年代,g o r r y 和m o r t o n 教授提出了决策支持系统概念。此后它发展迅速, 在美国许多部门中成功地获得应用,如对城市规划决策、商品销售决策等,深受 用户欢迎。业界比较认同的定义是:d s s 是基于计算机的交互系统,用于解决半 结构化或非结构化决策 4 】【5 】【6 f 7 。整个8 0 年代直到9 0 年代初,联机事务处理一直 是数据库应用的主流。当联机事务处理系统应用到一定阶段后,用户便发现单靠 拥有联机事务处理已经不足以获得市场竞争的优势,他们需要对其自身业务的运 作以及整个市场相关行业的情况进行分析,两做出有利的决策。这种决策需要对 大量的业务数据包括历史业务数据进行分析才能得到。这种基于业务数据的决策 分析,人们称之为联机分析处理( o l a p ) ,比以往任何时候都显得更为重要,于 是数据仓库技术应运而生。 2 1g d s s 的体系结构 有关行为科学的研究川 2 2 1 以及决策支持系统的开发研究 2 4 】 2 5 1 2 6 1 提出了很 多有关群体决策的行为模型。在 2 1 中,将一般决策机构的行为机理描述成一集 单元功能( s e to fr o l e s ) 的网络结构,如图2 1 所示。这些单元功能可以是信息 的采集、管理、分析及决策的相应功能。在实际的组织机构中,每个功能可以对 应一个或多个人的职责。在这些单元功能之间,通过信息和控制流将它们联系在 起。 蓬蕃摹港 图2 1 群体决策行为的抽象模型示意图 g d s s 面向多人合作的决策过程。早期的g d s s 只简单地将一个或多个个体级 的d s s 之上增加了一个群体综合层次模块。其中,个体级部分支持群体内个体的 功能需求和有关操作,而群体级的综合管理模块为这些个体提供了一个信息的交 流、讨论、综合、表决并最终取得一致决策的机制的环境。根据g d s s 各单元之 山东大学硕士学位论文 间在相互依赖关系的特点及其协作的要求,对整个g d s s 的模型库管理系统提出 较一般d s s 更高的要求,如下: 有关模型的运行环境和功能在组织内各单元之间理解的一致性e 各单元的模型库与公共模型库的一致性与连贯性,即对公共模型库模型的调 用或修改需经单元模型库的缓冲,对公共模型库的扩充需经单元模型库的预热。 较强的构模语言。 能够生成模型的链接以求解问题。保存其运行环境( 模型的形式及功能表达、 输入输出的关系的描述等) ,并生成有关求解路径合理化的解释,以便与其它单 元交互。 当各单元之间存在相互依赖的关系时,根据模型的运行环境和功能描述,在 g d s s 通信支持的条件下,检测并保证各单元之间运行模型序列在逻辑关系上的 正确性。 图2 2 一种g d s s 的体系结构 基此,人们提出一种g d s s 的系统结构如图2 2 所示。其中的控制模块提供 了在各单元之间存在相互依赖情况下动态调度系统运行的控制机制和进行通信 的数据通道。由于根据不同决策任务,各单元问的依赖关系可能会发生动态的变 山自、人学硕十学他论文 化,有关系统运行的知识库系统就显得越来越重要剀【2 7 】,被认为是实现系统 的灵活性,支持个人决策风格和增加系统对复杂多变问题适应性的有力手段。 g d s s 的蓬勃发展使得人们对其关键部分信息的来源,投入了更多的精 力。如何保证快速、全面、准确的将决策信息提供给决策者们是问题的关键,也 是我们面临的重大挑战。数据仓库技术提供了对o l a p 和决策支持系统的支持。 但是数据仓库的海量数据,影响了决策信息查询的效率,进而无法满足决策者们 实时沟通的需要。现今的以d w 为基础的d s s 大都不能很好的支持决策者之间 的协同决策。 2 2 当前主要的数据仓库模型 数据的组织是数据仓库的一个关键的问题,直接影响到数据仓库的效率。通 常数据仓库中的把分析数据的角度叫做维,数据按照维来组织,展现出多维的性 质1 5 】。基于底层的数据组织,数据仓库的数据模型主要有星型模型( 或是雪花 模型) 和多维模型两种。前者基于关系数据库,通过关系数据库来实现多维模型, 将数据立方体上多维数据操作转化为关系表上的操作,雪花模型是星型模型扩展 :后者则基于真正的多维数据库,底层的数据组织就是真正的多维模型, 其上的数据操作对应数据方体的操作【l “。目前大多数的数据仓库产品都是基于雪 花模型。 2 2 1 星型模型和雪花模型 这两种模型都是基于关系的模型,其中雪花模型是星型模型的扩展 ”。星型 模型通常由一个很大的事实表和一组较小的维表组成。如图2 3 所示的星型模型 中医疗保险支出事实是中心的事实表,其周围的维表有:时间、地区、医院类型、 病人种类和药品类型。 山东大学硕士学位论文 图2 3 星型模型 雪花模型中的维通常是有层次的,雪花模型就是对维表按层次分解后形成 的。例如,如图2 4 所示,产品可以按类型分类等。 地区维 时间维 医院维 图2 4 雪花模型 星型模型和雪花模型都是基于关系数据模型的,它们里面都有表的概念,事 实证明关系数据模型有很多的优点。1 9 6 9 年,e e c o d d 博士发表了他著名的关 系数据模型的论文【l ”,关系数据模型由于有理论基础做依据,提供了与物理存储 无关的标准化的访问手段,因此关系数据库管理系统在实际生产中得到了广泛的 应用。近几十年来,大量新技术、新思路的涌现出来并被用于关系型数据库系统 的开发和实现:客户服务器系统结构、存储过程、多线索并发内核、异步i o 、 代价优化,等等,这一切使得关系数据库系统的处理能力达到足够高的水平。 关系表是二维的,而数据仓库则是多维的,二者在数据组织、数据操作等很 多方面是不同的,雪花模型很好地解决了这个的问题,它能将用户的多维查询请 求转换成针对该数据模式的标准s q l 语句1 1 9 】。因为雪花模型是基于关系数据模 山尔_ 人学硕十学位沧文 型的,因此具有关系数据模型的优点。而且因为当前数据库的主流技术是关系数 据库,采用这种模型的数据仓库有利于程序设计人员和数据库管理人员的快速接 受。 现在很多数据仓库的解决方案,都是原有的关系数据库制造商在原有的数据 库基础上提出的。他们大都采用雪花模型或是其变形作为数据仓库的数据存储模 型。例如o r a c l e 公司的数据仓库解决方案中,将详细数据以雪花模型存储在 o r a c l e 关系数据库中,而用一个叫做o r a c l ee x p r e s ss e r v e r 的m o l a p ( 多维o l a p l 服务器管理将多维的操作映射成s q l f 2 9 l f 3 0 l f 3 ”。 尽管关系方式的雪花模型具有很多优点,但它和关系数据库一样,也暴露出 很多的不足和限制3 2 】。雪花模型缺乏对复杂关系的有效描述,因此存取效率低。 以雪花模型建立的数据仓库在应用时会遇到大量的表间连接操作,而连接操作对 于关系数据库来说是一件耗时的操作。如果数据仓库的规模很大的话( 通常数据 仓库的规模很可能会达到t b 级) ,基于雪花模型的数据仓库在做复杂查询时查 询就很可能效率偏低。 2 2 2 多维方式的模型 多维方式的模型是基于多维数组的,这是与星型和雪花模型完全不同的一种 数据仓库模型。多维数组可以这样来表示:( 维1 ,维2 ,维1 3 ,变量) 。例 如:图2 5 所示的医疗支出费用是按时间、地区和疾病类别组织起来的三维立方 体,加上变量“医疗支出费用”,就组成了一个多维数组:( 地区,时间,疾病, 支出费用) 。 疾病类别 济南 ( 万元) 1234 时间( 月) 幽2 5 按时间、地区和疾病分类组织的多维模型 山东大学硕士学位论文 在这种模型中,数据是真正按照多维数据的方式组织的,这适合数据仓库数 据的多维性,很多数据仓库中的操作可以在多维模型中得到一一的对应。但是为 了支持这种模型,必须提供一种与关系数据库完全不同的数据库管理系统多 维数据库系统。这种数据库系统己经出现,a r b o rs o f t w a r e 严格遵照c o d d 的定 义,自行建立了多维数据库,来存放联机分析系统数据,开创了多维数据存储的 先河,后来的又有很多家公司纷纷采用多维数据存储1 3 9 。代表产品有h y p e r i o n ( 原 a r b o rs o f t w a r e ) e s s b a s e 、s h o w c a s es l x a t e g y 等。多维数据库是一种以多维数据存 储形式来组织数据的数据管理系统,它不是关系型数据库,在这种数据库中,数 据是真正的按照多维的形式组织的。 基于多维数据库的多维模型特点是存储效率高( 在充满度大的情况大) ,计 算速度快,数组的下标就相当于索引h 。】,但多维数组通常非常稀疏,需要进行压 缩。 多维数据库在针对小型的多维分析应用有较好的效果,但它缺少关系数据库 所拥有的并行处理及大规模数据管理扩展性,因此难以承担大型数据仓库应用。 另外,商品化的多维数据库很少,应用规模也很小,这是多维方式的模型的主要 缺点。 2 2 3 对象与关系混合的数据模型 为了解决雪花模型的缺点, 3 】提出了一个对象与雪花模型混合的数据仓库模 型,它在原有的雪花模型的基础上,引入了面向对象技术中复杂关联的思想,用 来描述述据仓库中对象和对象之间的关系。在图2 。5 中,维、事实、维表跟事实 表的元组、甚至整个模型都可以看作对象。l i n k 代表对象之间的复杂关联。通 过用合适的方法建立对象和对象间的复杂关联后,数据仓库中的维和维,维和事 实等对象之间就建立了直观的、物理的连接,在建立了复杂关联的两个对象中作 查询就会变得直观,快速。复杂关联的实现依赖于具体的r d b m s ,其基本原理 是根据复杂关联得到所要查询的对象的i d ,借此快速得到查询的对象。在新的 模型中,底层的数据组织还是关系表,但是各个对象之间可以建立复杂的关联, 从而将雪花模型和面向对象数据模型的优点较好的结合在起。 混合模型是雪花模型的改进,在某些方面它有着突出的性能优势【引。但是由 山东人学硕士学位论文 于l i n k 的建立是针对维表和事实表的,维表和维表之间没有关联,对于一些复 杂的查询,特别是群体决策所需要的一些多维数据的联合查询,仍然要执行多表 之间的连接操作,因此并没有很大的优势。 病人类犁维 2 3 总结 日期维 图2 5 混合模型的数据组织示意图 地区维 群体决策支持系统的迅速发展使得为决策者们提供信息来源的底层数据的 组织和管理变得目益重要。数据仓库提供了对d s s 的支持,现在大部分的决策 支持系统都是由数据仓库来提供决策信息,现有的数据模型和存储结构包括雪花 模型等大都能够很好的组织数据,提供令人满意的决策信息。但是由于海量数据 的存在,无法满足群体决策进程中对速度上的要求,同时由于仓库与仓库之间相 互孤立,使得信息无法共享,也无法满足群体决策对信息全面性的要求。 山东大学硕士学位论文 第三章支持医疗保险群体决策的多仓库模型 任何技术的增长和可为人们所接受程度都取决于该技术被发现的价值能否 超越使用它的花费。g d s s 是构建在d s s 的基础之上的,在其设计、结构和用途 上都反映出群体的各个成员相互影响作出特定决策的决策方式。建立g d s s 的动 机和工作环境会促进组员间的竞争和协作,他们将共享收集到的真实的信息,尽 力解决问题。企业实现数据仓库的目的是把企业掌握的不同时期、不同地区分散 的企业微观数据信息,经过综合、加工,按照多个主题集中存储和管理在数据仓 库中,灵活方便的实现固定的和随机动态的数据查询处理、综合分析和统计报表 1 3 l 1 4 】。本文以国家实行的社会医疗保险改革为背景,考察其中的关键问题群体 决策的需要,建立了一个支持医疗保险群体决策的多仓库模型( s g d m d w ) 。同 时,为提高信息查询的速度和效率,在混合模型【3 】的基础上我们设计了新的粗粒 度雪花模型。 3 1s g d m d w 的体系结构 社会医疗保险行业的决策工作主要是基于社会医疗保险系统积累的日常业 务数据,涉及的数据量大,计算过程复杂。以往的决策信息都是基于大量的手工 统计,工作量很大,效率很低,并且很难保证决策的正确性 1 “。根据医保行业的 特点,本文建立了一个支持医保中群体决策的多仓库模型,用以更好的支持医保 中的决策分析,提高医保相关决策的效率与准确度。 医保数据是由各个地市的医保管理系统在正常业务中积累下来的,其主要特 点如下: ( 1 ) 数据量大,涉及的主题比较多,不同主题内容互相牵制。医保系统的 最大特点是数据量大,每年数据的格式与要求不尽相同。这些数据资料方面面 临外部环境对传统保存方式数据安全性的挑战,另一方面各业务部门和相关单位 也有充分利用、进行数据挖掘的迫切需求。针对信息数据量大的特点,我们就需 要数据仓库引擎和数据具有极高的性能。 ( 2 ) 数据源比较复杂。不同的医保部门采用的数据库管理系统可能不一致, 不同的部门数据的存放格式也是不一致的,在加载到数据仓库之前,这些数据必 须经过净化筛选、加工整理以及数据集成,同时可能需要w e b 数据p ”,这就造 成了数据源的复杂性。对于这样复杂的数据源,我们专门建立了一e t l 工具来 集成加载数据源的数据【2 0 】。 ( 3 ) 需要及时的决策支持。任何决策支持系统的决策是有一定的时间限制 的,系统的运行效率太低就不能满足这一需求,最后提供的信息只要是过时的, 根据这一信息做出的任何决策可能会导致最终的失败。 ( 4 ) 要求展示方式复杂,计算复杂,时间响应要求高。系统需要能够以生 动的形式展示数据,这些形式包括复杂的报表、动画、图表等3 4 l 。 ( 5 ) 需要某些主动决策。系统能够自动的做出某些简单常用的决策是我们 追求的目标,这样可以节省大量的人力、物力、财力。我们在系统中提供一个主 动模块来帮助系统做出主动的决策。主动模块根据定义好的规则对某些问题做出 主动的决策。 我们仔皇圳分析了山东省1 7 地市的医疗保险系统,为每个系统建立了一个数 据仓库,其中既包括各个县区参保病人的各种信息也包含一些相关的外部信息, 比如当地的财政情况、经济状况等。以此为基础,我们设计了支持支持医疗保险 群体决策的多仓库模型。s g d m d w 是在已有的对象与雪花混合模型【3 】的基础之 上,通过对其改进,增加了组合维以及维表之间的复杂关联并提供对多仓库的协 同支持使之能够更好的支持群组决策的工作过程,如图3 1 图3 is g d m d w 模型 山东大学硕士学位论文 模型主要包括为群体决策提供支持的多个数据仓库,数据管理模块,模型管 理模块,控制调度模块,以及为决策查询提供支持的模型元数据。为保证群体决 策的工作过程在海量数据的查询条件下满足速度上的需求,我们在每个数据仓库 中设计了组合维,并增加了它们之间的复杂关联。 d w 一种改进的数据仓库模型,是面向社会医疗保险领域的( 收支、经济、财 务、人事等) ,集成了此领域的各种原始数据( 抽取、转换) ,提供给决策成员们 高效快速的查询。这种改进的仓库模型是在原有的数据仓库的基础上将每个主题 的原有的维表,利用对象之间的复杂关联,变成了新的组合维,事实表不变,组 合维和事实表之间建立起复杂关系描述( 可用l i n k r 3 】实现) 。 主题主题是一个在较高层次将数据归类的标准,每个主题对应一个宏观的分 析领域,每个仓库针对具体决策需求可细化为多个主题,比如某地某年的医保收 支情况就是一个主题。每个主题拥有一个事实表和多个组合维。 组合维维表之间的复杂关联。见3 3 元数据有两种元数据,仓库元数据和模型元数据。其中每个数据仓库中的元数 据纪录了仓库业务主题的描述以及有关数据源定义、目标定义、转换规则等相关 的数据信息。模型元数据则是支撑我们模型运转的核心,它详细描述了每个仓库 的主题、目标等,记录了决策查询时多仓库之间信息交互的规则、信息重组规则 等为多仓库的联合查询提供帮助。 数据管理负责业务系统中,对相关决策信息的查询。利用仓库元数据、组合维 以及维表之间的复杂关联提高查询的速度,满足决策过程的需要, 模型管理负责将各个仓库业务主题的描述以及有关数据源定义、目标定义、转 换规则等相关的数据信息记录到仓库元数据中。同时负责组合维的创建、组织和 使用,是我们的模型中的核心功能之一。 s g d m d w 是一种支持群体决策的多仓库模型,它以数据仓库为基础,利用 仓库元数据通过模型管理模块组织组合维和对象闻的复杂关联,提高查询的效 率,有效的解决了群体决策过程中对海量数据查询效率的要求。同时利用模型元 数据中的规则库提供了多仓库信息数据的共享,实现了多仓库的联合操作,为决 策者们制定更加合理的决策提供帮助。仓库的建立是相互独立的,我们甚至可以 使用企业的外部数据仓库。这里的仓库模型是在原有的对象与雪花模型的基础上 山东火学硕十学位论文 利用对象之间的复杂关联,建立一种新的粗粒度雪花模型,将原有的维表组合成 新的组合维,以减少查询时多表联合操作的代价。 3 2 粗粒度雪花模型 在第二章提到,当前最常用的数据仓库模型是基于关系数据模型的雪花模 型,它具有关系数据模型的优点,表现直观,但因其存取效率低下,很难满足群 体决策活动中对查询响应时间的要求。混合模型虽然部分解决了存取效率的问 题,但由于复杂关联只是建立在维表和事实表之间的,对于复杂的查询仍旧是无 能为力。为了解决这个缺点,我们提出了一个粗粒度雪花模型,它在原有的混合 模型的基础上,引入了组合维的概念,利用群体决策活动中需求已知的前提,提 前组合决策查询所能用到的相关维,以加快查询的速度。 下面就以山东省济南市的社会医疗保险数据仓库系统为例,设计它的粗粒度 雪花模型。假设这个模型有五个维:时间维、地区维、病人维、医院维和药品维, 对应五个维表,有一个事实表就是病人就诊信息明细表,整个模型的示意图如图 3 2 。 维衷 组合维 事实表 图3 2 粗粒度雪花模型示意图 这里的仓库元数据是由元数据管理模块来管理的,主要负责纪录组合维以及 它们与事实表之间的复杂关联的创建、使用和更新信息。 3 2 1 组合维 定义:利用对象之问的复杂关联将两个或两个以上的维表的相关列关联起来 山东大学硕士学位论文 ( 聚积、分组等操作) ,形成一个单一的组合维表( 粗力度表) ( 图3 3 ) 。这种新 的维表既包含了原有不同维表的相关属性,同时也体现了维表间的综合特性,为 决策者们提供高效快速的查询。 在组合维中我们将各个维表的属性组合起来,各个维表的主键的组合就构成 了组合维的主键,事实表不变,在组合维与事实表之间利用l i n k 建立关联关系。 这样,在做与特定应用相关的查询时,我们只需要做组合维和实事表之间的两表 关联查询,大大加快了查询的速度。 图3 3 组合维 比如在图3 2 中,因为某地区某段时间内的医院收入是决策者们比较关心的 问题之一,这里将地区、时间和医院三个维表组合,生成一个新的医院收入组合 维,其明细数据仍然放到事实表中,由l i n k 建立起关联。当需要查询某地区某 段时间内的医院收入时,我们只需要在医院收入维一个表中找到相关的纪录,然 后由l i n k 就可以迅速的找到结果。 3 2 2 组合原则 组合维的概念的出现,使得我们得以构建新的更快的支持群组决策的数据仓 库系统。但是组合维的选择并不是任意的,极端情况下我们将一个主题当中所有 的维表都预先组合,当然,我们的主题当中现在只剩下事实表和组合维了,可是 我们现在的组合维是包含了所有的维表的每一种可能用到的条件的连接体,它有 可能比事实表大好几个数量级,这么大的表,即使我

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论