




已阅读5页,还剩54页未读, 继续免费阅读
硕士论文-支持群体决策的多仓库系统的更新机制研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学 硕士学位论文 支持群体决策的多仓库系统的更新机制研究 姓名 刘伟 申请学位级别 硕士 专业 计算机软件与理论 指导教师 郑永清 20040420 原创性声明 本人郑重声明 所呈交的学位论文 是本人在导师的指导下 独 立进行研究所取得的成果 除文中已经注明引用的内容外 本论文不 包含任何其他个人或集体己经发表或撰写过的科研成果 对本文的研 究作出重要贡献的个人和集体 均已在文中以明确方式标明 本人完 全意识到本声明的法律责任由本人承担 论文作者签名 塞 隆日期 兰竺竺 关于学位论文使用授权的声明 本人完全了解山东大学有关保留 使用学位论文的规定 同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版 允许论 文被查阅和借阅 本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索 可以采用影印 缩印或其他复制手段 保存论文和汇编本学位论文 保密论文在解密后 论文作者签名 左l 刍 导日期 逊 山东大学硕士学位论文 支持群体决策的多数据仓库系统的更新机制研究 研究生刘伟 指导教师郑永清副教授 摘要 面向管理者进行事件决策和趋势分析的决策支持系统 D e c i s i o nS u p p o r t S y s t e m 简称D S S 近年来发展迅速 相应地对决策的准确性 合理性的要求也 日益提高 随着政务建设内部发展的需要和外部竞争压力的不断增加 政府对 于信息系统决策支持性能的要求也在逐步增大 近年来 数据仓库技术的出现 和成熟为政府高层决策提供了强有力的支持 医疗保险是社会保险的一项主要 内容 也是建立多层次社会保障体系的主要组成部分 对深化改革 促进发展 保持稳定具有重要意义 我们基于医疗保险的行业特点 建立多数据仓库系统 S G D M D W S 采用O R A C L E 数据库系统作为底层的存储系统 用以更好的对医 疗保险的各种决策尤其是群体决策提供有效的支持 数据仓库一开始是定位在为高层管理者提供战略决策支持 采用定期的数 据更新 并且主要是为个体决策者提供决策信息 但是随着决策的复杂度不断 增加使群体决策的重要性日益突出 传统的数据仓库更新方式己不能适应群体 决策过程中对数据及时准确性的需求 这就要求决策者所关心的信息能够及时 准确地反映到数据仓库中来帮助决策者进行有效的决策 为了达到上述要求 本文首先对S G D M D W S 进行分析 探讨其存在多个数据仓库和数据仓库之间互 为数据源的情况 然后分析传统的数据仓库更新方式不能有效地支持对 S G D M D W S 中数据仓库的更新 基于上述目的本文结合劳动部门关于医疗保险 的实际情况和S G D M D W S 中多数据仓库的特点提出了一种新的更新模型 M D W U M 和更新算法M D W U A 这种应用于多数据仓库更新的模型和算法针 山表大学硕士学位论文 对S G D M D W S 群决策支持的特点有效地解决了在多数据仓库的情况下按传统 更新方式出现的信息传递量大和数据源负担过重的问题 并能在较好地解决网 络不稳定造成的信息传递无序和丢失的问题 对数据仓库中数据的更新是构建数据仓库的一个重要步骤 直接决定了数 据仓库中数据的质量 从而影响了决策的准确性与及时性 众所周知 数据仓 库中数据量大 数据源复杂 数据更新的复杂程度高 因此本文在提出更新模 型M D W U M 和更新算法M D W U A 的同时 对数据仓库更新中的重要环节一并 发更新的检测进行了深入分析 并通过定理指出M D W U A 如何检测并发更新并 消除可能的异常 文中还通过M D W U M 模型和传统模型的实验数据对比 证明了M D W U M 模型比传统模型更适合应用于对多数据仓库系统的更新 关键词 决策支持 群体决策 数据仓库 数据仓库更新 4 山东大学硕士学位论文 R E S E A R C H0 NR E F R E S H H E N T I NN u I t i D WS u p p o r tG r o u pD e o i s i o n G R A D U A T E L i uW e i S U P E R V I S O R P r o f e s s o r Z h e n gY o n g q i n g A B S T R A C T D S S D e c i s i o nS u p p o r tS y s t e m w h i c h i s m a n a g e r o r i e n t e df o re v e n t d e c i s i o n m a k i n g a n dt r e n d a n a l y s i si sd e v e l o p i n gr a p i d l yi nr e c e n ty e a r s a c c o r d i n g l y t h ec o m m a n do fv e r a c i t ya n d r a t i o n a l i t y o nd e c i s i o ni sa l s o b e i n g e n h a n c e d i n c r e a s i n 西y A l o n g w i t ht h en e e d o fd e v d o p m e mo fg o v e r n m e n ta f f a i r sa n d i n c r e a s e ds t r e s so fe x t e r i o rc o m p e t i t i o n t h eg o v e r n m e n tr e q u i r e sh i g h e ri n f o r m a t i o n s y s t e m f o rd e c i s i o n m a k i n g R e c e n t l yt h e a p p e a r a n c ea n dg r o w m gu po fd a t a w a r e h o u s eh a v eg i v e ne f f e c t i v es u p p o r tf o ra d v a n c e dd e c i s i o n so ft h eg o v e r n m e n t H o s p i t a l i z a t i o n i n s u r a n c ei sa n i m p o r t a n tp a r t o fs o c i a li n s u r a n c ea n dt h e e s t a b l i s h m e n to fm u l t i l a y e rs o c i a l s a f e g u a r ds y s t e m a n di th a sac r u c i a ls e n s ef o r i n n o v a t i o na n ds t a b i l i z a t i o n W eb u i l dam u l t id a t aw a r e h o u s es y s t e m S E G D D W S w h i c hi sb a s e do nt h ec h a r a c t e r i s t i co fh o s p i t a l i z a t i o ni n s u r a n c e T h i ss y s t e mc a n g i v e e f f i c i e n t s u p p o r t f o ra l lk i n d so fd e c i s i o n so fh o s p i t a l i z a t i o n i n s u r a n c e e s p e c i a l l yt h eg r o u pd e c i s i o n s w h i c ha d o p t sO R A C L E a ss t o r a g es y s t e m D a t aw a r e h o u s ew a so r i e n t e dt op r e s e n ts u p p o r to ft h es t r a t e g i cd e c i s i o n sf o r a d v a n c e dm a n a g e r sf r o mt h e b e g i n n i n g I t i s u p d a t e dp e r i o d i c a l l y a n d m a i n l y p r o v i d e s t h ei n f o r m a t i o no fd e c i s i o n sf o ri n d i v i d u a l m a n a g e r B e c a u s e o ft h e c o m p l e x i t y t om a k ed e c i s i o n sa n dt h e i m p o r t a n c e o ft h e g r o u p d e c i s i o n s c o n v e n t i o n a lu p d a t em o d e lo fd a t aw a r e h o u s eC a nn o tm e e tt h er e q u i r eo ft h eg r o u p d e c i s i o nw h i c hn e e dm o l et i m e l ya n dv e r a c i o u si n f o r m a t i o n I no r d e rt om a k et h e d a t aw a r e h o u s ec o u l dp r o v i d et i m e l ya n dv e r a c i o u sd a t aw h i c hd e c i s i o n m a k e r sc a r e a b o u t f i r s t l yt h i sp a p e ra n a l y z e sS E G D D W S a n dd i s c u s s e st h a tt h e r ea r em u l t id a t a w a r e h o u s e sa n dad a t aw a r e h o u s ec a l lb ead a t as o u r c ef o ra n o t h e rd a t aw a r e h o u s e t h e ni n d i c a t et h a tt h ec o n v e n t i o n a lu p d a t em o d e lo fd a t aw a r e h o u s eC a nn o tu p d a t e 山东大学硕士学位论文 t h ed a t aw a r e h o u s e si nS E G D D W S e f f i c i e n t l y T h i sp a p e rp u t sf o r w a r d an e w u p d a t e m o d e lM D W U Ma n d u p d a t e a r i t h m e t i cM D W U Aa c c o r d i n gt ot h ef a c t o f h o s p i t a l i z a t i o n i n s u r a n c ea n dt h e s p e c i a l t y o fS E G D D W S I fw e u p d a t e d a t a w m e h o u s e s a c c o r d i n g t oc o n v e n t i o n a lu p d a t em o d e lo fd a t aw a r e h o u s e t h eb u r d e n o fd a t as o u r c e sw o u l db eo v e rl o a d i n g T h em o d e la n da r i t h m e t i cw ep u tf o r w a r d c a ns o l v et h i sp r o b l e me f f e c t i v e l y A n di ta l s oC a ns e n du p d a t ei n f o r m a t i o ni nt h e i n s t a b l en e t w o r kw i 也o u tc h a o sa n dl O S S T h ed a t aw a r e h o u s eu p d a t ei sac r u c i a ls t e pi nb u i l d i n gd a t aw a r e h o u s e b e c a u s e i tc a nd e t e r m i n et h eq u a l i t yo f t h ed a t ai nd a t aw a r e h o u s ea n di n f l u e n c et h ev e r a c i t ya n db e t i m e s o fd e c i s i o n m a k i n g A sw e l lk n o w n d a t aw a r e h o u s e ss t o r ed a t aw i t hg r e a tc a p a c i t y a n dd a t as o n r c e sm a yb eh e t e r o g e n e o u s S Ot h ed a t aw a r e h o u s eu p d a t eh a sag r e a t c o m p l e x i t y I na d d i t i o ni nt h i sp a p e r w e g od e e pi n t ot h ee x a m i n a t i o no f c o n c u r r e n t u p d a t e s a n dw ep u tf o r w a r d at h e o r e mw h i c hC a ne x a m i n et h ec o n c u r r e n tu p d a t e s a n dr e m o v et h ep o t e n t i a la b n o r m i t y W ea l s op r o v et h a tt h eu p a a t em o d e lM D W U Mc a nb em o ea d a p t i v et h a nt h e c o n v e n t i o n a lu p d a t em o d e lt h r o u g ht h ee x p e r i m e n t a ld a t a K E YW O R D D e c i s i o nS u p p o r t G r o u pD e c i s i o nS u p p o mD a t aW a r e h o u s e D a t a W a r e h o u s eR e f r e s h m e t a t 6 山东太学硕士学位论文 第一章绪论 1 1 研究背景与动机 随着应用的不断发展 对于一些重大决策的制定使得一些不同领域不同层 次的管理人员也加入到数据仓库的用户中来形成群体决策 1 同时用户面对的 也不再都是基于长期趋势的战略型决策 一些基于短期应用或突发事件的战术 型 T a c t i c a l 决策需求也越来越多 而且为了降低决策的代价 决策者可以参 考以往的相关决策信息和其他决策者在类似情况下的决策过程 在这种情况下 数据仓库互为数据源和数据的及时更新对于提高决策的指导性具有重要的意 义 医疗保险是由国家或社会给予的一种物质帮助 即提供医疗服务或经济补 偿的一种社会保障制度 它是社会保险的一项主要内容 对深化改革 促进发 展 保持稳定具有重要意义 作为医疗保险部门的决策者 每一个决策的制定都要建立在大量的决策信 息之上 考虑而所作的每一个决策却关系到广大参保人群的切身利益 我们可 以从以确定单位与职工的缴纳比例为例 就要考虑到本地区的平均人均收入水 平 人群收入差异 以往收支状况 上级制定的参照标准以及其它地区在类似 情况下如何制定该比例等诸多因素 再比如基本医疗保险药品目录的制定首先 要以国家颁布的目录为基础 结合本地的各医院参保人群的就诊信息 与医院 决策者一起对国家颁布的目录加以调整 如果决策失误或不及时 要么使广大 参保人群的利益得不到保障 要么使政府入不敷出而蒙受损失 这样都不利于 医疗保险改革的顺利推进 由此看来 医疗保险每一个标准的制定都需要杜保部门的相关决策者不仅 要求决策者能够在复杂的决策环境变化中迅速的做出反应 而且对于重大的决 策需要多名决策者根据各自所掌握的决策信息共同参与制定 如果能够准确及 时地为决策者们在群体决策时提供可靠的参考数据 会极大地有利于提高所作 决策的准确性与及时性 为此我们根据医疗保险领域的实际情况提出了支持群体决策的S G D M D W S 数 据仓库模型 2 为了能够达到群体决策的目的 在S G D M D W S 模型中存在多个数 山东大学硕士学位论文 据仓库为决策者们提供决策支持并且数据仓库之间互为数据源 但目前对数据 仓库的更新模型主要是对单个数据仓库的更新 还没有对支持群体决策的多数 据仓库模型出现 随着应用的不断发展 对于一些重大决策的制定使得一些不 同领域不同层次的管理人员也加入到数据仓库的用户中来形成群体决策 同时 用户面对的也不再都是基于长期趋势的战略型决策 一些基于短期应用或突发 事件的战术型 T a c t i c a l 决策需求也越来越多 而且为了降低决策的代价 决 策者可以参考以往的相关决策信息和其他决策者在类似情况下的决策过程 在 这种情况下 数据仓库互为数据源和数据的及时更新对于提高决策的指导性具 有重要的意义 我们可以看到社保部门的相关决策者们要制定参保个人及所在单位的缴 纳比例 起付线 封顶线 统筹比例等大量的标准 所有这些标准都要照顾到 参保人群和政府收支两方面 因次要求门诊费用 住院费用 工资总额 退休 费用 职工年龄结构等方面的信息能够尽量达到准确及时 另外我们认为各地 市的数据仓库数据库都是用O R A C L E 数据库系统作为底层的存储系统 并且结构 一致 只是存储数据的内容不同 而且在 3 中提出了数据驱动的主动更新方法 能够较好的将数据源中的数据及时通过E T L 工具插入到数据仓库中 基于上述 理由 本文研究的重点放在了视图维护问题上 即在对多个数据仓库的更新过 程中如何避免因并发更新和网络不稳定造成的数据异常问题 1 2 相关知识 1 2 1决策支持系统和群体决策支持系统 目前没有普遍接受的决策支持系统 D S S 的定义 一个经典的定义是 决策 支持系统通过结合个人的智力资源和计算机的能力来改进决策的质量 它是一 个基于计算机的支持系统 服务于处理半结构化问题的管理决策制定者 决策支持系统主要是在管理信息系统和运筹学的基础上发展起来的 管理 信息系统重点对海量数据进行处理 运筹学则主要在于运用数学模型进行辅助 决策 山东大学硕士学位论文 决策支持系统作为一种新兴的信息技术 能够为企业提供各种决策信息以 及许多商业问题的解决方案 从而减轻了管理者从事低层次信息处理和分析的 负担 使得他们专注于最需要决策智慧和经验的工作 因此提高了决策的质量 和效率 今天管理所面临的外部环境正在发生迅速变化 其本身的环境也比以往更 加复杂 而且这种复杂性日益增加 具体表现在以下几个方面 1 决策质量的要求更高 随着技术的迅速发展 客户获得产品和服务的渠道更为畅通 客户的选择 余地更大 同时大规模生产使得产品出现了供过于求的状态 客户成为最稀缺 的资源 这迫使企业必须采取 以客户为中心 的经营策略 努力提高产品和 服务的质量 2 决策时要考虑的因素更复杂 随着经济全球化的趋势 尤其是中国加入W T O 之后 无论是否愿意 企业 都将面对全球的竞争者和全球范围的消费市场 随着环境的恶化 消费者权益 意识的增强等 政府颁布了更详尽的法令和制度来约束企业的经营行为 企业 管理者在进行决策时需要考虑更多 更复杂的制约因素 3 决策速度要求更快 随着通讯方式的发展 交通的便利以及金融体系的完善 企业更难以长久 维持自己的竞争优势 企业必须不断地创新 从以规模取胜转变到以速度取胜 这些都要求管理者能够迅速做出正确的决策 4 决策失败的代价更高 企业中采购 生产 销售和服务等方面的联系日益紧密 企业的整个运作 系统更加复杂和精密 某一环节的判断失误将产生链锁反应 造成企业重大的 损失 面对这些趋势和变化 管理者必须变得更加糖明 他们需要新的工具和技 术来帮助他们制定有效的决策 群体决策支持系统在其设计 结构和用途上都反映出群体的各成员相互影 响做出特定决策的决策方式 群决策支持系统支持的群体决策过程包括 通信 文件共享 构造群体活动的模型 群决策支持系统通过把众多工作过程作为一 9 山东大学硕士学位论文 个整体 而将各工作任务结合起来 同时也将不同人的观点融入决策过程中 导致目前群决策支持系统的迅速增长的原因有两个 一个是组织原因 另 一个是技术原因 首先来看组织原因 更复杂的决策环境 需要来自不同人多方面观点 专 业化的决策制定者 过去那种一个人具备所有必须知识独自去解决问题的模式 己变得不可能了 时间重要到成为竞争的资源 迫使众多的决策者将任务分解 成更小的子任务 然后并行的解决这些子任务 已增长了的对于工作的满足感 和员工自主的需要 而不再是仅满足身体上安全的需要 对于参与性管理所带 来好处的需要 如提高士气 决策被群体的所有成员所接受 提高的士气很大 程度上来源于去除了保持沉默的否定意见 而决策接受程度的提高则来源于参 与管理的自信意识 为了克服群体会议的缺点 例如 从众思维 和少数人优 势 即少数人的地位对于参与管理的自信意识 再一个就是技术原因 新技术的进步使开发群决策支持系统工具在技术和 经济上都是可行的 很多群决策支持系统所必需的设备 广域电信链路变得越 来越便宜 快速传输图像或视频所必需的高速电信链路正在被越来越广泛的应 用 越来越多的组织拥有了网关和局域网 从而把这些高速链路提供到决策者 的桌面系统 1 2 2数据仓库 整个8 0 年代直到9 0 年代初 联机事务处理一直是数据库应用的主流 当 联机事务处理系统应用到一定阶段的时候 企业家们便发现单靠拥有联机事务 处理系统已经不足以获得市场竞争的优势 他们需要对其自身业务的运作以及 整个市场相关行业的态势进行分析 而做出有利的决策 这种决策需要对大量 的业务数据包括历史业务数据进行分析才能得到 在如今这样激烈的市场竞争 环境下 这种基于业务数据的决策分析 称为联机分析处理 4 O L A P 0 n L i n e A n a l y t i c a lP r o c e s s i n g 因此 著名的数据仓库专家R a l p hK i m b a l l 写道 我们花了二十多年的时间将数据放入数据库 如今是该将它们拿出来的时候 了 另外飞速发展的计算机硬件和系统软件技术 计算机存储容量 计算速 度的大力提高 价格的迅速下降 个人计算机计算能力的不断增强 系统软件 1 0 山东大学硕士学位论文 功能的不断提升以及I n t e r n e t 的迅速发展 C l i e n t S e r v e r 及多层结构的出现 和应用 都为数据仓库的发展提供了技术上的保证 这样使得数据仓库技术能 在近十几年来得以萌生并迅速发展 从数据仓库的概念提出以来 曾经有过多种定义 按照I n m o n 5 的定义 数据仓库是一个面向主题的 集成的 非易失的且随时间变化的数据集合 用 以支持管理人员的决策 图卜1 显示了一个简要的数据仓库系统的体系结构的示意图 从这个结构 图中可以看到 一个数据仓库系统一般总要包括以下四部分 数据的获取 数 据的存储与管理 数据的表现和元数据的管理 因此 对数据仓库技术的研究 数据源数据仓库 也主要集中在这些领域 图l l 数据仓库体系结构示意图 1 3 数据仓库更新及相关工作 用户 数据仓库主要是为决策支持系统和O L A P 应用提供软件架构 它从异构和 分布式数据源中收集数据 这些数据首先被聚合 然后按照O L A P 所定义的组织 g 曰日曰 山东大学硕士学位论文 标准进行定制 6 数据仓库更新是一个非常重要的过程 它决定了数据采集和数据聚合的实 效性 确实 向决策者提供的数据的质量与以下因素有关 首先 与数据仓库 系统在合理的时间内将数据从数据源转换到数据集市的能力有关 其次 与数 据仓库对数据源中信息发生变化的敏感程度有关 大部分的设计考虑主要集中 在对数据结构的选取和数据的更新技术上 这里的数据更新技术指的是对数据 仓库更新的优化策略 特别是针对支持群体决策的多个数据仓库 在对数据仓库更新的理解方面在相关的文献上存在着很大的误区 确实 这个过程经常被简化为视图维护问题或与数据导入混为一谈 在数据更新过程期间 对数据变化的传播是通过一系列独立的活动来完成 的 视图维护阶段是指由于给定的数据源的改变而引起存储在数据仓库中的一 系列视图的改变 这些改变导致视图的更新 这个阶段 视图维护阶段 是一 个经典的具体视图维护问题 但是 在数据仓库中 扩展到聚合视中的改变在 数据源中并不一定发生 但是预处理结果是通过其他更新活动像数据清洗和多 数据源数据一致性处理等来执行的 在数据库界 对数据视图维护的问题已经进行了大量的研究 这个领域所 做的主要工作被收集在 2 和 6 中 大部分的工作都集中到对一套具体的视图 的维护工作上 这套视图派生于一套基本的关系表 当基本关系被修改时便引 起视图的改变 视图维护所涉及到的工作主要有 自我维护性 自我维护性是针对这样一套视图集的 视图集V 对于基本 关系的改变是自我维护的 指的是不需要查询基本关系就可完成V 中视图的改 变 也就是说通过存储在具体视中的信息和变化的实例就足以完成视图的维 护 一致性和有效性更新转换 对于每个单独的视图都有相应的算法来调度 更新转换过程 但是 考虑到视图间的相互依赖关系 及视图间会导致可能的 矛盾 出于这个目的 导入一些辅助视图来促进更新转换和加强自我维护性 数据仓库主要关注的是视图集的自我维护性 存储在数据仓库中的视图集 必须是全局可自我维护的 这一点是大家都认同的 这样做的原因是避免对操 山东大学硕士学位论文 作型数据源中的常规活动负载过重 像上节描述的一样 对数据仓库更新的研究主要集中在对具体视图的更新 转换上 关于这个题目 已经发表了很多文章 但是 目前很少有人致力于将 数据更新过程作为一个整体 像前面定义的 来研究 1 4 本文的研究意义及贡献 数据仓库技术是从数据库技术发展过程中出现的一种为决策服务的数据 组织和存储技术 能够提供综合分析 时间趋势分析等辅助决策信息 数据仓 库技术可以极大地提高决策支持系统能够存储的信息量和基于时间的信息分析 能力 这对于各级政府机构充分利用已有历史数据 提高决策的可信度有重要 意义 为此 在 2 中提出了多数据仓库系统S G D M D W S 为了支持群体在这个系统 中有多个数据仓库 并且可能一个数据仓库为另一个的数据源 这与传统的数 据仓库更新有了较大的差异 使用一般的更新方式难以达到在S G D M D W S 中对群 体决策支持的要求 另外随着电子政务系统的发展以及中国信息化程度的不断 提高 随着电子政务系统的发展以及中国信息化程度的不断提高 如何有效地 使用多年积累的大量数据将其应用到决策支持系统中成为电子政务平台和决策 支持系统有机结合的关键环节 基于上述目的本文的主要工作和贡献如下 1 提出了数据源之间并发更新的检测方法 数据源之间的并发更新是引起数据仓库中数据异常问题 7 的主要原因 数据的准确性是影响决策质量的关键因素 因此必须能够判断不同数据源 之间的更新是否彼此影响 这样可以在数据仓库端作相应处理 2 指出传统数据仓库的更新方式在对多个数据仓库同时更新的局限 性 传统数据仓库的更新方式都是对一个数据仓库进行更新 即数据源和数 据仓库之间是一对多的关系 在对多个数据仓库更新时数据源的负担会大大 加重 3 基于S G D M D W S 提出适用于多数据仓库系统的更新模型M D W U M 如何减轻数据源负担和保持自主性是数据仓库更新研究领域一个重要 山东大学硕士学位论文 问题 通过分析在 G D M D W S 中的特点 在该模型中通过在数据仓库和数据 源之间建立消息处理层来解决在多数据仓库且互为数据源的情况下数据 源负担过重以及降低连接复杂度的问题 使数据源在较小的负担和不降低 自主性的前提下为数据仓库提供数据 4 应用于模型M D W U M 中的更新算法M D W U A 该算法用来处理数据源发往数据仓库的数据更新消息 分为消息处理层 端和数据仓库端两大部分 这样对数据源比在传统方式中没有增加任何功 能 处理工作主要是在消息处理层 本文是这样组织的 在第一章中 讨论了研究背景和介绍了决策支持数据 仓库基本概念和数据仓库更新的发展情况 第二章 对于多数据仓库系统 S G D M D W S 整体结构和功能进行介绍 第三章首先指出传统数据仓库更新方式 的局限性 然后提出模型M D W U M 第四章在模型的基础上提出更新算法 M D W U A 并对该算法进行评价 第五章对模型M D W U M 进行验证 和传统 模型对比分析 第六章结束语 山东大学硕士学位论文 第二章数据仓库系统S G D M D W S 总体架构 2 1 引言 数据仓库技术的出现和快速发展 是以激烈的市场竞争为背景的 利用目 前的传统的信息系统 企业和政府部门已经积累了大量的数据 而下一步需要 的是如何利用这些数据为其决策提供支持 帮助其正确地判断形势 把握可能 出现的机会 随着电子政务系统的发展以及中国信息化程度的不断提高 在政 府决策支持方面需要不断吸纳新的信息处理技术 提高决策的科学性和规范性 以达到提高政府办公效率 促进经济发展的目的 我们以医疗保险为背景 设计了一个数据仓库的原型系统 S u p p o r tG r o u p D e c i S i o nM u l t iD a t aW a r e h o u s eS y s t e m 简称S G D M D W S 2 以此为基础 对医疗保险部门的群体决策提供支持 本章对S G D M D W S 系统的系统结构作了一个总体的描述 介绍了其中引入的 一些新的思想和方法 2 2S G 蹦D W S 系统的背景 数据仓库的建立有两个基本条件 第一 应用行业有较为成熟的联机事务 处理系统 它为数据仓库提供客观的数据来源 第二 该领域决策者面临较多 的决策事件 并要求其能够及时准确地进行决策 它为数据仓库的建立提供外 在的动力 医保系统是传统的数据处理密集型行业 建立运行多年的各种信息 系统 积累了大量的数据 医保系统是社会保险的一项主要内容 它的主要特点是 1 数据量大 涉及的主题比较多 不同主题内容互相牵制 医保系统的最大特点是数据量大 涉及的领域非常广 不同年代的数据的 格式与要求不尽相同 这些数据资料一方面面临外部环境对传统保存方式下数 据安全性的挑战 另一方面各业务部门和相关单位也有充分利用这些数据并对 其进行综合分析 以获取有价值的信息的迫切需求 针对信息数据量大 结构 复杂的特点 我们就需要高性能的数据仓库管理系统和定义良好的数据模型 高效地组织和管理数据 提供高效的访问服务 2 数据的来源比较复杂 山东大学硕士学位论文 传统的数据处理密集型行业都有这个特点 数据存放于不同地点 不同的 子部门采用独立的信息系统 不同部门数据的存放格式也不 致 数据的格式 存储方式不尽相同 在加载到数据仓库之前 这些数据必须经过净化筛选 加 工整理以及数据集成 同时W E B 数据访问的需求也加重了数据源的复杂性 3 需要及时的决策支持 决策支持的时效性是非常强的 特别在市场条件下 对信息瞬息万变的现 代社会 决策者需要及时地应对 并做出相应的处理 这就对决策支持系统的 运行效率提出了更高的要求 它要求系统能够提供及时准确的数据 并对此做 出快速的响应 4 信息展现方式多样 计算复杂 时间响应要求高 系统要求数据以灵活多样的形式展现出来 这些形式包括复杂的报表 动 画 图表等 要求系统具有较高的可靠性 安全性 针对这些特点 我们在查阅了大量的有关研究文献的基础上 结合应用实 际 在数据仓库的一些相关技术方面进行了有益的探索和尝试 并把这些成果 体现在S G D M D W S 系统的设计上 在S G D M D W S 系统中 我们在系统体系结构 数 据模型 数据操纵及数据的更新方式等方面都引入了一些新的思想和方法 以 适应特殊应用的需要 2 3S G D M D W S 系统结构与特点 我们以O R A C L E 数据库管理系统为底层的存储系统 以C 1i e n t S e r v e r 结 构为基本架构 设计了支持医保群体决策的数据仓库系统S G D M D W S 系统结构 8 如图2 1 所示 S G D M D W S 系统的主要特点是 1 数据仓库决策信息共享 数据仓库的数据从源数据库中抽取出来并根据决策需要加以综合 为了能 更好的支持群体决策 传统方式中 数据仓库信息只是为本地决策者提供决策 信息 如果其他决策者也要做类似的决策不得不重复积累数据和执行决策过程 在S G D M D W S 系统中 各数据仓库将决策信息为其他数据仓库所共享 这样可以减 少不比要的重复决策 并大大降低数据仓库数据的冗余度 2 在原有的雪花模型的基础上 引入了组合维的概念 1 6 山东大学硕士学位论文 现在的数据仓库大多采用基于关系的 星型模型 或其扩展模型 雪 花模型 纯粹的关系模型在访问效率上存在一些问题 它缺乏对复杂关系的有 效支持 存取效率比较低 在本系统中 我们引入了一些面向对象的元素 借 助面向对象技术中的复杂关联的思想 提出了组合维的概念 2 利用组合维 可以比较快速 直接地查找到结果 避免了搜索的过程 提高了查询效率 3 提供了一组适合应用需求的操作 S G D M D W S 提供的数据操作集合中包括以下操作 上卷 R o l l u p 下钻 D r i i i d o w n 切片 S 1 i c e 切块 D i c e 旋转 P i v o t 历史同期比较 V C o m p a r i s o n 和横向比较 H C o m p a r i s o n 8 其中两种比较操作非常适用于 医保系统的需要 因为在实际应用中 需要经常对不同月份和不同地区的数据 进行各种比较和分析 尤其对于历史上不同月份和不同年度相同月份的数据的 比较更是必需的操作 基于这些操作 分析人员能够对大量的数据进行直观的 分析 并以生动的形式展现出来 2 4 小结 数据仓库的研究和建设需要一定的背景支持 我们在查阅了大量当前有关 数据仓库的研究文献 研究了现在主流的商用数据仓库解决方案和产品的基础 上 结合医保系统的应用实际 设计了一个数据仓库的原型系统S G D M D W S 用 山东大学硕士学位论文 以支持群体决策 由于医保应用的一些特殊性 我们在S G D M D W S 系统中引入了 一些新的思想 包括数据仓库决策信息共享 支持复杂关联的数据模型 新的 数据操纵命令以及数据仓库的多仓库更新机制等等 本章对医保的应用背景作 了简要的介绍 并对整个系统进行了总体上的论述 山东大学硕士学位论文 第三章多数据仓库更新模型M D W U M 3 1 引言 数据仓库的研究领域 9 1 0 1 l 1 2 1 3 包含了系统结构 算法 模型 工 具以及E T L 等方面 用来减轻在线事务系统为进行数据分析 比如决策支持 数 据挖掘 而抽取 存储数据的负担 在整个数据仓库系统中 数据更新占据了非 常关键的地位 因为它直接决定着数据仓库能够提供给决策者的数据的质量 数 据仓库的视图通过维护来与存储在各个数据源中的基本关系保持一致 一旦数据 仓库建好以后 注意力就从数据仓库的构造转向每天的操作上 人们发现操作和 维护数据仓库的费用很高 5 数据仓库用来减轻在线事务系统为进行数据分析 比如决策支持 数据挖掘 而抽取 存储数据的负担 数据仓库更新设计中的一个引人注目的问题是数据周期 所谓数据周期是指 从操作型环境数据发生改变起 到这个变化反映到数据仓库中所用的时间 5 原则上从操作型环境知道数据的改变到这个变化反映到数据仓库中所要求的时 间可在2 4 小时以上 这是因为数据仓库管理的是海量数据 其用户是中高层的管 理人员 既不关心细节数据 也不会要求所有作为数据源中操作数据的变化的实 时反映到数据仓库中 但一些管理人员关心的关键数据的变化要求能够尽快的反 映到数据仓库中 这就使这些关键数据能以数据驱动的方式进行更新 3 2 数据仓库的更新方式 3 2 1 需要注意的两个区别 3 2 I 1 分析型数据和操作型数据 数据仓库的数据通过维护来与存储在各个数据源中的基本关系保持一致 由于数据仓库的数据属于分析型数据 是对操作型数据的综合 因而和操作型 数据有着很大的区别 5 操作型数据分析型数据 面向应用面向主题 细节的综合的 或提炼的 在存取瞬间是准确的代表过去的数据 山东大学硕士学位论文 为日常工作服务为管理者服务 可更新不更新 操作需求事先可知道操作需求事先不知道 生命周期符合S D L C完全不同的生命周期 事务处理驱动分析处理驱动 非冗余性常有冗余 对性能要求高对性能要求宽松 一个时刻操作一单元一个时刻操作一集合 一次操作数据量小一次操作数据量大 支持日常操作 支持管理需求 表3 1 操作型数据和分析型数据的区别 这就决定了数据仓库的更新与操作数据库的更新有着本质的区别 3 2 1 2 数据更新和数据导入 数据更新的目标是反映数据源的变化 并将这些变化导入到数据仓库中 但 要和数据导入过程区别开来 数据导入阶段的主要特点是它处于数据仓库设计的 最开始阶段 数据更新过程和数据导入过程的主要区别有以下几点 首先 对数据更新 过程来说 组成其的各个活动之间完全是异步进行的 第二 就准备活动本身 来说 其过程也可以是高度并行的 每个数据源都有自己的可用窗口和抽取策 略 另外的一个不同之处在于数据源的可用性上 数据导入阶段要求数据源长 期可用 而数据更新阶段对使用数据源的操作应用程序的负载要求比较轻 它 要求每一个数据源具有确定的存取频率和一个严格限制的持续期a 最后 对数 据更新过程来说 对数据的存取有严格的反映时间限制 而对数据导入过程来 说 要求就没有那么严格 确实 对用户来说 在初始数据导入前 数据仓库 是不存在的 因此 其计算时间则被包含在项目的设计期间内 而在初始数据 导入后 数据就变成可以看见的 应当满足用户对数据的使用 存取和刷新的 要求 3 2 2 数据仓库更新的两种驱动方式 3 2 2 1 时间驱动方式 目前对数据仓库数据的更新主要是以时间驱动的方式进行更新 即要求各数 2 0 山东大学硕士学位论文 据源周期性的 日 周 月等 将本地的数据更新批量的发送给数据仓库 对于 数据仓库来说 所获得的是数据源数据某一时刻的状态 进行O L A P 操作时主要依 据数据源各个状态 按获取顺序 的变化情况 这对于数据仓库大部分数据来说 是恰当的 因为数据仓库存储的是海量数据并且晟关键的一点是综合的数据 使 用者并不关心数据的细节 3 2 2 2 事件驱动方式 随着对决策质量要求的提高和对群体决策要求的出现 决策参与者涉及到多 个管理层和各个领域 对一些能够对决策产生关键影响数据提出了较高的要求 即这些关键数据的变化情况能够尽快地反映到数据仓库的视图中 如果按上面时 间驱动的方式进彳亍更新不但无法及时地反映到数据仓库中 而且一般这类数据变 化频繁 在一个数据周期之间通常出现多次变化 显而易见 中间会丢失变化细 节 所以我们采用事件驱动的方式将关键数据的变化情况送到数据仓库中 所谓 事件驱动方式是指在数据源端定义更新规则 3 包括事件和规则两部分 图3 1 规则定义处理流程 我们在实际实现时一般是利用关系数据库的触发器机制来实现 事件相当于 触发器的触发条件 而规则则是要执行的操作 我们仍以医保为例 如果在近期 内少数几家医院的门诊费用或住院费用明显高于社保部门指定的其它医院 说明 参保人群主要集中在这几家医院就诊 就需要调查其中原因 看是否是医院违规 操作还是相关决策失误造成 进而采取相应的措施 在有的相关文献 7 1 4 中是 为每个数据源配置一个监视器 实时监视相关数据的变化 这样一旦出现数据变 化 则抽取数据发送到数据仓库 蒌 山东大学硕士学位论文 3 3 传统数据仓库的更新模型 在提出多数据仓库更新模型之前 有必要先简要介绍一下传统数据仓库的 更新模型 所谓传统是表示大家已经公认的事物 在数据仓库更新领域已经作 了大量的工作 绝大部分工作都是建立在传统数据仓库更新模型的基础之上 传统数据仓库的更新模型的一般结构如下图或与之类似 图3 2 传统数据仓库更新模型 在图中每个数据源都配置了一个监视器 每个监视器负责通过以时间或事件 的方式从数据源中抽取数据 而清洗与转换器则将抽取出来的数据整理成统一的 格式加载到数据仓库中 这就是E T L 过程 很明显在传统的模型中数据源于数据仓库是一对多的关系 即每个数据源只 向一个数据仓库提供数据 这是数据源唯一的负担 监视器和清洗与转换器属于 数据仓库管理系统的一部分 前者为了更好的监视数据源的变化一般和数据源处 于比较近的网络位置 或直接加入到数据源中 这样在一定程度上降低了数据源 的自主性但在实际中却是一个可行的办法 清洗与转换器则和数据仓库数据库处 于比较近的网络位置 3 4 传统数据仓库更新模型应用在多数据仓库系统中局限性 S E G D D W S 属于一个多数据仓库系统 我们先来看一下如果将传统数据仓 山东大学硕士学位论文 库更新模型应用到多数据仓库系统会出现什么情况 多数据仓库系统在更新方面的一个显著特点就是出现了一个数据源同时 向多个数据仓库提供数据的情况 比如下图所示 图3 3 传统数据仓库更新模型对多 数据仓库系统更新的情况 首先要说明的是图中只有一个数据源是为了方便观察 实际是m 个数据源 与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安阳考试试题及答案
- 2025年安阳市属事业单位考试试卷
- 石材定点维护方案范本
- 石膏板腻子施工方案模板
- 六安钢结构车棚施工方案
- 什么是工程化施工方案
- 阁楼大厅改造方案范本
- 发电机房基坑施工方案
- 湖北混合型跑道施工方案
- 2025河南郑州市第六人民医院招聘高层次人才考前自测高频考点模拟试题及一套参考答案详解
- 湖南安全员c3考试试题及答案
- 2025年中学生心理健康测试题及答案
- 二年级防溺水教案
- 后厨设备安全操作培训课件
- 好风起二部合唱简谱致远音乐
- 电子辅料基础知识培训
- Unit 2 Ways to go to school Part A Let's talk 英语教学课件
- 无人机使用课件
- 柔性装配基础知识培训课件
- 卫生检验副高评审个人汇报
- 2025年低压电工理论考试1000题(附答案)
评论
0/150
提交评论