




已阅读5页,还剩65页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库和数据挖掘在决策支持系统中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着计算机的普及和关系数据库系统的巨大成功,各种数据库系统以前所未有的速 度开发出来并在各行业广泛应用,使得事务处理变得更加准确、高效,积累的数据更是 以指数级的速度增长,但数据泛滥、信息贫乏仍困扰着决策者。作为新的数据库应用技 术和工具,数据仓库和数据挖掘技术日益盛行并成为决策支持系统的技术支柱。本文从 决策支持系统发展和需求出发,全面介绍了数据仓库设计理论和数据挖掘概念及其应 用。重点讨论了数据仓库的构建和数据挖掘中的关联规则算法,并运用高校教师相关数 据,初步分析了高校教师数据仓库的设计和关键技术,完成了相关主题的多维数据模型 的设计,并用三种不同方法示例o l a p 分析结果,特别是对m d x 处理过程及扩展作了 详细说明。运用a 口r i o r i 算法实现基于教师素质主题数据立方体的关联规则挖掘模型的 构建,通过对挖掘结果分析发现教师引进相关知识,协助决策者找到学校教师引进的决 策支持信息。最后提出进一步建设基于w 曲的数据仓库以实时挖掘知识和支持决策。 关键词:决策支持数据仓库数据挖掘 a b s t r l c t w i m 也ep o p l l l 越z a t i o no fc o r n p u t e ra n dm e 母e a ts u c c e s so fr e l 撕o nd a 协b a s es y s t e m v a r i o u sl ( i n d sm i sh a v eb e e nd e v e l o p e d 、i 血u n p r e c e d e n ts p e e da 1 1 dw i d e l yu s ei nm a n y f i e l d s m a 虹n g 也ep m c e s s i n go fa f f a i r sm o r ea c c u r a t ea 1 1 de 丘宅c t i v e ,a n dm ea c c 啪u l a t e dd a t a i n c r e a s i n gw m lg r e a ts p e e d b u td a t ao v e r f l o w 锄di n f o 玎n a t i o ns h o n a g es t i l ld i s n l r bd e c i s i o n m a l ( e r s a san e wa p p l i e dd a t ab a s et e c h n o i o g ya n dt o o l ,d a t aw a r e h o u s ea n dd a t am i l l i n g t e c h n 0 1 0 9 y ,w 1 1 i c hi sm o r ea n dm o r ep o p l l l a f ,b e c o 皿n gm ec m c i a lt e c h n o i o g i c a je l e m e mi n d e c i s i o ns u p p o r t i n gs y s t e m o nt h ep e r s p e c t i v eo fm ed e v e l o p m e ma n dd e m a i l do fd e c i s i o n s u p p o r t m gs y s t e m ,t h i s 也e s i sd e s c r i b e s 恤em e o r yf o rd e s i g n i n gd a t aw a r e h o u s ea 1 1 dt h e c o n c 印to fd a t am i n j n ga 1 1 di t s 珥) p l i c a 矗o n w i t haf o c u so n 也ec o n s t l l l c t i o no fd a t a w a r e h o u s ea 1 1 dn l ea 1 9 0 r i t h n lf o ra s s o c i a t i o nm l e so fd a t am i n i l l g i ta l s om a k e sap r e l i r n i n a r y a n a l y s i so f 也ed e s i g na n d 也ec r u c i a lt e c h n o l o g yo f 也eu n i v e r s i t yd a t aw a r e h o u s e ,a n d f i n i s h c d 吐l ed e s i g l lo fm u l t i d i m e n s i o nd a t am o d e lo fr e l e v 姐tt o p i c s b yu s i n gu n i v e r s n y t e a c h e r s 烈e v a md a t a ,谢n 1m er e s u l to f0 l a _ pa n a l y s i sd e m o n s t r a t e d 、v i 也吐1 r e ed i f r e r e n t m c 吐l o d s ,a n dd e t a i l e dd e s c r i p t i o nm a d eo ft h ep r o c e s sa n de x t e n s i o no fm d x b yu s i n gt h e a l g o r i 衄no fa p r i o r i ,m i st h e s i sa c c o m p l i s h e st h ec o n s m j c t i o no f 也em o d e lf o rm i n i n gt h e r e l e v a n tr u l e sb a s e do nt e a c h e r st o p i cc u b e ,a n df i n dt l l ea s s o c i a t i o nk n o w l e d g et oh e l p d e c i s i o nm a k e r s ,f i n dt h ei n f o m l a t i o no fd e c i s i o ns u p p o r tc o n c e m m gt h er c c n l i t i n go f t e ;托h e r s f i f l a l ly i tp m p o s e l ef 1 1 r t l e rc o l l s 缸1 l c t i o no fd a 协w a r e h o u s eb a s e do n 也ew c bf o r t h et i n l e l ym i n i n go f 虹o w l e d g ea n ds u p p o r to f d e c i s i o n s k e y w o r d :d e c i s i o ns u p p o r ts y s t 哪 d a l aw a r e h o u s ed a t am i n n g 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已 经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做 了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:日期丝量t 川 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校 攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发 表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论 文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采 用影印、缩印或其它复制手段保存论文。( 保密的论文在解密后遵守此规定) 本学问论文属于保密在一年解密后适用本授权书。 本人签名: 导师签名: 日期卸丞2 ,触 日鹱曼缸牡咎 第一章绪论 第一章绪论 1 1 决策支持系统概述 决策支持系统( d s s ,d e c i s i o ns u p p o n i n gs y s t e m ) 是2 0 世纪7 0 年代兴起的一种 新的管理信息技术,最早由美国的m s s c o t t m o n o n 提出,在8 0 年代获得发展。它是 以管理科学、运筹学、控制论和行为科学为基础,以计算机技术、仿真技术和信息技术 为手段,针对半结构化的决策问题,支持决策活动的具有智能作用的人机系统 ”。d s s 能够利用计算机自动组织和协调多模型的运行,更容易地存取和处理大量数据库中的数 据,为决策者提供决策所需的数据、信息和背景材料,帮助明确决策目标和进行问题的 识别,建立或修改决策模型,提供各种备选方案,并且对各种方案进行评价和优选,通 过人机交互功能进行分析、比较和判断,为正确决策提供必要的支持。 d s s 的技术构成包括脚: 1 接口部分,也就是输入输出的界面,是人机进行交互的窗口。 2 模型管理部分,系统要根据用户提出的问题调出系统中已有的基本模型,模型 管理部分应当具有存储、动态建模的功能。目前模型管理的实现是通过模型库系统来完 成的。 3 知识管理部分,集中管理决策问题领域的知识( 规则和事实) ,包括知识的获取、 表达、管理等功能。 4 数据库部分,管理和存储与决策问题领域有关的数据。 5 推理部分,识别并解答用户提出的问题,分为确定性推理和不确定性推理两大 类。 6 分析比较部分,对方案、模型和运行结果进行综合分析比较,得出用户最满意 的方案。 7 问题处理部分,根据交互式会话识别用户提出的问题,构造出求解问题的模型 和方案,并匹配算法、变量和数据等,运行求解系统。 8 控制部分,连接协调系统各个部分,规定和控制各部分的运行程序,维护和保 护系统。此外技术构成还包括咨询部分、模拟部分、优化部分等。 传统d s s 体系结构见图1 1 。 2 数据仓库和数据挖掘在决策支持系统中的应用研究 图1 1 传统的d s s 结构 d s s 运行过程可以简单描述为:用户通过会话系统输入要解决的决策问题,会话 系统把输入的问题信息传递给问题处理系统,然后问题处理系统开始收集数据信息,并 根据知识机中已有的知识,来判断和识别问题,如果出现问题,系统叫过会话系统与用 户进行交互对话,直到问题得到明确;然后系统开始搜寻问题解决的模型,通过计算推 理得出方案可行性的分析结果,最终将决策信息提供给用户。 1 2 传统d s s 面临的困境 d s s 的发展经历了不同的阶段,在8 0 年代初期,随着关系数据库技术的成熟及 广泛应用,出现了模型库、方法库、知识库、数据库的四库结构【3 】,8 0 年代后期与专家 系统结合。专家系统能应用知识库和推理机制部分地代替某一领域专家进行决策或提供 决策信息,有利于解决半结构化或非结构化的决策问题,而d s s 能利用数据和模型定 量分析,为决策提供较为准确的信息,把两者结合起来形成智能决策支持系统 ( h l t e l l i g e n c ed e c i s i o ns u p p o r t i n gs y s t e m ,i d s s ) ,辅助决策的效果大大提高【4 】。但随 着分析数据源的日益庞大和复杂,决策支持系统既要进行数值计算又要进行数据库操 作。结构性的缺陷也逐渐暴露并成为制约d s s 发展的障碍 5 1 。主要表现在: 1 d s s 需要大量历史数据作为支撑。而传统的管理模式带来的是日积月累的计 算机数据,缺乏组织性,没有统一的标准,而这些数据的应用主要是一般地查询与简单 统计,效率很低,在此基础上很难集成支持决策的有用信息,很难适应d s s r 要求。 2 在d s s 中模型库至关重要而模型库,但决策者和模型交互很少,模型库提供 的分析很难满足日益提高的决策需求。同时缺乏对潜在信息的发现,还不能从大量宝贵 第一章绪论 3 的数据资源中发现对决策有指导意义的深层次信息和一般知识,从而更有利于预测与决 策。 3 人机接口的开发不理想。在实际开发过程中,人机接口部件占整个d s s 开发 工作量的一半,人的任何意图及系统对人的支持都要通过人机接口才能最终实现。但由 于数据呈现技术发展的限制,人机接口的开发一直不理想,可以说是d s s 实施中的一 个瓶颈。 传统d s s 产生基于传统的m i s ,人在管理中的主观能动性并没有得到充分发挥。 随着处理问题复杂程度的提高,所需的模型也不断增多,模型间的联合与协调变得更加 困难,加之人们对信息处理规律认识提高,面对不断变化的环境,要求更高层次的系统 来直接支持决策,这便激发了优化d s s 的热情,尤其是近年来,数据库规模和存储的 数据量急剧增大。面对海量数据,决策者希望能从中寻找和发现有用的深层次的信息以 利于管理决策。而数据库处理也逐渐分离为操作型和分析型两大类,划清了数据处理的 分析型环境与操作型环境之间的界限,原来以单一数据库为中心的数据环境发展为一种 新环境,即体系化环境。数据仓库便应运而生,在此基础上的数据挖掘及联机分析处理 等新技术日趋成为决镶支持系统的帮陂柱。数据仓库、数据挖掘及联机分析处理等新技 术的出现及应用,为决策支持系统的发展提供了新的方法并曰益显示出强大的生命力。 1 3 决策支持新技术及特点 数据仓库、o l a p 和数据挖掘技术是作为三种独立的信息处理技术出现的。数据 仓库中集成和存储了来自不同源的数据,而这些数据源本身就可能是规模庞大的数据 库。同时数据仓库存储了大量的历史数据,这就可以进行数据长期趋势的分析,为决策 者的长期决策行为提供支持。o l a p 集中于数据的分析,数据挖掘则致力于知识的自动 发现。它们都可以分别应用到决策支持系统的设计和实现中,以提高相应部分的处理能 力。同时由于三种技术具有互补性和内在的联系性,将它们结合起来即是一种新的d s s 构架。基于数据仓库与数据挖掘的d s s 如图1 - 2 所示。 数据仓库和数据挖掘在决策支持系统中的应用研究 。 图l - 2基于d w 与d m 的d s s 结构 基于数据仓库和数据挖掘d s s 构架的主要特点是:数据仓库对底层数据库中的事 务级数据进行集成、转换和综合,重新组织成面向全局的数据视图,为d s s 提供数据 - 存储和组织的基础。数据挖掘以数据仓库的大量数据为基础,发现数据中的潜在模式, 并以这些模式为基础做出预测。数据挖掘可以证明知识就隐藏在日常积累下来的大量数 据之中,仅靠复杂的算法和推理并不能发现知识,数据才是知识的真正源泉。在传统的 d s s 中,数据库、模型库和知识库往往被独立地设计和实现,因而缺乏内在的统一性, 而数据仓库和数据挖掘组成的新的d s s 构架解决了d s s 数据库内数据不一致的问题。 由于内在的统一性,这种新结构很好地解决了相互间的衔接问题。数据仓库为数据挖掘 提供了充分可靠的数据基础,数据挖掘可以从数据仓库中找到所需的数据,挖掘出的知 识可以直接用于指导决策分析处理过程并立即补充到系统的知识库中。这种新的d s s 构架真正展示了信息的本质,表明了d s s 的设计观念从模型驱动到数据驱动的转变。 决策支持新技术受到了理论、技术和应用各个领域的巨大关注。企业也意识到了 基于数据仓库、数据挖掘技术的决策支持系统给企业带来的巨大的发展潜力。各大数据 库厂商纷纷宣布支持数据仓库并提出一整套建立和使用数据仓库的产。国际上许多重要 的学术会议,如v l d b ( 超大型数据库) 、d e ( 数据工程) 国际会议等都出现了专门研 究d w 、o l a p 、d m 的组织。据报道嘲,瓜s ( 美国联邦税收部门) 有效地利用数据仓 库,初期投资2 0 0 万美元建立数据仓库,并对税表的某些项目进行审计,最初就收到 第一章绪论 5 2 5 亿美元的经济效益,一些采用数据仓库的机构调查显示,数据仓库在3 年内产生了 大约4 0 0 的回报投入比( r o i ) 。 在数据仓库、数据挖掘等决策支持技术在国外已有成功应用实例时,我国也掀起 了相关理论研究和实际应用的热潮。但是国内的相关领域发展还处于初级阶段,有许多 不成熟和不完善的地方。这是因为管理决策层还未感受到新技术带来的效益,不知道决 策支持技术能做什么。同时我国信息工程的软硬件环境也是实旌决策支持系统的瓶颈。 专业技术人员在数据仓库、数据挖掘技术方面的知识积累和经验积累非常少,缺乏成功 的经验,相关理论研究与具体实践并没有紧密的结合,造成理论研究和技术应用分离, 也制约了决策支持技术的快速发展。 1 4 本文研究内容和主要工作 随着数据库技术的发展和数据库管理系统的广泛应用,人们积累的数据越来越 多。海量数据的背后隐藏了很多重要的信息,人们希望能够对其进行更高层次的分析。 但是事务处理系统不能解决不同类型的数据处理的多样化要求,更不能发现数据中隐藏 的关系、规则和利用现有数据对未来进行预测。企业为了能适应多变的市场,要想在竞 争中取胜,获得更大的收益,客观上要求采取新的技术对企业的各种信息进行有效的管 理。所以必须充分利用计算机网络技术、数据仓库技术、数据挖掘技术去分析当前的和 历史的业务数据,自动快速地得到其中有用的决策信息,从而为企业提供快速、准确和 方便的决策支持。数据仓库和数据挖掘技术能把面向应用的数据转换为面向分析的数据 并且能够充分挖掘隐藏在数据背后的知识,将辅助决策水平达到一个新的高度。另外, i n t e m e t 网络的普及使得数据仓库可以从不同的站点集成数据,使得出现时间较短的数 据仓库和数据挖掘技术倍受关注,研究它们的相关理论与应用具有重要的现实意义。 而目前,作为计算机和网络应用较为普遍的高校,都在加快数字化校园建设步伐 校内不同部门也在日益完善着自己的管理信息系统。这样,大量完整的数据日积月累起 来,已形成非常宝贵的信息资源。但目前,这些数据主要用途仍是提供简单的查询和统 计报表,对这些数据所隐藏的深层次的信息没有充分地利用,十分可惜。如何利用现有 资源,对高校师资队伍进行合理配置和有效预测、规划,是摆在高校面前的一项重要任 务。开展高校数据仓库的深入研究,对于进步提高办学水平和效益具有重要的社会意 义。 6数据仓库和数据挖掘在决策支持系统中的应用研究 本课题主要围绕决策支持系统中数据仓库和数据挖掘两个核心组件来展开研究 工作。主要作了以下工作: 1 通过对基于数据仓库技术的决策支持系统的体系结构的认识,调研分析了高 校当前管理信息系统及决策需求的详细数据。 2 讨论了o u p 数据在抽取、转换和加载至数据仓库过程中的关键技术。 3 设计和构建一个数据仓库原型,介绍了采用m i c r o s o f i a n a l y s i ss e i c e s 进行多 维数据模型的建模过程。 4 在多维数据立方体上完成o l a p 的操作与数据展现,利用m i c r o s o f ia n a l v s i s s e n r i c e s 和m d x 、数据透视表完成分析数据再现; 5 。将数据挖掘中的关联规则算法应用于教师数据,完成协助决策者找到影响学 校教师引进因素的决策支持信息。 第二带决策支持相关新技术 氍述 第二章决策支持相关新技术概述 2 1 1 数据仓库定义及特征 2 1 数据仓库 数据仓库作为一种新的数据处理体系结构,它的提出是以关系数据库、并行处理 和分布式等技术的飞速发展为基础,用于解决数据丰富但有用信息贫乏的一种综合解决 方案。它在存放大量数据的同时又能像仓库一样将大量数据有效地管理起来,主要侧重 于对海量数据的组织和管理,提供有效的数据访闽手段。为企业决策支持系统和行政信 息系统提供所需的信息。 目前公认的数据仓库概念是其创始人whi n m o n1 9 9 3 年在b u i l d i n gt h ed a t a 撇戤h o u s e 一书中对数据仓库豹定义:数据仓库是西向主题的、集成的、稳定性的( 不 可更新) 、随时间不断变化( 不同时间) 的数据集合,用以支持经营管理中的决策制定过 程。它是2 0 世纪9 0 年代信息技术体系结构中的一个重要组成部分,是数据库产业发展 的重点。与普遍的事务处理数据库不同,数据仓库中的数据面向主题,即在一个较高层 次上将数据归类的标准,每一个主题对应一个宏观的分析领域;数据仓库的集成特眭是 指在数据进人数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤。 数据仓库是不同时闻的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分 析的需要,而且数据仓库中的数据都要标明该数据的历史时期。 数据仓库是一个环境,而不是一件产品,是为了有效的把操作型数据集成到统一 的环境中以提供决策型数据访问的各种技术和模块的总称。最大的用途是存放包含历史 数据的不同源数据,给决策者提供从宏观或微观的任意角度来观察多年累积的数据,迅 速掌握现状从而做出更加准确、科学决策的一种全新方式。所做的一切都是为了让用户 更侠更方便查询所需要的信息,这些信患在传统的操作型数据库中很难或不能得到。表 2 1 详细地列出了操作型数据与数据仓库之间的区别。 表2 1 数据仓库数据与操作型数据的区别 比较内容数据仓库的特征 操作数据库 目标o l a p 0 l j p 数据仓库和数据挖掘在决策支持系统中的应用研究 作用面向主题面向过程 活动特征分析式 事务处理 构成集成 不同、分散 内容不可更改可更改 时间性历史性、时序性当前 基础结构 多维型关系型 关系结构星型雪花混合 3 n f 终端用户 管理人员和决策者事务操作人员 按照w h i n n l o n 的描述,可将数据仓库技术的基本特征归纳为: 1 存储面向管理应用与综合分析的集成化和综合性的信息,从历史的角度描述 系统结构和状态的变化,要求采用能够反映时间特征的数据结构: 2 基于传统的面向业务的数据库或外界数据库作为数据源,经过提炼、加工和 归一化整理,生成符合数据应用语义规范要求的数据集合: 3 能够支持多种复杂的数据应用和综合性的管理决策分析。 下面我们以教师绩效评价指标为例来分析说明数据仓库的各项特征。 在高校教师绩效评价指标体系中,教师教学工作量及效果、科研项目、论文数量 与等级、获奖数量与档次等指标量化地衡量了一名高校教师的工作业绩。全体教师在某 一时间段的指标体系是高校定位、发展战略及学科建设、教学、科研管理措施运用是否 得当的衡量标准。一名教师的具体指标高低与其工作态度、能力、学术水平、学校各项 管理措施存在着直接或间接的联系。为了学校管理决策的需要,同时对教师贡献大小进 行量化评价,可以在学校的数据仓库中把教师绩效指标作为一个主题。同时,数据的组 织方式可以针对分析决策的方向,如可以重点面向教学授课量与效果、科研业绩、教师 学历层次、职称等方面。 为了得到学校最终指标体系的总体状况,在数据仓库中存放的应该是经过加工、 汇总、提炼过的信息。例如,在分析过程中,我们关心的不是哪一名教师的指标,而是 教师整体教学、科研、论文质量的发展趋势。因此,应该把每个教师的数据信息计算、 汇总后添加到数据仓库中。要做充分的分析预测工作,不但需要当时的信息还需要历史 过程的数据,因此,要定期对教学安排、科研项目申批信息、论文发表情况、获奖等业 务处理系统的数据进行加工、汇总和整理,并及时放入数据仓库中。为了从不同角度全 面分析发展趋势,还需要将有关学院、擞师基本信息、教师培训、进修情况、政策措施 第二章决策支持相关新技术概述 9 等信息加以归并。 从上面的概念来看,数据仓库似乎是一个静态的概念,但数据仓库不能简单地理 解为仅仅是一个大型的数据存储机制。因为只有把信息及时交给需要这些信息的使用 者,使他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息 加以整理归纳,结合一些分析工具,如o l a p 和数据挖掘工具,面向中、高层管理人员, 在数据仓库中进行统计、分析和挖掘,以获得用于决策的信息或相关规律并及时提供给 相应的管理决策人员,是数据仓库的根本任务。因此,数据仓库是一个工程的概念,是 一个动态的概念。 2 1 2 数据仓库相关概念 1 主题 主题是一个抽象的概念,是在较高层次上将数据综合、归类并进行分析利用,每 一个主题基本上对应一个宏观分析领域。根据数据仓库面向主题的方式,数据的组织应 该分为两个步骤:确定分析的主题以及确定每个主题所包含的数据内容。每个主题在数 据仓库中一般都是由一组关系表来实现,所以主题的实现可以基于关系数据库。面向主 题的数据组织方式是根据分析要求将数据组织成一个完备的分析领域,它具有独立性和 完备性两个特征。 2 粒度 粒度是数据仓库的一个重要概念,它是指数据仓库中数据单元的详细程度和级别。 数据越详细,粒度级别越低;数据越概要,粒都级别越高。粒度的划分将直接影响到数 据仓库中的数据量和查询种类。低的粒度级别能提供详尽的数据,但要占用较多的存储 空间和需要较长的查询时间。高的粒度级别能快速、方便的进行查询,但不能提供过细 的数据。为适应不同的查询分析,数据仓库中通常存在着多种粒度级别,如细节级、轻 度综合级、高度综合级等。 数据仓库的数据粒度与数据元素的汇总水平相关。为了满足各级查询的需要,数 据粒度设计的原则必须满足:既要使数据存储结构合理,访问效率高,节省存储空间; 又要在这种可用结构下减少或消除任何信息丢失。为此,可按照数据仓库中存储数据的 时间序列来划分数据粒度,存储时间越早,粒度越高,数据概要程度越高。 根据数据使用频度,对经常使用的数据建立多种粒度级别,以供各个级别的需要。 数据仓库和数据挖掘在决策支持系统中的应用研究 按照时间序列划分数据粒度时,在不同粒度的数据之间建立缓冲区,存放在同一种数据 的不同粒度类型:并且,根据这些数据的使用频率来决定它们的新的粒度变换类型。 3 元数据 元数据在数据仓库中的用途主要有三个方面:起到辅助决策分析过程中定位数据 仓库的目录作用;数据从业务环境向数据仓库环境传送时数据仓库的目录内容:指导从 近期基本数据到轻度综合数据和高度综合数据的综合算法选择。在数据仓库系统中通过 元数据来记录数据仓库所存储数据的结构及数据之间的关系。这些元数据包括数据项的 业务描述、类型、存取方法等数据项的本身的信息。数据源进入数据仓库要经过不同的 处理阶段,通过元数据机制对各个数据要经过哪些处理、施加哪些操作分别记录下来。 4 多维数据模型 多维数据模型是数据仓库普遍采用的数据建模方法。它以直观的方式组织数据, 并支持高性能的数据访问。每一个多维数据模型都是由一个事实表和一组维表来构成 的。事实表的主要特点是包含数字数据( 事实) ,而这些数字数据可以汇总,以提供有关 单位运作的历史数据。每个事实表还包括一个或多个部分组成的索引,与包含事实记录 特性的维表关联。好的事实表数据不包含描述性信息。仅是度量字段与码的组合。 2 1 3 数据仓库的作用 数据仓库主要有三方面的作用; 首先,数据仓库提供了标准的报表和图表功能,其中的数据来源于不同的多个事 务处理系统,因此,数据仓库的报表和图表是关于整个企业集成信息的报表和图表。这 些功能是对传统的联机事务处理( o l t p ) 的扩充,但在数据仓库中,数据是经过汇总归 纳的,保证了报表和图表反映的是整个企业的一致信息。 其次,数据仓库支持多维分析( m u l t i d i m e n s i o n a ia n a l y s i s ) 。多维分析是通过把一 个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据集,简化了数据 的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理 解角度,例如,时间和地区是经常采用的维度。应用多维分析可以在一个查询中对不同 的数据进行纵向或横向的比较,这在决策工程中非常有用。 第三,数据仓库是数据挖掘回a t am i n i n g ) 技术的关键基础。数据挖掘技术要在已 有数据中识别数据的模式,以帮助用户理解现有的信息,并在已有信息的基础上,对未 第二章 决策支持相关新技术概述 来的状况做出预测。由于数据仓库提供了关于整个企业全局的、一致的信息,因此,在 数据仓库的基础上进行数据挖掘,就可以针对整个企业的状况和未来发展做出比较完 整、合理、准确的分析和预测。 简言之数据仓库的主要作用是通过多维模式结构、快速分析计算能力和强大的信 息输出能力为决策分析提供支持。 2 1 4 数据仓库系统的框架 所谓数据仓库系统( d w s ,d a t aw ,l r e h o u s es y s t e m ) 就是对进入数据仓库的原始数 据完成抽取、转换、过滤、清洗等处理,最终进入数据仓库,以及对数据仓库中存储的 数据进行更新、使用、表现等的相关软件工具进行集合,用以支持数据仓库应用或管 理决策。 数据仓库系统通常由数据仓库、管理部分和分析、应用工具三个部分组成 7 1 ,如 图2 1 所示 管理_兀数据、 存储 , n t r t ,- - - - - u - - - - 一 服务 l 一 固圄i 一图引 图2 1 数据仓库体系结构 数据源包括o l t p 数据和外部数据。在确定数掘仓库信息来源之后,需要进行数 据建模,确定从数据源到数据仓库的数据抽取、清理和转换过程,分析、划分维度以及 确定数据仓库的物理存储结构。元数据是数据仓库的核心,用于存储数据模型、定义数 据结构、转换规划、数据仓库结构和控制信息等。管理部分包括对数据的安全、归档、 备份、维护、恢复等工作。 数据仓库管理部分的组成包括: 1 定义部件。这一部件用于设计和定义数据仓库的数据库和数据来源,制定数 回回困互 一蜜 国回回固 1 2 数据仓库和数据挖掘在决策支持系统中鼢应只 研究 据仓库复制数据的转换、清理规则。 2 数据获取部件。依据数据定义部件定义的规则从数据源中将数据抽取到数据 仓库中,完成清洗、变换和集成工作,将数据装载到数据仓库中,定期清理数据仓库, 消除数据仓库与源数据库的不一致,清除失效数据等。 3 管理部件。主要包括对数据仓库中数据的维护、安全、备份、恢复、日志等 工作。 4 元数据管理,也可称为信息目录管理。完成元数据的管理、存储以及对整个 数据仓库的检测和管理,包括技术元数据和业务目录。 数据仓库工具主要由检索查询工具、o l a p 分析工具、统计分析以及数据挖掘工 具等些分析工具组成。 数据仓库应用是一个典型的客户机朋艮务器结构形式,其客户端的工作主要包括客 户交互、格式化查询、可视化以及报表生成等内容,服务器端完成各种辅助的查询、复 杂的计算和各类综合功能等。这种方式在提高性能和可靠性、降低数据传输量研究保证 数据的安全性等方面会带来很大的好处。服务器端一般有o l a p 服务器和数据挖掘服务 器两种,其中o l a p 服务器能加强和规范决策支持的服务工作,集中和简化客户端和数 据仓库服务器的部分工作。 2 1 5 数据仓库的数据组织 数据仓库中的数据的组织方式与数据库不同,通常采用分级的方式进行组织。一 般包括早期细节数据、当前细节数据、轻度综合数据、高度综合数据、以及元数据五部 分。如图2 2 数据仓库的数据组织。 l 。早期细节数据。存储过去的详细数据,反映真实的历史情况。这类数据随着 时间增加,数据量很大,使用频度低,一般存储在转换介质中。 2 当前绍节数据。最近时期的业务数据,反映当前业务的情况,数据量大,是 数据仓库用户最感兴趣的部分。随着时间的推移。当前细节数据由数据仓库的时间控制 机制转为早期细节数据。3 。轻度综合数据。从当前基本数据中提取出来,通常以较小 的时间段( 粒度) 统计而形成的数据。这类数据较细节数据的数据量小得多。 4 高度综合数据。这层的数据十分精练,是一种准决策数据。 第二章决策支持相关新技术概述 图2 2 数据仓库的数据组织 显然,由于数据仓库需要管理得数据量极为庞大,并且服务的目的不同,传统的 数据建模方法已经显得力不从心。事实上,传统的方法主要面向事务型的分析处理工作, 因此,需要有新的数据建模方法来完成数据仓库中数据的建模和组织,这种数据模型就 是多维数据模型f m u l t i d i m e n s i o nd a t am o d e l ) 。 数据仓库中数据的组织形式概括起来一般有三种,即第三范式模式( 3 n f t h i r d n o m a lf o n l ls c h e m a ) 、星型模式( ( s t a rs c h e m a ) 和雪花式模式( s n o w n a k es c h e m a ) 。 关系数据模型中,数据是以二维表的形式反映。在多维数据模型中,数据是以多 维逻辑方式组织,数据在各个维之间相互交叉,形成立体的数据视图。所谓维就是相同 类数据的集合,例如图2 3 所示的项目经费和项目数是按时间、学院组织起来的三维立 方体。 项目数 项目经费 ll 图23 廿蚌 数据立方体 1 4数据仓库和数据挖掘在决策支持系统中的应用研究 多维数据模型在数据仓库中的概念组织方式采用星型和雪花型结构模型。星型模 型通过使用包括主题的事实表和多个维表来执行典型的决策支持查询。中间是事实表, 周围是维表,每一个维表通过一个关键字和事实表关联。如图2 4 所示。 d wn a m e 图2 ,4 星型模型 雪花型结构是星型结构的扩充。这种模型中的维度表存储了规范化数据,维度表 分解成与事实表直接关联的主维度表和与主维度表关联的次维度表,次维度表与事实表 间接关联。如图2 5 所示。 髀 鬟嘲厂慧 墨 i h ldi j 。一 嫡- r 瞅钾e1;心_ ,旧m e h 11 bi d 一 h 1d ! 嚼 h j j b _ d h j s f d w o - 、 i 熬嘲 “ 、f + 一i : 。l 1 】- 1 1 】j d 一二j;h b 、,懋n 图2 5 雪花模型 可见,雪花模型的规范化存储减少了冗余,易于维护并节省空间。但由于执行查 询时要进行多维表的连接,浏览性能会有所降低。 数据仓库的物理存储方式可以多种多样,如关系数据库、多维数据库以及面相对 隰嚣一 第二章决策支持相关新技术概述 象的数据库等。物理模型是在逻辑模型的基础上实现的。设计实现时主要考虑i o 存取 时间、空间利用率和维护代价。 2 1 6 数据仓库的设计过程 与传统数据库构建不同,数据仓库设计由数据驱动,要在现有数据库系统的基础 上进行开发,着眼于有效地抽取、综合、集成和挖掘己有数据库的数据资源。数据仓库 系统的原始需求往往不明确,而且不断变化与增加。这就决定了数据仓库系统的开发是 一个不断循环、反馈而使系统不断完善的动态过程,需要开发人员、分析人员和管理者 的密切配合与不断交流。 目前,构造企业级的数据仓库通常有两种途径, 1 自顶向下的结构 这是由w h i n m o n 提出的最早的数据仓库结构。这种结构开始于对原始数据的 处理。包括抽取、转换、迁移等处理过程,用于传统数据库或外部数据源的数据处理后 输出到一个集中的数据驻留单元。随后,数据和元数据装载进入数据仓库。数据仓库不 但包含全部的元数据、当前细节数据,还存储详尽的历史数据。与之相对应,数据集市 则拥有轻度和高度综合的数据及元数据。 在自顶向下机构中,数据仓库普遍采用实体关系( e r ,e n t i t yr e l a t i o n s h i p ) 数据模 型,而数据集市则采用星型数据模型来提高性能。这种模式要求首先建立数据仓库,但 是由于数次建设规模较大,实施周期长,费用高,初期效果并不明显,致使许多企业不 愿或无法接受。从理论上讲,该数据仓库包含了进行决策支持所需要的一致的数据,面 向各个部门的决策支持所需要的数据从全局仓库中提取,这部分数据构成了该部门的数 据集市。 2 自底向上结构 另一种是从建造面向某个部门( 或某个应用) 特定的数据集市开始,逐步扩充数据 仓库所包含的主题和范围,最后形成一个能反映企业全貌的企业级数据仓库,即“自底 向上”的方法。其核心是通过独立开发底数据集市逐渐构建数据仓库。这种结构的流程 从建立数据集市的抽取、转换、转移和装载过程开始,在这些工程中,不需要一个通用 的数据驻留单元,因为每个数据集市都可能有自己独立的存储区域,甚至每个数据集市 的数据抽取、转换、转移和装载的工具都可能不同。从基础的角度来看,自底向上与自 1 5数据仓库和数据挖掘在决策支持系统中的应用研究 _ - _ - _ - _ - _ _ _ - _ _ _ _ - - _ _ _ i _ _ 一一一 顶向下结构的最大差异在于前者不需要为创建数据集市而具备通用的元数据部件。 数据集市一般不采用普通的e - r 数据模型,多采用星型模型或雪花模型,若已经 抛弃了关系数据库技术,则更多地依靠多维数据库或基于列操作的数据库。 这种结构从最关键的部分开始,先以最小的投资,完成企业当前需求,获得最快 回报,然后再不断扩充,有助于部门级管理人员合理安排预算积及时采用新的数据仓库 技术来产生合乎自己角色的专门应用。 当前该结构逐渐为人们认同,但是它不能提供通用的元数据部件,没有共享的元 数据,也就很难基于数据集市建立数据仓库。 “自顶向下”的途径有利于建设一个全局一致的数据仓库体系环境,但投资大, 建设周期长、见效慢,失败的风险也很大。而“自底向上”的方法是从决策者最关心的 部分开始,先以最少的投资,完成企业的当前需求,获得最快的回报,然后再不断扩充, 不断完善,因而投资少,实施快速而方便,易于见到成果。但其缺点是以特定的部门级 主题为框架,不利于向其他主题和部门扩充。总而言之,无论是“自顶向下”还是“自 底向上”的方法,都有其优点和缺点, 3 企业级数据集市结构( e d m a ,e n t e r p r i s ed a 诅m a na r c d t e c t u r e ) 通过创建一个共享的结构,e d m a 支持由数据集市到数据仓库的开发。e d m a 框 架包括企业主题域、通用维、度量、业务规则和数据源,所有这些都在逻辑上统一的全 局元数据中心库( g m r ,g l o b a lm e t a d a t ar 印o s i t o r y ) 中表示处理。这种框架不是固定不 变的,它随数据仓库的开发而不断调整。 e d m a 的另一个核心是个被称为动态数据存储( d d s ,d y n 锄i cd a t as t o r a g e ) 的通 用数据驻留单元。动态数据存储用于储存、净化和转换从操作型系统中抽取来的数据, 并为数据装载进动态数据存储单元做准备。统一的数据驻留单元、全局元数据中心库和 局部的数据集市的元数据仓库共同创立和维护数据语义上的一致性。此外,还有数据存 储数据集市结构、分布式数据仓库数据集市结构、分布式知识管理结构等。 在实际中常按图2 6 模式进行数据仓库的开发。 第二章决策支持相关新技术概述 2 1 7 元数据设计 图2 6 较实用的数据仓库开发示意图 元数据通常定义为“关于数据的数据”。传统数据库中的数据字典即是一种元数 据,它描述了数据的结构、内容、码、索引等内容。在数据仓库中元数据更丰富、复杂, 涵盖了数据仓库的各对象,遍及所有方面,是数据仓库中所有管理、操作、数据的描述, 是整个数据仓库的核心。一个描述能力强、内容完善的元数据在数据仓库的设计、开发 和运行中起着至关重要的作用。 在数据仓库中,元数据的主要作用体现在以下几方面【8 】: 1 它涉及数据库及应用的本质,对用户和系统的影响是永久性的。 2 它描述从源数据系统到分析型数据的映射; 3 记录关于数据抽取、转换和存取过程; 4 记录数据整理、更新、总计、转存等操作的有关信息: 5 有助于业务用户正确识别数据仓库中的数据; 6 有助于用户组织自己的查询,以获得所需的数据。 具体说来,在数据仓库系统中,元数据机制主要支持下述系统管理功能:描述哪 些数据在数据仓库中:定义要进入数据仓库中的数据和从其中产生的数据:记录根据业 务事件发生而随之进行的数据抽取工作的时间安排:记录并检测系统数据一致性的要求 和执行情况;衡量数据质量。 1 8 数据仓库和数据挖掘在决策支持系统中的应用研究 在数据仓库系统中,要通过元数据来记录数据仓库所存储数据的结构及数据之间 的关系,所采用的方式方法与传统的关系性数据库系统中的数据字典相类似。这些元数 据包括数据项的业务描述、类型、存取方法等数据项本身的信息,同时包括数据项间的 关系的信息,一般按实体、属性和关系等三个方面来记录这些信息。 数据源中的数据要进入数据仓库,要经过抽取、过滤、检验、归并、聚集、装载 和归档等处理,不同的数据在各个处理阶段可能要使用不同的处理过程,实施不同的处 理动作。因此,元数据机制对各个数据要经过哪些处理,施加哪些操作分别记录在案。 数据仓库系统要定期根据数据源的变化,装载新的数据,对原有的数据进行整理, 这些系统维护工作需要有一个时间安排,数据仓库系统中也要使用元数据机制来记录这 些安排。 保持数据同步和一致是数据仓库系统维护的一项重要工作,系统管理员通过定义 数据一致性规则,来描述系统中所存储的数据应该在逻辑上满足的要求,系统以元数据 的方式把这些一致性规则记录下来,并记录实旖这些规则的步骤和时机要求。由于维护 数据的致性是一项动态工作,需要在系统运行过程中保持动态检测和维护。因此,元 数据机制还要动态记录系统对数据一致性维护的执行情况。 数据质量直接影响到数据仓库系统的生命力。在数据仓库系统中,元数据机制监 测每次从数据源抽取数据的过程,记录有关错误的统计信息,从而为系统管理人员提供 数据质量的信息。 若按元数据的类型可将元数据分为三种: 1 用于基本数据的元数据。包含与数据源、数据仓库、数据集市和应用程序等 结构相关的信息。 2 用于数据处理的元数据。关于装载和更新处理、分析处理以及管理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年海南省中考数学模拟试题【附答案】
- 2025年福建省宁德市福安市农村党群招聘22人考前自测高频考点模拟试题及答案详解(典优)
- 2025年安徽工业职业技术学院人才引进7人考前自测高频考点模拟试题及答案详解(名校卷)
- 2025租赁合同单方解除责任归属
- 2025内蒙古锡林郭勒盟太仆寺旗乌兰牧骑招聘事业编制舞蹈演员2人考前自测高频考点模拟试题及一套答案详解
- 2025广西柳州市柳江区投资集团有限公司下属子公司柳州市堡鑫建筑工程有限公司招聘工作人员考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025合作伙伴雇佣合同模板
- 2025辽宁铁岭市调兵山市招聘临床医师10人模拟试卷含答案详解
- 2025届春季中核集团社会招聘及实习生招聘考前自测高频考点模拟试题及完整答案详解1套
- 2025购销合同协议书范本
- 2025双11大促商家一站式指南
- 助理医师考试题库及答案
- 咖啡基础培训课件
- 人才服务合同书
- 2025年工会财务大赛理论题库(附答案)
- 2.2 6、7的加减法(课件)数学青岛版一年级上册(新教材)
- 2025-2026学年统编版八年级上册道德与法治教学计划含教学进度表
- 矿井顶板事故防治课件
- 家庭经济困难学生认定申请表
- 生理学全套课件
- 起诉状(变更抚养权)
评论
0/150
提交评论