




已阅读5页,还剩55页未读, 继续免费阅读
(管理科学与工程专业论文)基于决策支持的数据管理系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 信息时代数据的爆炸式增长,技术日新月异,日益复杂的决策 环境和决策问题对决策支持系统提出了更高的要求。以数据仓库、联 机分析处理和数据挖掘为代表的决策支持新技术的出现,为决策管理 人员从数据中获取决策信息和知识提供了新的思路和方法,拓宽了管 理决策人员更深层次的信息分析途径。 本文提出的“基于决策支持的数据管理系统( d a t am a n a g i n g s y s t e mb a s e do nd e c i s i o ns u p p o r t ) ”是以数据作为系统的基础和出发 点,利用数据仓库、联机分析和数据挖掘等新技术,结合决策支持系 统的体系结构和数据管理的相关技术与方法,组件化开发方法,以及 层次模型开发理论等,对基于决策支持的数据管理系统进行分析和研 究。最后,通过课题组承担的国家某决策支持系统进行相关实证分析。 本文包括如下几部分主要工作: 1 研究了决策支持系统设计、开发的层次模型理论,对于不同的 决策支持系统开发层次( 应用层、任务层、逻辑层和物理层) 进行了 分析和研究。 2 对基于决策支持的数据管理、分析理论和技术进行了研究。本 文在决策支持系统理论和数据管理研究的基础上,重点论述了如何利 用数据仓库技术实现对半结构化、非结构化数据的组织和管理,以及 利用联机分析处理和数据挖掘技术实现数据分析处理,并对他们之间 的协同工作和实际开发做了一定的研究。 3 结合组件化的软件设计和开发技术,研究了面向对象的分析和 开发工具,并把该技术运用到基于决策支持的数据管理系统的研究中 来,提出和实现了基于决策支持的数据管理系统组件化的设计与开 发。 关键词决策支持系统,数据管理,数据仓库,数据挖掘 a b s t r a c t t h ee x p l o s i o nt y p eo ft h ed a t ai n c r e a s e si ni n f o r m a t i o n a g e , t e c h n o l o g yc h a n g e sw i t he a c hp a s s i n gd a y , t h ec o m p l i c a t e dd e c i s i o n e n v i r o n m e n ta n dd e c i s i o nq u e s t i o nh a v ep u tf o r w a r dh i - , h e rr e q u e s tt o d s sd a yb yd a y t h ea p p e a r a n c eo fr e p r e s e n t a t i v e s d e c i s i o ns u p p o r tn e w t e c h n o l o g y , s u c ha st h ed a t aw a r e h o u s e ,o n l i n ea n a l y t i c a lp r o c e s s i n ga n d d a t a m i n i n g ,h a v eo f f e r e d t h en e wi d e a sa n dm e t h o d sf o r t h e a d m i n i s t r a t i v es t a f f t h e yc a no b t m nt h ed e c i s i o ni n f o r m a t i o na n d k n o w l e d g ef r o mt h ed a t at om a k ep o l i c y t h ed a t am a n a g e m e n ts y s t e mb a s e do nd e c i s i o ns u p p o r tw h i c ht h i s p a p e rh a sp u tf o r w a r dr e g a r d sd a t aa s s t a r t i n gp o i n t t h r o u g hn e wt e c h n o l o g y t h es y s t e m a t i cf o u n d a t i o na n d o ft h ed a t aw a r e h o u s e ,o n l i n e a n a l y t i c a lp r o c e s s i n g a n dd a t a m i n i n ge t c ,c o m b i n i n gt h es y s t e m s t r u c t u r ea n dr e l e v a n tt e c h n o l o g ya n dm e t h o do fd a t am a n a g e m e n to f d s s ,c o m p o n e n td e v e l o p i n ga p p r o a c ha n dt h e o r ye t c ,w ec a r r i e do u tt h e a n a l y s i sa n dr e s e a r c ho nt h ed a t am a n a g e m e n ts y s t e mb a s e do nd e c i s i o n s u p p o r ti na n dt h el e v e lm o d e l f i n a l l y , w ec a r r i e do nr e l e v a n tr e a l e x a m p l e sa n a l y z i n gt h r o u g had s s o fc o u n t r yw h i c ho u rt e a mb e a r t h ep a p e ri n c l u d e st h ef o l l o w i n gp a r t so fw o r k 1 t h el e v e lm o d e lt h e o r yu s e df o rd s sd e s i g n i n ga n dd e v e l o p i n ga s t od i f f e r e n td s sl e v e l s ( u s el a y e r , t a s kl a y e r , l o g i cl a y e ra n dp h y s i c sl a y e r ) h a v eb e e na n a l y z e da n dr e s e a r c h e d 2 t h ed a t am a n a g e m e n tb a s e do nd e c i s i o ns u p p o r t ,a n a l y z i n g t h e o r ya n dt e c h n o l o g yh a v eb e e nr e s e a r c h e d t h ep a p e ri so nt h eb a s i so f t h et h i n gt h a tt h et h e o r yo fd s sa n dd a t am a n a g e m e n ta r es t u d i e d ,h a v e e x p o u n d e dt h ef a c te s p e c i a l l yh o w t om a k eu s eo fw a r e h o u s et e c h n o l o g y o ft h ed a t at or e a l i z es t r u c t u r e s h a l f - a n d n o n e ,o r g a n i z a t i o n a n d m a n a g e m e n to ft h es t r u c t u r ed a t a ,a n du t i l i z ea n da n a l y z ea n dp r o c e s s a n de x c a v a t et h et e c h n o l o g yd a t at oa n a l y z ea n dp r o c e s sw i t ht h ed a t a o n l i n e ,a n dd e v e l o pc e r t a i nr e s e a r c ht ow o r k i n gi nc o o r d i n a t i o nb e t w e e n t h e m a c t u a l l y 3 t h o u g hs o , w a r ed e s i g no fp a c k a g ea n dd e v e l o pt e c h n o l o g y , t h e t a r g e t o r i e n t e da n a l y s i sa n dd e v e l o p i n gi n s t r u m e n t a n dt h i st e c h n o l o g yb e e nu s e dt ot h ec o m i n gw h e n h a v eb e e ns t u d i e d , s t u d i e so ft h ed a t a m a n a g e m e n ts y s t e mb a s e do nd e c i s i o ns u p p o r t a n dt h ed e s i g na n d d e v e l o p m e n tb a s e d o nd a t am a n a g e m e n ts y s t e mp a c k a g eo fd e c i s i o n s u p p o r th a v eb e e np r o p o s e da n d r e a l i z e d k e yw o r d sd e c i s i o n s u p p o r ts y s t e m ( d s s ) ,d a t a m a n a g e m e n t ,d a t aw a r e h o u s e ( d w ) ,d a t am i n i n g ( d m ) 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共 同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:短隅型堕月兰日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校有 权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论 文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文; 学校可根据国家或湖南省有关部门规定送交学位论文。 储签名:壶址导师签名:雄蝙生年月竺日 硕士学位论文 第1 章导论 1 1 研究背景 第1 章导论 信息时代数据的爆炸式增长,技术日新月异,日益复杂的决策环境和决策 问题对决策支持系统提出了更高的要求。一些新的企业组织经营管理模式,如 敏捷制造( a g i l em a n u f a c t u r e ,a m ) 、精益生产( l e a np r o d u c t i o n ,l p ) 、虚拟企 业( v i r t u a le n t e r p r i s e ,v e ) 、企业流程再造( b u s i n e s sp r o c e d u r er e b u i l t ,b p r ) 、 电子商务( e l e c t r o n i cb u s i n e s s ,e b ) 等的提出与应用,使企业的经营决策模式 逐渐向半结构化、非结构化方向发展,并具有强烈的不可预测性、广泛的分布 性和重要的协同性。特别是企业内外的信息资源更多的是半结构化和非结构化, 同时,决策更加需要信息的准确性和及时性j 。2 j 。 以数据仓库、联机分析处理和数据挖掘为代表的决策支持新技术的出现, 为决策管理人员从数据中获取决策信息和知识提供了新的思路和方法,拓宽了 管理决策人员更深层次的信息分析途径,特别是对半结构化和非结构化信息资 源的处理更有优势。从d s s 角度看,计算机技术的发展也同时促进了决策支持 技术的发展,如联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 、数据挖 掘( d a t am i n i n g ,d m ) 、数据仓库( d a t aw a r e h o u s e ,d w ) 以及多主体 ( m u l t i a g e n t s ) 技术等。在原有的d s s 三部件( 数据、模型、对话) 中,很难 将这些技术集成进去。这些决策支持新技术拓宽了管理人员获取辅助决策信息 的手段,同时也带动d s s 本身的发展。这些新技术地应用需要对对数据进行有 效管理和利用,但是,目前对于这方面的研究还有很多不足【l 。”j 。 同时,对于决策支持系统( d s s ) 开发尚缺乏一种快速有效的开发方法【6 “ 1 5 1 针。系统本身的复杂性以及由此带来的开发周期长、成本高等缺点是阻碍其 推广应用的主要原因。但是目前大多数决策支持系统存在对开发人员领域知识 要求高,系统应用灵活性差、扩展性不强、维护困难等缺点。 正是在这样的背景下,作者开展了基于决策支持的数据管理系统( d a t a m a n a g i n gs y s t e mb a s e do nd e c i s i o ns u p p o r ts y s t e m ) 的研究与开发工作。 硕士学位论文 第1 章导论 1 2 决策支持系统及其数据管理的研究与发展 1 2 1 决策支持系统的发展 计算机应用于管理领域从5 0 年代中期开始,经历了电子数据处理 ( e l e c t r o n i cd a t ap r o c e s s i n g ,e d p ) 阶段,管理信息系统( m a n a g e m e n ti n f o r m a t i o n s y s t e m ,m i s ) 阶段,到7 0 年代初发展到决策支持系统( d e c i s i o ns u p p o r ts y s t e m , d s s ) 阶段。1 9 7 1 年s c o tm o r t o n 在管理决策系统中最先提出决策支持系 统的概念【1 5 2 0 1 。k e e np e t e rgw 等在7 0 年代末指出d s s 是由管理者及其属下 工作人员使用的支持管理决策的基于计算机的系统。该系统以决策者、决策模 型和数据库的集成为特征,协助管理者而不是取代管理者对半结构化问题做出 决策其改进的是决策的效果而不是效率5 1 。 8 0 年代,人工智能技术蓬勃发展,专家系统走向实用化对决策支持系统产 生了深刻影响【l6 。将人工智能与专家系统的理论、方法应用于决策支持系统产 生了智能决策支持系统( i n t e l l i g e n td e c i s i o ns u p p o r ts y s t e m ,i d s s ) ,i d s s 增 加了d s s 的“柔性”,使系统能适应决策问题与决策环境的变化,提高了决策支 持的能力 1 l - t 5 1 。vs r i n i v a s a n 等将d s s 的应用领域扩展到非结构化决策【”_ 4 1 。 进入9 0 年代以后,随着计算机网络与信息处理技术( 自动控制、人工智能、 机器学习、软计算、神经网络、遗传算法、粗糙集、数据仓库、数据挖掘、定 性推理理论、证据理论、基于范例推理、智能主体、面向对象设计方法等) 的 迅速发展、决策支持系统的决策理论、方法和技术呈现出全面多元的发展。智 能决策支持系统( i d s s ) 成为决策支持系统的研究热点 1 1 - 2 0 1 。 c l y d ew h o l s a p p l e 等从决策支持系统对决策过程的支持能力和学习能力 由弱到强把d s s 分为4 类 t 5 - 2 5 1 :( 1 ) 无自适应性,被动支持:( 2 ) 无自适应性, 能提供主动支持:( 3 ) 自适应,被动支持;( 4 ) 自适应,主动支持。主动支持 决策系统通过建立人类认知模型,能够对决策问题的求解,主动提供多个可供 选择的求解方案给决策者 1 6 4 9 1 。自适应决策支持系统能随着系统的环境变化、 随时间和决策过程变化,系统能自动调整系统的行为以适应决策问题的求解要 求1 2 1 1 。决策支持系统向着提高自适应性与主动支持能力的方向发展。 1 2 2 决策支持系统的研究 从系统组成上看,任何决策支持系统无非都是由以下三种基本要素组成 1 1 - 1 2 1 5 】: ( 1 ) 数据( d a t a ) :数据和信息是减少不确定性因素的根本所在,因此, 数据库子系统是决策支持系统不可缺少的重要组成部分。数据库应能够适应管 2 硕士学位论文第1 章导论 理者广阔的业务范围,不仅能够提供企业内部数据,而且能够提供企业外部数 据。 ( 2 ) 模型( m o d e l ) :现实数据表示的是过去已经发生了的事实或者对现 实事物的描述。我们利用各种模型,就可以把面向过去的数据变换成面向现在 和预测将来的有意义的信息。在d s s 中,决策支持模型体现了管理者解决问题 的途径,所以随着管理者对问题认识程度的深化,他们所使用的模型也必然会 跟着产生相应的变化。模型库系统要能够灵活地完成模型的存储、管理和运行 功能。 ( 3 ) 对话( d i a l o g u e ) :对话子系统是决策支持系统的人机接口,它负责 接受和检验用户的请求,协调数据库系统、模型库系统之间的通信,为决策者 提供信息收集、问题识别以及能够依据人的经验,主动地利用d s s 的各种支持 功能,从多种方案中选择一个最优决策方案。 从目前来看,任何一种对决策支持系统的研究主要从三个方向进行o 2 2 7 - 3 2 】: 数据驱动的决策支持系统 数据驱动的d s s 通过对已有数据进行精选和分析,提供决策支持信息。这 种类型的决策支持系统侧重于数据的分析和挖掘,获取数据所反映的隐含重要 信息【1 2 1 5 1 。 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,大量 的数据库被用于商业管理、政府办公、科学研究和工程开发等,这一势头仍将 持续发展下去。于是一个新的挑战被提了出来:在这被称为信息爆炸的时代, 信息过量几乎成为人们需要面对的问题。要想使数据真正成为一个决策资源, 只有充分利用它为一个组织的业务决策和战略发展服务才行,否则大量的数据 可能成为包袱,甚至成为垃圾。因此,“数据仓库”和“数据挖掘”决策支持新技术 于9 0 年代中期应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。 模型驱动的决策支持系统 模型驱动的d s s 使用各种标准、独立的决策分析模型及其有机组合,提供 有效的决策方案。组织的各职能部门都可以建立自己的d s s 应用。这种类型的 d s s 侧重于模型管理、组合以及决策方案的生成【l 。1 5 1 0 模型管理系统是d s s 的重要组成部分,对它的研究主要集中在模型库结构 的表示、模型库系统的设计和模型库管理环境等三个方面。模型库不同于数据 库。如何表示模型,如何组织模型库,模型库管理系统的功能要求有哪些,这 些问题是决策支持系统开发的关键。目前关于模型驱动d s s 的研究还主要集中 硕士学位论文第1 章导论 在模型的表示、组合、智能选择以及构模环境等。它起源于1 9 8 2 年s p r a g u e 和 c a r l s o n 提出的模型管理概念。近年来,组件( c o m p o n e n t ) 技术、统一建模语 言( u m l ) 等的出现为模型驱动的d s s 的研究注入了新的活力。这些技术扩展 了模型驱动的d s s 的开发途径。但是其主导思路仍然是以模型驱动形式提供辅 助决策信息和决策方案,而缺少对新的数据驱动决策支持技术( 数据挖掘、数 据仓库、o l a p 等) 的支持。 知识驱动的决策支持系统 知识驱动的d s s 是专家系统和数据挖掘相结合的辅助决策支持系统。这种 类型的决策支持系统通过模型和模型的组合的定量计算以及专家系统进行的定 性推理,达到更广泛层次上的决策支持。在智能型系统中,知识的获取一直是 一个“瓶颈”,而数据挖掘可以自动完成从操作型数据库中获取隐含的知识信息, 数据挖掘获取的知识可以存放于专家系统的知识库中,由推理机完成定性分析 决策。另外,在模型和知识库之间,也会存在着“交互”,即模型完成相应的知识 显示、知识转换等睁”1 。 1 2 3 决策支持系统中数据管理的研究与发展 决策支持系统所需要的数据以及对它们的管理都是为决策的执行服务的。 在决策理论方法的发展方面,传统决策支持系统主要依据运筹学理论方法采用 的是定量分析模型,使数值计算和数据处理融为一体,并且其中的大部分数据 都是结构化的0 2 1 5 1 。但是,传统决策支持系统对决策中常见的定性问题、模 糊问题和不确定性问题缺乏相应的支持手段。如果在决策支持系统引入新的数 据管理理论与方法使上述问题得以解决 1 1 - 2 1 1 ,其方法主要有: ( 1 ) 机器学习:对大量历史数据和决策过程中积累的经验进行分析处理以 获取对决策有用的知识7 5 7 7 1 ( 包括的主要方法有:i d 3 、c a r t 学习算法、 神经网络、遗传算法、粗糙集理论、基于范例推理等) 。 ( 2 ) 软计算方法:软计算其目的在于适应现实世界遍布的不精确性,它是 一个方法的集合。其指导原则是开拓对不精确性、不确定性和部分真实的确认 和表示,以达到可处理性、鲁棒性、低成本求解以及与现实更好的紧密联系口3 1 。 ( 3 ) 数据仓库( d w ) 和联机分析处理( o l a p ) :数据仓库是通过多数 据源信息的提取、转换、净化、加载、汇总,建立面向主题、集成、时变、持 久的数据集合从而为决策提供可用信息 1 3 - 1 4 1 ,o l a p 是与数据仓库相关联的数 据分析技术,它通过对数据仓库的即席、多维、复杂查询和综合分析,得出隐 藏在数据中的事物的特征与发展规律。 ( 4 ) 数据挖掘( d m ) :数据挖掘是一个从大量数据集合中发现对决策有 4 硕士学位论文 第1 章导论 用的知识的过程。利用人工神经网络、决策树、机器学习等方法,发现未知的 知识,再把知识放入知识库中用于支持决策。近几年来,数据驱动的知识发现 方法成为d m 的研究热点,该方法使数据挖掘成为不需人工干预的自动过程口”。 但是,目前这些方法大都处于理论研究阶段,实际运用的成功案例并不是 很。一方面,决策支持系统本身的发展也需要对这些数据管理技术的进一步研 究和实践,另一方面,决策支持环境的复杂多变也要求决策支持的信息数据管 理技术向着半结构化、非结构化方面的发展。特别是随着计算机信息技术的进 步和信息时代的到来,人们对系统决策支持能力的要求也越来越科学,越来越 复杂,越来越人性化。所以,这些都需要对决策支持系统的数据管理进行更加 深入的研究。 1 3 研究目的与意义 传统决策支持系统的数据管理,大多通过数据规范化存储的范式来进行, 仅仅只是在当时的技术条件下解决了数据的存储,提高了数据处理的效率,但 是没有办法很好的支持决策行为,特别是对半结构化、非结构化决策问题的处 理上,并且随着信息技术的进步、决策者对决策支持系统要求的复杂多变和决 策环境变化,使得原来的数据管理模式显得力不从心了。 在现今信息技术极大发展和决策支持理论的进一步深入的条件下,通过对 基于决策支持的数据管理系统( d a t am a n a g i n gs y s t e mb a s e do nd e c i s i o n s u p p o r t ) 的研究,一方面可以改进决策支持系统体系结构,使其具有更好的灵 活性和可扩展性;另一方面可以完善决策支持中的数据管理技术,如:数据仓 库和数据挖掘等技术,提高信息资源的处理效率,扩大信息资源的利用效率和 使用范围,提高决策支持系统对决策环境的适应能力和对决策的支持能力。通 过本文的研究,可以使基于决策支持的数据管理系统的研究和开发更具有更高 的可操作性和实用性,为决策支持系统及其数据管理的普及应用提供一定的参 考和借鉴。 1 4 本文的主要研究内容及结构安排 基于决策支持的数据管理系统( d a t am a n a g i n gs y s t e mb a s e do nd e c i s i o n s u p p o r t ) 的研究内容主要包括系统体系框架、系统实现技术、系统内部管理流 程和集成机制等。本文提出的“基于决策支持的数据管理系统”是以数据作为系统 硕士学位论文 第1 章导论 的基础和出发点,利用数据仓库、联机分析和数据挖掘等新技术,结合决策支 持系统的体系结构和数据管理的相关技术与方法,组件化开发方法,以及层次 模型开发理论等,对基于决策支持的数据管理系统进行分析和研究。最后,通 过课题组承担的国家某决策支持系统进行相关实证分析,为我国企业决策提供 功能全面、方便实用的基于决策支持的数据管理系统,对于提高企业决策支持 系统开发效率、企业决策效率和促进我国现代企业决策的科学化,具有一定的 理论和实用价值。 全文总共分为5 章。 第l 章首先简要介绍了本课题的研究背景:其次探讨了决策支持系统及其 数据管理的研究和发展;然后分析了本文的研究目的和意义,最后是本文所要 研究的主要内容。 第2 章阐述了基于决策支持数据组织管理和分析使用,主要包括决策支持 系统中数据管理的组织管理和分析使用技术,最后,提出基于决策支持的数据 管理的处理策略和方法。 第3 章详细研究了基于决策支持数据管理系统的体系结构,设计了其功能 模块分类,提出了基于决策支持的数据管理一般流程,以及系统组件化、模块 化的实现方式。 第4 章在课题组承担的国家某金属矿产资源的决策支持系统中,应用本文 提出的基于决策支持数据管理模块组件到项目的实施中。 第5 章总结了本论文的主要工作和创新点,提出进一步研究工作的展望。 硕士学位论文第2 章基于决策支持的数据管理和分析 第2 章基于决策支持的数据管理和分析 2 1 基于决策支持的数据组织与管理模式 当前决策支持的数据组织与管理技术主要依靠数据仓库( d w ) 技术相关 智能技术等一2 “州。数据仓库技术侧重于半结构化、非结构化数据的存储和查 询,为决策分析提供面向主题的集成的数据;以及部分利用联机分析处理 ( o l a p ) 中的多维数据( c u b e ) 存储和展现从多视角途径获取的决策支持数据 等。 数据仓库是一个用以更好地支持企业或组织的决策分析处理的数据集合, 它有面向主题、集成、相对稳定、随时间不断变化四个特性,将数据仓库与传 统的面向事务处理的数据库区分开来。数据仓库的关键技术包括数据的抽取、 清洗、转换、加载和维护技术【l3 。“】。 1 数据管理中数据仓库结构选择 数据仓库的结构可以进行灵活的选择,可将组织所使用的各种平台进行恰 当的分割,把数据源、数据仓库和最终用户使用的工作站分割开来进行恰当的 设计【l “。数据仓库按应用结构分类主要有如下几种: ( 1 ) 基于业务处理系统的数据仓库:在这种结构中,将运作的数据用于无 需修改数据的只读应用程序中。具有这种结构的数据仓库元数据库是一种虚库, 而不是数据仓库自身的元数据。在数据仓库元数据库的直接指导下,对数据仓 库的查询就是简单的从数据库中抽取数据。 ( 2 ) 单纯数据仓库:利用在数据仓库中的数据源净化、集成、概括和集成 等操作,将数据源从业务处理系统中传输进集中的数据仓库,各部门的数据仓 库应用只在数据仓库中进行。这种结构经常发生在多部门、少用户使用数据仓 库的情况下。这里的集中仅仅是逻辑上的,物理上可能是分散的。 ( 3 ) 单纯数据集市:数据集市是指在部门中使用的数据仓库,因为企业中 的各个职能部门都有自己的特殊需要,而统一的数据仓库可能不能满足这些部 门的特殊要求。这种体系结构经常发生在个别部门对数据仓库的应用感兴趣, 而组织中其他部门却对数据仓库的应用十分冷漠之时,由热,i i , 的部门单独开发 式所采用。数据仓库和数据集市的区别( 见表2 1 ) 。 硕士学位论文第2 章基于决策支持的数据管理和分析 表2 1 数据仓库与数据集市的区别 数据仓库数据集市 数据源从多源( 事务处理系统) 中抽取数据从一源( 数据仓库) 中抽取数据 应用焦点一般应用 特定应用 数据类型( 粒度)详细的、非概括的数据高度概括的数据 模式设计非常类似于传统规范化的关系模式维数模式星型模式 平台大型的、高度可扩展的、企业级平台较小的、可扩展的、部门级的平台 最终用户数据集市是数据仓库的“最终用户” 部门员工是最终用户 范围 企业级部门级或工作组级 历史数据大量的历史数据 适度的历史数据 数据仓库按技术平台结构也可以分为如下几种l i 3 ”】: ( 1 ) 单层结构:单层结构主要是在数据源和数据仓库之问共享平台,或者 让数据源、数据仓库、数据集市与最终用户工作站使用同一个平台。共享一个 平台可以降低数据抽取和数据转换的复杂性,但是共享平台在应用中可能遇到 性能和管理方面的问题,这种体系结构一般在数据仓库规模较小,而组织的业 务系统平台具有较大潜力之时所采用。 ( 2 ) 客户n 务器两层结构:一层为客户机,一层为服务器,最终用户访 问工具在客户层上运行,而数据源、数据仓库和数据集市位于服务器上,该技 术机构一般用于普通规模的数据仓库。 ( 3 ) 三层客户服务器结构:基于工作站的客户层、基于服务器的中间层 和基于主机的第三层。主机层负责管理数据源和可选的源数据转换;服务器运 行数据仓库和数据集市软件,并且存储仓库的数据;客户工作站运行查询和报 表运用程序,且还可以存储从数据集市或数据仓库卸载的局部数据。在数据仓 库稍具规模,两层数据仓库结构已经不能满足客户的需求,要讲数据仓库的数 据存储管理、数据仓库的应用处理和客户端应用分开之时,可以采用这种结构。 ( 4 ) 多层式结构:这是在三层机构基础上发展起来的数据仓库结构,在该 结构中从最内数据层到最外层的客户层依次是:单独的数据仓库存储层、对数 据仓库和数据集市进行管理的数据仓库服务层、进行数据仓库查询处理的查询 服务层、完成数据仓库应用处理的应用服务层和面向最终用户的客户层。体系 层次可能多达五层,这种体系结构一般用于超规模数据仓库系统。 硕士学位论文第2 章基于决策支持的数据管理和分析 2 数据仓库的构造 数据仓库的实施过程大体可分为三个阶段:数据仓库的项目规划、设计和 实施、维护调整【“】。从数据仓库的构架和实施过程出发,数据仓库通常可以按 照如下几个步骤来构建: ( 1 ) 目标明确,统筹安排。根据企业的发展目标和市场变化规律,用战略 发展的眼光,创立一个信息架构方案,使公司的商业目标与所需要的数据保持 一致。 ( 2 ) 统一规划,分步实施。建设和维护一个企业数据仓库,是一项费时费 力、投资大的工程。所以应该先设计好一个整体信息架构,制定出分期实施计 划,然后再逐步实施,重点放在高度重要的商业事件所需要的数据中心或数据 传递机制上。 ( 3 ) 构造技术环境、建立支撑平台。建立技术环境,选择实现数据仓库 的软硬件资源,包括开发平台、d b m s 、网络通信、开发工具、终端访问工具及 建立服务水平目标( 可用性、装载、维护及查询性能) 的选择等。 ( 4 ) 建好模型,选好工具。通过数据模型的构建,企业可以从中得到完整 而又清晰的描述信息,数据模型为企业多应用的数据源提供统一的标准。模型 的设计需要企业的信息工作人员与业务工作人员紧密配合,规划出对企业有实 际价值的应用模型,这个模型要具有一定的智能性,能够根据实际业务的发展 不断调整自身的参数,最终找到企业运作过程中的规律,从而为企业带来效益。 构建数据仓库的工具有很多,如建模工具、数据净化工具、数据抽取工具、数 据仓库管理工具、联机分析处理和数据挖掘工具等。世界上较著名的大公司, 如i b m 、o r a c l e 、s y b a s e 、c a 、n c r 、i n f o r m i x 、m i c r o s o f t 、和s a s 等都竟相推 出了构建、维护和应用数据仓库的产品工具和应用解决方案。企业可以从自身 的实际情况和用户的需求角度进行考虑,加以选择。 ( 5 ) 加强管理,搞好维护。数据仓库的安全问题不容忽视,通过操作系统 和数据库的安全机制,加强数据仓库操作权限的管理。对数据仓库中的相关数 据要及时备份,并利用r a i d 配置备份数据仓库,以提高数据仓库的安全性和可 用性。 2 2 决策支持中的数据管理流程 组织系统运行中的大量历史数据既包含了组织系统运行的状态和趋势,也 包含了大量的环境信息,充分利用这些信息有助于决策者把握组织系统运行的 硕士学位论文第2 章基于决策支持的数据管理和分析 趋势,做出正确的决策【1 2 1 卯。面向事务处理的信息系统一直被用来管理与业 务操作有关的大量数据,如帐单、发票和审核单据等。这类系统的缺点是它们 只是被描述为完成单个任务的系统,每个系统有自己的数据结构和单据格式, 而不能被其它系统共享。基于决策支持的数据管理技术通过对数据的综合,克 服了各类事务处理系统相互孤立的缺点,并提供数据的查询和分析工具,利用 可以获得的数据支持决策。 基于决策支持的数据管理特点如下【“5 】: ( 1 ) 数据仓库对底层数据库中的事务级数据进行集成、转换和综合,重新 组织成面向全局的数据视图,为d s s 提供数据存储和组织的基础。 ( 2 ) 联机分析处理( 0 l a p ) 从数据仓库中的集成数据出发,构建面向 分析的多维数据模型,再使用多维分析方法从多个不同的视角对多维数据进行 分析、比较。 ( 3 ) 数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现 数据中的潜在模式,并以这些模式为基础自动做出预测。知识就隐藏在日常积 累下来的大量数据之中,复杂的算法和推理并不能发现知识,数据才是知识的 真正源泉。 ( 4 ) 在传统的d s s 中,数据库、模型库和知识库往往被独立地设计和实 现,因而缺乏内在的统一性。而数据仓库、联机分析和数据挖掘组成的数据驱 动的决策方法实现了数据、模型和处理方法的统一。 针对以上基于决策支持的数据管理特点,其决策分析的数据管理操作流程 是不同于其他类型的决策支持系统的,其基本数据管理操作流程如下盼1 4 川。8 0 】: ( 1 ) 数据提取:数据的提取是指把数据从各种异构数据源转移到数据仓库 的操作。这个操作对原始数据源进行分析,确定如何装载特定的数据集以及如 何把新数据添加到数据仓库中。 ( 2 ) 格式转换:数据转换操作把数据转换成适合数据库的格式。如不同的 编码体系,不同的数据字典,经过数据转换操作,都转换成数据库所要求的统 一的数据格式。 ( 3 ) 数据清洗:这一操作发现并纠正数据中存在的错误或者遗漏。一般对 遗失的数据可以采用一个预先确定的代码或者默认值来填充。例如,如果在一 个整数类型的字段的值为一字符串,就需要对这条记录作以标记或者通过某种 方式更正数据。 ( 4 ) 数据变换:数据变换对数据进行聚集或综合。例如根据某种决策查询 的主题对日常操作的记录进行统计,转换成对决策有意义的数据或者更方便访 l o 硕士学位论文第2 章基于决策支持的数据管理和分析 问的形式。根据商务决策的需要,有时候也把原始的详细操作记录包含在数据 仓库中。 ( 5 ) 把处理后的数据放入数据仓库:数据仓库建成以后,并不总是需要实 时更新,只在有更多信息需要添加时,不断的更新内容。一般数据仓库可以通 过离线的操作定期进行数据更新操作。 ( 6 ) 对数据仓库中的数据进行处理:使用数据仓库系统时,o l a p 就成为 查询的重要工具。o l a p 系统允许按决策的需要探测数据。同时,分析展现工具 能够更加直观地将处理结果展现给用户,如:图形、报表等。 2 3 基于决策支持的数据分析 基于决策支持的数据分析技术主要有联机分析处理( o l a p ) 技术、数据 挖掘( d m ) 技术和相关人工智能技术等 1 l - 1 5 】。其中联机分析处理技术侧重于多 维数据的存储和展现从多视角途径获取的分析数据:数据挖掘技术侧重于信息 的发现,识别和抽取数据仓库中隐含的、潜在的有用信息;人工智能技术则表 现为机器知识的学习、表示和管理。 2 3 1 联机分析处理 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出的。5 8 ”,是以海量数据为基础的复杂分析技术,它支持各级管理决策 人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析 处理,并且能以直观易懂的形式将查询和分析结果展现给决策人员。 1 o l a p 的分类 o l a p 使用的逻辑数据模型为多维数据模型。常用的o l a p 多维分析操作 有上卷、下钻、切片、切块、旋转等。多维数据模型在物理实现时,主要有三 种方式:r o l a p 结构、m o l a p 结构和h o l a p 结构。其中r o l a p 是基于关系 数据库的o l a p 实现,m o l a p 是基于多维数据组织的o l a f 实现,h o l a p 是 基于混合数据组织的o l a p 实现。 2 0 l a p 的特性 ( 1 ) 快速性:用户对o l a p 的快速反应能力有很高的要求。系统应能在5 秒内对用户的大部分分析要求做出反应。对于大量的数据分析要达到这个速度 并不容,因此就更需要一些技术上的支持,如专门的数据存储格式、大量的事 先运算、特别的硬件设计等。 ( 2 ) 可分析性:o l a p 系统应能处理与应用有关的任何逻辑分析和统计分 硕士学位论文第2 章基于决策支持的数据管理和分析 析。尽管系统需要事先编程,但并不意味着系统已定义好了所有的应用。用户 无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的 方式给出报告。 ( 3 ) 多维性:多维性是o l a p 的关键属性。系统必须提供对数据分析的 多维视图和分析,包括对层次维和多重层次维的完全支持。事实上,多维分析 是分析企业数据最有效的方法,是o l a p 的灵魂。 3 0 l a p 多维数据的构造 数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置,数 据聚合在一起,其密度很大。因此,o l a p 系统需要解决多维数据空间的数据稀 疏和数据聚合问题。目前主要有以下方法构造多维数据: ( 1 ) 超立方结构:超立方结构( h y p e r c u b e ) 指用三维或更多的维数来描 述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间 的各个部分都有相同的维属性。这种结构可应用在多维数据库和面向关系数据 库的o l a p 系统中,其主要特点是简化终端用户的操作。超立方结构有一种变 形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加 入额外的分析维。 ( 2 ) 多立方结构:在多立方结构( m u l t i c u b e ) 中,将大的数据结构分成 多个多维结构。这些多维结构是大数据维数的子集,面向某一特定应用对维进 行分割,即将超立方结构变为子立方结构。它具有很强的灵活性,提高了数据 ( 特别是稀疏数据) 的分析效率。一般来说,多立方结构灵活性较大,但超立 方结构更易于理解。终端用户更容易接近超立方结构,它可以提供高水平的报 告和多维视图。但具有多维分析经验的m i s 专家更喜欢多立方结构,因为它具 有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩阵的个更有效方法, 并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向于使用多立方 结构,以使数据结构能更好地得到调整,满足常用的应用需求。许多产品结合 了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立方结构来 进行计算,结合了超立方结构的简化性和多立方结构的旋转存储特性。 2 3 2 数据挖掘 数据挖掘( d m ) 就是从大型数据库的数据中提取或“挖掘”人们感兴趣的信 息,表现为隐含的、事先未知的潜在有用信息,可以用概念、规则、规律、模 式等形式来表示,可以与用户或知识库交互,给用户提供有趣的模式,或者作 为新的知识存放在知识库中【l “b 3 3 1 , 1 数据挖掘的理论基础 硕士学位论文第2 章基于决策支持的数据管理和分析 数据挖掘起源于多种学科,其中最重要的是统计学和机器学习。统计学起 源子数学,强调模型和数学上的精确,主要是由模型概念所驱动,模型概念是 一种假定的结构,能够产生数据;机器学习更多起源于计算机实践,倾向于强 调算法和实践,自觉对一些东西进行检验来查看其表现的好坏。但是目前有关 数据挖掘的理论基础研究还没有成熟。数据挖掘的理论基础主要包括有【l5 驯: ( 1 ) 数据归约简约( d a mr e d u c t i o n ) :数据挖掘的基础是减少数据的描述。 在大型数据库里,数据归约能换来对查询的快速近似应答。根据这一理论,数 据挖掘技术主要有奇异值分解( 在主要组件分析背后的驱动元素) ,小波,回归, 对数线性模型( 1 0 9 l i n e a r m o d e l ) ,直方图,簇,取样和索引树构造。 ( 2 ) 数据压缩( d a t ac o m p r e s s i o n ) :数据挖掘的基础是对给定的数据进行 压缩,它一般是通过按位、关联规则、决策树、蔟等进行编号实现的。根据最 小描述长度原理( m i n i m u md e s c r i p t i o nl e n g t hp r i n c i p l e ) 编码,从一个数据集合 中推导出的“最好”理论是:它本身的长度和用它作为预测器( p r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 金融行业财务代理记账及风险管理合同模板
- 公共交通设施标示牌设计施工一体化合同
- 生态农业园区场地租赁与农业设施建设合同范本
- 餐饮品牌区域授权承包经营合同
- 主题餐厅租赁合同(含特色场景及活动策划)
- 车辆抵押贷款合同债权债务重组合同样本
- 餐饮企业市场拓展与推广服务合同
- 江苏大学京江学院《外科学实践(Ⅱ)》2023-2024学年第二学期期末试卷
- Survivin抑制缺氧性人肺动脉平滑肌细胞凋亡的分子机制探究
- 2025年深海矿产资源勘探技术装备创新报告
- 幼儿园小班健康教育保护眼睛课件
- 中华人民共和国标准施工招标文件版
- 西师版四年级下册100道口算题大全(全册齐全)
- 皮肤型红斑狼疮诊疗指南(2023年版)
- 高中化学竞赛预赛试卷
- 档烟垂壁验收规范
- 《视觉传达设计研究5000字(论文)》
- YY/T 0676-2008眼科仪器视野计
- 通信工程建设强制性标准条文培训材料(第1-3章)
- SB/T 10654-2012茶馆经营服务规范
- “三重一大”事项决策情况记录表
评论
0/150
提交评论