(计算机应用技术专业论文)数据仓库、olap和dm技术研究及其在dss中的应用.pdf_第1页
(计算机应用技术专业论文)数据仓库、olap和dm技术研究及其在dss中的应用.pdf_第2页
(计算机应用技术专业论文)数据仓库、olap和dm技术研究及其在dss中的应用.pdf_第3页
(计算机应用技术专业论文)数据仓库、olap和dm技术研究及其在dss中的应用.pdf_第4页
(计算机应用技术专业论文)数据仓库、olap和dm技术研究及其在dss中的应用.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)数据仓库、olap和dm技术研究及其在dss中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 摘要 自从2 0 世纪7 0 年代决策支持系统的概念被首次提出以来,它不断地吸收各 种新技术而得以发展。传统d s s 极大地推动了计算机辅助决策的发展。但是,由 于它基于业务系统数据库从而缺乏统一、充足的数据源支持,这严重影响了d s s 的发展。9 0 年代中期出现了三项决策支持新技术:数据仓库、联机分析处理和 数据挖掘,它们的结合形成了d s s 发展的最新形式综合决策支持系统。 社会保险是国家长治久安的大计,它关系到每个职工的生、老、病、死。随 着我国政府对社保改革力度和支持力度的加大,各省都相继建立了符合本省需要 的管理信息系统,并积累了大量的业务数据。然而,决策支持系统在社会保险领 域的应用还刚刚起步,社保d s s 具有广阔的发展前景。 本文对社保d s s 的构建进行了深入研究。首先,介绍了综合决策支持系统的 优越性;深刻分析了数据仓库、o l a f 和d m 技术的原理和三者之间内在的联系性。 然后,以江西省重点科技项目“社会保险辅助决策系统”为应用实例,介绍了基 于d w 的d s s 体系结构;确定了社保d s s 的d w 平台以及o l a p 和d m 工具;给出了 社保d s s 数据仓库的详细设计,在此基础上介绍了d w 数据的提取、转换和装载 过程,给出了d w 中相应事实表和维表数据的装载脚本;提出了基于数据仓库, 综合应用0 l a p 和d m 技术的社保d s s 的总体设计方案,为决策支持系统在社会保 险领域的应用做出了有益的探索。 关键词:数据仓库,联机分析处理,数据挖掘,决策支持系统,社会保险 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 a b s t r a c t s i n c et h ec o n c e p t i o no fd s sw a sf i r s t l yp u tf o r w a r di n1 9 7 0 + s ,i th a sb e i n g d e v e l o p e db ya b s o r b i n ga l l s o r t so fn e wt e c h n o f o g i e s t r a d i t i o n a ld s sg r e a t l y p r o m o t e dt h ed e v e l o p m e n to f t h ed e c i s i o ns u p p o r ta i d e dc o m p u t e r b u ti ti sb a s e do n m i sd a t a b a s ew h i c hi sl a c k e do fu n i f o r ma n ds u f f i c i e n td a t 乱s ot h ed e v e l o p m e n to f d s sw a sp u to f f i nt h em i d d l eo f1 9 9 0 s ,t h e r ea r et h r e en e wt e c h n o l o 百e st oc o m e i n t ob e i n g t h e r ea r ed a t aw a r e h o u s e ,o n - l i n ea n a l y t i c a ip r o c e s s i n ga n dd a t a m i m n g t h ec o m b i n a t i o no ft h e mc o n d u c e st o t h en e w e s tf o r mo fd s s 一一 c o m p r e h e n s i v ed e c i s i o ns u p p o r ts y s t e m s o c i a li n s u r a n c ei sa ni m p o r t a n tm e a s u r et oe n s u r et h en a t i o n s l o n g t e r m s t a b i l i z a t i o na n ds a f e t y , a n di ti sr e l a t i v et ol i v i n g ,a 西n i l l n e s sa n dd e a t ho fe a c h e m p l o y e e w i t ho u rg o v e r n m e n ts t r e n g t h e n i n gr e f o r ma n ds u p p o r to f s o c i a li n s u r a n c e , d i f f e r e n tp r o v i n c e sh a v es e tu pm i so n ea f t e rt h eo t h e r , a n da c c u m u l a t e dag r e a td e a l o fo p e r a t i o nd a t a h o w e v e r , t h ea p p h c a t i o no fd s si ns o c i a li n s u r a n c ei sj u s ti n u n d e r w a ys t a g e t h e r ei sm u c hp r o s p e c to f s o c i a li n s u r a n c ed s s t h i sp a p e rr e s e a r c h e st h ec o n s t r u c t i o no fs o c i a li n s u r a n c ed s s f i r s t l y , i t i n t r o d u c e st h es u p e r i o d t yo fc o m p r e h e n s i v ed s sa n dd e e p l ya n a l y z e st h et h e o r yo f dw - o l a pa n dd m t e c h n o l o g i e sa n dt h ei n h e r e n tr e l a t i o nb e t w e e nt h r e ek i n d so f t e c h n o l o g y t h en e x t ,u s i n gt h ep r o j e c to f s o c i a li n s u r a n c ea s s i s t a n td e c i s i o n m a k i n g s y s t e ma st h ea p p l i c a t i o ni n s t a n c e ,t h i sp a p e ri n t r o d u c e sd s s f r a l n eb a s e do nd w i n t h i sp a p e rw em a k e sc e r t a i nd w p l a t f o r m ,o l p at o o la n dd m t o o la n ds h o w st h e d e t a i l e dd e s i g no fd wo fs o c i a li n s u r a n c ed s s a f t e rt h a t ,t h ep a p e ri n t r o d u c e st h e e x t r a c t ,t r a n s f o r ma n dl o a dp r o c e s so f d wd a t a f i n a l l y , i to u t l i n e st h eg e n e r a ld e s i g n s c h e m eo fs o c i a li n s u r a n c ed s sb a s e do nd wa n da p p l i e do l a _ pa n dd m t e c h n o l o 百e s i ti sa ne x p l o r a t i o no f d s sb e n e f i t st os o c i a li n s u r a n c e w r i t t e nb yp e n gq i a o - z h e n ( c o m p u t e ra p p l i c a t i o n ) d i r e c t e db yp r o l y a ol i - w e n ,p r o f d u a nl o n g - z h e n k e yw o r d s :d a t aw a r e h o u s e ,o l a p , d a t am i n i n g ,d s s ,s o c i a li n s t t r a n c e 独创性声明 疆“7 8 9 7 0 8 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得南昌大学或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 一繇蔓户可一期:村年6 夕日 学位论文版权使用授权书 本学位论文作者完全了解 盘璺叁鲎 有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权南昌大学可以将学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名 签字日期:必匹年 羔 b 斤 6 月7 日 , 学位论文作者毕业后去向 工作单位: 通讯地址: 导师签名 姚面支 签字日期易川一年多 电话 邮编: 月_ 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 1 1 课题来源 第一章绪论 本课题来源于江西省重点科技项目“社会保险辅助决策系统”,属于理论与 应用相结合的研究课题。 1 2 选题依据和意义 决策支持系统( d s s ,d e c i s i o ns u p p o r ts y s t e m ) 作为一门新兴的信息技术, 能够为企事业单位提供各种决策信息支持以及各种问题的解决方案,从而减轻管 理者从事低层次信息处理和分析的负担,使得他们专注于最需要决策智慧和经验 的工作,从而提高决策的质量和效率。因此,为企事业单位建立一个高质量的决 策支持系统将是非常有必要的。 数据库系统作为数据管理手段,主要用于操作型处理。在这些数据库中已经 保存了大量的日常业务数据。传统的d s s 一般是直接建立在这种事务处理环境上 的。数据库技术一直力图使自己能胜任从事务处理、批处理到分析处理的各种类 型信息的处理任务。尽管数据库在事务处理方面获得了巨大成功,但它对分析处 理的支持一直不能令人满意,尤其是当以业务处理为主的联机事务处理应用与以 分析处理为主的d s s 应用共存于同一个数据库系统中时,这两种类型的处理发生 了明显的冲突。人们逐渐认识到,事务处理和分析处理具有本质的不同,直接使 用事务处理环境来支持d s s 是行不通的。必须对数据库系统中的原始数据进行重 新组织,构建面向分析型应用的分析处理环境数据仓库体系化环境。 1 9 9 2 年,业界公认的数据仓库概念创始人w h i n m o n 博士在建立数据仓库 一书中给出了数据仓库的定义:数据仓库是一个面向主题的、集成的、不可更新 的、随时间变化的用来支持管理人员决策的数据集合。可以说,数据仓库是在数 据库的基础上建立的,但与传统的数据库目标又有较大的不同,它将分布在不同 数据库中的数据集成起来,将转换后的关系型数据及其它复杂类型数据存储成为 一种面向分析的数据集合,为d s s 应用提供了一种分析处理环境。以数据仓库作 为d s s 数据管理的手段,将使决策支持系统迈上新的台阶。 伴随着数据仓库技术的出现,2 0 世纪9 0 年代发展起来的联机分析处理和数 据挖掘技术为决策支持注入了新的活力。o l a p 的概念在1 9 9 3 年由有“关系数据 库之父”之称的e f c o d d 首次提出,0 l a p 专门设计用于支持复杂的分析操作, 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 侧重对决策人员和高层管理人员的决策支持,可以应分析人员要求快速、灵活地 进行大数据量的复杂查询处理,并以一种直观易懂的形式将查询结果提供给决策 人员,以便他们准确掌握企业的经营状况。1 9 9 5 年,在美国计算机年会上,提 出了数据挖掘的概念。数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在 其中的信息或者知识的过程。目的是帮助分析人员寻找数据之间的关联,发现被 忽略的要素,而这些信息对于预测趋势和决策行为是十分有用的。 从现有的d s s 研究文献和应用案例来看,对d s s 的数据管理研究比较少,d s s 应用大都建立在传统的数据库系统上,数据仓库的出现解决了d s s 应用的基础性 问题数据管理问题,0 l a p 和数据挖掘工具又为数据分析提供了强有力的支 持。基于数据仓库的决策支持系统较好地集成了数据仓库、联机分析处理、数据 挖掘等多种信息处理技术,是种新形式的决策支持系统,它较好地解决了传统 d s s 中因数据库、模型库、知识库往往独立设计和实现,因而缺乏内在统一性的 问题,是辅助管理者做出正确决策的理想系统。 江西省在这方面的理论研究和实际应用还刚刚起步。因此,本课题的研究不 仅在d s s 的理论探讨方面,而且在d s s 的实际应用方面都有着极其重要的意义。 1 3 社保领域计算机应用发展隋况 社会保险是国家长治久安的大计,它关系到每个职工的生、老、病、死。一 个国家的文明越是发达,其社会保险体制就越完善。1 9 9 5 年我国当时的劳动部 颁布了“城镇企业职工基本养老保险改革方案”,这个以“建立个人帐户”为主 要改革内容的方案拉开了中国现代社会保险( 包括养老、医疗、工伤、生育、失 业五种保险) 制度改革的序幕,经过这么些年的探索,各省市在劳动和社会保障 部的原则精神指导下,基本上建立了符合本地区实际的社会保险执行方案,同时, 社会保险计算机管理系统也如雨后春笋,应运而生,这些系统覆盖全国,管理着 一亿多职工的基本信息、工资信息、帐户信息等与国民经济相关的重要信息。管 好它们、用好它们、挖掘它们,使它们更好地为社会保险决策乃至国民经济服务, 是社会保险的一个更新更高的课题! 因此,本课题既有很大的实际价值和理论意 义,也有着光明的前景! 该论文指导老师,课题技术负责人段隆振教授从1 9 9 5 年就开始涉足社会保 险行业软件开发,根据国务院统一企业职工基本养老保险的方案,设计了通用性 很强的基本养老保险管理软件。该软件于1 9 9 9 年1 2 月通过了省部级鉴定,其技 术、性能在全国同类产品中处于领先水平,同年被列为国家火炬计划,劳动和社 会保障部有关领导给予了高度评价。经过多年的使用,该软件经受住了实践的考 验,使社保业务人员从大量繁杂的数据文档处理中解脱出来,极大的提高了业务 2 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 人员的工作效率。2 0 0 4 年,该软件又获“江西省科技进步二等奖”殊荣。目前, 该软件在江西省1 1 0 个社会保险机构运行,管理了2 万多个企业、近3 0 0 万职工 的基本信息和帐户信息。 2 0 0 4 年年初,我们对省本级养老保险管理信息系统进行了升级。通过参与 省本级养老保险m i s 的升级,本人对这套软件有了更深刻的理解和认识,对社保 业务系统数据库中各表和字段的含义有了充分的了解和认识,进一步熟悉了社保 的有关政策和业务,为参与社保d s s 的开发奠定了扎实的基础。 尽管这套养老保险管理软件应用良好,也为江西省各社会保险机构带来了很 大的实惠,但是管理人员并不满足,他们期待着软件系统从m i s 到d s s 的升华。 社保业务系统经过多年的良好运行,为数据仓库的创建积累了充分的数据。同时, 国家政治经济形式稳定,社会保险改革力度越来越大,对社会保险的支持力度也 越来越大。所有这些,对我们继续开发社会保险决策支持系统是一个极大的鼓 舞,也为我们成功开发d s s 提供了保证。 1 4 论文的研究内容和创新点 本文对基于数据仓库,综合应用联机分析处理和数据挖掘技术的决策支持系 统的构建进行了深入的研究。主要研究内容包括: 1 决策支持系统的研究现状和发展趋势。 2 数据仓库的基本原理和设计过程。 3 联机分析处理和数据挖掘技术。 4 基于数据仓库,综合应用0 l a p 和d m 技术的决策支持系统的构建。 从前面对选题依据和意义的阐述可以看出,本文的创新点如下: 1 突破了传统决策支持系统建立在业务数据库基础上的局限性,将d s s 建 立在数据仓库基础之上。数据仓库为决策支持系统的构建提供了统一和充足的数 据源支持。 2 将联机分析处理和数据挖掘技术应用到基于数据仓库的决策支持系统当 中。0 l a p 和d m 工具为有效地分析和挖掘数据仓库中的信息资源提供了强有力的 支持。 1 5 论文的组织结构 本论文的组织结构如下: 第一章在分析选题依据和社保领域计算机应用发展情况的基础上,提出了 基于数据仓库,综合应用o l a p 和d m 技术的决策支持系统的优越性,并给出了论 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 文的研究内容和创新点。 第二章论述了决策支持系统的产生、定义和体系结构,并对决策支持系统 的研究现状和发展趋势进行了分析。 第三章论述了数据仓库的产生、定义和体系结构,并对数据仓库的设计进 行了详细的介绍,给出了数据仓库的设计方法和创建步骤。 第四章对联机分析处理和数据挖掘技术进行了深刻的分析,阐明了0 l a p 、 d m 与数据仓库的关系以及0 l a p 和d m 之间的区别和联系。 第五章阻江西省重点科技项目“社会保险辅助决策系统”为应用实例,给 出了社保数据仓库的详细设计和数据装载过程,提出了基于数据仓库,综合应用 0 l a p 和d i 技术的社保d s s 的总体设计方案。 第六章总结了本论文的研究成果并对下一步还需进行的工作进行了展望。 4 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 第二章决策支持系统( d s s ) 2 1d s s 的产生 决策支持系统是信息系统研究的最新发展阶段。自电子计算机问世以来,人 们对信息的收集和处理经历了电子数据处理( e d p ,e l e c t r i c a l d a t a p r o c e s s i n g ) 、 管理信息系统( m i s ,m a n a g e m e n ti n f o r m a t i o ns y s t e m ) 、决策支持系统( d s s , d e c i s i o ns u p p o r ts y s t e m ) 三个发展阶段。 开始,人们主要用电子计算机进行数据处理和编制报表,其目的是实现办公 自动化,通常把这一系统所涉及到的技术称为电子数据处理。e d p 把人们从繁 重的事务中解脱出来,提高了工作效率。随着e d p 的使用,也逐渐暴露出一些 问题。任何一项数据处理任务都不是孤立的,它必须通过信息交换、资源共享等 各种联系与其它工作结合在一起,e d p 虽能大大提高某一数据处理环节的工作 效率,但与其他任务及各种因素的配合能力、协调能力差,使其优点发挥不出来, 有时使用不当,还会产生不可预计的后果,这就影响了e d p 的使用。 由于e d p 的缺陷,2 0 世纪6 0 年代初出现了管理信息系统的概念。m i s 的出 现使信息处理技术进入了一个新的阶段,并取得了迅速的发展。管理信息系统是 一个由人、计算机等组成的,能进行管理信息的收集、传递、储存、加工、维护 和使用的系统。m i s 能实测企业的各种运行情况,利用过去的数据预测未来,利 用信息控制企业行为,以期达到企业的长远目标。因此,m i s 能把孤立的、零碎 的信息变成一个比较完整的、有组织的信息系统,不仅解决了信息存放的“冗余” 问题,而且提高了信息的效能。然而在m i s 的实践过程中,人们又发现它还不 能向预期的那样带来实际的巨大的经济与社会效益。这一次问题的出现主要在于 对m i s 的理解上。m i s 系统的设计人员缺乏对企事业单位的组织结构和各层管 理者的决策行为的深入研究,设计系统总是从原有手工方式管理的数据出发,而 不是管理者的决策需求出发。因此,m i s 只能帮助管理者对信息作表面上的组织 和管理,而不能把信息的内在规律更深刻地挖掘出来为决策服务,即m i s 不能 为管理者提供足够的决策信息,对管理者的决策支持还远远不够。 在任何一个系统中,信息系统都是为管理决策控制服务的,它的工作只有与 管理、决策、控制联系在一起才有意义,才能发挥最大的效用。针对m i s 的缺 陷,人们认识到完成例行的日常信息处理任务,只是计算机在管理中发挥作用的 低级阶段,要想对管理工作做出实质性的贡献,必须直接地面向决策。在这种情 况下,于2 0 世纪7 0 年代在国际上展开了管理信息系统为什么失败的讨论,并由 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 美国麻省理工学院的m s s c o t t m o r t o n 教授在管理决策系统一书中首先提出 决策支持系统的概念。d s s 概念的提出引起了许多科学家、企业家和管理界人士 的极大兴趣和高度重视,对其展开了大量的理论研究和应用实践的尝试。虽然 d s s 的发展道路并不平坦,其中也有过低谷,但随着计算机技术、信息技术、人 工智能、管理科学、决策科学、一i i , 理学、行为科学和组织理论等学科的发展,尤 其是计算机技术和信息技术的巨大进步,使得作为这些学科的交叉科学的d s s 得到了长足的发展,理论上的研究日趋成熟,在实践中的应用也获得了极大的成 功。 2 2d s s 的定义 对于决策支持系统,理论界至今仍无一个统一的定义。目前许多文献对d s s 的定义作出了如下表述:凡能对决策提供支持的计算机系统,这个系统充分运用 可供利用的、合适的计算机技术,针对半结构化或非结构化问题,通过人机交互 方式帮助和改善管理决策。但仔细推敲,这个定义也并不完善。因为d s s 并没 有标准模式和标准规范,凡是能达到决策支持这一目的的技术都可以用来构造 d s s 。其实,对于d s s 这样一个正在迅速发展的领域,过早追求一个完善的定 义并非明智之举,只要把握这个领域的基本特征和基本框架就可以了,这样做的 好处是给该领域的扩充提供了足够的灵活性。 鉴于上述原因,本文也不想给出d s s 一个确定的定义,只是给出d s s 的基 本特征,让人们从整体上对d s s 有所把握。d s s 的基本特征可以描述为以下几 个方面: 1 决策支持系统帮助管理者完成结构化程度不高、说明不够充分的问题。 这些很少得到或得不到e d p 或m i s 的支持,而d s s 可以解决一部分分析工作和 系统化问题,但对这一过程的控制还需要决策者的洞察力和判断力。 2 决策支持系统能够把模型或分析技术与传统的数据存取技术及检索技术 结合起来。 3 决策支持系统是一个人机交互系统,它通过人机交互接口为决策者提供 辅助决策功能,交互式的友好的接口易于为非计算机专业人员使用。 4 决策支持系统强调对环境及用户决策方法改变的灵活性和适应性。决策 支持系统能在整个决策过程中,根据决策者的需要在不同阶段提供不同形式的帮 助。 5 决策支持系统是辅助和支持管理者进行决策,而不是代替管理者进行判 断。因此,不应试图由计算机提供“答案”,也不应给决策者强加一套预先规定 的分析程序。决策支持系统是跳跃和适应人的决策过程,而不是要求人去适应系 6 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 统。 自从d s s 问世以来,由于它的实用性,给社会和企业界带来了巨大的社会和 经济效益,因而引起了许多专家和企业界人士的极大兴趣和关注,使之得到了很 快的发展和应用。d s s 有力地支持了企业的决策活动,并不同程度地改善了决策 者和信息工作人员的素质和行为,改善了决策者和管理者人员的思维和工作方 式。随着科技的进步、人类素质的提高以及计算机深入渗透到各个领域,d s s 将 比以往更深刻地影响人类的工作和思维方式,也必将促进科学与经济的更大繁 荣。 2 3d s s 的体系结构 经过多年的发展,d s s 形成了如图2 1 所示的体系结构。从图中我们可以看 到传统决策支持系统一般由以下四个基本部件组成: 图2 1 传统决策支持系统体系结构 1 人机交互系统:是人机进行交互的窗口。它负责接收和检验用户的请求, 协调数据库系统、模型库系统和方法库系统之间的通信,为决策者提供信息收集、 问题识别以及模型构造、使用、改进、分析和计算等功能。人机接口应友好和具 有较强的灵活性及适应性。 2 数据库系统:包括数据库和数据库管理系统,负责管理和存储与决策问 题领域有关的数据。它反映了决策支持系统的基本特点,即所有决策层次都基于 数据集的存取。 3 模型库系统:包括模型库和模型库管理系统。它能够有效地完成对模型 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 的存储、修改、查询、调用及模型之间的相互组合。同时模型库和数据库之间能 相连,使用的数据统一存放在数据库中。模型库管理系统是随决策支持系统的需 要发展起来的,它使d s s 迈上了一个新台阶。 4 方法库系统:包括方法库和方法库管理系统。方法库由基本方法和标准 算法组成,为模型提供基本模块和程序;方法库管理系统实现对方法库的有效管 理,包括对库中元素进行有效的组织和存储、修改( 增加、删除和更新) ,以及 查询和安全保密。 d s s 的主要特点有如下几方面; 1 系统的使用面向决策者,在运用d s s 的过程中,参与者都是决策者。 2 系统解决的问题是针对半结构化的决策问题,模型和方法的使用是确定 的,但是决策者对问题的理解存在差异,系统的使用有特定的环境,问题的条件 也不确定和唯一,这使得决策结果具有不确定性。 3 系统强调的是支持的概念,帮助加强决策者作出科学决策的能力。 4 系统的驱动力来自模型和用户,人是系统运行的发起者,模型是系统完 成各环节转换的核心。 5 系统运行强调交互式的处理方式,一个问题的决策要经过反复的、大量 的、经常的人机对话,人的因素如偏好、主观判断、能力、经验、价值观等对系 统的决策结果有重要的影响。 2 4b s s 的研究现状 决策支持系统自7 0 年代提出以来,在社会需求的驱动下,随着相关技术的 发展,对d s s 的研究和应用取得了令人瞩目的进步,它对计算机辅助解决半结 构化和非结构化问题起到了巨大的推动作用。传统的决策支持系统由人机交互、 数据库、模型库以及方法库四大部件组成,通过对这四大部件的集成实现对半结 构化和非结构化问题的决策支持。自d s s 开发以来,与它的理论研究相比,实际 应用工作开展得更早,它广泛用于企业管理、系统开发、经济分析与规划、战略 研究、资源管理、投资规划等方面,支持各类决策问题的决策支持系统大量出现 并已投入使用。 国外d s s 的研制工作已经经过了近3 0 年的发展。无论是理论,还是应用方 面都已经取得了较大的进展。据美国一家调研机构的调查表明,2 0 世纪末3 4 的美国公司中将有2 0 的员工使用决策技术,1 3 的公司中将有6 0 的员工使用 决策工具,8 6 的人认为企业对决策技术的投资将会增加。再据有关资料统计, 国外开发的d s s ,有2 3 是成功或部分成功的,主要支持企业管理决策活动,不 同程度地改善了决策者和信息决策工作人员的素质和行为,为各级主管决策提供 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 了科学的依据。但有i 3 的d s s 是失败的,其原因:一方面是d s s 的开发者对主 要决策者的决策风格不了解,系统功能与决策者的信息需求不匹配;另一方面, 过于强调模型的作用,复杂的模型和计算使决策者难以理解和接受;再加上软硬 件技术上的困难,导致开发费用大、时间长,使系统的适应性受到限制。 国内对d s s 的开发研究起步较晚,我国随着8 0 年代软科学的兴起,促进了 d s s 的研究。软科学的根本任务是为领导决策服务,为各级、各类决策提供科学 依据。“在一切失误中,决策的失误是最大的失误。”已成为人们的共识。d s s 的 开发已经引起了广大计算机科技人员的重视和注意,成为了国内计算机应用的热 门课题。d s s 目前在理论上还有一定的难度,其开发技术也不是很成熟,还有许 多的问题尚待研究。但d s s 在应用上具有重大的现实意义,在软科学的研究中, “发展规划”和“前景预测”在我国取得了明显效果。在国内一些地方已经开发 了一些初步的决策支持系统项目,主要应用于企业的预算和分析、预测和计划、 生产和销售等部门,涉及到经济、环境、电力等各方面。 经过几十年的发展,在决策支持系统的研究方面国内外涌现出不少优秀成 果,取得了可观的经济效益和社会效益,但是,随着市场竞争的加剧,迫于信息 社会的需求,从大量数据中提取所需的各类信息就显得越来越重要了,这种需求 即要求联机服务,又涉及大量用于决策的数据,使得传统的数据库技术因自身缺 陷已经无法适应新的需求。 传统决策支持系统的不足主要表现在: 1 传统的d s s 缺乏内在的同一性 传统的d s s 是由数据库、模型库、方法库所组成的系统结构,可是在d s s 的开发过程中,数据库、模型库、方法库往往被独立的设计与实现,从而使传统 的d s s 在系统结构上很难达到内在的统一性和完整性,因而应用效果并不理想。 2 传统的d s s 是面向事务处理的 传统的d s $ 所进行的数据处理是直接利用关系数据库的数据,因而d s s 的开 发一般都是面向以业务处理为主的联机事务处理应用,而不是面向分析处理应 用,用户要想直接使用联机事务处理系统中的数据进行分析处理是很难实现的, 联机事务处理系统不适应大规模的d s s 的数据分析处理。 3 传统的d s s 缺乏强有力的工具 企业决策是一个提出问题分析问题解决问题的循环过程。分析的过 程实质上一种不断抽取的过程,既要对大量分散的数据快速进行综合分析,然后 从中捕获与决策相关的信息。而传统的d s s 往往侧重抽象的理论,在理论上和方 法上过于复杂,又缺乏有效的分析工具,因而也就得不到有效的分析结果。 4 传统的d s s 没有充足的数据源支持 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 全面而准确的数据是有效的分析与科学决策的重要前提,这些数据不仅应包 括整个企业各部门的数据,还需要与企业相关的外部数据、历史数据、综合数据 等。一般来讲,相关数据收集的越完整,得到的结果也就越可靠。而传统的d s s 使用的数据库只能对原始数据进行一般的加工和汇总,致使决策所需的信息不 全,无法满足d s s 的需要。 5 传统的d s s 缺乏对数据的综合能力 一般来说,在进行事务处理时会积累大量的细节数据,如果对这些细节数据 进行分析必然会影响分析效率,同时分析人员也要花费大量的时间和精力而忽略 了有用的信息,因此往往要求对这些细节数据进行不同程度的综合,而基于事务 处理的传统d s s 缺乏这种综合能力。传统d s s 的核心问题在于其数据库系统无法 提供统一、优质、高效的数据作为决策分析的基础。 2 5d s s 的发展趋势 综合决策支持系统是决策支持系统发展的最新形式,它能够真正让用户利用 d s s 工具直接从企业信息池中随机的抽取数据、分析数据,有效地服务于企业的 全方位决策。 综合决策支持系统由三个主要部分构成: 1 数据仓库( d w ,d a t aw a r e h o u s e ) 进入9 0 年代后,随着人们对信息需求的迅速增加,信息系统部门工作的重 点已不局限于简单的数据收集,而是让整个企业内的人们能够充分利用这些数 据,为此而提出的数据仓库化概念,越来越成为各行各业信息系统部门普遍关注 的焦点。数据仓库技术是企业范围内数据的处理技术,它将这些分散的数据进行 清理、转换为新的存储格式,集中到一个更大的库( 即数据仓库) 中。最终用户在 数据仓库中运行查询,制作报表,进行数据分析。数据仓库侧重于存储和管理面 向决策主题的数据。数据仓库收集存储于各个不同数据源中的数据,通过数据的 组织给决策支持者提供分布于整个企业内部、跨平台的数据,即为决策支持目标 把数据聚合起来,作为决策分析的基础,从而从理论上解决了从不同系统的数据 库中提取数据的难题。 2 联机分析处理( o l a p ,o n l i n ea n a l y t i c a lp r o c e s s i n g ) o l a p 技术可以对数据仓库提供的数据进一步作深加工,即有效地集中分析 和深入研究数据,发现趋势,看到异常情况,并得到重要细节。o l a p 技术侧重 于对数据仓库的分析。o l a p 技术对关键性指标数据常常用代数方程进行处理, 对更为复杂的分析建立模型进行计算,o l a p 技术解决了对大量数据进行数值计 算的问题。按照o l a p 的不同存储组织方式可分为基于关系数据库的o l a p 实现 1 0 数据仓库、0 l a p 和d m 技术研究及其在d s s 中的应用 ( r o l a _ p ,r e l a t i o n a lo l a p ) 和基于多维数据库的o l a p 实现( m o l a p , m u l t i d i m e n s i o n a lo l a p ) 。o l a p 允许用户使用数据导航技术获取更详细的信息, 可以使用户在一个数据集内进行切片、切块、钻取、聚合、旋转等操作。 3 数据挖掘( d m ,d a t am i n i n g ) 数据挖掘从大型数据库中发现数据模式,预测趋势和行为,致力于知识的自 动发现。一般认为数据挖掘是o l a p 之后进行的步骤。它通过筛选数据获得未知 的关系,而不是寻找已知的关系。它能帮助决策者寻找数据之间潜在的关联,发 现被忽略的要素。如“在某年某地区卖了多少产品”,这就是0 l a p ,而“促使人 们购买某种产品的原因是什么”,则是数据挖掘。 传统的d s s 系统通常是在某个假设的前提下通过数据查询和分析来验证或 否定这个假设,而数据挖掘技术则能够自动分析数据,进行数据归纳整理,从中 发现潜在的模式或产生联想,建立新的业务模型,帮助决策者调整市场策略,做 出正确的决策,数据挖掘的出现使决策支持工具跨入一个新的阶段。 虽然数据仓库、联机分析处理和数据挖掘技术最初是作为三种独立的信息技 术出现的,但是由于它们之间内在的联系性和互补性,使得这三种技术集成在一 起形成了综合决策支持系统。综合d s s 对决策问题既可以进行定量分析,又可以 进行定性分析;既可以处理来自不同系统、不同数据格式的大量数据,又可以进 行复杂的数值计算,能够很好的完成决策任务。它们的出现为决策支持系统的发 展开辟了新途径,使决策支持系统发展到一个新的阶段。 综合决策支持系统以其先进的技术和组织模式代表着未来决策支持系统的 发展趋势。 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 3 1d w 的产生 第三章数据仓库( d w ) 随着计算机技术的飞速发展和企业界不断提出新的需要,数据仓库技术应运 而生。传统数据库技术是以单一的数据资源,即以数据库为中心,进行从事务处 理、批处理到决策分析等各种类型的数据处理工作。然而,不同类型的数据处理 有着不同的处理特点,单一的数据组织方式进行组织的数据库并不能反映这种差 异,满足不了数据处理多样化的要求。近年来,随着计算机的应用,人们对数据 处理的这种多层次特点有了更清晰的认识。 当前的数据处理可以大致地划分为两大类:操作型处理和分析型处理。操作 型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录 的查询和修改,主要是为企业特定应用服务的。人们关心的是响应时间,数据的 安全性和完整性。分析型处理也叫信息型处理,则用于管理人员的决策分析。两 者之间的巨大差异使得操作型处理和分析型处理的分离成为必然。这种分离划清 了数据处理的操作型环境与分析型环境之间的界限,从而由原来的以单一数据库 为中心的数据环境发展为种新环境数据仓库体系化环境。 操作型数据和分析型数据之间的区别如表3 1 所示。从表中可以清楚地看 到,操作型数据与适合于d s s 应用的分析型数据之间的差别很大。 操作型数据分析型数据 细节的 综合的或是提炼的 在存取瞬间是准确的代表过去的数据 可更新的 一般不更新、只追加 一个时刻操作一个单元一个时刻操作一个集合 面向事务 面向分析 一次操作数据量小一次操作数据量大 支持日常操作支持决策需求 表3 1 操作型数据与分析型数据的比较 数据库系统作为数据管理手段,主要用于操作型处理。在这些数据库中已经 保存了大量的日常业务数据。传统的d s s 一般是直接建立在这种事务处理环境上 的。数据库技术一直力图使自己能胜任从事务处理、批处理到分析处理的各种类 1 2 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 型信息的处理任务。尽管数据库在事务处理方面获得了巨大成功,但它对分析处 理的支持一直不能令人满意,尤其是当以业务处理为主的联机事务处理( o l t p , o n l i n et r a n s a c t i o np r o c e s s i n g ) 应用与以分析处理为主的d s s 应用共存于同 一个数据库系统中时,这两种类型的处理发生了明显的冲突。人们逐渐认识到, 事务处理和分析处理具有本质的不同,直接使用事务处理环境来支持d s s 是行不 通的。 具体来说,事务处理环境不适宜d s s 应用的原因主要有以下五条: 1 用户的行为模式 在事务处理环境中,用户的行为特点是数据的存取操作频率高,但是每次操 作处理的时间短。因此,系统可以允许多个用户按分时方式使用系统资源,同时 保持较短的响应时间。 在分析处理环境中,用户的行为模式与此完全不同,某个d s s 应用程序可能 需要连续运行几个小时,从而消耗大量的系统资源。 将具有如此不同处理性能的两种应用方式放在同一个环境中运行,这显然是 不适当的。 2 数据的集成问题 d s s 需要集成的数据。全面且正确的数据是有效分析和决策的首要前提,相 关数据收集得越完整,得到的结果也就越可靠。因此,d s s 不仅需要整个企业内 部各部门的相关数据,还需要企业外部、竞争对手等处的相关数据。 事务处理的目的在于使业务处理自动化,一般只需要与本部门业务有关的当 前数据。面对整个企业范围内的集成应用考虑得很少,当前绝大部分企业内数据 的真正状况是以分散方式而非集成方式存在的。造成这种分散的原因有多种,主 要有事务处理应用问题、“蜘蛛网”问题、数据不一致问题、外部数据和非结构 化数据问题。 1 ) 事务处理应用的分散 当前企业内部各事务处理之间几乎是独立的,之所以出现这种现象有多种原 因。有的原因是设计方面的,例如,系统设计人员为了减少系统开发费用和加快 开发进度,总是采用简单而“有效”的设计方案,这种“有效”仅指对解决当前 面临的问题有效,而不能保证对以后新出现的问题继续有效。有的原因是经济方 面的,当经费有限时,企业总是考虑先对关键的业务活动建立应用系统,然后再 逐步建立其他业务的信息处理系统,还有的原因是历史、地理方面的,例如,某 个大公司由分散在各地的多个子公司组成,企业的兼并等。 由于这种事务处理应用分散状况的存在,d s s 应用需要对分散在多个事务处 理应用中的相关数据进行集成,为分析人员提供统一的数据视图。 数据仓库、o l a p 和d m 技术研究及其在d s s 中的应用 2 ) “蜘蛛网”问题 在d s s 应用中为了避免与其他用户的冲突,以及简化用户的数据视图,一种 称为“抽取程序”的方法目前被广泛地应用,用户利用抽取程序从文件或数据库 中查找有用的数据,然后这些数据被提取出来放入其他文件或数据库中供用户使 用。这些经抽取得到的新文件或数据库又被某些用户再进行抽取,这种不加控制 的连续抽取最终导致系统内的数据间形成了错综复杂的网状结构,人们形象地称 为“蜘蛛网”。企业的规模越大,“蜘蛛网”问题就越复杂。 虽然网上的两个节点的数据可能归根结底是从原始库中抽取出来的同一节 点数据,但其数据没有统一的时间基准,抽取算法各不相同,抽取级别也不相同, 并且可能参考不同的外部数据。因而对同一问题的分析,不同节点会产生不同甚 至截然相反的结果。这当然使决策者无从下手。 3 ) 数据不一致问题 前述的应用分散和“蜘蛛网”等问题导致了数据的不一致,这些数据不一致 的形式是多种多样的。 同一字段在不同应用中具有不同的数据类型。例如,字段s e x 在a 应用 中的值为“男女”,在b 应用中的值为“0 1 ”。 同一字段在不同应用中具有不同的名字。例如,姓名在a 应用中的名称 为“n a m c ”,在b 应用中的名称为“x i n ”。 同名字段,不同含义。例如,字段w e i g h t 在a 应用中表示人的重量,在 b 应用中表示汽车的重量。 为了将这些不一致的数据集成起来,必须对它们进行转换后才能进行分析。 数据的不一致是多种多样的,对每种情况都必须专门处理,因此,这是一项很繁 重的工作。 4 ) 外部数据和非结构化数据 在决策中经常用到外部数据,这部分数据不是由事务处理系统产生的,而是 来自于其它外部数据源。例如,权威性刊物发布的统计数据、业界的技术报告、 市场比较和分析报告、股票行情等,这些数据通常都是非结构化数据。在事务处 理系统中,由于没有对外部数据进行统一管理,d s s 应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论