硕士学位论文-基于数据仓库的数学模型解决方案的研究与设计.pdf_第1页
硕士学位论文-基于数据仓库的数学模型解决方案的研究与设计.pdf_第2页
硕士学位论文-基于数据仓库的数学模型解决方案的研究与设计.pdf_第3页
硕士学位论文-基于数据仓库的数学模型解决方案的研究与设计.pdf_第4页
硕士学位论文-基于数据仓库的数学模型解决方案的研究与设计.pdf_第5页
免费预览已结束,剩余81页可下载查看

硕士学位论文-基于数据仓库的数学模型解决方案的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

同济大学软件学院 硕士学位论文 基于数据仓库的数学模型解决方案的研究与设计 姓名:杨家旭 申请学位级别:硕士 专业:软件工程 指导教师:张维东;李琳 20070601 摘要 随着市场经济竞争的加剧,企业和组织的管理和决策越来越有赖于对市场 需求的分析、预测,而现实中往往存在决策依据不足和有效数据十分缺乏的现 象;同时,在计算机和关系型数据库系统已经十分普及的今天,大部分企业和 组织的管理信息系统仍然是以低层操作型的事务处理为重心建设,而企业中高 层的决策支持系统的基础十分薄弱。低层的数据泛滥,而中高层用于决策的信 息却十分贫乏的问题表明:基于数据仓库的决策支持系统的开发已十分迫切。 数据仓库、数据挖掘和数学建模是作为三种独立的信息和数学处理技术出 现的。数据仓库用于数据的存储和组织,数据挖掘集中于数据的分析,数学建 模则致力于模型的构建和知识的自动发现。由于这三种技术内在的联系性和互 补性。它们结合起来就形成了一种新的决策支持系统( d s s ) 构架,从而构成为 基于数据仓库的数学模型解决方案。 本文正是在这种背景下,对数据仓库的理论和设计进行了研究。主要是以 管理层次的分析为依据,以现实中大规模数据库为基础,借助数据整合手段, 采取多维数据模型,构建出底层为仓库数据库服务器、中间层为0 l a p 服务器、 顶层为客户端的三层数据仓库结构,以满足决策支持系统的构建和数学建模系 统研究和设计的需要。 在数据仓库的系统设计基础上,我们将数学建模系统作为研究的重点。首 先,我们结合实际案例,研究了回归分析和最小二乘法等基于数据的建模方法 的应用,这一方法我们称为定制数学建模的方法。其次,我们在研究数学建模 的方法和软件开发上,提出了回归函数算法集合的设计思想,并对自动优选数 学建模系统进行技术研究与设计。同时运用这一技术,对胜利油田生产和管理 的历史数据实例进行研究与分析,建立了许多油田生产管理的数学模型,用于 企业预测和分析,都取得了很好的效果。 最后,总结了基于数据仓库的数学建模技术的应用并简要讨论了进一步的 工作方向。 关键词:数据仓库,数据挖掘,数学建模,回归分析,最小二乘法,回归函数 算法集合,决策支持系统 a b s t r a c t w i t ht h ef i e r c ec o m p e t i t i o ni nt h em a r k e t i n ge c o n o m ye n v i r o n m e n t , t h e l e 吣a n d 讲驴n i 翻硒d e p e n d sl a r g e l y t h em t ea n a l y s i sa n dp f 妇l x e d i c t i o no ft h em a r k e t h o w e v a , f a i l m eo fd e c i s i o nm a k i n gc d i 】5 e db yt h el a c ko fe f f e c t i v ed a ma n di n f o r m a t i o ne x i s t s 豳ac o m m o np h 舢洲n o w a d i 驴, d e s p i t et h ep o p u l a r i z a t i o no ft h ec o m p u t e re n dt h e r e l a t i o nd a t a b a s es y s t e m , t h ef o e a so ft h eb u s i n e s sp r o c e s s i n go fm a n a g e m e n tl n f o n u n t i e n s y s t e mi ne n t e r p m e si ss t i l lo nl o wl e v e l b u tt h eb a s i so fd e c i s i o ns u p p o r ts y s t e mf o rm i d d l e a n du p p e rl e v e l sc a n n o tm e e tt h er e q u i r e m e n to ft h ec u r r e n ti n f o r m a t i o np r o c e s s i n g t h ef a c t i n d i c a t e st h a tt h ed e v e l o p m e n to fd e c i s i o ns u p p o r ts y s t e mb a s e do nd a t aw a r e h o u s ei so ng r e a t d e m a n d d a mw a r e h o u s e , d a mm i n i n ga n dm a t h e m a t i c a lm o d e l i n go o 眦i n t ob e i n gr e l a t i v e l ya 3 t h r e ed a mi n o c e s s i n gt e c h n o l o g i e s 【h 纽w 丑代由o u i su s e df o rd a ms t o r a g ea n do r g a n i z a t i o n , d a t am i n i n gf o rd a ma n a l y s i sa n dm a t h e m a t i c a lm o d e l i n gf o rm o d e l i n g 。啪h 毗d a n d k n o w l e d g ed i s c o v e r yi nd a m l m s e d u et ot h e 伽6 o f t h ea b o v et h r e et e c h n o l o g i e s ,山斜 伽b ec o m b i n e di n t oan wd e c i s i o ns u p p o r ts y s t e _ m ( d s s ) ,w h i c hi s4m a t h e m a t i c a lm o d e l i n g s o l u t i o nb a s e d0 1 1d a t aw a r e h n u s e t h i sp a p e ri sas t u d yo i lt h et h e o r ya n dt h ed e s i g no f d a t aw a m h o u s e b a s e do h 舭a n a l y a l s o f t b ea d m i n i s t r a t i v el e v e la n dt h el a r g ed a t a b a s ew a r e h o u s ei nd a i l yl i f e , t h i sa r t i c l ec o n s t r u c t sa t h r e el e v e ld a mw a r e h o u s ec o n f i g u r a t i o n - d a t a b a s es o l “ v e ta tt h eb o t t o m , o l a ps o l v e t “ i nt h e m i d d l ea n do u s t o m c rs c r v e l “ o nt h et o p - b yu s i n gd a mc o m b i n a t i o nm e t h o d a n d m u l t i - d i m e n s i o n a ld a t am o d e l t h ed a t aw a r e h o u s em o d e lh e l p st oc o n s t r u c tt h es u p p o r ts y s t c m a n dd e s i g nt h em a t h e m a t i c a lm o d e l i n gs o l u t i o n b a 8 e do nt h ed e s i g no ft h ed a t aw a 耐l o u s y s t e m 。t h ef o c u si s0 1 1t h em a t hm o d e ls y s t e m 1 l it h ef i r s tp l a c e , c o m b i n e dw i t ht h ea c t u a lc a 辩o fe n t e r p r i ,i ti sr e s e a r c h e dt h a tt h em e t h o d a n d a p p l i c a t i o no f m o d e l i n g m e t h o d sb a s e do i ld a t a , s u c ha sr e g r e s s i o na n a l y s i sa n dm e t h o do f l e a s ts q u a r a sa n ds oo n ,w h i c hi sc a l l e dm a t h e m a t i c a lm o d e l i n go fc u s t o m i z a t i o n n e x t ,0 1 1 r e s e m r c hm e t h o d so ft h em a t h e m a t i c a lm o d e l i n ga n ds o t h c a r ed e v e l o p m e n t , t h ed e s i g ni d e ao f t h ea l g o r i t h ma g g r e g a t eo fr e g r e s s i o na n a l y s i sf u n c t i o ni sp u tf o r w a r d , a n dm a t h e m a t i c a l m o d e l i n gs y s t e mo fa u t o m a t i co p t i m i z a t i o na l g o r i d m a i sa l s o a n a l y da n dd e s i g n e d t c c h n i e a l l y b yu s i n gt h i sm e t h o d , t h ea r t i c l ea l s oa n a l y z e st h ed a t ao fa d m i n i s t r a t i o nc o l l e c t e d f i x u nt h e s h e n g l i o i lf i e l da n de s t a b l i s h e sal o to fm a t hm o d e l sf o rp r o d u c t i o na n d a d m i n i s t r a t i o no fo i lf i e l d s t h o s em o d e l sa c h i e v eg r e a te f f e c t so nt h eb u s i n e s sp r e d i c t i o na n d a a a l y m t h el a s tp e r ti sas u m m a r yo f t h ea p p l i c a t i o no f m a t h e m a t i c a lm o d e l i n gt e c h n o l o g yb a s e d o nd a t ew a r e h o u s e , a n dt h ef u t u r ed e v e i o p n n to f t h i st e c h n o l o g y i sa l s od i s c u s s e d k e y w o r d w :d a t aw a r e h o u s e , d a t am i n i n g , r e g r e s s i o na n a l y s i s , m e t h o do f l e a s ts q u a r e 氐 m a t h e m a t i c a lm o d e m q ga l g o r i t h ma g g r e g a t eo fr e g r e s s i o n a n a l y i bf u n c t i o n , d i 。i s u p p o r ts y s t e m 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定,同 意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学 校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数 字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文 全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机 构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以 适当复制论文的部分或全部内容用于学术活动。 学位做作者躲玄钩勿纱 少刁年7 月l 厂目 年月日年月日 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研 究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研 究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的 内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在 文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。 钞 f 歹日 第1 章引言 1 1 概述 第1 章引言 1 1 1 论文选置的背景及意义 随着企业管理和政府行政管理现代化水平的逐步提高,管理软件的开发与 应用水平也在逐步提高,目前企业管理和政府行政管理正朝着科学化、系统化, 现代化的方向发展,而其核心就是要进行科学的决策,而科学的决策就必须依 据科学准确的决策信息和在定性分析基础上的定量分析,显然对于充斥于文山 会海里的报表数据与底层数据库海洋里的大量数据的充分挖掘、分析和利用, 已经成为管理决策的当务之急。因此管理软件的开发与应用就必须适用于这一 形势的变化 数据仓库、数据挖掘技术是上世纪九十年代以来国外在大量基于w e b 数据 库和高级数据库系统的基础上发展起来的一种新的数据库结构和技术。与传统 数据库不同的数据仓库和与联机事务处理不同的联机分析处理、数据挖掘技术, 共同组成了决策支持的d s s 构架解决方案。数据仓库与数据挖掘表明知识就隐 藏在日常积累下来的大量数据之中,仅靠复杂的算法和推理并不能发现知识, 数据才是知识的真正源泉。数据仓库、数据挖掘特别是数学建模为管理软件技 术的开发指出了新的发展道路。 通过本课题的研究要努力实现如下五个转变:一是从数据到信息的转变。 二是从数据库到数据仓库的转变。三是从联机事务处理到联机分析处理的转变。 四是从数据的汇总与简单分析向数学建模转变。五是从事后的管理分析向事前 的管理预测和科学决策转变。 我国管理软件开发正处于由文档性、综合性事务处理进一步向决策型事务 处理转变的过程之中。决策支持系统( d s s ) 的解决方案就是要以管理决策为核 心,以数据仓库、o l a p ( 联机分析处理) 和数据挖掘等国内外最新的理论成果 和技术为依据,对管理数据进行量化的信息整合、展现和数学建模及预测,为 企业和政府决策层提供全方位、多视角的决策信息。 本课题在学习国内外先进的决策支持系统、数据仓库、数据挖掘和数学建 模原理和技术的基础上,主要针对目前企业和政府管理事务处理软件开发与应 用的现状,在运用数据仓库和数据挖掘基本原理的基础上,通过对企业生产与 第1 章引言 管理和政府行政管理的历史数据进行分析的基础上,对数学建模架构进行系统 分析与预测的研究,以进一步提高管理软件开发与应用的水平,拓宽软件开发 与应用的范围,进一步开辟软件开发与应用的前景 1 1 2 国内外对这一课题的研究现状 决策支持系统和数据仓库是数据库研究、开发和应用最活跃的分支之一。 数据库系统特别是关系数据库系统的成功,使我们有了强有力的事务处理工具。 各种各样的数据库系统的开发,使得更多的数据以前所未有的速度收集在计算 机中,以帮助我们分析数据、理解数据,帮助我们基于丰富的数据做出决策。 数据挖掘从大量数据中用非平凡的方法发现有用的知识就成了一 种自然的需要。数据挖掘必须从数据库技术、人工智能、机器学习、神经网络、 统计学、模型识别、知识库系统、知识获取、信息提取、商性能计算和数据可 视化等学科领域汲取营养。 数学建模方法涉及到统计学、数值分析、随机过程等学科,国内外在这一 方面的研究从理论到实践取得了长足的进步。但是在企业管理与政府行政管理 中的运用还没有成为一种普遍的行为。国内外软件开发商也开发了s p s s 、s a s 以及国内少数决策支持系统和数学建模软件,但从多年来的推广效果来看并不 是十分理想,究其原因: 一是这些软件的开发不能针对企业和政府部门研制适合这个企业和部门的 具有个性化的软件或平台,导致软件使用和推广上的障碍。 二是这些软件对使用这些软件的人的要求比较高,要懂数学通编程,而现 实中绝大部分的般管理人员达不到这样一个素质,软件的设计在使用上又相 对比较深奥和繁琐,从而使这些软件束之高阁。 三是从用户来看这些软件价钱很贵,会使用的人又不多、利用率太低,不 少用户感到得不偿失、不合算。 因此,开发种使客户感到“物有所值”的数学建模软件或平台,要对开 发的软件在技术上高标准设计和开发,而在使用上要降低对使用者的素质要求, 使那些不具备建模专业技术的普通管理人员只要能操作计算机就能进行数据仓 库和数据挖掘或数学建模,从而使软件产品或平台应该像个计算器那样既能 十分适用,又十分普及。 1 2 采取的研究方法、技术路线 2 第1 章引言 1 2 1 研究方法 对基于数据仓库的数学模型解决方案的研究与设计是一项理论和实践相结 合的工作。在这个过程中,不仅需要积极的跟踪该领域的国内外的最新技术, 充实理论基础,不断深入对课题的理论研究:还需要以理论为指导,开发出基 于该理论的原型系统。应用最新的软件技术开发面向决策支持系统和基于数据 仓库的数学模型解决方案的架构和平台。 1 2 2 技术路线 面向决策型管理、基于数据仓库的数学模型解决方案的研究与设计的目的 是建立一个基于数据仓库的决策支持系统( d s s ) 架构和平台。其基本的技术路 线是: 数据仓库、数据挖掘和数学建模是作为三种独立的信息和数学处理技术出现 的。数据仓库用于数据的存储和组织,数据挖掘集中于数据的分析,数学建模则 致力于模型的构建和知识的自动发现。由于这三种技术内在的联系性和互补性, 它们结合起来就形成了一种新的决策支持系统( d s s ) 构架,从而构成为基于数 据仓库、面向决策的数学模型解决方案。 从w e b 服务能够提供一种非常理想的、可动态扩展的、灵活的分布式计算 模式的角度,结合w e b 服务技术来进行系统整合。在w e b 服务的基础上分别从 客户端应用层、服务集成层、应用服务层、数据服务层研究基于决策型事务处 理架构的实现,并对于软件构件技术、软件总线的系统设计方法加以研究,以 实现系统中各种功能应用。 设计建立数据仓库的框架。以现实中大规模数据库的原始数据为基础,借 助数据管理技术、数据存储技术和数据仓库接口技术等手段,以数据仓库的概 念模型、逻辑模型和物理模型以及对元数据、数据粒度和分布式数据仓库的研 究为依据,通过对数据仓库基本功能层、数据仓库管理层和数据仓库环境支持 层的系统分析,对数据仓库的结构模式进行系统设计,建立适应于决策型事务 处理特别是适应于数学建模的数据仓库管理系统的解决方案。 联机分析处理。利用o l a p 的多维数据集和数据聚集技术对数据仓库中的数 据进行组织和汇总出数据的立方体,建立多维数据模型,从而构建出底层为仓 库数据库服务器、中间层为o l a p 服务器、顶层为客户( 查询和报告工具、分析 工具、数据挖掘工具) 的三层数据仓库结构,最终形成数据仓库模型或数据集 市模型、虚拟仓库模型,并用联机分析和可视化工具对这些数据迅速进行有效 的评价。 第l 章引言 以数学模型为主的数据挖掘技术。主要研究包括统计方法、聚类分析、决 策树与决策规则以及可视化方法。其中重点运用数据仓库原理研究建立数学模 型的方法及相应的编程逻辑,并辅助以可视化方法全方位、多视角的进行信息 整合、前端展现和管理预测。 1 3 论文的内容和结构 i 3 1 理论框架 我国管理软件的开发与运用正处于文档性、综合性事务处理的阶段。在这 一阶段中,我国绝大部分企业管理和政府行政管理以及相应的软件开发中存在 的重视数据统计、忽视数据分析,重视报表文档等事务性处理及软件系统的开 发、忽视数据分析与数学模型软件的开发与运用等问题。为适应管理科学化、 系统化和现代化的需要,与传统的数据库技术不同的数据仓库、与联机事务处 理不同的联机分析处理和数据挖掘、数学建模技术,共同组成了决策型事务处 理的d s s 构架解决方案。这一基础构架的主要构成: 数据仓库( d w ) + 联机分析处理( o l a p ) + 数据挖掘( 蹦) + 数学建模( - 帅 一基于数据库的决策支持系统( d s s ) 的可行性方案 数据仓库、联机分析处理、数据挖掘和数学建模是作为四种独立的信息处 理技术出现的。数据仓库用于数据的存储和组织,o l a p 集中于数据的分析,数 据挖掘和数学建模则致力于知识的自动发现。它们可以分别应用到信息系统的 设计和实现中,以提高相应部分的处理能力。但是由于这四种技术内在的联系 性和互补性,它们结合起来就形成了一种新的d s s 构架。这一构架以数据库中 的大量数据为基础,其特点主要体现在: i 、在底层数据库中保存了大量的事务级细节数据。这些数据是整个d s s 系 统的来源。 2 、数据仓库对底层数据库中的事务级数据进行集成、转换、综合,重组成 面向全局的数据视图,为d s s 提供数据存储和组织的基础。 3 、o l a p 从数据仓库中的集成数据出发,构建面向分析的多维数据模型,再 使用多维分析方法从多个不同的视角对多线数据进行分析、比较,分析活动从 以前的方法驱动转向了数据驱动,分析方法和数据结构实现了分离。 4 、数据挖掘和数学建模以数据仓库和多维数据库中的大量数据为基础,自 4 第l 章引言 动地发现数据中的潜在模式,并以这些模式为基础自动地做出预测。 1 3 2 基本内容 本文分为7 个部分对基于数据仓库和面向决策的数学模型解决方案进行论 述。 第1 章,引言。说明了论文选题的背景以及国内外对数据仓库、数据挖掘 和数据建模研究的现状,并对基于数据仓库的数学建模技术做简要的分析。 第2 章,决策支持系统的框架。分析了传统决策支持系统存在的问题,并 在引入数据仓库和数据挖掘的基础上,介绍了决策支持系统的体系结构形式和 框架。同时导出了面向决策和基于数据仓库的数学建模解决方案的基本架构。 第3 章,从数据库到数据仓库。从数据仓库产生的原因出发,分析了数据 仓库是适应管理的需要而产生的大的背景,并描述了数据仓库的基本作用和目 标 第4 章,数据仓库的总体结构。本章迸一步描述了数据仓库的总体结构、 平台和开发方法、步骤等核心理论。 第5 章,基于数据的数学建模方法。在第3 章和第4 章论述数据仓库和数 据挖掘理论的基础上,本章进一步阐述了数学建模的基本方法和理论,并通过 实例重点说明了基于数据的数学建模方法及具体应用。 第6 章,自动优选数学建模系统的设计。本章进一步提出了自动优选数学 建模系统的设计思想,并具体研究和探索了自动优选数学建模系统设计的具体 方法,并用于解决企业实际问题。 最后,总结本文中数据仓库与数学建模、决策支持系统的研究成果,并对 进一步工作的方向进行了简要的讨论。 5 第2 章决簟支持系统的框架 第2 章决策支持系统的框架 本章回顾并总结了决策支持系统产生和发展、及其理论基础,分析了传统 决策支持系统存在的问题,并在引入数据仓库和数据挖掘的基础上,介绍了基 于数据仓库的决策支持系统的体系结构形式和框架。并由此导出了基于数据仓 库和面向决策支持系统的数学模型解决方案的初步框架。 2 1 传统决策支持系统及缺陷 2 1 1 传统决策支持系统 决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,简称d s s ) 是由数据处理系统、 管理信息系统逐步发展而来的,是允许决策者直接干预并能接受决策者的直观 判断和经验的动态交互式计算机系统。对于决策支持系统的结构,最初由 r h s p r a g u e 提出了基于人机对话系统、数据库与模型库的“两库”结构。之 后的“三库”结构则实现了模型与方法的分离存储,即添加了方法库。后来又 把人工智能技术、专家系统、知识工程的思想方法引入决策支持系统后,即在 原来的结构基础上,增加了知识库,并引入了推理机制,就形成了决策支持系 统的“四库”结构框架,如图2 1 所示。 图2 1 传统的决策支持系统体系结构 6 第2 章决策支持系统的框架 2 i 2 传统的决策支持系统存在不足 传统的决策支持系统依旧建立在事务处理环境上,而事务处理环境主要是 针对数据的日常操作,以事务快速响应及频繁的数据修改为特征,因此传统决 策支持系统存在诸多不足,主要表现在: l 、传统的决策支持系统缺乏内在的统一性 传统的d s s 是以模型库、数据库、方法库所组成的系统结构。可是在d s s 的开发过程中,模型库、数据库和方法库往往被独立地设计与实现,从而使传 统的d s s 在系统结构上很难达到内在的统一性和完整性,因而应用效果并不理 想 2 、传统的决策支持系统缺乏强有力的工具 企业决策是一个提出问题、分析问题、解决问题的循环过程。分析的过程 实质上是一种不断抽取的过程,即要对大量分散的数据进行快速综合分析,然 后从中捕获与决策相关的信息而传统的d s s 往往侧重于抽象的理论,在理论 上和方法上过于复杂,缺乏有效的分析工具,因而也就得不到有效的分析结果一 3 、传统的决策支持系统没有充足数据源的支持 传统的d s s 所进行的数据处理是直接利用关系数据库的数据,只能对原始 数据进行一般的加工和汇总,导致决策所需信息不足,难以满足d s s 的需要 4 、传统决策支持系统开发困难 传统d s s 的各部件中只有数据部件有成熟的商品软件可以直接使用,其他 部件及部件的接口和集成问题需要自行设计和开发。计算机语言对传统d s s 的 接口技术和集成技术的支持能力有限。 2 2 基于数据仓库的决策支持系统 上个世纪九十年代以来兴起的d w 和o l a p 技术为d s s 的发展开辟了新的途 径,它给d s s 的发展注入了新的活力,利用明的优势弥补了以往d s s 的不足, 从而使现行系统中的数据库资源得到充分利用,非技术性管理人员和一般用户 能更夷便地对来自多数据库的信息进行自由访问和分析,使企业分析工作和决 策过程得到很好的支持,从而拓宽了d s s 的应用领域和应用范围。基于d w 的 d s s 体系结构与传统的d s s 体系结构有所不同,它改变了传绕d s s 将数据库、 模型库、方法库分离设计的做法,将数据库与模型库、方法库有机结合在一个 7 笨2 章砖燕支持系统的框架 多维数据库中,并以对象的方式存储,通过数据仓库管理系统进行统管理, 较好地协调了数据、模型、方法三者之间的关系,从而使整个系统形成一个有 机整体,提高了系统的集成性。基于数据仓库的0 s $ 结构形式如图2 2 所示。 豳2 z 矾r 千碰 p 结构形式 数据仓库中存储着大量数据,能提供各纵辅助决策的随机查询、综合数据或 趋势分折信息。o l a p 贝j j 侧重于数据仓库中的多维数据分析,并将其转换成辅助决 策信息,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。以 数据仓库和o l a p 相结合建立的辅助决荒系统是决策支持系统的新形式。 2 2 ,2 基于数据仓库的决篆支持系统 图2 3 基于数据仓库的决策支持系统体系结构 传统决策支持系统存在的诸多不足。以及新豹决策支持技术不颤发展,促使 人们重新考虑d s s 的体系结构,黼0 l a p 、数据挖掘( d a t am i n i n g ,简称 第2 章决策支持系统的框架 d m ) 的结合为解决传统决策支持系统中存在的问题提供了可能,使o s s 的发展跃 上了一个颞的台阶。于是出现了以数据仓库为核心,o l a p 与叫工具为手段的i ) s s 解决方案,即基于数据仓库的决策支持系统 数据仓库( 肼) + 联机分析处理( o l a p ) + 数据挖掘( 喇) + 数学建模( 删) 一基于数据仓库的决策支持系统( 1 ) s s ) 的可行性方案 由图2 3 可以看出,d s s 这一基础构架的主要构成: 数据源( 操作型数据库) ,是数据仓库系统的基础,是整个系统的数据源泉。 通常包括企业内部信息和外部信息。 数据的存储与管理,是整个数据仓库系统的核心。数据仓库需要针对现有各 业务系统的数据进行抽取、清理,并有效集成,并按照主题进行组织。数据仓库 按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库( 数据集市) 。 o l a p 服务器,对分析需要的数据进行有效集成,按多维模型予以组织,以便 进行多角度、多层次的分析,以发现趋势、规律等。 前端工具,主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工 具、数学建模工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据 分析工具主要针对o l a p 服务器,而报表工具、数据挖掘工具、数学建模则主要针 对数据仓库。 图2 4 基于数据仓库的数学建模解决方案 由于本论文是以基于数据仓库的数学模型解决方案作为研究方向,而且数学 9 第2 章决第支持系统的框絮 模型问题一直是决策支持系统中的一个核心和难点,因此,与传统的数据库技术 不同的数据仓库、数据挖掘、数学建模技术,共同组成了基于数据仓库和面向决 策决策支持系统的数学模型解决方案。 数据仓库、数据挖掘和数学建模是作为三种独立的信息处理技术出现的。数 据仓库用于数据的存储、组织和数据挖掘;数学建模则致力于模型的构建和知识 的自动发现。它们可以分别应用到信息系统的设计和实现中,以提高格应部分的 处理能力但是由于数据仓库、数据挖掘和数学建模内在的联系性和互补性,它 们结合起来就形成了一种数学建模解决方案。 数据仓库( d w ) + 数据挖掘( 聊) + 数学建模咖d 一基于数据仓库和面向d s s 的数学模型的解决方案 图2 ,5 基于数据仓库和面向决策支持系统的数学建模解决方案 在这一解决方案中,面向决策支持系统是数学建模方案的行为目标,探索和 建立数学建模自动优选系统是这一方案中的核心和主干,而基于包括数据整合、 o l a p 和数据挖掘在内的数据仓库技术构成为整个数学建模解决方案的基础。显然 本文沿着在面向决策支持系统框架下的。数据库j 数据仓库技术( d w 、o l a p 和 d m ) 一数学建模一决策”的研究路线,从而对基于数据仓库的数学模型解决方 寨这一课题进行理论、设计和应用三个层面,层层深入和步步递进地进行研究和 分析。 l o 第3 章从数据库到数据仓库 第3 章从数据库到数据仓库 数据仓库是以关系数据库、并行处理与分布式处理技术,以及联机分析处 理等技术的发展为基础,为解决当前企业和组织中虽然拥有大量数据但信息贫 乏的现状而提出的,是一种对不同系统数据实现集成和共享的综合性解决方案。 从而对来自操作型处理数据库中的数据进行再加工,形成一个综合的、面向分 析的环境,以更好地支持决筇分析,这就形成了数据仓库( d a t aw a r e h o u s i n g , 简称d w ) 技术。作为决策支持系统( o e c i s i o ns u p p o r ts y s t e m ,简称d s s ) 的 数据仓库系统包括:数据仓库技术,联机分析处理技术( 0 l p ) 、数据挖掘技术 ( d a t am i n i n g ,简称d m ) 。 数据仓库弥补了原有数据库的不足,梅原来以单一数据库为中心的数据环 境发展为能够适应不同环境、不同系统的一种新的体系环境,从而最终形成综 合的中央数据仓库 3 i 数据仓库的定义 数据仓库概念刨始入耳,h i n m o n 在数据仓库一书中对数据仓库给出的定 义是:数据仓库就是面向主题的、集成的、稳定的( 不可更新) 、随时间变化( 不 同时间) 的数据集合。并用以支持经营管理中的决策制定过程。 数据仓库是以计算机应用为基础的信息系统,用来支持在各领域的决策分 析。数据仓库作为一个集成了许多致据源的中央数据库系统,从许多不同的分 散的、互不联系的联机事务处理源收集和提取数据,并通过一系列汇总计算将 数据组织为易于分析的形式,从而为企业提供了一个信息集成平台,为管理人 员和决策者迅速地提取信息提供支持。因此,数据仓库是企业信息资产的核心, 是管理信息系统的“上层建筑”。 数据仓库和普遍的事务处理数据库不同,它是面向主题的,支持商务决策而 不是事务处理。它拥有许多优化设计的层次、总体方阵系列和结构化的查询功 能,并以总计综合系统为构架。基于对数据快速和有效的分析,数据仓库可为 决策系统提供强有力的支持。在开发人员和用户的协同配合和精心设计下,它 能够实现对数据的一系列转化,包括从数据到信息,从信息到知识,最终到商 业智能。 数据仓库最根本的特点之一是存放数据,而且这些数据包含历史数据,并 且来源于各种数据库。数据仓库的建立并不是要取代操作性事务处理数据库( 事 第3 章从数据库科数据仓库 务处理数据库在企业的信息环境中承担的是日常业务操作的任务) ,相反,它依 赖于操作性事务处理数据库,并以此为基础,建立一个综合的和完善的信息分 析应用系统,用于支持各级高管理层决策分析。数据仓库是数据库技术的一种 新模式,一般也是用关系数据库系统来管理其中的数据。 从数据仓库到操作型数据库数据仓库的根与源。数据仓库的数据源来 自操作型数据库即联机事务处理系统。在数据提取转换加载处理系 统的控制下,数据要经历“艰难”的历程,才能完成一系列的转换,变成对终 端用户有用的信息,形成一个新的集成系统联机分析系统,并用于决策分 析。 由于数据仓库依赖于来自操作型数据库的数据,因此操作型数据库是数据 仓库的根与源,就像一棵大树依赖于它的根系存活一样。没有数据源,数据仓 库就无从谈起:切断数据源,数据仓库就会“死掉”。 3 2 数据仓库产生的原因 事务处理环境不适宜决策支持系统应用的主要原因可以从以下5 个方面来 分析。 3 2 1 数据四笼效应 许多企业或组织机构在管理运作中,已经积累了大量的数据,包括业务运 作、客户,产品和人员等。但是这些数据却被埋藏在计算机系统中难以利用, 尤其是那些对于管理决策者有着重要意义的数据分析,没有被加以分析,就不能 发挥其应有的作用和潜力。 如果企业或组织没有能力及时获得有价值的信息,就很难在今天这样迅速 变化的环境中保持其竞争力。也就是说,存在着所谓的数据丰富、而信息贫乏 的数据囚笼现象。 由于已经对计算机设备、数据库系统等进行了可观的投资,却对已产生的 大量有价值的数据没有充分加以利用,这就是一个巨大的浪费。 3 2 2 信息孤岛现象 事实上,旧系统往往是在过去不同的时期被不同的开发者开发的,这些系 统通常是根据某些特定的要求制作的,并且分布于不同的系统平台上,同时信 息又可能被各个有不同体制的部门分别维护管理,如某企业制造、销售、供销 第3 章从数据库到数据仓库 和财务的数据,常常分布在传统的操作型数据库系统中,要对整个企业或行业 进行综合分析基本上是无能为力的 3 2 3 相互矛盾的信息漉 维持一个集成的并能够协调一致的信息流、资金流和物流是企业管理的一 个重要课题。从理想的角度来说,信息流应当如实地反映资金流和物流的变化, 但是实际上往往事与愿违。在传统的操作型数据库中,由于分散性和不兼容性, 再加上不同部门各自有不同的体制,使得这种集成很难实现,即理论和实际之间 存在着很大的差距。 3 2 4 数据集成的需要 数据仓库技术的出现,使得我们能够利用那些早已存放在操作型数据库里 的数据。数据仓库技术旨在解决当前信息系统的两大问题:集成与分析。那些 在事务处理系统中使用过的数据,经过一系列转换和升华,能够在数据仓库中 获得新的用途。( 1 ) 数据仓库技术可以利用数据提取转换加载技术从 许多不同的数据源中获取并收集数据,同时将其组成一个集成的、具有一致性 的信息存储系统:( 2 ) 它采用一系列技术将数据转化为有价值的信息、知识、 商务智能;( 3 ) 它采用先进的联杌分析技术产生并向许多终端用户快速递交分 析结果:( 4 ) 它为经营与管理决策提供了单一的、集成的视图;( 5 ) 与互联网 技术相结合,数据仓库为人们提供了更为广阔的营运模式;( 6 ) 对于历史信息 与当前信息,数据仓库能够使这些相当有价值的知识信息保留于系统的中央存 储系统中,为再次开发系统从而获取新的知识信息储备提供支持。因此,真正 挖掘数据的价值,对于管理来说是非常重要的。 在商业运营中进行监测管理,对今天的企业或组织的成功甚至生存都是至 关重要的。作为企业的经营者和管理者,需要直接得到有关企业的准确数据分 析、趋势分析,这些信息包含提高市场占有率、客户管理和营运效率方面的关 键和诀窍。通过数据仓库能够将数据演变为有深远意义的决策支持信息。商业 智能依托于数据仓库平台,为用户提供了一个企业运行框架,能够将主要的企 业运行指标具体化,通过对这些指标的监测,能对其当前现状做出评估,并帮 助企业做出相应的决策。 企业管理中的数据流、资金流、物流必须通过集成才能实现协调一致。认 识到运用各种技术来研究数据给企业带来的好处和竞争优势,能够识别客户的 发展趋势、发展方式,并发现竞争者还未认识到的隐含的关系和商机,管理者 第3 章从数据库判缸据仓库 就可以运用这些信息和商机来引导企业走向成功,从而在竞争中占尽先机。 3 2 5 数据综合的需要 市场经济竞争关系的加剧和信息系统需求的发展促使人们要搞信息系统集 成和分析,并实现对管理决策的支持。 综上所述,数据仓库产生的原因为5 个基本因素:事务处理和分析处理的 性能:数据集成的需要;数据动态集成的需要;历史数据的利用;数据综合的 需要, 3 3 管理信息系统的。上层建筑” 数据仓库作为数据存储的种组合形式,由数据源获褥原始数据。根据主 题要求重新组合以形成不同层次的综合数据层,再根据管理系统的内部结构要 求进行操作、管理等以达到支持决策,因此,我们称之为管理信息系统的“上 层建筑”。本节将对数据仓库各种层面的数据关系情况进行说明 3 3 1 管理层次的概念 管理层次是客观存在的,它体现了每一个企业和机构的特性,决定着企业 和机构的命运,同时也需要相应的信息系统的支持。 数据仓库建立在操作型事务处理系统之上,反过来讲,操作型事务处理系 统是数据仓库的基础。也就是说这些基础决定其上层建筑数据仓库;而上 层建筑又影响其基础操作型事务处理。 在讨论数据仓库之前,首先看一看典型的企业管理结构:( 1 ) 顶层为企业 级决策层;( 2 ) 上层为商务智能、战略、策略,为部门级;( 3 ) 中层为日常管 理、决定,为经理级;( 4 ) 低层为明细的管理,通常在上一级的指导下运作; ( 5 ) 基层为日常事务处理、交易。这里的中层和上层指的是管理层次的高低。 3 3 2 中层和上层管理存在的系统真空 可以很明显地看出,事务处理层是所有管理层的基础,并由各种不同的操 作型处理系统所支撑。 通过进一步观察,可以看出在中层和上层管理部门中间存在着一个系统真 空。显然这里需要一个系统能够提取只常处理的数据并将其转换为用于决策分 析的信息。这里更急需一些专门技术和系统以用于决策分析。显然,采用什么 1 4 第3 章从数据库到数据仓库 系统和技术能够支撑上述管理结构并提供有效的解决方案,是我们需要讨论的 问题。 3 3 3 数据仓库系统应用的基本作用 数据仓库填补了事务处理系统与决策支持系统分析之闻的真空,从而为中、 上层管理提供支持。操作型数据库系统是它的上层建筑数据仓库的基础, 来自操作型数据系统的数据经过数据仓库的转换,变成有用的信息并直接被它 的终端用户管理者获取。 这种多层次的信息系统与我们所讨论的典型的管理层次是相匹配的,而且 同样适用于所谓的扁平式或簇形管理结构。 l 、支持管理与决策的系统层次 结构层次从底至顶描述如下:( 1 ) 操作型数据库系统是它的上层建筑 数据仓库的基础,来自操作型数据库系统的数据经过数据仓库的转换,形成有 用的信息并直接被它的终端用户管理者获取;( 2 ) 数据仓库的基础结构一事 实表和维表;( 3 ) 总计管理系统一将数据按层次结构进行总计以形成联机分 析的基础;( 4 ) 联机分析系统o l a p 一当对大量数据进行综合之后,可提供重 要的视图,可据此从各种角度分析商业运作的状况和趋势,联机分析处理与数 据仓库结合,能够对海量的数据进行综合处理,并为快速方便的决策信息系统 ( e i s ) 提供基础;( 5 ) 商务智能町采用各种统计分析工具和数据发掘工具 帮助决策。 2 、支撑企业决策和资源管理的平台 数据仓库在这个大的平台为开发和装载商务智能软件( 如e r p ,企业资源 规划) 提供了基础,实际上有很多数据仓库应用本身就包括了上述软件和功能。 3 、系统与应用 数据仓库能够统一信息标准,实现全面管理。企业应用集成是一个能将不 同的应用系统集成到一起而形成企业信息系统的脊梁。采用集成方法,通过针 对各种不同系统的数据获取和数据模型技术,将数据进行收集、整合,并对企 业的关键指标进行计算分析和图示化。 4 、数据仓库的作用与任务 数据仓库填补了商务智能、管理与事务处理系统间的真空,打破了管理层 存在的障碍。 通过提供层次型的信息共享,并使信息流更加通畅,数据仓库帮助我们克 服了管理层次中存在的通信障碍,突破了不同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论