(计算机软件与理论专业论文)商业领域数据仓库系统的设计与实施.pdf_第1页
(计算机软件与理论专业论文)商业领域数据仓库系统的设计与实施.pdf_第2页
(计算机软件与理论专业论文)商业领域数据仓库系统的设计与实施.pdf_第3页
(计算机软件与理论专业论文)商业领域数据仓库系统的设计与实施.pdf_第4页
(计算机软件与理论专业论文)商业领域数据仓库系统的设计与实施.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机软件与理论专业论文)商业领域数据仓库系统的设计与实施.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

捧豢 摘要 企业信息系统在运行的过程中会产生大量的数据和信息,如何分析和处理 这些数据以获褥对企监鸯惩黪决策萋怠熬寒越残为系统开发天受关心翡| 、薅蘧。 数据仓库所要研究和解决的问题就是如何从数据脬中获取信息。数据仓库系统 不同子传统豹数据库系统,它稍在往能特点、设计方法、事务处理方法及数据 存储方式簿方面有着根本性的区别。 在对朝批实际情况和企啦决策支持的需求进行分析的基础上,本文提出了 一个小型商业数掇仓库系统的设计方案,描述了数据仓痒数攒模型的建立过 程。在业务系统存储的企业数据中,有很多的数据有着内在的层次逻辑荧系, 我嬲采震企业信感分类来黠这些金蝗数攒避行分类管理,露酵帮c 蕊x 。s 公司 的管理企业数据方式做了对比。本文还论述了朝批数据仓库星型模型和物理模 墅瓣实臻。 数据的抽取是数据仓库的入口。由于数据仓库是一个独立的数据环境,它 需要通过獭取道稷将数据秩联税攀务处理系统o l t p 、外部数据源( 主要是数据交 换文档) 、脱机的数据存储分质中母入到数据仓库。文章中提蝰了锻批的数据提 取的方案,同时述论述了谯数据提取过程中的数攒一致性问题、数据转换和数 撂提取的遮加和维织静方式。 提取的r o l a p 关系型联机分析处理的数据存储在0 r a c l e8 i 的数据库中, 惫据多维立方薅熬维表窝事实表。嚣要鬏据数摇念疼应嗣懿特瞧,对数据仓 库进行数据库系统调优和数据库表的优化工作。同时因为数据仓席中存储的企 遂数据对予企盈发震至关繁要,本文最后编述对予赣魏数据仓库系统所采取的 安全措施。 c 关键逶】鼗撵仓痒;数据提取;屋懋模戏;瞧能谯化 a b s tr _ a c t t h e m a n a g e m e n t i n f o m l a t i o ns y s t e m sh a v eg e n e r a t e dl a 唱eq u a n t i t ) ro fd a t aa n d i n 南髓a t i o n 壬王o w 如绷采y s e sa n dd i s p o s e 氆e 辩d a t ab e c o m e s 獭o r ea n dm o f e i m p o r t a n t + t h et e c h n o l o g y o fd a t a ,弧h o u s ei s j u s t f o r 也e r c q u e s t s d a t a r a r e h o u s ei sd i 蹙t 烈它m 蠹o mt 1 1 et r a d i t i o n 越d a t a b a s es y s t e m ;斑e f e8 r e 最妞d 籼e n t a l d 溷b r e n c e sb e t v ,移e nt h e mi np e r f o 黼a n c 棼p r o p e r 魄d e s i g nm e 也o d ,t r a n s a c t i o n m a n a g e m e n t a n dd a t a s t o r a g e m o d e b 撇d o n 龇嘲妇螂e n t o f 赫d s s s y s t e m 硝氆ec 酗o p ic o 檄p 鞠y ,& p 举r b r i n g sf o 俐a r dt l l ed e s i g no f t l l ed a t am h o u s e 洲加t e c n 黼a r e rt l l a t ,也ep 印e r 琏e s e 蠢& s 氆ec 。n 蟪瞰c 鑫o no f 氆e 玲a 主a 鬻戡h o u s el o 垂e 蠢m o 娃e 1 b e c 雒s e 氇黼a r e i n t e m a lh j e r a r c l l i cl o 垂c a lr e l a t i o n si nt h ed a t aw a r c h o u s e ,w ei m r o d u c e dac o n c e p t o f 强e & l t e r p r 主s ed a 掘e l a s s t om a n a g e 也e s e l 旋o n s a i s o 、张m a k eac o m p 撕s o n w 油也e e n t e r p r i s ed a t a c l a s s 强dt h e1 1 1 f o 】撇a l i o nc a 诅l o go f l ec o g n o s p r o d u c t s d a t ae x 缸d o ni s 也ee n 台口l n c eo f 嘲ed a t aw a r e h o u s e b e c a u s em ed a 纽 w 越e h o t 王s 。i sa nl n d e p e n d e 嫩龇e n v i r o 黼e n t ,i tn e e d st h ep f o c 髓so f 也e 幽主a e x 仃a c t i o nt og e tt l l ed a t a 舶mm eo l t p s y s t e m ,e x t e r i l a jd 8 _ t as o u r c e ,a 1 1 dm eo m i n e s 埝端e 麟e 莲峨,融躐s 鲻甄w e 融g 触涮氐d e s 驶o f 氇ee h 的张鑫如 e x 柏c t i o n s c h e m e , a i l d献s od i s c u s st 1 1 e p r o b l e m s o fd a t a c o n s i s t e n c y , d a t a c o 毪v e r s i o na n d 氇e “赡t h o 莲o f i l a 斑。嘶z 毫蜒o n t h er o l a pd a t ao ft h ed a 诅w h r c h o l l s ea r es t o r e di nt l l eo r a c l e8 id a t a b a s e i n c l l l d e 也ec i l b e 蕊m e i l s i o 啦协b l e sa n d 也ef h c t 扭b l 黼w en e e dt od ot h ew o r ko f d a 毫a b a s ec ) p 岫i z a 虹曲k 晖e do n 也e 朋峰瞄f 黜e n to f1 ) a 主8w 鞋勰h o t 塔e ,a tt h es a m 。 t i m e ,b e c a l i s et l l ee n t e r p r i s ed a t ai sv i t a lt om ed e v e l 叩m e n to f 协ec o m p a n mt l l e i i i * 北京工业大学工学硬士学位论文 p a p e r d e s c f 呈b e s 壕es e c 珏r i 每黼e a s u f e s ,w 巍i e hw 嚣幻o kt op 羚捃睫糖eb 如磺弛h o 挂s e k e y w o r d s :d a t a 强麓r e h o 醢s e ;d a :ae x 舡a c t i o n ;s 纽rs c h e m a ;o 洳i z a 畦 第l 章绪论 第1 章绪论 1 1 数据仓库的产生 近几十年来,大量新技术、新思路的涌现出来并被用于关系型数据库系统 的开发和实现,关系数据库最终成为联机事务处理系统的主宰。整个8 0 年代 直到9 0 年代初,联机事务处理一直是数据库应用的重要方面。然而,应甩在不 断地进步。当联机事务处理系统应用到一定阶段后,用户便发现单靠拥有联机 事务处理已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及 整个市场相关行业的情况进行分析,而做出有利的决策。这种决策需要对大量 的业务数据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争 环境下,这种基于业务数据的决策分析,我们把它称为联机分析处理( o n l i n e a n a l y t i c a lp r o c e s s i n g ,o l a p ) ,比以往任何时候都显得更为重要。如果说传 统联机事务处理强调的是更新数据库一向数据库中添加信息,那么联机分析处 理就是从数据库中获取信息、利用信息“1 。 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然 的想法。但在实际的操作中,人们却发现要获得有用的信息并非如想象的那么 容易,这主要表现在以下几点: 所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,而 联机分析处理强调的是数据查询的方便与快捷。联机分析和事务处理对系 统的要求不同,同一个数据库在理论上都难以做到两全。 业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还有大 量的历史数据处于脱机状态,形同虚设。 业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适 北京工业大学工学硕士学位论文 合非计算机专业人员进行业务上的分析和查询”1 。 因此有人感叹:2 0 年前查询不到数据是因为数据太少了,而今天查询不到 数据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立 一个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数据源来、 从脱机的历史业务数据中来。这个数据中心是个联机的系统,它是专门为分 析统计和决策支持应用服务的,通过它可以满足决策支持和联机分析应用所要 求的一切。这个数据中心就叫做数据仓库。这个概念在9 0 年代初被提出来。如 果需要给数据仓库一个定义的话,那么数据仓库就是一个作为决策支持系统和 联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是 从数据库中获取信息。 数据仓库的概念一经出现,就首先被用于金融、电信、保险、商业等主要 传统数据处理密集型行业。那么,什么样的行业最需要和可能建立数据仓库呢? 有两个基本条件:第一,该行业有较为成熟的联机事务处理系统,它为数据仓 库提供客观条件;第二,该行业面临市场竞争的压力,它为数据仓库的建立提 供外在的动力。 1 2 从数据库到数据仓库 数据库系统作为数据管理手段,主要用于事务处理。在这些数据库中已经 保存了大量的日常业务数据。传统的决策支持系统( d e c i s i o ns u p p o r ts y s t e m , d s s ) 一般是直接建立在这种事务处理环境上的。数据库技术一直力图使自己能 胜任从事务处理、批处理到分析处理的各种类型的信息处理任务。尽管数据库 在事务处理方面的应用获得了巨大的成功,但它对分析处理的支持一直不能令 人满意,尤其是当以业务处理为主的联机事务处理( 0 n l i n et r a n s a c t i o n p r o c e s s i n g ,o l t p ) 应用与以分析处理为主的d s s 应用共存于同一个数据库系 统中时,这两种类型的处理发生了明显的冲突“3 。人们逐渐认识到,事务处理 第1 章绪论 和分析处理具有极不相同的性质,直接使用事务处理环境来支持d s s 是行不通 的。 概况来说,事务处理环境不适应d s s 应用的原因主要有以下五条: 1 事务处理和分析处理的性能特点不同。 事务处理特点是数据的存取操作频率高而每次操作处理的时间短,系统允 许多个用户按分时方式使用系统资源,同时保持较短的响应时间;分析处理, 经常要访问大量的历史数据、消耗大量的系统资源,因此通常是单用户且对响 应时间要求不高。 2 数据集成问题。 事务处理环境中的数据通常是独立的、分散的,主要原因有事物处理应用 分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据;而分析处 理不仅需要整个企业全面而正确的集成数据,还需要企业外部、竞争对手等处 的相关集成数据。 3 数据动态集成问题。 集成的数据必须以一定的周期( 例如2 4 小时) 进行刷新,称为动态集成。 事务处理系统不具备动态集成的能力。 4 历史数据问题。 事务处理一般只需要当前数据,数据库中一般也只存储短期数据;分析处 理需要大量的历史数据作为依托,没有对历史数据的详细分析,是难以把握企 业的发展趋势的。 5 数据的综合问题。 事务处理环境中存储的大多是细节数据;分析处理更关心综合数据,在分 析前,往往需要对细节数据进行不同程度的综合“1 。 因此,要提高分析和决策的效率和有效性,分析型处理及其数据必须与操 作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按 北京工业大学工学硕士学位论文 照d s s 处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为 了,构建这种新的分析处理环境而出现的一种数据存储和组织技术。 著名的数据仓库专家w h i n m o n 在其著作b u i l d i n g t h ed a t a w a r e h o u s e 书中对数据仓库的描述如下:数据仓库( d a t aw a r e h o u s e ) 是一个面向主题 的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n v 0 1 a t i l e ) 、 反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策。对于数据仓 库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向 分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多 个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而 耳存放在数据仓库中的数据一般不再修改”1 。 1 3 数据仓库技术的研究发展方向 9 0 年代以来,计算机技术,尤其是数据库技术的发展为d s s 提供了技术支 持:激烈的市场竞争促进了高层次决策人员对d s s 的实际需求。两方面的共同作 用,促成了以数据仓库( d a t aw a r e h o u s e ,d ) 为核心、以o l a p 和d w 工具为 手段建设d s s 的可行方案。3 。数据库技术的发展d w 需要以下数据库技术的支持。 ( 1 ) 高性能数据库服务器肼的应用不同于传统数据库的o l t p 应用。传统 数据库的应用是操作型的,而d w 的应用是分析型的,它需要高性能的数据库管 理系统( d a t ab a s em a n a g e m e n ts y s t e m ,d b m s ) 核心的支持,以较快地获得 分析结果,这通常需要数秒至数分钟。虽然比o l t p 的响应时间长一些,但由于 分析型应用涉及的数据量大,查询要求复杂,因此,对d b 淞核心的性能要求更 高,同d b m s 必须具有良好的查询优化机制。 ( 2 ) 并行数据库技术d w 中的数据量大,而且随着时间的延长,新的数据还 会不断进入。d w 中的数据库通常是g b 甚至t b 级的,可谓是超大规模数据库 ( v l d b ) 。而并行数据库技术是存储和管理v l d b ,并提供对v l d b 复杂查询处理 第l 苹绪论 的有效技术。 ( 3 ) 数据库互操作技术d w 中的数据大多来自企业或行业中业已运行的 o l t p 数据库或外部的数据源。这些数据库常常是异构的,甚至是文件系统中的 数据。d w 必须从这些异构数据源中定期抽取、转换和集成所需要的数据,并把 它们存入d w 中。因此,异构数据源之间的互访和互操作技术是必需的。 ( 4 ) 基于w e b 方式的数据仓库的引入,数据仓库是存储供查询和决策分析 用的集成化信息仓库,它的数据来源于数据库或其他信息源( 如日志文件) 。基 于w e b 的数据仓库主要是指它的数据来源于w 聊站点。目前,通过w e b 方式可 以充分地共享应用和信息,利用w e b 技术进行原有业务增值已成为信息技术的 趋势。因此在进行数据仓库系统设计时,人们一直在追求最大限度地取得决策 所需的各种信息,共享各种应用,因此组建基于w e b 方式的数据仓库的方案得 以提出。 现在许多大公司都有自己的数据仓库产品,这些公司可以分成两类: ( 1 ) 大的数据库产品的厂商,如i 踟的d b 2 、o r a c l e 等都有相应的数据仓 库产品。i 脒公司提供了一套基于可视数据仓库的商业智能( b u s i n e s s i n t e l l i g e n c e ,b i ) 解决方案,包括:v i s u a lw a r e h o u s e ( v w ) 、e s s b a s e d b 2 o l a ps e r v e r5 0 、i b md b 2u d b ,以及来自第三方的前端数据展现工具( 如b 0 ) 和数据挖掘工具( 如s a s ) 。0 r a c l e 数据仓库解决方案主要包括o r a c l ee x p r e s s 和o r a c l ed i s c o v e r e r 两个部分。0 r a c l ee x p r e s s 由四个工具组成:o r a c l e e x p r e s ss e r v e r 是一个l a p ( i i t d i 珥e n s i o no n l i n ea n a l y s i sp r o c e s s i n g , m o l a p ) 服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同 时也能够访问多种关系数据库:o r a c l ee x p r e s sw e ba g e n t 通过c g i 或w e b 插 件支持基于w e b 的动态多维数据展现;0 r a c l ee x ”e s so b j e c t s 前端数据分析 工具( 目前仅支持w i n d o w s 平台) 提供了图形化建模和假设分析功能,支持可 视化开发和事件驱动编程技术,提供了兼容v i s u a lb a s i c 语法的语言,支持 北京工业大学工学硕士学位论文 o c x 和o l e ;o r a c l ee x p r e s sa n a l y z e r 是通用的、面向最终用户的报告和分析 工具( 目前仅支持w i n d o w s 平台) 。o r a c l ed i s c o v e r e r 即席查询工具是专门为 最终用户设计的,分为最终用户版和管理员版“。 ( 2 ) 大的软件厂商如c o g n o s 、c a 、b o 公司等。c 。g n o s 公司的产品包 括:i m p r o m p t u 可以建立和修改数据库定义,建立和修改信息目录和文件夹 生成各种的报表。t r a n s f o r m e r 可以生成c u b e 多维数据立方体,p o w e r p l a y 是个前端展示的0 l a p 工具。 b u s i n e s so b j e c t s ( b o ) 是集查询、报表和 o l a p 技术为身的智能决策支持系统,它使用独特的“语义层”技术和“动态 微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供 钻取( d r i l l ) 等多维分析技术,支持多种数据库,同时它还支持基于w e b 浏览器 的查询、报表和分析决策“”。 这些数据仓库产品在电信、金融、政府等领域获得了广泛的应用。但是它 们都有共同的问题,就是软件价格高昂,对开发人员和使用人员的技术要求高, 开发周期很长,一般应用在规模比较大的应用之中。 1 4 课题的来源 北京朝批商贸有限公司( 简称“朝批”) 是目前华北地区最大的综合性副 食品商业批发企业,公司下设四个控股子公司、九个销售分公司和四个库区, 原有的计算机系统已不能适应业务发展的需要。为此,北京朝批商贸有限公司 决定与北京工业大学计算机学院合作,依托计算机学院的人才、技术和设备的 优势,重新建设计算机业务系统,整合企业的商流、物流、信息流、资金流, 优化企业业务流程。 设计准则主要体现先进性、实用性、安全性和可维护性四个方面。 先进性:采用科学的管理模型,优化现行工作流程,实现企业业务流 程重组,满足企业改革发展的需要。采用领先的信息技术,建设一个 第1 章绪论 开放的电子商务架构,实现企业资源规划系统( e n t e r p r i s er e s o u r c e p 1 a n n i n g ,e r p ) 、客户关系管理( c u s t o m e r r e l a t i o n s h i p m a n a g e m e n t ,c r m ) 和供应链管理( s u p p l yc h a i nm a n a g e m e n t ,s c m ) 的整合。 实用性:充分考虑我国国情和企业发展现状,真正理解企业高层领 导面临的问题和构想的解决方案,广泛吸取企业信息化建设过程中的 宝贵经验,尽量利用一切可利用的软硬件资源。 安全性:企业走向电子商务化面临的大问题,必须在系统设计初期 进行重点考虑。 可维护性:软件设计采用面向对象和构件化方法,注重软件的可重用 性。开发方式力求工程化,注重软件文档和版本管理。 系统设计目标主要有三个方面: 利用先进的计算机技术,优化企业业务流程,实现全公司统一采购结 算、统一仓储配送,公司内部信息畅通无阻,业务财务一体化,集中 管理,统一核算,有效控制商流、物流和资金流。 建立基于e r p 的电子商务平台,实现与大的供货商和客户之间的电子 单证交换,将企业内部业务与外部交易整合,逐步改善整个供应链流 程。 实现基于数据仓库的决策支持系统,提供i n t e r n e t 上的联机分析处理 ( o l a p ) 。 1 5 课题主要研究内容 在完成北京朝批商贸有限公司内部e r p 系统的开发和实施以后,企业迫切 需要开始建立基于数据仓库的决策支持系统,我的研究生阶段工作和论文的主 要内容是:朝批商贸有限公司数据仓库系统需求分析和整体系统设计,数据仓 北京工业大学工学硕士学位论文 库数据的提取和数据仓库数据维护,具体有如下几方面的问题: 1 首先必须根据朝批商贸有限公司现有的业务系统情况以及用户的实际 需求,从用户的业务和技术二个方面的情况进行调查分析,建立数据 仓库系统需求分析和数据仓库项目实施步骤。 2 朝批商贸有限公司数据仓库的系统设计,包括数据仓库整体结构设计、 系统平台选择、数据仓库模式设计和物理设计。 3 数据仓库数据来源于企业的0 l t p 系统,如何提取、组织、转换业务 系统数据以适应数据仓库需要,是必须解决好的一个问题。 4 企业数据仓库提取的数据存储在o r a c l e8 i 数据库中,需要根据数 据仓库应用特性解决数据库管理系统的性能优化、备份和安全的问题。 第2 章朝批数据仓库需求分析和实施步骤 第2 章朝批数据仓库需求分析和实施步骤 2 。1 朝批数据仓库需求分析 2 1 1 朝批公司概况 北京朝批商贸有限公司是华北地区最大的副食品批发企业,公司下设四个 控股子公司、九个销售分公司。公司拥有总面积8 0 0 0 余平米的智能化办公大楼, 4 5 0 0 0 平米的标准仓储设施,1 4 0 余部新款业务用车辆,1 3 0 余台奔腾3 型以上 计算机,全套现代化办公设备。 朝批商贸有限公司市场根基深厚,经营实力强大:进货渠道遍布国内2 9 个 省市自治区的名优商品生产厂家,远通十余个国家和地区的世界知名品牌生产 厂家,经营品种总数6 8 0 0 余个,其中3 0 余个国内外名优品牌8 0 0 余个品种为 总经销、总代理;销售网络覆盖了5 0 0 0 余个繁华街区的大中型零售企业,2 6 0 0 余个人口稠密社区的小型店铺。辐射到华北、华中、东北、西北四个地区3 0 余 个城市的8 0 余家大型零售、批发企业。目前正选择地理位置优越,交通便利的 区域,建立商品集散基地,发展品牌的跨省市分销,跨区域代理。 2 1 2 朝批数据仓库可行性分析 朝批商贸有限公司与北京工业大学计算机学院合作,开发管理信息系统, 利用先进的计算机管理手段,再造业务流程,有效控制商流、物流、资金流、 信息流。第一期工程的企业内部的管理信息系统( o l t p ) 已经投入运行,效果良 好,大大提高了企业的管理水平,为企业带来了巨大的经济效益。 同时朝批的领导层已经认识到,要想在激烈的市场竞争中取得优势,必须 北京工业大学工学硕士学位论文 建立企业的数据仓库系统,来为企业提供决策支持的服务,这为朝批的数据仓 库的建设提供了动力。 朝批现在的数据库是采用的o r a c l e8 i ,数据库中已经有了自从2 0 0 0 年以 来所有的公司的业务数据,具备构建朝批的数据仓库系统的物质基础。当前综 合查询的操作是在0 l t p 系统中的,当运行比较大的查询的时候会同业务系统竞 争数据库资源,这也客观上要求建设数据仓库系统。 基于以上几点,我们认为建立朝批数据仓库系统条件已经成熟 2 1 3 朝批数据仓库的需求分析 建立朝批数据仓库系统是为了满足朝批总公司和各个分公司越来越多、越 来越复杂的统计、分析、预测需求。它在保持现有0 l t p 应用系统功能的基础上, 充分利用朝批业务系统的各种数据源,包括总公司业务数据、分公司的业务数 据和仓库的业务数据等,对其进行面向决策的数据重组,将其转移到数据仓库 中。并在该数据仓库的基础上建立面向最终用户的基于数据仓库的决策支持系 统。 朝批计算机管理信息系统( c p m i s ) 是传统m i s ( 管理信息系统) 的扩展, 包含了e r p ( 企业资源计划) 、c 跚( 客户关系管理) 和s c m ( 供应链管理) 系统 的先进管理理念、模式和功能。系统设计强调协同性和连接性,通过基于企业 内部e r p 的开放电子商务平台,把上下游企业通过价值链整合在一起。企业e r p 系统主要通过商品销售管理、商品采购管理、商品仓储运输统一管理、财务统 一核算管理实现对商流、物流、资金流的有效控制,通过电子商务平台上的c r m 和s c m 实现企业内部流程与外部交易的整合,使朝批与客户、供货商实现跨平 台、跨时间、跨空间的信息共享,服务快速响应和互动营销,实现真正的电子 交易模式。朝批的系统组成如图2 1 所示: 第2 章朝批数据仓库需求分析和实施步骤 图2 1 朝批系统组成图 f i g 2 1 c 0 n s t r u c t i o nd r 吖i n go fc pe n t e r p r i s ea p p l i c a t i o n 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得 到详细而明确的需求,我们首先确定朝批数据仓库的基本的方向性的需求。从 朝批系统的组成来看可以把数据仓库分成四个主题:销售主题、采购主题、物 流主题和财务主题。所谓数据仓库主题是一个在较高层次将数据归类的标准, 每一个主题对应一个宏观的分析领域,针对具体决策需求可细化为多个主题表, 具体来说就是确定决策涉及的范围和所要解决的问题。但是主题的确定必须建 立在现有管理信息系统基础上,否则按此主题设计的数据仓库存储结构将成为 一个空壳,缺少可存储的数据o ”。 其中销售主题是对于朝批企业最重要的主题。商业批发企业最基本的业务 就是销售商品给客户,企业一切活动都是为了更好的服务客户。公司的经营 北京工业大学工学硕士掌位论文 昔对于决策支持最迫切的需求在于:把握客户销售总体情况,分析销售市场波 动趋势,为批发企业进货,库存,企业人员业绩考核提供依据,掌握市场的发 展趋势以供朝批总公司和分公司制定长期的营销战略。 朝批数据仓库的系统设计采取了增量迭代开发的方法,首先基于销售主题 设计数据仓库系统的整体结构,确定数据仓库逻辑模式和物理模式,在反馈和 循环中逐渐建立其他分析主题。这里我以销售主题为例说明朝批数据仓库系统 的需求分析。销售主题可以细分成如下的业务主题: 客户主题需求包括 不同类别客户销售情况分析、掌握对公司利润贡献较大的客户组成、 客户可信度和外欠情况分析、客户服务质量和投诉分析等 外勤主题需求包括 外勤销售商品的业绩考核、外勤销售外欠情况分析、外勤销售推销 月报和同期比较。 商品主题需求包括 商品的市场需求分析、不同季节商品供需变化、商品促销活动分析、 不同类别客户对于商品需求特点分析。 2 2 朝批数据仓库系统设计实施步骤 数据仓库系统是一种解决问题的过程,而不是一个可以买到的现成的产品。 数据仓库是在现存数据库系统基础上进行开发,着眼于有效的抽取、综合、集 成和挖掘已有数据库的数据资源,服务于企业高层领导管理决策分析需要“。 朝批数据仓库系统设计步骤具体如图2 2 所示: 第2 章朝批数据仓库需求分析和实施步骤 图2 2 数据仓库设计步骤 f i g2 2 t h ed e s i g n i n gp r o c e s so fd 8 t aw a r e h o u s e 1 需求分析 首先进行数据仓库的需求分析,确定系统要解决问题的范围。 2 技术准备工作 通过数据仓库系统技术评估,建立数据仓库工程的目标和计划。选择 实现数据仓库的体系结构和软硬件资源,包括开发平台,d b m s ,网络通信 和开发工具等。 3 建立第一个主题域,在反馈和循环中逐渐建立其它主题域 最初,只使用一部分数据来生成第一个主题域。原因在于,只建立一 北京工业大学工学硕士学位论文 个主题域使得设计人员能够轻易且迅速地对已做工作进行调整,而且能够 尽早地实施数据仓库的应用。这样,既可以在经济上最快地得到回报,又 能够通过最终用户的使用发现问题并提出新的需求,然后反馈给设计人员。 设计人员继续对系统改进、扩展,将更多的主题域加入到数据仓库中。经 过这样一个不断的反馈过程,数据仓库就逐渐建立起来了。 4 建立数据仓库的数据模型 针对每一个选定的主题域,进行数据仓库的逻辑模型和物理模型设计 通过数据仓库的模型的设计,我们可以得到企业完整而清晰的描述信息。 5 数据仓库生成 定义数据仓库元数据。元数据是关于数据的数据,类似传统数据库中 的数据字典。利用元数据能有效地管理数据仓库。然后通过数据提取的过 程生成数据仓库结构。 6 数据仓库的运行维护 数据仓库建立之后,一方面,各个级别的最终用户,从企业的决策人 员、中级管理人员到普通的职员,都使用数据仓库进行决策或者分析。 同 时,用户将使用情况和新的需求意见反馈给开发人员,开发人员对数据仓 库系统进行相应的改进“。另一方面,数据仓库管理人员负责数据仓库维 护工作包括追加数据、制定数据仓库安全措施等工作。 2 3 本章小结 本章从分析朝批公司概况和朝批信息管理系统情况入手,提出了朝批数据 仓库的四个基本主题,分别是:销售主题、采购主题、物流主题和财务主题。 其中销售主题是对于朝批企业最重要的主题。在文章中对销售主题进行了具体 的需求分析。最后提出了朝批数据仓库的具体实施步骤。 第3 章朝批数据仓库的系统设计 第3 章朝批数据仓库的系统设计 3 1 朝批数据仓库的技术环境 建立朝批数据仓库系统是为了满足朝批总公司和各个分公司越来越多、越 来越复杂的统计、分析、预测需求。我们根据朝批数据仓库的需求和企业的实 际情况确定了数据仓库系统的技术环境。 软件平台 数据仓库系统的操作系统采用u n i x 咖e7 1 1 企业版支持双 c p u ,数据库d b m s 采用o r a c l e8 1 7 企业版。w 曲服务器的 操作系统采用晰n d o w s2 0 0 0s e n 惯。内部决策支持和综合查询系统采 用p o w e 国u j l d e f6 o 开发,基于h l 把m e t 的决策支持系统w 曲d s s 的开发使用j a g u a rc t s 作为中间件应用服务器,m n d o w s s5 o 作 为w r e b 服务器, p o w e r b 试l d e r8 ow 曲作为开发工具。c o g n o s 的 i m ”o 呻t u 、t r a n s f o r m e r 和p o w e r p l a y 作为o l a p 工具。 硬件平台 数据库服务器采用i b me s e r i e sx 2 5 0 ( u n i x 服务器) ,应用服务 器和w e b 服务器采用i b m 刀片式服务器x s c r i e s 3 0 0 ( 8 6 7 2 ) 。 网络设备 d l i n k3 6 2 4 系列交换机,s o n i c w a n 防火墙 3 2 朝批数据仓库的体系结构 如图3 一l 所示。朝批数据仓库系统中,数据仓库分为三个部分:源数据层、 数据仓库层、表现层。 源数据层 数据仓库层表现层 图3 一l 朝批数据仓库体系结构 f i g 3 1t h ea r c h i t e c t u r eo ft h ec h a o p id a t aw a r e h o u s e 源数据层:是数据仓库系统的基础,是整个系统的数据源泉。通常包括 企业内部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处 理数据( 包括历史数据) 和各类文档数据。外部信息主要是数据交换数 据包括文本、蹦l 文件等。 第3 章朝批数据仓厍的系统设计 数据仓库层:是整个数据仓库系统的核心。数据仓库的真正关键是数据 的存储和管理“。朝批数据仓库系统中,数据仓库分为两部分:粒度较 低的全局数据仓库c p d w 和粒度较高多维数据模型( c u b e 多维立方体) 。 其中,c p d w 采用基于关系数据库( 0 r a c l e ) 的星型模型建模。多维数据 模型则采用c o g n o s 公司t r a n s f o r m e r 工具建立。我们采取这个结构的原 因是我们可以基于这个全局数据仓库c p d w ,使用p b 8 o 自主开发基于 w e b 的决策支持系统。也可以利用这个全局数据仓库,使用第三方数据 仓库产品例如c o g n o s 公司数据仓库产品建立多维数据模型。因为这个 全局数据仓库经过了数据的集成和综合,第三方的数据仓库产品可以在 此基础上直接建立多维数据模型,不用再同源数据层的数据打交道。 表现层:主要包括各种报表工具、查询工具、多维数据分析工具以及各 种基于数据仓库的应用开发工具。我们综合查询和报表工具使用p b 6 0 开发,多维分析o l a p 采用c o g n o s 公司的产品p o w e r p l a y 。同时利用 s y s b a s e 公司提供的j a g u a rc t s 做应用服务器,使用p a w e r b u i l d e r 8 o w e b 开发基于w e b 的决策支持系统。 3 30 l a p 多维模型 3 3 1o l a p 基本概念 下面以图3 2 为例解释一下o l a p 中的一些基本概念。 北京工业大学工学硕士学位论文 客户编码 0 3 0 0 0 2 0 0 0 1 0 0 ( 万元) 1234时间( 月) 图3 2 多维立方体 f i g 3 2t h e 皿u h i d i m e n s i o n a lc u b e 变量 变量是数据的实际意义,即描述数据“是什么”。例如:图3 2 中数字 “2 0 ”本身的含义是不确定的,它可能是个学校的学生人数,也可能是 一个商店的销售金额等等。只有当我们为它指定了销售金额变量后,“2 0 ” 才有了具体含义。变量是一个数值度量指标,如:销售金额,而“2 0 ”则 是销售金额变量的一个具体的值。 维 维是人们观察数据的特定角度。例如:批发企业通常关,心不同客户的 销售情况,所以客户就是一个维。批发企业同样关心不同商品的销售情况, 这时是从商品的角度来观察销售,所以商品也是一个维。 维的层次 人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同 的多个描述方面,我们称这多个描述方面为维的层次。一个维往往具有多 。,。呈二些邕耋暨鍪翟鎏二。 个层次,例如:一个表示时间的维,可以从年、月、日等不同层次来描述, 即:将时间维划分为年、月、日三个层次。 维成员 维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么 该维的维成员是在不同维层次的取值的组合。例如:我们考虑时间维具有 年、月、日这三个层次,分别在年、月、日上各取一个值组合起来,就得 到了时间维的一个维成员,即“某年某月某目”。一个维成员并不一定在每 个维层次上都要取值,即可有“某年某月”、“某月某日”、“某年”这样的 取值。 多维数组 一个多维数组可以表示为:( 维l ,维2 ,维3 ,维n ,变量) 。 例如:图3 2 所示商品销售数据是按客户、时间、商品组织起来的三维立 方体,加上变量“销售额”,就组成了一个多维数组( 客户,时间,商品, 销售额) 。 数据单元( 单元格) 多维数组的取值称为数据单元。当多维数组的各个维都选中个维成 员,这些维成员的组合就唯一确定了一个变量的值。那么数据单元就可以 表示为:( 维l 维成员,维2 维成员,维n 维成员,变量值) 。例如: 我们在图3 2 中分别取客户、时间、商品的维成员“0 3 0 0 ”、“4 月”、 “l 0 0 1 0 0 1 0 ”,就唯一确定了变量“销售额”的值为“2 0 ”万元,则该数据 单元可表示为:( 0 3 0 0 ,4 月,1 0 0 1 0 0 1 0 ,2 0 ) 。 多维分析 是指对以多维形式组织起来的数据采取上钻、下钻、切片、切块、旋 转等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地 观察数据库中的数据,从而深入地了解包含在数据中的信息、内涵“。 北京工业大学工学硕士学位论文 3 3 2 0 l a p 实现方式 目前o l a p 有两种实现方式:一种是建立在真正的多维数据库基础上,以多 维方式组织、存储数据;另一种是利用现有的关系数据库技术来模拟多维数据 存储“”。 3 3 2 1 基于多维数据库的0 l a p 实现 m o l a p ( m u “t d i m e n s i o no l a p ) 是建立在真正的多维数据库基础上,以多 维方式组织、存储数据。多维数据库可以直接地表现现实世界中“一对多”和 “多对多”的关系。如下表所示以各部门的商品销售数据存储为例,展示了关 系数据库和多维数据库不同的数据组织形式。不难看出,关系数据库采用关系 表来表达某部门某月的销售额,而多维数据库中的数据组织形式采用了二维矩 阵的形式。显然,二维矩阵比关系表表达更清晰而且占用的存储更少“”。如表 3 一l 所示: 表3 1 关系存储模式和多维存储模式对比 t a b l e3 - 1 协ec o m p 撕s o no f r e l 撕o nm o d e l 卸dt l l em u m m m 锄s i a 1m o d e l 关系存储模式( a ) 部门月份销售额 o o l o2 0 0 0 0 lz 7 5 3 9 1 。8 6 0 0 1 02 0 0 0 0 23 1 2 6 8 9 2 7 0 0 2 02 0 0 0 0 12 9 3 6 5 8 0 8 0 0 2 02 0 0 0 0 23 5 2 6 9 2 1 8 0 0 3 02 0 0 0 0 11 1 2 5 8 9 2 5 0 0 3 02 0 0 0 0 21 3 2 6 2 4 3 0 第3 章朝批数据仓库的系统设计 多维数据存储( b ) 2 0 0 0 0 12 0 0 0 0 22 0 0 0 0 32 0 0 0 0 4 0 0 1 02 7 5 3 9 1 8 63 1 2 6 8 9 2 7 0 0 2 02 9 3 6 5 8 0 83 5 2 6 9 2 1 8 0 0 3 01 1 2 5 8 9 2 51 3 2 6 2 4 3 0 多维数据库是由许多经过压缩的、类似于数组的对象构成,这种对象通常 带有高度压缩的索引及指针结构。每个对象由汇集成组的单元块组成,每个单 元块都类似于多维数组的结构存储,并通过直接偏移计算进行存取。 3 3 2 2 基于关系数据库的0 l a p 实现 基于关系数据库的0 l a p 通常采用星型模式模拟多维数据的表示和存储。在 星型模式中有两类表:一类是存储事实的量度( m e a s u r e ) 值和各维关键字值的 事实表;另一类是保存维属性的维表。每一个维表通过一个关键字直接与事实 表关联。如下图3 3 所示: 商品维 商品编码 品名规格 商品分类 商品品牌 商品销售 日期 商品编码 部门编码 销售单价 销售数量 销售金额 部门编码 日 期 图3 3r o l a p 星型模式 f i g 3 3t h er o l a ps t a rs c h e m a 部门维 部门编码 部门名称 部门地址 时间维 日期 北京工业大学工学硕士学位论文 图3 3 中商品销售表为事实表,并包含了三个维表:商品维表、部门维表 和时间维表。在销售事实表中存储着商品维表、部门维表和时间维表的主码: “商品编码”、“部门编码”和“日期”。这样,通过这三个维表的主码,就将事 实表与维表连接在一起,形成了“星型模型”,完全用二维关系表示了数据的多 维概念。 星型模式很容易构造复杂的查询语句并且支持决策支持系统中向下挖掘式 的分析。通过维表的主码,对事实表和每一个维表做连接操作,一次查询就可 以得到数据的值以及对数据的多维描述( 即对应各维上的维成员) 。该方式使用 户及分析人员可以用商业名词( 元数据名或标记) 来描述一个需求,然后该需 求被重新翻译成每一个维的代码或值。 雪花模式是星型模式的一种扩展形式,主要是用来解决星型模式中复杂的 维表的数据冗余问题。雪花模式与星型模式的区别在于:星型模式中一维对应 一张维表;雪花模式一维可对应多张维表“o 。 3 4 朝批数据仓库的建模 朝批数据仓库是建立在关系数据库o r a c l e 基础之上的,所以数据仓库的设 计中采用的逻辑模型就是关系联机分析模型r o l a p 。基于关系的星型模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论