




已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据仓库的库存分析系统研究与开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 信息作为现代企业的宝贵资源,占据着越来越重要的地位,成为 科学管理的基础,正确决策的前提,有效调控的手段。随着企业信息 化进程的推进,越来越多的数据存储在企业的数据库中,企业内部已 积累了海量数据。如何有效地利用这些数据,从中挖掘出有价值的知 识和规则来支持企业管理决策,提升企业的综合竞争力是摆在企业管 理者面前的一个重要而紧迫的任务。近年来,随着数据仓库技术( d w ) 、 联机分析处理技术( o l a p ) 和数据挖掘( d m ) 技术的发展,开创了基于数 据仓库的决策支持系统( d s s ) 研究的新方向。 本课题以制造企业库存分析决策支持系统的构建为背景,首先介 绍了国内外数据仓库技术的发展与应用现状;数据仓库的概念与特 点;数据仓库的体系结构;数据仓库的建模方法;数据的抽取、转换 和加载技术;联机分析处理( o l a p ) 技术;数据挖掘技术。其次,从数 据仓库数据库、多维数据集的构建方面,设计了一个基于数据仓库的 企业库存分析决策支持系统,并以福州西城电子有限公司的历史数据 为依据对本系统的有效性和可行性进行验证。接着阐述了经典的关联 规则挖掘算法_ a p r i o r i 算法、人工神经网络以及决策树算法在本系 统中的应用。最后,通过同企业原先e r p 系统在结构、性能、安全等 方面的比较,体现了基于数据仓库技术的决策支持系统的优越性,同 时指出了今后有待研究和完善的问题。 关键词:库存分析,数据仓库,模型设计,联机分析,数据挖掘 a b s t r a c t i n f o r m a t i o n ,am o s tv a l u a b l er e s o u r c ei nm o d e me n t e r p r i s e s i s b e c o m i n gi n c r e a s i n g l yi m p o r t a n ta st h eb a s i so fs c i e n t i f i cm a n a g e m e n t , t h ep r e m i s eo fc o r r e c td e c i s i o n m a k i n ga n dt h ee f f e c t i v em e a n so f r e g u l a t i o n a n d c o n t r 0 1 a l o n g w i t ht h e p r o g r e s s o f e n t e r p r i s e i n f o r m a t i o n i z a t i o n ,m o r ea n dm o r ed a t aa r es t o r e di nt h ee n t e r p r i s e d a t a b a s e i ti sa ni m p o r t a n ta n du 珞e n ti s s u ef o re n t e r p r i s em a n a g e r st o c o n s i d e rh o wt oe f f e c t i v e l ym a k eu s eo ft h e s ed a t a ,e x c a v a t ev a l u a b l e k n o w l e d g ea n dr u l e st os u p p o r te n t e r p r i s em a n a g e m e n ta n dd e c i s i o n m a k i n g ,a n di m p r o v et h ee n t e r p r i s ec o m p r e h e n s i v ec o m p e t i t i v e n e s s i nr e c e n ty e a r s ,d e c i s i o ns u p p o r t s y s t e m ( d ss ) b a s e do nd a t a w a r e h o u s eh a se m e 略e da l o n gw i t ht h ed e v e l o p m e n to fd a t aw a r e h o u s e ( d w ) t e c h n o l o g y , o n l i n ea n a l y t i c a lp r o c e s s i n g ( o l a p ) a n dd a t am i n i n g ( d m ) t e c h n o l o g y f o c u s i n go nc o n s t r u c t i n gt h ea n a l y s i sa n dd e c i s i o n s u p p o r ts y s t e mf o rt h ee n t e r p r i s er e p e r t o r y , f i r s t l y , t h e r ea r ei n t r o d u c t i o n s i nt h i st h e s i st h a tb o t hd o m e s t i ca n di n t e r n a t i o n a l s t a t e o f - t h e a r t d e v e l o p m e n ta n da p p l i c a t i o n ,c o n c e p ta n dc h a r a c t e r i s t i c s ,s t r u c t u r e ,a n d m o d e l i n gm e t h o do fd a t aw a r e h o u s e ;e t l ( e x t r a c t i o nt r a n s f o r m a t i o n l o a d i n g ) t e c h n i q u e ,o l 北a n dd a t am i n i n gt e c h n i q u e s ,e t c s e c o n d l y , t h e r ei sp r e s e n t a t i o nt h ed e v e l o p m e n to fa na n a l y s i sa n dd e c i s i o ns u p p o r t s y s t e mf o rt h ee n t e r p r i s er e p e r t o r yb a s e do nd a t aw a r e h o u s e t h ev i a b i l i t y a n de f f e c t i v e n e s so ft h es y s t e mi sv a l i d a t e du s i n gt h eh i s t o r i cd a t ao f f u z h o uw e s tc i t ye l e c t r o n i c sl i m i t e dc o m p a n y t h i r d l y , t h ea p p l i c a t i o n s o fac l a s s i c a la l g o r i t h mf o rm i n i n ga s s o c i a t i o nr u l e s ( a p r i o r ia l g o r i t h m ) , a r t i f i c i a ln e u r a ln e t w o r ka n dd e c i s i o nt r e ea l g o r i t h m a r t i f i c i a ln e u r a l n e t w o r k si nt h i ss y s t e ma r ed i s c u s s e d f i n a l l y , w i t ht h ec o m p a r i s o no ft h e b u s i n e s se n t e r p r i s ee r p s y s t e mi nt e r m so fs t r u c t u r e ,f u n c t i o n ,s a f e t y , e t c , i ti sc o n c l u d e dt h a tt h ed a t aw a r e h o u s e b a s e dd e c i s i o ns u p p o r ts y s t e mh a s s u p e r i o r i t i e s i ta l s op o i n t so u tt h a tt h e r ea r es o m ec h a l l e n g i n gp r o b l e m s s t i l lr e m a i n i n gi nt h es y s t e mw h i c hn e e dt ob es t u d i e da n di m p r o v e d k e yw o r d s r e p e r t o r ya n a l y s i s ,d a t aw a r e h o u s e ,m o d e ld e s i g n , o n 。l i n ea n a l y t i c a lp r o c e s s i n g ,d a t am i n i n g i i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共 同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:囟:鲨经 日期:些翌l 年月业日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校有 权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允 许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 作者虢哔翩签名迎吼越年月日 硕士学位论文 第一章绪论 1 1 课题背景与意义 第一章绪论 信息在企业的决策和商业活动中起着重要的支持作用。但是,现有的许多信 息系统很难满足企业的某些信息需求【1 1 。这是因为传统数据库的主要任务是进行 事务处理,它所关注的是事务处理的及时性、完整性与正确性,而在数据的分析 处理方面,则存在着诸多的不足。主要体现在缺乏集成性、主题不明确等几个方 面【2 1 。与传统的面向事务性处理的数据库相比,数据仓库则面向复杂的分析型数 据,它解决了数据集成、数据综合和数据不一致等问题,使企业的业务操作环境 和信息分析环境分离,从而有效的为决策提供实时的信息服务。 数据库技术发展到今天,已经不再单单是用于数据存储。决策支持系统的研 究也不是一个新的话题,把数据仓库、o l a p 、数据挖掘、模型库结合起来形成 的综合决策支持系统,是更高级形式的决策支持系统。其中:数据仓库中存储着 大量辅助决策的数据,它为不同的用户随时提供各种决策的随机查询、综合数据 或趋势分析信息。联机分析处理提供了多维数据分析,进行切片、切块、钻取等 多种分析手段。数据挖掘是挖掘数据中隐含的信息和知识,让用户在进行决策中 使用【3 1 。它们集成的综合决策支持系统,将相互补充、相互依赖,发挥各自的辅 助决策优势,实现更有效的辅助决策。 e r p 概念是随着科学技术的进步和管理思想的发展而不断充实的【4 1 。研究数 据仓库、联机分析技术( o l a p ) 、数据挖掘技术( d m ) 在e r p 中的应用,有助 于丰富e r p 的内涵,改变e r p 中传统的集中式数据库管理模式,加强对e r p 中 决策功能的支持f 5 】。d w + d m 在e r p 中的应用,就是要以数据仓库作为企业底 层的数据源,再加上各种数据挖掘技术,组成有效的决策支持系统,并结合e r p 的管理原理和处理流程,让双方取长补短,以增强传统e r p 系统的决策功能。 库存管理一直是e r p 中的重点研究内容之一库存管理包括仓库管理、物 料管理和库存成本管理等。库存管理是在一种十分矛盾的情况下进行的,一方面 有效的产品库存意味着客户服务水平的提高,能够一定程度的应付各种变化的需 求,但是另一方面物料库存占用了企业有效资金和库存损耗导致了成本的增加, 同时产生了其他连锁费用,如:维护费用、调整费用和订货费用等。这些矛盾导 致了库存管理的艰巨性和必要性。 据统计,我国产品生产的直接成本只有总成本的1 0 ,而库存成本占产品总 成本的3 0 左右,远远大于生产直接成本。传统的e r p 系统中,库存管理标准 模块一般只能对库存的物品进行数量、位置方面的控制,这对根据库存情况做出 决策判断是不够的 6 1 。如何选择合适的原料供应商;何时采购、采购多少;如何 硕士学位论文 第一章绪论 预测原料及产品的供应和需求的变化趋势;如何对库存物品按照其特点进行分类 监控从而较为准确地控制生产和库存是供应链上每个核心企业面临的急迫问题。 同时,由于诸多方面的原因,企业的库存数量是经常变动的。为了使库存量保持 在合理的水平上,就要进行合理的、科学的库存控制。当库存物料的储备数量过 少时,不能满足企业生产或者经营的需要,而储备数量过多时,不仅要占用大量 资金,影响流动资金的周转,而且要占用大量的生产面积和库存面积,还可能由 于长期积压而使存货损坏变质,造成浪费。因此加强库存管理与控制是企业高利 润、高效率运转的保证1 7 1 。 本课题研究的目的和意义在于将综合应用数据仓库技术、联机分析( o l a p ) 技术、数据挖掘技术和库存管理理论及模型构建一个制造型企业e r p 系统的库 存分析子系统。该系统将数据仓库技术应用于企业e r p 管理领域,较好的实现 了o l a p 分析的功能和数据挖掘功能,实现了一个智能的企业库存分析、辅助决 策系统,对财务人员及企业领导制定决策方针提供了辅助支持。企业的高层管理 者能够通过使用该系统对企业的库存状况有更清晰的了解,更深层次的把握,在 这个基础上,提出有效的库存管理措施,提升企业的竞争力,实现企业利润的最 大化。 1 2 国内外研究现状与水平 1 国外数据仓库的研究及应用水平 “数据仓库( d a t aw a r e h o u s e ,d w ) ”这个名词首次出现在2 0 世纪8 0 年代 中期“数据仓库之父 w i l l i a mh i n l n o n 的( ( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一书 中,并指出数据仓库的特点是“数据仓库中的数据是面向主题的、高度集成的、 不可更新的( 稳定) 并随时间不断变化的,建立数据仓库的目的是为了更好地支持 决策分析,【引。数据仓库技术是一个广义的概念,它包括数据仓库、o l a p 等等。 它们之间并没有明显的分界。由于数据仓库技术是适应决策分析系统的需要而产 生的,所以引起了学术界的极大兴趣,国际上许多重要的学术会议和学术机构, 如超大型数据库国际会议( v l d b ) ,数据挖掘组织( d a t am i n i n gg r o u p ) 、数据工程 国际会议( d a t ae n g i n e r e r i n g ) 等,常常专门来讨论、交流数据仓库( d a t aw a r e h o u s e , d w ) 、联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 技术【9 】等。出现了专门 研究数据仓库、联机分析处理和数据挖掘( d a t am i n i n g ,d m ) 的论文。目前,对 于数据仓库的各个领域的研究都很活跃。数据转换、数据清理、异种数据源的处 理、外部接口的标准化以及数据可视化的应用成为了目前的研究热点1 1 0 1 。 国际上各大数据库厂商也纷纷宣布其产品支持数据仓库并提出一整套用以 建立和使用数据仓库的解决方案。比如s y b a s e 公司的交互式数据仓库解决方 2 硕士学位论文第一章绪论 案;m i c r o s o f t 公司数据仓库解决方案等等1 9 j 。 2 国内数据仓库应用现状 数据仓库在我国的应用已开始进人快速发展期,但与发达国家相比还存在着 很大的差距【1 1 1 。目前,国内尚没有成熟的数据仓库解决方案的推出,没有成熟的 数据仓库产品,国内企业的应用主要在对数据仓库解决方案的选择上1 1 2 1 。同时, 国内企业在数据仓库应用上存在更大的误区是把数据仓库当成一个现成的、可以 直接买来使用的产品,而没有把它当作是在整个企业范围内建立统一协调的全局 信息环境的庞大工程【1 3 】【1 4 1 。在数据仓库技术分支技术数据挖掘产品上,国外有 i b m 的i n t e l l i g e n tm i n e r , s a s 的e n t e r p r i s em i n e r 等等,形式各异,功能也有较大 的差别,目前国内尚没有成熟的数据挖掘系统,但正处于积极的完善和推广阶段, 比如,复旦大学正在研究开发的d b m i n e 系统1 1 3 j 等等。 对于数据仓库应用领域而言,虽然取得了很大的进展,但目前在某些具体应 用上还有许多值得探索的方面。如在原型系统的开发中,我们几乎不可能自己去 开发数据库引擎和o l a p 引擎,这样就需要借助于某个中间件( c o m p o n e n to b j e c t m o d e l ,c o m ) 来完成这项工作,这就存在方法和体系结构的问题;在相关性分 析中,存在针对大数据集分析的效率问题;还有如何将o l a p 技术与数据挖掘技 术相结合,形成o l a m ( o n l i n ea n a l y t i c a lm i n i n g ) 也是非常值得研究的。 随着i n t e m e t 技术的发展,企业全面信息化的进行,我们将面临的是信息爆 炸的时代。因此研究高效的数据仓库应用系统并使之实用化已势在必行,具有非 常重要的理论研究意义和应用推广价值。 1 3 课题来源 传统数据库在日常的管理事务处理中获得了巨大的成功,但是对管理人员的 决策分析要求却无法满足。因为,管理人员常常希望能够通过对组织的大量数据 进行分析,了解业务的发展趋势。为满足管理人员的决策分析需要,就需要在数 据库的基础上产生适应决策分析的数据环境数据仓库( d a t aw a r e h o u s e ,d w ) 【1 5 】【1 6 1 。 数据仓库之父w i l l i a mh i n m o n 为数据仓库( d a t aw a r e h o u s e ,d w ) 下的 定义是“数据仓库是一个面向主题的、集成的、随时间变化的非易失性数据的 集合,用于支持管理层的决策过程俐。 进入到9 0 年代,数据仓库技术成为数据库技术的新热点,针对不同的用户 需求,许多公司推出了自己的数据仓库解决方案。数据仓库能把企业中分散的原 始操作数据和来自外部的数据汇聚和整理成一个单一的关系数据库,为企业提供 完整、及时、准确和明了的商业决策信息,并使最终用户可以直接从数据仓库提 3 硕士学位论文第一章绪论 取信息来进行各种决策分析【1 7 1 。 随着操作型数据向分析型数据的发展,联机事务处理( o l t p ) 己不能满足终端 用户对数据库查询分析的需要,s q l 对大数据库进行的简单查询也不能满足用 户分析的需求,用户的决策分析需要对关系数据库进行大量计算才能得到结果, 而查询的结果并不能满足决策者提出的要求。只有应用o l a p 技术在数据仓库在 基础上进行数据的预测、分析及决策,才会更好的利用综合性数据。 制造业是国民经济最重要的支柱产业,是我国国民经济的核心和工业化的原 动力【1 8 1 【1 9 1 。伴随中国加入w t o 和经济全球化,中国正在成为世界制造业的中 心,同时中国的制造业企业也面临更加激烈的国际国内市场竞争。为了迅速改善 企业的管理水平,提高企业的核心竞争力,我国的制造企业都纷纷加快了信息化 建设的步伐。 经过近2 0 年的探索和实践,我国的制造企业在实施信息化的过程中取得了 很多经验和成绩,但总的效果仍然不太理想。目前,在实施了企业资源计划 ( e n t e r p r i s er e s o u r c ep l a n n i n g ,e r p ) 的制造企业中,备件、材料储备过高仍 然是一种普遍存在的现象,仍然占用着企业大量的流动资金。造成这种现状的主 要原因除了备件、材料的管理人员没有严格按消耗规律制定采购计划,没有根据 实际的消耗数量制定储备定额之外,现有的e r p 系统对备件、材料等物资的库 存指标统计分析本身也有一定的局限性【2 0 l 。 随着经济的不断发展,i n t e m e t 和电子商务得以广泛应用,这使企业的运作 方式产生了深刻地变革。同时,企业间商品的供应关系变得越来越复杂,全球化 信息网络和全球化市场形成及技术变革的加速,促使企业不断寻求降低成本、增 大效益、提高市场竞争能力的途径。这些问题都使得库存管理人员和理论工作者 重新定义思考产品的供应关系和模型,去适应经济环境的变化。 物料库存是企业资源的重要组成部分,库存管理也是供应链管理中重要的组 成部分,因此受到当今企业的高层管理者和理论研究人员的密切关注。如何将信 息技术应用到库存管理中,和企业的信息管理系统充分结合,是当前企业面临的 重大任务之一。 本人结合浪潮e r p 软件实施与企业信息化建设的经验,构建了一个基于数 据仓库的企业库存分析子系统,并以福州西城电子有限公司经营数据作为分析系 统的数据来源。该系统应用o l a p 技术对企业库存数据进行进一步的汇总、透视 和转化,使用户能多视角、多粒度、可视化地对历史数据进行分析;应用数据挖 掘技术从历史数据中提炼出重要的信息,为企业的决策、计划、控制提供广泛的 帮助。 4 硕士学位论文 第一章绪论 1 4 本课题主要研究内容 库存就是在企业生产和物流渠道中各点堆积的原材料、供给品、零部件、半 成品和成品 2 1 】。库存是指为了满足未来需要而暂时闲置的资源 2 2 1 ,是存放在库 房中的待用物资。一般情况下,企业设置库存的目的是防止物资短缺,避免产、 供、销等经营活动的中断【2 3 1 2 4 1 。适当的库存是企业生产经营过程所必备的,有 利于协调需求和供给的矛盾,确保生产顺利进行。但是,库存既然是待用的资源, 就会造成一定的浪费【2 2 1 ,如在存储过程中的物资丢失、变质等,并且会带来额外 的资金消耗,如物资管理费用,库房租用费用等。另外,企业资源、资金都是有 限的,用在库存上的资金多了,就会造成企业资金流通不畅,束缚企业业务的正 常发展,还会影响企业对物资资源、人力资源等的合理配置和应用,造成浪费。 所以,在现代化企业经营管理活动中,在满足正常生产的前提下,企业力争使库 存量逐步减少,甚至向零库存【2 5 1 方向发展,以尽量减少企业的物资储备,加快资 金周转,提高企业的生产效率【2 6 】。由上可见,对库存的科学管理是企业生存和发 展的有力支撑。 企业现有e r p 系统只能满足库存日常业务工作的需要,而无法提供对管理 决策的支持。例如:库存物品在何时入库为宜;库存数量应为多少适宜;存放的 迄止日期应在何时为宣等等。针对存在的问题,本文提出构建基于数据仓库的库 存分析系统,以提高企业的分析决策水平和对市场响应速度,使企业取得更好的 经济效益。 本课题主要研究内容如下: 1 作为企业实施决策的支持工具,数据仓库的体系结构在理论上并没有固 定的、严格的规定,而是随企业规模、决策类型、数据特点的不同而改变【l 】。如 何构建一个合适的数据仓库体系结构,是本课题首先要研究的问题。 2 在基于数据仓库的库存分析系统的开发过程中,数据仓库模型是整个系 统实现的基础。良好的数据仓库模型可以提高系统开发的成功率和数据仓库中的 数据质量【1 7 1 。设计一个能够真正支持用户进行决策分析的数据仓库并非是一件轻 而易举的事情。这需要一个从现实环境到抽象模型,从抽象模型到具体实现的过 程。要完成这一过程,必须依靠各种不同的数据模型。在从现实到抽象的过程中 需要依靠概念模型的支持,即将现实的决策分析环境抽象成一个概念数据模型, 然后将此概念模型逻辑化,最后,将逻辑模型向数据仓库的物理模型转化。各种 数据模型的设计和建立是实现数据仓库的关键【2 】。 3 有关数据仓库的研究,并不仅仅停留在理论上【l l 。采用s q ls e r v e r 所提 供的数据仓库工具构建用于支持管理决策的库存分析数据仓库也是本课题的工 作之一。 5 硕士学位论文第一章绪论 4 根据行业和企业的特点,建立内容完备、结构合理的数据仓库,是为决 策提供支持不可或缺的基础。在此基础上,还必须使用适当的技术和工具,对存 储的数据进行全面、透彻地分析,以最终实现决策支持的目标。联机分析处理 ( o n l i n ea n a l y t i c a lp r o c e s s ,o l a p ) 以数据仓库为应用平台,根据决策者的需求, 迅速而灵活地对数据仓库中的大量数据进行复杂、有效的分析处理,并将结果以 直观的形式提供给决策分析人员,从而实现对决策的支持【l j 。o l a p 是使分析人 员,管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正 为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取,从 而获得对数据的更深入理解暖7 1 。 5 数据库中的知识发现( k d d ) 是从数据中发现有用的信息和模式的过程。 数据挖掘是指使用算法来抽取信息和模式,是k d d 过程的一个步骤【2 引。数据挖 掘( d a t am i n i n g ,d m ) 就是从大量的、不完全的、有噪声的、模糊的、随机的 数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识 的过程 2 9 1 。数据挖掘技术是数据库技术和人工智能技术相结合的产物,解决了在 信息技术发展中存在的拥有大量数据、但缺乏有用信息的问题,完成从业务数据 到决策信息的转换【3 0 】。 本论文共分为五章:第一章,对论文的研究背景和意义以及国内外研究现状 进行了分析。第二章,介绍了数据仓库及其相关技术。第三章,介绍库存分析决 策支持系统的设计与实现过程。第四章,介绍数据挖掘技术在库存分析决策支持 系统中的应用。第五章,总结了库存分析决策支持系统的特点及有待完善之处。 1 5 本章小结 本章主要介绍了本课题研究的背景与意义、课题来源、国内外研究现状与水 平,并对本课题研究的主要内容以及本文的写作思路进行了详细的叙述。 6 硕士学位论文第二章数据仓库及其相关技术概述 第二章数据仓库及其相关技术概述 2 1e r p 企业资源计划 e r p ( e n t e r p r i s er e s o u r c e sp l a n n i n g 企业资源计划) ,可以从管理思想、软件 产品、管理系统三个层次给出它的定义。 1 管理思想 是由美国著名的计算机技术咨询和评估集团g a r t e rg r o u pi n c 提出了一整 套企业管理系统体系标准,其实质是在m r p i i ( m a n u f a c t u r i n gr e s o u r c e s p l a n n i n g 制造资源计划) 基础上进一步发展而成的面向供应链的管理思想。 2 软件产品 是综合应用了客户机服务器体系、关系数据库结构、面向对象技术、图形 用户界面、第四代语言( 4 g l ) ,网络通讯等信息产业成果,以e r p 管理思想为灵 魂的软件产品。 3 管理系统 是整合了企业管理理念、业务流程、基础数据、人力物力、计算机硬件和软 件于一体的企业资源管理系统。 e r p ( e n t e r p r i s er e s o u r c ep l a n ,企业资源计划) 是集现代信息技术和先进的管 理理念于一身,基于面向供应链的管理思想,把企业经营生产过程中的有关各方 和各个环节纳入一个紧密的供需体系中,对供应链中的信息流、物流、资金流、 工作流和增值流进行设计、规划和控制,合理有效地安排企业产、供、销活动, 使企业能够及时有效地利用一切资源快速高效地进行生产经营活动,是服务于企 业决策、生产、运营的管理信息系统和综合管理平台。 e r p 最初是一种基于企业内部供应链的管理思想,它在m r p1 1 的基础上扩 展了管理范围。其基本思想是把企业的业务流程看作是一个紧密联接的供应链, 并将企业内部划分成几个相互协同作业的支持子系统,如财务、市场营销、生产 制造、服务维护、工程技术等,可对企业内部供应链上的所有环节如订单、采购、 库存、计划、生产制造、质量控制、运输、分销、服务与维护、财务、成本控制、 经营风险与投资、决策支持、人力资源等有效地进行管理,从管理的范围和深度 上为企业提供了更丰富的功能和工具。 e r p 将作为管理现代化的重要工具,在国内外的企业等组织得到越来越广泛 的应用。但是,由于完全基于e r p 系统的数据分析能力大都不够强大,而e r p 系统启动运行之后,基于e r p 系统地查询与数据分析能力是e r p 使用是否成功 的重要指标。这就需要有相关的工具来完成这个功能。 7 硕士学位论文 第二章数据仓库及其相关技术概述 福州西城电子有限公司使用的是浪潮e r p ,功能模块有帐务处理、采购管理、 库存管理、存货核算、销售管理。随着时间的推移,企业内部积累的经营数据越 来越多,如何有效地利用这些数据,从中挖掘出有价值的知识和规则来支持企业 管理决策,进一步提升企业的综合竞争力是摆在公司管理者面前的一个重要而紧 迫的任务。由于e r p 是面向企业事务处理的系统,强调密集的数据更新和系统 的可靠性,其业务数据模式是针对事务处理系统设计的,因而数据格式、描述方 式和体系结构并不适合管理决策层进行决策分析。而数据仓库技术则是被广泛认 同的面向数据分析方面的技术。与e r p 系统集成的数据仓库能够将采集的样本 数据和分析结果存入数据仓库以便决策者查询使用,帮助决策者发现e r p 系统 中大量数据的潜在价值。基于这种考虑,决定在福州西城电子有限公司原有的 e r p 系统的基础上构建基于数据仓库的决策支持系统,由于毕业设计时间有限, 不可能完成所有功能的数据仓库的构建,因此,我选取了基于数据仓库的库存分 析决策支持系统的构建,并完成o l a p 分析和关联规则的挖掘,以满足企业领导 预测原料及产品的供应和需求的变化趋势及对原料、产品进行合理的、科学的库 存控制的决策需要。 2 2 数据仓库( d w ) 2 2 1 数据仓库与传统数据库的区别与联系 数据仓库是在传统数据库的基础之上发展起来的,但它并不是对传统数据的 彻底抛弃,而是在弥补传统数据库在数据分析能力方面的不足。数据仓库的数据 源来自操作型数据库,即联机事务处理系统。在数据提取一转换一加载处理系统 的控制下,数据完成一系列的转换,变成对终端用户有用的信息,形成一个新的 集成系统( 联机分析系统) ,并用于决策分析。对数据仓库而言,主要特点是集成 和分析能力,数据仓库与传统数据库的比较在内容、目标、结构等方面有明显区 别,具体如表2 1 所示。 表2 - 1 数据仓库与数据库对比表 8 硕士学位论文 第二章数据仓库及其相关技术概述 2 2 2 数据仓库的概念和基本特征 在数据仓库的发展过程中,许多人对此做也了贡献。其中,d e v l i n 和m u r p h y 在1 9 8 8 年发表了关于数据仓库论述的最早文章。而w i l l i a mh i n m o n 在1 9 9 3 年 所写的论著( ( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 则首先系统地阐述了关于数据仓库的 思想、理论,为数据仓库的发展奠定了历史基石。在文中,他将数据仓库定义为: “一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管 理层的决策过程 【1 5 j 。 数据仓库具有这样一些重要的特性:面向主题性、数据集成性、数据的时变 性、数据的非易失性、数据的集合性和支持决策作用。 1 面向主题性 面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据 都是围绕着某一主题组织展开的。从信息管理的角度看,主题是在一个较高的管 理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的 分析对象。而从数据组织的角度看,主题就是一些数据集合,这些数据集合对分 析对象做了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且还涉 及到数据之间联系。 数据仓库的创建、使用都是围绕着主题实现的。因此,我们必须了解如何按 照决策分析来抽取主题;所抽取出的主题应该包含哪些数据内容;这些数据内容 应该如何组织。 2 数据集成性 数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽 取、筛选、清理、综合等工作,使数据仓库中的数据具有集成性。首先从源数据 库中挑选出数据仓库所需要的数据,将这些来自不同数据库中的数据按照某一标 准进行统一,即将不同数据源中的数据的单位、字长与内容按照数据仓库的要求 统一起来,消除源数据中字段的同名异义、异名同义现象,这些工作通称为数据 的清理。在将源数据加载进数据仓库后,还需要将数据仓库中的数据进行某种程 度的综合,即根据决策分析的需要对这些数据进行概括、聚集处理。 3 数据的时变性 数据仓库的时变性,就是数据应该随着时间的推移而发生变化。尽管数据仓 库中的数据并不像业务数据库那样要反映业务处理的实时状况,但是数据也不能 长期不变。数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加 到数据仓库中去,也就是说在数据仓库中不断地生成主题的新快照,以满足决策 分析的需要。快照是业务处理系统的某一时间的瞬态图,而这些瞬态图则构成了 数据仓库中数据的不同画面,这些画面的连续播放可以产生数据仓库的连续动态 9 硕士学位论文第二章数据仓库及其相关技术概述 变化图,这十分有利于高层管理者的决策。 4 数据的非易失性 数据仓库的数据非易失性是指数据仓库中的数据不进行更新处理,而是一旦 数据进入数据仓库以后,就会保持一个相当长的时间。因为数据仓库中数据大多 表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样, 要经常进行修改、添加,除非数据仓库中的数据是错误的。 数据仓库的操作除了进行查询外,还可以定期进行数据的加载,即追加数据 源中新发生的数据。数据在追加以后,一般不再修改,因此数据仓库可以通过使 用索引、预先计算等数据处理方式提高数据仓库的查询效率。 数据的非易失性可以支持不同的用户在不同的时间查询、分析相同的问题, 获得同一结果。避免了以往决策分析中面对同一问题,因为数据的变化而导致结 论不同。 5 数据的集合性 数据仓库的集合性意味着数据仓库必须按照主题,以某种数据集合的形式存 储起来。目前数据仓库所采用的数据集合方式主要是以多维数据库方式进行存储 的多维模式、以关系数据库方式进行存储的关系模式或以两者相结合的方式进行 存储的混合模式。 6 支持决策作用 数据仓库组织的根本目的在于对决策的支持。高层的企业决策者、中层的管 理者和基层的业务处理者等不同层次的管理人员均可以利用数据仓库进行决策 分析,提高管理决策的质量。 2 2 3 数据仓库的体系结构 数据仓库系统( d a t aw a r e h o u s es y s t e m ,d w s ) 是以数据仓库为基础,通过查 询工具和分析工具,完成对数据的提取,满足用户的各种需求,它具体由数据源、 数据的存储层、o l a p 服务器、前端工具四部分组成,其结构形式如图2 1 所示。 1 数据源 数据仓库的数据源是指存储在数据仓库中的数据来源,是数据仓库系统的基 础,主要包括:业务数据、历史数据、办公数据、w e b 数据、外部数据以及数据 源元数据。 2 数据的存储层 数据存储层是数据仓库的主体,所存储的数据包括三部分,其一是从外部数 据源抽取,经清洗、转换处理,并按主题组织存放的业务数据,其二是数据仓库 的元数据,其三是针对不同的数据挖掘和分析主题而生成的数据集市。 l o 硕士学位论文第二章数据仓库及其相关技术概述 3 o l a p 服务器 对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、 多层次的分析,并发现趋势。其具体实现可以分为:r o l a p ,m o l a p 和h o l a p 。 r o l a p 基本数据和聚合数据均存放在r d b m s 之中;m o l a p 基本数据和聚合 数据均存放于多维数据库中;h o l a p 基本数据存放于r d b m s 之中,聚合数据 存放于多维数据库中。 4 前端工具 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种 基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 数据源 查询工具 报表工具 图2 - 1 数据仓库系统结构图 构造一个完善的数据仓库,其过程十分复杂,设计者不仅需要具备高超的专 业水平和编程能力,还应该对所涉及的行业有深入的了解。从数据的获取、清洗、 组织、存储、管理方法,到为满足决策要求而必需的操作流程与分析算法,都应 进行全面的、妥善的规划设计。数据仓库体系结构也不是一成不变的,可根据企 业规模、决策类型、数据特点、应用环境的不同而有所改变,常见的数据仓库体 系结构有如下四种: 1 虚拟数据仓库结构 虚拟数据仓库利用描述了业务系统中数据位置和抽取数据算法的元数据直 接从业务系统中抽取查询的数据进行概括、聚合操作后,将最终结果提供给用 户,如图2 2 所示。 凰尽凰凰 日日日口 硕士学位论文 第二章数据仓库及其相关技术概述 2 - 2 虚拟数据仓库结构 2 数据集市结构 数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数 据仓库,没有一个独立的数据仓库。系统的数据不存储在同一数据仓库中,每个 主题有自己的物理存储区,如图2 3 所示。 3 单一数据仓库结构 将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照 同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数 据发布到数据集市中,如图2 4 所示。 图2 - 4 单一数据仓库结构 4 分布式数据仓库结构 在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据仓 库,各个分公司设置各自的局部数据仓库。局部数据仓库主要存储各自的未经转 换的细节数据,全局数据仓库中主要存储经过转换的综合数据,如图2 5 所示。 1 2 硕士学位论文第二章数据仓库及其相关技术概述 图2 - 5 分布式数据仓库 2 2 4 数据仓库模型设计 在创建数据仓库之时,需要使用各种数据模型对数据仓库进行描述。数据仓 库的开发人员依据这些数据模型,才能开发出一个满足用户需求的数据仓库。数 据模型具有三个不同的层次:概念模型、逻辑模型、物理模型1 3 1 1 。每一个层次实 质上是一种前面所开发的数据模型的精炼或更加详细的表达。在设计期间,通过 多层次的细化,建立与用户需求更加一致的面向主题的数据仓库。三级模型的结 构如图2 - 6 所示。 细 细化 图2 - 6 三级模型结构 作为数据仓库的灵魂元数据模型则自始至终伴随着数据仓库的开发、实 施与使用。数据粒度和聚集模型也在数据仓库的创建中发挥着指导的作用,指导 着数据仓库的具体实现。 1 概念模型设计 数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合, 所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原 有的数据库系统中“有什么、“怎样组织的 和“如何分布的等,然后再来考 虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文 档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一 个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的, 它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。概念模型的 硕士学位论文第二章数据仓库及其相关技术概述 设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件 的限制。 进行概念模型设计所要完成的工作是: ( 1 ) 界定系统的边界 确定一些基本的方向性的需求:要做的分析类型有哪些? 分析者感兴趣的是 什么问题? 这些问题需要什么样的信息? 要得到这些信息需要包含原有数据库 系统的哪些部分的数据? 由此,我们可以划定一个当前的大致的系统边界,集中 精力进行最需要的部分的开发。因而,从某种意义上讲,界定系统边界的工作也 可以看作是数据仓库系统设计的需求分析,因为它将分析者的数据分析需求用系 统边界的定义形式反映出来。 ( 2 ) 确定主要的主题域 确定系统所包含的主题域,对每个主题域的内容进行较明确的数据仓库建模 技术的相关应用的描述,描述的内容包括:主题域的公共码键;主题域之间的联 系;充分代表主题的属性组。 2 逻辑模型设计 逻辑建模是数据仓库实施中的重要一环,它能直接反映出业务部门的需求, 同时对系统的物理实施有着重要的指导作用。在这一步里进行的工作主要有: ( 1 ) 分析主题域 在概念模型设计中,我们确定了几个基本的主题域,但是数据仓库的设计方 法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主 题地逐步完成的。所以我们必须对概念模型设计步骤中确定的几个基本主题域进 行分析,并选择首先要实施的主题域。选择第一个主题域所要考虑的是它要足够 大,以便使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开 发和较快地实施。在每一次的反馈过程中都要再进行主题域的分析。 ( 2 ) 粒度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 荆门市中石油2025秋招笔试模拟题含答案行测综合英语
- 中国广电银川市2025秋招财务审计类专业追问清单及参考回答
- 陕西地区中石化2025秋招笔试模拟题含答案安全环保与HSE岗
- 阿里市中储粮2025秋招面试专业追问题库综合管理岗
- 中国广电蚌埠市2025秋招行业解决方案岗位专业追问清单及参考回答
- 本溪市中石油2025秋招面试半结构化模拟题及答案新材料与新能源岗
- 焦作市中储粮2025秋招面试专业追问题库综合管理岗
- 宝鸡市中石化2025秋招笔试行测50题速记
- 哈密市中石油2025秋招笔试行测专练题库及答案
- 中国移动儋州市2025秋招笔试行测题库及答案供应链采购类
- 国庆中秋双节安全培训课件
- 2025年全国青少年全国禁毒知识竞赛试题及答案
- 云南学法减分题库及答案
- 幼儿园大班数学活动《4的分解与组合》课件
- 江苏省制造业领域人工智能技术应用场景参考指引2025年版
- 三级医师查房制度考试题(含答案)
- 文旅公司考试试题及答案
- 2025秋七年级开学新生家长会《启幕新篇章携手创辉煌》【课件】
- 2025至2030年中国公立医院行业发展监测及市场发展潜力预测报告
- GJB3243A-2021电子元器件表面安装要求
- 2025年全国翻译专业资格(水平)考试土耳其语三级笔译试卷
评论
0/150
提交评论