




已阅读5页,还剩69页未读, 继续免费阅读
(计算机应用技术专业论文)基于j2ee的智能仓库决策支持系统的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 j i要 摘要 随着网络应用的普及,i n t e r n e t 办公平台日益流行。信息化在经济增长中的作用 同益显著,信息技术的有效运用对提高企业的经济效益,优化企业资源配置,提高 企业核心竞争力,以及在未来拓展更大发展空间等方而起到举足轻重的作用。因此, 管理者迫切需要一套适合自身企业发展的管理信息系统来及时了解企业信皂。做出 利于企业快速发展的决策。 本论文采用基于j 2 e e 平台的b s 开发模式,探索丌发基于j 2 e e 平台的高效稳 定、安全可靠、具有良好的可移植性和跨平台性的决策支持系统的实现方法。系统 采用基于j 2 e e 架构的三层体系结构,即表示层、业务逻辑层和数据存储层。 遗传算法( g e n e t i ca l g o r i t h m ,简称g a ) 作为模拟自然界生物进化原理的一种随机 性全局优化概率搜索算法,具有很强的全局搜索能力,特别适合求出问题的近似最 优解。因而用遗传算法可以很好解决库存问题。仓库管理信息化的基本部分为物品 的存储策略,合理的存放能够充分的利用库存,节约库存成本。库存决策模型是库 存决策支持系统的理论基础。库存决策分为单一品种库存决策和多品种库存决策两 个大类下在各种情况下的几类决策算法模型,存在决策策略的选择问题。遗传算法 “适者生存”原则和库存决策策略的选择基本原则一致,在本文中我们主要将遗传 算法应用到库存决策策略的选择问题上。 最后,本文还结合库存决策支持系统在企业经营管理中的实际应用,构建了系 统数据仓库,还对库存决策支持系统设计了良好的人机交互界面。石家庄常丰环境 工程有限公司库存决策支持系统就是根据公司的需要f 厄开发的一套基于j 2 e e 架构的 管理信息系统。 关键词 j 2 e e ;j a v a b e a n :决策支持系统:数据挖掘:数据仓库 河北科技大学硕士学位论文 a b s t r a c t w i t ht h ep o p u l a r i t ) ro fn e t w o r k ,i n t e r a c ta n dt h ei n c r e a s i n gf u n c t i o no ft h e i n f o r m a t i o ni ne c o n o m i cg r o w t h ,t h ee f f e c t i v ea p p l i c a t i o no fi n f o r m a t i o nh a sa r te s s e n t i a l f u n c t i o ni n i m p r o v i n gt h e e c o n o m i c p e r f o r m a n c e ,o p t i m a l l ya l l o c a t i n gr e s o u e c e s , e n h a n c i n gt h ec o m p e t i t i o na n db r o a d e n i n gt h es p a c ef o rt h ef u t u r ed e v e l o p m e n to ft h e e n t e r p r i s e s t h u sm a n a g e r sa r eu r g e n tt on e e dam a n a g e m e n ts y s t e mw h i c hi ss u i t a b l ef o r t h ed e v e l o p m e n to ft h e i ro w ne n t e r p r i s e st oa c q u i r ei n f o r m a t i o nq u i c k l ya n dt om a k e d e c i s i o nw h i c hc a n p r o m o t et h ef a s td e v e l o p m e n t t h i st h e s i sf o c u s e so nt h eb sm o d e lp r o g r a m m i n gb a s e do nt h ej 2 e es t r u c t u r e , s e a r c h i n gt h ea p p r o a c h e sf o rt h ee x p l o i t a t i o no f i n f o r m a t i o nm a n a g e m e n ts y s t e mw h i c hi s e f f i c i e n t ,s t a b l e ,s e c u r ea n dt r a n s p l a n t a b l ea n dc a nw o r kc r o s ss e v e r a lp l a t f o r m s t h e s y s t e me m p l o y e di n t h et h e s i sa d o p t sas t r u c t u r eo ft h r e el e v e l sb a s e do nt h ej 2 e e s t r u c t u r e ,n a m e l yp r e s e n t a t i o nl a y e r , b u s i n e s sl o g i c a ll a y e ra n dd a t aa c c e s sl a y e r g e n e t i ca l g o r i t h m ,w h i c hs i m u l a t e st h en a t u r a le v o l u t i o n ,a sar a n d o mg l o d o mg l o b a l p r o b a b i l i t yo p t i m i z a t i o m ns e a r c h i n ga l g o r i t h m ,h a ss t o m ga b i l i t yo fg l o b a ls e a r c h i n ga n d i ss u i t a b l ef o rg e t t i n ga p p r o x i m a t em o s to p t i m i z e da n s w e r s oi ti sag o o dw a yt os o l v et h e p r o b l e mo fs h e l fp o l i c y i n v e n t o r y d e c i s i o nm o d e li s a ni m p o r t a n tt h e o r yb a s i co f i n v e n t o r yd e c i s i o ns u p p o r ts y s t e m a m o n gt h ei n v e n t o r yd e c i s i o nm a n a g e n m e n tw h i c h a p p l i e di n f o r m a t i o n a lm e t h o d ,t h em o s tc o m p l i c a t e dp a r ti ss h e l fp o l i c y , w h i c hd e c i d e st h e s t o r a g ee f f i c i e n c y a n da na p p r o p r i a t e dm e t h o do fg o o d ss t o r i n g i sn e c e s s a r yf o ra c o m p a n y t or e d u c ec o s t i na d d i t i o n ,t h ei n v e n t o r yd e c i s i o nm o d e lu s et h ef o r e c a s tm o d e l t oh e l pt h ed e c i s i o nm o d e lt oa d a p tt h er e a li n v e n t o r yd e c i s i o n a n a l y z i n gt h es y s t e m d e v e l o p m e n tm e t h o d ,d e c i s i o nf l o wa n dd a t af l o w , t h ep a p e rd i s c u s st h ed e s i g nt h o u g h t a n dp r i n c i p l e ,t h ef r a m e ,t h es t r u c t u r ea n dt h ef u n c t i o no ft h es y s t e ma n di t sc o m p o s i n g a tl a s t ,c o n s i d e r i n gt h ei n v e n t o r yd e c i s i o ns u p p o r ts y s t e mb e i n ga f f e c tb ys o m e f a c t o ri n s i d ea n do u ts i d et h ee n t e r p r i s e ,c o m b i n i n gt h er e a la p p l i c a t i o no fi n v e n t o r y d e c i s i o ns u p p o r ts y s t e m ,t h ep a p e rb r i n gf o r w a r ds o m ea d v i c eo nr e a la p p l i c a t i o n t h e i n f o r m a t i o n a lm a n a g e m e n ts y s t e mf o rt h es h i j i a z h u a n gc h a n g f e n gc o m p a n yi sad e s i g n e d s y s t e mb a s e do nt h ej 2 e es t r u c t u r ea c c o r d i n gt ot h en e e do ft h es 心i a z h u a n gc h a n g f e n g e n t e r p r i s e s k e yw o r d sj 2 e e ;j a v a b e a n ;d s s ;d w ;d m i i 河北科技大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工 作所取得的成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发 表或撰写过的作品或成果。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:妄感芨 指导教师签名: 参彩彩 l 沙9 洛阳6 日沙砗( 明6e t ;- - i j t 科技大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留 并向国家有关部门或机构送交论文的复印件和电子版,- 允许论文被查阅和借阅。本 人授权河北科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 口保密,在一年解密后适用本授权书。 本学位论文属于 曰禾保密。 ( 请在以上方框内打“4 一 学位论文作者签名:曼峨曼 沙。甲年f 胡f 日 指导刻磁名串磊抢 沙孑年) 胡6 日 第1 章绪论 1 i 课题研究的背景 第1 章绪论 随着经济突飞猛进的发展,企业竞争越来越激烈,企业必须不断加强企业的管 理,充分利用企业自身的资源,以降低运营成本,增强企业的竞争优势。基于决策 支持的仓库管理相关技术的出现和不断发展给企业经营带来了巨大的经济效益。与 以往的仓库管理信息系统相比,仓库决策支持系统更具有系统性、预测性和辅助决 策等各项功能。仓库的决策支持系统是一个涉及多领域、多部门、多目标、由多个 子系统组成、具有多环节多层次的复杂系统。 由于库存是企业的一项重要流动资产,占用了企业大量的流动资金。据统计, 库存占企业总资产的3 0 左右。其管理、利用情况直接关系到了企业的资金占用水 平以及资产运行效率。正确的库存管理方法,提高库存的流转速度和总资产的周转 率,可以有效地提高企业的经济效益,因此,库存的决策在企业经营中显得特别重 要。若能通过库存管理使库存节约即使很小的百分比,对企业来讲,其经济效益也 是十分可观的。在市场竞争的同益激烈今天,降低库存成本己经成为企业的“第三 利润源泉”的重要来源之一。以确定合理的库存量,何时补充库存以及补充多少数 量等为主要内容的库存管理决策成为了企业物流管理决策中的一个重要的内容。在 这种机遇和挑战下,如何利用信息技术提升企业库存管理决策水平,成为了国内外 企业近来关注的热点。 在传统的库存管理系统中,库存管理决策面临着较为复杂的情况,库存管理决 策的对象常具有种类繁多、数量巨大等特点,管理人员每天常被大量的单据、台帐 淹没,信息处理速度低,而且容易出错,这也造成了管理人员对市场库存供应和物 资需求的变化反应迟钝,决策效果比较差。要提高仓库利用率,保持高效率的货物 周转,实施精确的存货控制,没有计算机的信息管理和决策是不可想象的。 在企业管理过程中引入库存决策支持系统( i n v e n t o r yd e c i s i o ns u p p o r ts y s t e m i d s s ) ,可以发挥计算机信息处理速度快的优势,建立科学的库存决策模型,可以有 效地解决企业在库存管理中遇到的半结构化和非结构化的问题。 库存决策支持系统是综合利用运营管理中相关的物流数据和理论模型,帮助企 业决策人员解决半结构化或非结构化物流决策问题的人机交互计算机系统。在 企业库存管理中建立库存决策支持系统可以扩展决策者处理信j 息和知识的能力,提 高其处理复杂问题的能力;有利于推动现代科学技术在库存管理领域的应用;有助 于提高整个物流系统的管理水平,加速库存管理工作的现代化,从而解决库存等相 河北科技大学硕士学位论文 关领域决策的背景复杂、多变和不可预知等难题。 库存决策支持系统具有广阔的应用前景,在生产、销售以及其它涉及到存储问 题的领域都能得到广泛地应用。有必要对库存决策支持系统的理论和开发进行深入 的研究和探讨。 1 2 课题目的及意义 由于中国的综合国力不断增强,经济得到了巨大发展,还以惊人的速度不断的 发展,但是经济得发展是以环境的不断恶化,资源的巨大消耗为代价的。石家庄常 丰环境工程有限公司是一家专业从事环保设备的设计、加工、安装、制作、调试, 安全评价和安全技术服务为一体的综合性公司。所承揽的污水处理工程遍布全国。 生产制造的各类环保产品、环保器材销往全国各地,面对日益复杂的企业库存管理 业务,开发基于决策支持的库存管理信息系统对于公司提高管理水平有极大帮助。 环境工程项目系统性强,对管理的要求极高。作为该项目管理中重要环节的库 存管理,面临严峻的挑战。主要表现在: 1 ) 由于转运周期较长。而市场竞争激烈,缺货成本很高。 2 ) 市场瞬息万变,库存产品随时存在呆滞的可能。 3 ) 库存产品占用资金较多,财务成本很高。 4 ) 相关产品的新技术不断出现,更新较快,定期检查库存状况,对管理的要求比 较高。 5 、为控制产品品质,增加产品的可追溯性,同时为加强市场区域管理,需要对产 品设备进行记录,跟踪产品去向。这项工作如果以人工操作,工作量巨大,错误率 也比较高。 本软件的开发,旨在提高企业库存管理水平,提高决策水平。 软件的应用可使库存管理的执行者提高工作效率,使企业决策者随时了解库存 的状况,并在进行库存管理决策过程中,能够有效地应用各种数据和信息,利用自 己和他人的经验和知识,来制订有效的、正确的、科学的决策,降低企业的经营风 险,提高企业的经济效益。 1 - 3国内外研究现状 ( 1 ) 库存管理问题库存是长久以来伴随着人们经济活动的一个重要的组成内 容。美国生产与库存管理协会( a p i c s ) 把库存定义为“以支持生产、维护、操作和客 户服务为目的而存储的各种物料:包括原材料和在制品、维修件和生产消耗品、成 品和备件等”。 库存管理的四个基本问题是:存储管理、订货量、订货时间、安全库存。库存 管理的研究范围相当广,包括在决定物品库存时必须解决的主要问题的研究。这些 2 第1 章绪论 基本问题有:如何对库存物品按进行分类存储:何时订货、订货的数量、安全库存、 库存控制、信息技术在库存管理中的应用等。库存可分类为分离式库存、季节性库 存、投机性库存、周期性库存、途中库存。比较典型的是分离式库存,一般由工厂、 总代理、经销商、零售店和最终客户等环节组成,除最终客户外的每个环节都会有 库存,各环节间的物品流转需要时间,后节点向前节点提出订货。 库存系统的特征: 1 ) 库存系统属于顾客需求型,由市场所驱动。 2 ) 库存的计划性。管理者需要决定库存时间和库存数量。 3 ) 补充订货的时效性。订货要提前进行,库存系统必须明确从下订单到到货的时 间。 4 ) 环境限制性和成本限制性。库存受到场地空间,物品保质期及资金成本的限制。 ( 2 )库存管理的决策支持决策的概念:决策是人们为了实现一定的目的,从 行动方案中进行选择的过程。决策可广义地解释为一个过程,包括提出问题、收集 资料、确定目标、拟定方案、分析评价、方案确定和实施的过程。管理决策是整个 箩理过程的核心。为了说明该思想,可以先了解计划的主要内容,即计划包含一系 列决策。如要做什么? 何时做? 何处做? 由谁做? 因此,计划意味着决策。管理过程 的其他功能,例如组织和控制也包含决策。 决策支持系统( d s s ) 的概念:在2 0 世纪7 0 年代初期,s c o t tm o r t o n ( 1 9 7 1 ) 首先提 出厂d s s 的重要概念,他将d s s 定义为:“一种交互式的基于计算机的系统,该系 统能帮助决策人使用数据和模型解决非结构化的问题”,k e e n 和m o r t o n ( 1 9 7 8 ) 准出了 d s s 的另一个经典的定义。即:d s s 将人们的智能资源与计算机的功能相结合,以 改进决策质量,d s s 是一种处理半结构化问题,为管理决策人服务的基于计算机的 支持系统。 国内外学者在库存管理决策支持系统的研究方面也做了不少工作。a c h a b a l d e l e d m c i n t y r e ( 2 0 0 0 ) 开发了一个用于支持供应商管理库存的决策支持系统,提出了市场 预测和库存管理模型,通过供应商和零售商的合作来提高客户服务水平【3 l 。 s p r a s a d ,v s h a h j h a s a n ( 1 9 9 5 ) 开发了一个库存决策支持智能模型管理系统原型, 根据物品的分类情况和需求特征帮助管理人员选择合适的库存控制策略 4 1 。 h o u n g e e ,c h e n s i n h a ( 1 9 9 6 ) 提出了一个基于面向对象的库存决策支持系统,详细介 绍了面向对象的知识表示和实施细节。d p e t r o v i c ,r p e t r o v i c 、a s e n b o m ( 1 9 9 0 ) 幂1 :1 d p e t r o v i c ( 1 9 9 2 ) 也进行了相应的库存决策支持系统研究,根据特定的使用背景,提 出了基于费用优化的库存模型并进行了决策支持系统设计,在他们的文章中多假设 备件的需求服从正态分布,较少考虑到不常用物品的库存【5 】。 叶飞跃( 2 0 0 1 ) 以商业企业库存管理为背景,研究了库存智能管理系统的基本结 河北科技大学硕士学位论文 构,提出了数据库管理系统、模型库管理系统及知识库系统的设计方案,主要用于 解决商品的出入库、盘点、库存报表和库存商品处理建议表的生成。高福家、吴继 庚、余泽海等( 1 9 9 7 ) 运用智能管理,库存论和决策分析等基本思想,提出一种面向管 理决策者的备件管理智能决策支持系统的设计方法,其结构包括数据库、模型库系 统、知识库系统、方法库系统、图形库系统、文本库系统,其功能包括出入库管理、 统计分析、库存管理和结账管理,决策模型同样是基于费用优化的随机模型 9 1 。 目前国内软件市场上流行的库存软件虽然较多,但这些系统大多都是对企业库 存的事物性信息处理和业务模拟,并没有达到库存管理决策支持的最终目的。因此, 我们有必要对库存决策支持系统的总体框架、设计、实现、各相关功能子系统及决 策分析,并加强其实用性的开发。 1 4 论文工作 本文借助现代库存管理科学及决策支持系统理论知识,把决策支持系统( d s s ) 应 用到企业的库存管理中,参照国内外最新研究成果,开发了本企业的库存管理决策 支持系统。本文的主要工作: 1 ) 搜集国内外已有的库存管理及决策理论,追踪发展中的库存决策前沿理论,作 为本课题实现的理论基础。 2 ) 对项目需求进行分析,了解项目对系统在库存物品管理控制、库存决策支持、 系统环境要求等方面的需求。 3 ) 根据需求,对系统的物品管理功能进行设计,参照决策模型,设计了系统的决 策功能。 4 ) 通过编制软件,为企业开发出一个比较实用的库存管理决策支持系统。 4 第2 章相关技术与概念总述 第2 童相关技术与概念总述 2 1 数据仓库基本原理 2 1 1 数据仓库的概念 数据仓库( d m 是w h i n m o n 在建立数据仓库中提出的。w h i n m o n 定义数 据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理 中的决策制定过程【1 2 】。s a s ( s t a t i s t i c a la n a l y s i ss y s t e m ) 软件研究的观点认为数据仓库 是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。 对于数据仓库的概念,可以从两个层次理解:首先,建设数据仓库系统的目的在于 支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库:其次,数据 仓库是对多个异构的数据源进行有效集成,集成后按照主题进行重组,并包含历史 数据,而且存放在数据仓库中的数据一般不再修改。 数据仓库具有以下特点: ( 1 ) 面向主题操作型数据库的数据组织面向事务处理任务,各个业务系统之 间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象 的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多 个操作型信息系统相关。 ( 2 ) 集成的面向事务处理的操作型数据库通常与某些特定的应用相关,数据 库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据 库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中 的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 ( 3 )相对稳定的 操作型数据库中的数据通常实时更新,数据根据需要及时发 生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据 查询,一旦某个数据进入数据仓库以后,般情况下将被长期保留,也就是数据仓 库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷 新。 ( 4 )反映历史变化 操作型数据库主要关心当前某一个时间段内的数据,而数 据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用数 据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和 未来趋势做出定量分析和预测。 2 1 2 数据仓库的体系结构 数据仓库系统是多种技术的综合体,是一个包含四个层次的体系结构,其包括 河北科技大学硕士学位论文 数据源、数据存储与管理、o l a p 服务器和前端工具和应用四部分。 ( 1 ) 数据源是数掘仓库系统的基础,是整个系统的数据源泉。通常包括企业 内部信息和外部信息。内部信息包括存放于d b m s 中的各种业务处理数据和各类文 档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。 ( 2 ) 数据的存储与管理是整个数据仓库系统的核心。数据仓库的真正关键是 数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也 决定了其对外部数据的表现形式。要决定采用什么产l 晶和技术来建立数据仓库的核 心,则需要从数据仓库的技术特点着手分析。 针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组 织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常 称为数据集市) 。 ( 3 ) o l a p 服务器对分析需要的数据进行有效集成,按多维模型予以组织, 以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 和 m l o a p 、h l o a p 基本数据和聚合数据均存放在d b m s 之中jm l o a p 基本数据和 聚合数据均存放于多维数据库中:h l o a p 基本数据存放于d b m s 之中,聚合数据 存放于多维数据库中。 ( 4 ) 前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘 工具以及各种基于数据仓库或数据集市的应用开发工具。 其中数据分析工具主要针对o l a p 服务器,报表工具、数据挖掘工具主要针对 数据仓库。 2 1 3数据仓库的数据组织 ( 1 )数据组织在数据仓库中,通常采用分级的方式进行数据组织,一般包括 早期细节数据、当前细节数据、轻度综合数据、高度综合数据以及元数据。一般的 数据组织结构如图2 1 所示。 1 ) 早期细节数据:存储过去的详细数据,反映真实的历史情况。 2 ) 当前细节数据:最近的各种业务数据,反映当前业务的情况,是数据仓库用户 最感兴趣的部分。随时间的推移,当前细节数据将变为早期细节数据。 3 ) 轻度综合数据:从当前基本数据中提取出来,通常以较小的时间段或相应维度 统计而形成的数据量较小的数据。 4 ) 高度综合数据( 准决策数据) 。 5 ) 元数据:元数据( m e t a d a t a ) 是关于数据的数据,是描述数据仓库内数据结构和 建立方法的数据。可将其按用途分为两类:技术元数掘( t e c h n i c a lm e t a d a t a ) 和业务元 数据( b u s i n e s sm e t a d a t a ) 。 6 第2 章相关技术与概念总述 图2 ,1数据仓库数据组织结构 f i g 2 1 d a t as t r u c t u r eo f d a t aw a r e h o u s e 高度综合级 轻度综合级 当前细节级 早期细节级 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据 仓库的数据,主要包括数据仓库结构的描述( 各个主题的定义,星型模式或雪花型模 式的描述定义等) 、对数据稽核规则的定义和数据仓库定义描述与装载描述( 包括 c u b e 的维度、层次、度量以及相应事实表、概要表的抽取规则) 。 业务元数据从业务角度描述了数据仓库中的数据,业务元数据包括以下信息: 使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据来 源;系统所提供的分析方法及公式、报表信息。 ( 2 ) 数据粒度粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓 库的数据单位中保存数据的细化或综合程度的级别。数据粒度越小,信息越细节, 数据量越大,数据粒度越大,忽略了众多的细节,数据量越小。综合程度不同的数 据其用途也不相同,在数据仓库中多重的数据粒度是必不可少的,往往这是数据仓 库必须提供高效的各种o l a p 分析查询所决定的。 ( 3 ) 数据分割 数据分割是数据仓库中的另一个重要概念。它是指将数据分散 到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。数据分割后的 数据单元称为分片。进行数据分割的理由是:我们在进行实际的分析处理时,对于 存在某种相关性的数据集合的分析是最常见的,如对某一时间或某一时段的数据的 分析、对某一地区的数据的分析、对特定业务领域的数据的分析等等。如果我们将 具有这种相关性的数据组织在一起,无疑会提高效率。 数据分割的标准可以根据实际情况来确定,通常可选择按日期、地域或业务领 域等来进行分割,也可以按多个分割标准的组合来迸行。般而言,分割标准总应 7 河北科技大学硕士学位论文 包括日期项,它十分自然而且分割均匀。分割之后,小单元内的数据相对独立。处 理起来更快,更容易。数据分割使数据更易于重构、索引、重组、恢复、监控和顺 序扫描。 2 1 4 多维数据集的模式 多维数据模型可以以星型模式、雪花模式或事实星座模式形式设计。星型模式 ( s t a rs c h e m a ) 是最常见的数据仓库结构模式,由一个大的包含大批数据、不含冗余的 事实表和一组小的维表构成,各个维度表通过主键连接到事实表中。这种模式图很 像星星爆发,维表围绕中心表显示在射线上,其结构见图2 - 2 ( a ) t 】。 图2 - 2 ( a ) 数据仓库的星型模式 f i g 2 - 2 ( a ) s t a rs c h e m ao f d a t aw a r e h o u s e 图2 - 2 ( b ) 数据仓库的雪花模式 f i g 2 2 ( b ) s n o w f l a k es c h e m ao f d a t aw a r e h o u s e 雪花模型( s n o w f l a k es c h e m a ) 是星型模式的扩展,类似于雪花的形状,其结构如 图2 - 2 ( b ) 1 6 1 。这个模式进一步规范化了某些维表,把数据迸步分解到多个详细类别 表中,缩小了事实表。 雪花模式和星型模式的主要不同在于,雪花模式的维表可能是规范化形式,以 8 第2 章相关技术与概念总述 便减少冗余。这种表易于维护,并节省存储空间,但由于执行查询需要更多的连接 操作,雪花结构可能降低浏览的速度,系统的性能也相对受到影响,这也正是在数 据仓库设计中,雪花模式不如星型模式流行的原因。 事实星座( f a c tc o n s t e l l a t i o n ) :复杂的应用可能需要多个事实表共享维表。这种 模式可以看作星型模式集,因此被称为星系模式( g a l a x ys c h e m a ) ,或事实星座,其 结构如图2 - 2 ( c ) 所示【1 6 】。 幽2 2 ( c ) 数据仓厍的事买帚座模式 f i g 2 2 ( c ) g a l a x ys c h e m ao fd a t aw a r e h o u s e 当数据仓库收集整个组织的信息时,通常采用事实星座模式来支持对多个主题 的建模,而对各个部门等数据集市的单个主题建模通常选用星型或雪花模式。 2 2 联机分析处理 2 2 1 o l a p 的概念 o l a p 是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、 交互地存取,从而获得对数据的更深入了解的一类软件技术拍3 。 ( 1 ) 变量变量是从实现系统中抽象出来的,用于描述数据的实际意义,即描 述数据“是什么 ( 单价、销售额,数量等) 。 ( 2 ) 维维是人们观察世界的角度,是一种高层次的类型划分( 时间维、地理维 等) 。维的层次人们观察数据的某个特定角度( 即某个维) 还可以存在细致程度不同的 多个描述方面( 时间维:同期、年度、季度、月份) 。 ( 3 ) 维的成员维成员也称维的取值。如果一个维是多层次的,那么该维的维 成员是由各个不同维层次的取值组合而成,如“2 0 0 5 年8 月2 0 日”是在具有3 个层 次的时阅维上的一个取值。 9 河北科技大学硕士学位论文 ( 4 ) 多维数组多维数组是维和变量的组合表示。一个多维数组可以表示为: 维l ,维2 ,维甩,变量。 ( 5 ) 数据单元数据单元是多维数组的取值。当多维数组的各个维都选中一个 维成员,这些维成员的组合就唯一确定了一个变量的值。 2 2 2o l a p 的数据组织 ( 1 ) 基于多维数据库的o l a p ( m o l a p ) 在关系数据库系统中数据将以多维 方式来组织数据总是以关系表的方式来组织。在多维数据库中,并以多维数据库方 式来存储。假如分析某一种产品类在某年的销售情况,可以选择客户维、时间维, 地点维以销售金额作为度量变量,这样就形成了一个多维数据。对于产品的分析我 们可以通过对时间维,地点维、以及客户维为主来分析产品的销售情况,来实现未 来时间内的销售预测,未来某地点的销售预测,以及某些客户的潜在销售等决策问 题的实现。 在多维数据库中二维数据很容易理解,当维度扩展到三维甚至更多维时,多维 数据库将类似于超立方体的结构。跟关系数据库相比,多维数据库的优势不仅在于 多维概念表达清晰,占用存储少,更重要的是它有着高速的综合速度。在多维数据 库中,数据可直接按行或列累加,统计数据远超过关系数据库管理系统,数据库记 录越多,其效果越明显。其在用户、系统的面向性、数据内容、数据库的设计、视 图、访问模式等方面都存在着差别。二者的差别可以通过表( 2 1 ) 来概括。 表2 1o l a p 和o l t p 的区别 t a b 2 1t h ed i s t i n c t i o nb c t w e c n0 l a pa n d0 l 广p o l a p o l 限 用户决策人员,中高层管理人员操作人员 系统的面向性面向数据分析分析驱动面向事务和查询处理,事务驱动 数据内容历史数据综合性数据当前数据,绑节数据 数据库设计星型或雪花型面向主题的设计 e r 模型和面向应用的设计 视图涉及历史数据或不同组织数据主要是一个企业或部门内部当前数据 访问模式大部分是只读操怍联机型新 ( 2 ) 基于关系数据库的o l a p ( r o l a p ) r o l a p 将多维数据库中的多维结构 划分为两类表:一类是维表,用来记录维度信息:另一类是事实表,用来存储维度 交叉点处的度量信息及各个维度的码值。这样,多维数据立方体各个坐标轴上的刻 度以及立方体各个交点的取值都被记录下来,因而数据立方体的全部信息都被记录 下来。因为事实表和维表都是用二维关系表的方式存放,因而事实的提取需要通过 1 0 第2 章相关技术与概念总述 将维表和事实表的连接操作来完成。r o l a p 中,多维数据立方体并没有真正存在, 需要根据相应的o l a p 请求,临时“拼合”出多维数掘立方体,因此,r o l a p 的响 应时间较长。 ( 3 ) m o l a p 与r o l a p 比较两者的比较可以用表( 2 2 ) 来概括。 表2 - 2m o l a p 与r o l a p 比较 t a b 2 - 2m o l a pc o m p a r e dw i t ht h er o l a p m o l a p r o l a p 性能好,响应速度快 没有存储人小限制 转为o l a p 所设计现有的关系数据库的技术可以沿用的 优点支持高性能的决策支持计算对维度的动态变更有很好的适用性 复杂的跨维计算灵活性好数据变化的适应性高 行级的计算对软硬件:r 台的适用性好 增加系统培训与维护费用一股比多维数据库响应速度慢 受操作系统平台中文件大小的限制系统不提d 预综合处理 缺点系统所运行的预计算,可能导致数据爆炸 s q l 无法完成部分计算 无法支持数据及维度的动态变化无法完成多行计算 缺乏数据模型和数据访问的标准无法完成维之间的计算 ( 4 ) h o l a ph o l a p 是对m o l a p 和r q l a p 的良好折中。在h o l a p 中, 对于常用的维度和维层次,使用多维数据表来记录,对于用户不常用的维度和数据, 采用类似与r o l a p 星型结构来存储。当用户需要访问不常用数据时,h o l a p 将会 把简化了的多维数据表和星型结构进行拼合,从而得到完整的多维数据表。 2 3 数据挖掘技术 数据挖掘( d m ) ,又称为数据库中的知识发现,就是从大量数据中获取有效的、 新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是 从大量数据中提取或“挖掘”知识。 2 3 1 数据挖掘的实现步骤 数据挖掘的主要步骤l l9 j : ( 1 )确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘 的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了 数据挖掘而数据挖掘则带有盲目性,是不会成功的。 ( 2 )数据准备数据准备又可分为三个子步骤:数据选择、数据预处理和数据 转换。数据的选择的目的是搜索所有与业务对象有关的内部和外部数据信息,并从 河北科技大学硕士学位论文 中选择出适用于数据挖掘应用的数据:数据的预处理的目的是研究数据的质量,为 进一步的分析做准备,并确定将要进行的挖掘操作的类型;数据的转换的目的是将 数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的建,立一个真正适 合挖掘算法的分析模型是数据挖掘成功的关键。 ( 3 ) 数据挖掘对所得到的经过转换的数据进行挖掘,除了完善从选择合适的 挖掘算法外,其余一切工作都能自动地完成。 ( 4 ) 结果分析解释并评估结果,其使用的分析方法一般应作数据挖掘操作而 定,通常会用到可视化技术。 ( 5 ) 知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去。 决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。 总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果。 2 3 2 数据挖掘的功能 数据挖掘技术的目标是从大量数据中发现隐藏的舰律或数据间的关系,从而服 务于决策。数据挖掘一般有以下五类主要任务【7 j 。 ( 1 )数据总结数据总结的目的是对数据进行浓缩,给出它的总体描述。通过 对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次中抽象总结 到较高的总体层次上,从而实现对原始基本数据的总体把握。 ( 2 ) 分类分类的主要功能是学会一个分类模型( 也常常称作分类器) ,该模型能 够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性,并找出数 据的属性模型,确定哪些数据属于哪些组。这样就可以利用该模型来分析已有数据, 并预测新数据将属于哪一个组。 ( 3 )关联分析关联分析的主要目标是发现数据库中数据项之间是否存在某种 关联关系。若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种 关联,可以建立起这些数据项的关联规则知识,为决策服务。 ( 4 ) 聚类 当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时, 可以采用聚类分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系 列有意义的子集合。每一个集合中的数据性质相近,不同子集合之间的数据性质相 差较大。 数据库中数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之 间的距离较小,而不同类别上的个体之间的距离偏大。聚类增强了人们对客观现实 的认识,即通过聚类建立宏观概念。例如,鸡、鸭、鹅等都属于家禽。聚类能有效 地帮助人们认识客观事物,鉴别事物。聚类方法包括统计分析方法、机器学习方法、 神经网络方法等。 1 2 第2 章相关技术与概念总述 在统计分析方法中,聚类分析是基于距离的聚类,如欧氏距离、海明距离等。 这种聚类分析方法是一种基于全局比较的聚类,它还需要考察所有的个体才能决定 类的划分。机器学习方法中,聚类是无导师学习。在这里距离是根据概念的描述来 确定的,故聚类也称概念聚类,当聚类对象动态增加时,概念聚类则称为概念形成。 在神经网络中,自组织神经网络方法用于聚类。如a r t 模型、k o h o n e n 模型等,这 是一种无监督学习方法。当给定距离值后,各样本按闭值进行聚类。 ( 5 )序列分析及时间序列 序列分析和时间序列是指分析数据中的序列和分析 与时间相关的序列。该方法关注几个方面:总结数据的序列或者事件;检测数据随 时间变化的变化:检测知识随时间变化的变化。序列模式挖掘有着广泛的应用领域, 是很重要的数据挖掘方法。可以利用序列分析在商品销售方面做各种促销活动。 2 4 基于j 2 e e 的b s 开发模式 基于b s 的三层体系结构技术发展已经成熟,在系统的开发中使用降低了对客 户机的要求,可以实现信息的最大共享和系统的便捷的维护。 本论文使用j 2 e e 的开发平台结合m y s q l2 0 0 0 实现对系统的开发。j 2 e e 是一 种利用j a v a 2 平台来简化企业解决方案的开发、部署和管理相关的复杂问题的体系结 构。j 2 e e 技术的基础就是核心j a v a 平台或j a v a 2 平台的标准版,j 2 e e 不仅巩固了标 准版中的许多优点,例如“编写一次、随处运行”的特性、方便存取数据库的j d b c a p i 、 c o r b a 技术以及能够在i n t e r n e t 应用中保护数据的安全模式等等,同时还提 供了对e j b ( e n t e r p r i s ej a v a b e a n s ) ,j a v as e r v l e ta p i 、j s p ( j a v as e r v e rp a g e s ) 以及 x m l 技术的全面支持。其最终目的就是成为一个能够使企业开发者大幅缩短投放市 场时间的体系结构。 首先,j a v a 是一种移植性好,功能强大的语言。这意味着基于j a v a 应用服务器 开发的中间件程序部件( 一般情况下是e j b 组件) 能在不同的应用服务器之间方便地 移动:如果发现某种应用服务器的性能或特征不太好,就可以选择另外的应用服务 器并完全重用e j b 部件。 其次,基于j a v a 的开发都是要符合业界统一标准的。企业级j a v a 技术所定义的 标准减少了丌发
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新型便利店品牌形象改造店面租赁管理合同
- 2025年度校园文化临时设施快速响应与专业维护服务合同
- 2025年农家乐民宿租赁合同纠纷调解协议书
- 2025年特色农家乐员工劳动合同范本
- 2025年星级酒店客房及公共区域全面清洁管理合同
- 2025年度家庭财产分割及未成年子女共同抚养责任协议规范文本
- 2025年度离婚子女监护权专属代理及成长陪伴服务合同
- 2025年度种猪智能化养殖基地建设与销售渠道拓展合同
- 2025年度遗产分割与专利非独占许可合同样本
- 2025年豪华度假村股东投资合作协议书及收益平衡分配细则
- 2025年苏教版(2024)小学科学一年级上册(全册)教学设计(附目录 P137)
- 高频变压器项目商业模式分析报告
- 杜邦安全培训课件
- 16949工程变更课件
- 国宝文物运送活动方案
- 2024年德州市第二人民医院招聘备案制工作人员笔试真题
- 护理沟通与服务课件
- 高低压配电施工设计方案
- 2025年辽宁省高考历史试卷及答案详解
- 企业种子管理制度
- 2025年村干部考试试题及答案
评论
0/150
提交评论