




已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘技术在供应链库存控制中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕 学位论定 摘要 将企业的物流、资金流和信息流综合进行管理,对企业所拥有的 人力、资金、材料、设备、方法( 生产技术) 、信息和时间等各项资源 进行综合平衡和充分考虑,最大限度地利用企业的现有资源取得更大 的经济效益,科学、有效地管理企业人、才、物、产、供、销等各项 具体业务工作,是现代企业面临的重大问题。 本文具体研究了如何将数据挖掘技术应用于供应链的库存控制 与优化,并设计一个针对供应链中核心企业的数据挖掘应用原型系 统,来对企业的生产、销售进行有意识的知识发现,由此来指导企业 的各项活动,达到降低企业的生产成本,提高生产效益的目的。 本文首先分析了数据挖掘技术的概念、应用现状以及发展趋势, 接下来对于现有的两大开源数据挖掘系统进行了对比分析,并选取算 法丰富的w b i ( a 作为构建数据挖掘原型系统的核心。然后针对供应链 环境下流程企业的库存特点,提出了一种高维数据聚类方法,还给出 了利用遗传算法求解企业库存模型的步骤。 接下来指出了构建数据仓库所需注意的几个关键问题,并给出了 面向流程企业的数据仓库的库存模型,提出了一个以w 色l ( a 为核心的 基于模型视图控制器( m o d e lv i e wc o n t i 0 l l e r m v c ) 模式的数据挖掘 原型系统。 最后根据流程企业库存的特点,利用遗传算法,对一个占用资金 最小、兼顾连续生产的原料库存模型实例进行求解,体现了数据挖掘 技术对于流程企业库存控制的实用性和先进性。总结了本文取得的成 果,对下一步的研究工作做出了展望。 关键词:数据挖掘,数据仓库,原型系统,供应链管理,库存控制 n 硕f - 学位论定 a b s t r a ( t a b s t r a c t t h ek e yp m b l e mt om o d e me n 把r p r i s e si sh o wt om a n a g em n d - n o w , m a t e r i a l s f l o wa n dm f 0 n a t i o n - f i o ws y n t h e t i c a l l y ;h o wt 0b a l a n c ea l lt h e r e s o u r c e ss u c ha sh u m a np o w e r m n d ,m a t e r i a l s ,e q u i p m e m s ,t e c h n o i o g y i n f o r m a t i o na n dt i m ea n dh o wt om l l yu t i i i z et h er e s o u r c e so fa n e n t e r p r i s e t h i st h e s i se x p l o r e dh o wt oa p p l yd a t am i n i n gt e c h n o l o g yt om e i n v e n t o r yc o n n o i l i n ga n do p t i m i z a t i o no fs u p p i yc h a i nm a n a g e m e m a i l d d e s i g n e dad a t am i n i n gp r o t o t y p es y s t e mt o w a r dt 1 1 ek e ye n t e r p r i s eo f s u p p l yc h a i nm a n a g e m e n ti no r d e rt 0d i s c o v e rn e wk 1 1 0 w l e d g ed u r i n gt h e c o u r s eo fm a n u f a c t u r i n ga n ds e l l i n g t h i sc a ng u i d et h ee n t e r p r i s ed u r i n g r o u t i n ea c t i v i t i e sa n dd e c r e a s et h ec o s ta n di n c r e a s et h ep r o d u c i n g e 砸c a c y t i l i st | l e s i sa n a l y z e dt h ec o n c e p to fd a t 2 lm i n i n gt e c h n o i o g y ,p r a c t i c e s h 呲i o na n dd e v e l o p m e n tt e n d e n c y t h e nw em a d ec o m p a r a b l ea n a l y s i s o nm e s et w oo p e ns o u r c ed a t am i n i n gs y s t e ma n ds e l e c tw e k aa st h ec o r e o ft h i ss y s t e m a c c o r d i n gt ot h ec h a r a c t e ro fc o n t i n u o u se n t e r p r i s ei n s c m ,w ea r u l o u n c e dac l u s t 商n g 印p r o a c hf o r h i 曲d i m e n s i o n a ld a t aa n d p r o v i d et 1 1 ep r o g r a m so fr e s o l v i n gt h ee r l t e r p r i s ei n v e n t o 哆m o d e lu s i n g g e n e t i ca l g o r i t h m i n s u c c e s s i o n , w ep o i m e do u ts e v e r a ie s s e n t i a l p r o b l e m so f c o n s t l l j c t i n gad a t aw a r e h o u s e 狮dp m v i d ei n v e n t o t ym o d e l st o w a r dm e d a t aw a r e h o u s eo fc o m i n u o u s e n t e r p r i s e b a s e do nt h e m o d e i v i e w c o m r o l l e rp a 扎e mw e 籼o u n c e dad a t am i n i n gp r o t o t y p e s y s t e mw h i c hh a d aw e k ac o r ei n s i d e a c c o r d i n gt ot h ec h a r a c t e ro fc o m i n u o u se n t e r p r i s ea p p l y i n gg e n e t i c “g o r i t h mt 0r e s o l v et h em o d e lo fa s s u r i n gm e w e l l - b a l a n c e dp r o d u c t i o n a n da i m i n ga tm i n i m u mr a wm a t e r i a lc o s to fe n t e r p r i s e ,、es h o w e dt h e u s e m l n e s sa n da d v a n 啦r eo fd a t am i n i n gt e c t i n o l o g yt o w a r dt 量1 ei n v e n t o r y m a i l a g e m e mo fc o n t i n u o u se n t e r p r i s e b a s e do nt t l ep m g r e s sw em a d ei n t h i st 1 1 e s i sw e p l a n e dt h en e x ts t e p sr e s e a r c hw o r k k e y w o r d s :d a 协m i n i n g ,d a t aw a r e h o u s e ,p r o t o 呻es y s t e m ,s u p p l y c h a i n m a n a g e m e m ,h v e n t o r yc o n t r o l l 额t 学位论文绦创性声明 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在在论文中作了明确的说 明。 作者签名:f 至l 堕公日期:2 兰l 年羔月丛日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名:! 丑堡垒导师签名 硕t 学位论定第一章绪论 第一章绪论 在制造业的生产过程中,由于原料来源多、品种多、价格不一,要保证连续 生产,就需要有一定的原料储备量f l 】:由于供应的长鞭效应【2 1 以及产品客户化的 不断提升,对于成品库存管理的要求也在逐步提高。因此造成采购不均、资金的 未充分利用的现象。如何结合先进的信息管理应用体系和智能优化决策将企业的 库存管理中的要素结合起来,将资金流、物流和信息流有机地集成,是每个企业 部面临的重要问题。 随着计算机与网络技术的日渐成熟,互联网以及以互联网为平台的各种网上 应用如火如荼。与此同时数据库技术的广泛使用1 3 l ,在给传统产业带来无限商机 的同时,也带来更多的挑战。经历多年的激烈竞争历程,企业之间的竞争已达白 热化状态,产品生命周期愈来愈短,产品更新换代速度愈来愈快,为企业盈利的 新产品寿命比工业社会的产品明显缩短。 对于具有连续生产过程的流程型行业如有色冶炼企业等,面临着如何缩短接 单及交货周期、降低原料及库存成本、提高对市场的应变速度、掌握产销过程最 真实的信息、加速货款的回收等一系列的问题。先进的信息管理应用体系如供应 链管理( s u p p l yc h a i nm 锄a g e m e m ,s c m ) 逻辑思维的提出,为企业现存内部资源 与外部资源的有效控制、整合提供了理论依据,为企业能集中精力关注产业链七 所有活动并做出正确的决策提供了有效的方法。 作为供应链管理中的一个重要内容,近几十年来,库存控制与优化一直是一 个非常活跃的研究领域,它与自然科学,技术科学特别是与管理科学和社会科学 的联系越来越紧密;它在现代管理,工程技术,社会经济,军事决策等方面的应 用也越来越重要。 本文将针对流程企业库存构成的要素及其管理特征,结合国内外已有的研究 成果以及s c m 等先进的应用管理体系,引入数据挖掘技术,进行优化和控制。 并提出一个流程企业的数掘挖掘原型系统的设计方法。 f 1 1 课题的来源及意义 目前,为了能在竞争中立于不败之地,国内外的流程企业都把注意力转移到 节能降耗,少投入多产出的高效生产模式上。如何将企业的物流、资会流和信息 预p 学位论文 第一章绪论 流统一起束进行管理,对企业所拥有的人力、资金、材料、设备、方法( 生产技 术) 、信息和时间等备项资源进行综合平衡和充分考虑,最大限度地利用企业的 现有资源取得更大的经济效益,科学、有效地管理企业人、才、物、产、供、销 等各项具体业务工作,是每一个企业领导者都面临的主要问题。 因此,作为圜家高技术研究发展计划( 8 6 3 计划) 课题面向电子商务的流程 企业敏捷供需链管理( 课题编号:2 0 0 l a a 4 1 4 2 4 0 ) 的子课题,本课题设计一个 针对供应链中核心企业的数据挖掘应用原型系统,具体研究如何将数据挖掘技术 应用于供应链的库存控制与优化,并柬对企业的生产、销售进行有意i 的知识发 现,由此柬指导企业的各项活动,达到降低企业的生产成本,提高生产效益的目 的。该课题的研究开发对于实施企业的意义在于: 库存控制管理对于一个企业乃至整个供应链管理体系而占足极其蘑要的一 个方面,为了提商整个供应链的流通效率,降低链接处的成本,从全局出发考虑 的库存控制管理决策就起着一个举足轻蕈的作用。 采用数据挖掘技术,就意味着使用其算法思想对历史数据以及当前的实时数 据进行提炼和总结,通过机器学习不断的自动更新,做出对于整个流程最优化的 库存决策。这样能充分利用计算机系统的软硬件优势,实现整个供应链流程的无 缝集成以及成本、耗损的最小化。 1 - 2 研究背景 作为国民经济的基础企业,随着改革开放的日益深入,与困际市场加速接轨, 流程企业对自身竞争能力的提高成为一个迫在眉睫的问题。 流程企业是指原料连续不断地通过生产装置,进行规定的化学反应和物理变 化的过程,最终得到满意的产成品的制造行业。主要包括石化,冶合、造纸等行 业,在国民经济中占有极高的比例。它具有以下主要特征: ( 1 ) 物流特征:多段生产、多段运输、多段存储,物流种类多、工序多且形 式不一、并伴有多种原料。所使用的酃是大型设备,成本高、操作复杂,工序连 接紧密、作业的连续性强、对时问要求条件高,不仅存在时日j 平衡和温度平衡问 题,还存在资源能力和物流平衡的问题。 ( 2 ) 资金流特征:企业投资巨大、资金流动频繁、复杂的物流特征,以及为 庞大的生产规模做的财务分析,资金等财务数掘的滞后性与控制资金流向的实时 性之日j 存在着的矛盾,都为资金流的控制增加了难度,必须遵守严格的财会制度 并实施灵活的资金管理,才能准确全面和及时地反映企业经营状况,并有效地加 以控制。 ( 3 ) 信息流特征:生产经营活动需要大量的特征值来描述,涉及内容从财务、 2 碗十学位论丈 第一章绪论 人事等传统信息管理领域延伸到生产管理领域。不仅要根据定单进行生产、制定 合理的生产计划、实施全面质量管理,还应以对生产过程进行全面监控、数据采 集来满足生产管理的实时性要求,不断更新的人员、物料、产品等信息、全面详 尽的统计信息,辅助管理者发布最合理的控制信息。 我们可以从图l - 1 看出,库存足流程企业中物流、资金流和信息流三者的汇 集点。在分工日趋细化、开放合作的时代,典型的连续生产的流程企业,由于在 图卜l 应用s c m 思想的流程企业运作模式 颅l 哗位论史第一章绪论 原科供应工作中存在许多难题,如:原料柬源多、品种多、成分复杂、价格不一、 连续生产对原料的需求量大、原料采购资金占企业流动资金比例大等等。这蝗企 业往昝仅靠自己的资源参与市场竞争,再加上管理对象过于分散,缺乏计划性, 同时供应商众多。价格和服务品质参差不齐,采购的相关信息缺乏沟通,而其产 品在市场上也面临着同业问激烈的竞争,市场的需求也是瞬息万变。企业不能及 时了解最新原料及市场上的同类产品的价格和库存的变化,所以往往在竞争中处 于被动。 由于供应链所涉及的问题很多,在一个模裂中同时考虑所有的因素几乎是不 可能的,要建立一个比较接近实际情况而又可以求解的完整供应链模型是很困难 的。在现有的一些原料供应模型中,往往停留在数据库管理和查询的水平:对于 产成品的库存数据研究也仅仅停留在出具报表和领导者的主观预测上。 可见,如何从供应链的库存管理角度对流程企业物流系统进行改造足我国企 业实现综合自动化和信息化过程中不可避免的一个关键课题。 而课题研究的主要方向就必定要以减少企业成本,提高企业效益为根本出发 点,这就要求从企业占用资金费用最多的库存控制方面入手。 为适应现代经济不断发展的需要,上世纪五十年代以来库存控制理论的研究 与应用在数鼍和范畴上有了长足的进步。已逐渐成为运筹学中一个独立而且 # 常 活跃的领域。其在研究方法上广泛吸取动态规划、随机过程和控制论等学科领域 的思想和疗法,采取量化 段建立模型、研究方案、探索最优库存控制策略。 原材料库存问题是生产企业必须注意的一个问题。就原料库存而占,它与原 料的到货及消耗情况有很大的关系。适当的库存量足确保企业正常连续生产的必 要条件。过多和过少都会造成不必要的经济损失。库存量过大,将会需要额外的 保管场所,增加库存保管费用,库存所占用的资金发生冻结,而且可能因为存储 条件的改变和时间的推移降低原材科的质量或导致原材料变质。反之,若库存量 过少,则可能由于原材科不足,造成停工待料,甚至于被迫停产,从而失去顾客 和销售机会,减少或失去应得利润;或者由于临时补充短缺原材料,造成费用增 加。因此,估计和预测采购黾,确定最优库存量,可以使库存和采购耗费的资金 最少,使原料供应保持在经济效益最优的状态,为流程企业带来巨大的经济效益。 作为一个企业,最终要依靠销售产品来获取利润。产成品的库存水乎与产品 的南- 场反应、企业自身的研发能力、排产的计划水平以及原材料的库存状态自着 密切的关系。流程企业的产成品的库存同样占掘着大量的流动资金,如果产品迎 合市场需求,则资金回笼迅速,形成良性循环;倘若产品滞销,企业刚样将为产 成品的高库存付出代价。因此通过挖掘历史数据、研究市场动态、及时对市场做 出反应、合理排严,町以使产成品库存能及时地适应市场需要,甚至提前反应出 4 硕p 学位论文第一章绪论 市场动态的变化,进f 面 隹动市场的需求。 1 9 8 9 年,u s 棚m f a y y a d 等给出了一个针对数据挖掘的描述性的定义: 数据挖掘是从数据集中识别出有效的、新颖的、潜在有用的、最终能理解的模式 的非平凡过程1 4 l 。它是一门涉及面很广的交叉学科。针对流程企业库存控制中存 在着的海量数据、变量众多、变量之问约束条件复杂、随机性强等特点,利用数 据挖掘从海量数据中发现有意义的行为和规则的能力,对潜在的模式进行抽取和 识别p j ,从f 面达到优化库存控制的目的。 1 3 国内外研究现状 从2 0 世纪6 0 年代至2 0 世纪9 0 年代,由物料需求计划( m a t e r i a lr e q u i 陀m e m p i 籼i n 岛m r p ) 、制造资源计划( m a n u 胁t 嘶n gr e s o u r c ep l a 胍i i 强m i 冲i i ) 到企业 资源计划( e n t e r 州r e s o u r c ep l a n n i n g ,e r p ) 、供应链管理( s u p p i yc i l a i n m a m g e m e 虬s c m ) ,企业总是在努力适应市场要求,提稿i 企业的市场应变能力 和竞争力,不断扩大生产规模,朝集团化、多元化的经营发展,也就足朝纵向一 体化的方向发展。随着经济全球化和知识经济的到来,直接导致了企业由纵向一 体化转向了横向一体化方向发展,全面的供应链网络正在飞速构成,对供应链的 研究和分析随之也达到了一个前所未有的高度【6 j 。同时数据挖掘技术的不断完善 为解决复杂问题提供了有力武器,而w e b 分布式应用技术的飞速发展更为信息 流的高速传输提供了有力的平台支撑。 供应链的概念最早足在上世纪8 0 年代提出的,许多学者从不同的角度出发 给出了许多不同的定义。较完整的定义是:供应链足围绕核心企业,通过对信息 流、物流、资金流的控制,从采购原材料开始,制成中问产品及最终产品,最后 由销售网络把产品送到消费者手中的将供应商、制造商、分销商、零售商、直到 最终用户连成一个整体的功能网链结构模式【”。它是一个范围更广的企业结构模 式,它包含所有加盟的节点企业,从原材料的供应开始,经过链中不同企业的制 造加工、组装、分销等过程直到最终用户。它不仅是一条联接供应商到用户的物 料链、信息链、资金链,而且是一条增值链,物料在供应链上因加工、包装、运 输等过程而增加其价值,给相关企业都带来收益。 在信息管理的应用体系结构中,供应链管理以其先进的设计理念、完备的信 息处理、高效的信息流传输,成为各大公司和企业构建信息管理的选择方案,有 利于在原料供应的采购配送问题、库存决策、运输问题、协作问题上进行了建模 分析与研究。物流从供方开始,沿着各个环节向需方移动。每一环节部存在“需 方”与“供方”的对应关系,形成一条首尾相连的供需长链。链上除了物料的流动 外还有信息和资金的流动。供应链逻辑思维的推出,为企业现存内部资源与外部 硕p 学位论史 第一帝绪论 资源的宵效控制、优化调配提供了理论依据,为企业能集中精力关注供应链上所 有活动并做出正确决策提供了有效方法。 所谓“供应链管理”是指供应链中各环节内部的计划、设计及管理等活动,以 及各环节相互之间的协作,物流、信息流、资金流的管理等。 国外对供应链管理研究较早,并丌发了一些商品化的供应链管理产品,其中 主要有两大类:一类足“供应链规划( s u p p l yc h a i np i 肌n i n g ) ”系统,一类是“供应 链实施( s u p p l y - c h a i ne x e c m i o n ) ”系统。“供应链规划( s u p p i yc l l a i np l a n n i n g ) ”系统 主要着眼于供应链的优化与分析,为具体操作提供实施参考,如进行需求预测、 制定库存补给计划及生产调度舰划等。 国内对供应链管理的研究起步虽晚,却有不少信息企业已积极介入其中,不 少厂家也已实施了供应链管理。但是这种供应链管理多是基于企业内部局域网的 内部供应链管理,面对的厂家也多足离散企业。而且有些信息企业去给厂家实施 供应链管理之类的应用产品,总喜欢先问厂家有什么特殊需求,然后“量身定做”, 根本谈不上对企业的供应链流程进行设计与优化。因此并不能利用先进的供应链 管理理论和方法来提升企业的管理水平,常常只是以计算机代替专业人员的 工 劳动提高工作效率,至多也只是通过计算机网络实现生产经营数据共享,远未达 到供应链管理真i f 目标。 随着i | l t e m e t 和电子商务的兴起,今天的供应链早已超出了过去单纯的原材 料与产品购销的单一对应关系,而发展成为一个由原料供应商、产品制造商、商 品零售商等在内的多方商家构成的“供应群落”,这个“供应群藩”基于w e b 技术 进行莳所未有的大规模协作。与此叫时,连接买卖双方的在线行业交易市场的出 现,也使传统供应链的运作模式发生了根本性变化。与过去关键产品或服务需要 依赖于某一特定供应商的传统模式不同,借助在线市场,一家公司可以通过竞标, 从数百家供应商中选择最合适的产品或服务。可见,这种供应链管理模式不再局 限于制造型企业内部,而足延伸到供应商和客户,甚至供应商的供应商和客户的 客户,建立的是一种跨企业的协作,覆盖了从需求分析预测、产品设计、外协和 外购、储运、制造、分销和客户服务等全过程。它运用w e b 技术和供应链管理 思想,整合企业的上下游的产业,以中心制造厂商为核心,将产业上游供应商、 产业下游经销商、零售商、物流运输商以及服务商进行垂矗一体化的整合,消除 了整个供应链网络上不必要的运作和消耗,促进了供应链向动态的、虚拟的、全 球网络化的方向发展。这种供应链管理已经成为现代流程工业企业的发展趋势, 并成为计算机应用领域的研究热点。 就目前国内企业的信息化程度而占,供应链管理还处于一个相当仞级的阶 段,目前供应链环境下的霹存控制存在的主要问题育三大类:信息类问题:供应 6 顿p 学 芷论史 第一章绪论 链的运作问题;供应链的战略与规划问题。具体来讲有以下8 点【7 l : ( 1 ) 没有供应链的整体观念: ( 2 ) 对用户服务的理解与定义不恰当; ( 3 ) 不准确的交货状态数据; ( 4 ) 低效率的信息传递系统; ( 5 ) 忽视不确定性对库存的影响; ( 6 ) 库存控制策略简单化; ( 7 ) 缺乏合作与协调性: ( 8 ) 产品的过程设计没有考虑供应链上库存的影响。 国外的学者中,y o f ky w o o 等人就降低订单成本这一目标,在某一具体 情形下提出了一个整合的库存模型【8 。在医药研究与发展供应链领域,s a 哪a d a l s i l a 砸等人就给出了如何从数据仓库中获取有意义信息,从而有效的缩短开发 周期的方法【9 1 。为了解决整个e r p 系统的适应性和通用性的问题,a n d r e 硒l s y m e o n i d i s 等人建立了一个m u l t i a g e n t 系统,该系统利用数据挖掘技术获取知 识,并将这些知识加入现有的e r p 、c r m ( c u s t o m e rr e l a t i o i l s h i pm a n a g c m e m ) 和 s c m 系统的决策模块之中【l 们。在国内,也有很多人对库存的管理控制做出了很 有益的探索,如刘玉华等把库存管理问题看成一个离散系统,建立了系统的状态 方程,给出了性能指标,应用离散系统的最优控制理论,提出了可行方案i l ”。程 承运提出了一类变价格的物资库存优化模型,对模型用优化算法近似处理并求 解,从而确定了最佳定购次数1 1 2 l 。倪东生、雷金海用模糊集理论可以科学准确 地将事物按一个统计指标或几个指标进行分类,从而巧妙地解决企业库存管理中 利用a b c 分析法指导库存管理不便分类的具体问题l l3 1 。吴振字等将库存问题视 为离散问题,并用统计实验的方法进行动态模拟1 1 4 1 。吴可分析了随机库存控制 的特点,构造了订货点的模型,并结合定期订货法的原理,讨论了物流管理中的 随机库存控制方法【”】。 本文的主要研究内容足建立一个针对供应链中核心企业的数据挖掘原型系 统,研究供应链环境下流程企业库存的特点,运用数据挖掘原型系统对流程企业 的库存进行管理与控制,达到降低生产成本,协调供货与生产关系,提高信息传 递效率的目的。 1 4 论文的结构与主要内容 本文的主要内容安排如下: 第一章对数据挖掘技术应用于流程企业的库存控制的课题情况进行了概述, 指明了课题的束源和研究意义,课题的研究背景,国内外的发展历史以及库存控 硕 学位论丈 第一章绪论 制的研究现状,阐述了课题的研究内容与论文结构安排。 第二章简要介绍了数据挖掘的概念,背景资料,目f i 的应用状况以及今后的 应用发展趋势。接下来介绍了现有自由软件中的数据挖掘系统的两个杰出代表 e x t e n d e d “b 聊y f o rp n l d s y se m b e d d e d s o l m i o n s ( x e l o p e s ) 和w a i l ( a t 0 e n v i r o 岫e mf o fk n o w l e d g ea m a l y s 取w e k a ) ,对比了二者的优劣,并决定选取算 法种类相当丰富的w e k a 作为我们研究工作的基石,并针对供应链环境下的企业 库存特点给出了一个针对高维数掘的聚类方法,还对运用遗传算法对企业库存进 行最优化求解作了理论上的分析。 第三章指出了数据仓库的构建方法以及构建过程中的关键问题,并给出了三 个产品库存模型,研究了基于m v c 模式的数据挖掘原型系统的设计及实现技术, 重点讨论了提高系统町扩展性和易维护性的分层体系结构,并t 兑明了相关的设计 方案和设计模式,构建了一个基于m v c 模式的数据挖掘原型系统。 第四誊分析了流程企业中库存的特点,并详细介绍了一个合理的原料库存优 化模型。针对菜流程企业的原料库存给出了示例说明,最后以界面截图的形式给 出了一个针对流程企业的b s 模式的数据挖掘原型系统的功能展示。 第五章对本文研究的供应链环境下的流程企业数掘挖掘应用工作进行了总 结,指明了本文主要的研究工作,并展望了下一步的研究方向。 颅p 学位论文 第一事数据挖掘概念厦麻f f 概述 第二章数据挖掘概念及应用概述 2 1 数据挖掘概述 数据挖掘是从数据集中识别出有效的、新颖的、潜在有用的、最终能理解的 模式的非平凡过程【4 l 。该过程要求是i e 平凡的,意思足要有一定程度的智能性、 自动性。有效性是指发现的模式对于新的数据仍保持有一定的可信度;新颖性要 求发现的模式应该是新的;潜在有用性是指发现的知识将来有实际效用,如用于 决策支持系统里可提高经济效益:最终可理解性要求发现的模式能被用户理解。 数据挖掘技术来源于人工智能、机器学习、统计学三大领域;涉及了数据库 技术、模式识别、知识系统等众多学科;可分为关联( a s s o c i a l i o n ) 、分类 ( c l a s s i f i c a t i ) 、聚类( c l u s t e r i n g ) 、演变( e v o i u t i o n ) 等多种类的技术任务;且操作 流程都能分为数据清理、数据集成、数据选择、数据变换、数据挖掘,模式评估 和知识表示这七步,这些无一不体现出数据挖掘技术的丰富和复杂。 作为一个多学科交叉研究与应用的领域,数据挖掘正在许多行业的决策支持 中扮演着越来越重要的角色。针对每个特定领域的应用,就应该将数据分析技术 与特定的领域知识结合起来,才能提供最为有效的数据挖掘方案。 ( 1 ) 生物医学:针对d n a 的分析等。 ( 2 ) 金融行业:贷款偿还预测和客户信用政策分析,对目标市场客户的划分, 对金融犯罪的侦破等。 ( 3 ) 零售行业:促销活动的有效性分析,顾客的购买模式分析,商品问的关 联度分析,顾客的忠诚度分析等。 ( 4 ) 电信行业:数据通信情况、系统负载、资源利用等,盗用模式的发现, 电信服务业中客户的使用模式分析等。 针对本文的研究背景,在流程企业的信息管理与处理中,数据挖掘技术有着 很大的应用空间。国内外的不少厂商纷纷推出了自己的针对企业应用的挖掘工 具,并将数掘源、数据仓库系统、数据挖掘系统和元数据集成称之为商业智能系 统。 数据源包括了企业中现有的所有信息系统,以及根据决策分析需求可能涉及 的其他外部数据资源。它主要包括业务数据和外部数据。 9 修 学位论史 第:帝数摧侈捧喊含 乏向用料述 数据仓库系统包括: ( 1 ) 数掘抽取、转换和装载( e x 恤i c t ,t r 肌s f o 肌,l o a d ) ,负责将数据从业务系统 或外部系统中获得,转换和处理成数据仓库需要的格式和形态,并在规定的时问 装入到数据仓库中去。 ( 2 ) 数据仓库( d a t a w j r c h o u ) ,数掘仓庠是数据存储核心。 ( 3 ) 操作数据( 0 p e m t i o n a ld a t as t o r c ) ,针对数据挖掘和实时业务分析,在数据 仓库中的部分数据拥有当前数据的特征,根掘业务系统的变化而变化,不必关心 历史信息,同时又拥有数据仓库数据面向主题的特点,这部分数据的规模适中, 强调快速查询响应能力。 ( 4 ) 数据集市( d a t am a n ) ,数据集市存储了由数据仓库而柬的,经过筏剪和 i 门整的数据,这哆数据针对某个业务部门或某种业务分析应用而建立。 ( 5 ) 数据m j 整( r e f i n 咖e m ) ,数据归整指数据从数据仓库到数据集市的过程, 它足数据仓库系统内部的数据处理和转换的过程。 数据挖掘系统包括: ( 1 ) 客观呈现用户想要信息,如查询和报友、联机分折处珲( o l a p ) 。 ( 2 ) 对数据进行分析,发现新知识。 元数据是管理商业智能系统的数据,其主要部分类似于数据字典,其内容贯 穿了商业智能应用的各阶段,记录着从e t l 到分析展现各个阶段和各组成部分 的管理信息。 2 2 两个数据挖掘自由软件的简介与分析 在众多的数掘挖掘自由软件中,有的仅提供运行系统,有的则提供了完整的 源代码,本节所对比介绍的x e i o p c s 、w k a 就是两个可获取源代码的自由软件。 通过借助i i 人的工作成果,町以加快研究进度,成为了我们一个较高的工作起点。 2 1 1e x t e n d e dl i b r a r yf o rp m d s y s e m b e d d e ds o l u t i o l l s 简介 e x t e n d e dl i b m r yf o rp r u d s y 争e m b e d d e ds o l m i o i l s ( x e l o p e s ) 足由德国p m d s y s a g 公司与俄罗斯z s o r 公司合作开发的数据挖掘系统【1 6 1 。x e l o p e s 遵循如下设计 原则:在尽量高的层次上对挖掘算法进行抽象、与平台和数据源的无关性、挖掘 模型生成的自动化。为此,x e l o p e s 分别采纳了当前发前】的数掘挖掘丌放标准, 如c w m ( c o n l m o n h r c h o u m e t a d a t a ) 、p m m l ( p r e d i c t i v cm o d e l i n gm a r k u p l a n g u a g e ) 、j d m a p i ( j a v a a p if o rd a t am i n i n g ) 等。 x e l o p e s 支持对数据挖掘用户来说共同而又蓖要的四个概念:设嚣( s e n i n g s ) 、 l o 硕f 学位论文 第一:章数据挖帮概念厦府用概述 模型( m o d e l s ) 、转换( n 锄s f o m l a t i o n s ) 和结果( r e s u i t s ) 。设霄是一组用于构造数据挖 掘模型的输入参数集合,可分为功能设置和算法设鹭两类。功能设置对象指定了 挖掘的功能:分类、关联规则和聚类等,同时,它也允许用户在不指定挖掘算法 的情况下说明所要获得的挖掘结果类型;而算法设定对象则指定于特定挖掘算法 相关的参数。模型对象是用指定功能设置对象运行算法的结果,可用于直接检验、 数据评分、p m m l 输出、挖掘引擎的模型输入等。转换是应用于两种不同数据 形式之问的变换。 图2 一lx e l o p e s 主界面 x e l o p e s 有c + + 、j a v a 、c 撑三种实现版本,下面列出j a v a 版x e i o p e s 所含的 主要包: ( 1 ) c o m p m d s y s p d m c o r e :包含于挖掘算法无关的x e l o p e s 核心类,有表示 挖掘模型的抽象类m i n i n g m o d e l 、有包含挖掘数据元信息的描述类 m i n i n g d 驰i s p e c i f i c a t i o n 以及对其引用的挖掘设置类m i n i n g s 叭i n g 、有含有属性 名以及对元信息引用的m i n i n g a t c 抽u t e 类、有含挖掘算法本身的m i n j n g a l g o r i t h m 抽象类。 ( 2 ) c o m p n l d s y s p d m c w m :c w m 包,其中包含c o r e 、d a t a l y p e s 、r e c o r d 、 i i l s 恤c e 等c w m 子包。 ( 3 ) c o m p n l d s y s p d m i 印u t :数据访问核心类,包括访问二进制文件的b i n a r y 硕学付论文第二章数据挖掘概念厦府e i j 概述 类、访问记录类型数据的r e c o r d 类、访问w e i ( a 系统a r f f 文件的加啊类、访 问逗号分隔文件的c s v 类、访问关系数据库的r e l a t i o n a l 类等。 ( 4 ) c o m p r u d s y s p d m m o d e l s :于特定算法相关的模型类,细分为统计类 s 诅t i s t i c s 、关联规则类a s s o c i a t i o n r u l e s 、序列分析类s e q u e m i a l ,有监督学习类 s u p e i s e d 、聚类算法类c l l l s t e r i n g 、时序预测类面m e s e r i e s p r e d i c t 。 ( 5 ) c o m p m d s y s p d m 胁f o l m :数据转换与过滤类。 j a v a 版x e l o p e s 的使用方式有命令行、g u i 、嵌入三种方式,强调挖掘流程 的控制,由数据源指定、数据设置、功能设置、挖掘算法设置、算法运行、模型 的浏览与保存等步骤构成一个完整的数据挖掘周期。 2 2 2w a i k a t 0e n v i r o l l r i l e m 矗”k n o w l e d g ea n a l y s i s 简介 w a i k a l oe n v i r o n m e mf o rk n o w l e d g ea n a l y s i s ( w e k a ) 是新西兰w a i k a t o 大学 h i 锄等歼发的机器学习算法实验平台,用j a v a 实现,包含有分类、聚类、关联 分析等方面的算法【l ”。用j a v a 构建的w e k a 基本做到了根据不同的系统环境提 供统一的用户界面。w e k a 着眼于机器学习的角度来看待整个数掘挖掘问题。把 数据挖掘过程看成是系统通过学习获取表示恰当的知识反馈用户并且在将来可 以使用知识解决问题的过程i l s l 。与x e l o p e s 类似,可以以命令行的方式调用w e l ( a : 也可以通过w e k a 提供的g u i 界面运行;还能利用w j k a 提供的算法进行嵌入式 学习,即将w e l ( a 的学习部件作为实际系统的集成部分。 下面列出w j k a 所含的数个顶层包: ( 1 ) c o r e :c o r e 包足w e k a 系统的核心,包含a t t 曲u t c 、i i l s t 卸c e 、1 1 1 s t a i l c e s 等 关键类。a t 啊b u t c 为处理事例属性的类,w j k a 支持n 啪e r i c 、n o m i n a l 、s t r i n g 等 三种类型的属性:任何类型的属性值在系统内部都以浮点数的形式存储,对于 n o m i n a l 或s t m i g 类型,存储的值足属性定义中符号值的索引;i n s t a i l c e 为处理单 个事例的类;i t a n c e s 足处理事例集的类。 ( 2 ) c l a s s i f i e r s :c l 嬲s i f i e r s 包包含了多种分类算法的实现。包中的抽象类 c l a s s i f i e r 定义了任何分类算法的基本结构,包含有b u i l dc l a s s i f i e r ( ) 和c l a s s 晦 i i l s t 锄c e ( ) 两个方法。任何分类算法部足c l a s s m e 陪的子类,都需要具体实现抽象 类c l a s s i f i e r 中的这两个方法。 ( 3 ) a s s o c i a t i o l l s :髂s o c i a t i o i l s 包包含抽象类a s s o c i 砒o r 以及共同实现关联规则 挖掘算法的i t e ms e t 及a 州o r i 类。a s s o c i a t o r 类中包含有方法b u i l d a s s o c i a t i o n s ( ) , 也是任何关联规则挖掘算法所要实现的方法。n e ms e t 为存储项集的类,而a p r i o r i 类实现了a t r i n r i 关联柳则杪掘算法,逐步结案小支持度直至发现满足需求数量 的关联规则。 硕十学位论炙 第一章数铤挖掘i 既念腿廊用i 既述 ( 4 ) c l u s t e r e r s :c l u s t e r e 幅包包含各种聚类算法的实现。包中的抽象类c l u s t e r e r 包含有任何聚类算法都要具体实现的b l i i l dc l u s t e r e r ( ) 、c l u s t e ri n s t a i l c e 0 方法。 ( 5 ) f i h e 硌:f i l t e r s 是w e l ( a 系统中相当重要的一个包,它提供了许多数据预处 理的工具。a t 晡b u t ef i l t e r 类可以从数据集中去除制定属性、a d df i l t e r 类将在制 定位置插入一新的属性、a t 撕b u t cs e l e c t i o nf i l t e r 类允许利用不同的方法选取属 性子集、d i r e t i 臻f i l t 盯类可以将数据集中的数值属性离散化为符号属性、 n o m l a l i z a t i o nf i l t e r 类对数据集中的数值属性规范化,r e p l a c em i s s i r i gv a l l l ef i i t c r 类处理数据集中数值属性或符号属性的丢失值。 ( 6 ) a 咖u t e s e l e c t i o n :a t 丌i b u t e s e l e c t i o n 包包含大量的属性选择类,用以完 成数据集降维的匿要工作。在此存在两类选择方法,一是一次仅考虑一个属性, 另一个则是同时考虑多个属性。a t t 啪u t e e v a l u a l o r 是i ; 者的抽象类,如它的一个 派生类i n f o g a i r 认t t 曲u t e e v a l 根掘相应事例类别的信息增益来分别评价各个属 性;s u b s e t e v a l u 砒o r 是后者的抽象类,如它的一个派生类c 蠡s u b t e v a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 会议承办服务协议书8篇
- 国家事业单位招聘2025中国国土勘测规划院招聘应届毕业生拟聘人员笔试历年参考题库附带答案详解
- 奔驰车辆无偿赠与协议9篇
- 南京市2025江苏城乡建设职业学院招聘工作人员26人(第一批)笔试历年参考题库附带答案详解
- 临夏回族自治州2025年甘肃临夏某部招聘民兵教练员笔试历年参考题库附带答案详解
- 2025陕西陕建瑞高科技园有限公司招聘(25人)笔试参考题库附带答案详解
- 2025广东湛江经济技术开发区建设投资发展集团有限公司招聘1人笔试参考题库附带答案详解
- 2025年萍乡市工程咨询管理顾问有限责任公司招聘第一批外聘人员23人笔试参考题库附带答案详解
- 2025年烟台莱州市财金投资有限公司招聘(10人)笔试参考题库附带答案详解
- 2025年江苏昆山创业控股集团有限公司第一批人才招聘15人笔试参考题库附带答案详解
- 全案托管设计合同范例
- 庆祝国庆节爱国班会内容完整课件
- 中医拔罐技术试题及答案
- 浙江水利专业高级工程师任职资格考试题及答案
- DB65-T 4783-2024 冰川资源遥感调查技术规范
- 《尊重他人和谐相处》主题班会
- 公司6s管理划线标准图片
- 医学伦理与职业道德培训
- JJF(通信) 068-2023 雷达回波模拟器校准规范(报批稿)
- 中国痔病诊疗指南(2020版)
- 甘油三脂在药物递送系统中的作用
评论
0/150
提交评论