




已阅读5页,还剩56页未读, 继续免费阅读
(机械电子工程专业论文)基于数据挖掘技术的物流信息系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于数据挖掘技术的物流信息系统的研究与实现 摘要 信息化正在影响着全球经济和各行各业,烟草行业作为我国国民 经济的主要产业之一,需要抛弃过去旧的销售体制,建立起集访销、 订货、入库、分拣和送货一体化的物流信息系统,节约烟草专卖成本, 提高生产效率。通过及时有效的数据分析,时刻掌握市场变化,改变 经营策略,从而取得竞争优势。 本文首先阐述了当前物流配送在国内外的发展状况,重点介绍了 烟草行业的物流配送的研究与应用,并针对该状况提出了自己的思考 与想法。其次本文提出了基于数据挖掘技术的烟草行业物流信息系统 一体化的构架,其中主要包括电话访销系统、数字化配送仓库、生产 管理信息系统、配送优化系统等,并以中邮科技在烟草行业的实际项 目为例对该构架和各子系统分别做了详细的介绍,同时展示了该构架 在实际应用中的效果。 本文的主要研究对象是生产管理信息系统和配送优化系统,为此 本文随后介绍了数据挖掘技术的理论知识和研究现状,为本文重点研 究的生产管理信息系统提供了理论支持,并详细介绍了烟草行业物流 生产管理信息系统的构架、数据库的设计、数据分析的使用以及实际 的使用效果。之后本文对烟草行业物流配送优化系统当前的研究趋势 与实际应用效果进行了介绍,重点研究了使用蚂蚁算法进行配送线路 优化。本文最后对提出的基于数据挖掘技术的烟草行业物流信息系统 一体化的构架进行了总结,并对物流行业的信息系统的的发展进行了 展望。 实际应用效果表明,本文所提出的烟草行业物流信息系统一体化 的构架,极大的提高了生产效率,减少了操作人员的数量和工作量, 节约了生产成本,可以为决策者制定市场销售策略提供重要的数据依 据,实现了数据流、实物流与控制流的统一,具备了进一步研究的学 术价值与实际应用价值。 关键词:卷烟配送中心,数据挖掘,蚂蚁算法,线路优化 r e s e a r c ha n d a c c o m p l i s h m e n to fi n t e g r a t e df r a m e w o r k f o r l o g i s t i ci n f o r m a t i o ns y s t e mi nt o b a c c oi n d u s t r yb a s e d o nd a t am i n i n g a b s t r a c t a si n f o r m a t i o nt e c h n o l o g yi sc h a n g i n gt h ew h o l ew o r l de c o n o m i c , t o b a c c oi n d u s t r yw h i c hi sam a i nb u s i n e s so fc h i n e s ee c o n o m i cs h o u l d p u ta w a yi t so l dw o r ks t y l e i ts h o u l dan e wi n f o r m a t i o ns y s t e mw h i c hi s m a d eu po fs a l e ,o r d e r , d e p o t ,s o r ta n dd e l i v e r y t h ei n f o r m a t i o ns y s t e r n c o u l ds a v et h ec o s to ft o b a c c oi n d u s t r ya n di m p r o v ep r o c e s s i n ga c c u r a c y b e s i d e s ,i tc o u l dh e l pt ok n o wt h ec h a n g eo ft h em a r k e t ,s ot h e a d m i n i s t r a t o rc o u l dc h a n g et h e i rm a n a g e m e n tt og e tm o r ee c o n o m i c a d v a n t a g e t h ep a p e rf i r s ti n t r o d u c e st h ed e v e l o p m e n to fp h y s i c a ld i s t r i b u t i o n b o t hi na n do u tc h i n a r e s e a r c ha n da p p l i c a t i o no fp h y s i c a ld i s t r i b u t i o n i nt o b a c c oi n d u s t r yi st h em a i nm a t t e ro ft h ep a p e r , a n dt h ep a p e rs h o w t h en e wt h i n k i n ga n dp o i n t t h ep a p e rp r o p o s e sai n t e g r a t e df r a m e w o r k f o r l o g i s t i ci n f o r m a t i o ns y s t e mi nt o b a c c oi n d u s t r y i tc o u l dt a k ep r a c t i c e p r o i e c tf o re x a m p l et oi n t r o d u c e se a c hs u b s y s t e ma n ds h o wi t sa d v a n t a g e f i n a l l y p r o d u c t i o nm a n a g e m e n ti n f o r m a t i o ns y s t e ma n dv e h i c l er o u t i n g s y s t e mi st h em a i ni n v e s t i g a t i o no b j e c to ft h ep a p e r , s ot h ep a p e rf i r s t i n t r o d u c e st h et h e o r y ,d e v e l o p m e n ta n dk e yt e c h n o l o g yo fd a t am i n i n gt o s e tu pt h e o r ys u p p o r tf o rp r o d u c t i o nm a n a g e m e n ti n f o r m a t i o ns y s t e m t h e nt h ep a p e rc o m p l e t e l yp r o p o s e sai n t e g r a t e df r a m e w o r kf o rl o g i s t i c i n f o l r m a t i o ns y s t e mi nt o b a c c oi n d u s t r yi n c l u d i n gi t sd e s i g nf o rm a i n d a t a b a s e ,d a t aa n a l y s i s ,a n di t sa p p l i c a t i o n ,a n dg i v e sm o r ea t t e n t i o nt o a p p l ya n tc o l o n ya l g o r i t h mt ov e h i c l er o u t i n gp r o b l e mi nt h ei n t e g r a t e d f r a m e w o r kf o rl o g i s t i ci n f c i r m a t i o ns y s t e m f i n a l l y ,t h ep a p e rs u m su pt h e i n t e g r a t e df r a m e w o r kf o rl o g i s t i ci n f o r m a t i o ns y s t e mi nt o b a c c oi n d u s t r y a n dg i v e saf o r e s i g h t t h es u c c e s s f u la p p l i c a t i o no ft h i sf r a m e w o r ks h o w st h a ti tc o u l d h e l pt oi m p r o v ew o r ke m c i e n c y , d i m i n i s ht h en u m b e ro ft h ew o r k e r sa n d w o r k s s a v ep r o d u c t i o nc o s t ,a n do f f e rk e yd a t ao f m a r k e ts a l e sf o r a d m i n i s t r a t o r st om a k ed e c i s i o n t h i sf r a m e w o r ka l s ou n i f yd a t af l o w , p r o d u c t i o nf l o wa n dc o n t r o lf l o w , a n da l lo fi t sa d v a n t a g e ss h o wt h a ti t s h o u l db ei n v e s t e db o t hi na c a d e m i cv a l u ea n da p p l i c a t i o nv a l u e k e yw o r d s :c i g a r e t t ed i s t r i b u t i o nc e n t e r :d a t am i n i n g ;a n tc o l o n y a l g o r i t h m ;v e h i c l er o u t i n gp r o b l e m 声明 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:日期:型坚兰:苎! 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论文 注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期:型翌:兰:苎呈 日期:型堕兰! 圣呈 基于数据挖掘技术的物流信息系统的研究与实现 北京邮电大学硕士学位论文2 0 0 8 1 1 课题背景 1 1 1 现代物流的基本概念 第一章绪论 信息技术的高速发展使得企业能够更迅速地获得信息,顾客对产品的要求逐 渐趋于复杂化、多样化和个性化,商品市场开始由卖方市场向买方市场转移。企 业为了获取和保持竞争力,必须不断地缩短产品开发研制时间、改进产品质量、 降低产品成本、缩短交货周期。英国著名供应链管理专家马丁克里斯托弗( m a r t i n c h r i s t o p h e r ) 预言:“2 l 世纪的竞争将不是单个企业之间的竞争,而是供应链与供 应链之间的竞争 ,“市场上将只有供应链而没有企业”。物流作为供应链管理的 重要组成部分,对供应链管理的成败起到至关重要的作用【l j 。企业可以通过优化 物流管理流程大幅度降低物流成本,从而降低产品的总成本,确立企业的成本领 先优势,进而提升企业的竞争力。 物流概念最早是在美国形成的,最初被称为“p h y s i c a ld i s t r i b u t i o n ,译成汉 语是“事物分配”或“货物配送”。1 9 8 6 年美国物流管理协会正式定义物流的名 称从“p h y s i c a ld i s t r i b u t i o n ”改为“l o g i s t i c s ”即现代物流,并将其定义为“物 流是满足顾客需要为目的,对货物、服务及相关信息从起源地到消费地的有效率、 有效益的流动和储存进行计划、执行和控制的过程 。随着科技进步与企业需求 的改变,现代物流不仅包括生产前和生产过物质、信息的流通过程,而且还延伸 到生产后的销售、售后服务等领域 2 1 。当前现代物流最新定义为:“物流是供应 链活动的一部分,为满足顾客的需要对商品、服务及相关信息从生产地到消费地 的高效、低成本流动和储蓄而进行的规划、实施、控制的过程。 现代物流系统是一个庞大复杂的系统,特别是全程物流,包括运输、仓储、 配送、搬运、包装和物流再加工等诸多环节,其主要功能是实现运输的合理化、 仓储自动化、包装标准化、装卸机械化、加工配送一体化和信息管理网络化【引。 现代物流提出了系统化物流或者综合物流的概念,具体地说,就是使物流向两头 延伸并加进了新的内涵,使社会物流与企业物流有机结合在一起,从采购物流开 始经过生产物流,再进入销售物流;与此同时,要经过包装,运输,仓储,装卸 加工配送到达用户、消费者手中;最后通过回收物流将企业所需要的可重复利用 品回收。现代物流是包含了产品整个物理性的流通全过程。 现代物流的本质是将各个分散的流通环节集成化,追求整体系统的优化,使 原有的流通渠道“提速、“节能 ,要实现供应链一体化的管理,从技术和实践 的角度来讲就必须首先实现物流系统的信息化,即实现物流企业的实体网络和 信息化网络融为一体,确保信息能够从供应链的一头到另一头的连续性。通过标 准化、规范化的方式实现对商品的连续跟踪将供方配送需方等物流环节 有机地连接起来。 基于数据挖掘技术的物流信息系统的研究与实现 北京邮电大学硕士学位论文2 0 0 8 1 1 2 我国物流行业的发展状况和主要问题 在计划经济时期,我国整个经济发展格局处于卖方市场,商品的仓储、运输 主要是由国家统一的商业批发、商业储运企业及运输业来完成的,当时我国尚没 有物流概念与认识,只有分割的运输、仓储、批发、零售等企业【4 i 。 二十世纪8 0 年代至9 0 年代中期流通体制发生重大变化,国家主管部门组织物 流配送中心的试点,引导传统储运、批发企业向现代物流配企业发展,但总的来 看效果不够明显。此时我国物流仍处于传统物流为主、逐步探索现代物流运作规 律阶段。 9 0 年代中期以来社会主义市场经济体制初步形成,买方市场逐渐形成,越来 越多的生产企业己经认清物流能力在市场竞争中的重要作用。尽管目前国家的物 流标准体系还没有完全建立来,但是国家已经颁布了一些与物流相关的标准,电 子商务中的标准、商品条码的标准,但尚未获得到企业的广泛运用。 我国物流行业现阶段存在的问题主要表现在物流信息的标准化,物流的设备 的标准化,物流服务的标准化等几方面。 物流信息的标准化主要包括设施自动化和经营网络化,设施自动化是指可以 实现货物的自动识别、自动分拣、自动装卸、自动存取,从而提高物流作业效率: 经营网络化是指建立完善的企业内部网和外部网,实现对货物运行的各种信息数 据进行自动分析和安排调度,用户下单与交易均通过互联网实现,并对自己的货 物随时可以进行查找跟踪。对物流的设施和设备实施标准化,主要包括物流模数、 存储规格、容器标准、托盘标准、车厢集装箱标准、包装标准等等。物流服务的 标准化是指人们对物流服务标准没有f 确的、客观的评价,主要以主观衡量因素, 造成了物流服务质量的千差万别,物流服务没有形成系统的制度规范,缺乏制约 的制度基础,因而很难保证现实物流服务中的质量。 1 2 课题研究意义 1 2 1 烟草行业物流配送 中国加入w t o 后,我们烟草行业将面临来自国外烟草集团更大的挑战,但是 当前我国烟草物流配送系统还没有真正形成一个健全的网络体系,主要存在的问 题有:物流配送率低,配送中心未能形成物流多种功能的有机结合,配送的集约 化程度低,卷烟物流配送形态落后,尚未实现库存的集中调度等。 随着烟草生产物流在国内众多卷烟企业的建设和发展,从2 0 0 2 年起,各地 烟草商业公司也纷纷响应国家烟草专卖局“电话订货、电子结算、网上配货、现 代物流”的精神,开始了卷烟配送物流建设。2 0 0 4 年以来,国家烟草专卖局提 出取消县级烟草公司独立核算法人资格的要求,涉2 0 0 0 多家县级烟草公司向地 市级烟草公司收归,相关业务重组和整合进一步引发了卷烟商业企业对仓储、分 拣规划设计及相关设施的广泛需求。面对卷烟商业配送领域的发展需求,在以手 工操作模式为主,自动化设施相对空白的卷烟商业配送背景下,国内物流设备供 应商及集成商纷纷抢滩卷烟商业物流,推出了各种不同的仓储、分拣工艺流程及 相关设备。然而,众多用户对物流配送的理解和定位有一定差距,表现出各种需 基于数据挖掘技术的物流信息系统的研究与实现 北京邮电大学硕士学位论文2 0 0 8 求。要做好烟草配送系统,供应商和用户要携手做好以下几点:合理的设计目标、 准确的系统定位,柔性的系统规划设计,有效提升订单处理作业效率的自动化设 备,支持商业模式持续改进的配送信息系统,经济合理的配送成本,配套的管理 体制。 1 2 2 建设烟草行业物流信息系统的意义 随着数据库技术、计算机网络技术、计算机通信术、管理信息系统、自动控 制等多种技术的发展,烟草行业物流信息系统逐渐得到有关方面的重视。烟草行 业物流信息系统可以全面实现信息自动化和数字化,使各项业务流程更加顺畅, 数据传递更加快速、准确。烟草行业物流信息系统可以通过计算机控制仓库存储 容量,降低存货成本;通过数据化业务提高经济运行质量,降低了网络运行成本; 通过自动化控制来提高了分拣速度,降低差错率;通过数据分析提高工作效率, 降低经营风险,并提高综合效率和效益。 以仓储业为中心的物流配送系统即物流配送中心在整个烟草行业物流过程 中占有着很重要的位置,它可以合理化的调配物流过程,降低物流生产的人工和 消耗成本,为整个企业提供高质量的物流服务。物流配送中心是将多品种的大批 量物品集中到配送中心,再根据消费者的需求( 品种、数量、规格、质量、时间、 地点) 进行分货、包装、加工等工序配货,并有迅速、准确、低成本的配送设施。 物流配送中心的工艺流程是:进货检查,短期保管及库存管理,订货处理,流通 加工,包装、分拣、出库,配送。现代化的物流配送体系,可有效减少流通环节 和流通时间,降低流通成本。 建设现代化的配送中心关键是要实现信息化、电子化管理。现代化的配送中 心与传统仓库的显著区别在于其对信息技术、自动化技术的广泛应用,使用计算 机管理库存,商品条码技术、电子数据交换技术、电子订货系统等,可以用于配 送中心与上游生产企业和下游零售企业之间的信息沟通。自动化的分拣、输送、 装卸既节约了人力成本,又提高了工作效率。高效合理的物流配送作业离不开发 达的计算机联网技术和自动操作技术,而现代化的配送中心同时也可以推动供应 商和零售商的信息化改造。 以信息化为基础的现代物流体系的建设是行业信息化应用的重要内容,借助 现代信息和网络技术,将整个行业产业链中的物资资源和设施统一规划和优化整 合。烟草物流配送管理系统,主要是针对烟草配送系统实现一库制集中存储和统 一配送而设计,由配送中心统一进行卷烟库存管理、分拣和配送,实现仓储管理 数字化与分拣电子化有机结合。其目的是以现代物流理念和科技为手段,以服务 于烟草销售网络体系、推动业务流程再造和组织结构调整、加快物流资源整合、 降低物流配送成本、提高物流配送运作效率和提供优质服务、打造商业服务品牌、 增强烟草核心竞争力为目标,加快发展烟草现代物流的步伐,实现烟草物流配送 系统的现代化、专业化、信息化、网络化,并与烟草专卖系统以及卷烟生产企业 e r p 系统无缝联接。 1 3 本文所做工作 本文介绍了现代物流相关理论和发展趋势,重点研究了烟草行业物流信息系 基于数据挖掘技术的物流信息系统的研究与实现 北京邮电人学硕士学位论文2 0 0 8 统的构架与建设,将数据挖掘理论和数据仓库技术引入到中邮科技物流公司浙江 省某市烟草公司配送中心项目,验证了在烟草全程物流过程中引入数据挖掘技术 所带来的优势。本文也对烟草行业物流信息系统中的配送线路优化模块进行了深 入的研究,将蚂蚁算法引入到温州烟草配送中心项目的线路优化中,仿真效果证 明蚂蚁算法提高了配送效率,节约了生产成本。 1 4 本文的创新点 本文的创新点主要是提出了烟草行业物流信息系统一体化构架,该构架能够 将信息系统的各模块有效的联系起来,实现信息流、数据流、实物流的有机结合。 本文引入数据挖掘技术作为该构架中关键模块的计算引擎,使得烟草传统物流能 够适应中邮科技物流公司的新型卷烟自动化分拣设备,极大的提高的生产效率, 同时利用数据挖掘技术对销售数据进行管理和分析,为管理层及时掌握市场变化 和指定销售策略提供了强有力的数据支持。此外,本文在物流信息系统配送线路 优化模块引入了蚂蚁算法,结合实际情况进行了改进,通过仿真数据来看可以得 到较好的应用效果。 1 5 本章小结 本章介绍了物流行业的发展概况,现代物流的基本概念,以及现代物流在我 国的发展状况与现实中存在的问题,同时本章对本文所做研究内容及其创新点进 行了概述。 4 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕士学位论文2 0 0 8 第二章数据仓库技术与数据挖掘技术理论概述 2 1 数据仓库技术概述 2 1 1 数据仓库的定义 现代社会的发展在信息流上取决于信息的获取与处理技术,信息的价值在于 用户通过使用这些信息从中得到收益,工作的要点不是简单地处理数据,而是如 何使用数据,从数据中挖掘出有用的信息。数据仓库是在关系数据库中存储数据 和处理数据,并且使得数据更加有力地支持决策分析,其主要目的是通过收集、 过滤和存储数据来寻找数据的趋势,帮助企业制定有关经营方面的决策。 数据仓库技术是一个比较受人们关注的研究热点,目前比较广泛地背接受的 定义是:数据仓库是“面向主题的 、“一致的”、“不同时间的”、“稳定的”数据 集合,用于支持经营管理中的决策支持过程,即数据仓库是一个处理过程,该过 程从历史的角度组织和存储数据并能集成地进行数据分析【5 j 。 数据仓库一般应具有四个特征: ( 1 ) 数据仓库应该是是面向主题的,传统的数据仓库是面向应用设计的, 而主题是在一个较高层次将数据归类的标准。 ( 2 ) 数据仓库应该是一致的数据集合,应用程序常常以不同的格式使用类 似的数据。 ( 3 ) 存储在数据仓库中的数据可以正确地表示任何时间的任何值。 ( 4 ) 数据仓库必须是比较稳定的。 2 1 2 数据仓库的基本概念 数据仓库数据库:是整个数据仓库环境的核心,是数据存放的地方和提供对 数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和 快速的检索技术 数据抽取工具:把数据从各种各样的存储方式中拿出来,进行必要的转化、 整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工 具的关键,应能生成c o b o l 程序、m v s 作业控制语言( j c l ) 、u n i x 脚本、s q l 语句等,以访问不同的数据。数据转换都包括。删除对决策应用没有意义的数据 段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺省数据赋给缺省 值;把不同的数据定义方式统一6 】。 元数据:元数据是描述数据仓库内数据的结构和简历方法的数据。可将其按 照应用用途分为两类。即技术元数据和商业元数据。 技术元数据:技术元数据是数据仓库的设计和管理人员用于开发和日常管理 数据仓库使用的数据,包括数据源信息,数据转换的描述,数据仓库内对象和数 据结构的定义,数据清理和数据更新使用的规则,元数据到目的数据的映射,用 户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。 基于数据挖掘技术的物流信息系统的研究与实现 北京邮电人学硕士学位论文2 0 0 8 商业元数据:商业元数据是指从商务业务的角度描述了数据仓库中的数据, 包括业务主题的描述,包含的数据,查询和报表等。 元数据为访问数据仓库提供了一个信息目录( i n f o r m a t i o nd i r e c t o r y ) ,这个目 录全面描述了数据仓库中都有什么数据,这些数据是怎么得到的和怎么访问这些 数据。元数据是数据仓库运行和维护的中心,数据仓库服务器利用他来存储和更 新数据,用户通过他来了解和访问数据。 访问工具是为用户访问数据仓库提供手段,主要包含数据查询和表表工具, 应用开发工具,管理信息系统( e i s ) 工具,在线分析( o l a p ) 工具,数据挖 掘工具。 数据集市( d a t am a r t s ) 是为了特定的应用目的活着应用范围而从数据仓库 中独立出来的一部分数据,也可称为部门数据活着主题数据( s u b j e c ta r e a ) 。在 数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据 集市组成一个完整的数据仓库。需要注意的就是在实施不同的数据集市时,同一 含义的字段定义一定要相容,这样在以后实施数据仓库时就不会造成大麻烦。 数据仓库管理是指管理数据仓库所用到的手段,包括安全和特权管理,跟踪 数据的更新,数据的质量检查,更新和管理元数据,审计和报告数据仓库的使用 状态,删除数据,复制、分割和分发数据,备份和恢复数据等1 7 1 。 信息发布系统是把数据仓库中的数据或其他相关的数据发送给不同的地点 或用户,基于w e b 的信息发布系统是对付多用户访问的最有效方法。 2 1 3 数据仓库的构建 数据仓库的构建过程实际上是从传统的以数据库为中心的操作型系统结构 转移到以数据仓库为中心的体系结构的过程,具体实现过程如下: ( 1 ) 概念模型设计阶段 这阶段的主要工作是进行概念模型设计,界定系统边界,确定主要的主题域 及其内容。即要建立模型并且选取主题,模型的建立是从用户的角度对所需数据 的内容以及数据间关系的抽象嘲。 ( 2 ) 技术准备阶段 这一阶段的工作包括:技术评估,技术环境准备,对现有的技术方案进行评 估,以确保方案的可行性;如果方案可行性成立,要对方案中所涉及到的环境因 素进行准备。 ( 3 ) 逻辑模型设计阶段 选择数据颗粒度,对于不同的数据量将选择不同的数据颗粒度策略:分析主 题域,按照时间对表进行分割,细节数据时间短,而综合数据的时间稍长。 ( 4 ) 数据抽取和数据加载阶段 将数据资源从外部抽取到数据仓库中,在此过程中应该依据元数据中定义的 标准数据格式处理数据,在数据被抽取后,对准备进行加载的数据进行清理,然 后加载到数据仓库中。 ( 5 ) 0 l a p 模型设计阶段 0 l a p 是针对某个特定的主题进行的联机数据访问、处理和分析,通过直观的 方式从多个维度、多种数据综合程度将系统的运营情况展现给使用者【9 i 。 ( 6 ) 数据挖掘模型设计阶段 在进行数据挖掘的时候,将数据宽表划分成训练集合和验证集合,在没有挖 6 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕上学位论文2 0 0 8 掘模型时可以使用训练集合对数据进行训练,逐渐确定模型中的参数。在模型建 立后,利用验证集合对模型进行评价。 ( 7 ) 数据仓库生成阶段 这一阶段所要做的工作是接口编程,数据装入。根据前几个阶段的研究成果 设计接口,确定数据装入的次序,清除无效或错误数据,当数据装入到数据仓库 后建立数据仓库的应用,耳p d s s 应用。 ( 8 ) 数据仓库运行与维护阶段 使用数据仓库理解需求,调整和完善系统,维护数据仓库,建立起操作型和 分析型的数据环境。 2 2 数据挖掘技术概述 2 2 1 数据挖掘的发展与定义 随着数据库技术、人工智能和数理统计等技术的发展与融合,数据挖掘( d a t a m i n i n g ) 技术应运而生。数据挖掘是- f - j 新兴的交叉学科,也是现代科学技术相 互渗透的必然结果,其基本目标就是从大量的数据中提取隐藏的、潜在的和有价 值的知识和信息。它是一个利用各种分析工具在海量数据中发现知识模型和数据 间关系的过程,这些模型和关系可以用来预测未知,为数据的所有者创造出很多 潜在的利润和价值【l0 1 。自提出以来,数据挖掘技术便引起了许多专家学者的广泛 关注和深入的研究。在数据挖掘发展的前期,主要集中在银行、证券、保险、电 信、零售、交通、航空、石化、能源等领域。近年来,随着计算机的普及和数据 的大量积累,数据挖掘已经在电子商务、快速消费品行业中得到了广泛的应用。 数据挖掘技术将对企业信息管理、决策支持等带来深远的影响,具有广阔的开发 前景和应用前景。 数据挖掘普遍被接受的定义是从大量的、不完全的、有噪声的、模糊的、随 机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。数据 挖掘是一种新的信息处理技术,其主要特点是对企业数据仓库中的大量业务数据 进行抽取、转换、分析和其他模型化处理,从中提取辅助企业决策的关键性数据。 数据挖掘的对象可为数据库、文件系统或其他任何组织在一起的数据集合。 数据挖掘主要是由以下相关学科和技术领域发展起来的: ( 1 ) 统计学 统计学方法旨在从抽样分析中提取未知的数学模型,在数据挖掘中常常会涉 及一定的统计过程,如数据抽样和建模、判断假设以及误差控制等。 ( 2 ) 决策树 决策树是一种重要的分类预测模型,通过分类的方法可以找出描述并区分数 据类或概念的模型( 函数) ,以便能够使用模型预测类标记未知的对象类l 。 ( 3 ) 人工神经网络 人工神经网络方法从结构上模仿生物神经网络,是一种通过训练来学习的非 线性预测模型,它可以完成分类、聚类、特征挖掘等多种数据挖掘任务。 ( 4 ) 遗传算法 遗传算法走一种优化技术,它利用生物进化的一系列概念进行问题的搜索, 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕十学位论文2 0 0 8 最终达到优化的目的。 ( 5 ) 粗集 粗集理论是一种处理含糊和不确定问题的新型数学工具,它具有较强的数学 基础、方法简单、较强的针对性和计算量小等优点。 ( 6 ) 模糊逻辑 模糊逻辑糙模糊集合与布尔逻辑的融合,在数据挖掘和k d d 中,常用来进行 证据合成、置信度计算等。 ( 7 ) 可视化技术 可视化技术采用直观的图形方式将信息模式、数据的关联成趋势呈现给用 户,以便用户交互地分析数据关系。 一般来说不存在一个普遍适用的数据挖掘方法,在不同的领域不同的算法往 往有不同的效果。因此在实际应用中,需要针对特定的领域选择有效的数据挖掘 模型与挖掘算法。 2 2 2 数据挖掘的功能 根据发现任务与发现目标的不同,数据挖掘所能发现的典型知识主要包括以 下几类: ( 1 ) 关联规则( a s s o c i a t i o nr o l e ) 所谓关联规则,是指数据对象之间的相互依赖关系,而发现规则的任务就是 从数据库中发现那些确信度( c o n f i d e n c e ) 和支持度( s u p p o r t ) 都大于给定值的 强壮规则。从数据库中发现关联规则近几年研究最多,目前,己经从单一概念层 次关联规则的发现发展到多个概念层次的关联规则的发现【l2 1 。在概念层次上的不 断深入,使得发现的关联规则所提供的信息越来越具体,实际上这是个逐步深化 所发现知识的过程。 在许多实际应用中,能够得到的相关规则的数目可能是相当大的,而且,用 户也并不是对所有的规则感兴趣,有些规则可能误人们的决策,所以在规则发现 中常常引入“兴趣度 ( 指一则在一定数据域上为真的知识被用户关注的程度) 概念。而基于更高概念层次上的规则发现研究( 如一般化抽象层次上的规则和多 层次上的规则发现) 则是当前研究的重点之一。 在数据挖掘中,常见的关联规则发现算法有:a i s 、s e t m 、a p r i o r i 、d h p 、 m l - t 2 l 1 、m l t m l l 等,其e p a p r i o r i 和d h p 是比较成功的两个算法。 ( 2 ) 分类( c l a s s i f i c a t i o n ) 分类是最基本的一种认知形式。数据分类就是对数据库中的每一类数据,挖 掘出关于该类数据的描述或模型,而这些数据库中的类是事先利用训练数据建立 起来的。作为数据挖掘的一个重要主题,数据分类在统计学、机器学习、人工智 能等领域中得到了较早的研究,只是近些年来,人们才将它与数据库技术结合起 来解决实际问题。 在数据挖掘中,分类算法的研究成果较多,常用的数据分类算法有:c 灿玎、 c 4 5 、i d 3 、s l i q 、k n n 、g a - k n n 等。 ( 3 ) 聚类( c l u s t e r i n g ) 在机器学习中,数据分类称为监督学习,而数据聚类则称为非监督学习,两 者所采用的方法相差甚远。数据聚类是将物理的或抽象的对象分成几个群体,在 每个群体内部,对象之间只有较高的相似性,而在不同群体之间,相似性则比较 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕上学位论文2 0 0 8 低。一般地,一个群体也就是一个类,但与数据分类不同的是,聚类结果主要基 于当前所处理的数据,事先并不知道类目结构及每个对象所属的类别,数据聚类 计算量巨大,其时间复杂度也要比数据分类大得多。常见的算法有p a m 、c l r a 、 c l a r a n s 、b i r c h 等。 2 2 3 数据挖掘的主要技术 数据挖掘主要应用的技术有决策树、近邻算法、遗传算法、规则归纳、神经 网络等。 ( 1 ) 决策树 决策树是一种典型的分类算法,可以得到类似在什么条件下会得到什么结果 的规则。比如在建立运输网络决策树模型,进行细分,找出最有可能对总的运输 成本最低的方案。 决策树的优点是生成容易理解的规则,如果建立一个包含几百个属性的决策 树,虽然看起来很复杂,但每一条从根结点到叶子节点的路径所描述的含义还是 可以理解的另外,决策树算法的计算量相对讲也比较小,擅长处理非数值型数据。 ( 2 ) 近邻算法 近邻算法将数据集合中每一个相邻一记录进行归类的方法,是最容易使用和 理解的技术之一。近邻算法是以人们思维方式相似的方式检测最近的匹配样本, 这种算法对错误数据和丢失的数据的处理十分健壮,在自动化方面近邻算法有较 好的性能。 ( 3 ) 遗传算法 遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设 计方法的优化技术。遗传算法主要由三个子算法组成:繁殖,从一个旧种群选出 生命力强的个体,产生新种群的过程:交叉,选择两个不同个体的部分进行交换, 形成新个体;变异,对某些个体的某些基因进行变异【1 3 】。 遗传算法可起到产生优良后代的作用,在优化计算和分类机器学习方法方面 发挥了显著的作用。 ( 4 ) 规则归纳 规则归纳就是通过统计方法归纳和提取有价值的i f - t h e n 规则,规则归纳技 术在数据挖掘中被广泛应用。基于规则的数据挖掘技术则可以给出模型的生成规 则描述,这些规则是通过使用某些统计方法对数据集合进行分段而生成的,有大 量的基于规则的技术被用于数据挖掘。 ( 5 ) 神经网络 神经网络( a r t i f i c i a ln e u r a ln e t w o r k ) 是模拟人脑结构的数据模型。神经网 络仿照生理神经网络结构的非线形预测模型,从一组输入数据中进行学习,根据 这一新的认知调整模型参数,以发现数据中的模式【1 4 j 。 神经网络为解决复杂度大的问题提供了一种相对来说比较有效的简单方法, 可以很容易的解决具有上百个参数的问题,它的应用非常广泛。 2 2 4 数据挖掘的过程 数据挖掘的过程按照阶段与作用可分为三个步骤:预处理阶段,数据挖掘引 9 基于数据挖掘技术的物流信息系统的研究与实现 北京邮电大学硕十学位论文2 0 0 8 擎阶段,用户决策管理阶段,如图2 1 所示: 匦i 匦堕壁圆 图2 1 数据挖掘过程流程图 预处理阶段:主要是针对应用系统采集数据,并对数据进行加工,检查数据 的完整性和一致性,对其中不j 下确或无价值的数据进行处理,对丢失的数据利用 统计等方法进行填补,形成数据仓库。 数据挖掘引擎阶段:运用选定的数据挖掘算法,如神经元网络、决策树、聚 类分析技术、排序算法等,从数据中提取出用户所需要的知识,这些知识可以用 系统所需要的某一种特定的方式来表示。 用户管理决策阶段:对所获得的知识进行价值评定,以决定所得的知识是否 存入知识库,评价主要通过与用户的接口显示给决策管理层来制定相应的管理策 略。 数据挖掘引擎阶段是数据挖掘技术中的核心部分,主要包括模式模型和挖掘 算法。目前己形成了多种数据挖掘方法,如分类知识发现、数据总结、数据聚类、 关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常发现、趋势预测 等。 2 3 本章小结 本章主要介绍了数据仓库的发展过程、基本概念与技术以及数据仓库的构建 的过程,同时介绍了数据挖掘技术的发展与定义、主要功能与技术和数据挖掘过 程。本章为本文所做工作做好了理论铺垫,为下文的展开论述打下坚实的理论基 础。 l o 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕上学位论文2 0 0 8 第三章烟草行业物流信息系统一体化构架 3 1 物流配送信息系统 3 1 1 物流配送信息系统概述 物流信息系统( l o g i s t i c si n f o r m a t i o ns y s t e m ,l i s ) 是物流企业或部门按照现代 管理思想及理念,以信息技术为支撑所开发的信息系统,该系统充分利用数据、 信息、知识等资源,实施物流作业、控制物流业务、支持物流决策、实施物流信 息共享,以提高业务效率和决策的科学性。从系统观点来看,构成物流信息系统 的主要组成要素有:硬件、软件、数据库和数据仓库、相关人员以及企业管理制 度与规范等。物流信息系统在物流活动中有非常重要的作用,通过物流信息的收 集、传递、存储、处理、输出等,形成决策依据,对整个物流活动起指挥、协调、 支持和保障作用。 物流信息系统的主要作用有以下几点: ( 1 ) 信息沟通 物流系统是由多个行业、部门以及众多企业群体构成的经济大系统,物流信 息系统能够纵向和横向联系各部门及企业,沟通生产厂家、批发商、零售商、物 流服务商和消费者,满足各方面的需要。 ( 2 ) 信息指引 物流信息随着物资、资金及物流当事人的行为等信息载体进入物流系统中, 同时信息的反馈也随着信息载体反馈给系统中的各个环节,物流信息系统依靠记 录和分析物流信息及其反馈可以引导物流运作的变动和物流布局的优化:协调物 资结构,使供需间平衡;协调入、财、物等物流资源的配置等。 ( 3 ) 信息控制 物流信息系统结合移动通信、电子数据交换、全球定位系统等技术实现物流 活动的电子化,用信息化手段管理和控制物流系统。例如,如为了应付需求波动, 通常在物流的小同节点上都设置有库存,包括中间库存和最终库存,如零部件、 在制品、制成品的库存等,这些库存增加了物流的成本。而物流信息系统能够实 时地掌握物流系统中的各种信息,可以对库存进行缩减,从而缩短物流链,使物 流系统得到整合和合理使用。 ( 4 ) 信息辅助 物流信息是制定决策方案的重要基础和关键依据,物流管理决策过程的本身 就是对物流信息进行深n t _ 的过程,是对物流活动的发展变化规律性认识的过 程。物流信息系统可以协助物流管理者鉴别、评估、比较物流战略和策略中的可 选方案,如车辆调度、库存管理、设施选址、资源选择、流程设计,均要依靠物 流信息系统的帮助来做出科学决策。通过对物流信息的提炼和分析,物流信息系 统还能进行收益分析和制定涉及物流活动的长期发展方向和经营方针的物流战 略等。 物流信息本身是有价值的,而物流信息系统在实现物流信息利用价值的同 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕十学位论文2 0 0 8 时,又使其价值呈现增长趋势。物流信息的增值,也将大大促进了企业效益的增 加。 3 1 2 基于数据挖掘的物流配送信息系统的特点 与传统的物流管理信息系统相比,基于数据挖掘的物流信息系统具有以下特 点。 ( 1 ) 传统的物流管理系统一般按功能分为许多功能模块,信息的共享范围 与物流信息管理,特别是与供应链管理要求的信息高透明度和快速反应相距甚 远。基于数据挖掘技术的物流管理信息系统,采用数据仓库技术来组织管理数据, 能完整一致地刻画各个分析对象所涉及的企业的各项数据,从而将企业各部门及 上游制造商、下游零售等信息联结在一起,最大限度地实现信息共享。 ( 2 ) 一般的数据库为了提高系统的效率,往往尽可能少地保留历史信息。 数据仓库具有一个重要的特征,就是一般具有长时间的历史数据存储,存储长时 间历史数据的目的就是进行数据长期趋势的分析,预测未来一段时间内的库存量 变化,实现前瞻性调拨,增强适应突发因素的能力,为决策者的长期决策行为提 供有力的数据支持。把数据挖掘这种新的数据处理技术应用到物流信息系统当 中,提取辅助企业决策的关键性数据。对于各种物资的使用、库存和流转等信息 有较强预警性。 ( 3 ) 在传统的系统中,模型库和知识库往往被独立地设计和实现,缺乏内 在的统一性。知识模型来源于专家,更新困难。基于数据挖掘的系统,分离了知 识发现者和知识使用者这两类角色,决策人员无需对决策系统有深刻的理解,也 不需要深入学习数据仓库、数据挖掘等相关知识。而专业人员则可以通过t c p i p 协议随时访问有关的服务器,对系统进行管理、维护、知识库扩展等。同时基于 数据挖掘的物流系统融入了物流决策系统的特性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 防雷隐蔽工程检测方案(3篇)
- 农业气象灾害防御体系构建与实施效果评估报告
- 猫咪线描画课件教学
- 高中语文小说类课文优化教学例谈
- 工程保险营销企划方案(3篇)
- 高墙天台改造工程方案(3篇)
- 牧场铲车安全培训心得课件
- 安全教育培训饮酒课件
- 农业产业链升级2025年农产品无损检测技术发展路径研究报告
- 廉洁建设面试题库及答案
- 中国2型糖尿病运动治疗指南(2024版)及要点解读
- DB11-T 1374-2025 公路货运车辆不停车超限检测系统技术要求
- 兽医体系及兽医基础知识的学习
- 小学四年级美术社团活动计划
- 同济大学浙江学院《通信原理实验》2023-2024学年第一学期期末试卷
- 配电作业专业技能实操-登杆更换台架边相跌落式熔断器
- (完整版)国际疾病分类ICD-10-培训
- 全运会转播制作标准
- 中职高教版(2023)语文职业模块-第一单元1.1七律二首-送瘟神【课件】
- 环境保护负面舆情应急处理方案
- 肺结核课件教学课件
评论
0/150
提交评论