




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、硕士论文-基于数据挖掘的维修企业备件库存管理 基于数据挖掘的维修企业备件库存管理摘 要市场竞争日益剧烈,快速响应市场需求的能力逐渐成为现代企业在市场竞争中制胜的关键。维修企业为其他企业提供后勤保障支持,一方面,能提供实时、优质的效劳将成为维修企业生存的关键。因此,及时、充足的维修备件的供给成为维修企业普遍关心的问题;另一方面,机器设备复杂度越来越高,维修备件种类越来越多,备件库存维护本钱不断增加,库存资金占有量逐渐增加,维修企业不堪重负。在此背景下,维修企业备件库存管理的重要性逐渐凸现出来。同时,数据库和数据仓库技术的开展也为库存管理提供了一种重要的工具,并记录了大量的信息,但是人们对数据库的
2、应用主要停留在操作和查询层面上,对于历史数据中包含的信息却并没有充分地利用,导致了“数据爆炸但知识贫乏的现象,维修企业同样也存在这种状况。本文在研究国内外库存管理理论及经验的前提下,另辟蹊径,以维修企业备件库存管理的历史数据为依据,以备件库存管理的难题为切入点,采用数据挖掘的理论方法,充分利用维修企业历史数据,力求实现维修企业库存管理的目标。文章首先综述了维修企业备件的特征及数据挖掘方面的开展历程及应用状况,数据挖掘技术与库存管理的结合是库存管理方法开展的趋势;然后分析了维修企业备件库存的影响因素,包括备件故障的可预知性、备件本身特点、维修企业因素和备件供给商的因素等,为预测企业备件库存需求做
3、铺垫;接下来阐述了国内外传统的库存管理模型及其应用,这些方法主要是基于模型和假设,并没有基于对历史数据的研究;之后介绍了数据挖掘功能层面的内容,包括分类、聚类和关联规那么,并简单介绍了其实现的算法,作为维修企业采用数据挖掘方法进行库存管理的理论根底;文章重点结合数据介绍了数据挖掘方法在备件库存管理中的应用流程和实现方法,主要包括数据的收集和处理、数据仓库的设计、数据立方体的设计、备件分类挖掘、备件关联性分析、易贬值备件的识别和库存需求预测等方面内容。文章采用的数据挖掘算法主要有贝叶斯分类方法、基于算法的备件关联规那么挖掘、基于神经网络的备件分类、回归分析和基于神经网络的备件库存需求预测等模块,
4、并结合案例数据演绎其实现方法和流程;在此根底上,结合上述数据和方法,文章介绍了采用数据挖掘方法开展库存管理在计算机上的实现,包括数据流程图的绘制、数据文件的设计及程序的编写方法;最后文章结合案例,分析了数据挖掘在维修企业库存管理中应用的成功案例,并展望了数据挖掘在库存管理方面应用的开展前景。关键词:维修企业,数据挖掘,贝叶斯分类,神经网络 , . ., ., ., .,.,., ., .,. ., ,。.,: , ., ,。 ., ,.,.,.,.,: ,基丁数据挖掘的维修企业库存管理绪论.选题的背景.维修备件需求的产生在竞争同益剧烈的今天,快速响应市场需求,成为企业在市场竞争中生存和开展的根
5、本保证,而快速响应用户不断变化的需求需要强有力的后勤支持。设备是企业后勤保障的物资根底。设备在运行过程中,由于各种原因而一些原有的部件会失去原有的功能,需要恢复和更换,那么就构成了企业的维修活动,提供专业化维修效劳的维修企业也随之产生。随着现代化的设备在企业中广泛的应用、地位不断的提高,人们已经意识到了维修是对企业未来的投资。怀尔曼在其撰写的?世界级维护管理?书中,把维护管理成为制造业“最后一个新领域。为了实现于准时生产和敏捷制造等这些先进的生产方式同步开展,确保企业具有较高的设备可利用率、优质产品、准时的交货能力、富有竞争性的产品价格,需要企业对生产产品的设备进行有效的管理,重新考虑维护管理
6、在获取本钱和效劳优势上所能起到的关键作用。由于科学技术的迅猛开展,新技术新成果不断应用于设备,使现代设备向大型化、高速化、流程化、精密化、电子化、柔性化、智能化等方向开展。为了及时更换破损的零部件,减少停机损失,备件的适当存储、及时准确的供给成为设备管理的主要课题【。而解决这一课题的重要途径是及时准确的备件需求预测,而本文主要是要就基于维修企业维修的历史记录,利用数据挖掘模型和企业的需求预测模型,科学合理地安排维修企业备件库存结构、预测备件库存需求。.数据挖掘的产生和应用状况数据处理是指把来自科学研究、生产实践和社会经济活动等领域中的原始数据,用一定的设备和手段,按照一定的使用要求,加工成另一
7、种形式的数据。伴随着计算机硬件和软件的开展,数据处理大致经历了下面的开展阶段:简单应用阶段主要指世纪年代以前,这一阶段的根本特征是无数据管理和完全分散的手工方式。主要表现在输入输出设备简单,没有操作系统和应用软件数据与程序不独立,数据冗余度大,无法实现数据共享。文件系统阶段主要是世纪年代后期到年代中期,出现了面向应用的数据管理功能,工作陕两科技人学硕十学位论文方式为分散的和非手工的。输入和输出能力大大提高,特别是外存的开展,如软盘和大容量硬盘;出现了操作系统、文件管理系统和多用户的分时系统;主要实现文件管理,也可以进行非数值处理;出现了数据结构,数据与程序相别离,数据可以反复使用和保存;出现了
8、多样化的文件系统。但是仍存在一些问题,如数据冗余度大,文件不能反映现实世界事物之间的联系。数据库阶段主要在世纪年代后期到年代,根本特征是多用户、多应用共享数据。主要表现在面向全组织的复杂数据结构;数据冗余度小,易于扩充;统一的数据控制功能。信息系统的研制从以程序为中心转移到以数据库为中心。分布式数据库系统阶段实现主要指世纪年代以后,特别是将传统的单机数据库扩展到计算机网络上,数据高度分布、实时和透明的联机数据处理。分布式数据库在资源共享、数据可用性、处理效率等方面给人们带来巨大方便。随着数据库/数据仓库技术的迅速开展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多
9、重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规那么,无法根据现有的数据预测未来的开展趋势。缺乏挖掘数据背后隐藏知识的手段,导致了“数据爆炸但知识贫乏的为难境地。大量信息在给人们带来方便的同时也带来了一大堆问题:信息过量,难以消化:真假难辨;平安难以保证;形式各异,难以统一处理等。人们不禁感慨:在我们这个信息时代、知识经济时代,不缺信息缺知识。人们甚至提出了要善于“抛弃信息。面对这一挑战,数据挖掘技术应运而生,并显示出强大的生命力。挖掘是一个很生动的术语,它抓住了从大量的数据材料中
10、发现少量知识金块这一过程的特点。数据挖掘的开展受到了很多学科的影响,其当前的开展结果是数据库、信息检索、统计学、算法和机器学习各学科多年影响的结果。例如统计学中的贝叶斯定理、回归分析、极大似然估计、重新抽样、偏置归纳、折叠刀估计、分类线性模型、探索性数据分析、算法和.均值聚类,数据库学科中的批量报告、决策树、关系型模型、关联规那么算法、数据仓库和,信息检索学科中的相似度度量、聚类和人工智能学科中的神经网络、最近邻、单连接、感知器、机器学习、遗传算法等,这些只是共同影响和推动着的开展。基丁数据挖掘的维修企业库存管理.维修备件库存研究现状和缺乏.国内外研究现状维修备件管理的目的是以经济的费用及时提
11、供所需备件,库存控制理论的研究早在上世纪初就已开始,此后由于生产的需要,提出并解决了各种库存问题,产生了各种各样的方法,到年代开始形成了运筹学的一个重要分支?存贮论。随着计算机技术的出现和生产技术的提高,库存管理上了一个新的台阶,出现了物料需求方案,简称等先进库存管,简称和及时管理理思想【】。备件库存属于离散型随机库存,在目前现成的研究成果中,对于备件库存进行控制通常有几种订货策略,如按决定是否认货的条件划分,有订购点订货法和定期订货法;如按订货量的决定方法划分,有定量订货法和补充订货法。应用时,一般是将上述根本订货法组合起来,构成适当的存贮策略。这些方法的思路都是通过对以往历史资料的备件需求
12、频率分布来估计备件需求量的统计规律,对模型做出假设,采用损失期望值最小或获利期望值最大的准那么进行评价,构造出数学模型求出经济订货批量和订货点。这需要用到最优化方法、概率和数理统计以及其他数学方法。这方面的研究很多,通常是运用存贮论中某一库存模型,考虑备件的使用寿命,需求规律等再配以具体实例进行计算【钔。但是实际的存贮问题往往并不像存贮论中的理想化模型,而且越接近于实际,存贮问题就越复杂,因而无论是对问题的数学描述,还是对模型的数学求解都会发生困难。而在具体操作中,多数企业依靠技术人员的维修经验来确定备件库存品种和数量,不可防止地导致低价备件库存过高和重要性等级较高的高价备件库存缺乏。而基于数
13、据挖掘技术的维修备件库存管理,其实就是备件库存控制决策以历史资料为根底,结合专家的经验,是定量计算和定性分析的有效结合,需要建立有针对性的库存模型并解决复杂的控制参数计算难题。在这方面,国内外一直很重视库存的研究,并开发了一些,系统,如,和开发了支持供给商管理库存的【】,和 .开发了一个库存决策支持智能模型管理原型系统,.等设计了基于面向对象的库存决策支持系统,.进行了相应的备件库存决策支持系统研究【钒。国内学者也有所突破,陈淑燕等设计了包括综合部件、数据部件和模型部件在内的船舶配件存储决策支持系统,吴洪波开发的设备管理决策支持系统主要解决设备的更新决策和零配件的最正确存储决策问题等。以上系统
14、从功能上讲,多是关于出入库、盘点、报表和特定的模型计算功能,决策支持功能不能满足越来越复杂的库存控制决策的需要。陕两科技人学硕十学何论文.研究存在的缺乏当前对备件库存管理的研究存在着如下的特点和缺乏:基于维修备件自身的特点,它不同于原材料、在制品和成品等生产库存,备件库存控制的研究不仅要考虑及时满足设备维修的需求,还要根据备件的磨损规律,寿命分布来确定备件库存控制模型。当前的局部研究已注意到这个特点,但随着设备的自动化程度越来越高,设备出现故障的随机性很大,备件库存控制的复杂程度也随之增大。所以,至今尚未找到一种非常完善的控制模型。模型对现实作了过多的假设,无视不确定性对备件库存控制的影响。不
15、确定性主要来自于设备和设备的使用者。只有尽可能周全的考虑各种不确定性影响,建立的模型才能真正到达现实库存储藏的最优化。未能充分利用信息。在企业内部,信息起着关键的作用。通过掌握备件采购和属性记录,设备维修消耗备件的记录等信息,对信,/以分析,做出相应的管理决策。而随着数据库、数据仓库技术的开展和管理信息系统的广泛应用,信息的及时获取与分析已逐步成为现实,因此数据挖掘技术与备件库存管理方法的融合也将成为一种库存管理模式开展的趋势。.本课题的研究意义维修备件的种类繁多,并且对于减少因设备故障而引起的停机损失至关重要,对生产和生活的保障作用巨大。但是对于大局部维修企业而言,设备的种类繁多,具体到备件
16、的种类那么更是数量庞大,尤其是局部非通用备件价值高、易贬值,不适合维持过多的备件库存,但是这些备件又属于整个设备关键零部件,一旦维修企业库存缺乏这种备件,企业就会面临巨大的维修业务损失,甚至客户损失。所以本文的研究重点就是针对那些在企业的库存或者价值比例较大,品种较少的备件研究。对于很多价值较小、通用性的零配件,由于库存的适当增大并不会对企业的库存本钱造成太大的影响,由于投入高额的研究本钱是不经济的,本文的研究内容将不再涉列。本文的研究主要是基于历史数据的,并没有采取传统的库存控制模型,也是本文的一个创新点,所以历史数据的收集是一项重要的根底任务。由于维修的数据与设备损坏紧密联系,所以他常常与
17、企业的设备故障状况、异常状况的相关,也与维修企业的维修记录单、库存提货单、甚至与本钱核算、系统、网站维修预约、等有一定的关系。基于数据挖掘的需求,设计数据仓库,构造数据立方体,利用自行编制的程序开展,发现和解释知识,为维修企业的库存管理提供依据。为了探索理想的库存管理模式,本文所用的数据挖掘的具体内容是多方面的。例如根据备件的属性,对备件进行分类,确定库存或者价值比重相对较大,关键的配件作为基丁数据挖掘的维修企业库存管理研究对象,采取分类模型;通过配件的关联分析,可以发现零部件维修的相关性,即某些备件的维修通常伴随着另一些备件的维修;通过对易贬值备件的识别,可以防范备件贬值的风险;通过合理的备
18、件库存需求预测,可以有效地控制库存占有的资金。陕两科技火学硕十学何论文维修企业备件库存管理的特点及其影响因素.维修备件的特征在设备维修工作中,为了恢复设备的性能和精度,需要用新的或者修复的部件来更换磨损的旧件,通常把这种新的或者修复的零部件称为备件。为了缩短设备修理停歇时间,减少停机损失,对某些形状复杂、要求高、加工困难、生产或订购周期长的配件,在仓库内预先存储一定的数量,这种配件称为备品配件,简称备件。备件是设备正常维修检修和应急处理的保障性物资,是保障设备处于良好状态的重要因素】。备件不同于一般物资。一是备件与一般物资功能不同。一般在生产过程中,按产品完成形态,可分为产成品、在制品和原材料
19、。产成品是效劳于最终消费者的需求;在制品是由于加工工艺要求和生产过程中各环节生产效率不同而存在的;原材料是效劳于生产过程的;而备件是效劳于设备的。二是备件与一般物资需求的影响因素不同,产品的需求影响因素是市场需求;在制品需求取决于生产过程有关环节的生产效率;原材料取决于方案生产产品的数量;备件的需求那么取决于设备的运行状况,确切的说是零部件的使用寿命。三是备件与一般物资需求特征不同。对于产成品而言,如果没有订单到达时,只能按照预测生产,产成品需求是一个随机变量,需要运用需求预测技术进行预测需求;在制品需求可以根据工艺加工要求进行计算,应该说其需求是一个确定的变量;对原材料的需求是一个相关需求,
20、可以根据产品结构及生产产量确切的计算。而对于需求备件,由于零部件寿命是不确定的、随机的,所以备件需求具有随机变量、具有不确定性,而且有些备件需求量少,但是在设备运行中又至关重要,对这局部需求越来越引起人们的关注。四是备件库存的策略不同于在制品与最终产品的库存控制策略。在制品和最终产品库存随着生产率与方案、方案改善、提前期的缩短等变化。然而备件库存水平很大程度上是如何使用与如何维护设备的函数。需要某种备件的维修活动有时会延期或者取消,而维修活动直接影响库存。如果状态监测说明一个备件即将要损坏,那么这种备件的库存就会减少。对于在制品和最终产品的库存方案,很少有这种情况】。.维修企业备件库存管理的特
21、点由于维修企业的需求主要源于其维修对象的故障发生率和该产品的区域保有量,还取决于该企业的维修市场占有率。如果用只表示某类产品的某个备件的故障发生频率,一般用备件寿命的倒数表示,用。表示该产品在维修企业效劳区域内的总体保有量,假设该企业维修该产品的市场占有率为尺,那么该企业对于该备件的理论库存应当为:基丁数据挖掘的维修企业库存管理?木木式中:?备件的理论库存需求?产品在维修企业效劳区内的总量?产品某部件故障发生频率?该维修企业维修效劳市场占有率由于维修备件缺乏,设备故障可能会引起设备使用企业很高的停机本钱,对于维修企业来说可能会造成顾客的流失,为了保障企业的准时效劳,很多企业都存在库存量过高的问
22、题,造成这种现象的主要原因在于预测不准确;个别备件故障价值高而故障发生率较低,同一种产品有几种不同的生产厂家,然而,不同的生产商提供的产品的使用寿命是不同的,并且具体的备件的型号可能也存在差异,备件需求难以预测;很多因素都会引起不规那么的故障发生,从而导致一些故障发生具有很大的不确定性:信息沟通不流畅;维修企业为减少库存备件跌价损失或者资会占用,无法提高库存量等等,都增加了库存管理的难度。一般情况下,维修企业并不会来一个订单就向上级备件供给商订货一次,而是在考虑库存和运输费用的根底上,在一个周期或者汇总到一定数量后再向供给商订货;为了减少订货频率,降低本钱和躲避断货风险,维修企业往往按照经济规
23、模批量订货。同时频繁的订货也会增加备件供给商的工作量和本钱,供给商也往往要求维修企业在一定数量或一定周期订货,此时维修企业为了尽早得到货物或全额得到货物,或者为备不时之需,往往会人为提高订货量。这样,就会产生供给链中的“牛鞭效应】。.维修企业备件库存需求的影响因素零部件发生了故障或者寿命终止就产生了备件的需求,影响备件需求的因素很多,零部件的故障率与设备总量足备件需求的决定因素。具体划分,影响备件库存管理的因素主要有:.备件故障的预知性备件的需求时间、数量、场所等内容与设备的运行情况、备件的故障模式、维修策略等设备使用及维护管理方式有关,将这些因素可归结为一个重要因素,就是备件故障预知性。备件
24、故障的预知性是指对于特定的备件,在下一时刻发生故障的概率是否确定。如果是确定的,其需求量及时间是己知的,根本不需要采取复杂的预测技术进行预测。否那么需要对零部件可靠性进行预测估计,以确定备件需求量。故障预知性取决于设备的使用特征和维修策略。而备件的关键性以及停机的影响大小也反映在企业制定的维修策略中。对于某些零部件出于平安考虑,必须定期更换,也陕两科技人学硕十学位论文就是周期性更换的备件,那么其需求时间、数量等是确定的,我们便认为此类故障是可预知的。对于采取可预知维修方式的备件,由于检测技术和检测设备可以检测到零部件发生故障的时机,也可以比拟确切的清楚备件需求的状况,我们也可以认为备件的故障是
25、可预知的。此外,设备中零部件什么时候更换是不确定的,但对于需求量较大的备件,采用传统的预测技术以及可靠的模型,往往能够得到与实际需求相吻合的预测结果,这一类备件的需求也可以看作可预知的备件需求。然而,需求量很小的备件,采用传统的预测技术难以得到较准确的预测结果,那么其需求不能视为可预知的。.备件本身的特点备件本身的因素主要有:备件的通用性、重要性和备件在存储过程中的无形损耗。从通用角度见,备件可分为标准件和专用件。对于标准件在设备中使用量大,故障规律比拟容易掌握,一段时期的需求量也相对容易预测,因此备件的库存也比拟容易确定。对于那些专用件而言,一般是按照订单生产的,可获得性较差,采购提前期较长
26、,价格也较高,同时需求量低,预测难度较大。从备件的重要性而言,如果备件的需求量较低,并且备件的重要程度很大,对于设备起关键作用,且不易获得,那么企业会出于平安考虑,宁可牺牲库存的维护本钱,也要保证这些备件的库存,那么就会直接影响库存的需求。对于比拟容易获得而且不是特别重要的备件,企业可能会采取一些消极的库存策略。另外,对于某些行业来说,设备的改革和开展的速度是飞快的,如行业的备件,保持足量的库存,维修企业可能会面临很大的风险,可能在这些备件还没有派上用场的时候已经被市场淘汰,或者由于备件的落后,价格下降很多而维修企业需要承当备件的无形损耗。而对于科技创新和产品更新换代并不快的行业来说,这些风险
27、是可以忽略的,所以常常会采取一些积极的库存策略。.维修企业因素这主要是看维修企业所处的行业,及其管理者的风格,是稳健型的还是风险性的。稳健性的管理者常常会保持必要的库存,坚决不允许由于库存的缺乏而引起客户的不满或者停机损失;风险性的管理者那么更注重投入与产出的比例,有时宁可牺牲一两个客户资源,或者冒一定停机损失和风险而换取较低的库存本钱。.供给商因素备件供给商的因素决定了备件的可获得性即在维修企业急需备件的时候能否立即在预定的期限内提供备件。而这又与备件的特征、物流的便利条件以及维修企业与供给商当前库存管理与数据挖掘的理论与模型.传统的库存理论与模型传统的库存理论都是基于模型的,每一种理论都是
28、基于大量的假设和特定的数学模型,对于企业库存的实际历史状况并没有太多的关注。.库存决策单周期库存决策报童理论是典型的单周期库存决策,理论界由此模型开展出许多决策模型,例如期望损失最小法、期望利润最大法、边际分析法。随着理论的不断开展,又相继出现了单周期模糊库存模型,其中包括本钱为模糊变量而需求为随机变量的单周期库存模型和成本是确定而需求是模糊随机变量的单周期库存模型两种模型。多周期库存决策不允许缺货的经济订货模型经济订货批量模型 又称整批、日隔进货模型模型,是目前大多数企业最常采用的货物定购方式。该模型适用于整批间隔进货、不允许缺货的存储问题,即某种物资单位时间的需求量为常数,存储量以单位时间
29、消耗数量的速度逐渐下降,经过时间后,存储量下降到零,此时开始定货并随即到货,库存量由零上升为最高库存量,然后丌始下一个存储周期,形成多周期存储模型。假设用表示表示一次订货费用,年需求量为,单位库存维持费用为,那么经济订货批量为:嘲犀式中:膨卜经济订货批量卜一次订货费用卜年需求量卜单位库存维持费用】经济生产批量模型经济生产批量,又称 ,该模型与不允许缺货的模型假设不同,订购货物不是一次交付的,而是连续供给陕两科技人学硕学位论文的,仍然是不允许缺货的。假设用表示表示一次订货费用,年需求量为,单位库存维持费用为,由于生产率大于需求率,库存在供给期日将以的速率上升,停产后以需求率下降,那么经济生产批量
30、为:?式中:儿?经济生产批量尺?一次订货费用驴一年需求量卜单位库存维持费用广生产率卜需求率允许缺货的经济订货批量模型与前两种模型不同,该模型允许缺货,但却或要付出一定的本钱,当然也包含时机本钱,假设胁为单位时间单位缺货损失,订货费用为只,为单位时间库存维持费用,为需求率,订货周期为丁,订货批量为,那么平均总费用为:舢等学蚂分别对丁,求偏导,并令其偏导值为,求的经济订货量和订货周期分别为:丁 鼯降囊一式中:厶,广一单位时间单位缺货损失厂订货费用需求率卜单位时问库存维持费用经济订货量,?经济订货周期另外,还出现了有价格折扣的经济订货批量模型和随机经济订货批量模型等许多多周期订货模型。.库存控制方法
31、由于供给链中的需求放大原理,导致了牛鞭效应的出现,最早对此作出研究的是.弗雷斯特.、.斯特曼.和.陶威尔.等都做过研究,而真正对这一现象做出全面和详细的分析是美国斯坦福大学教授.李.。他提出的“需求变异放大原理是对需求信息扭曲在供给链中传递的一种形象描述,才有那些传统的库存管理模式不能解决诸如需求放大现象这样一些新的库存问题,为此需要采用供给链的库存管理模式来消除这种需求放大。而常见的供给链库存管理模式有供给商管理库存,联合库存以及协同规划、预测和管理 ,模式。.多品种联合订购对于多品种联合订购,是在单种产品库存控制的根底上的延伸,扩展到多品种、多型号、多品牌的备件的库存。由于出现了并列的不同
32、品种的备件,除了涉及到单种备件的库存模型外还要考虑备件的配比问题,关联分析就能在这方面起到作用;另外还要考虑替代品,通用件的库存对于某种备件库存的影响。另外由于备件品种增多库存的管理也会变得复杂的多。对企业历史库存数据的分类挖掘,可以在备件的分类管理中会要起到一定的作用【加。.数据挖掘的概念,与数据挖掘数据库中的知识发现,这两个术语经常被人们通用。而在最近几年,学术界普遍认为包含许多步骤,而只是其中的一个步骤,本文采用了这一观点。数据库中知识发现是从数据中发现有用信息和模式的过;呈【。而数据挖掘是使用算法抽取信息和模式,是的一个步骤。和的过程如图?所示:、 /?、八培骺.攀警置窭篓.,、数撼挖
33、掘。、/量镑数强 覆趁璜屠的数撂 熏抉詹的数塘 筏爱锄始教鼍 图 与过程图数据源是真实、大量、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;知识表示为概念、规那么、规律、模式等形式;并不要求发现放之陕两科技人学硕十学位论文四海皆准的知识,仅支持特定的问题就足够了。从本质上讲,提供了一些方法与方式,是一个发现过程,它能够帮助用户理解有关数据的真正含义并了解数据之间的错综复杂的关系。发现的是数据本身就存在的隐含的知识,不能按照用户预期的结果运行。维修企业科学的备件库存决策,都是依据公司过去积累的有关知识、客户行为以及自己从中摸索出的模式、趋势等驱动。信息时代的市场瞬息万变
34、,市场的需求也千变万化,维修备件的贬值与淘汰速度也不断加快,因此过多或者过少的备件库存,对于维修企业来说也成为越来越明显的风险。领导者假设还是按照以前的决策模式,人工收集整理资料,然后花几周甚至几个月的时问苦苦找寻各项数据间的联系,揣测将来的开展趋势,那么等决定终于定下时,实际的状况已经改变。有助于把大量的数据转化为信息并从中挖掘出有用的知识,而所有的这一切只在点击几下鼠标的过程中就完成了。值得注意的是,人的因素在数据挖掘中起到了至关重要的作用,因为数据挖掘是在人的指导下开展的。不能自动生成各种现成的知识,在开展之前需要进行需求分析,分析的内容就是知识的使用者期望得到哪些方面的知识,然后在挖掘
35、的过程中,需要领域专家和技术专家的参与,构建适当的模型和采用科学的算法,技术专家将查询条件形式化,同时辅助性解释挖掘的结果,挖掘的结果要由领域专家给予解释,才能转变为有用的知识。否那么,这些结果数据对于一般的数据库用户可能是毫无意义的】。.数据挖掘的相关理论与框架从本质上可以分为预测性和描述性模型两类,每一类模型下都包含一些需要用到该模型的最常用的数据挖掘任务。关系如图.所示:数据挖掘?/、预测型 描述型分繇高毒蕊测 分类回归时间序列分析颈测 聚樊三孑霎滁列发现 聚樊。汇总关联规那么序列发现图?数据挖掘的模型和任务? 包括两个层面的含义:一是算法层面,的算法层面是实现分类、聚类和关联规那么具体
36、方法,最常用的用统计决策的方法,包括线性回归和非线性回归、贝叶斯分析法,其中贝叶斯分析方法应用广泛,另外还有神经网络分析方法、决策树法、遗传算法等方法;二是的功能层面,包括分类、聚类、关联规那么等,随着科技的开展,又出现了空间数据挖掘、时序数据挖掘等多种应用。因此,要开展数据挖掘,首先要明确挖按照数据挖掘的功能,可以分为分类、聚类和关联规那么。每一种功能都对应不同的算法和现实实用意义,对与维修企业的库存数据进行数据挖掘也就是通过这三种功能来实现的。.分类模型分类数据挖掘是目前最广为人知的数据挖掘技术。分类技术目前主要的应用例子包括图像识别、医疗诊断、贷款审批故障检测以及金融市场走势分类等。在维
37、修企业中最普遍的就是故障识别,他是模式识别的一个具体应用。另外,对于库存备件要按照备件的价值比例、通用性、库存比例、使用频率的特征进行分类,选择重要的备件和具有经济可行性的备件作为库存管理的对象。折旧涉及到备件的分类数据挖掘。预测是分类的一种特殊形式。通常,当预测的属性值为变量时,叫做预测;当预测的属性值是类别时叫做分类。分类模型常用的算法为神经网络、决策树、统计回归方法和贝叶斯分析、基于规那么和基于距离的算法等方法。对维修企业库存数据的分类,其实就是建立一种映射关系,给定库存数据的元组条目、记录组成的数据仓库敬,?,。和一个类别集合,?,。,分类问包含了被映射到其中的元组,即翟,厂,且,。其
38、中,类别是预先定义好的,不重叠的,并且分割了整个数据仓库。数据仓库中的元组也被精确的分配到某个类中。在应用分类模型的进行处理时,分两步来完成:利用历史数据创立训练集,通过训练集进行计算,产生一个特定的模型,在这个步骤中,以训练集数据作为输入,以计算得到的模型作为输出,产生的模型尽可能精确的将训练集数据分类。用第步产生的模型对数据仓库中原组进行分类。目前分类方法采用的主要方法有基于距离的分类方法、决策树分类方法、贝叶斯分类方法和规那么归纳方法,另外也有出现了神经网络在分类方法中的应用。在本文中,确定维修企业库存管理的对象的过程就是一个分类过程,将维修企业备件分为两类,采用的是神经网络方法实现;易
39、损件的识别也是一个分类方法的应用,不同的是它采用了贝叶斯分类方法。.聚类模型聚类与分类形似,都是对数据分组但是与分类不同的是聚类中的组不是预先定义的,而是根据实际数据的特征按照数据之间的相似性来定义的。聚类中的组又叫簇。聚类在维修企业库存数据仓库中的应用并不多,但是常用的一个概念叫数据库分组,陕两科技大学硕十学位论文它是用来把数据库中相似的元组划分为一组,然后便于对库存备件实行分类管理。另外一个重要的应用方面就是异常点分析,常常用于分析不正常的故障,或维修记录,从而为分析故障的原因和企业内部控制提供一定的决策依据。聚类的结果是事前不知道的,需要依据特定的算法分类后再分析调整。参照分类方法,聚类
40、问题也可以看成是定义一个聚类的过程,给定一些元组组成的数据仓库沁 ,.一,。和一个整数值,聚类问题就是定义一个映射,厂:,?七,其中,第个元组被映射到个簇中。第/个簇,由所有映射到该簇中的元组组成,即,七,。与分类方法最大的区别是:在分类完成之前人们并不知道每一个簇.的具体特征和标准,每个簇是由算法生成的。聚类的算法有很多,常用的有层次算法、划分方法和密度聚类方法,另外还有类别算法和对于大型数据库所适用的抽样和压缩方法。层次方法又可以分为凝聚方法和分裂方法。划分算法有最小生成树算法、平方误差聚类算法、.均值聚类、最邻近算法和算法等。另外神经网络也可以应用于聚类。聚类算法大多针对数值型属性进行,
41、所以在对类别属性聚类是也要转化为数值类型,因为大局部聚类的很多指标都是基于距离的标准,例如单连接、全连接、质心、中心点等。簇常见的几个特征值是质心、半径和直径。给定一个包含个点的簇。 。,?,。.,这几个特征值描述如下:。,?质心。型一半径。直径巩式中:,.,卜簇如中的点卜簇中点的个数【异常点分析也属于聚类,在库存系统中通过对维修记录、供给商信息、设备、备件相关的价值或数量方面的异常点分析,可以使企业获得难得的商业数据。聚类分析一般作为分类模型的前期工作,在不明确数据分类的类别或者分类标准时首先采用聚类分析方法处理数据,由领域专家和数据使用者对聚类结果进行评价或者二次聚类,假设聚类分析结果明确
42、时,可以进行分类研究,为决策提供依据。由于本文所涉列内容都具有明显的分类标准或类别,所以没有涉及聚类的内容】。.关联分析关联知识指反映一个事件和其他事件之间依赖或关联的知识。关联规那么主要描述了一组数据工程的密切度或关系。关联可以分为简单关联、时序关联和因果关联。关系或者规那么总是用一些最小的置信度级别来描述。置信度级别通常根据经验和要求来确定,它度量了关联规那么的强度】。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规那么发现方法是.提出的算法。利用算法发现关联规那么可分为两步。第一步是迭代识别所有的频繁工程集,即大工程集,要求频繁工程集的支
43、持率不低于用户设定的最低值;第二步是从频繁工程集中构造可信度不低于用户设定的最低值的规那么。识别或发现所有频繁工程集是关联规那么发现算法的核心,也是计算量最大的局部。大工程集的性质是:大工程集的任意子集也一定是大的。这个命题的逆否命题为:某集合如果非大,那么该集合与其他任意集合的并集不是大工程集。利用这个逆否命题,事务数据库的最小子集开始向上查找,仅仅查找下级大工程集的并集,可以简化运算的时间和空间复杂度【:】。给定一组工程“,:?,。和一个事务数据库,:,?,。其中是两个项缸,:,?,并且厶,关联规那么是形如的蕴含式,其中,目集合,称为工程集并且、矽。】,的事务占库中所有事务的百分关联规那么
44、的支持度是数据库中包含,的事务与比,或者记为 。关联规那么的置信度或强度口是包含包含的事务的比值,即,或者记为口:?广。给定一组工程,?,。和一个事务数据库,:,?,。其中乜。,?,并且厶,关联规那么问题就是找出满足最小支持度和最小置信度的所有关联规那么。数值,口作为问题的输入。也就是寻找所有满足最小支持度和置信度的所有关联属性集合。一个值得注意的问题是关联规那么不具有可逆性,即如果存在关。联规那么 ,未必存在关联规那么提到关联规那么,一个经典的案例是啤酒和尿不湿的故事。同样,关联规那么也在维修企业备件库存管理中也具有非常重要的应用。如果将维修历史记录整理成数据仓库,按照维修实例查看数据立方体
45、,那么每一个属性可以看成影响维修数量和维修种类的因素,当然,并不是所有的属性都在现实中被认为是影响维修量和维修种类的因素。运用关联规那么可以发现影响备件库存的重要因素,并根据当期的该属性的情况预测本期的维修需陕撕科技学硕十学位论文求种类和维修量,从而可以更合理确实定备件库存。由此得到如图?所示的影响关系压力用供给商 压力目蛙棒量旺力瞬备件库存量况育一定的影响,例如河北某厂生产的压力阀的维修比率耍小于浙江南通生产的压力阀的维修比率,说明这两地的压力阀对于潜在的维修需求有影响,那么供给商就对维修需求存在关联,进而影响到维修备件库存。当然.很多放障出现经常是综合的、相互影响的,仅更换一个部件是能恢复
46、使用功能,因此故障之间常存在关联。相应的维修各件需求也是关联的。例如通过某工程机械维修公司的维修历史数据发现,离合器总成和缓冲柱塞的同时更换常常伴随着转向外齿轮的更换,这种关联关系可能是有其内在原因的,也可能是没有任何原因的事实。发现这个知识并合理解释之后就应当在营销和库存方面调整,按照一定的比率适当调整。出现如下图的关联关系:?.、一髦?网薯茸鳓犍睁轮囤维修备件关联规那么举例 虽然,关联规有支持度和置信度等兴趣度指标度量,但关联规那么可能既包含因果关联关系,又包含随机关联关系,甚至是负相关关系。例如我们发现甲零部什损坏的总量中有%是供给商供给的,可以发现关联规那么:甲一随机关联规那么,甚至是
47、负关联,不能带来任何知识。所以关联规那么的发现要能够合理的解释,防止假象。目前关联规那么在数据挖掘领域具有深度的研究和广泛的应用,已经在市场营销、金融业管理学和其他方面具有重要应用,但目前在库存方面还没有多少可供参考的资料,因此研究备件库存的关联规那么具有一定的意义。关联规那么常用的算法是算法,本文就是采用这算法研究库存备件之间的关联性,主要研究由于故障本身的逻辑性,备件之间的需求常常表现出一定的关联性,因此在这些备件维护其库存时也要考虑一定的配比关系,并在此根底上做以调整:在本文的库存预测局部,实际上也是一种时序关联分析,如果仅仅考虑时间属性,那么可以采用回归方法预测未来期库存需求,假设果考
48、虑多元素,那么考虑多元素,理论上可以采用多元回归方法,但是由于多元回归的不确定性太多,故本文采用神经网络的方法预测未来期库存需求。.库存需求预测分析预测型知识是指根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。经典的统计方法是常用的时间序列预测方法,其中回归方法是最常用的。统计决策方法中有很多理论都是的根底,例如点估计、汇总模型、假设检验、回归和相关,其中回归中广泛应用。回归和相关都可以用来估计两个变量之间关系的强度。回归一般是通过用一条曲线来拟合一组变量之间关系的方法来实现预测未来值;而相关那么是用来分析两个变量值的影响的程度和方向】。线性回
49、归的形式为:甜式中:.一因变量的列矩阵?自变量的列矩阵,卜回归系数除了线性回归之外,还有非线性回归,这些都可以作为数据挖掘的算法,例如幂函数形式、指数函数、变异指数函数等形式。只要将公式中的替换为相应的幂函数形式、指数函数、变异指数函数形式即可。下面的公式表示了这些非线性回归的模型样例。幂函数形式回归预测:,肿口 口 %肿一一舻?。 露 %埘陕西科技人学硕学位论文等形简化为三,同理可以得到指数形式回归预测模型为么三式,变异的指数形式回归模型为 等形式。,本文采用软件分析这些模型和矩阵的计算,预测回归系数,由于是专门进行矩阵计算的软件,因此无论是矩阵计算,还是回归系数的计算,甚至是画图都可以轻而
50、易举的完成。回归模型可以用于维修企业备件库存中备件库存量的预测,但是由于回归模型处理的都是数值型的变量,因此各种属性的影响因素都必须予以量化,并且由于数据仓库各种属性的量化后未必具有可比性,例如如果年份强制转化为数值型,而备件的供给商的可靠性转换为,之间的连续变量,这样再考虑多因素影响的时候就会放大年份对于库存的影响。因此采用此策略进行数据挖掘要把变量归一化,这样可以平等的预测变量的影响。此外,神经网络和机器学习也可以用于时间序列预测。年和提出了一套比拟完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季节调整模型等,进行时问序列的预测。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此仅仅通过对某段历史数据的训练建立单一的神经网络预测模型,还无法完成准确的预测任务。为此人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练获得新的权重参数。建立新的模型也有许多系统借助并行算法的计算优势进行时间序列预测。现代的预测方法为需求预测提供了更多的方法,可以预测多因素的联动预测。例如神经网络可以将各种因素看作是输入向量,为每个向量分配一个输入结点,将每期的需求看做输出,经过学习训练网络,向训练后的网络
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设置公司销售管理制度
- 设计后续服务管理制度
- 诊所医保设备管理制度
- 诊所药品查验管理制度
- 试验样品分区管理制度
- 财务管理制度管理制度
- 财政保障垂直管理制度
- 货场人车分离管理制度
- 货运电梯处罚管理制度
- 房产买卖改造协议书范本
- JG/T 446-2014建筑用蓄光型发光涂料
- 人文关怀在护理工作中的意义
- 2024北京初三一模英语汇编:材料作文
- T/CCMA 0137-2022防撞缓冲车
- GB/T 20854-2025金属和合金的腐蚀循环暴露在盐雾、“干”和“湿”条件下的加速试验
- 麻风病知识讲座课件
- 江苏省2025年中职职教高考文化统考数学试题答案
- 氨区作业安全培训课件
- 2025内蒙古中考:生物必背知识点
- 国有资产管理清查报告编写指南
- 2025年湖北省新高考信息卷(一)化学试题及答案
评论
0/150
提交评论