数据挖掘在销售管理系统中的应用.doc_第1页
数据挖掘在销售管理系统中的应用.doc_第2页
数据挖掘在销售管理系统中的应用.doc_第3页
数据挖掘在销售管理系统中的应用.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

荿螆螅艿芅莂袈肂膁莁羀芇葿莁蚀肀莅莀螂芅芁葿袄肈膇蒈羆袁蒆蒇蚆肇蒂蒆袈罿莈蒅羁膅芄蒅蚀羈膀蒄螃膃葿蒃袅羆莅薂羇膁芁薁蚇羄膇薀蝿膀膃薀羂肃蒁蕿蚁芈莇薈螄肁芃薇袆芆腿薆羈聿蒈蚅蚈袂莄蚄螀肇芀蚄羂袀芆蚃蚂膆膂蚂螄羈蒀蚁袇膄莆蚀罿羇节虿虿膂膈螈螁羅蒇螈袃膁莃螇肆羃荿螆螅艿芅莂袈肂膁莁羀芇葿莁蚀肀莅莀螂芅芁葿袄肈膇蒈羆袁蒆蒇蚆肇蒂蒆袈罿莈蒅羁膅芄蒅蚀羈膀蒄螃膃葿蒃袅羆莅薂羇膁芁薁蚇羄膇薀蝿膀膃薀羂肃蒁蕿蚁芈莇薈螄肁芃薇袆芆腿薆羈聿蒈蚅蚈袂莄蚄螀肇芀蚄羂袀芆蚃蚂膆膂蚂螄羈蒀蚁袇膄莆蚀罿羇节虿虿膂膈螈螁羅蒇螈袃膁莃螇肆羃荿螆螅艿芅莂袈肂膁莁羀芇葿莁蚀肀莅莀螂芅芁葿袄肈膇蒈羆袁蒆蒇蚆肇蒂蒆袈罿莈蒅羁膅芄蒅蚀羈膀蒄螃膃葿蒃袅羆莅薂羇膁芁薁蚇羄膇薀蝿膀膃薀羂肃蒁蕿蚁芈莇薈螄肁芃薇袆芆腿薆羈聿蒈蚅蚈袂莄蚄螀肇芀蚄羂袀芆蚃蚂膆膂蚂螄羈蒀蚁袇膄莆蚀罿羇节虿虿膂膈螈螁羅蒇螈袃膁莃螇肆羃荿螆螅艿芅莂袈肂膁莁羀芇葿莁蚀肀莅莀螂芅芁葿袄肈膇蒈羆袁蒆蒇蚆肇蒂蒆袈 数据挖掘在销售管理系统中的应用摘要 销售量的预测对于生产和销售部门是极其重要的,面对销售部门日益增长的海量数据,给出一个完整的数据挖掘过程,包括数据选择,数据准备、数据调整、挖掘算法的实现等,并结合某厂的实例,进行了详细的分析和说明。关键字 数据挖掘,销售预测,RBF神经网络Application of Data Mining in Sales ManagementAbstract Face to big number data which increase day after day of sales department, this paper presents an integrated data mining precession. It includes selection of data, preparation of data regulation of data, implementation of mining algorithms and so on. With a sample of one company, estimating a mining result. All those will be analyzed and illuminated in detail.Key words Data Mining; Sales Forecasting; RBF Neural Networks1 引言随着网络和信息技术的迅猛发展,人们在追求信息高速、迅捷的同时,开始注重分析和挖掘隐藏在深层的信息和规律。销售管理系统软件的实施给企业带来了极大的便利,各个业务操作流程的自动化使企业产生了大量销售历史数据,这些海量数据中蕴藏着大量未知的、潜在的、具有价值意义的信息,如果能够把这些信息表示出来,可以预测产品销售并对生产起指导作用。然而传统的以数据库为中心的数据组织模式,仅仅对数据记录进行存取和检索,由于这种业务处理能力的局限性,难以获得隐藏在数据之中深层次的有关数据整体特征和数据发展趋势的模式和预测信息,无法满足决策分析对数据系统的要求,面对全球化市场竞争的挑战,如何及时地从大量的原始数据中挖掘出隐藏在数据背后的规律和趋势,并付诸实施,具有重要的意义,在这种情况下,数据挖掘技术应运而生。数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着销售管理系统的使用,积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。本文正是基于数据挖掘技术展开的。2 确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,如果是为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。在销售管理系统中,决策者往往首先希望预知产品未来的销售量的走向变化,这就需要进行销售预测,销售预测是使用过去的销售需求来预测未来销售需求的过程。对未来产品销售量准确的预测可以节省可观的人力、财力,避免断货,减少库存,减少资金占用,为企业经营决策提供有力的支持。3 数据的准备数据准备是对被挖掘数据进行定义、处理和表示,使它适应于特定的数据挖掘方法。数据准备是数据挖掘过程中的第一个重要步骤,被挖掘数据的质量与挖掘结果的质量息息相关,因此,数据准备在整个数据挖掘过程中起着举足轻重的作用。它包括以下几个步骤:3.1 数据的选择取某玻璃纤维厂的销售管理系统的数据库数据,经过分析,在这些数据中对挖掘有用的销售数据为基础数据表,主要包括产品的详细信息、包装信息、等级信息、汇率信息等字典表,业务数据表主要有产品出库单、产品销售发货单等业务表。该厂同时产有几十种产品,这里选用其中主要产品之一进行预测。3.2数据的预处理在原销售管理系统的数据库中,不可避免地存在着不完整、不一致、不精确和重复的数据,这此数据统称为“脏数据”。这些脏数据能使挖掘过程陷入混乱,导致不可靠的输出,同时,有关销售产品的数据只是针对一次销售行为的,直接作为数据挖掘的来源,并不十分合适,需要将多个数据存储合并,并转换成适合挖掘的形式。在此,为了更好地预测销售量,提高数据挖掘的精度与速度,对该数据库数据进行了清洗,集成和变换等处理如下:(1)数据编码的处理。在该厂销售管理系统的数据库中,部分代表同一概念的属性在不同的数据表含有不同的字段名并采用了不同的数据编码,如产品编号,在产品字典表内长度定义为varchar(9),而在产品出库单定义为varchar(50), 这将会导致不一致和冗余,这对以后的操作带来困难,针对这种情况,将数据库中涉及到的同一概念的属性统一字段名并转化成统一数据编码。(2)缺失值的处理。在产品出库表的个别记录中偶尔会出现单个属性值的缺失,对于缺失值有多种解决办法如抛弃带缺失的记录,使用属性平均值填充等,在此,由于缺失数量很少,这里直接将缺失值替换成最常见的值。(3)噪音数据的剔除。数据库中的数据不可能达到100%的准确度,需要剔除严重错误的数据,保证数据整体的准确性。在产品发货单中,有几条记录中产品单价明显偏离正常价格,以及存在产品数量输入错误,采用输入负的产品数量进行抵冲的情况,为确保数据的准确,这样的数据一概剔除。(4)数据的重组。即将所需的字段从不同表中抽取并合并成新的表,产品销售量的走向变化与季节性,周期性等多种因素有关, 一张销售发货表并不能满足需要,应从多个数据表中抽取多种信息,进行数据重新组合。(5)数据的离散。将属性域划分为区间,离散化技术可以用来减少给定连续属性的个数,用较高层的概念替换较低层的概念,离散化之后的数据更有意义、并且占用的空间少,在离散化后的数据上面进行挖掘与在大的、未离散化的数据上挖掘相比更有效。原始数据的粒度为天,现在我们把时间粒度定为10天,即每月分上,中,下旬,用每10天的销售数据总和代替原始的销售数据。4 数据挖掘算法4.1销售预测常用方法销售量预测是一种时间序列的预测。目前可用于销售预测的数据挖掘上具主要是一些统计分析方法,如时间序列分析、线性回归模型分析、非线性回归模型分析、灰色系统模型分析、马尔可夫分析法等,这些数值预测技术都试图用建立数学模型的方法来求解实际问题。然而,产品的需求往往是由许多因素综合决定的,传统的统计分析方法往往只是考虑了其中的一部分,而且影响需求的各种因素之问往往存在着各种错综复杂的相互作用,依传统方法建立的简单模型无法表达这种相互作用。人工神经网络的其极强的非线性映射能力可以很好地胜任这项工作,对给出的样本数据,神经网络通过类似人类记忆过程的方式学习数据中的统计规律,归纳出能描述样本特征的数据模型。在人工神经网络中,前馈网络是一种较强的学习系统,具有复杂的非线性处理能力,特别是其中的径向基函数神经网络(Radial Basis Function Neural Networks),它以其结构简单、训练简洁而学习收敛速度快,能够逼近任意非线性函数,被广泛应用于函数逼近、预测和控制等多个领域,本文采用RBF神经网络作为挖掘算法进行销售的预测。4.2 RBF神经网络RBF神经网络是典型的局部逼近神经网络,它的拓扑结构如图1所示。从本质上说它由两层组成,即隐层和输出层,输入层节点只是传递输入信号到隐层,隐层节点(即RBF节点)选取基函数作为激活函数,隐层神经元通过径向基函数对输入产生非线性映射。输出层节点通常是简单的线性函数,对隐层的输出进行线性加权组合。 y . . . . . . 图1:RBF神经网络结构RBF网络的输出为其隐层节点的线性组合,即y=。其中为第i个隐层节点对应的权值, 为RBF神经网络的激活函数,作为隐层的输出,值在0到1之间,输入与中心的距离越近,隐节点的响应就越大。RBF神经网络对激活函数的选择要求并不苛刻,仅需保证函数是一个偶多项式即可,可以为高斯函数,平方根函数,逆平方根函数等,其中,高斯函数具备如下优点:1表示形式简单,即使对于多变量输入也不增加太多的复杂性;2径向对称;3光滑性好,任意阶导数均存在;4由于该函数表示简单且解析性好,因而便于进行理论分析。因此,这里采用高斯函数作为激励函数,用公式表示为: i=1,2,3n这里x为网络的输入向量;为隐层中第i个单元的基函数的中心值,与x具有相同的维数;为高斯函数的方差,它决定了该基函数围绕中心点的宽度,n是隐层节点数。是向量x-的范数,它通常表示x与之间的距离;在处有一个唯一的最大值,随着的增大,迅速衰减到零。对于给定的输入,只有一小部分靠近x的中心被激活。4.3 RBF神经网络的训练RBF网络中,输入到隐层的映射为非线性(因为隐单元的作用函数是非线性函数),采用高斯函数,需要参数为各基函数的中心位置、方差(归一化参数),而隐层到输出则是线性的,需要确定输出单元的权值。为此,将RBF网络的训练过程分两个阶段。第一阶段,根据所有输入样本决定隐层节点的数目和高斯函数中心位置及归一化参数。首先定义RBF里隐节点数量,定义的隐节点数量偿若太少,网络从样本中获取的信息量就不够,不足以概括和体现训练集中的样本规律,隐节点数量过多,又可能把样本中非规律性的内容也予牢记,从而出现所谓“过度吻合”的问题,反而降低了系统的泛化能力,同时还会增加训练时间。本文采用试凑法,先选择较少的节点,然后逐渐增加隐层节点数,当达到精度要求后就停止,此时的RBF神经网络具有最小的结构。本网络最后选择隐层节点数为12个。常用的确定高斯函数参数的方法有K-means聚类算法和自组织法。这里采用了k-means算法确定中心位置与归一化参数。中心调整以聚类最小距离为指标,将输入数据集分解为k类,给出k个中心,详细计算步骤如下:步骤1:设定聚类个数k .步骤2:在样本集中任意选取k个样本点作为k个簇( i= 1 ,2 , ,k )的初始中心 ( i = 1 ,2 , ,k ).步骤3:遍历中的所有样本点,对于每个样本点计算欧式距离,找到距离该样本点最近的中心 (1ik),遍历所有样本将其分配到距离它最近的簇中心的一个划分.步骤4:重新计算分配到每个簇的样本的均值向量,找到k个新簇( i= 1 ,2 , ,k)的中心 ( i = 1 ,2 , ,k ).步骤5:判断 ( j = 1 ,2 , ,k )是否与上一次迭代得到的中心相同,如果相同,则停止迭代;否则转向步骤3直至迭代收敛.经过计算后确定k个簇中心为,则方差为其中m为样本。在第二阶段,第一阶段隐层参数确定后,因输出单元是线性单元,它的权值可以简单地用最小二乘法直接计算出来。5 试验结果与讨论取该厂一年半的主要产品之一的销售数据,组织后作为训练样本,用2005年3月上旬-2006年4月上旬的数据作为学习样本,2006年4月中旬-2006年7月下旬的数据作为测试样本,训练样本用季节性因素,月度因素等预测下一个的销售量。通过反复训练,最后确定网络输入节点为7个,输出节点为1个。首先用训练样本对网络进行训练,再用测试样本检验训练后的网络,预测值与实际值的比较如表1,通过图2可以看出除了个别点,预测值的起伏与实际值的起伏趋势是基本一致的。真实值预测值4月中旬574.4416515.11774月下旬628.064537.30825月上旬263.054368.8625月中旬501.9946479.23595月下旬463.7316496.63886月上旬794.3353616.75646月中旬382.4059440.42846月下旬552.2409541.95527月上旬417.9846433.24947月中旬403.1384434.26237月下旬481.2494439.2164表1:某玻璃纤维厂销售量真实值与预测值对比表图2:某玻璃纤维厂销售量真实值与预测值走向图6结论鉴于销售管理系统中存在的问题和实际需要,本文探讨并将数据挖掘技术引进来,通过对积累数据的分析,挖掘出潜藏的知识,提供给企业决策者重要的指导性信息,最大可能地减少库存,减少资金占用,具有实际应用意义。 参考文献1张特来,刘万军.数据挖掘在供应管理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论