“华中杯B题”库存补单及销量预测.doc_第1页
“华中杯B题”库存补单及销量预测.doc_第2页
“华中杯B题”库存补单及销量预测.doc_第3页
“华中杯B题”库存补单及销量预测.doc_第4页
“华中杯B题”库存补单及销量预测.doc_第5页
免费预览已结束,剩余40页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

库存补单及销量预测摘要本文针对商品销量预测及商家补单的运营操作,使商家在满足一定的社会效益和获得最大经济效益的前提下,采用层次聚类和灰色预测分析,建立了灰色系统模型,从而预测未来一月的销量,通过建立基于动态神经网络的时间序列分析预测未来5天各种商品的销量。基于货物样本的随机分布,采用随机变量,给出上新量的置信区间和理想的补单策略,分别得出:上新量与延期比的范围分布情况,不同季度商品的上新量与延期比的分布,提供了关于商家采集购置数据的合理化建议和商家进行补单的较好策略,并给出模型的改进意见。针对问题一,通过查阅相关资料并结合附件一,收集相关商品不同时期的销售量,用Excel处理数据,得出相关矩阵并结合MATLAB给出轮廓值分布图,研究商品的分类类别。分别采用层次聚类与动态聚类进行相关研究,得出较适宜的分类情况,确保各指标能够准确的反映商品的销售情况;最后确定灰色预测模型对未来销量进行预测。利用处理的数据对动态神经网络进行训练得到较为准确的各种商品在未来几天的销量。针对问题二,分别研究商品样本数与商品上新量之间的关系和商品样本数与商品延期比之间的关系,并结合相关直方图进行分析得出以上关系满足正态分布;最后利用统计学中的Q-Q图,建立相关模型,对上新量的分布范围以及置信区间直接进行求解。针对问题三,做出每个季度中商品样本与上新量及延期比之间的关系,观察样本分布直方图,利用整体分布相关性质,同问题二中方法一样对分布范围以及总体置信区间进行求解。针对问题四,整合前三问的求解结果,得出对未来销量的趋势,结合各个季度的上新量与延期比的分布范围与置信区间,并且根据商品的使用性质以及客户群体的实际购买意愿,为商家有效谋划。最后,写一篇短文,给出具体的补单政策建议,从而提高商品的转化率以及销售数据。关键字:动态神经网络 灰色预测 时间序列分析 K-means均值法一、 问题重述1.1 问题背景在电商行业中经常会出现补单的情况,其原因是买家突然增加了新的需求量,有时也因为商品品质异常不能满足客户的需求。为了合理的解决补单问题,商家须考虑到以下两个方面:第一是补单对现金流的占用。如果对补单情况预测过于乐观,货物成本会对商家产生不少的压力,还会导致的巨大资金流的占用,这对于许多电商都是一个头疼的问题。第二是补单对库存的影响,商品最终的销量是取决于客户对于补单的需求量,一旦我们对补单情况估计过于乐观,则会导致大量货物积压,货物滞销又会带来仓储问题,更重要的是还需要考虑清仓问题,清仓问题即是通过各种营销手段以更低的成本来销售商品,这时不仅会导致资金流移动慢,还会导致企业利润降低、资源浪费、拉低品牌溢价等一系列问题。为了避免这两种情况的发生,我们采取科学合理的补单预测是十分重要的。1.2 问题提出1) 请根据附件一中的销量数据建立一个销量预测的数学模型,要求至少能够比较精确地预测未来五天的货物销量大小;2) 请根据附件二分析货物的上新量和延期比的分布情况,并给出分布范围及置信区间;3) 请根据附件二中的数据进一步分析各个季度货物的上新量和延期比的分布情况,并给出分布范围及置信区间;4) 请根据上述分析结果,制定合理的补单策略,写出具体操作流程。二、 问题分析买家增加需求量而追加订单的情况称之为补单,有时补单也指商品品质不能满足客户而导致的追单。此外,商家补单的同时需考虑对资金流的影响以及对库存的影响。问题一:题目要求通过附件一的数据对未来五天的销量进行预测,本文采用K-means均值法对销量数据进行聚类分析,由于附件一所给的货号以及日期数据过于庞大,本文通过Excel表格对数据进行矩阵化处理,将其转化为货物(行)日期(列)的一个矩阵,并采取手肘法和轮廓系数法综合来确定k值,最后再建立GM(1,1)模型对未来五天数据进行预测。针对未来每天每种商品的销量预测,通过建立的矩阵以每种商品的历史销量作为训练对象,建立每种商品的动态神经网络,通过网络的时序分析对每种商品的销量做出预测问题二:题目要求通过附件二的数据来探寻上新量和延期比与货物种类的关系。首先将附件二中延期比和上新量两类数据分别与货物种类进行对比,建立了两个Excel数据表格,再把Excel表格导入SPSS来查看其分布情况,根据得到的直方图,初步猜测其符合正态分布。再通过SPSS对其进行正态性检验,发现其显著性为0.20.05,因而满足正态分布,故原猜测正确。 问题三:题目要求通过附件二的数据来探寻第一、二、三季度的上新量和延期比与货物种类之间的关系。首先从附件二中抽取第一、二、三季度的上新量和延期比数据并建立Excel表格并对表格数据进行升序处理。为了便于观察上新量和延期比的分布情况,我们将升序后的数据划分为几个等区间长度的区间。通过观察发现,大部分的数据集中在前几个区间,于是再对前几个区间进行细划分,最终得到的几个不等的区间,再用MATLAB中作出直方图,根据直方图猜测满足正态分布。为了验证猜想,对样本数据进行正态检验并作出QQ图,得到的显著性均大于0.05,故原猜想证实。问题四:题目要求通过分析前三问的结果给予商家补单的一些合理建议。首先,对前三问的结果进行整合,根据第一问的销量预测,很好的预测出未来五天的销量,再结合上新量和延期比的误差分析以及附件二中各个季度的销售数据,综合确定补单的数量,以期达到增加商品利润和转化率的目的三、模型假设1.假设客户的需求不会骤减或骤升。2.假设客户的需求不会发生过大的变化。3.假设题目所给的数据准确无误。4.假设未来时间无其他因素影响商品销量。四、符号说明符号含义y(t)t时刻网络输出五、模型的建立和求解5.1 问题一的模型建立与求解5.1.1 问题分析在附件一中,数据量冗余,不同种类的货物可能由于季节性差异以及商品属性造成供不应求或供过于求的局面,若商家未预测到市场行情,则或多或少会造成一定的损失。因此在对数据处理时,利用不同产品在不同的月份的销售量,将标定的数据进行相关离散化处理,根据不同产品的交易特征做出聚类轮廓图,进行聚类的方法采用,首先采用轮廓值分布,确定最佳分类类别,采用层次聚类与动态聚类,综合比较两种聚类的差异性,利用灰色预测分析选取具有代表性的一类进行相关预测,将其定量研究,得到连续几个时间段内的商品销售趋势。简化时序分析难度,同时提高对特征统计量的估计精度,进而预测未来五天货物销量。针对问题一附件中提供的各种商品在一些时间段的销量信息,需要建立较为准确的模型能够精准预测未来五天的各种商品的销量。首先,需要对数据进行预处理和挖掘,建立各种商品在各个时间段内的销量矩阵。其次,从矩阵中抽出各种商品随时间变化的销量向量,以该向量为训练对象,使用动态神经网络的NAR(只有因变量,无自变量的时间序列)模型对其进行训练和测试。最后,使用训练好的神经网络对未来五天各种商品的销量做出预测。5.1.2 数据预处理根据附件一提供的各种商品销量数据,使用Excel以商品名为横轴,时间为纵轴建立486333的矩阵,矩阵反应各种商品在各个时间的销量信息,具体见附件一处理.xlsx。利用MATLAB中的randperm函数随机抽取3中商品的销量向量,通过图形可视化来粗略判断其销量趋势,随机抽取的商品销量趋势图如下所示:图1-1:随机抽取的商品销量趋势图从图中可以看到商品的销量具有明显的非线性趋势,且具有季节性。利用MATLAB中的tonndata函数对矩阵每一列数据转换为标准神经网络单元数组形式。5.1.3 K-means聚类分析与GM(1,1)模型大大 1. Kmeans法聚类(1)做出问题的平均轮廓值与分类数的关系图并考虑K-means聚类先用轮廓值对K-Means方法得到的聚类结果进行评价,并据此确定最佳的类别数。此外,对于聚类的执行选择由K-Means方法来实现,是因为该算法的适应范围最广。K-Means算法的一般步骤如下;从n个数据对象任意选择k个对象作为初始聚类中心循环到直到每个聚类不再发生变化根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分。重新计算每个(有变化)聚类的均值(中心对象),直到聚类中心不再变化。这种划分使得下式最小其中为各类的中心。现在先以商品在每个月的销量为研究对象,生成货号月份表,来确定最佳类别。确定最佳分类数后就可以同时使用常用的集中聚类方法对该问题进行聚类,然后比较哪种算法对该问题更合适,同时还可以比较各算法对该问题是否具有很好的一致性。运行程序,就可以得到该问题的平均轮廓值与分类数的关系图和类别在2-21类时每类的轮廓值分布图。对于聚类问题,我们一方面希望聚类的数量比较适中,另一方面也希望每个样品的轮廓值尽量高。因此观察下列轮廓图可知,类别为16-21类时分级效果明显,其余类别图案分级较不明显。所以综合以上分析,对于这个问题,最佳的类别数选为20比较合适。聚类方法都有一定的随机性,所以每次执行的程序会有一些差异,但总体趋势是一致的。图1-2 轮廓值与聚类类别数的关系 图1-3 类别为25时每类的轮廓值分布图 图1-4 类别为6-9类时每类的轮廓值分布图图1-5类别为10-13类时每类的轮廓值分布图图1-6类别为14-17类时每类的轮廓值分布图图1-7 类别为18-21类时每类的轮廓值分布图 综合上图轮廓图,选为20类时,每类包含的样本个数如下表所示表1-1不同类别对应的样本数类别1234567891011121314151617181920样本个数8411911221911718127218169311(2).聚类分析距离:对样品进行聚类时,“靠近”往往由某种距离来刻画。若每个样品有个指标,故每个样品可以看成维空间中的一个点, 个样品就组成维空间中的个点,样品与指标构成一个矩阵,此时就可以用距离来度量样品之间的接近程度。令表示第个样品的第个指标, 表示第个样品与第个样品之间的距离,最常见最直观的计算距离的方法是:明考斯基距离()当时, 即为绝对距离当时, 即为欧氏距离当时 称为切比雪夫距离。当各变量的测量值相差悬殊时,为了计算的准确性,需先将数据标准化,然后用标准化后的数据进行计算。系统聚类,将个样品各自看成一类,然后规定样品之间的距离和类与类之间的距离。开始,因每个样品自成一类,类与类之间的距离与样品之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直值所有的样品都成一类为止,最终完成养分的分类。计算类与类之间的距离主要有:a.最短距离法:设 分别为一类,则最短距离的计算公式为:此时将类与类合并为类,则任意的类和的距离公式为依次下去,最终完成对样品的分类。b.最长距离法:将类与类合并为类,则任意的类和的距离公式为c.类平均法:将类与类合并为类,则任意的类和的距离公式为d.重心法:将类与类合并为类,则任意的类和的距离公式为采用系统聚类中的离差平均和法,得出如下聚类图表图1-8 系统聚类图通过进行分析对比得知所进行的分类较为杂乱,无法显著的进行相关分类,因此在完善相关程序之后,尝试将相关类别分为K类 图1-9 完善的层次聚类分析图从图中可以明显得知,通过ward法将附件一中的商品样本分为20类,在上图基础上将分类进一步细化完善,并且得知每一类的数据,因此在模型一主要采用动态聚类的来对未来5天销量进行相关预测。(3)聚类个数比较表1-2 聚类个数动态聚类聚类类别K-Means聚类个数第1类116第2类6第3类5第4类1第5类7第6类23第7类18第8类4第9类13第10类7第11类16第12类28第13类1第14类45第15类4第16类2第17类25第18类1第19类1第20类102.灰色预测模型(1).灰色预测分析的基本理论模型的建立设时间序列有个观察值,通过累加生成新序列,则模型相应的微分方程为:式中,称为发展灰数,称为内生控制灰数。设为待估参数向量,利用最小二乘法求解,可得:其中: 求解微分方程,即可得预测模型:(2)模型一的求解在模型一主要利用动态聚类的结果来对未来5天销量进行相关预测。针对每个类别进行灰色预测之后,选取第1类中的116个样本进行灰色预测时模型精度最好。经过灰色预测残差检验以及对未来一个月销量,结果为表1-3 2018年GM(1,1)灰色系统预测值与实际值比较时间预测值/件实际值/件残差相对误差20180179179100201802222901321.47201803217282650.23201804212290770.272018052071051030.98201806203128750.59201807199287880.31201808195294990.342018091904712810.60201810186120660.55201811182671151.72201812178571212.13a=0.0219491,b=2.4186143C=0.31Y 174 表1-4 后验差检验判别参照表C模型精度0.35优0.50合格0.65不及格该模型预测结果显示为优,未来一个月的销量为174件在进行一定数据优化的基础上,得出下面2018年预测拟合图图1-10 2018年全年GM(1,1)灰色系统预测值与实际值比较5.1.4 建立动态神经网络模型(1)隐藏层神经元数目的确定为提高网络的训练精度,隐含层的神经元个数不能过多,也不能过少,通常通过经验公式初步确定隐含层神经元的个数范围,常用的经验公有:y=n+m+b式中y为隐含层神经元数,n为输入层神经元数,m为输出层神经元数,b为1-10之间的常数。在本题中n=1,m=1,故隐含神经元数为2-12之间,但最终发现14个隐藏层节点的效果比12个隐藏层节点数好,所以选择隐藏层节点个数为14。学习样本的选择我们选取前483组数据作为学习验证及测试的样本,后5组数据即2019年3月8日至3月12日的数据作为预测样本。其中经过反复训练我们发现将483组样本中的85%作为训练数据,10%作为验证数据,5%作为测试数据得到的效果较好。(2)网络延迟个数的选择在对网络进行多次训练并比较每次的训练误差后将延迟个数确定为4个。即t时刻的输出有如下规律。yt=a.yt-1+b.yt-2+c.yt-3+d.y(t-4)(3)训练算法的选择神经网络学习的目的是寻找能有效逼近该组样本的函数f,使误差函数最小化,而通常神经网络的训练误差函数采用均方误差函数:ED=i=1n(ti-ai)2式中ti为期望输出,ai为网络实际输出,n为样本数。但是符合该误差函数最小时从样本中恢复一个函数的解实际有很多,而正则化的算法将网络性能函数改进为:F=ED+Ew式中Ew=1Mi=1Mi2为网络权重的平方和,i2是神经网络连接权值,M为神经网络连接权个数,是目标函数的参数,参数的大小决定着神经网络训练目标。常规的正则化方法很难推导出,的值,而优化的正则化方法即贝叶斯正则化算法可推导出,的值,MATLAB中通过trainbr函数来实现贝叶斯正则化算法。神经网络的建立由上述分析建立如下图所示的网络结构图:图1-11:网络结构图2.神经网络模型求解step(I) 对预处理后的数据分为333组分别进行学习训练,通过多次调整隐藏层节点数和延迟数发现当隐藏层节点数为14,延迟数为4时训练的效果较好,我们使用误差自相关图来判断网络的好坏,每一种商品训练后的误差自相关图如图1-2所示:图1-12:误差自相关图从图中可以看出每种商品在一个时间的销量网络输出误差与另一个时间的销量网络输出误差在给定区间内无关,说明训练的网络较好。step(II) 下面进行网络预测性能测试,通过对测试样本与训练样本占比调整,发现当训练样本占85%,测试样本占10%时,网络的预测误差较小,其中的一种商品的预测误差如下图所示图1-13:预测误差图step(III) 从以上的误差图可以看出建立的动态神经网络在时间序列预测方面具有较为良好的容错性,下面对2019年3月8日至3月12日各种商品的销量进行预测,首先对期望输出标准化到神经网络单元数组形式,然后消除网络延迟,最后建立闭环网络进行预测,预测得到5天的期望输出与网络输出图如下所示:图1-14:2019-3-8预测与期望曲线图图1-15:2019-3-9预测与期望曲线图图1-16:2019-3-10预测与期望曲线图图1-17:2019-3-11预测与期望曲线图图1-18:2019-3-12预测与期望曲线图得到的具体数据见附件1。5.2 问题二的模型建立与求解将上新量和延期比数据从附件二中抽取出来,分别建立对应的Excel表格,再运用SPSS软件对两个表格作图进行分析。根据上新量和延期比所得到的直方图,再将区间拆分,我们初步猜测其符合正态分布,再利用SPSS对其进行正态性检验,发现显著性为0.20.05,因而满足正态分布,即证实了原猜测。(1)对附件二进行处理,选定样本数据,对于延期比与货物种数,将货物种数作为样本数据,将延期比划分为各个区间。通过查看数据可知,延期比最小为0,最大为98.6。故可以将其放入以0.1为区间长度的十个区间里。表2-1:延期比分布表延期比0,0.1)0.1,0.2)0.2,0.3)0.3,0.4)0.4,0.5)0.5,0.6)0.6,0.7)0.7,0.8)0.8,0.9)0.9,1样本数2044526191795602通过观察表中延期表分布数据可以看出绝大部分样本分布于0,0.5区间内,且此区间内样本数随延期比相差较大,为了更好地体现延期比的分布情况,决定对样本数多的区间再进行划分,最终划分得到的六个区间为0,0.02,(0.02,0.1,(0.1,0.2,(0.2,0.35,(0.35,0.5,(0.5,1,对应的延期比分布表如下。表2-2:改进后的延期比分布表延期比区间样本数52708245382422概率0.1560.2100.2460.1350.1140.0720.066利用Matlab软件作出相应的直方图: 图2-1:延期比分布图通过观察直方图所得到的图形,初步猜测延期比满足正态分布。我们借助SPSS软件对其进行正态分布检验,并作出QQ图。表2-3:延期比正态性检验正态性检验柯尔莫戈洛夫-斯米诺夫a夏皮洛-威尔克统计自由度显著性统计自由度显著性V10.13970.200*0.94270.657经分析得显著性0.2000.05,故延期比符合正态分布通过Q-Q图进一步确认,由图可见基本在直线附近,可以认为服从正态分布。 图2-2:延期比QQ图运用SPSS对延期比数据进行正态性分析得延期比置信区间为0.1195,0.1601 表2-4延期比正态性分析(2)首先对附件二进行处理,选定样本数据,对于上新量与货物种数,将货物种数作为样本数据,将上新量划分为各个区间。通过查看数据可知,上新量最小为294,最大为25930,通过观察样本数我们将其细划为5个区间,,根据得到的分布直方图,初步推测其满足正态分布。图2-3:上新量分布直方图利用SPSS对其进行正态性检验并作出QQ图。表2-5:延期比正态性检验 表5.2.5上新量正态性检验因为显著性0.2000.05,故上新量满足正态分布。通过QQ图进一步确认,由图可见基本在直线附近,可以认为服从正态分布布。图2.5上新量QQ图将上新量数据导入到SPSS中,对其进行正态性分析,得到上新量置信区间为:3256.2466,3976.6003表2-6 上新量正态性分析 5.3问题三的模型建立与求解:首先对附件二的数据进行处理,分别提取出第一、二、三季度的延期比和上新量数据,并建立Excel表格进行分析。根据Excel中的数据,在Matlab中建立矩阵,并作出分布直方图,通过观察直方图发现,当把延期比和上新量数据细分为几个区间时,其分布情况是满足正态分布的。为了验证猜想,利用SPSS对其进行正态性检验,并作出Q-Q图,最终证实猜想,并算出其置信区间。第一季度:(1) 首先从附件二中将第一季度上新量数据抽取出来,再建立Excel表格,对样本数据进行升序处理。再将上新量数据划分为几个等分区间,通过观察发现,数据大多集中在前几个区间,于是再对前几个区间进行不等划分,最终确定的五个区间,并利用Matlab作出分布直方图:图3-1 第一季度上新量分布直方图 通过观察直方图初步猜测上新量满足正态分布,于是运用SPSS对其进行正态性检验,并作出Q-Q图: 表3-1 第一季度上新量正态性检验由上表可知显著性0.1400.05,故满足正态分布。查看Q-Q图进一步确认,由图可见基本在直线附近,可以认为服从正态分布。图3-2 第一季度上新量QQ图运用SPSS对样本数据正态性分析,求得第一季度上新量置信区间为3363.3060,4879.7588表3-2 第一季度上新量正态性分析(2)首先从附件二中将第一季度延期比数据抽取出来,建立Excel表格对数据进行升序处理。再将升序得到的延期比数据划分为几个等区间长度的区间,通过观察数据分布发现,大部分数据集中在前几个区间内,于是对前几个区间再进行细划分,最终得到的七个区间为:,,。 利用Matlab建立分布直方图:图3-3 第一季度延期比分布图 通过观察得到的分布直方图猜测第一季度延期比满足正态分布,接下来运用SPSS进行正态检验,并作出Q-Q图 表3-3 第一季度延期比正态性检验 通过观察上表发现显著性0.2000.05,故满足正态分布,即原猜想证实。查看Q-Q图进一步确认,由图可见基本在直线附近,可以认为服从正态分布。 图3-4 第一季度延期比QQ图将样本数据导入到SPSS中,对其进行正态性分析,得到其第一季度延期比置信区间为0.1847,0.2778表3-4 第一季度延期比正态性分析第二季度: (1)首先从附件二中抽出第二季度上新量的数据建立Excel表格,再对表格数据进行升序处理。将升序得到的数据等区间长度划分为几个区间,通过观察发现,大部分数据聚集在前几个区间内,于是对前几个区间进行细划分,最终得到7个区间为。利用Matlab建立分布直方图得:图3-5 第二季度上新量分布直方图 通过观察分布直方图,初步猜测第二季度上新量数据满足正态分布,为了验证猜想,运用SPSS做正态检验,并作出QQ图。表3-5第二季度上新量正态性检验 观察上表得,显著性0.1390.05,因而满足正态分布。 查看Q-Q图进一步确认,由图可见基本在直线附近,可以认为服从正态分布。图3-6 第二季度上新量QQ图 再将第二季度上新量数据导入到SPSS中,对其进行正态性分析,求出置信区间为:3470.6084,4982.3105表3-6 第二季度上新量正态性检验(1) 首先,从附件二中抽取第二季度的延期比数据到一个新建的Excel表格中,再对其进行升序处理。通过将数据等分为几个区间后观察到,大部分数据集中在前几个区间,于是对前几个区间再进行细划分,得到了8个不等区间再运用Matlab作出分布直方图:图3-7 第二季度延期比分布直方图观察直方图初步猜测第二季度延期比满足正态分布,为了验证猜测,将样本数据导入到SPSS中,对其进行正态性检验,并作出QQ图。表3-7 第二季度延期比正态性检验 根据正态性检验表中显著性0.2000.05,因而满足正态分布。查看QQ图进一步确认,由图可见基本在直线附近,可以认为服从正态分布布。 图3-8 第二季度延期比QQ图 再将第二季度延期比数据导入到SPSS中,对其进行正态性分析,求得置信区间为:0.0577,0.1042 表3-8 第二季度延期比正态性分析第三季度:(1)首先将第三季度上新量数据从附件二中抽取出来并建立一个新的Excel表格,再对其进行升序处理。为了更好地显示数据的分布特性,我们对数据进行了等区间划分。通过观察区间数据,我们发现大部分的第三季度上新量数据集中在前几个区间,于是对前几个区间再进行细划分,最终得到6个不等的区间: 利用Matlab作出分布直方图:图3-9 第三季度上新量分布直方图通过观察直方图,初步猜测第三季度上新量满足正态分布,为了验证猜想,运用SPSS进行正态性检验,并作出QQ图。表3-9 第三季度上新量正态性检验正态性检验表中显著性0.2000.05,因而满足正态分布,即猜想得到证实。查看Q-Q图进一步确认,由图可见基本在直线附近,可以认为服从正态分布。图3-10 第三季度上新量QQ图 最后将第三季度上新量数据导入到Excel表格中,进行正态性分析,求出置信区间2489.4203,3342.9740表3-10 第三季度上新量正态性分析(2)首先将第三季度延期比数据从附件二中抽取出来并建立一个新的Excel表格,再对表格数据进行升序处理。为了更好地体现数据分布的特性,将表格数据等分为几个区间,然后观察发现大部分数据集中分布在前几个区间里,于是再对前几个区间进行细划分,最终得到的七个区间为: 再运用Matlab作出分布直方图:图3-11 第三季度延期比分布直方图 通过观察直方图,我们初步猜测第三季度延期比满足正态分布,为了验证猜想,对其进行正态检验,并作出QQ图。表3-11 第三季度延期比正态性检验根据正态性检验显著性0.2000.05,因而第三季度延期比满足正态分布,及原猜想证实。查看Q-Q图进一步确认,由图可见基本在直线附近,可以认为服从正态分布。图3-12 第三季度延期比QQ图 最后将第三季度延期比表格数据导入到SPSS中,对其进行正态性分析,求得置信区间:0.1016,0.1576表3-12 第三季度延期比正态性分析 5.4问题四的求解:1.补单的依据通过对附件一、二的分析,得知商品的下单主要集中于上新日及其之前,而补单直接与销量挂钩,因而前提就是商品未来的销量预测。所以首先决定必须对影响商品销量的因素做一个分析。2.补单的步骤第一步分析好商品的销量来源和真实销量。商品的交易平台,无非就是各大电商APP,例如淘宝、天猫、京东等。对于这些而言,可将销量分为日常销量与活动销量。分析附件一可知,这两个销量相差较大。商品上架前的活动宣传与新颖度,对于商品的销量是至关重要的。客户由于活动表现、节假日因素、季节因素,从众心理等各种原因,在商品上新前以及上新的一两天内,会大力加大购买力度,因此商家需要在商品的前期做好补单操作。第二步,分析真实销量。根据附件二得知,在4、5、6、7、8月商品的退货退款率居高,而9月,仅退款率基本上都为0,仅退款在买家没有收到货物的时候就改变主意不再需要商品,因此此类商品可以及时的回到库存,退货退款则会有时间的延迟,不过最终也会回到库存当中。而补单考虑的是真实的销量,需要将这一类商品剔除在外。第三步,分析好商品的种类。真实销量仅仅只能告诉我们当前市场情况,若商品种类与季节性相关,例如服装,则必须要时刻考虑好库存的问题,否则季末清仓会造成较大的损失。因此,预测未来销量时必须要考虑季节对销量的影响。第四步,做好未来活动的安排。有了季节的权值之后,日销结合权值基本就可以预测未来30天的日常销量,接下来要做的就是提高活动销量,细分好接下来一个月的活动排期。因此,结合历史的活动销量和季节权值就可以预测好未来一个月的活动销量,进而得到总销量。第五步,对商品库存、供应链进行分析。有了未来的销量预期,再统计好现有库存数和在途商品数,从而得到商品的可销天数,进而考虑商铺的供应链所给予的补单情况,以便在库存售空时能够得到及时的补充。六、模型检验6.1 问题一模型检验6.1.1 GM(1,1)模型误差分析:1.在灰色预测模型中,结合后验差检验判别表,模型精度是处于优秀的状态。主要在问题一中,相关商品样本按月划分,预测值与实际值吻合。2.在利用正态分布求解货物的上新量与延期比的分布范围与置信区间时,选取了分布较为集中的商品样本作为一个区间进行研究,并用样本所占频率代替概率,虽然具有一定的误差,但是能够体现了相关商品特征。6.1.2 神经网络模型的误差分析:通过MATLAB的图形可视化将预测得到的销量与期望销量之间的误差用图形表示如下;图1-19:2019-3-8各商品销量预测误差图1-20:2019-3-9各商品销量预测误差图1-21:2019-3-10各商品销量预测误差图1-22:2019-3-11各商品销量预测误差图1-23:2019-3-12各商品销量预测误差 七、模型的优缺点及推广7.1灰色预测模型的推广由灰色理论提出的灰关联度分析方法,是基于行为因子序列的微观或宏观几何接近,以分析和确定因子间的影响程度或因子对甚主行为的贡献测度而进行的一种分析方法。灰关联是指事物之间的不确定性关联,或系统因子与主行为因子之间的不确定性关联。它根据因素之间发展态势的相似或相异程度来衡量因素间的关联程度。由于关联度分析是按发展趋势作分析,因而对样本量的大小没有太高的要求,分析时也不需要典型的分布规律,而且分析的结果一般与定性分析相吻合,具有广泛的实用价值。7.2模型的改进在问题一中,灰色系统做未来5天销量预测时,可以利用已预测出来的未来一个月的数据,计算每个月5天的销量数据在样品中的频率,从而进行更加精准的预测。可以利用改进的灰色系统模型“新陈代谢灰色系统”进行预测。并且用已知序列建GM(1.1)模型进行预测时,不用这个模型一直预测下去,而是只预测一个值,并将这个灰数补充在已知数列之后。为不增加序列长度去掉第一个已知数据,保持数据列的等维,再建立GM(1,1)模型。这样新陈代谢,逐个预测依次替补,不断补充新的信息,使灰度逐步降低,直到完成预测目标或达到一定的精度要求为止。八、参考文献1 VultureEye, K-means聚类最优k值的选取,/qq_15738501/article/details/79036255,2019/7/11。2 不要再见,聚类分析的Matlab 程序系统聚类(附有案例分析)/henu111/article/details/81512314,2019/7/11。3 李杰、王玉霞、赵旭东.电商企业商品销量的预测方法. 统计与决策2018年第22期.4 殷春武. GM(1,1)在商品销量预测上的运用. 中国商贸 1005-5800(2010)12(b)-246-025何喜军,马珊,武玉英,蒋国瑞. 小样本下多维指标融合的电商产品销量预测J. 计算机工程与应用,:1-12.6罗妤. 聚类数据挖掘在商场中的应用及K-means聚类算法改进研究D.重庆大学,2005.7王小平,孙彩贤.基于网上商品销售预测的灰色模型理论J.四川兵工学报,2010,31(06):149-150.九、附录程序编号:T1文件名:pro1.m作用:画销量趋势图程序编号:T2文件名:pro2.m作用:神经网络预测rawdata=xlsread(D:/Matlab/bin/练习函数/附件1处理.xlsx,B3:LV483);%训练与测试数据y2=xlsread(D:/Matlab/bin/练习函数/附件1处理.xlsx,B484:LV488);%预测期望数据y3=zeros(5,333);%初始化预测输出矩阵for i=1:333H=rawdata(:,i);I=H(find(H,1):end);z,th=max(I);I(th)=;T = tonndata(I,false,false);%将数据转换为标准神经网络单元数组形式Y,wasMatrix=tonndata(y2(:,i),false,false);%预测期望输出trainFcn = trainbr; % 选择Bayesian Regularization算法feedbackDelays = 1:4;% 延迟,即当前值依赖于过去的多少个值h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论