




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、库存补单及销量预测摘要本文针对商品销量预测及商家补单的运营操作,使商家在满足一定的社会效益和获得最大经济效益的前提下,采用层次聚类和灰色预测分析,建立了灰色系统模型,从而预测未来一月的销量,通过建立基于动态神经网络的时间序列分析预测未来5天各种商品的销量。基于货物样本的随机分布,采用随机变量,给出上新量的置信区间和理想的补单策略,分别得出:上新量与延期比的范围分布情况,不同季度商品的上新量与延期比的分布,提供了关于商家采集购置数据的合理化建议和商家进行补单的较好策略,并给出模型的改进意见。针对问题一,通过查阅相关资料并结合附件一,收集相关商品不同时期的销售量,用Excel处理数据,得出相关矩阵
2、并结合MATLAB给出轮廓值分布图,研究商品的分类类别。分别采用层次聚类与动态聚类进行相关研究,得出较适宜的分类情况,确保各指标能够准确的反映商品的销售情况;最后确定灰色预测模型对未来销量进行预测。利用处理的数据对动态神经网络进行训练得到较为准确的各种商品在未来几天的销量。针对问题二,分别研究商品样本数与商品上新量之间的关系和商品样本数与商品延期比之间的关系,并结合相关直方图进行分析得出以上关系满足正态分布最后利用统计学中的Q-Q图,建立相关模型,对上新量的分布范围以及置信区间直接进行求解。针对问题三,做出每个季度中商品样本与上新量及延期比之间的关系,观察样本分布直方图,利用整体分布相关性质,
3、同问题二中方法一样对分布范围以及总体置信区间进行求解。针对问题四,整合前三问的求解结果,得出对未来销量的趋势,结合各个季度的上新量与延期比的分布范围与置信区间,并且根据商品的使用性质以及客户群体的实际购买意愿,为商家有效谋划。最后,写一篇短文,给出具体的补单政策建议,从而提高商品的转化率以及销售数据。关键字:动态神经网络灰色预测时间序列分析K-means均值法问题重述1.1问题背景在电商行业中经常会出现补单的情况,其原因是买家突然增加了新的需求量有时也因为商品品质异常不能满足客户的需求。为了合理的解决补单问题,商家须考虑到以下两个方面:第一是补单对现金流的占用。如果对补单情况预测过于乐观,货物
4、成本会对商家产生不少的压力,还会导致的巨大资金流的占用,这对于许多电商都是一个头疼的问题。第二是补单对库存的影响,商品最终的销量是取决于客户对于补单的需求量一旦我们对补单情况估计过于乐观,则会导致大量货物积压,货物滞销又会带来仓储问题,更重要的是还需要考虑清仓问题,清仓问题即是通过各种营销手段以更低的成本来销售商品,这时不仅会导致资金流移动慢,还会导致企业利润降低、资源浪费、拉低品牌溢价等一系列问题。为了避免这两种情况的发生,我们采取科学合理的补单预测是十分重要的。1.2问题提出1)请根据附件一中的销量数据建立一个销量预测的数学模型,要求至少能够比较精确地预测未来五天的货物销量大小;2)请根据
5、附件二分析货物的上新量和延期比的分布情况,并给出分布范围及置信区间;3)请根据附件二中的数据进一步分析各个季度货物的上新量和延期比的分布情况,并给出分布范围及置信区间;4)请根据上述分析结果,制定合理的补单策略,写出具体操作流程。 二、问题分析买家增加需求量而追加订单的情况称之为补单,有时补单也指商品品质不能满足客户而导致的追单。此外,商家补单的同时需考虑对资金流的影响以及对库存的影响。问题一:题目要求通过附件一的数据对未来五天的销量进行预测,本文采用K-means均值法对销量数据进行聚类分析,由于附件一所给的货号以及日期数据过于庞大,本文通过Excel表格对数据进行矩阵化处理,将其转化为货物
6、(行)日期(列)的一个矩阵,并采取手肘法和轮廓系数法综合来确定k值,最后再建立GM(1,1)模型对未来五天数据进行预测。针对未来每天每种商品的销量预测,通过建立的矩阵以每种商品的历史销量作为训练对象,建立每种商品的动态神经网络,通过网络的时序分析对每种商品的销量做出预测问题二:题目要求通过附件二的数据来探寻上新量和延期比与货物种类的关系。首先将附件二中延期比和上新量两类数据分别与货物种类进行对比,建立了两个Excel数据表格,再把Excel表格导入SPSS来查看其分布情况,根据得到的直方图,初步猜测其符合正态分布。再通过SPSS对其进行正态性检验,发现其显著性为0.20.05,因而满足正态分布
7、,故原猜测正确。问题三:题目要求通过附件二的数据来探寻第一、二、三季度的上新量和延期比与货物种类之间的关系。首先从附件二中抽取第一、二、三季度的上新量和延期比数据并建立Excel表格并对表格数据进行升序处理。为了便于观察上新量和延期比的分布情况,我们将升序后的数据划分为几个等区间长度的区间。通过观察发现,大部分的数据集中在前几个区间,于是再对前几个区间进行细划分,最终得到的几个不等的区间,再用MATLAB中作出直方图,根据直方图猜测满足正态分布。为了验证猜想,对样本数据进行正态检验并作出QQ图,得到的显著性均大于0.05,故原猜想证实。问题四:题目要求通过分析前三问的结果给予商家补单的一些合理
8、建议。首先,对前三问的结果进行整合,根据第一问的销量预测,很好的预测出未来五天的销量,再结合上新量和延期比的误差分析以及附件二中各个季度的销售数据,综合确定补单的数量,以期达到增加商品利润和转化率的目的三、模型假设假设客户的需求不会骤减或骤升。假设客户的需求不会发生过大的变化。假设题目所给的数据准确无误。假设未来时间无其他因素影响商品销量。四、符号说明 五、模型的建立和求解5.1问题一的模型建立与求解问题分析在附件一中,数据量冗余,不同种类的货物可能由于季节性差异以及商品属性造成供不应求或供过于求的局面,若商家未预测到市场行情,则或多或少会造成一定的损失。因此在对数据处理时,利用不同产品在不同
9、的月份的销售量,将标定的数据进行相关离散化处理,根据不同产品的交易特征做出聚类轮廓图,进行聚类的方法采用,首先采用轮廓值分布,确定最佳分类类别,采用层次聚类与动态聚类,综合比较两种聚类的差异性,利用灰色预测分析选取具有代表性的一类进行相关预测,将其定量研究,得到连续几个时间段内的商品销售趋势。简化时序分析难度,同时提高对特征统计量的估计精度,进而预测未来五天货物销量。针对问题一附件中提供的各种商品在一些时间段的销量信息,需要建立较为准确的模型能够精准预测未来五天的各种商品的销量。首先,需要对数据进行预处理和挖掘,建立各种商品在各个时间段内的销量矩阵。其次,从矩阵中抽出各种商品随时间变化的销量向
10、量,以该向量为训练对象,使用动态神经网络的NAR(只有因变量,无自变量的时间序列)模型对其进行训练和测试。最后,使用训练好的神经网络对未来五天各种商品的销量做出预测。数据预处理根据附件一提供的各种商品销量数据,使用Excel以商品名为横轴,时间为纵轴建立486x333的矩阵,矩阵反应各种商品在各个时间的销量信息,具体见附件一处理.xlsx。利用MATLAB中的randperm函数随机抽取3中商品的销量向量,通过图形可视化来粗略判断其销量趋势,随机抽取的商品销量趋势图如下所示:吋间图1-1:随机抽取的商品销量趋势图从图中可以看到商品的销量具有明显的非线性趋势,且具有季节性。利用MATLAB中的t
11、onndata函数对矩阵每一列数据转换为标准神经网络单元数组形式。K-means聚类分析与GM(1,1)模型大大1.K一means法聚类(1)做出问题的平均轮廓值与分类数的关系图并考虑K-means聚类先用轮廓值对KMeans方法得到的聚类结果进行评价,并据此确定最佳的类别数。此外,对于聚类的执行选择由KMeans方法来实现,是因为该算法的适应范围最广。KMeans算法的一般步骤如下;从n个数据对象任意选择k个对象作为初始聚类中心循环到直到每个聚类不再发生变化根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分。重新计算每个(有变化)聚类的
12、均值(中心对象),直到聚类中心不再变化。这种划分使得下式最小E丄工/=1xewij其中计各类的中心。现在先以商品在每个月的销量为研究对象,生成货号月份表,来确定最佳类别。确定最佳分类数后就可以同时使用常用的集中聚类方法对该问题进行聚类,然后比较哪种算法对该问题更合适,同时还可以比较各算法对该问题是否具有很好的一致性。运行程序,就可以得到该问题的平均轮廓值与分类数的关系图和类别在221类时每类的轮廓值分布图。对于聚类问题,我们一方面希望聚类的数量比较适中,另一方面也希望每个样品的轮廓值尽量高。因此观察下列轮廓图可知,类别为1621类时分级效果明显,其余类别图案分级较不明显。所以综合以上分析,对于
13、这个问题,最佳的类别数选为20比较合适。聚类方法都有一定的随机性,所以每次执行的程序会有一些差异,但总体趋势是一致的。图1-2轮廓值与聚类类别数的关系Sli-fS2处III曲錚Sisfn-43.5DO.514II轮耶tn初1O.5OO.5&亲I寸整川住悯(丸23L_.-O.5图1-3类别为25时每类的轮廓值分布图申犬I寸空“件擁代J.518浚I才帕他曲依-3丰&概锻y社I吋帕宜応斷三fiiO0.5-I图1-4类别为6-9类时每类的轮廓值分布图4昌021111O壮寸1*1勺车応卩忡存112址寸白句松恂仃POO.S11址nJ打引车口再忙恒壮n打叼楝碎!u恒珮耶(电图1-5类别为10-13类时每类的
14、轮廓值分布图斗半HF|勺轮胪NtHA.3QS0UHXS811InC1.5從sntaJfeSBiS甘邈FHT由守沖帝那伯:UW.523,n;可11O.5松那仃51图1-6类别为14-17类时每类的轮廓值分布图1JVT二二日米H寸期它那值Q-O.SNO夬I时郎M奄憐f丸也占OO.S-I轮吨ok43sa1轮snfs:OO_S-I轮嘟dl图1-7类别为18-21类时每类的轮廓值分布图综合上图轮廓图,选为20类时,每类包含的样本个数如下表所示表1-1不同类别对应的样本数类12345678910111213141516171819208411911221911718127218169311.聚类分析距离:
15、对样品进行聚类时,“靠近”往往由某种距离来刻画。若每个样品有p个指标,故每个样品可以看成p维空间中的一个点,n个样品就组成p维空间中的n个点,样品与指标构成一个矩阵,此时就可以用距离来度量样品之间的接近程度。令x表示第i个样品的第j个指标,d表示第i个样品与第j个样品之间的ijij距离,最常见最直观的计算距离的方法是:明考斯基距离(Minkowski)jkij1/q当q=1时,d(13ijk=1x一xikjk即为绝对距离当q=2时,dij-x)jk1/2即为欧氏距离d(g)=maxIx-xI称为切比雪夫距离。ij1kpikjk当各变量的测量值相差悬殊时,为了计算的准确性,需先将数据标准化,然后
16、用标准化后的数据进行计算。系统聚类,将n个样品各自看成一类,然后规定样品之间的距离和类与类之间的距离。开始,因每个样品自成一类,类与类之间的距离与样品之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直值所有的样品都成一类为止,最终完成养分的分类。计算类与类之间的距离主要有:a.最短距离法:设GGG分别为一类,则最短距离的计算公式为:qprD(p,q)=mindkjl此时将类G与类G合并为类G,则任意的类G和G的距离公式为pqrkrD2kr=mindXieGk,XjeGrij=minminXieGk,XjeGp依次下去,最终完成
17、对样品的分类。d,mind=minD,DijXeG,XeGijkpkqikjqb.最长距离法:D(p,q)=maxdkjl将类G与类G合并为类G,则任意的类G和G的距离公式为pqrkrD2=maxkrX.eG,XeGikjrd-maxijmaxd,maxd=maxD,DXeG,XeGijXeG,XeGijkpkqikjpikjqc类平均法:Gg(p,q)二LKdj将类G与类G合并为类G,则任意的类G和G的距离公式为pqrkrD2=-工工d2=-(工工d2+工工d2)=npD2+2qD2krnnijnnijijnkpnkqkrXieGkXjeGrkrXieGkXjeGpXieGkXjeGprrd
18、.重心法:D(p,q)=d_-cXXqq将类G与类G合并为类G,则任意的类G和G的距离公式为pqrkrnnnnD2二pD2+qD2-D2,krnkpnkqn2pqrrr采用系统聚类中的离差平均和法,得出如下聚类图表通过进行分析对比得知所进行的分类较为杂乱,无法显著的进行相关分类,因此在完善相关程序之后,尝试将相关类别分为K类图1-9完善的层次聚类分析图从图中可以明显得知,通过ward法将附件一中的商品样本分为20类,在上图基础上将分类进一步细化完善,并且得知每一类的数据,因此在模型一主要采用动态聚类的来对未来5天销量进行相关预测。聚类个数比较表1-2聚类个数KMeans类类1类1162类63类
19、54类15类76类237类188类49类1310类711类1612类2813类114类4515类416类217类2518类119类120类102.灰色预测模型1).灰色预测分析的基本理论GM(1,1)模型的建立设时间序列X(。)有n个观察值,X(。)=(n),通,X(i)(n),则GM(1,1)过累加生成新序列X(i)=模型相应的微分方程为:dX(i)dt+aX(1)=卩式中,a称为发展灰数,卩称为内生控制灰数。设&为待估参数向量,八一、&=,利用最小二乘法求解,可得:2&=(BtBI1BTY其中:-2X(1)(1)+X(1)(2)2X(i)(2)+X(1)(3)Y=nX(0)(2)_X(o)
20、(3)X(o)(n)求解微分方程,即可得预测模型(k=0丄2,n)X(i)(k+1)=X(0)(1)-巴(2)模型一的求解在模型一主要利用动态聚类的结果来对未来5天销量进行相关预测。针对每个类别进行灰色预测之后,选取第1类中的116个样本进行灰色预测时模型精度最好。经过灰色预测残差检验以及对未来一个月销量,结果为表1-32018年GM(1,1)灰色系统预测值与实际值比较类/20180179179100201802222901321.47201803217282650.23201804212290770.272018052071051030.98201806203128750.592018071
21、99287880.31201808195294990.342018091904712810.60201810186120660.55201811182671151.72201812178571212.13a=0.0219491,b=2.4186143x(o)=15.1O83e-o.o2i9t(t+1)C=0.31Y174表1-4后验差检验判别参照表C0.35类0.500.65该模型预测结果显示为优,未来一个月的销量为174件在进行一定数据优化的基础上,得出下面2018年预测拟合图图1-102018年全年GM(1,1)灰色系统预测值与实际值比较建立动态神经网络模型(1)隐藏层神经元数目的确定为提
22、高网络的训练精度,隐含层的神经元个数不能过多,也不能过少,通常通过经验公式初步确定隐含层神经元的个数范围,常用的经验公有:y=Vn+m+b式中y为隐含层神经元数,n为输入层神经元数,m为输出层神经元数,b为1-10之间的常数。在本题中n=1,m=1,故隐含神经元数为2-12之间,但最终发现14个隐藏层节点的效果比12个隐藏层节点数好,所以选择隐藏层节点个数为14。学习样本的选择我们选取前483组数据作为学习验证及测试的样本,后5组数据即2019年3月8日至3月12日的数据作为预测样本。其中经过反复训练我们发现将483组样本中的85%作为训练数据,10%作为验证数据,5%作为测试数据得到的效果较
23、好。网络延迟个数的选择在对网络进行多次训练并比较每次的训练误差后将延迟个数确定为4个。即t时刻的输出有如下规律。y(t)=a.y(t-1)+b.y(t-2)+c.y(t-3)+d.y(t-4)训练算法的选择神经网络学习的目的是寻找能有效逼近该组样本的函数f,使误差函数最小化,而通常神经网络的训练误差函数采用均方误差函数:i=i式中-为期望输出,勺为网络实际输出,n为样本数。但是符合该误差函数最小时从样本中恢复一个函数的解实际有很多,而正则化的算法将网络性能函数改进为:F=aE+BEDw式中化,=丄为网络权重的平方和,是神经网络连接权值,M为神W/1=1II经网络连接权个数,a,B是目标函数的参
24、数,参数的大小决定着神经网络训练目标。常规的正则化方法很难推导出a,B的值,而优化的正则化方法即贝叶斯正则化算法可推导出a,B的值,MATLAB中通过trainbr函数来实现贝叶斯正则化算法。神经网络的建立由上述分析建立如下图所示的网络结构图:Neural忖etworkHiddenOutput141图1-11:网络结构图2.神经网络模型求解step(I)对预处理后的数据分为333组分别进行学习训练,通过多次调整隐藏层节点数和延迟数发现当隐藏层节点数为14,延迟数为4时训练的效果较好,我们使用误差自相关图来判断网络的好坏,每一种商品训练后的误差自相关图如图1-2所示:10Autocorrelal
25、iniofError1CorrolatlartsZe;reCdmeldlionCanfJdlgihce-Uimlt20-15JO-505W1520图1-12:误差自相关图从图中可以看出每种商品在一个时间的销量网络输出误差与另一个时间的销量网络输出误差在给定区间内无关,说明训练的网络较好。step(II)下面进行网络预测性能测试,通过对测试样本与训练样本占比调整,发现当训练样本占85%,测试样本占10%时,网络的预测误差较小,其中的一种商品的预测误差如下图所示2510Targds-Culpuls4H1Ui.hF勺呻:叫屛杆|,.*-_,_-_14n*iinipRponseofOutputElem
26、ent1forTime-Series1TralniigTarget+TrainingOjtfiulE&rcfsRde)xeih图1-13:预测误差图step(III)从以上的误差图可以看出建立的动态神经网络在时间序列预测方面具有较为良好的容错性,下面对2019年3月8日至3月12日各种商品的销量进行预测,首先对期望输出标准化到神经网络单元数组形式,然后消除网络延迟,最后建立闭环网络进行预测,预测得到5天的期望输出与网络输出图如下所示:1501CQg501M龙前商品种类曲利期蚩图1-14:2019-3-8预测与期望曲线图图1-15:2019-3-9预测与期望曲线图500030001000-100
27、001W200图1-17:2019-3-11预测与期望曲线图1000卍”册&-3000&D005015025fl商品种类图1-18:2019-3-12预测与期望曲线图得到的具体数据见附件1。 5.2问题二的模型建立与求解将上新量和延期比数据从附件二中抽取出来,分别建立对应的Excel表格,再运用SPSS软件对两个表格作图进行分析。根据上新量和延期比所得到的直方图,再将区间拆分,我们初步猜测其符合正态分布,再利用SPSS对其进行正态性检验,发现显著性为0.20.05,因而满足正态分布,即证实了原猜测。(1)对附件二进行处理,选定样本数据,对于延期比与货物种数,将货物种数作为样本数据,将延期比划分
28、为各个区间。通过查看数据可知,延期比最小为0最大为98.6。故可以将其放入以0.1为区间长度的十个区间里。表2-1:延期比分布表延期比0,0.1)0.1,0.2)0.2,0.3)0.3,0.4)0.4,0.5)0.5,0.6)0.6,0.7)0.7,0.8)0.8,0.9)0.9,1样本数2044526191795602通过观察表中延期表分布数据可以看出绝大部分样本分布于0,0.5区间内,且此区间内样本数随延期比相差较大,为了更好地体现延期比的分布情况,决定对样本数多的区间再进行划分,最终划分得到的六个区间为0,0.02,(0.02,0.1,(0.1,0.2,(0.2,0.35,(0.35,0
29、.5,(0.5,1,对应的延期比分布表如下。表2-2:改进后的延期比分布表0(0,0.02(0.02,0.1(0.1,0.2(0.2,.035(0.35,0.5(0.5,1527082453824220.1560.2100.2460.1350.1140.0720.066利用Matlab软件作出相应的直方图:90图2-1:延期比分布图通过观察直方图所得到的图形,初步猜测延期比满足正态分布。我们借助SPSS软件对其进行正态分布检验,并作出QQ图。表2-3:延期比正态性检验正态性检验柯尔莫戈洛夫-斯米诺夫a夏皮洛-威尔克统计自由度显著性统计自由度显著性VI0.13970.200*0.94270.65
30、7经分析得显著性0.2000.05,故延期比符合正态分布通过Q-Q图进一步确认,由图可见基本在直线附近,可以认为服从正态分布。VI的正态CPQ厨4-j图2-2:延期比QQ图运用SPSS对延期比数据进行正态性分析得延期比置信区间为0.1195,0.1601表2-4延期比正态性分析描述:貂r标准课芒延期比-均值.1398.01030平均值flJ05%S信区间1:限DI:限.16015%四陈后平均值.1167中位數.0524方差.035標准差.18804最小值.00最大值.99全陀.99四分位距.20偏度1763.134峰度2.905.266 (2)首先对附件二进行处理,选定样本数据,对于上新量与货
31、物种数,将货物种数作为样本数据,将上新量划分为各个区间。通过查看数据可知,上新量最小为294,最大为25930,通过观察样本数我们将其细划为5个区间【294,806),(806,1832,(1832,2857,(2857,5421,(5421,25930,根据得到的分布直方图,初步推测其满足正态分布。70co501bi1832.2E50.05,故上新量满足正态分布。通过QQ图进一步确认,由图可见基本在直线附近,可以认为服从正态分布布。上新量的正态Q-Q图IIIIII20406080100120实测値图2.5上新量QQ图将上新量数据导入到SPSS中,对其进行正态性分析,得到上新量置信区间为:32
32、56.2466,3976.6003表2-6上新量正态性分析航汁I林准傑差 5.3问题三的模型建立与求解:首先对附件二的数据进行处理,分别提取出第一、二、三季度的延期比和上新量数据,并建立Excel表格进行分析。根据Excel中的数据,在Matlab中建立矩阵,并作出分布直方图,通过观察直方图发现,当把延期比和上新量数据细分为几个区间时,其分布情况是满足正态分布的。为了验证猜想,利用SPSS对其进行正态性检验,并作出Q-Q图,最终证实猜想,并算出其置信区间。第一季度:(1)首先从附件二中将第一季度上新量数据抽取出来,再建立Excel表格,对样本数据进行升序处理。再将上新量数据划分为几个等分区间,
33、通过观察发现,数据大多集中在前几个区间,于是再对前几个区间进行不等划分,最终确定的五个区间294,732,(732,2049,(2049,3219,(3219,4682,(4682,22235,并利用Matlab作出分布直方图:L.W(733-20*9)I2D49.32191)0213喝目2|附卫左竝涌图3-1第一季度上新量分布直方图通过观察直方图初步猜测上新量满足正态分布,于是运用SPSS对其进行正态性检验,并作出Q-Q图:表3-1第一季度上新量正态性检验正态性检验显茧性柯尔與丸寤夫-斷米诺夭.统计熨皮洛-戚审克門由度统计自曰度显菩性1二新量.3075.140.B445.176乩里利氐显苦性
34、修正朝击口I由上表可知显著性0.1400.05,故满足正态分布。查看Q-Q图进一步确认,由图可见基本在直线附近,可以认为服从正态分布。的正态Q-Q图1-2-U510152025实测值图3-2第一季度上新量QQ图运用SPSS对样本数据正态性分析,求得第一季度上新量置信区间为3363.3060,4879.7588表3-2第一季度上新量正态性分析纸汀VAR00009咐旳伯4163.9266546.7022085%卡Mi/nut-im3000.31291.ik5279.54433625.51192760.5000方荒16737464.474091.14464區片、佰522.0023559.002303
35、7.003584.002.710.3199.20B.528(2)首先从附件二中将第一季度延期比数据抽取出来,建立Excel表格对数据进行升序处理。再将升序得到的延期比数据划分为几个等区间长度的区间,通过观察数据分布发现,大部分数据集中在前几个区间内,于是对前几个区间再进行细划分,最终得到的七个区间为:0,0.002,(0.002,0.05,(0.05,0.1,(0.1,0.2,(0.2,0.4,(0.4,0.6,(0.6,1。利用Matlab建立分布直方图:图3-3第一季度延期比分布图通过观察得到的分布直方图猜测第一季度延期比满足正态分布,接下来运用SPSS进行正态检验,并作出Q-Q图表3-3
36、第一季度延期比正态性检验正态性检骗抑贰莫戈洛光-斯米诺光日册夏皮潜-威尔克自曰度统汁門门度显著性.1997.200.9227.486*.览是其显著性的下限I乩里和氏显著性修止誌通过观察上表发现显著性0.2000.05,故满足正态分布,即原猜想证实。查看Q-Q图进一步确认,由图可见基本在直线附近,可以认为服从正态分布。图3-4第一季度延期比QQ图将样本数据导入到SPSS中,对其进行正态性分析,得到其第一季度延期比置信区间为0.1847,0.2778表3-4第一季度延期比正态性分析描述统计标准俣差I延期忙均值2313.02330平均值95%置信区间下限.1S47丨:限.277B5%闻除后平均值.2
37、1B3.1650方差.044标准差.20909最小值最丸值.71全距.71四分位陀.34倔度.S11.269峰度-.379.532第二季度:(1)首先从附件二中抽出第二季度上新量的数据建立Excel表格,再对表格数据进行升序处理。将升序得到的数据等区间长度划分为几个区间,通过观察发现,大部分数据聚集在前几个区间内,于是对前几个区间进行细划分,最终得到7个区间为522,1030,(1030,1538,(1538,2046(2046,3909,(3909,5630,(5630,8144(8144,25930。利用Matlab建立分布直方图得:图3-5第二季度上新量分布直方图通过观察分布直方图,初步
38、猜测第二季度上新量数据满足正态分布,为了验证猜想,运用SPSS做正态检验,并作出QQ图。表3-5第二季度上新量正态性检验正态性检验抓尔蔓戈洛責-斯米诺刃目夏虎洛-威尔豆统讣門由度显苦性蜿计自由度显苦性1:新最.2687.139.7477.012玄里利天金著性幅正观察上表得,显著性0.1390.05,因而满足正态分布。查看Q-Q图进一步确认,由图可见基本在直线附近,可以认为服从正态分布。上新量的正态Q-Q图3-i40I|102030实测值图3-6第二季度上新量QQ图再将第二季度上新量数据导入到SPSS中,对其进行正态性分析,求出置信区间为:3470.6084,4982.3105表3-6第二季度上
39、新量正态性检验统计捋矗误差均值422645Q53S14D2QD均值的95%負信闻司卜诧3470.60844982.31056%剪除后平均值3675.0043中2迪29SR.OOOO16146966.944018.32S87最小值522.00最士值25930.00亠跖2540S.00四苛位鹿34512.992.22911.S67.455(1)首先,从附件二中抽取第二季度的延期比数据到一个新建的Excel表格中,再对其进行升序处理。通过将数据等分为几个区间后观察到,大部分数据集中在前几个区间,于是对前几个区间再进行细划分,得到了8个不等区间0,0.001,(0.001,0.005,(0.005,0
40、.02,(0.02,0.05,(0.05,0.1,(0.1,0.2,(0.2,0.4,(0.4,1再运用Matlab作出分布直方图:图3-7第二季度延期比分布直方图观察直方图初步猜测第二季度延期比满足正态分布,为了验证猜测,将样本数据导入到SPSS中,对其进行正态性检验,并作出QQ图。表3-7第二季度延期比正态性检验正态性检验14爪莫戈洛夭-斷米诺却统计自由度丘著件皮洛-威乐盘自口度區著性述期比.2208.200孤击以救活8.378“城是真显著性的下限口岂里利氐區若性修正根据正态性检验表中显著性0.2000.05,因而满足正态分布。查看QQ图进一步确认,由图可见基本在直线附近,可以认为服从正态
41、分布布。延皿I比的ITQ-Q图-2-I2010实测值图3-8第二季度延期比QQ图再将第二季度延期比数据导入到SPSS中,对其进行正态性分析,求得置信区间为:0.0577,0.1042表3-8第二季度延期比正态性分析描述統计标准遥笙VAR00007半均值.0810.01173T均值的95%代信区问1:限.0577上呪10425%剪除后半闕他.0632.0300方差.015标准差.12360最小值.00.71仝砸.71四计位應.102.523.2297.619.455第三季度:(1)首先将第三季度上新量数据从附件二中抽取出来并建立一个新的Excel表格,再对其进行升序处理。为了更好地显示数据的分布
42、特性,我们对数据进行了等区间划分。通过观察区间数据,我们发现大部分的第三季度上新量数据集中在前几个区间,于是对前几个区间再进行细划分,最终得到6个不等的区间:388,670,(670,1234,(1234,2269,(2269,3774,(3774,7444,(7444,14500利用Matlab作出分布直方图:|10風翻|旧理i:l4.22QB|庄却吕“口叫13774,7444|Tq44t!4aC0图3-9第三季度上新量分布直方图通过观察直方图,初步猜测第三季度上新量满足正态分布,为了验证猜想,运用SPSS进行正态性检验,并作出QQ图。表3-9第三季度上新量正态性检验正态性:检验制乐莫戈咯黄
43、-斯来诺況日夏度济-咸恳-!统计自由度显苔性统计自由度显善性VAROOOOe.1876.200.933S.601巴裟是真显著性的下限口a.里利氏显著性修正正态性检验表中显著性0.2000.05,因而满足正态分布,即猜想得到证实。查看Q-Q图进一步确认,由图可见基本在直线附近,可以认为服从正态分布。VAR00008的正态Q-Q图2-I10III2030实测值I40I50图3-10第二季度上新量QQ图最后将第三季度上新量数据导入到Exce1表格中,进行正态性分析,求出置信区间2489.4203,3342.9740表3-10第三季度上新量正态性分析描述(2)首先将第三季度延期比数据从附件二中抽取出来
44、并建立一个新的Excel表格,再对表格数据进行升序处理。为了更好地体现数据分布的特性,将表格数据等分为几个区间,然后观察发现大部分数据集中分布在前几个区间里,于是再对前几个区间进行细划分,最终得到的七个区间为:0,0.005,(0.005,0.02,(0.02,0.1,(0.1,0.2,(0.2,0.4,(0.4,0.8,(0.8,1再运用Matlab作出分布直方图:图3-11第三季度延期比分布直方图通过观察直方图,我们初步猜测第三季度延期比满足正态分布,为了验证猜想,对其进行正态检验,并作出QQ图。表3-11第三季度延期比正态性检验正态性检強M尔莫戈倍肩-所米诺持夏戌洛-臨尔ait显著性自1
45、丁度肚著性報击以VAR00009.154.20Qt.9891.991*圾是真显垂性的不眼.a里利氏显著性幅正根据正态性检验显著性0.2000.05,因而第三季度延期比满足正态分布,及原猜想证实。查看Q-Q图进一步确认,由图可见基本在直线附近,可以认为服从正态分布。实侧値图3-12第三季度延期比QQ图最后将第三季度延期比表格数据导入到SPSS中,对其进行正态性分析,求得置信区间:0.1016,0.1576表3-12第三季度延期比正态性分析统计VAR00009广均Fl.129S.0142095%宜f.iLSZPbl-life.1!61:限.15765%剪除方均僅.1043.4QQ方差.037标准绘
46、.1911a最犬(5.09全距.99.1a2.04U.181斗349.359问题四的求解:1.补单的依据通过对附件一、二的分析,得知商品的下单主要集中于上新日及其之前,而补单直接与销量挂钩,因而前提就是商品未来的销量预测。所以首先决定必须对影响商品销量的因素做一个分析。2.补单的步骤第一步分析好商品的销量来源和真实销量。商品的交易平台,无非就是各大电商APP,例如淘宝、天猫、京东等。对于这些而言,可将销量分为日常销量与活动销量。分析附件一可知,这两个销量相差较大。商品上架前的活动宣传与新颖度,对于商品的销量是至关重要的。客户由于活动表现、节假日因素、季节因素,从众心理等各种原因,在商品上新前以
47、及上新的一两天内,会大力加大购买力度,因此商家需要在商品的前期做好补单操作。第二步,分析真实销量。根据附件二得知,在4、5、6、7、8月商品的退货退款率居高,而9月,仅退款率基本上都为0,仅退款在买家没有收到货物的时候就改变主意不再需要商品,因此此类商品可以及时的回到库存,退货退款则会有时间的延迟,不过最终也会回到库存当中。而补单考虑的是真实的销量,需要将这一类商品剔除在外。第三步,分析好商品的种类。真实销量仅仅只能告诉我们当前市场情况,若商品种类与季节性相关,例如服装,则必须要时刻考虑好库存的问题,否则季末清仓会造成较大的损失。因此,预测未来销量时必须要考虑季节对销量的影响。第四步,做好未来
48、活动的安排。有了季节的权值之后,日销结合权值基本就可以预测未来30天的日常销量,接下来要做的就是提高活动销量,细分好接下来一个月的活动排期。因此,结合历史的活动销量和季节权值就可以预测好未来一个月的活动销量,进而得到总销量。第五步,对商品库存、供应链进行分析。有了未来的销量预期,再统计好现有库存数和在途商品数,从而得到商品的可销天数,进而考虑商铺的供应链所给予的补单情况,以便在库存售空时能够得到及时的补充。六、模型检验6.1问题一模型检验GM(1,1)模型误差分析:在灰色预测模型中,结合后验差检验判别表,模型精度是处于优秀的状态。主要在问题一中,相关商品样本按月划分,预测值与实际值吻合。在利用
49、正态分布求解货物的上新量与延期比的分布范围与置信区间时,选取了分布较为集中的商品样本作为一个区间进行研究,并用样本所占频率代替概率,虽然具有一定的误差,但是能够体现了相关商品特征。6.1.2神经网络模型的误差分析:通过MATLAB的图形可视化将预测得到的销量与期望销量之间的误差用图形表示如下;154104501AO1SO商品种类图119:201938各商品销量预测误差200仙1015C20025030435fl图120:201939各商品销量预测误差1COM1502QQ牺品种菟图121:2019310各商品销量预测误差图122:2019311各商品销量预测误差图123:2019312各商品销量
50、预测误差七、模型的优缺点及推广灰色预测模型的推广由灰色理论提出的灰关联度分析方法,是基于行为因子序列的微观或宏观几何接近,以分析和确定因子间的影响程度或因子对甚主行为的贡献测度而进行的一种分析方法。灰关联是指事物之间的不确定性关联,或系统因子与主行为因子之间的不确定性关联。它根据因素之间发展态势的相似或相异程度来衡量因素间的关联程度。由于关联度分析是按发展趋势作分析,因而对样本量的大小没有太高的要求,分析时也不需要典型的分布规律,而且分析的结果一般与定性分析相吻合,具有广泛的实用价值。模型的改进在问题一中,灰色系统做未来5天销量预测时,可以利用已预测出来的未来一个月的数据,计算每个月5天的销量
51、数据在样品中的频率,从而进行更加精准的预测。可以利用改进的灰色系统模型“新陈代谢灰色系统”进行预测。并且用已知序列建GM(1.1)模型进行预测时,不用这个模型一直预测下去,而是只预测一个值,并将这个灰数补充在已知数列之后。为不增加序列长度去掉第一个已知数据,保持数据列的等维,再建立GM(1,1)模型。这样新陈代谢,逐个预测依次替补,不断补充新的信息,使灰度逐步降低,直到完成预测目标或达到一定的精度要求为止。八、参考文献VultureEye,K-means聚类最优k值的选取, HYPERLINK /qq_15738501/article/details/79036255 /qq_15738501
52、/article/details/79036255,2019/7/11。不要再见,聚类分析的Matlab程序一系统聚类(附有案例分析) HYPERLINK /henulll/article/details/81512314 /henulll/article/details/815123142019/7/11。李杰、王玉霞、赵旭东.电商企业商品销量的预测方法.统计与决策2018年第22期.殷春武.GM(1,1)在商品销量预测上的运用.中国商贸1005-5800(2010)12(b)-246-02何喜军,马珊,武玉英,蒋国瑞.小样本下多维指标融合的电商产品销量预测J.计算机工程与应用,:1-12.罗妤.聚类数据挖掘在商场中的应用及K-means聚类算法改进研究D.重庆大学,2005.王小平,孙彩贤基于网上商品销售预测的灰色模型理论J.四川兵工学报,2010,31(06):149-150.九、附录pro2.mT1prol.m%随机抽取3中商品画出销量趙势0A=dsreadC第次模拟/附件1处理.kW,B3:LV48S5);prarutfcenn(333,3):plot(Y,linewidthJ,2);slabel(时间);1宠第一种商品,第二种商品,?第三种商品J:rawdata=xlsread(D:/Matlab/bin/练习函数/附件1处理.xlsx,B
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届武汉市东西湖区三上数学期末检测模拟试题含解析
- 行政管理与公共关系学相辅相成的试题及答案
- 行政管理者如何提升公共关系能力试题及答案
- 中级经济师的国际投资环境试题及答案
- 2025年经济学考试实务试题及答案综述
- 电商平台用户数据隐私保护细则协议
- 食育课爆米花课件
- 旅游行业酒店服务标准考核试卷
- 行政管理专科公共关系学试题及答案见解
- 物流业绿色物流发展路径及技术应用研究
- MOOC 地学景观探秘·审美·文化-重庆大学 中国大学慕课答案
- 安全生产事故报告处理制度范本
- (高清版)WST 311-2023 医院隔离技术标准
- 2024年电梯安装与维修工理论考试题库及答案(通用版)
- 天耀中华合唱简谱大剧院版
- 【《我国互联网企业价值评估现状与问题探析11000字》(论文)】
- 智慧农业的无人机技术应用
- 招聘需求分析报告
- 火龙罐综合灸疗法
- 2022年呼和浩特市赛罕区消防救援大队招聘政府专职消防员考试真题
- 节制闸、分水闸工程施工方案
评论
0/150
提交评论