【水果销量预测模型的案例分析3400字】_第1页
【水果销量预测模型的案例分析3400字】_第2页
【水果销量预测模型的案例分析3400字】_第3页
【水果销量预测模型的案例分析3400字】_第4页
【水果销量预测模型的案例分析3400字】_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

水果销量预测模型的案例分析目录TOC\o"1-3"\h\u22009水果销量预测模型的案例分析 1141481.1特征分析 1241121.2水果销量预测模型构建 1125991.2.1支持向量机预测模型 1102871.2.2逻辑回归预测模型 1237551.2.3随机森林预测模型 1300451.3预测模型性能对比 1162981.4模型应用实验 1在电商平台上,商品的销售量对商品是否受欢迎有着重要的参考标准,对于消费者来说,网页商品中销量更多的商品更容易吸引眼球,大多数人会选择销量排序作为筛选条件来对需要购买的商品进行浏览;对于店铺来说,一个商品的销量也即代表着该商品在用户群体中的受欢迎程度,同时,可依此为参考,合理规划该商品在本月的上货量,避免生鲜水果过剩腐烂或过少缺货,做到利益最大化。在本章中基于不同的机器学习模型,利用商品特征、商店特征来预测一个商品的月销量是否在同款商品中名列前茅。1.1特征分析当获取到样本数据集时,先要对样本数据集作一个初步的分析,也即是观察数据集的数据数量和质量能否符合构建模型的前提条件,所有数据进行整合之后是不是具有规律性,查看其是否具有某种发展趋势,以及特征因素之间是否有一些相关性。本节将讨论价格、评分、净含量等特征因子与销量的关系,根据不同特征的数据,绘制散点图,从而来对其进行相关性分析,衡量变量因素的相关密切程度。如图4-1所示。从散点图的特点和分布趋势可以看出:水果销量和价格、评分、净含量以及单价具有明显的相关关系。机器学习模型的优劣与数据和特征有着密切的联系。而特征工程就是对原始数据进行加工,其步骤非常复杂繁琐,从简单的数据清洗,例如缺失数据的填补、冗余数据的去除、数据的不一致处理等,到数据的归一化、离散化、独热编码,其目的是为了整合数据的真实性有效性,充分有效的利用数据呈现的信息和其中隐藏的潜在信息。成功的机器学习算法在于你如何去展示这些数据,从数据中能否挖掘出更多潜藏的有效的特征信息,甚至可以直接决定模型的性能表现,然而特征的维度越高也并不一定意味着模型的预测效果就越好,有时候过于复杂的数据特征不但无法提高模型的准确率,反而会更加消耗时间和空间[45-48]。影响模型的性能表现的往往是一部分和预测目标有着紧密联系的特征,不同的特征对于模型性能的贡献是不同的。(a)(b)(b)(a)(b)(b)(c)(c)(d)(d)(e)(f)图4-SEQ图4-\*ARABIC1销量与其他维度数据关系散点图 除此之外,为了验证所选特征经过数据预处理之后的相关性,我们绘制了相关性热力图将特征之间的可视化系数可视化,如图4-2所示。该图中横纵坐标特征维度相同,均为放入模型的特征,通过色阶的不同颜色分布,我们可以观察各个维度与其他特征的相关性,检验特征之间是否存在强相关。从图4-2特征变量相关性4-2中我们可以看出整体为玫红色,即相关性系数值大多位于[-0.25,0.50]区间,表明特征之间的相关性较为合理,适合进行预测模型的构建。图4-2特征变量相关性1.2水果销量预测模型构建本次预测实验将选用逻辑回归、支持向量机和随机森林三种模型进行销量的预测,通过模型评价指标Accuracy(正确率)、Recall(召回率)、AUC(AreaUnderCurve,ROC曲线下与坐标轴围成的面积)[49-51]来衡量所有模型的好坏程度,并利用控制变量法对模型的参数进行调节,最后得到效果最好的模型[52-54]。关于三种模型的理论知识前文已做赘述,这里不再做过多介绍,下面将介绍本文使用机器学习模型进行预测的具体过程。1.2.1支持向量机预测模型(1)模型构建支持向量机(supportvectormachines,SVM)模型构建过程如下:(i)先将数据分成预测集与测试集,在合适的范围内规定一组调节参数的指标。为了提高支持向量机模型的预测效果,需要选择使得模型准确率、召回率、AUC值尽可能高的核函数。将三个月的数据作为训练数据进行训练,得到最优核函数,如表4-1所示。表4-SEQ表4-\*ARABIC1核函数对比评价指标线性核函数多项式核函数高斯核函数Sigmoid核函数AUC78.21%72.14%83.35%82.26%Accuracy89.40%90.08%92.78%88.06%Recall38.68%55.74%50.62%38.65%图4-3支持向量机参数调整图图4-3支持向量机参数调整图C为惩罚系数,是核函数中最重要的参数,选择不同的数值,通过分类器训练得到准确率最高的C值,具体结果如图4-3所示。当C=2时准确度均能够达到最高为0.92,故在最终的分类模型中选择高斯核函数,C值确定为2。模型整体在训练集的准确率达到0.94,召回率和AUC的值也较好,分类效果比较出色。(ii)从样本中随机抽取一部分数据,在最优化目标函数的前提下构建一棵决树,计算预测结果。(iii)将预测结果和构造这棵树之前的预测结果进行对比,如果预测结果得到优化则重复第二步,否则结束建模。(iv)将测试集数据带入模型中,计算出模型的评价指标并输出如表4-2所示。表4-SEQ表4-\*ARABIC2SVM模型评价结果评价指标训练集测试集全样本AUC85.84%71.08%82.14%Accuracy91.41%90.60%91.61%Recall55.36%41.26%51.33%如表4-3可知,SVM模型应用于全样本的预测有很高的准确率,达91.61%。另外其AUC值为82.14%,表示分类器的效果较好。由此可知,比LR模型召回率低,准确率相对LR模型较高。1.2.2逻辑回归预测模型逻辑回归(LogisticRegression,LR)通过Sigmoid函数引入非线性因素,对于处理0/1分类问题非常准确,其建模流程如下:(i)将数据分成训练集(80%)与测试集(20%),在合适的范围内规定调节参数的指标。(ii)定义决策边界的数学表达,基于这个表达定义分类(SVR分为一类)函数。(iii)引入拉格朗日对偶函数,把求解w和b的过程转化求解拉格朗日因子α。(iv)求解α,根据α求解出w和b,得到最终模型。(v)不断改变输入调节参数的指标,调节主要参数C(正则系数),结果如图4-4所示。图4-SEQ图4-\*ARABIC图4-SEQ图4-\*ARABIC2逻辑回归参数调整图(vii)将训练集数据带入调参得到的最优模型中,计算出模型的评价指标并输出。模型结果如表4-3所示。表4-SEQ表4-\*ARABIC3LR模型评价结果评价指标训练集测试集全样本AUC87.85%75.74%85.89%Accuracy91.04%89.64%93.04%Recall46.40%27.38%37.45%由上表4-4可以看出,LR模型应用于全样本,其预测的准确度为93.04%,相对较一般。从总体结果看,无论是训练集还是测试集准确率都在80%以上,分类器效果一般。1.2.3随机森林预测模型(1)建模流程随机森林(RandomForest,RF)为多个树分类器构成的集成学习模式[55-58],该算法构造了多个决策树,在对目标进行预测时,通过汇总每棵树对该样本的预测结果,选出最后的结果。本次实验将水果信息特征作为输入变量,下月销量排行作为输出变量(排行在前20%设为1,其他设为0),建模流程如下:(i)输入包含特征的样本数据集。输入样本数据,设定输入变量与分类变量。随机选择80%的专利样本作为训练集,20%作为测试集,用于模型预测效果的检验。图4-SEQ图4-\*ARABIC图4-SEQ图4-\*ARABIC3随机森林参数调整图由图4-5可知,当随机森林内部决策树的数量达到400时,模型准确率将不会再上升,因此选择n=400作为最优参数。(iii)所有的CART决策树按照分类结果进行投票,投票数较多的类别作为随机森林模型的分类结果。通过本次预测模型的构建,得到模型的各个评价指标:表4-SEQ表4-\*ARABIC4RF模型评价结果评价指标训练集测试集全样本AUC85.83%81.82%87.68%Accuracy95.42%95.58%95.35%Recall87.34%58.61%77.36%图4-SEQ图4-\*ARABIC图4-SEQ图4-\*ARABIC4特征因子对销量预测的重要性排序1.3预测模型性能对比对三种模型预测结果进行总结如表4-5所示。表4-SEQ表4-\*ARABIC5三种模型评价指标结果统计模型AUCAccuracyRecallSVM模型82.14%91.61%51.33%LR模型85.89%93.04%37.45%RF模型87.68%95.35%77.36% 逻辑回归模型、随机森林模型和支持向量机模型三种机器学习模型判别结果的评价指标结果见表4-5所示。其中,由上表可知,三种模型准确率,均在90%以上,其中随机森林模型的准确率最高。从上表的结果对比可以看出,上述三种模型预测能力排序为:随机森林模型、逻辑回归模型、支持向量机模型。因此,本论文认为利用随机森林模型进行水果销售量排名预测比较好。但是,一方面数据量不足,另一方面由于数据滞后,水果销量预测效果的精度可能不足,对此问题本人将进一步改善。1.4模型应用实验应用预测性能最好的随机森林预测模型,分别以电商平台某个苹果和橘类水果商品为例,输入两种水果的特征信息,通过模型获得预测结果如图4-7和图4-8所示。图4-7橘类销量预测特征输入图4-7橘类销量预测特征输入图4-图4-SEQ图4-\*ARABIC5苹果销量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论