课程论文参考2-基于SAS数据挖掘的电商平台商品销售应用研究.docx_第1页
课程论文参考2-基于SAS数据挖掘的电商平台商品销售应用研究.docx_第2页
课程论文参考2-基于SAS数据挖掘的电商平台商品销售应用研究.docx_第3页
课程论文参考2-基于SAS数据挖掘的电商平台商品销售应用研究.docx_第4页
课程论文参考2-基于SAS数据挖掘的电商平台商品销售应用研究.docx_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南财经大学Southwestern University of Finance and Economics数据挖掘课程论文论文题目:基于SAS数据挖掘的电商平台商品销售应用研究 学号姓名: 指导教师: 2015年 6月基于SAS数据挖掘的电商平台商品销售应用研究摘要 随着互联网技术的发展,电子商务平台已成为众多零售商主要销售渠道之一。因此,如何选择自身销售的商品,在激烈的市场竞争中至关重要。本文采用京东三天的爽肤水交易记录与评论信息,通过SAS的EM数据挖掘模块,分析影响商品销量的主要因素。通过描述性统计发现,市场中的商品类型分布不均匀。通过建立关联分析,我们发现消费者对优质品牌和具有保湿功能的产品,有更高的购买倾向。然后建立决策树模型,通过构造损益矩阵,以收益最大为目标,得出了商家的最优决策树模型。通过结果本文发现,对于爽肤水这类商品,消费者更倾向于选择知名品牌,并且对特定功效美白、控油有更高的需求,同时也倾向于购买成套出售的产品。对于商家而言,在满足消费者的需求的同时,采用较低的定价模式,也能达到薄利多销的效果,获得更多的收益。【关键字】电商平台 交易记录 关联分析 决策树 SAS数据挖掘目录1.绪论51.1研究背景51.2研究意义51.3研究内容和研究方法52.文献综述52.1 产品属性52.2在线商品销售62.3产品属性与商品销售的关系63.数据收集及处理73.1数据描述:73.2数据初步处理:73.2.1 数据导入与合并73.2.2 分类数据处理83.2.3 买家评分信息处理103.2.4 品牌信息处理103.2.5处理结果124.简单的描述性统计分析125.关联分析145.1变量离散化处理与数据转置145.2分析过程与结果155.2.1高销售量商品155.2.2中等销售量商品155.2.3低销售量商品166.决策树分析166.1构造损益矩阵176.2决策树模型与结果176.3模型调整与对比196.3.1调整损益矩阵196.3.2改变目标变量196.4 模型总体流程图197.总结与分析208.论文改进21参考文献21附录221. 绪论1.1研究背景联合国贸易和发展协议3月发布2015年信息经济报告称,在全球130个经济体重,中国实际上已经成为全球对打的“企业对消费者电子商务”市场。艾瑞咨询统计数据显示,2015Q1中国电子商务市场整体交易规模达3.48万亿元,环比下滑10.1%,同比增长23.8%。从同比增长来看,增速较2014Q1亦有所下滑,中国电子商务市场已进入成熟期。而在过去几年,中国的化妆品行业稳定增长,零售销售总额从2010年的1362亿元人民币增长至2013年的2209亿元人民币,年复合增长率为17.5%。到2018年,预计这一销售额将达到4318亿元人民币,2013年至2018年的年复合增长率为14.3%。化妆品零售渠道中商超、专营店、百货商店、电商、直销和其他的比例也在不断变化,其中,网络渠道从2006年占比的0.7%到2012年的13.1%,大幅上升。由上可见,化妆品行业仍有很大市场发展空间,而网络已成其重要的销售渠道。随着中国电子商务市场的逐渐成熟,化妆品在网络的竞争将日趋激烈。我们发现不同企业的化妆品市场份额有很大不同,定性来看,品牌、价格、功效、评价等都对其销售有很大影响,因此,我们期望找出影响化妆品销售量的重要因素,以便对企业制度营销策略提供建议。1.2研究意义随着化妆品网络渠道销售竞争越来越激烈,各大企业必须做出相应的营销战略来提高销售量,而要制定相应的营销战略,必须对用户行为进行研究,找出影响消费者购买化妆品的因素。因此,对影响化妆品销售量、销售额的因素的研究非常必要。本文通过研究影响化妆品销售量和销售额的因素,期望找出影响消费者购买不同化妆品的重要因素,从而对化妆品公司提供改善建议。1.3研究内容和研究方法本文主要以京东平台上的化妆品为例来研究影响化妆品销售的重要因素。通过相关数据来看,影响化妆品销售的因素包括品牌、价格、功效、容量、套餐、评分等,我们利用sas企业数据分析对其进行相关建模,通过分类、关联分析两种挖掘方法来找出影响化妆品销售的重要因素2. 文献综述通过查阅文献,本文发现,产品属性、消费者购买偏好以及其对商品的销售量等影响,长期以来收到广泛的关注。与本文研究相关的文献研究大致有以下几个方面:2.1 产品属性(孙洪杰等,2011)认为在消费过程中,消费者的购买偏好一般是基于比较完成的,在比较的过程中,产品属性比较是重要组成部分。产品属性按不同划分标准有很多分类。(Voss 等,2003)指出产品本身包含了两种属性,即功能属性和享受属性,消费者在购买产品时会从功能属性和享受属性这两方面做权衡。(徐剑,2005)按竞争因素将产品属性分为经济属性和技术属性;从产品属性与新产品购买行为的关系角度,(陈文沛,2013)将产品属性划分为技术属性和市场属性。本文研究将产品属性作为对产品销售量的影响因素进行研究,包括产品的功能属性以及价格、品牌、顾客评分等属性。在产品购买过程中,消费者有自己的偏好,这是一种消费者倾向于消费某种特定商品亦或特别钟爱消费某种商品或服务的心理行为。(汪出,2013)指出消费者心理偏好特征的形成不但受先天生理素质的影响,而且还受来后天的社会实践的影响,并且后者的影响力更大。由于消费者自身的生理素质和周围环境不同,以至于消费者形成不同的心理偏好特征,进而产生不同的购买行为。2.2在线商品销售在电子商务平台购物,商品的销量对于顾客的购买行为起着重要作用。(任婕、彭晨,2015)网络购物者在进入购物网站输入商品大类名称后,会在按照“销量”,“价格”,“人气”,“综合”进行排序,购物平台默认的排序方式为按照综合排序。在进行网络购物消费者行为特征的研究时,发现约有77.94%的消费者选择根据商品销量排序作为参考来进行选择。(徐雪娟等,2013)指出电子商务中商品的销售量呈幂律分布。考虑某一件商品销售网络的形成过程,当某一件商品在某购物网站销售时,会有新的消费者从多家店铺中选择购买,销售网络就会扩大,整个网络呈现动态增长。分析网购消费者的行为可以发现,消费者在对不同卖家的同一件商品进行比较甄选时,考虑的因素包括价格、已有的销售量、卖家的销售信用等等。当消费者做出购买的行为时,已经从诸多指标做出了考量,因此商品的销售量可以作为一个综合的评价指标。所以本文将研究产品销售量的影响因素,以便于帮助卖家选择所要销售的产品。2.3产品属性与商品销售的关系在研究产品属性与商品销售之间关系的有关文献有:(任婕、彭晨,2015)基于淘宝平台,对商品销售量建立了两阶段模型,研究了淘宝商品销量与店铺信用以及价格等因素的关系,得出了商品销售量与商品价格成负相关关系。(王倩倩等,2013)以淘宝网为例,运用包含商品标题、商品评论和商品描述在内的三层挖掘架构,使用文本挖掘提取评论关键词,并将内容分析法纳入其中,利用MATLAB进行仿真实验,建立了数学回归模型,得出质量、价格、尺码与销售量之间有着敏感的相关关系。(耿亮亮,2009)利用回归分析品牌知名度在顾客满意度和品牌忠诚之间的作用,结果表明品牌知名度在顾客满意度和品牌忠诚之间起到一定的一调节作用。(张婧、邓婕,2010)利用K-means聚类算法对销售数掘进行建模,得出商品的利率等级,使企业准确的获取获利商品,提高收益。(成慧,2009)以数码相机为例,分析了产品属性对于消费者产品选择的影响效应。通过研究可以发现,消费者在选择数码相机时,他们最关心的属性是价格,其次是像素、颜色、变焦倍数和品牌,最后是LCD大小,消费者对于数码相机各个属性的不同水平也表现出一定的规律。虽然产品不一样,但是和本文研究方向相同,即研究产品属性与产品销售间的关系,对本文有一定指导意义。3. 数据收集及处理3.1数据描述:本文所采用的数据集是来自主要电商平台:京东,淘宝,天猫,亚马逊,一号店的2013年10月20日至2013年10月22日的爽肤水交易信息,该数据集从网络数据中心数据堂获得。以京东数据集为例,数据主要分为三部分。第一部分为京东平台上爽肤水的交易记录,一共有56489条交易记录,14个变量,变量包含商品ID,电商名称,日期,商品名称,商品URL,促销价,商品销量销售额,店铺名称,店铺等级,品牌功效,适合皮肤,容量等。第二部分为买家购买后的评价信息,一共有3722条的评论信息,6个变量,变量包含商品ID,购买时间,评论时间,昵称,评分,评论内容。第三部分为品牌数据集,一共51990条数据,7个变量,变量包括类目,品牌,电商平台,平均价格,日总销量,对应商品ID。本论文所采用的数据全部来自于知名网络数据中心数据堂,具有相当的可信度。经过对数据的观察,为了使得研究过程能够更加方便,我们选择数据较为完整并且有序的自于京东平台的交易信息。由于本文目的是建立如何选择商品销售模型,因此不会对结果造成影响。3.2数据初步处理:3.2.1 数据导入与合并本文所有的数据都是用SAS中SQL语言与EXCEL进行处理。首先处理京东平台上爽肤水的交易记录。首先应该去掉与本文研究不相关的信息。由于电商名称,日期,店铺名称与本文研究目标不相符,同时在京东平台上并没有店铺信息,而商品名称已包含在品牌名称等其他变量中,因此我们选择的变量为:商品ID,促销价,商品销量、销售额,品牌功效,适合肤质和容量大小。 将源数据导入SAS之后采用EM模块的InputData节点对销量变量进行描述性统计,结果如图所示:我们可以发现,其中大多数商品的销售量都为0,是因为这里仅仅采用3天的交易数据,所以大多都没有销量。没有销量的商品对本文的并无研究意义,因此我们只研究销售量大于0的商品。采用SQL语言将3日的交易数据合并,并选取所需变量,并且将相同的商品进行合并。Proc sql;CREATE table Homework.JD asselect * FROM Homework.JINGD1UNION ALLselect * FROM Homework.JINGD2UNION ALLselect * FROM Homework.JINGD3;Proc sql; CREATE table Homework.JDNEW as Select ID,PRICE,SUM(Q) as Q,SUM(INCOME) as INCOME,BRAND,EFFEct,CAP from Homework.JD where Q0GROUP BY ID; 处理后的结果在SAS中打开的部分内容如下: 3.2.2 分类数据处理为了使得变量能够满足分析的要求,我们利用EXCEL对数据进行预处理。对于容量这一变量,格式存在两种“500ml”或者“100ml + 10ml + 10ml”。因此我们采用两个变量来描述,CAP和COMB,其中CAP表示容量的大小,本文将100ml以下定为小瓶,100ml-300ml以下为中瓶,300ml以上为大瓶。COMB为一个二元变量,1表示存在套装的情况,0则表示为单瓶。处理之后结果为:对于功能这一变量,我们通过建立数据透视表查看结果:EFFECT汇总NULL22保湿补水687保湿补水,控油平衡17保湿补水,控油平衡,美白祛斑1保湿补水,控油平衡,美白祛斑,细致毛孔25保湿补水,控油平衡,美白祛斑,细致毛孔,祛皱抗衰8保湿补水,控油平衡,美白祛斑,细致毛孔,深层清洁2保湿补水,控油平衡,美白祛斑,细致毛孔,深层清洁,祛皱抗衰26由数据透视表可知,功能包含6种功效,因此我们采用一系列的二元变量E_BS(保湿),E_KY(控油),E_MB(美白),E_XZ(细致毛孔),E_KS(抗衰老),E_QJ(清洁),1表示该品牌具有这种功效,0表示该品牌不存在具有该种功效。部分处理结果为:对于适合肤质这一变量同样采用数据透视表来查看,部分结果如下:SKIN汇总干性38混合性48混合性,中性24混合性,中性,油性12混合性,中性,油性,干性20敏感性11所有肤质880油性31中性23我们可以发现其中大多数产品都适用于所有肤质,因此我们将采用一个二元变量BSKIN来描述适合肤质这一变量,1表示适合所有肤质,0代表针对特殊肤质。处理部分结果如下:3.2.3 买家评分信息处理由于技术方面的缺乏,本论文仅采用评分作为消费者对商品评价的唯一方式。评分数据集中来源于2013年10月20号到22号三天的时间产生的评论信息。 然后,我们用SQL选择研究所需数据,并求评分的均值,方法如下:Proc sql; CREATE table Homework.SCORCE as select ID,AVG(SCORCE) as SCORCE from Homework.PL GROUP BY ID; Proc sql; CREATE table Homework.JINGDONG as select * from Homework.SCORCE a FULL JOIN Homework.JDNEWon a.ID=b.ID 根据EM节点产生的统计信息如下 我们可以发现SCORCE变量存在缺失值,现实生活中并非所有商品都会被评价,所以本文保留缺失值。3.2.4 品牌信息处理根据EM节点查看BRAND变量的统计信息如下:我们发现仅选择销量大于0的品牌,也存在着大量不同取值,并且品牌名称并不能作为判断品牌优劣的依据。在我们分析品牌效应的过程中,BRAND这一变量并不能表示品牌效应的作用。因此我们将通过第三个数据集,产生一个新的变量SBRAND来对品牌进行分析。第三个数据集代表的是全部主要的电商平台,所有品牌爽肤水的交易信息。根据消费者的从众心理,我们将采用全部电商平台中品牌总销量的排名来作为评判品牌优劣的标准。利用SQL语言将3天的交易总量合并,并选择所需数据:Proc sql; CREATE table Homework.qtest as SELECT ID,BRAND,SUM(SALE) as SALE(select * FROM Homework.q20 UNION ALL select * FROM Homework.q21 UNION ALL select * FROM Homework.q22); 由于京东平台并非包含全部品牌,因此我们只采用在京东上有销售的品牌进行研究,用SQL语言进行选择,并将该表与原表连接:Proc sql; CREATE table Homework.SORTB as selet * from HOMEWORK.Qtest a where a.BRAND in (select BRAND FROM HOMEWORK.JINGDONG); 在SAS中查看部分结果:可以发现,并非在全网销量高的品牌在京东平台上销量就高,这表明数据满足我们的假设,即品牌并不是唯一决定销量的原因。3.2.5处理结果经过预处理之后的数据变量如下表:变量名称变量内容ID商品IDQ商品销售量PRICE商品单价INCOME商品销售额BRAND品牌名称EFFECT品牌功效描述SKIN品牌所适合肤质SCORCE商品打分CAP商品的容量COMB商品是否套装SALE品牌全网销量排行E_BS保湿功能E_KY控油功能E_MB美白功能E_XZ细致毛孔功能E_KS抗衰老功能E_QJ清洁功能BSKIN是否适合所有肤质4. 简单的描述性统计分析在进行数据挖掘之前,先对数据进行描述性统计,了解数据的大概分布特征,以便更进一步的分析。对销量进行描述统计,统计不同销量下的品牌个数,并画出直方图:根据上图我们可以发现,销量低的品牌数量占据大部分,其中销售量为1的品牌数量最多,销量大于11的品牌则只占很少的部分,销量最高为139只有一个品牌。 对数据中所有有销售量的商品功能进行统计:其中1代表具有该功能,而0则代表不具有该功能。对于套装变量,1则代表是成套的商品,0则代表是单独售卖的商品。对于适用肤质变量,1则适合所有肤质,0则代表针对特殊肤质。根据结果我们可以看出,在售的商品中成套商品较少,并且大多针对所有肤质。在爽肤水的功能中多为具有保湿功能的产品。观察售卖商品的容量规格:可以发现所有在售的爽肤水,多为中等型号,同时也存在部分缺失值,但总体占比很小。根据如上的统计,我们可以发现商品销售的情况并不均匀,其中销售量较高的品牌只占其中很少的一部分。而在商品的功能方面,有销售量的商品具有的功能和特性也倾向于某一类,表明大多数消费者都会选择某一类的商品,而找出这类商品就是本文主要的研究意义。5. 关联分析5.1变量离散化处理与数据转置为了研究销售量的主要影响因素,本文首先对数据进行关联分析。为了进行关联分析我们需要采用EM中的TRANSFROM节点将Q,PRICE,SCORE,SALE进行分类预处理,以Q为例: 如下图所示,将Q分为3个部分: 分类结果为: 将所有变量改为分类变量并且加上标识符,最终结果为:将预先处理好的数据进行转置,再进行关联分析,我们只关注Q变量,即只关注销量受到哪些因素的影响。利用SAS语言将数据集进行转置。proc sort data = JD ; by ID; run; proc transpose data = JD out = JDNEW; var Q,INCOME,BRAND,GONGXIAO,FUZHI,RONGLIANG,SCORCE,E_BS,E_KY,E_MB,E_XZ,E_QJ,BSKIN,SALE by ID run;5.2分析过程与结果经过预处理后的数据,可以直接采用SAS中的关联分析节点进行关联分析。本文将分别研究高销售量,中等销售量,低销售量的商品的关联规则,以找出影响销售量的主要因素5.2.1高销售量商品首先对高销售量商品,即Q3类商品进行关联分析分析结果如下: 根据结果我们可以“保湿1”以及S3的置信度是最高的,但总体的支持度和置信度都比较低。通过观察数据我们发现,由于数据本身中销量较高的产品占很小比重,因此含Q3的关联规则支持度非常低。同时Q的分类的阈值为1、10。当阈值过大时,如1、20时,Q3的占比会小于5%。但当阈值较小时,代表了有一部分实际并非销量高的产品样本被归纳入Q3,从而就导致了置信度也较低,但结果依然具有说服力。从结果我们可以看出,对于具有保湿功能,并且品牌认可度高的产品销量比较高。同时SC2或者P1,即评分高的商品或者价钱便宜的商品也会有很好的销量。5.2.2中等销售量商品 对于Q2类,即销量中等的一类产品进行分析。在研究哪些因素能够提高销量的时候,我们只关注哪些变量存在的时候会提高销量,如产品拥有美白功效,或者拥有保湿功效,但不关注没有保湿功效这一关联规则。在SAS中对关联结果进行筛选:关联结果为:根据关联分析结果我们可以看出,符合“大瓶,P1,COMB1,1”的商品能够具有中等的销量,即在同类商品中大瓶、价格便宜、适合所有肤质,并且是成套出售的商品具有相对更高的销量。同时,通过别的关联规则我们可以发现,S3也是一个重要的因素,即在同类商品中,消费者还是倾向与购买品牌公知度较高的产品。5.2.3低销售量商品对于Q1类,即销量较低的一类变量进行分析。本文关联分析Q1类的主要目的是想了解在电子商品平台上并不受消费者欢迎的产品特性,因此,我们更关注的应该是商品不具有哪一些功能,而不去关心商品具有哪一些功能,因此将在生成关联规则后进行如下筛选:筛选后的关联规则如下:根据关联规则我们可以看出,销售量低的商品通常具有以下特点,首先是产品的消费者评分较低,或者商品没有评论信息。同时消费者在选择品牌的时候也不会轻易选择不熟悉的品牌(S1,S2)产品。同时消费者也要求商品具有保湿功能,并且更加倾向于套装产品。6. 决策树分析通过关联分析我们可以看出,销量较高的商品通常具有品牌知名度高,有保湿功能,商品成套出售等特点。在卖家选择销售商品的时候,不仅只考虑上述因素,还要根据自身情况考虑商品的成本以及定价等因素,以及面对一个新的产品如何对产品销量进行预测,并选择是否出售该类商品,是在电子商务市场中常见的决策方式。我们将通过建立决策树的方式,帮助商家进行选择销售商品。以收益最大为目标,通过建立损益矩阵来进行决策树的建立。通过不断的调整与测试,得出本文认为最有效的决策树,并在目标不同的情况下比较决策树的不同。6.1构造损益矩阵 首先本文以销售量最大为目标建立决策树,本文尝试将销售量分为2类,3类或者4类。通过比较发现3类的分类方式效果更好,并且更加合理。因此我们将销售量分类为Q1,Q2,Q3,三类分别代表低销售量,中等销售量,高销售量。并通过SAS建立损益矩阵,经过多次试验我们决定最后的损益矩阵的设置方式: 如图所示的损益矩阵中,决策1,决策2分别代表选择这一类商品或者拒绝这一类商品。而商品1,2,3则代表了低中高三类的商品。图中的损益矩阵代表的意义为,当一个卖家选择销售高销售量的商品时,他将由于其较高的销售量获得较高的利润5;选择销售中等销售量的商品,则获得较低利润1;而当卖家选择销售销售量低的商品时,会因为其销售量低支出大于收入而造成损失为-2。这个损益矩阵的设置是根据实际情况,以及多次试验的结果确定的,不同的损益矩阵会造成决策树的结果有明显的不同,这个损益矩阵是目前本文认为具有最好的设定结果。6.2决策树模型与结果 通过SAS建立决策树结果如图所示,根据决策树结果我们可以分析出,卖家应该如何选择销售策略。决策树结果图 首先决策树对商品按照用户评分的高低进行分类,本文由于用户评分含有缺失值,通过多种方式处理进行对比之后,本文最终采用的方式将用户评分分为了三类,高评分,低评分以及评分为缺失值。其中缺失值代表的经济含义可以解释为没有评论信息,在电子平台上产品更新速度快,平台上每天都推出新品,没有评论信息现象很常见,所以对其不进行缺失值处理是合理的。 由上述决策树结果我们可以发现,只要是评分高的商品我们就能从中获得利润。换一句话来说,如果卖家能够有效地了解某类商品的总体买家评分情况,并且发现总评分很高,那么卖家就可以相信,该类商品能够给他带来较好的收益。 对于低评分商品的结果来看,首先卖家应该注重商品是否是成套出售的。根据决策结果,成套出售的商品大多会具有不错的销量。然后消费者也会注重商品的功能,我们通过前文的描述统计,关联分析和决策树的结果可以发现,消费者最注重的商品功能就是保湿,或者消费者最常购买的商品是具有保湿功能的爽肤水,没有保湿功能的商品不具有市场竞争力。根据决策树结果我们也可以发现,品牌效应也对销量的高低有着显著地影响。本文将品牌的销量排名进行分类,分为3类,前一百名为知名品牌,100至800名为普通品牌,800名以后为冷门品牌。品牌效应有着明显的作用,根据决策结果,当商品品牌排名属于知名品牌以及普通品牌时,卖家销售这一类商品就将获得较高的收益。而对于冷门品牌的商品,卖家应该采用低价格出售的方式,通过薄利多销的方式能够赚取利润。商品的评分处于缺失值的情况下,本文发现,是否具有控油效果是商品销量主要影响因素,对卖家而言销售控油功能的商品,就可以获得收益。此外对于商品容量,无评分商品商品是小瓶的销售量更好。在定价方面,与低评分的商品相同,同样应该采用低价格薄利多销的方式,采用较高定价时会影响销量,使得卖家会有损失。通过SAS做出决策树的收益图: 我们可以发现在前30%的销售收益下降的斜率明显相对于之后的斜率更大,表明在以卖家销售收益最大为目标时,能够更好的将收益较低的一类商品排除,以此达到卖家销售收益最大化的效果。6.3模型调整与对比6.3.1调整损益矩阵我们可以通过调整收益矩阵来改变我们决策树的结果。(结果图见附录)上述决策树收益矩阵为5,1,-2,建立的决策树能够将销量低的商品排除。本文尝试将收益矩阵改为5,0,-3,代表卖家只有选择了高销售量的商品才能够获得收益,以此建立决策树来决定怎样选择最高3类的商品。通过调整后的决策结果我们发现产生高销量的商品,除上述已知因素外,针对某种肤质并且成套出售的商品,并且在高、中品牌中具有美白效果的商品具有相对较高的销售量,可以被归为第3类销售量的商品。本文建立的损益矩阵是经过反复的实验再加上经验最终决定的,不同的损益矩阵会造成不同的结果,在实际的情况中,可以根据卖家自身的需求,经济实力,风险倾向,商品本身的特性等调整损益矩阵来达到分析的需求。6.3.2改变目标变量 上文只以销售量Q为目标变量来进行决策树的分析,本文还将以销售额Income为目标变量,进行简单的决策树分析,主要用于与以Q为目标决策进行对比(结果图见附录)。通过建立决策树我们发现,当以Income为目标时基本决策情况但不会有明显改变,但首要的分类因素增加了一项是价格,当商品价格较高则收入较高。但由于本次研究采用的均是有销售记录的商品,当存在着有较高价格的商品若偶然的一次销售记录,就会导致总体的销售额较高。因此实际情况下这个销售额的高低预测结果会相较于销售量Q的决策结果准确度更低。6.4 模型总体流程图本文采用sas的企业挖掘模块(EM)分析数据,建立本文商品销售模型,模型总体流程图如下:7. 总结与分析 本文采用的数据是来自数据堂的电子商务平台数据,想要建立数据挖掘模型帮助卖家决策以获取更高的收益,这在电子商务快速发展的今天有着重要的实际意义。 本文首先对数据进行描述性统计,做出相应的条形统计图。通过统计图我们可以发现,商品的销售量分布并不均匀,多数的商品销售量仅为1,而销售量较多的商品在所有商品中仅占非常少的一部分。不排除在数据所采取的时间内,该类商品出于促销活动等特殊情况的原因,这一结果也非常符合当下电子商务市场的现状:只有少数的卖家能够做出正确的选择,从而获得相当高的销售量并且从中获得大量的利润,而多数商品卖家则处于低销售量的情况,因此本文的研究也就更加具有实际意义。 接着文章通过关联分析了解影响销售量的主要因素。根据结果我们可以发现,商品销售量高的商品都具有品牌知名度高,并且具有保湿功能等主要特点。而销售量低的商品,通常情况下都有评分缺失,不具备保湿功能等特点。关联规则的结果,只能代表在已有的情况下销售量高的商品所具有的特征,而在实际做决策的时候,通常情况下,多数卖家并没有实力购买并销售这类在市场上已有较大份额的商品,因此为了能够进入市场并且挖掘更多的潜在客户群体,我们还要通过决策树进行进一步的分析。 然后本文通过建立决策树来进行进一步分析。我们首先观察到的是,商品受到的消费者评分对商品销售额具有较大影响,消费者评分较高的商品明显具有更高的销售量。然而在本次样本中,商品的评分存在着大量的缺失值,这与实际情况相近,当一个卖家选择进入市场时,一件新的商品在上市之前很难得到对应的商品评分。接着我们发现,商品的品牌好坏也是影响销售量的重要因素,品牌优秀的商品通常也会具有较高的销售量,但一般情况下品牌较好的商品成本也会更高,所以还需要对别的因素进行分析。对于商品本身而言,我们也发现具有美白,控油等功能,并且成套出售的商品具有更高的销售量。同时卖家在对商品定价时,如果商品品牌以及评分并不理想的情况下应该采用较低的价格出售,采用薄利多销的策略来获得更好的销售量。这样的结果也符合当下电子商务市场的特性,多数卖家销售被群众公共认可的商品,但同时根据长尾理论,部分卖家通过低价售卖市场份额较少的商品也能够获得不错的收益。8. 论文改进本文可以从以下三个方面进行改进:数据方面:本文采用的是来自网络的未经过处理的数据,为了更易于研究,只采用了其中来自京东商城的评论的信息。但源数据实际包含了更大的数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论