文本挖掘应用——高端车潜在用户的发现(基于线下线上数据的研究)_第1页
文本挖掘应用——高端车潜在用户的发现(基于线下线上数据的研究)_第2页
文本挖掘应用——高端车潜在用户的发现(基于线下线上数据的研究)_第3页
文本挖掘应用——高端车潜在用户的发现(基于线下线上数据的研究)_第4页
文本挖掘应用——高端车潜在用户的发现(基于线下线上数据的研究)_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 高端车潜在用户的发现 基于线下线上数据的研究PPT模板下载: 行业PPT模板: 节日PPT模板: PPT素材下载: PPT图表下载: 优秀PPT下载: PPT教程: Word教程: Excel教程: 资料下载: PPT课件下载: 范文下载: 试卷下载: 教案下载: 目录概述01理论基础02线下数据的研究0304线上数据的研究目录概述01理论基础02线下数据的研究0304线上数据的研究概述全文思路目录概述01理论基础02线下数据的研究0304线上数据的研究理论基础数据挖掘理论基础逻辑回归分析 逻辑回归用于估计某事物的可能性。 逻辑回归模型是一个定性响应变量(因变量Y)的预测模型。 逻辑模型中的

2、定性响应变量其实又是一个二值变量(binary)。 = (/ )=+ +理论基础决策树理论基础关联规则 支持度和信任度是两个最基本和最重要的衡量规则强弱的指标。X-Y的支持度:指的是集合T中包含XY事件的百分比,即P(XY)的估计。 如果支持度很小,那么就可以说该规则的发生并没有必然性。 X-Y的置信度:指X和Y同时发生的事件数量占所有X事件发生数量的百分比。即P(Y|X)的估计。 置信度决定了关联规则的可预测度。如果一条关联规则的置信度很低,那么从X就很难可靠地推出Y。目录概述01理论基础02线下数据的研究0304线上数据的研究线下数据的研究基于逻辑回归模型的研究返回返回理论假设 用户购买高

3、端车行为的影响因素: 购车方式 用户的性别 预期保险费用 预期装设费用 已有车品牌 收入情况线下数据的研究基于逻辑回归模型的研究理论假设 对影响用户购买高端车行为的因素提出的假设: H1:若用户曾经使用全款方式来购车,那么其购买高端车的概率会低; H2:男性用户相比于女性用户,其购买高端车的概率会高;H3:用户的预期保险费用越高,那么其购买高端车的概率越大;H4:用户的预期装设费用越高,那么其购买高端车的概率越大; H5:若用户已拥有宝马品牌的车,那么相比于没有车或没有宝马车的用户,其购买高端车的概率会高。 H6:若用户的收入越高,那么其购买高端车的概率会越高。 线下数据的研究基于逻辑回归模型

4、的研究数据准备1.数据来源“来自国内某汽车经销商后台的ERP系统,总数据量超过50万条线下数据的研究基于逻辑回归模型的研究数据准备2.数据预处理根据客户id、订单id、产品id等主键将上述5张表连接成一张总表(“宽表”)缺失值处理3.定义高端车用户本文将选择汽车的价格作为高端车的定义标准,高于60万元的汽车将被标注为高端车。(在“宽表”后面添加因变量字段“是否购买高端车”,取值为“是”和“否”)线下数据的研究基于逻辑回归模型的研究数据准备4.变量设置因变量Y为 “是否购买高端车”(对字符型变量进行哑变量的变换): “1”-“是”;“0”-“否” 。自变量X是“宽表”中的任意字段,比如客户性别、

5、年龄、购买意向、订单详情等。线下数据的研究基于逻辑回归模型的研究模型的构建与实证1.公式解释线下数据的研究基于逻辑回归模型的研究模型的构建与实证1.公式解释找出那些较大的影响因素以及其系数。通过反函数将得出用户购买高端车的概率P:线下数据的研究基于逻辑回归模型的研究模型的构建与实证2.模型结果逐步回归:每次都选择对因变量影响最显著的自变量进入模型,同时对所有已经被选择进入模型的变量进行逐一检查,将不显著的自变量剔除。线下数据的研究基于逻辑回归模型的研究模型的构建与实证2.模型结果-2.8818线下数据的研究基于逻辑回归模型的研究3.结果讨论C1:用户如果使用全款方式购车,那么其购买高端车的概率

6、将较小,如果使用分期付款方式购车,那么其购买高端车的概率会比较大。这个结论验证了假设H1。 C2:用户如果为男性,那么其购买高端车的概率会高一点。这个结论验证了假设H2。C3:用户预期保险费用越高,其购买高端车的概率越大。这个结论验证了假设H3。C4:用户预期装设费用越高,其购买高端车的概率越大。这个结论验证了假设H4。C5:用户如果已经拥有宝马系列的车,那么其再次购车会选择高端车的概率会较大。这个结论验证了假设H5。C6:用户收入水平最终没有被选入模型,所以无法验证假设H6。线下数据的研究基于决策树模型的研究数据准备1.数据来源:在Logistic回归模型中使用的数据是同一组数据2.数据预处

7、理(与Logistic回归模型中基本相同)第一,决策树模型不需要对字符型变量进行哑变量的变换。第二,决策树模型不需要对缺失值进行填充、删除等操作。线下数据的研究基于决策树模型的研究模型的构建与实证1.决策树停止生长问题的确定(两种方法)“错误率”指标法:即选择最低验证集错误率的时候,同时叶子节点最少时的叶子数量作为最终模型的叶子节点数量。同时参考了25%渗透率下的响应率。选择7个叶子作为决策树叶子节点数!线下数据的研究基于决策树模型的研究模型的构建与实证2.模型结果线下数据的研究基于决策树模型的研究规则解释与分析1.规则解释规则一:规则二:线下数据的研究基于决策树模型的研究1.规则解释规则三:

8、规则四:线下数据的研究基于决策树模型的研究规则分析1.引入负面规则来剔除低概率用户。R1: 当保险金额在3200与12000之间,且装饰金额小于5000,且保修金额小于48000的时候,该用户购买高端车的概率极低只有2%。 R2: 当用户使用贷款方式购车、且保险金额高于12000,且装饰金额小于5000,且保修金额小于48000的时候,该用户购买高端车的概率同样极低只有5%。线下数据的研究基于决策树模型的研究规则分析2.引入正面规则来选择高概率用户。R3:当保修金额大于48000,那么用户有93%的概率购买高端车。R4:当装饰金额大于38000,且保修金额小于48000,那么该用户可能购买高端

9、车的概率是80%。线下数据的研究逻辑回归模型与决策树模型的比较结果对比Logistic模型的结果选入了5个变量进入模型,按照他们对因变量影响程度从大到小排列如下:付款方式(是否全款)、性别(是否男性)、预期保险费用、预期装设费用、已有车品牌(是否已有宝马车)。决策树模型最终进入模型的变量有4个:保修金额、装设金额、保险金额、金融贷款还款期限,这4个自变量与Logistic模型中的5个自变量完全不同。 两个模型的结果不一样的根本原因是两个模型的原理不一样。线下数据的研究逻辑回归模型与决策树模型的比较响应率对比两个模型由于建模原理不同,对自变量的选择也不同,但是模型效果却相似。目录概述01理论基础

10、02线下数据的研究0304线上数据的研究线上数据的研究数据可视化研究数据准备1.数据来源 本文用以实证的线上数据均来自于汽车之家论坛。 28,708位用户 42,603的条对应关系 用爬虫程序获得的数据经过整理形成三张表线上数据的研究数据可视化研究数据准备2.数据预处理 根据用户ID、车辆ID等主键将上述表连接成一张综合表。 综合表的记录中不含缺失值,因此不需要考虑缺失值的处理。线上数据的研究数据可视化研究数据的初步分析与可视化1.以品牌为粒度的分析与可视化线上数据的研究数据可视化研究数据的初步分析与可视化1.以品牌为粒度的分析与可视化这8类关注率远高于当前车辆拥有率的车品牌中,大部分是高端车

11、品牌。 线上数据的研究数据可视化研究数据的初步分析与可视化2.以原产地为粒度的分析与可视化 无论是从目前的市场占有还是未来的发展潜力来看,中、德、日三国产的汽车在中国都是遥遥领先,德国车的未来发展势头强劲,有望取代国产车成为国内市场的龙头。 线上数据的研究基于汽车不同属性的关联规则分析描述性统计量1.数据来源:与可视化分析所用的数据一致(包含四个字段:拥有车原产地、关注车原产地、拥有车品牌、关注车品牌)。2.数据预处理:删除同一粒度下同一种类之间的数据(此类数据关联度很高,无研究意义)例如:关注宝马车与拥有宝马的关联度采集到的数据不含缺失值,因此不需要考虑缺失值的处理。线上数据的研究基于汽车不

12、同属性的关联规则分析描述性统计量3.最终获得的描述性统计量线上数据的研究基于汽车不同属性的关联规则分析对品牌属性进行关联规则发现(最小支持度为0.02,置信度为0.1, 提升为1,数据量为100,)1. 拥有品牌关注品牌大众汽车在国内广受欢迎,许多其他品牌的车主都有购买大众汽车的可能性。而大众车主则关注着奥迪、宝马。 线上数据的研究基于汽车不同属性的关联规则分析对品牌属性进行关联规则发现(最小支持度为0.001,置信度为0.1, 数据量为100)2. 关注品牌拥有品牌大众车主对各种车都感兴趣,并且更关注斯柯达、奥迪、奔驰、宝马等品牌。另外丰田车主更关注雷克萨斯,宝马车主关注保时捷。 线上数据的

13、研究基于汽车不同属性的关联规则分析对原产地属性进行关联则发现(最小支持度为0.02,置信度为0.1, 提升为1,数据量为100)1. 拥有产地关注产地德国车受到各种车主的普遍关注。除此之外,国产车车主对日本车有很高的关注度,日本车的潜在客户是国产车车主和德国车车主。 线上数据的研究基于线上数据研究的结果讨论基于品牌属性的结果A1:由已有车的品牌推导出关注车的品牌的规则; 应用A1规则,我们可以根据用户已拥有车的品牌来预测其关注某品牌高端车可能性,并判断其是否是该品牌高端车的潜在用户。A2:由关注车的品牌推导出已有车的品牌的规则; 应用A2规则,同样可以帮助汽车销售商进行高端用户发现。线上数据的研究基于线上数据研究的结果讨论A1规则的利用模型显示:大众车的品牌在最国内最受欢迎,大都数品牌的车主都关注着大众车,尤其是斯柯达的车主。启示:大众品牌的高端车的潜在高端用户分布于各个品牌的车主,尤其是斯柯达的车主购买大众品牌的高端车的可能性更大。A2规则的利用模型显示:多品牌车的粉丝中都有大众车主,尤其是斯柯达车和奥迪车更受大众车主的喜

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论