商务数据分析课件:商业应用_第1页
商务数据分析课件:商业应用_第2页
商务数据分析课件:商业应用_第3页
商务数据分析课件:商业应用_第4页
商务数据分析课件:商业应用_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

预测模型应用第一节购买预测1.问题描述大部分的汽车企业都积累了大量的顾客信息,建立了客户关系营销系统,可以对拥有的数据做整合分析和深层挖掘。汽车企业可通过对顾客的自然属性、社交习惯、网络搜索内容等多维度的数据,利用大数据技术,进行建模分析,挖掘顾客的消费规律,预测客户的购买行为,进而实现精准营销。本案例主要考虑了顾客的人口属性特征和家庭特征(性别、年龄、婚姻状况、是否有子女等)以及顾客的APP使用数据,通过机器学习的方法来预测具有不同特征的顾客的购买意愿。购买意愿预测,为销售商通过深度挖掘客户行为特征进而预测顾客的购物决定提供了新的思路和方法。2.数据理解(1)数据来源本案例中使用的数据集来源于某公司。主要包括顾客的个人信息数据、家庭属性数据、APP使用偏好数据和汽车偏好数据。(2)数据描述本案例的数据集可以被分成四个部分:消费者的个人数据包括:性别、年龄、职业、居住城市、信息获取渠道、兴趣爱好;消费者的家庭数据包括:婚姻状况和是否有子女;APP使用偏好数据记录了消费者对各类APP的使用行为;消费者的汽车偏好数据指的是客户对特定车型中的偏好,直接反映在消费者是否会购买某款车型。在数据集中,将手机号码作为数据样本中每个消费者的唯一标识。在本案例中,预测目标就是消费者是否会购买某一个特定厂商特定车型,因此,本案例涉及的消费者购买意图预测将会被转换为二元分类问题。3.数据预处理(1)数据清洗和筛选在对数据特征进行分析前,先要对数据进行清洗过滤。(I)删除存在异常值的记录:比如,当本人年龄-孩子年龄<男方22周岁(女方20周岁),则判定当前样本为存在异常值的记录,应当删除。(II)删除空缺值较为严重的属性:比如,某种APP使用的顾客人数过少,顾客在这个属性上的取值绝大部分都是空,说明此属性的存在影响了建模的效率,而且对于模型建立并不能提供充分的信息,应该被删除。(III)删除使用次数过小的顾客记录。(2)数据转换本案例所用数据集中大部分的顾客特征均为分类特征,所有的分类特征需要进行“one-hot”的编码转换处理。4.模型建立本案例将80%的数据样本用做训练集,将剩下20%的数据集用做测试集使用10折交叉验证法(10-foldcross-validation)来确保算法的有效性。为了达到更好的预测效果,采用支持向量机模型和随机森林模型和深度学习模型这三种算法进行建模。本案例使用的数据集随机分成10份,以减少预测模型过度拟合的可能性。5.模型评价为了评估本案例提出的消费者汽车购买预测模型的性能,本案例利用正确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1得分指标衡量提出模型的性能。通过对三种模型的参数调整,分别得到三种模型的最好的表现结果。结果见下表。本案例中在所有的评价标准上支持向量机模型(SVM)都优于随机森林模型(RF)。这说明随机森林模型具有更强的识别消费者汽车购买意向的能力。6.案例小结从汽车行业出发,主要针对顾客购买汽车的决策和行为进行研究,旨在提出一种创新的算法和框架,能较为精准的预测顾客购车的决策,为汽车销售商制定长期战略、降低营销成本提供一定的指导和借鉴作用。本案例主要搭建了一个“基于机器学习和深度学习的汽车购买意向预测模型”,通过在真实数据集上的实验,利用顾客的个人特征、家庭特征和APP使用特征通过机器学习的方法来预测消费者是是否做出购买决策,并挑选出表现最优的模型。实验显示随机森林模型相对于支持向量机模型有更好的表现。第二节流失预测1.问题描述新的产品和销售方式层出不穷,人们倾向于选择更优质的或者新鲜的食物。但是对于企业来说,留住顾客变得越来越难,客户流失已经成为他们面临的一个重要问题和挑战。本案例聚焦于银行业顾客流失现象,建立了三类模型预测客户流失。2.数据理解(1)数据来源本案例所使用的数据集来源于一家大型中资银行的真实客户数据。本案例的数据集包括由27个特征描述的超过20,000个客户的记录。(2)数据描述在本案例中,从银行的数据仓库中提取的数据集主要可以分为三类:顾客基本信息,帐户级别信息和客户行为信息。3.数据预处理数据集进行清洗和筛选。考虑到数据原始样本规模较大,对存在问题的数据记录采用了删除方式进行处理:(1)删除与流失预测无关的特征,例如身份证号码。(2)删除缺失值超过30%的特征。经过上述预处理,最后剩下15个特征。顾客基本信息包括年龄,教育程度,可支配收入的大小,就业类型,婚姻状况,家庭人数和服务等级;帐户级别类别包括帐户类型,担保类型,贷款期限,贷款数据和贷款金额;客户行为类别包括帐户状态,信用状态以及协议条款被破坏的次数。本案例以账户状态判断客户是否流失。4.模型建立经过预处理,共有1524个样本,其中50%用做训练集,50%做测试集。在此基础上,使用决策树模型、SVM模型和神经网络模型来预测用户是否会流失。与前面的购买决策预测相类似,这也是一个二分类问题。5.模型评价在本案例中使用准确率来评估不同算法的表现,支持向量机模型(SVM)、BP神经网络(BPNN)、决策树模型(DT)这三种算法预测用户流失的实验结果见下表。结果表明,SVM的正确率和精确度最高,其次是ANN,而DT的两个指标最低。6.案例小结本案例从金融行业出发,主要针对银行用户流失进行预测,基于客户个人特征信息、行为信息以及账户信息,应用机器学习算法来进行预测。结果显示在三种算法中,SVM取得效果最好。本研究不仅限于银行业,流失问题也是其他行业非常关注的问题。第三节销量预测销量预测是商家经营中的一个重要决策依据。为了更准确地预测出每个商品的销售数量,商品评论是一个重要的因素。商品评论反应的是商品在消费者中的口碑,显然,某个商品在某段时间的好口碑是有助其销售额增长的有利因素,因为评论能够起到降低潜在消费者对商品的感知风险,鼓励其进行购买的作用。但商品的评论中除了评分数据外,还有大量评论文本数据,如何才能从文本数据中挖掘出有效的信息?如何将这些信息融合上到商品销量的预测中去?这是本案例所需要解决的重要问题。2.数据理解(1)数据来源本案例实验数据是某电商平台的图书数据。(2)数据描述本案例实验选取的是商城中图书频道的商品及商品评论。数据集主要包括两部分,一部分是传统的数值型指标,包括(I)历史销售量,历史销售量是销量预测的重要指标。(II)价格变动,价格是影响人们购买的重要因素。(III)促销活动,分析研究期间商家有没有举办促销活动。另一部分是评论的文本数据。3.数据预处理:数据清洗(1)数据过滤在构建模型前,本案例先对数据进行了过滤、删除。(I)确认数据中是否存在数据错误、缺失等问题,例如销售额不能为负值。(II)对销售数据中出现的异常销售额进行识别。(2)文本数据预处理(I)用户的评论中存在广告等与商品无关的信息,需要删除。(II)对句子进行分词、删除停用词、标注词性,只保留名词、形容词、副词和动词等处理。4.数据预处理:特征工程(1)销量特征构建基于已有的数据,我们可以获得每本图书每天的日销售数据,为了预测每本图书在第x天的销售数据,使用从x-7到x-1天的日销售数据构成一个长度为7的向量,作为近期销售数据。定义价格变动特征和促销活动特征的取值。(2)文本特征构建使用LDA模型,得到每个评论的主题分布,即每篇评论的内容倾向。5.模型建立(1)训练集与测试集训练集合文本数据是提前两个月的产品评论,即如果预测5月1日的销量,使用评论的发布日期是2月1号到4月30日,而当预测5月2日时,需要重新训练LDA获得主题分布数据。(2)使用神经网络进行拟合案例利用神经网络进行预测,为了验证提出的预测方法的有效性与准确性,仅使用前一周的销售量、价格变动和是否有促销活动作为输入的BPNN拟合结果作为基准模型,通过对比说明文本数据在销量预测中发挥的作用。6.模型评价(1)评估标准本案例使用平均绝对百分比误差MAPE作为评估模型效果的依据。(2)模型表现在使用LDA模型获取文本主题数据时,在得到训练集和测试集中的主题及其分布之后,输入BPNN进行训练和测试。右上图展示了预测结果。将文本主题个数逐渐从2增加到5,右下图显示了不同主题个数下预测结果的MAPE值。我们可以看到有两个主题分布的输入可以得到更准确的预测结果。6.模型评价(2)模型表现为了进一步比较不同主题个数下,加入文本因素后带来的预测效果的变化,使用2、3、4和5个主题分布结合相应的前一天销售量进行预测,和基本的BPNN比较,结果如右图所示。可以看出,有两个主题分布输入的模型具有更低的MAPE,这表明,所提出的结合评论进行销量预测的方法可以带来更准确的预测效果。7.案例小结商品下的评论能够帮助我们更准确地预测销量。通过该案例的数据建模过程和建模结果,可以分析出两条对企业运营有价值的信息:第一,评论数据对销量有所影响,说明企业在运营的过程中要注重消费者的购买体验,不能为了追求利润空间而牺牲消费者对商家的信任,在保证商品质量的前提下,同时也可以采用鼓励消费者写有质量有内容的评论来营造好的评论氛围,提升商家口碑;第二,为了提高预测销量的准确程度,可以通过引入除销量以外其他一切对销售可能产生影响的因素,尝试在模型中增加变量,使用神经网络来拟合输入和输出之间复杂的非线性关系,提高预测的效率。分类模型应用第一节客户细分1.问题描述客户成为保险公司的重要资产,开发一个新客户比维护旧客户的成本要高得多。因此,保险公司需要对客户的信息进行统计挖掘分析,来更深入的认识和评判客户。通过对客户的分析实现公司和客户之间的双赢。客户细分指的是根据客户的特征信息将客户划分成不同的群体,从而公司可以对不同类别的客户做出不同的决策来促进购买和提高忠诚度。本案例在客户价值理论的基础上,首先利用客户的基本特征(性别、出生日期、地区等)、车辆特征(使用年限、座位数、行驶区域、行驶里程等)、客户行为特征和保险信息特征通过聚类将客户分为四个类别,再利用分类模型来验证客户细分模型,分析客户个人信息和车辆信息等因素对分类结果的影响程度。2.数据理解(1)数据来源本案例数据来自一家车辆保险公司,数据主要是客户购买车险的相关记录。(2)数据描述本案例从企业数据库中提取了以下属性,用于数据挖掘分析:(I)客户人口统计特征:客户编码,客户中文名称,性别,出生日期,地区,健康状况,客户类型。(II)客户车辆特征:保单号码,行驶区域,行驶里程,使用年限,车型代码,厂牌型号名称,国别性质,使用性质代码,座位数,吨位数、排量,车身颜色代码,固定停放地点,新车重置价格,实际价值,是否二手车,二手车交易价格。(III)客户行为特征:保单号码,险类代码,险种代码,投保单号码,投保人代码,投保人名称,被保险人名称,总保险金额,总保险费,理赔次数。(IV)保险信息特征:保单号码,险种代码,序号,险别代码,险别名称,标的序号,标的项目类别代码,标的项目明细名称,起保日期,终保日期。3.数据预处理(1)数据集成将分属于不同数据表中的数据进行集成,依据各类编码,将所需要的信息汇总到一个表上。(2)数据清洗对集成后的数据进行数据缺失值、异常值的处理。具体操作如下:(I)删除严重缺失信息的特征;(II)删除严重缺失的记录;(III)删除存在异常值属性的记录;(IV)填充空白未知类属性。3.数据预处理(3)数据转换、离散和标准化处理结合样本集的特点,采用以下方式对数据进行处理。(I)数据转换属性理赔次数转换为理赔得分,理赔得分越高,理赔次数越少,客户的潜在价值越高。添加新的属性(折旧率),将属性实际价值删除,用新车购置价格和折旧率两个属性来表示车辆的价值。(II)离散化属性如车辆使用年限、座位数和排量有现实含义,可以根据车辆管理部门的规定对连续型数据进行划分。属性如年龄、使用年限,可以通过等宽或等频方式实现离散化。

(III)标准化利用标准化操作,将保险费映射到[0,9]区间上。4.模型建立案例选取了客户的总保险费和理赔得分两个变量代表客户的当前价值和潜在价值,以此聚类得到客户的分类特征。总保险费是代表了客户提供给保险公司的营业收入,缴纳的保险费越多,保险公司的收入越高,因此保险费高的客户具有较高的当前价值。理赔得分越高代表理赔次数越低,则表明可以继续发展该客户,即该客户的潜在价值越高。因此本案例先利用理赔得分和总保险费两个属性用来聚类,将客户分为客户价值理论中的四种类别,再建立分类模型通过客户和车辆的基本信息来判断客户的类别。4.模型建立(1)聚类模型基于选择KMeans方法将客户聚类为4种。四类客户具备如下特点:I类客户当前价值和增值潜力都很低;II类客户价值不高,但具有很大的增值潜力;III类客户具有很高的当前价值和低的增值潜力;IV类客户既有很高的当前价值也有很大的增值潜力。聚类结果表明:II类用户的数量是最多的,说明当前的保险公司的用户出险的概率的较小,同时保险的费用也比较少,即目前该保险公司的客户更多是比较小心谨慎、少出险的客户。4.模型建立(2)分类模型案例以K-means聚类的结果作为客户分类结果,进一步研究影响分类的因素。实验使用神经网络作为主要分类方法,并用逻辑回归、决策树和支持向量机作为参照。由于数据是不平衡数据,因此还采用一些算法对不平衡数据进行处理,具体采用了代价敏感函数、过采样、欠采样、Bagging集成和Boosting集成五种方法。5.模型评价案例通过精确度(Accuracy)、F值(F-value)、召回率(Recall)、准确率(Precision)和AUC来评估模型性能。从分类的整体准确度来看,神经网络的分类准确率达到70%以上,并且优于其他算法;使用了不平衡数据的处理后,代价敏感函数和集成方法取得了较好的提升,而过采样和欠采样的处理对分类结果并无正面影响。6.案例小结本案例将某保险公司的客户按照客户价值理论进行细分,选择客户的总保险费和理赔得分两个变量分别代表客户的当前价值和潜在价值,以此聚类得到客户的分类特征,最后利用分类算法构建新客户的分类模型。由实验过程及结果对比分析可以得出以下结论:首先,保险客户根据保费和理赔次数可以明显地分为四类,符合客户价值矩阵理论,最有价值一类客户,即保费高、理赔少的客户只占到所有客户的1%,大部分占到70%以上的客户都是保费较少的普通客户。其次,使用客户信息和车辆信息对客户进行分类预测,得到了较好的结果。神经网络算法能基本完成分类任务,同时,不平衡处理方法中的代价敏感函数和集成方法能够明显提升分类的准确性。推荐系统应用第一节商品推荐1.问题描述推荐系统在如今的数据爆炸的时代为消费者提供了更加快速找到自己需求的渠道。电影推荐是推荐系统的一种常见的应用,它根据用户的喜好、用户看过的电影为用户提供有用的电影建议。推荐的原理简单来说是为用户找到兴趣相投、拥有共同经验的群体,然后依据这个群体的喜好来推荐用户感兴趣的电影。观影后通常用户会给予电影一定程度的回应,例如评分,显然评分代表了用户对某类型、某电影的喜好程度。本案例通过用户对已看过电影的评分来衡量用户之间和电影之间的相似性,进而实现对用户的个性化推荐。2.数据理解(1)数据来源本次案例所需的数据来源于一个关于电影评分的数据集,里面包含了用户对电影的评分信息。(2)数据描述数据集中有943名用户对1682部电影的100000条评分记录,平均每名用户有106条评价,每部电影有59条评分记录。每一条记录表示一个用户对于一部电影的评分。数据共包括4个字段分别是:userId是用户idmovieId是电影idrating是某个用户对某部电影的评分,是1-5之间的整数,其中5分是满分代表非常喜欢,分数越低表示用户对电影的喜欢程度越低。timestamp表示自1970年1月1日零点后到用户提交评价的时间之间的秒数。3.模型建立(1)训练集与测试集本案例将数据集拆分,选择80%的数据作为训练集,剩余20%作为测试集。(2)协同过滤模型(CollaborativeFilteringRecommendation)基本思想是基于已有用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论