数据挖掘应用20个案例分析之电子商务网站中的商品推荐_第1页
数据挖掘应用20个案例分析之电子商务网站中的商品推荐_第2页
数据挖掘应用20个案例分析之电子商务网站中的商品推荐_第3页
数据挖掘应用20个案例分析之电子商务网站中的商品推荐_第4页
数据挖掘应用20个案例分析之电子商务网站中的商品推荐_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘技术及工程实践系列丛书之数据挖掘应用20个案例分析(V01. 00. 000)广州太术有限轴广州市经济技术开发区科学城232号 http:/, ww tipdm com 5iai200840068-40020510663(020) 85661483/85666585案例八电子商务网站中的商品推荐温鼻提示: 需支持,找广州太普技术: 耍建模,上数据挖掘在线'I'台: 自问题,找太普问库:wenku. tip dm. com 想兼职,找数据挖掘创业联盟:51& tipdm. com 寻合作(科技申报、高校教学、企业咨询),请联系:40068-40020当今的商业竟争

2、H趋激烈,获得一个新客戸的成本越來越禹,保持原刈顾客也就显得越 來越豆耍。营销实践表明:争取一个新X户的花费常常町以达到留住一个老客户花费的5到 10倍。客户忠诚是客户在较长的一段时间内,对企业产品或服务保持的选择偏好与币:复 性购买。忠诚的客户不仅会増加购买彊,而且往往会为企业介绍新客户。与传统的商务相比 较,电了商务的客户忠诚度更巫耍。影响客八忠诚度的因索非常多,何客户口身方面的原因,企业方面的原因,还仃客门和 企业以外的其他伙嗦如社会文化、国家政策等。但除了企业自身外,其他都属r不町控因索: 从这点出发,企业可以从自身寻找一下影响客户忠诚度的原因。比如某个客户的忠诚度卜降 是因为他常买的

3、某类商品的质杲出现问题或价格过高,导致该客户转向了企业的竞争对手. 对J这种情况,企业盂耍一种方法來对客户信息和营销数据的分析,找出哪些原因导致了客 户的忠诚度卜降,并IL针对这些原因采取洁施,挽回那些即将变为不忠诚的客户.数据挖掘 技术町以建立客八忠诚度分析模型,了解哪些因索对客八的忠诚度仃较人影响,从而采取相 W措施I对此某J:数据挖捌技术的客户忠诚度分析貝有咆婆的血用价值"电子商务网站实现了一个网匕超市,用户可以通过网站进行在线购物,实现电子商务方 便快捷的优势网站的整个操作流程如图所示。开始图2.39电子商务网站操作流程在电子商务系统中,忠诚度分析所需耍的客户信息和交易信息分

4、别心放在网站数据库的 客户表,订单表及订单明细表中。因此必须去除这些表中不需耍的信息(例如用户电话、传 真、身份证号码、联系方式之类的信息),抽取需要的信息。抽取信息时应注匝抽取能够反 映客户个人少份背景、学历等方而的信息以及反映比交易心理的相关信息.并将抽取出來的 数据整理成为能彼挖掘算法所利用的农格,放入数据仓库中。在计算客门忠诚度的时候,将 客门的忠诚度分为四个等级:0,忠诚;1,由忠诚变为不忠诚:2,由不忠诚变为忠诚:3, 不忠诚。如果客户本丿J的消费额比本月Z前半年内每月半均消费额减少达到50%以上.则忠 诚度等级降低一级;如果客户本月的消费额比本月之前半年内平均消费额增加达到20%

5、以 上,则忠诚度等级升鬲-级。最后生成的新表格如表2_56表2_56经抽取而成的客户信息表Loyalty客户编号|性别年龄教育|距最近一次月均购 已消费|忠诚度程度购买时间(天)买频率金额级别20120001男40大专 53.4801.6020120002女28本科 111.9246.31 .所得到的用戸数据很难做到完整全面,用户在注册时可能选择不填注册信息的儿项,造 成数据项空缺。对空缺的数据项,耍视情况排除或填入缺省值,例如对数值型数据来说 可以取平均值作为缺省值。抽取得到的表中数据的类熨和挖掘算法需耍的类熨不一定一致. 此时还需耍做一些转换工作。例如ID3分类算法備要离散的源数据;C4.

6、5等算法虽可宙程 序门动J找离散化方法,但是仃时数据门动分段的边界显得不够门然,不符介人们的般习 惯。这里山分析人员按照一般的统计划分经验來对屈性值进彳J:分段,实现离散化。卜我为离 散化变换后的结果如表2 57。表2.57经离散变换后的客户信息表Loyalty客户编号性别年龄教育程度距最近一次购买时间月均购买 频率已消费 金额忠诚度 级别20120001男3040大专. 0-102-4800-1000020120002女20-30本科. 10-200-20-5001 本案例采用棊J:信息论的ID3决策树分类算法进行客户忠诚度分析。该算法根据离散 属性集的集合來做出一系列判断将数据分类。它的输

7、入数据是己分好类的样本数据,输出一 棵代表分类规则的二叉树或多叉树。客门群细分是根据公共属性将客八划分成为同类群体的过程,细分的LI的是按照客门Z 何的密切关系或相似程度将玄户划分到爭先(2经沱义好的各个客户群中,为营销人M与空口 之间的交流提供了一个有效的平台,从而使得公司可次更好地识别不同的客户群体,区别对 待不同客户,采取不同的客户战略,达到最优化配置客户资源的H的。在客户群细分的犀础止,通过建立客户行为模熨.可以作为营销人员进行一对-营销的 依据。一对一的营销思想,耍求企业能够了解每个客户的爱好、需求,针对客户的个人特点 进行营销,和客戸建立起长久稳定的关系。长久以來,这一策略只能依靠

8、营销人员与用戸个 人保持联系而完成。辅助统计分析匸具只能了解客户群体宏观层次上表现出來的一些特性, 现在,某于数据挖掘匸R,可以把客户划分成更加细小的、比消费行为存在较大和似性的微 小群体。虽然,还不可能细化到表现每个人的全部个性的程度:而且由J:客户群体的宠大. 每个细分祥包括的客户数丨1事实上也相为可观,离-对一营销还很远。但是这样的细分,能 够衣现某些群体的消费行为共性,对企业制定营销策略己经八仃很人的指导意义。客户群细分变吊河以采用一般人II统计学变彊(如年龄、性别、收入、教育背景和职业 等),也可以采用客户的购买行为特征变磺(如客P购买駅、购买的产品类型结构和购买频 率等)。在本子系

9、统中,我们采用了后者。通过分析乔户的购买行为,我们使用数据挖掘技 术将11仃相似消费特征的顾客归为同一类。卅某顾客在购买商品时,网站可以利用挖掘结果 向该客户推荐他所在客户群的K他客户购买的商品例如:客户甲经常光顾网站购买录音带. 而客户乙经常光顾网站购买CD ,可见甲和乙对音像制品都很感兴趣,都是音乐爱好者。那 么通过客户群细分,可以认为甲和乙是同一类客八。当屮再次进入网站购物时,我们可以向 他推荐购买CO ,从而为客户提供个性化服务。绰户群细分町以使用分类或聚类來实现。区 别如前所述,分类需耍已经由营销人员分好类的样本,聚类则自主的対客户群体进行分类. 决策树等分类算法易J:理解,但受样本

10、划分准确度的影响:聚类算法有时也可以发现营销人 员没冇发现的一些事实。所以,在本案例中我们使用聚类算法进行客户群的细分。系统客户 群细分所盂耍的客门信息和交易信息与客门忠诚度分析人致相仿,分别存放在客户农、商品 类别衣、订单表以及订单明细农等多个农内。数据预处理过程主耍将这些表内反映客戸身份 背景、购买兴趣度等相关信息提取出來,并加以消理,除去噪声数据,对信息不完全的数据 填入缺省值或舍去,进行必耍的离散化变换。购买兴趣度信息是根据客户对齐个商品的购买 情况统计得出的,记录了客户对系统提供的49个商阳类别的购买兀 最终形成的表包金的 属性如表2_58所示。表2_58客户兴趣度表interest

11、_matrix客户编号性别年龄教育as类别1 购买童类别2 购买童 类别49 购买童20120001男30-40大专0176120120002女20-30木科2310 .然后对衣便用聚类算法进行挖抽。聚类算法分为卑J:划分的方仏、丛J:次的方法、基 密度的方法、基J:网格的方法、基模型的方法等儿人类,本案例中选择基J:划分的 K-Mcans 算法。客户群细分主耍是为卜面将介绍的商品推荐做准备的,它的结杲将被写入数据仓库的 user cluster和cluster info表中 user cluster表记录客户属哪个类,共有2个字 段,分别为客户编号和类编号。cluster info表记录每一

12、个客户类别中所有顾客的商品购 买统计信息,共有3个字段,分别为类编号,商胡编号和购买最。商品推荐是电子商务网站用來向访问网站的顾客提供商品信息和建议,并模拟销供人员 帮助顾客完成购买过程。它是利用数据挖掘技术在电子商务网站中来帮助顾客访问右兴趣的 产品信息。推荐可以足根据梵他客户的信息或是此客户的信息,参照该顾*以往的购买彳为 预测未來的购买彳J:为,帮助用户从庞人的商品I录中挑选真正适介门己盂耍的商品。推荐技 术在帮助了客八的同时也提高了顾客对网站的满意度,换來对商务网站的进-步支持。商品推荐的主耍任务是回答这样一个问题:当前访问网站的这位客户报町能想耍的是哪 些商品?对推荐任务的实现,首先

13、耍求结果的准确性,总是向客户推荐其不想耍的商胡只 会导致客户不满而转向貝:他网站:其次推荐的商品应尽可能多地覆盖用户实际喜欢的范閑.以最兴限度地提高推荐效果。另外,与客户的实时交耳也对算法的效率提出J'较高的耍求: 仃许多方法可以实现推荐任务。最简单的就是以編辑推荐或专家推荐的形式,比如定期推出 的专题,汇集-系列阳绕某主题的商品目录,这些LI录都是由编辑手工编写的。一些简单的 统计数据也可以作为推荐的手段,如销侶排行榜,放在网页的醍日位賈,对J噺的來访者相 当令效。另一些推荐方式则较为复杂,大部分匸作需箜计算机来完成。通常前者被称为“人 匸式推荐系统”,而厉者称为“自动式推荐系统”。

14、要貞正地实现针对每一个客户的个性化 服并必须借助动式推荐系统,它可以充分考虑每位客户的特点,在与用户的实时交互过 程屮动态地产生推荐结果。但两者并不相互排斥,实际的系统经常会综介多种推荐方法,互 补长短。我们为“易购365 ”设计了结合多种方法的商品推荐方案:首先,利用统计方法在网 站的首页醍忖位置列出销竹杲处J:前10名的热销商貼,为访问若和新注册的用户提供最普 通的推荐服务:比次,对J:已注册并冇购买纪录的顾客,为他住录网站的时候,将亨受到级 别更高的推荐服务。该推荐分为两部分:利用客户群细分的结果,将同一个类中其他用户购 买加多的X个商品或与这些商品同类的新商品推荐给顾客:利川数据挖掘屮

15、的关联规则技 术,列出日标*戸最感兴趣的N个商品的推荐列表。相比以往的商品推荐,这样的方案既 弥补了系统无法为新客户提供有效推荐服务的缺点,同时也弥补了未获得足够销倂最的新商 胡不易被推荐出去的缺陷,有效地提高了对客户的推荐将度。比较常用的与推荐相关的数据挖掘技术冇关联规则、贝叶斯网络技术、聚类技术和报邻 近技术等。本系统采用的是关联规则中效率较高的FP-Growth算法來得到满足虽小支持度 和豐信度要求的关联规则。ll 1 Han Ji awe i等人提出的FP-Growth算法,没有采用Apr iori 法的框架,而是釆取了分而治Z的策略:在经过了第一次扫描Z后,把数据库中的频繁集压 缩进一棵频繁模式树(FP-trcc),同时依然保留其中的关联信息。随后再将FP-trcc分化 成一些条件库,每个库和一个长度为1的频繁集相关。然后再对这些条件库分别进行挖掘 当原始数据库很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。在网站的商品推荐中,关联规则部分所需要的客户交易数据分别存放在网站数据库的订 单表和订单明细表中。表中我们关心的只有订单编号、商品编号等少数几个属性。我们根据 订单号到订单明细表中去寻找一次交易购买商品的編号,对J:空缺的值将其排除。仿真过稲本案例采用TipDM数据挖掘在线建模平台(: www. tipdm. com. cn

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论