数据挖掘技术对电子商务平台的作用.doc_第1页
数据挖掘技术对电子商务平台的作用.doc_第2页
数据挖掘技术对电子商务平台的作用.doc_第3页
数据挖掘技术对电子商务平台的作用.doc_第4页
数据挖掘技术对电子商务平台的作用.doc_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术对电子商务平台的作用以京东为例的数据挖掘应用分析作者:史俊禺班级:12计1指导老师:郑琪完成时间:2015.1.3 第一章 绪论1.1背景资料分析31.2数据挖掘应用对电子商务领域的意义41.3数据挖掘过程41.4数据挖掘主要方法51.5数据挖掘系统体系结构71.6数据挖掘在电子商务中的应用流程8第二章 以京东为例的数据挖掘应用分析2.1数据挖掘在电子商务中的应用分析客户获得9 2.11客户获得的定义9 2.12数据挖掘可以对客户获得产生的作用9 2.13客户获得的步骤92.2数据挖掘在电子商务中的应用分析客户流失预测112.21客户细分的定义112.22客户流失预测步骤132.3数据挖掘在电子商务中的应用分析客户消费特征142.31 客户消费特征定义及背景142.32 京东建立客户消费特征的过程142.33 RSS技术在电子商务平台的应用162.34 建立客户消费特征之后可应用的数据模块17 结语18摘要: 在电子商务平台日益发展的今天,数据分析作为一种科学的手段,可以起到规范市场、节约成本、保护在线交易安全,而数据挖掘这门技术可以从大量繁杂数据中提取有用的信息,并发现特定的规律,为商家对客户的需求信息和行为预测提供可能性。本篇报告是作者在对数据挖掘课本学习的前提下,以京东商城为例,从互联网上搜集各类数据并进行分析,从客户获得、客户流失预测、客户消费特征这三个方面进行分析,最后归纳出数据挖掘在电子商务应用上的必然性和重要性。第1章 绪论1.1 背景资料分析电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动。电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润。数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database, KDD),是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘涉及的科学领域和方法很多,其核心技术经历了数十年的发展其中包括统计,近邻,聚类,决策树,神经网络和规则等1.2数据挖掘应用对电子商务领域的意义数据挖掘有助于发现电子商务业务发展的趋势,帮助电子商务企业做出正确的决策,使企业处于更有利的竞争位置。商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。数据挖掘有助于客户关系管理,特别是对电子商务客户关系管理起着决定性的作用。数据挖掘主要是找寻隐藏在数据中的信息,例如发现趋势、特征及相关性的过程,也就是从数据中发掘出信息或知识。以此对客户需求进行深入分析以满足企业对个体细分市场的客户关系管理需求。从发现客户到客户分类再到客户管理,数据挖掘通过各种针对性技术为企业客户关系管理提供了强有力的保证。将数据挖掘技术应用于客户关系管理,能够帮助企业深入理解客户,得到更加准确的客户模型,从而改进营销决策和客户服务。 数据挖掘可以促进电子商务平台的发展,加强企业电子商务平台应用的普及度。采用数据挖掘技术将电子商务中丰富的数据源信息进行有效组织利用对电子商务的具有巨大的应用价值。同时数据挖掘对于电子商务平台信息的挖掘分析可以帮助检验电子商务平台的性能,促进电子商务平台的智能化,帮助企业打造更具可操作性及吸引力的消费平台,为消费者提供更便利的消费环境。数据挖掘有利于企业资源优化,合理分配资源以实现资源价值最大化。数据挖掘进行有效的统计分析挖掘,可以指导营销的组织和分配,让企业在市场竞争中处于有利位置抢占先机。通过数据挖掘可以发现消费者的消费特性,从而帮助制定个性化服务,极大地吸引顾客,既避免资源浪费,又为企业带来巨大的价值。1.3 数据挖掘过程 挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式分析。 A.数据预处理实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。 B.模式发现模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。 C.模式分析模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。 1.4 数据挖掘主要方法a.数据统计方法使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。例如,可由训练数据建立一个 Bayesian 网,然后,根据该网的一些参数及联系权重提取出相关的知识。b.关联规则方法 关联规则是描述数据之间存在关系的规则, 形式为“A1 A2 An B1 B2 Bn”。一般分为两个步骤: 第一步, 求出大数据项集。第二步, 用大数据项集产生关联规则数据库一组。运用关联规则的数据项往往存在某种潜在关联关系的规则。一找出所有类似的关联规则,对于企业确定生产销售、产品分类设计、市场分析等多方面是有价值的。c.人工神经网络方法人工神经网络是由大量的简单神经元,通过极其丰富和完善的连接而构成的自适应非线性动态系统,并具有分布存储、联想记忆、大规模并行处理、自组织、自学习、自适应等功能。人工神经网络是一种有效地预测模型,在聚类分析、奇异点分析、特征提取中可以得到。通过模拟人的神经元功能, 经过输入层、隐藏层、输出层等, 对数据进行调整、计算, 最后得到结果, 用于分类和回归。d.决策树方法决策树算法是目前应用最广泛的归纳推理算法之一,是一种逼近离散值函数的方法。它是以实例为基础的归纳学习算法, 通常用来形成分类器和预测模型,着眼于从一组无次序、无规则的事例中推理出决策树表示形成的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,最后在决策树的叶结点得到结论。因此从根到叶结点的一条路径就对应着一条合取规则,而整棵决策树就对应着一组析取表达式规则。决策树可能是现在最流行的有指导数据挖掘结构。e.聚类方法聚类分析是对群体及成员进行分类的递归过程。一个簇是一组数据对象的集合,在同一簇的对象彼此类似,而不同簇中的对象彼此相异。将一组物理或抽象对象分组成为由类似对象组成的多个簇的过程被称为聚类。聚类是将数据对象分组成为多个类或簇,在同一个簇中的对象具有较高的相似度,而不同簇中的对象差别较大。f.可视化技术数据与结果被转化和表达成可视化形式,如图形、图像等,使用户对数据的剖析更清楚。1.5数据挖掘系统体系结构(见下图) 1.6 数据挖掘在电子商务中的应用流程(见下图)第2章 以京东为例的数据挖掘应用分析2.1 数据挖掘在电子商务中的应用分析客户获得2.11客户获得的定义客户获得是指企业在吸引潜在客户转变为实际购买者这一过程中所运用的策略和方法。客户获得的最佳值取决于企业保留客户的能力、客户重复购买的频次以及与保留客户相比获得客户的相对机遇。2.12 数据挖掘可以对客户获得产生的作用由于现代线上交易的特点,即:客户数量庞大,需求多种多样,特征分类较多,用传统方式如问卷调查等已经不能全面科学的对客户获得产生作用,而利用数据挖掘可以根据客户的市场活动数据,在一定时间内分析其历史数据,总结出一个预测模型,从而可以针对不同的客户、不同的需求提供个性化服务信息,如广告投放、喜好预测等,来锁定重点客户,其中典型的方法有统计方法的贝叶斯分类、机器学习的判定树归纳分类、神经网络的后向传播分类等。2.13 客户获得的步骤1. 建立关系阶段。是卖方确立客户,买卖双方建立互信的阶段,买方对你的产品和服务并没有真正的使用经验。这个阶段是客户营销中最为关键的,也是需要消耗最多资源的。以京东为例:截止今年4月份,京东商城已经有4千万注册用户,2014年3、4月份订单量达到每月40万。【数据来源:驱动之家 /1/225/225167.htm】 建立关系的方法如增加广告投入、seo优化、优惠信息提示等2. 稳定关系阶段。与客户关系进入稳定期以后,工作重点和关键就发生了转移,这个时候工作重点应该放在防止意外情况发生和积极进行危机管理。进入稳定阶段以后,沟通在客户管理中起着非常重要的作用。3. 加强关系阶段。随着买卖双方信任和了解的加固,卖方应该对自己满足客户的能力进一步地加强和要求,应该更加深入分析客户的需求潜力。这也是增加销售内容和加固关系的最佳时期。在加强阶段要和客户建立一个互利互惠的关系。以京东为例:注:图片来源客户客户关系的建立与维护(第3版) 同时,京东还建立了积分制度,由购买商品和评价商品获得,此处不再赘述规则。优点:层次清晰,关键客户明确,会员制度提高客户忠诚度,积分制度的补充很充分。缺点:等级划分过多,会员的优惠有水分无法刺激客户的升级欲望,等级升级制度如五钻过于苛刻2.2 数据挖掘在电子商务中的应用分析客户流失预测 2.21 客户流失定义及背景 由于企业各种营销手段的实施而导致客户和企业中止合作的现象就是客户流失而在互联网购物高度发展的今天,流失率不再是购物平台生存的决定性因素,而如何使用独特的销售手段和对客户购买行为的分析以及访问量和站内搜索量保持并增加客户数量成为各大购物平台竞争的主要目标。传统的客户流失预测采用时间阈值法和RFM法,但效果不佳,自1994年David C Schmittlein等人提出的SMC模型,可以科学的预测客户流失问题,这是首个真正意义上的客户行为预测模型。而在数据挖掘技术中对客户行为的预测,多采用回归分析、决策树和神经网络。近两年,SVM,贝叶斯网络,粗糙集等也被用于客户流失预测建模。本段着重介绍最常规的两种方法:决策树和贝叶斯分类。决策树 决策树是一种流行的分类算法,具有学习快速块、分类准确率高、分类结果表现直观等特点。决策树的构造包括两个阶段:通过训练集生成决策树;对生成的决策树进行剪枝。应用决策树对新样本进行分类时,从树根节点开始对样本进行测试,根据测试结果确定下一个节点,直至到达也节点,叶节点所属类别就是新节点的预测类别。决策树算法有ID3,C4.5,C5.0,CART等。由于基于C4.5算法的决策树有良好的性能并且能够自动产生分类规则,应用C4.5算法对保险客户基本信息进行了分类,分析出了客户流失的特征,通过此模型,保险公司提高了客户挽留率。Kitayama通过基于决策树的方法对客户档案进行了分类,首先把客户群体划分为首选客户(Preferredcustomers)和一般客户,首选客户指那些对公司最有价值的客户,接着应用决策树根据客户特征分类,识别高价值客户,以达到挽留高价值客户的目的。为了克服决策树固有的缺点,提高客户流失预测模型的精确度和可解释性,结合了ADTree模型与Logistic回归方程的优点,提出了TreeLogit模型。贝叶斯分类法 贝叶斯分类是一种典型的统计学分类方法,用于预测样本属于特定类的概率,主要分为朴素贝叶斯(NaveBayes)分类和贝叶斯网络(Bayesnetwork)。朴素贝叶斯是机器学习中常用的概率统计方法,基本思想是基于概率论的贝叶斯公式和简化假设,根据属性和类别的联合概率来估计新样本的基本类别。应用朴素贝叶斯提的前提条件是类条件独立,而贝叶斯网络则用于非独立的联合条件的概率分布,训练后的贝叶斯网络可以用于分类。客户流失预测技术的对比研究表明,朴素贝叶斯的预测效果可以与决策树和神经网络相媲美。首先对引起电商客户流失的客户心理、服务质量等因素进行分析,确定先验知识,根据先验知识选取特征和训练样本,通过贝叶斯网络的结构学习和参数学习,建立客户流失模型,通过实验证明了贝叶斯网络是分析客户流失等不确定性问题的有效工具。 2.22 客户流失预测步骤以京东为例的电商平台统计并预测客户流失量时,需要使用的数据属性太过复杂,所以一般情况下专业人员首先需要对数据进行采集,来源即是客户的搜索信息、购买信息、基本资料,客服回执等。在京东客户的历史行为中,隐含了大量与流失相关的行为模式,数据必须围绕市场分析得到的与相关的信息来组建。专业人员从数据库中抽取基本客户群、客户的缴费资料、客户基本资料、客户投诉资料、客户帐单、客户消费习惯等信息形成信息表,然后根据用户号和帐务年月进行连接,即为原始数据。同时在原始数据的基础上,根据业务专家的意见,进一步衍生有可能与流失相关的属性。在一般的流失预测中,多采用分类建模和聚类建模的方法进行数据的归纳和模型的优化。建立分类预测模型2.3 数据挖掘在电子商务中的应用分析客户消费特征 2.31 客户消费特征定义及背景一定的客户群体在某一消费行为上有相似性或可聚性,便由单独的消费行为变为一种群体消费特征。从电子商务应用的角度讲,数据挖掘技术可以提取客户消费特征,并以数据研究为前提对客户的消费行为分析,得出客户的消费习惯、消费能力、心理特征,从而对客户进行分群,做到精准广告投放、vip客户重点关注等。 2.32 京东建立客户消费特征的过程 首先进行数据收集:网络日志数据(访问数据)、用户行为数据(收藏、购买、浏览等)、网站交易数据。 初步建立用户画像,如图(数据来源:199IT网站/archives/281800.html)行为建模方法有文本挖掘、自然语言处理。机器学习、贝叶斯算法、聚类算法等。 根据数据建模进行用户分群,界定不同消费特征的人群,如图(数据来源:199IT网站 /archives/281800.html) 2.33 RSS技术在电子商务平台的应用 经过对客户消费特征的分析之后。京东网等电商平台就可以运用最新的RSS技术构建个性化服务。RSS的英文全称是“RichSiteSu-mmary”(丰富站点摘要)或者是RDFSiteSummary”(RDF站点摘要)。京东可以根据客户的喜好建立不同格式的频道,由客户根据自己的需求定制频道。客户根据自己的需求对接收的所有频道进行定制,挑选出对自己有用的频道。定制完成后,当客户再次进入该网站时就会只显示其定制的频道。通过定制,客户就拥有一个完全属于自己的个性化网站。RSS具有及时、全面、有序、高效等特点,能及时传递客户需要的最新信息;全面报道客户感兴趣的网站内容;能够按照内容的重要性进行排序,并且将最新和最重要的内容置于顶端;客户可以根据自己的兴趣对商品进行定制,并且能够随时掌握最新的标价等信息。打开京东的首页,可以发现几乎所有种类的商品都已打包成相应的“RSS频道”,向客户的个人主页定期发送。通过RSS这个新渠道,京东有新商品上市、新促销信息时,都能快速地将这些信息传送给其客户,不仅给客户提供了方便,而且大大提高了这些信息的普及率、针对性和实效性。 2.34 建立客户消费特征之后可应用的数据模块 问题分析模块:分析客户信息,根据客户特点将用户进行分类,实现客户信息库记录的建立、更新及客户信息的获取。同时还为客户兴趣模型的建立提供客户基本信息。1. 用户接口模块:客户和系统进行交互的接口,其可以接受客户注册及其请求信息、反馈信息,在这个过程中可以学习并记录客户的兴趣和习惯。同时,该模块还负责将最终结果输出给对应客户及获取本地客户信息库的内容。2. 信息收集模块:根据客户需求,主动跟踪本地信息库和网络相关信息,收集客户所需信息。3.客户兴趣模型库:包括客户的基本信息、客户的兴趣爱好、研究领域、行为方式等。4.信息挖掘模块:通过对we

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论