(计算机应用技术专业论文)基于数据挖掘的零售客户细分模型的应用研究.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的零售客户细分模型的应用研究.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的零售客户细分模型的应用研究.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的零售客户细分模型的应用研究.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的零售客户细分模型的应用研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的零售客户细分模型的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的零售客户细分模型的 应用研究 计算机应用技术专业 研究生:李娜指导教师:刘芳 摘要: 随着信息网络的迅猛发展,零售市场以客户为中心的、服务为目的的战略 显得至关重要,掌握客户的需求趋势,加强与客户的关系,有效发掘、管理客 户资源是企业的致胜关键。因此,客户关系管理成为了零售领域的研究焦点。 客户细分是客户关系管理中的首要任务,只有得到好的细分模型才能有效地对 客户进行识别,进而客户保持、客户吸引才能针对性地实施。 许多营销者都相信,行为是构建细分市场的最佳起点,本文选择了基于客 户行为的细分方法。对于细分变量的选取,能够兼顾客户价值和客户关系的质 量最好,然而现实中却很难做到。基于行为的细分中,经典的r f m 分析、客 户价值矩阵分析虽然都是相对有效的细分方法,但是都忽略了一个关键因素, 那就是客户忠诚,忠诚客户群带来的盈利对企业也是很重要的。因此,本文在 价值矩阵分析方法的基础上,选取了平均购买额和购买频率两个变量之后,增 加了一个用以表征客户存在时间的变量,即客龄,可以在一定程度上体现客户 的稳定性。 本文利用数据挖掘技术,以平均购买金额、购买频率和客龄作为细分变量, 构建零售业的客户细分模型。客户聚类,k 一均值算法是一种常用算法,但是 聚类数目要预先指定,初始聚类质心是随机选取的,聚类效果未必令人满意。 自组织神经网络s o m 算法,能够自适应的将样本数据划分成不同的类,不需 要预先设定聚类数目,但是不能提供分类后精确的聚类信息。于是,本文提出 一种将两算法结合的方式,把整个聚类分析分为了两阶段进行:第一阶段使用 s o m 神经网络得到聚类数目与聚类质心;第二阶段用第一阶段的输出作为k 均值算法的输入。 将客户分为不同类别后,对每一类客户的特征进行提取,有助于提高营销 活动的针对性和有效性,有助于客户关系管理的良好实施,本文应用数据挖掘 中的决策树来提取客户特征。最后,进行购买参照分析,分析每一类客户的特 征与购买商品之间的关联。客户特征提取和购买参照即是对所建客户细分模型 的应用。 关键词:零售、聚类、客户细分、特征提取、购买参照 r e s e a r c ho n a p p l i c a t i o no fc u s t o m e rs e g m e n t a t i o n m o d e li nr e t a i l i n gb a s e do nd a t am i n i n g m a j o r :c o m p u t e ra p p l i c a t i o n st e c h n o l o g y t u t o r :p r o f e s s o rl i uf a n ga u t h o r :l in a a b s t r a c t : a l o n gw i t ht h er a p i dd e v e l o p m e n to fi n f o r m a t i o nn e t w o r k ,t h es t r a t e g y c e n t e r i n go nc u s t o m e ra n da i m i n go ns e r v i c ei nr e t a i l i n ga r eb e c o m i n gi m p o r t a n t i t i st h ek e yt h a ts u c c e s s f u l l ym a s t e r i n gt h et r e n do fc u s t o m e r s r e q u i r e m e n t , s t r e n g t h e n i n gt h ec o n n e c t i o nw i t ht h e m ,e f f i c i e n t l yd i g g i n ga n dm a n a g i n gt h e i r i n f o r m a t i o n t h u s ,t h ec u s t o m e rr e l a t i o nm a n a g e m e n tb e c o m e st h ef o c u si nt h e r e s e a r c ho fr e t a i ld o m a i n t h ec u s t o m e rs u b d i v i s i o ni st h ec h i e ft a s ko ft h e c u s t o m e rr e l a t i o nm a n a g e m e n t o n l yt h eg o o ds u b d i v i s i o nm o d e li sb u i l d ,t h e nt h e c u s t o m e r sc a nb ee f f e c t i v e l yi d e n t i f i e d ,a n dt h ec u s t o m e rk e e p i n ga n dt h ec u s t o m e r a t t r a c t i n gc a nb ep u ti n t op r a c t i c e al o to fs e l l e r sb e l i e v et h a tb e h a v i o ri st h eb e s tj u m p i n g o f fp o i n ti nb u i l d i n ga c u s t o m e rs u b d i v i s i o nm o d e l ,t h ep a p e rc h o o s e st h em e t h o dw h i c hb a s i n go n c u s t o m e rb e h a v i o rt ob u i l das u b d i v i s i o nm o d e l f o rs e l e c t i n gs u b d i v i s i o nv a r i a b l e , t h e c u s t o m e r sv a l u ea n d q u a l i t y o f r e l a t i o n s h i p s h o u l d b ec o n s i d e r a t e s i m u l t a n e o u s l y ;h o w e v e r , i ti sh a r dt o l i v eu pt o a m o n gt h eb e h a v i o r - b a s e d s u b d i v i s i o nm e t h o d s ,a l t h o u g hb o t ht h ec l a s s i c a lr f m a n a l y s i s ,a n dc u s t o m e rv a l u e m a t r i xa n a l y s i sa r er e l a t i v e l ye f f i c i e n ts u b d i v i s i o nm e t h o d s ,t h e yn e g l e c tap o i n t , t h a t st h ec u s t o m e r sl o y a l t y , t h ep r o f i tb r o u g h tb yl o y a lc u s t o m e r si sa l s ov e r y i m p o r t a n tf o rt h ec o r p o r a t i o n h e n c e ,a f t e rs e l e c t i n gt h ea v e r a g em o n e t a r ya n dt h e f r e q u e n c yo fp u r c h a s eb a s i n go nt h ev a l u em a t r i xa n a l y s i s ,a n o t h e rv a r i a b l e i s i i i s e l e c t e dt oe m b o d yt h es t a b i l i t yo fc u s t o m e r se x i s t i n gt i m e i nt h i sp a p e r , t h ed a t am i n i n gt e c h n o l o g yi su s e d ,t h ea v e r a g em o n e t a r ya n d f r e q u e n c yo fp u r c h a s ea n de x i s t i n gt i m ei su s e da st h eb e h a v i o rv a r i a b l e st ob u i l d t h er e t a i l i n gc u s t o m e rs u b d i v i s i o nm o d e l t h ek - m e a n sa l g o r i t h m i ci sw i d e l yu s e d i nc l u s t e r i n ga n a l y s i s ,b u tt h en u m b e ro fc l u s t e r i n gn e e d st ob ea p p o i n t e db y b e f o r e h a n d ,a n dt h ei n i t i a lc l u s t e r i n gc e n t e r si ss e l e c t e di nr a n d o m ,t h el a s t c l u s t e r i n ge f f e c ti st u r nu pt r u m p su n n e c e s s a r i l y t h es o m ( s e l f - o r g a n i z i n gf e a t u r e m a p ) n e u r a ln e t w o r k sa r i t h m e t i cd i v i d e st h es a m p l ed a t a1 i n t od i f f e r e n tc l u s t e r sb y s e l fa d a p t i v e l y , a n dt h ec l u s t e r i n gn u m b e ri sn e e d n tt ob ep r e e s t a b l i s h e d ,b u tt h e a c c u r a t ec l u s t e r i n gi n f o r m a t i o nc a nn o tb eo f f e r e d u p o nt h e n ,ac o m b i n a t i v e a r i t h m e t i ci sb r o u g h tf o r w a r d t h ec l u s t e r i n ga n a l y s i sp r o c e s si sc o m p o s e do ft w o s t e p s :a tt h ef h - s ts t e p ,u s i n gs o m n e u r a ln e t w o r k st og e tc l u s t e r i n gn u m b e ra n d t h ec l u s t e r i n gc e n t e r s ;a tt h e s e c o n ds t e p ,t h eo u t p u to ft h ef i r s ts t e pi su s e da si n p u t o ft h es e c o n ds t e pw h i c hi st h ek - m e a n s a f t e r d i v i d i n g t h ec u s t o m e r si n t od i f f e r e n t c l a s s e s ,p i c k i n gu p t h e c h a r a c t e r i s t i c so f e a c hc l a s so fc u s t o m e r s ,t h a ti sh e l p f u lf o rb o o s t i n gt h ep e r t i n e n c e a n dt h ev a l i d i t yo fs e l la c t i v i t y , h e l pf o rb r i n gi n t o e f f e c to fc u s t o m e rr e l a t i o n m a n a g e m e n t ,t h ed e c i s i o nt r e ei nd a t am i n i n gi su s e df o rp i c k i n gu pc u s t o m e r s c h a r a c t e r i s t i c s a tl a s t ,p u r c h a s ec o n s u l t a n a l y s i s i sc a r r i e dt h r o u g h ,t h a ti s a n a l y z i n gt h ea s s o c i a t i o no fc u s t o m e r s c h a r a c t e r i s t i c sa n dt h ec o m m o d i t i e s p u r c h a s e d p i c k u pc u s t o m e r s c h a r a c t e r i s t i c sa n dp u r c h a s ec o n s u l ta n a l y s i sa l et h e a p p l i c a t i o no f t h ec u s t o m e rs u b d i v i s i o nm o d e l j u s tc o n s t r u c t e d k e y w o r d s :r e t a i l i n g ,c l u s t e r i n g ,c u s t o m e rs e g m e n t a t i o n ,p u r c h a s ef o r e c a s t i n g , p u r c h a s ec o n s u l t i n g i v 四川师范大学学位论文独创性及 使用授权声明 本人声明:所呈交学位论文,是本人在导师刻蒸指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何 其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。 本人承诺:已提交的学位论文电子版与论文纸本的内容一致。如因不符而 引起的学术声誉上的损失由本人自负。 本人同意所撰写学位论文的使用授权遵照学校的管理规定: 学校作为申请学位的条件之一,学位论文著作权拥有者须授权所在大学拥 有学位论文的部分使用权,即:1 ) 己获学位的研究生必须按学校规定提交印 刷版和电子版学位论文,可以将学位论文的全部或部分内容编入有关数据库进 行检索;2 ) 为教学和科研目的,学校可以将公开的学位论文或解密后的学位 论文作为资料在图书馆、资料室等场所或在校园网上供校内师生阅读、浏览。 论文作者签名:孝幽吁 萨卸g 年年月f 0 日 第一章绪论 1 1 研究背景和意义 在当今网络化的市场环境中,商业智能( b i ) 的优越性逐渐脱颖而出,商 业智能主要是利用数据挖掘技术得出影响商业活动的关键因素,最终帮助企业 提高工作效率,做出明智的商业决策,以顺应市场的瞬息万变。其中,零售企 业也需要智能化的管理经营模式来提高企业的竞争力。目前,智能客户关系管 理( c r m ) 系统的开发与应用在零售业中占据了重要地位,伴随各大超市、 商场的信息化建设进程的加快,大量的信息技术,如条形码、电子收款设备、 p o s 系统等在超市、大型商场、图书大厦等各种营业场所的普及,以及网上 购物方式的便利,零售信息系统中日益积聚了大量的销售数据;另一方面,由 于会员卡制度的推行以及银行卡、信用卡付费模式的盛行,使得商家掌握了大 量的消费者资料,包括他们的性别、年龄、职业、收入、受教育程度等。据调 查统计,日本各类企事业单位、工商团体等每年发放的各类会员卡总量已超过 一亿张,其人均持有的各类磁卡、会员卡数量竞多达2 8 7 烈1 1 。事实表明,只 有那些利用先进的信息技术成功地收集、分析、理解这些信息,并依据这些信 息进行决策的企业才能获得竞争优势,才能成为市场的赢家。 数据挖掘技术可以非常有效地利用这些信息资源,帮助零售企业在浏览巨 量数据的同时更好地理解客户,找出高价值或者至少有利润的客户,并将这些 客户进行适当的分类,再根据每类客户的共同特征以发现特定客户群的兴趣偏 好、消费倾向、消费需求和消费行为模式。例如,当客户用会员卡消费时,商 家就可以在会员卡结算过程中收集商业消费信息,记录下客户进行消费的时 间、地点、感兴趣的商品或服务,愿意接受的价格水平和支付能力等数据,然 后将这些数据进行组合,并应用计算机进行并行处理、神经网络、模型化算法 等挖掘手段进行处理,从中得到商家用于向特定消费群体或个体进行定向营销 的决策信息。并且,还可以利用发现的隐藏在数据背后的这些有意义的模式来 预测购买趋势,分析购买行为与客户特征之间潜在的关联。由此决策者便能掌 握销售全局,制定有效的商品促销策略,实现交叉销售,减少商业成本,实现 一对一的个性化服务方式,提高客户服务的质量。 随着全球信息化进程的迅速推进,零售业也开始承受巨大的竞争压力与挑 战,按照加入w t o 的协议,2 0 0 4 年1 2 月1 1 日我国对零售业的三年保护期结 束,对外资完全开放了内地零售市场,外资零售大军迅速进驻,使市场竞争呈 现急流暗涌的局势。面对外来零售巨头的强势,本土零售企业在开发、吸引和 保留客户方面越发地困难【2 卅,在这样的压力之下,数据挖掘将客户数据转化 为知识和信息的能力,成为了零售企业发展的一个有力手段,甚至于生存的一 项必需技能。 1 2 课题来源 本课题来源于四川师范大学的科研项目:数据挖掘技术在零售业中的应用 研究 项目编号:0 6 1 k 0 2 0 该项目的主要研究内容是,利用数据挖掘技术对零售数据,包括客户数据、 商品销售数据等进行收集、分析、处理,建立客户细分模型,销售预测分析模 型,促销有效性分析模型等。从而识别客户的购买行为,发现客户购买模式与 客户特征之间的关联,预测购买趋势,帮助零售决策者制定更好、更合理的营 销服务策略,实现商品的交叉销售。 1 3 国内外现状 在国外,数据挖掘的研究程度已比较成熟了,零售巨头们利用数据挖掘技 术在客户服务、市场竞争和销售等方面,获取了许多意想不到的商机。到目前 为止,已有许多零售企业实施数据挖掘的成功案例【5 j : 。 ( 1 ) 世界上最大的零售商沃尔玛,通过数据挖掘技术发现,在居民区中尿 布卖得好的店面啤酒也卖得很好,这是一个现代商场智能化信息分析系统发现 的秘密,被公认为是商业领域数据挖掘的诞生。沃尔玛的信息系统是最先进的, 能够跨越多个渠道收集最详细的顾客信息,智能化的存货管理系统、决策支持 系统、管理报告工具以及扫描销售点记录系统等帮助它在业务的不断扩张和成 长中掌握了更多的主动权。 ( 2 ) 德国麦德龙集团( m e t r o ) 是当今欧洲第三、世界第五的贸易和零售 集团,它采用向o r a c a l e 公司订制开发的“g m s 客户管理和商品查询系统”, 2 由计算机对客户数据和商品销售情况及库存数据进行管理和控制,能根据历史 资料自动预测销售、制订采购计划,产生订单,功能强大,在全球零售贸易集 团中仅次于沃尔玛的决策支持系统,为开展全面的客户关系管理提供了强有力 的信息支持。 ( 3 ) 特易购( t e s c o ) 是英国最大、全球第三大零售商,t e s c o 同沃尔玛一 样,在利用信息技术进行数据挖掘、增强客户忠诚度方面走在前列,t e s c o 根 据消费者的购买偏好识别了6 个细分群体,根据生活阶段分出了8 个细分群体, 根据使用和购买速度划分了1 1 个细分群体,而根据购买习惯和行为模式来细 分的目标群体更是达到5 0 0 0 组之多。 目前,国外部分具有影响力的数据挖掘软件有m m 的i n t e l l i g e n tm i n e r 、 s a s 的e n t e i p r i s em i n e r 、s p s s 的c l e m e n t i n e 、微软的s q ls e r v e ra n a l y s i s 等。i b m ,s a s ,s p s s 的数据挖掘软件比较适应于企业型,需要高处理能力、 高网络容量,它们的特点是通常提供了多种数据挖掘算法,并有能力解决多种 应用问题。而微软的s q ls e r v e r a n a l y s i s 作为直接应用于商业的数据挖掘工具 来帮助项目实施,既节省大量的开发费用,缩短开发周期,又可以节省维护和 升级的开销1 6 j 。 然而通用性软件虽好,但应用领域不同使得对软件的需求也不尽相同,最 好的解决办法应当是,根据自己的具体情况,结合本领域的实际需求开发出适 合于该领域的挖掘工具。 虽然数据挖掘的好处已经引起国内许多企业的高度重视,但真正实施起来 的并不多,更多的企业采取的是观望和考虑的态度。目前国内企业实现数据挖 掘的困难在于缺少数据积累、难于构建业务模型、缺少有经验的实施者、初期 的投入资金很大等。而在国外,数据挖掘首先在金融、证券、电信、零售业等 数据密集型行业实施,因为这些行业信息化程度比较高,数据库中已经保留了 大量的数据资源。拥有大量、真实的数据积累是数据挖掘发挥用武之地的前提 条件。 另外,从技术角度来看,国内大多数零售商家提供的服务都是相类似的, 原因在于他们无法捕获不同客户群的不同需求。企业的数据分析多停留在利用 数据仓库和联机分析处理( o l a p ) 上,很少真正的应用到数据挖掘技术。但 o l a p 往往只能针对用户提出的问题和假设进行验证性的分析,数据分析的深 度远不及数据挖掘,而数据挖掘却能够发现o l a p 所不能发现的更为复杂、 细致的问题【_ 阳,例如,事务间潜在的关系和特征模式。 虽然国内的数据挖掘发展缓慢,但也卓有成效,许多学者都在致力于这方 面的研究。中国人民大学统计学院和北京大学光华管理学院已成功举办了4 届中国数据挖掘与商业智能研讨会,一些知名教授和资深的行业顾问报告了近 年来数据挖掘与商务智能在企业中的成功应用。同时,一些专门从事数据挖掘 的咨询公司也陆续出现在了人们的视野中。 下面是一些国内数据挖掘实施零售c r m 的成功案例: ( 1 ) 苏宁电器是中国3 c ( 家电、电脑、通讯) 家电连锁零售企业的领先者, 依托数字化平台,店面全面升级为会员制( c r m ) 销售模式,针对客户的个性化 优惠变得切实可行,比如苏宁可以给某些有着良好购买记录的顾客直接现金优 惠,也可以根据对方的购买习惯打包进行捆绑式销售,这些都给顾客带来了实 际效益f 5 1 。 ( 2 ) 奥克斯集团是中国5 0 0 强企业,奥克斯数据挖掘和商务智能系统,囊 括了丰富的算法,例如:时间序列分析、神经网络技术、决策树、关联规则等, 为客户完成定价策略提供强有力的指导与支持。 ( 3 ) 跻身中国饮料企业十强的乐百氏,建立了乐百氏商业智能系统,已经 在南昌试点成功,b i 系统产生的效果逐渐显示出来,它方便了企业高层激励 考核基层组织,同时为企业的管理、决策及预测提供了数据依据。 1 4 主要研究内容 通过前期长期的准备,大量资料的查阅,对国内外零售行业应用数据挖掘 技术与商业智能的调查和学习以后,结合数据挖掘的前沿知识,本人进行了深 入的研究。采取了理论与实践相结合的方式,具体研究的内容如下: ( 1 ) 首先是数据准备工作。抽取符合主题目标的大量数据,然后进行清洗、 整理、规范化,纠正错误数据等预处理。这是实施挖掘的一个重要环节,保证 符合主题的、优质的数据用以建模和分析。 ( 2 ) 建立零售客户细分模型,并编写程序实现该模型。在分析国内外零售 4 c r m 实施数据挖掘的案例时发现,大家为得到理想的模式,总是在尝试不同 的算法,而每种算法在一方面具有优势的同时在另一方面又存在着劣势。于是。 本文分析了k 均值算法和自组织特征映射s o m 神经网络各自的优缺点,发现 两者的优势能弥补对方的劣势,于是采用了一种新的方法,那就是将两种算法 结合起来进行建模。 ( 3 ) 建立一个基于零售c r m 的挖掘系统,系统的主要功能是实现客户细 分、客户特征提取和购买参照的分析。其中,客户细分采取k 均值与s o m 神 经网络的混合算法;提取特定客户群的特征利用决策树分类技术;分析客户特 征与购买商品的关系利用关联规则。 1 5 论文结构 本文的总体结构安排如下: 第一章是绪论部分,主要介绍了本文的研究背景、意义、课题来源,和国 内外现状,以及本文所做的工作。 第二章中简要介绍数据挖掘的基本概念,包括的它的定义、实施流程、挖 掘技术和本文涉及到的一些算法;还简述了零售业客户关系管理中实施数据挖 掘的思路,引出运用数据挖掘技术进行客户细分的内容。 第三章给出了数据预处理的基本方法,并以本文的挖掘主题为例阐明了数 据预处理的过程。 第四章介绍了构建客户细分模型的具体方法,比较了k - 均值、自组织神 经网络s o m 进行聚类的优缺点,提出把两种算法相结合的思想。 第五章是对本研究中建立的挖掘系统的详细阐述,可以从中看到整个实践 研究的过程,包括客户细分、客户特征提取和购买参照的分析。 第六章总结本论文的主要研究成果及意义,同时也指出了工作中存在的不 足和进一步的解决思路。 第二章数据挖掘与零售客户细分概述 激烈的商业竞争增加了客户关系管理( c r m ) 的复杂性,企业同客户之 间的交互方式已经发生了显著的变化。通过在c r m 中引入数据挖掘技术,可 以使企业在客户细分、客户的获取、交叉营销、客户保持和客户盈利能力分析 等方面得到有力的支持,从而更为准确地制定出经营战略和客户服务决策 8 - 9 。 对于一个核心企业,它处于供应商、分销商、零售商以及最终消费者的链 条上,它的客户不只是最终消费者,而且还包括它的分销商和零售商,而后者 往往对它说更为重要。由于信息技术的进步,c r m 系统的开发与应用在零售 业中占据了重要地位。客户数量越多,单个客户与企业交易或是接触次数越频 繁,客户的生命周期越长,最终企业所收集形成的客户数据量越大。对于如此 海量的客户数据,需要用到数据挖掘技术来分析和处理,发现其中有价值的客 户信息。 零售业是数据挖掘的主要应用领域之一,识别最有可能对新产品或服务做 出反映的一组客户,识别交叉销售的新机会等等,其对提升利润和控制风险方 面得到了普遍承认。零售数据挖掘有助于识别顾客购买行为,发现顾客购买模 式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销售 比率,设计更好的货品运输与分销策略,减少商业成本。 2 1 数据挖掘的简介 2 1 1 数据挖掘的概念 ( 1 ) 数据挖掘的诞生 我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变 着整个人类和社会。大量信息在给人们带来方便的同时也带来了一大堆问题: 第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以 保证;第四是信息形式不一致,难以统一处理。另一方面,随着数据库技术的 迅速发展以及数据库管理系统的广泛应用,激增的数据背后隐藏着许多重要的 信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目 前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现 数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖 6 掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏 的现象【1 。 如何将多个信息系统的数据进行整合? 如何将大量闲置的历史数据提炼成知 识? 于是,数据挖掘( d a t am i n i n g ,d m ) 这一研究领域便应运而生。 数据挖掘虽然只有短短十余年的历史,但发展迅速,算法研究日趋成熟, 在9 0 年代中期即在许多行业投入应用,各大软件巨头也都有数据挖掘工具软 件产品问世,数据挖掘解决方案迅速广泛、深入地进入各行业的决策支持中, 如零售业、银行、邮电、保险、医疗保健、运输业、行政司法、生物信息处理、 采矿业等,不仅在传统行业展现了巨大的能力,在新兴的科技领域中也发挥了 其巨大的潜力。 ( 2 ) 数据挖掘的定义 一直以来,数据挖掘都没有一个标准的定义,它有着许多的代名词,或者 说同义词,如:数据分析、知识发现和决策支持等。数据挖掘是就是从大量的、 不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、 人们事先不知道的、但又是潜在有用的信息和知识的过程,是统计学、数据库 和人工智能技术的综合。这个定义包括了好几层含义:数据源必须是真实的、 大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理 解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。1 9 8 9 年8 月举行的第1 l 届国际联合人工智能学术会议上首次出现数据挖掘一词, 1 9 9 5 年在加拿大蒙特利尔市召开了第一届k d d ( k n o w l e d g ed i s c o v e r yi n d a t a b a s e s ,知识发现) 国际学术会议,随后在数据库、人工智能、信息处理、 知识工程等领域的国际学术刊物也纷纷开辟了k d d 专题或专刊。 从商业的角度来定义,数据挖掘是一种新的商业信息处理技术,其主要特 点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理, 从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次 的数据分析方法。因此在商业领域,数据挖掘的进化过程即是商业数据到商业 信息的进化过程。支持数据挖掘的三大技术基础是:海量的数据集、计算机的 强大处理能力、数据挖掘算法。这三种技术缺一不可,日趋发展成熟。 2 1 2 数据挖掘的过程 数据挖掘过程的标准化目前包括以下三个标准:c r i s p d m 、p m m l 、o l e d bf o rd m u 】。c r i s p d m 标准,全称是交叉行业数据挖掘过程标准 ( c r o s s i n d u s t r ys t a n d a r dp r o c e s sf o rd a t am i n i n g ) ,它由s p s s 、n c r 以及 d a i m l e r c h r y s l e r 三个公司在1 9 9 6 开始提出,是数据挖掘公司和使用数据挖掘 软件的企业一起制定的数据挖掘过程的标准。这套标准被各个数据挖掘软件商 用来指导其开发数据挖掘软件,同时也是开发数据挖掘项目的过程的标准方 法:p m m l 全称是“预言模型标记语言”( p r e d i c f i v em o d e lm a r k u pl a n g u a g e , p m m l ) ,它由数据挖掘协会( t h ed a t am i n i n gg r o u p ,d m g ) 开发;o l ed b f o rd m 是微软公司在2 0 0 0 年3 月推出的数据挖掘标准,它是一个基于s q l 预言的协议,为软件商和应用开发人员提供了一个开放的接口。 目前使用较为普遍的是c r i s p d m ,数据挖掘项目的生命周期由6 个阶段 构成,图2 1 展示的是c r i s p - d m 流程: 图2 - 1c r i s p - d m 过程 ( 1 ) 理解业务:从商业的角度理解项目目标和需求,将其转换成一种数据 挖掘的问题定义,设计出达到目标的一个初步计划。清晰地定义出业务问题, 认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的, 8 但要探索的问题应是可预见的,为了数据挖掘而数据挖掘则带有盲目性,是不 会成功的。 ( 2 ) 理解数据:收集初步的数据,进行各种熟悉数据的工作,包括数据描 述,数据探索和数据质量验证等。 ( 3 ) 准备数据:搜索所有与业务对象有关的内部和外部数据信息,并从中 选择出适用于数据挖掘应用的数据。将最初的原始数据构造成最终适合建模工 具处理的数据集,包括表、记录和属性的选择,数据转换和数据清理等。 ( 4 ) 建模:选择和应用各种建模技术,并对其参数进行优化。因为一些建 模方法对数据的形式有具体的要求,因此在这一阶段回到数据准备阶段执行某 些任务有时是非常必要的。 ( 5 ) 模型评估:对模型进行较为彻底的评价,并检查构建模型的每个步骤, 确认其是否真正实现了预定的商业目的。 ( 6 ) 模型部署:创建完模型并不意味着项目的结束,即使模型的目的是为 了增进对数据的了解,所获得的知识也要用一种用户可以使用的方式来组织和 表示。通常要将活动模型应用到决策制定的过程中去。 这些步骤的顺序并不是固定的,根据每阶段的结果,在不同步骤之间来回 流动是很必要的,图中的箭头只说明了它们之间最重要的依赖关系。数据挖掘 是一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用 的信息,并使用这些信息做出决策或丰富知识。本文便是参照c r i s p d m 标 准来实施数据挖掘。 2 1 3 数据挖掘的功能 数据仓库和在线联机分析处理( o l a p ) 主要用于数据汇总和比较,而数 据挖掘的功能并不限于分析数据仓库中的数据,它可以分析现存的、比数据仓 库提供的汇总数据粒度更细的数据,它也可以分析事物的、文本的、空间的和 多媒体数据,这些数据很难用现有的多维数据库技术建模。因此,数据挖掘涵 盖的数据挖掘功能和处理的数据复杂性要比o l a p 大得多,可以执行聚类、 分类、预测、关联、时间序列分析和其他数据分类任务。数据挖掘的目标是从 数据库中发现隐含的、有意义的知识,主要有以下几类功能。 9 ( 1 ) 聚类分析 数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人 们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括 传统的模式识别方法和数学分类学。 聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为 有意义的聚类。聚类在预先不知道目标数据库到底有多少类的情况下,希望将 所有的记录组成不同的类( 聚类) ,并且使得在这种分类情况下,以某种度量 为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。聚类的 用途是很广泛的,聚类分析作为数据挖掘中的一个模块,它可以作为一个独立 的工具以发现数据库中数据分布的一些深层的信息,并且概括出每一类的特 点;聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。 ( 2 ) 分类分析 分类是预测分类标号或离散值,根据训练数据集和类标号属性,构建模型 来分类现有数据,并用使用模型来分类新数据。可见,数据分类是一个两步过 程:第一步,根据给定的训练集,找到合适的映射函数h :厂( x ) j c 来表示模 型。第二步,使用模型进行分类,对数据集中的每一类别进行描述,形成分类 规则。分类的数据集称为测试集,为评估分类模型的准确率,训练集与测试集 的数据最好使用不同的数据。 目前,针对分类问题已有了若干不同领域的算法,例如统计学、机器学习、 神经网络和粗糙集的理论等。其中,从机器学习中引出的决策树方法是一种较 为常用并被深入研究的分类函数逼近方法,目前已形成了多种决策树算法,如 c l s 、i d 3 、c h a i d 、c h a i d 、c a r t 、f a c t 、c 4 5 等【1 2 】。 ( 3 ) 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分 析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测 问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户, 其它可预测的问题包括预报破产以及识别对指定事件最可能做出反应的群体。 ( 4 ) 关联分析 一 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变 1 0 量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、 因果关联。关联分析的目的是找出数据中隐藏的关联网。有时并不知道数据库 中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可 信度。 ( 5 ) 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者 描述不同类的对象之间的区别。生成一个类的特征性描述只涉及该类对象中所 有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 ( 6 ) 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结 果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找 观测结果与参照值之间有意义的差别。 2 2 零售客户关系管理中的客户细分 2 2 1 数据挖掘在客户关系管理中的应用 传统的以产品为中心的商业运作模式已不可取,新的市场环境、新的消 费者价值观和新的通信手段,无不迫使企业改变管理策略,建立企业与客户之 间互动的学习型关系。不断加强企业与客户之间的互动的最佳解决途径是通过 忠诚培养,增加客户对企业的情感依赖。已有调查表明为发展一个新客户的成 本是维持一个老客户成本的5 - 8 倍,企业产品2 0 的客户所产生的利润平均 会占产品利润总额的8 0 ,有效的客户关系管理可以为企业节约1 4 的销售开 支【1 3 】。 谁是最好的客户? 任何行业的专业人士( 市场人员,销售经理,产品开发 者和服务专家) 都想找出这个问题的最佳答案。理解客户的固有特征可以给予 有价值的发现,了解最有价值或至少有利润的客户,他们的购买方式,购买行 为和人口统计特征是制订营销计划的关键。 数据挖掘在c r m 中的具体应用可以从如下几个方面来进行分析。 ( 1 ) 客户细分 客户细分就是企业在明确的战略、业务模式和目标市场中根据客户的价 值、需求和偏好等综合因素对于客户进行分类。数据挖掘可以把大量的客户分 成不同的类,在每个类里的客户拥有相似的属性,而不同类里的客户的属性不 同。客户分类的好处显而易见,即使很简单的分类也可以给企业带来一个令人 满意的结果【1 4 】。 ( 2 ) 客户服务 客户服务【l5 】是c r m 中最为关键的因素,优质的客户服务是吸引新客户、 保留老客户、提高客户满意度和忠诚度的关键。通过对于客户人口统计数据以 及历史消费信息的数据挖掘分析,归纳出客户的个人偏好、消费习惯、需求特 征等,那么企业就可以有的放矢地为客户提供快捷、准确的一对一定制服务。 ( 3 ) 风险评估和欺诈识别 商业欺诈行为往往会给商家带来了巨大的损失。进行欺诈识别和风险评估 主要是通过总结正常行为与欺诈、异常行为之间的关系,得到非正常行为的特 性模式,一旦某项业务符合这些特征时,就可以向决策人员提出警告。 ( 4 ) 营销 目前在营销方面应用最为成熟的是数据库营销( d a t a b a s em a r k e t i n g ) ,数据 库营销的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾 客以便向它们推销产品,通过对已有的顾客数据的分析,可以将用户分为不同 的级别,级别越高,其购买可能性越大。 ( 5 ) 购买推荐和商品参照 通过从销售记录中挖掘关联信息,例如,可以发现购买某一品牌香水的顾 客很有可能购买其他一些商品。这类信息可用于形成一定的购买推荐【1 6 】。购 买推荐可以在w e b 、每周传单或收据上宣传,以便改进服务,帮助顾客选择 商品,增加销售额。同样,诸如“本周热点商品 之类的信息或有吸引力的买 卖也可以和相关信息一同发布,以达到促销的目的。 2 2 2 客户细分的目的与意义 随着客户关系管理( c r m ) 研究的深入,客户细分成为了研究的焦点。 1 2 客户细分的目的是要更精确地回答谁是我们的客户,客户到底有哪些实际需 要,企业应该去吸引哪些客户,应该重点保持哪些客户,应该如何迎合重点客 户的需求等重要问题,进而使c r m 真正成为业务获得成功、扩大产品销量的 助推器i l7 。 根据客户消费模式、消费习惯、消费频度等特征对客户进行分类,便于企 业识别各类客户及其特征,定义各类客户的价值等级。对于零售业而言,通过 一定的技术将客户进行划分,然后对每一类客户的特征进行分析,有助于提高 营销活动的针对性和有效性,有助于客户关系管理的良好实施。 2 2 3 不同视角的客户细分 国外诸多学者从人口统计、客户行为、价值、利益、忠诚等角度出发,获 得了一些不同的细分方法【18 1 。这些细分方法在实际运用中都取得了一定成效, 而目前占据主流地位的还属基于行为和价值的客户细分方法。 ( 1 ) 基于购买行为的细分 许多营销者相信行为变量是构建细分市场的最佳起点。营销人员通过对客 户行为的测量,就能够确定哪些是急需改进的因素,而不是把各细分市场平均 化,这样就可以体现出关系营销战略的优先顺序法则。基于消费行为的细分方 法有:r f m 分析;客户价值矩阵分析;基于客户忠诚的细分【1 9 1 。 ( 2 ) 基于人口统计的细分 目前,人口统计细分是将市场按人口统计属性如年龄、性别、家庭人数、 收入、职业、教育、地域为基础划分成不同的群体。随着信息技术的不断进步, 发展后的人口统计细分方法需要借助在线分析技术或其他数据挖掘技术来收 集和处理庞大的人口信息。然而仅仅将外在特征作为细分的依据还是受到了很 多学者的质疑。除非在相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论