(计算机应用技术专业论文)子空间聚类算法的研究及应用.pdf_第1页
(计算机应用技术专业论文)子空间聚类算法的研究及应用.pdf_第2页
(计算机应用技术专业论文)子空间聚类算法的研究及应用.pdf_第3页
(计算机应用技术专业论文)子空间聚类算法的研究及应用.pdf_第4页
(计算机应用技术专业论文)子空间聚类算法的研究及应用.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)子空间聚类算法的研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕士学位论文 摘要 随着市场竞争的日益加剧和信息技术的飞速发展,企业的经营模式 逐步由“以产品为中心 转向“以客户为中心”。这就要求企业根据客 户的特征对客户进行细分,进而对不同的类型的客户提供不同的产品或 服务。 传统的客户细分方法一般是基于经验的分类方法或基于统计的简 单划分方法,这些方法不再适合当前市场。根据客户属性的高维特性, 本文选择了子空间聚类技术,对c u q u e 算法进行改进,提出 o p t c l i q u e 聚类算法,并用o p t c l i q u e 聚类算法进行客户细分,实现 了科学合理的划分,为市场决策提供了可靠的依据。本文对客户细分进 行了研究,主要包括以下工作: 第一针对c u q u e 算法中硬性的网络划分导致的复杂度增大,精度 较低的不足,本文提出了o p tc l i q u e 算法,该算法对网格空间中位于 簇边缘的网格单元进行细化处理,减小了网格划分对聚类精度造成的损 失。不同于传统的基于网格聚类算法,o p tc l i q u e 算法对和稠密网格 单元相邻的稀疏网格单元进行二次处理,然后重新确定网格的边界。 第二 o p tc l i q u e 算法使用网格密度阈值函数来判定网格单元的类 型,实现了参数的自动化确定,解决了依赖手工确定参数密度阈值的问 题。通过对事务进行压缩、减少连接次数和数据库扫描次数,来提高算 法执行的效率。 江苏大学硕士学位论文 第三 对o p t c l i q u e 算法进行性能分析,仿真实验结果表明, o p t c l i q u e 算法无论是在聚类效果方面还是在执行效率方面,都优于 c l i q u e 算法和d b s c a n 算法。 将o p t c l i q u e 算法应用于电信客户细分,可以使企业更好的掌握 客户动态,这对客户的维护和潜在客户的挖掘提供了强有力的技术支 持。应用的实验结果也表明了o p t c l i q u e 算法的有效性,提高了客户 分类的效率。 关键字:子空间聚类,客户细分,聚类分析,数据挖掘 江苏大学硕士学位论文 a b s t r a c t w i t ht h e i n c r e a s i n g m a r k e t c o m p e t i t i o n a n dt h e d e v e l o p m e n t o f i n f o r m a t i o nt e c h n o l o g y , e n t e r p r i s em a n a g e m e n tt u r nt oc u s t o m e r - c e n t e r e d m o d ef r o mp r o d u c t c e n t e r e dm o d es t e pb y s t e p i t i s n e c e s s a r y f o r e n t e r p r i s e st op r o v i d ec u s t o m e r sw i t hp e r s o n a l i z e ds e r v i c e sa c c o r d i n gt o t h e i rd i f f e r e n tr e q u i r e m e n t s t h e r e f o r e ,e n t e r p r i s e sh a v et oc o n d u c tc u s t o m e r s e g m e n t a t i o nb yt h ef e a t u r e so fd i f f e r e n tc u s t o m e r s t h ec o n v e n t i o n a lc u s t o m e rs e g m e n t a t i o nm e t h o d si n c l u d e p r a c t i c e b a s e dc l a s s i f i c a t i o n so rs t a t i s t i cb a s e dp a r t i t i o n sw h i c ha r eu n f i tf o rc u r r e n t m a r k e tn e e d s b yv i r t u eo ft h eh i g h d i m e n s i o n a lf e a t u r e so fc u s t o m e r p r o p e r t i e s ,t h i sd i s s e r t a t i o nc h o o s e ss u b - s p a c ec l u s t e r i n gt e c h n o l o g ya n d a p p l i e st h ei m p r o v e dc l u s t e r i n ga l g o r i t h m t os e g m e n tc u s t o m e r s t h er e s u l t s a r es c i e n t i f i ca n dr e a s o n a b l ea n ds u p p l i e s d e p e n d a b l eg i s t f o rm a r k e t d e c i s i o n t h em a i nw o r k so ft h ed i s s e r t a t i o na r el i s t e da sf o l l o w s : ( 1 ) i n v i e wo ft h eg r e a tt i m ec o m p l e x i t ya n d l o wc l u s t e r i n gp r e c i s i o ni nt h e c o n v e n t i o n a lc l i q u ea l g o r i t h m ,t h ed i s s e r t a t i o np r o p o s e so p t c l i q u e a l g o r i t h mw h i c hr e f i n e st h eg r i dc e l l sl o c a t i n ga tt h eg r o u pe d g e si ng r i d s p a c ea n di m p r o v e sc l u s t e r i n gp r e c i s i o nb yg r i dp a r t i t i o n o p t c l i q u ei s d i f f e r e n tf r o mo t h e rg r i dp a r t i t i o nc l u s t e r i n ga l g o r i t h m sb yr e p r o c e s s i n gt h e s p a r eg r i dc e l l sw h i c ha r en e i g h b o r so fd e n s eo n e sa n dt h e ni tr e - c o n f i r m s t h eb o u n do fg r i dc e l l s ( 2 ) o p t c l i q u ea l g o r i t h mu s e sg r i dt h r e s h o l df u n c t i o nt od e t e r m i n et h e t y p eo fg r i dc e l l s ,i nt h i sw a yi tc a nd e t e r m i n ep a r a m e t e r sa u t o m a t i c a l l y i n s t e a do fm a n u a l l y t h ea l g o r i t h me f f i c i e n c yi si m p r o v e db yc o m p r e s s i n g t r a n s a c t i o n s ,d e d u c i n gt h et a b l ej o i n i n gt i m e sa n ds c a n n i n gd a t at i m e s ( 3 ) s i m u l a t e de x p e r i m e n tr e s u l t ss h o wt h a to p t c l i q u ea l g o r i t h mi s h i 江苏大学硕士学位论文 b e t t e rt h a nc l i q u ea n dd b s c a ni nb o t h c l u s t e r i n g e f f e c t sa n d ,p e r f o r m a n c e a p p l y i n go p t c l i q u ea l g o r i t h m t oc u s t o m e r s e g m e n t a t i o n o f t e l e c o m m u n i c a t i o ni n d u s t r i e sw i l lm a k et h e mm a s t e rt h e i r c u s t o m e r d y n a m i ci n f o r m a t i o nb e t t e r i tp r o v i d e ss t r o n gs u p p o r tf o rt h e mt om a i n t a i n c u s t o m e ri n f o r m a t i o na n dm i n et h e p o t e n t i a lc u s t o m e r s t h ep r a c t i c a l a p p l i c a t i o n r e s u l t sa l s os h o wt h a t o p t c l i q u ea l g o r i t h mi s e f f i c i e n ti n c u s t o m e rs e g m e n t a t i o n k e yw o r d :s u b s p a c ec l u s t e r i n g ,c u s t o m e rs e g m e n t a t i o n ,c l u s t e ra n a l y s i s , d a t am i n i n g i v 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密囱。 学位论文作者签名:高亚鲁 指导教师签名 卵j ) 年莎月r ,日年扫月r j 日 娟7 年只, 独创性申明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工 作所取得的成果。除文中已经注明引用的内容以外,本论文不包含任何其他个人或 集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:高增 俨甲 年6 月日 江苏大学硕士学位论文 1 1 课题背景和意义 第一章绪论 随着世界经济的全球化、市场经济的国际化、信息技术的飞速发展以及管理手 段的不断进步,企业与企业之间的竞争越来越激烈。由于同行业之间的产品差别越 来越小,企业很难通过产品的差异或产品的价格等优势来提升自身的竞争力( 。在 这种情况下,企业的工作重心正逐步由“以产品为中心向“以市场为中心 、“以 客户为中心 转变。因为客户是企业最重要的资源,所以如何有效挖掘和利用客户 资源成了企业面临的难题。客户关系管n t 2 c r m ( c u s t o m e rr e l a t i o nm a n a g e m e n t ) 就是在这样的背景下产生的,其核心思想是将客户作为企业最重要的资源,通过完 善自身服务和满足客户的需求,保证客户的终生价值。客户细分作为客户关系管理 的重要组成部分,是企业在明确的战略、业务模式和特定的市场中,根据客户的属 性、行为、需求、喜好以及价值等因素对客户进行分类,并提供有针对性的产品、 服务和营销模式的过程。正确的客户细分能够有效的降低成本,使企业获得更大的 收益。 传统的客户细分方法一般是基于经验的分类方法或基于统计的简单划分方法, 这些方法基本都是依靠决策者的经验来完成的,虽然这些划分对企业的客户管理起 到了帮助作用,但却无法发现客户的潜在需求以及客户的忠诚度,并且无法实现客 户分类等。随着客户数量的飞速增长,面对海量的客户数据,传统的划分方法显得 力不从心。数据挖掘的出现,为解决复杂的客户细分问题提供了有效的方法。 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐 含在其中的、人们事先不知道的、但是潜在有用知识的过程1 3 1 。它是一门广义的交 叉学科,涉及人工智能技术,统计技术与数据库技术等多种技术,汇集了不同领域 的研究者,尤其是数据库、人工智能、数理统计等方面的学者和技术人员。数据挖 掘可以从海量数据中发现有用信息并抽取出人们关心的模式,找出数据变化规律和 数据之间的相互依存的关系,使人们能够从宏观高层次的角度来审视数据,充分挖 1 江苏大学硕士学位论文 掘数据的潜藏价值,指导人们的行为,为决策提供科学的强有力的支持。数据挖掘 能够帮助企业确定客户的特点,从而可以为客户提供有针对性的服务,在c r m 方 面有着广泛的应用,例如产品或服务设计,提高客户的满意程度,建立以客户为中 心的营销策略,为有不同需求的客户提供个性化的服务。 聚类分析是数据挖掘的一个重要研究方向。聚类是指将物理或抽象对象集合分 成相似的对象类的过程。通过聚类,人们能够识别密集的和稀疏的区域,从而发现 全局的分布模式和数据属性之间有趣的关联。聚类分析已经广泛地应用于许多领域, 包括模式识别、数据分析、图像处理。迄今为止,人们提出了很多聚类算法,例如 划分的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。 不同的算法有着不同的应用环境,有的适用于大数据集,可以发现任意形状的聚类; 有的算法思想简单,适用于小的数据集。总的来说,算法都是试图用不同的途径对 数据集进行高效的、可靠的聚类分析。鉴于聚类算法具有上述特点,商业上常常采 用这种技术进行市场细分,客户细分等。在生物学中,聚类能够推导植物和动物的 分类,基因分类等。企业通过聚类分析实现客户细分,得到具有不同特征的客户群, 进而帮助营销人员制定不同的有针对性的策略,提高客户的价值贡献。 基于聚类的客户细分是利用聚类技术发现隐藏在客户数据库中的潜在知识,将 客户分成若干个具有相似特征的客户群,并对客户群进行有效地客户价值评估。基 于聚类的客户细分可以有效地解决多种市场问题,实现高效的、差异化的精确营销, 在银行业、电信业、证券业、制造业、零售业等领域都有广泛的应用价值和商业前 景。可见,基于聚类的客户细分也有很好的学术价值。 1 2 国内外研究现状及存在的问题 聚类分析已广泛研究了许多年,大多集中在基于距离的聚类分析。基于k 均值, k 中心点和其他一些方法的聚类分析工具已经加入到许多统计分析软件包或者系统 中,例如s p l u s ,s p s s 以及s a s 。在机器学习领域,聚类是无监督学习的一个例子, 与分类不同,聚类和无监督学习不依赖预先定义的类和类标号的训练实例。由于这 种原因,聚类是观察式学习,而不是示例式学习。 国外对客户关系管理的研究已经提出了一些应用于客户细分聚类算法,例如模 2 江苏大学硕士学位论文 糊聚类算法应用于股票交易客户细分【4 】,应用模糊聚类算法对在线音乐用户进行细 分f 5 l ,p m e d i a n 聚类算法对零售商场客户细分【6 】等。国外有些相关产品也采用了 聚类: d b m i n e r :d b m i n e r 是由加拿大大不列颠哥伦比亚省s i m o nf r a s e r 大学“智能数据 库系统研究实验室”创建,由d b m i n e rt e c h n o l o g y 公司做进步的开发而形成的产 品。d b m i n e r 是一个通用的联机分析挖掘( o l a m :o n l i n ea n a l y s i sm i n i n g ) 系统, 用在大型关系数据库和数据仓库中交互地挖掘多层次的知识。其独特之处在于紧密 集成了联机分析处理( o l a p :o n l i n e a n a l y s i sp r o c e s s i n g ) 和多种数据挖掘功能,包括 特征化、关联、分类、预测和聚类等。 o r a d e 产品:通过o d b c 访问a s c i i 和r d b m s 数据。构造模型的过程有w i z a r d s 引导。支持数据挖掘算法:神经网络,分类和回归树,k - 最近邻居、遗传算法、基于 记忆的推理、聚集和贝叶斯算法。 2 0 0 3 年2 月,网通北京分公司和网通国际部开始建立自己的宽带客户价值金字 塔,并进行了客户细分,但除了客户价值以外,所有的细分指标都是单因素,只有 客户价值是综合细分。2 0 0 3 年中国联通引入客户细分理念,但直到2 0 0 5 年才真正 开始客户细分。2 0 0 4 年联通少数的几个省尝试进行单因素细分,结果比较理想。中 国电信从2 0 0 2 年开始就根据用户的性质、消费额度将其细分,从目前的情况来看, 客户细分己经取得一定的效果。由于电信行业营运商引入了客户细分的理念,国内 的开发商相应地推出了各自的客户细分产品。国内也有公司运用聚类分析方法来进 行客户行为预测和客户细分。例如湖南移动采用k - m e a n s 聚类算法对客户进行细分 以辅助营销决策 7 1 ;另外还有一些将k 均值聚类,系统聚类法,模糊c 均值聚类算 法应用于银行客户细分的实验等。 目前,电信行业的客户关系管理及数据挖掘技术的应用在理论界和企业界都是 研究的热点。这极大地推动了数据挖掘在现实中的应用,但是从现状来看,还存在 一些值得改进的地方: ( 1 ) 从数据挖掘工具的开发上看,目前仍然以横向的、通用性的挖掘工具为主, 而向行业的纵向数据挖掘土具较少。从国内情况看,尚未出现行业版的数据 挖扼工具,但数据挖掘的行业应用是未来发展的一大趋势。如何将普适性的 3 江苏大学硕士学位论文 数据挖掘方法和模型应用于具体行业问题是摆在大家面前的一个重要课题。 ( 2 )目前的一些研究只是从某个角度或是某个层而上对问题进行分散和孤立的研 究,同时在现有的研究中,着重于算法的应用,而缺乏从企业的生产经营系 统分析、数据抽取、数据预处理、模型构建与评价等一整套完整的解决方案。 ( 3 ) 基于数据挖掘的客户分类,一般都采用经典的聚类算法。虽然可靠性得到了 保证,但是其效率和精度受到了影响。 1 3 研究内容与主要创新点 论文着重研究了数据挖掘中的聚类问题及其在客户分类中的应用,深入探讨了 子空间聚类算法和客户细分模型,并针对其存在的问题进行了深入的分析,进而提 出了切实可行的解决方法。 论文的主要创新点包括以下几个方面: 详细探讨了几类主要的聚类算法,分析了它们各自的代表算法及其优缺点,并 指出了现有算法存在的问题,提出了针对客户细分的解决方法。 讨论了高维数据的聚类分析,针对现有的高维子空间聚类算法效率不高,随着 包含簇的子空间的最大维度的增加,时间复杂度通常呈指数级增长的问题,提出了 子空间算法刈p t c l i q u e 。该算法通过对网格划分进行优化,实现了密度阈值参 数的自动化确定,解决了依赖手工确定参数密度阈值的问题。通过对事务进行压缩、 减少连接次数和数据库扫描次数,来提高算法的效率。 通过实验比较o p t c l i q u e 算法、d b s c a n 算法和c l i q u e 算的性能和精度, o p t c l i q u e 算法无论是精度还是性能都优于另外两种算法。将o p t c l i q u e 算法应 用到客户细分模型以及电信客户细分中。 1 4 论文的结构概要 本文共分为六章,具体安排如下: 第一章介绍课题选题背景、研究意义,国内过研究的现状以及论文研究的主 要内容和创新点,同时还介绍了本文的组织结构。 第二章介绍了客户细分的产生及其概念,客户细分的原因,详细介绍了客户 4 江苏大学硕士学位论文 细分的方法,其中包括r f m 分析法、客户价值矩阵分析法、数据挖掘客户细分法。 第三章详细介绍了几类主要的聚类分析方法,并分析了它们各自的代表算法, 主要包括基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于 。网格的聚类和基于模型的聚类算法。对它们的各自代表性的算法适用范围进行了探 讨。 第四章讨论了高维数据集的聚类分析,针对现有的高维子空间聚类算法效率 不高,随着包含簇的子空间的最大维度的增加,时间复杂度通常呈指数级增长,提 出了子空间算法o p t c l i q u e 。该算法通过对网格划分进行优化,实现了密度阈 值参数的自动化确定,解决了依赖手工确定参数密度阈值的问题。通过对事务进行 压缩、减少连接次数和数据库扫描次数,来提高算法的效率。 第五章将o p t c l i q u e 算法应用到客户细分模型中,对整个客户细分模型进 行了研究,并将其应用到电信客户细分模型。 第六章系统地总结本文研究工作,并提出下一步需要研究的内容。 5 江苏大学硕士学位论文 第二章客户细分的概述 2 1 客户细分的产生及其概念 2 1 1 客户细分理论的产生【8 1 客户细分是现代营销理念的产物,是第二次世界大战后西方发达国家市场营销 理论和战略的新发展。它主要是指企业在明确的战略、业务模式和专注市场中,根 据客户的价值、需求和喜好等综合因素对客户进行分类的,为不同的客户群提供有 针对性的产品、服务和营销模式。经过了若干年的发展,客户细分的理论和方法不 断的完善,而被广泛的应用到营销中。客户细分理论的提出和应用是有一定客观原 因的,它是商品经济发展和市场竞争日益激烈的产物。其理论依据主要有以下两个 方面: ( 1 ) 客户需求的差异性。也就是说,不同的客户需求是不一样的,任何两个客 户的需求都是不同的。由于客户需求、欲望和购买力呈现多样性,所以在购买产品 和使用服务上有较大的差异。客户需求的异质性是进行客户细分的内在依据。 ( 苟企业资源的有限性。企业受到了自身实力的限制,不可能提供满足所有顾 客的产品和服务。这样不同的企业瞄准了不同的客户群体,为了进行有效的竞争, 企业必须进行客户细分,选择最有利可图的目标群体,集中资源,制定有效的战略 计划,增强企业的竞争优势。 2 1 2客户细分的概述【9 1 所谓的客户细分就是企业在收集和整理客户的信息资料的基础之上,依据客户 的需求特点、购买行为、消费习惯、信誉状况等方面的明显差异,把某一产品的客 户整体划分为若干个客户群的分类过程。客户细分让同一客户群中的客户相似性尽 可能的大,不同的客户群中的客户相似性尽可能小。通过客户细分实现差异化的销 售,满足不同客户的不同需求,提高客户的忠诚度。 客户分类结果的正确性取决于分类指标和分类方法的选择。分类指标主要来源 于企业积累的数据,这些数据包括客户的基本情况数据、客户与企业的交易数据及 6 江苏大学硕士学位论文 其它的交互数据。根据数据属性的特点,本文将其分为客户的内在属性数据和消费 行为数据。 内在属性数据:一般指客户的内在因素所决定的属性,比如年龄,性别,收入, 婚姻状况,家庭成员数,信仰等等。 消费行为数据:是指客户与企业进行交易或其它交互所积累的数据。比如客户 购买频率,购买金额以及最近购买情况等。这些数据按照时间积累就会成为一种时 间序列数据,它反映了客户与企业之间进行交易的整个过程,反映了客户的消费行 为和消费习惯等其它两种数据不能体现的特征。 由此我们可以看出,客户内在属性数据基本是不会变化的,所以我们又将这两 种类型的数据称为客户静态属性数据:同理,客户消费行为数据,跟时间密切相关, 被称为客户动态属性数据。 基于客户静态属性数据得客户分类方法是比较容易而且比较直观,因此目前很 多客户分类方法都是基于客户的静态属性数据的,但是具有类似客户静态属性的客 户群体也会有类似的消费行为的假设是不完全正确的,这些分类方法对于客户的动 态属性数据考虑较少,不利于全面反映客户特征和提高分类的准确性。由动态属性 和静态属性构成的客户数据是高维数据,对客户进行分类,实际上就是对高维数据 进行分类。这对研究人员提出了更高的要求。 2 2 客户细分的原因 随着人们物质生活水平的提高,人们对个性化的需求也越来越强烈,消费者开 始追求与自己生活方式贴近的消费方式,这样的倾向日益明显。客户群体因其收入、 年龄、职业等属性的不同而呈现出来的消费特性差别也比较大。此外,即使是同一 客户在不同的阶段可能有着不同服务需求,客户需求的差异是客户细分的基础。 企业竞争r 益激烈,企业的竞争由“以产品为中心”向“以客户为中心”转变。 这意味着客户成为企业最重要的资源。企业为了保留原来的老客户,发展新客户, 而进行客户细分,同时客户细分也是开发新产品的重要基础。客户 数据挖掘产生的客户细分,与传统的经验细分相比,能够考虑更多的行为属性, 得到更丰富的细分可能性。每个客户群体具有更鲜明的行为特征。但是,什么样的 7 江苏大学硕士学位论文 客户细分结果才是好的昵? 将客户分成多少才是比较合适的呢? 群体间的人数悬殊 是不是一个很差的细分结果? 这些都是客户细分需要研究和解决的问题。 客户细分是一种双赢的行为。既能满足客户的需求,又能给企业带来丰厚的利 润。未来企业之间的竞争是市场的竞争,是客户的竞争,因此客户细分对增强企业 的竞争力有非常大的意义。客户细分是客户识别与定位、客户价值预测、新产品和 新市场的开发、设计最优的营销策略。 2 3 客户细分方法 2 3 1r f m 分析法 r f m 分析是广泛应用于数据库营销的一种客户细分方法。r ( r e g e n c y ) 指上次 购买至今期间,该时期越短,则r 越大。研究发现,r 越大的客户越有可能与企业 达成新的交易,r 越大,企业保存该客户的数据就越准确,因此企业有的数据会迅 速失效,每隔一年大约有一半以上的数据都不准确了。f ( f r e q u e n c y ) 指在某一期 间购买的次数,交易次数越频繁的客户越有可能和公司形成新的交易。m ( m o n e t a r y ) 指在某一期间内购买的金额。越大越有可能和企业达成新的交易。r f m 分析的所有 成份都是行为方面的,应用这些容易获得的因素,能够预测客户的购买行为。以最 近的行为来预测客户的购买行为。这种方法比其它采用一个因素的方法都准确和有 效。 进行r f m 分析,所有的客户记录都必须包含特定的交易历史数据,并准确的 标号。r f m 分析给客户的每个指标打分,然后计算r f m 。在确定r 、f 、m 的 值时,不能采取主观赋值的办法,例如图2 1 ,对于某位客户,他过去的6 个月内购 买了产品,则确定该客户的r = 6 ,对r 值进行了主观的赋值会带来问题。最好通过 对客户的r ,按照r 期的进行倒序排列,这样可以将客户分成若干个相同的部分, 离得当前r 期越近,权值就越大,否则越小,这样的赋值更合理一些,同时对f 、 m 也按照同样的方法进行赋值。然后计算r m x f 的值,最后把计算结果从大到 小排序,前面的2 0 是最好的客户,企业应该尽量保持他们,因为他们给企业带来 了绝大部分的利益;后面的2 0 是企业应该避免的客户;中间的6 0 的客户是企业 尽量争取的,尽量挖掘这部分客户的潜能,将他们培养成企业的忠实客户。 8 江苏垄堂塑主兰堡垒查一 。一。 r f m 分析是一种有效的客户细分方法,在企业开展促销活动后,重新计算每个 客户的r f m ,对比促销前后的r f m ,可以清楚的看到客户受该活动的影响情况, 为企业开展更有效的营销活动提供可靠的依据。其缺点是分析过程复杂,时问耗费 比较大,而且客户细分得到的客户群体也比较多,难以对客户群体有较准确的理解, 也就是难以对客户群制定有效的营销战略。删分析的另外一个缺点是购买次数 与同期的总购买额( m ) 这瞬个变量之间存在着多重共性。所以该方法有一定的局限 性。 最近,次交易时问距今时间2 5 最近一次交易时间距今时间= 4 最近一次交易时间距今时间- 3 最近一次交易时问距今时间_ 2 最近一次交易时间距今时间= 1 5 1 l5 2 l 5 3 l 5 4 l 5 5 1 4 l l 4 2 l4 3 l 4 4 l 4 5 1 2 1 1 3 2 13 3 1 3 4 1 3 5 l 2 1 l 2 2 l2 3 l 2 4 1 2 5 l 1 2 1 1 3 l1 4 l 1 5 l 率率 率 率 为 为为 为 1 2 3 4 图2 1删实例分析图 = 蠹 为 5 2 3 2 客户价值矩阵分析法 为了消除购买次数与总购买额间的多重共性,m a r c u s 对传统的r f m 分析进行 修正,用平均购买额代替总购买额。另外,为了解决传统的r f m 分析过程中客户 划分的缺陷,该方法提出了用购买次数f 与平均购买额a 构成的价值矩阵简化细分 结果( 图2 2 所示) 。第三个变量r e g e n c y 在客户价值矩阵中被剔除,r e g e n c y 与其 他的变量( 如交易类型、类的长度与客户价值矩阵) 结合使用。 9 江苏大学硕士学位论文 高 购 买 次 数 f 氐 购买额度 高 图2 2 客户价值矩阵 形成客户价值矩阵需要的信息有:客户代码、代码日期、r 购买额、购买次数 由不同的购买日期的数目确定,r 购买额用来计算平均购买额。r e g e n c y 可以由最 近的购买同期确定,其可以用最近的购买日期减去最早的购买同期计算得到。交易 类型需要收集产品信息。地理、人口统计学、偏好等方面的信息也可以与客户价值 矩阵结合使用。 在m a r c u s 提出的客户价值矩阵中,确定购买次数与平均购买的基准是各自的平 均值,一旦确定每一个坐标轴的平均值,就确定每个客户所在的象限。然后,分析 每个象限中的客户群的关键差异。 客户价值矩阵的优点是细分方法有了针对性,对每个客户群制定不同的营销战 略和战术。最好的客户代表了企业的基础,保持是必要的;乐于消费型,最适合战 略是增加他们的购买频率,对于频繁消费,他们通过不断的购买证明了自己的忠诚, 最好的战略是通过交叉销售、向上销售增加他们的平均购买额;对不确定型的客户, 最好的战略可以描述为慎重精选,把营销努力集中于不确定型的新客户和那些对某 些具体的产品感兴趣的客户。结合其他的客户信息,客户价值矩阵能够制定跨越客 户群的营销战略战术,强化客户保持。 b o c k 等人提出,客户之间存在着至少五种一般类型的差别:对产品利益的偏好、 客户相互作用的影响、选择障碍、讨价还价的能力、盈利能力。b o c k 认为,按这种 差别分类能够修正或改进现有的客户细分方法,当一个或者多个差别在客户中存在 但没有被考虑时,细分是次优的。例如,当一个购买频率很高的客户被关注时,同 时他的平均购买额低,即该客户属于频繁消费类型,那么这可能是选择障碍引起的, 客户可能由于知识、感知、转移成本、信息处理方式的缺陷而没有做出高额的购买 1 0 江苏大学硕士学位论文 决策,而这种选择障碍可以由营销者产生、强化、弱化、破坏:也有可能不同类型 客户为企业推荐了很多其他的客户,由于客户相互作用影响而带来的口碑宣传,如 果忽视了这种情况,企业会损失由该客户带来的潜在客户,r f m 分析和客户价值矩 ,阵都没有全面考虑用户之间的这五种差别。 2 3 3数据挖掘客户细分法 数据挖掘是随着计算机的广泛应用和数据的大量积累而发展起来的,它同数据 库知识发现和数据仓库有着密切的联系。数据挖掘是指从存放在数据库、数据仓库 或其他信息库中的大量数据中自动地发现相关模式、提取有潜在价值的信息、挖掘 知识的过程。从c r m 的角度,数据挖掘应用就是从大量数据中挖掘出隐含的、先 前未知的、对决策有潜在价值的知识和规则,并能够根据已有的信息对未来发生的 行为进行结果预测,为企业经营决策、市场规划等提供依据。 根据数据挖掘任务划分,包含如下几种知识发现任务:分类知识发现、数据总 结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常发 现和趋势预测等。客户细分是企业开展客户关系管理的第一步,能够根据客户价值 细分客户是客户关系管理成功实施的前提条件。 客户关系管理是对企业和客户之间的交互活动进行管理的全过程,是一种旨在 改善企业与客户之间关系的新型管理机制,其核心思想是将企业的客户( 包括最终 客户、分销商和合作伙伴) 作为企业最重要的资源,通过完善的客户服务和深入的 客户分析来满足客户的要求,保证客户的最终价值。 在c r m 中应用的主要技术有:统计、聚类、决策树、神经网络和关联规则。 对于要挖掘的数据,可以是来自传统的关系数据库,也可以建立面向主题的、采用 多维数据立方体组织数据的数据仓库。因此用数据仓库组织高维数据十分有效,可 以经常使用联机分析处理和可视化处理进行多维分析。 2 4 本章小结 本章主要介绍了客户细分理论形成和产生,客户细分的概念;客户细分的原因 等。详细介绍了客户细分的方法,其中包括r f m 分析法、客户价值矩阵分析法、 数据挖掘客户细分法。 1 1 江苏大学硕士学位论文 第三章聚类分析算法弟二早聚矢万忻异 友 3 1 聚类的基本概念 “物以类聚,人以群分”,聚类是按照事物的某种属性,将事物聚成簇的过程, 聚类的目标是使得类内的对象尽可能的相似,类之间的对象尽可能的相异。与分类 不同,聚类是自动探测数据集中相似群体的无监督学习过程。在聚类过程中,通常 没有先验知识作为指导。聚类分析源于多个研究领域,包括数据挖掘、统计学、生 物学以及机器学习等。 聚类分析在许多领域都得到了广泛的应用,如市场和客户细分,模式识别、生 物学研究、空问数据分析、w e b 文档分类等。聚类分析可以作为一个独立的数据挖 掘方法,用于了解数据的分布情况,也可以作为其它数据挖掘算法的预处理步骤。 基本的数据分类有如下几种1 1 0 1 1 1 1 1 1 1 2 】:划分聚类算法、层次聚类算法、密度聚 类算法、网格聚类算法以及模型聚类算法。本章首先介绍聚类分析的基本概念,然 后介绍各聚类算法的聚类性能。 3 1 1聚类的定义 聚类可以定义为【1 3 】:在数据空间a 中,数据集x 由许多数据点( 或数据对象) 组成,数据点x i = x 秽,x 口 c a ,x ;的每个属性( 或特征、或维度) x 。,既可以是 数值类型,也可以是枚举类型。数据集x 相当于一个n d 的矩阵。假设数据集x 中有n 个对象x ;( i = l ,2 ,如。聚类的最终目的是把数据集x 划分为k 个类 c m ( m = l ,2 ,k ) ,也可能有些对象不属于任何一个类,这些就是噪声c n 。所有这些 分割与噪声的并集是数据集x ,并且这些分割之问没有交集,即: f x = gu u c ku c 1 【c tn c ,= o ( f j ) j 这些c m 就是聚类。 1 2 江苏大学硕士学位论文 3 1 2 聚类有效性的评价 聚类的有效性评价是对聚类效果的度量,通常需要结合具体的应用场景,但是 仍然存在一些客观的评价聚类效果的标准。聚类的质量受到如下因素的影响:初始 值的选择、聚类数量的选择、聚类方法的选择等【1 4 1 。下面是常用的三种评价标准: 定义3 1 分离系数: f ( u ,k ) = 三圭i = t 窆i = i ) 2 ( 3 1 ) 假设q 为所有的聚类结果,则k 的最优值由下式决定: 警 警刑) 扣2 a 扩 七 l ! j 分离系数描述了所有输入样本相对于簇心的接近程度。如果每个样本仅属于一 个类,且此时较大,那么数据的不确定性较小。 定义3 2 分离熵: 日,七) = 一三n 童i = i 窆j = l l l 。g ) ( 3 2 ) 假设q 为所有的聚类结果,则k 的最优值由下式决定: 学 警日c 叫,) 扣2 扩,上lnj 如果所有的接近0 或1 ,则熵值较小,所给出的聚类结果就较好;反之,如 果“i j 接近0 5 ,则聚类的模糊程度就高,熵就越大,聚类结果就差。 定义3 3 紧致与分离效果函数: 刚:萼掣 假设q 为所有的聚类结果,则k 的最优值由下式决定: 丫m a xj 【百m a x 即) 扣2 ,3 ,扩 ( 3 3 ) 江苏大学硕士学位论文 s ( u ,k ) 是输入样本与它们相应的聚类中心聚类的平均值与聚类中最小间距的比 值。一个好的聚类方法是聚类中一1 1 , 的间距尽可能大,而样本与聚类中一1 1 , 的间距尽可 能小。由于紧密性与分离函数综合考虑了紧密性与分离性这两个方面,因此s ( u ,k ) 函数的性能最好。 3 2 主要的聚类方法分类 在过去的十年中,提出了许多有关聚类分析的算法。聚类算法的选择取决于聚 类问题中的数据类型以及实际的应用场景。以下我们主要介绍几种聚类方法以及他 们各自的代表算法【1 0 1 1 2 1 。 3 2 1 划分方法 划分的聚类方法为给定的数据集合指定合理的划分,每个对象都被指定给唯一 的簇。簇的个数k 是需要用户指定的输入参数。给定一个包含n 个对象的数据集和 要生成的簇的数目k ,基于划分的聚类算法将数据对象组织为k 个划分( k = n ) ,其 中每个划分构成一个簇,根据所采用的相似度函数的差异,不同的算法通常具有不 同的划分标准,以便簇中对象是相似的,簇之间的对象是相异的。 ( 1 ) k - m e a n s 算法 最著名与最常用的基于划分的聚类算法是k - m e a n s 算法【1 5 1 1 1 6 1 及它的各种变体。 k - m e a n s 算法以k 为参数,把n 个对象划分为k 个簇,使簇内具有较高的相似度, 簇间具有较低的相似度。相似度的计算由一个簇对象的平均值来决定。 k - m e a n s 算法的流程如下:首先随机选取k 个对象作为初始的k 个簇心;然后 将剩余的每个对象根据其与各个簇一1 1 , 的距离分配到最近的簇中;重新计算每个簇的 簇心,直到准则函数收敛为止。通常采用的目标函数形式为平方误差准则函数: e = 盹i p - c , 1 2 i = i ( 3 4 ) 其中,e 是数据库中所有对象的平方误差的总和,p 是空间中的点,表示给定 数据对象,c ;是簇c a 的平均值。这个准则试图使生成的簇尽可能的紧凑独立。 k - m e a n s 算法中计算相异度的方法是欧几里德距离,当然也可以采用其他的距离度 量方式。k - m e a n s 算法的步骤如下: 1 4 江苏大学硕士学位论文 算法:k - m e a n s 输入:d a t a s e td ,i n t e g e rk 输出:k 个簇 1 ) 随机选择k 个对象作为初始簇的中心; 2 ) 根据簇中对象的平均值,将每个对象赋值给最近似的簇; 3 ) 更新簇的平均值,即簇心; 4 ) 簇心不再发生变化,则返回划分结果,否则转2 ) ; k - m e a n s 算法试图找出使平方误差函数值最小的k 个划分,当结果簇是密集的, 并且簇与簇之间有明显的界限时,算法效果较好。算法的时间复杂度为o ( n k t ) ,其 中n 为数据集中对象的数目,k 为目标簇的个数,t 为迭代的次数。因此算法对于大 规模数据集来说具有较高的可扩展性。一般情况下,算法能够收敛于局部最优解。 然而,k - m e a n s 算法只有簇的平均值被定义才可以使用。这可能不适应于某种 应用,例如涉及用于分类属性的数据。同时,算法要求给出k ( 要生成簇的数目) , 这要求用户具有较多的背景知识。此外,k - m e a n s 算法不适合发现非凸面形状的簇, 或者大小差别比较大的簇,而且对于孤立点数据和输入对象的顺序都比较敏感。 ( 2 ) k - m e d i o d 算法 k - m e d o i d 算法和k - m e a n s 算法过程类似,他们的区别在于:k - m e d o i d 算法用 簇中最靠近中心的对象来代表簇,而k - m e a n s 算法用质心来代表簇。由于极大的值 能够对质心的计算产生很大的影响,k - m e a n s 算法对孤立点数据异常敏感。而 k - m e d o i d 算法通过用中心来代替质心,可以有效地消除这种影响。 k - m e d o i d 聚类算法的基本策略是j 首先,随机选择k 个对象作为初始的k 个 簇代表点来代替代表点,检查聚类的质量是否有所提高。若是,则保留该替换,否 则放弃该替换,重复上述过程,直到不再发生变化为止。聚类结果的质量用一个代 价函数来估算。 各种不同的k - m e d o i d 算法中,较为常见的有p a m 算法【1 7 1 、c l a r a 算法、 c l a r a r a n s 1 8 1 1 1 9 1 算法等。 p a m 算法是最早的k - m e d o i d 算法之一。该算法是经过多次迭代进行的算法, 如果数据集的大小和簇的数目较大,该算法的性能可能会比较差。 江苏大学硕士学位论文 c l a r a 算法采用抽样来处理大型数据集。该算法首先对整个数据库进行抽样, 用抽样得到的代表集代替原数据集合,然后使用p a m 算法从中选择簇的中心点。 如果抽样是按照随机的方式进行的,那么在抽样数据集中得到的中心点就会与整个 原数据集中得到的中心点非常近似。c l a r a 算法对原数据集进行多次抽样,并对 每一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论