




已阅读5页,还剩53页未读, 继续免费阅读
(计算机软件与理论专业论文)crm中的数据挖掘应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
:海人学硕f - 学位论文 摘要 本文首先介绍了数据挖掘和客户关系管理,然后结合二者,将数据挖掘中 的各种分析方法运用于客户关系管理的交叉销售、客户价值分析和客户流失分 析,并给出了在具体数据库数据上的详细实现方法和步骤。其中,在下面三处予 以了改进或提出了新的思路: 1 在关联分析中对p h p 算法予以了改进,改进主要集中在两点:( 1 ) 在数 据库中存放项集;( 2 ) 在事务中通过连接产生初步的侯选项集。以上两点避免了 重复产生待考察项集,同时显著减少了待考察项集的数量,提高了算法的效率; 2 在序列分析中提出了用序列模式挖掘和神经网络相结合对客户购买意 向进行预测的思想,以期提高预测准确率; 3 在流失分析中提出了流失客户、流失因子的概念和时间加权法的思想, 咀利于更好地衡量客户流失程度,为流失客户的聚类提供了必要前提。 以上三点均在f o o d m a r t 连锁店1 9 9 7 1 9 9 8 年销售数据上加以应用并给出了相应 结果及分析。 理论和实践证明,数掘挖掘是客户关系管理的核一t l , 技术,有效地运用数据 挖掘技术是保证客户关系管理成功实施的关键。 关键词:c r m 、数据挖掘、交叉销售、价值客户、流失客户 上潍大学硕十学位论史 a b s t r a c t i nt h i s p a p e lw ef i r s t i n t r o d u c ed a t am i n i n g ( d m ) a n dc u s t o m e rr e l a t i o n s h i p m a n a g e m e n t ( c r m ) ,a n dt h e na p p l ya l g o r i t h m s o fd mi n c r o s s s e l l i n g ,c u s t o m e r v a l u ea n a l y s i sa n dc u s t o m e rc h u r na u a l y s i so fc r m a tt h es a m et i m e w eg i v et h e m e t h o d sa n ds t e p si nd e t a i lb a s e do nar e a ld a t a b a s e s p e c i f i c a l l y , w eh a v em a d et h e f o l l o w i n gc o n t r i b u t i o n s : 1 i na s s o c i a t i o na n a l y s i s w ei m p r o v e dp h pa l g o f i t t m a t h e r ea r em a i n l yt w o i m p r o v e m e n t s i no u r a l g o r i t h m :( 1 ) s t o r e s i t e m s e t si n d a t a b a s e s ;( 2 ) g e n e r a t e s p r i m a r yc a n d i d a t ei t e m s e t sb y i o i ni nt r a n s a c t i o n s t h et w op o i n t sa b o v ea v o i d s g e n e r a t i n gr e p e a t e d l yi t e m s e t s n e e dc h e c k i n ga n d d r a s t i c a l l yr e d u c e st h e s i z eo ft h e m f o rt h i sr e a s o no u r a l g o r i t h mp e r f o r m sb e t t e rt h a nt h ep h pa l g o r i t h m 2 i ns e q u e n c ea n a l y s i s ,w ep r o p o s e dai d e ao fp r e d i c t i n gc u s t o m e r sp u r c h a s e w i l lu s i n gs e q u e n c ep a t t e mm i n i n gt o g e t h e rw i t hn e u r a ln e t w o r ki no r d e rt oi n c r e a s e p r e d i c t i o na c c u r a c y 3 i nc h u ma n a l y s i s w ep r o p o s e dt h ec o n c e p t so fc h u mc u s t o m e r sa n dc h u r n f a c t o ra n dai d e ao fw e i g h t e dt i m em e t h o di no r d e rt oe v a l u a t ee f f i c i e n t l yc u s t o m e r c h u md e g r e ea n dp r o v i d ea n e c e s s a r yp r e c o n d i t i o nf o rc l u s t e r i n go f c h u m c u s t o m e r s w ea l s oa p p l i e dt h e s ei d e ao v e rt h es a l e sr e c o r dd a t ao b t a i n e df r o ms u p e rf o o d m a r t a n dp r e s e n t e de x p e r i m e n t a lr e s u l t sa n da n a l y s e s t h e o r ya n dp r a c t i c ep r o v e dt h a td a t am i n i n g i st h ec o r et e c h n i q u eo fc r m t h e e f f i c i e n ta p p l i c a t i o no fd a t am i n i n gt e c h n o l o g yi nc r mi st h ek e yt oi m p l e m e n t i n g c r m s u c c e s s f u l l y k e y w o r d s :c r m 、d a t am i n i n g 、c r o s s s e l l i n g 、v a l u a b l ec u s t o m e r 、 c h u mc u s t o m e r v :海人学硕士学位论文 第1 章数据挖掘与客户关系管理( c r m ) 1 1 客户关系管理 客户关系管理( c u s t o m e r r e l a t i o n s h i pm a n a g e m e n t ,c r m ) 首先是一种管理 理念,其核心思想是将企业的客户( 包括最终客户、分销商和合作伙伴) 作为最 重要的企业资源,通过完善的客户服务和深入的客户分析来满足客户的需求,保 证实现客户的终生价值【l 】。 客户关系管理又是一种旨在改善企业与客户之间关系的新型管理机制,它实 施于企业的市场营销、销售、服务与技术支持等与客户相关的领域。通过向企业 的销售、市场和客户服务的专业人员提供全面、个性化的客户资料,并强化跟踪 服务、信息分析的能力,使他们能够协同建立和维护一系列与客户和生意伙伴之 间卓有成效的对一关系”,从而使企业得以提供更快捷和周到的优质服务、提 高客户满意度、吸引和保持更多的客户,从而增加营业额:另一方面则通过信息 共享和优化商业流程来有效地降低企业经营成本。 客户关系管理的实旌,要求以”客户为中心”来构架企业,完善对客户需求的 快速反应的组织形式,规范以客户服务为核心的工作流程,建立客户驱动的产品 ,服务设计,进而培养客户的品牌忠诚度,扩大可盈利份额。 c r m 也是一种管理软件和技术,它将最佳的商业实践与数据挖掘、数据仓 库、一对一营销、销售自动化以及其它信息技术紧密结合在一起,为企业的销售、 客户服务和决策支持等领域提供了一个业务自动化的解决方案,使企业有了一个 基于电子商务的面对客户的前沿,从而顺利实现由传统企业模式到以电子商务为 基础的现代企业模式的转化。 据国际c r m 论坛统计,国际上成功的c r m 实施,能给相应的企业每年带 来6 的市场份额增长;提高9 1 0 的基本服务收费:并超过服务水平低的企业 2 倍的发展速度。 1 1 ,1 客户关系管理对企业的意义 传统企业管理的着眼点往往在后台,e r p 系统帮助他们实现了这种内部商业 流程的自动化,提高了生产效率。而对于前台,往往重视得不够,面对诸如:那 种产品最受欢迎、原因是什么、有多少回头客、哪些客户是最赚钱的客户、售后 服务有哪些问题等,大部分企业还只能依靠经验来推测。作为专门管理企业莳台 的客户关系管理为企业提供了个收集、分析和利用各种客户信息的系统。帮助 上海大学硕士学位论文 企业充分利用其客户管理资源,也为企业在电子商务时代从容自如地面对客户提 供了科学手段和方法。 c r m 作为客户关系管理软件,不仅实现企业的销售自动化,而且使企业能 够充分利用客户信息来优化企业决策过程。c r m 赋予客户与企业进行交流的能 力,而这种交流是通过一种对客户来晚最方便、对企业来说性价比最高的交流载 体来进行的。c r m 使企业逐步从传统的营销、销售和服务模式,进化到以i n t e r n e 为中心的模式来完成扩大市场领域、改进客户服务以及增强产品和服务的个性 化。 1 1 2 客户关系管理的主要特征 一对一营销、高度集成的交流渠道、基于i n t e m e t 的基础架构是客户关系管 理的三个主要特征。 一对一营销 一对营销就是企业根据客户的特殊需求来相应调整自己的经营行为。一对 一营销要求企业与每一个客户建立一种学习型关系。企业每一次与客户的交往都 使企业对该客户增长一分了解,从而不断地改善产品和服务,提高令该客户满意 的能力。 实施”一对一营销”有四个重要步骤: ( 1 ) 客户识别 企业必须与大量客户进行接触至少要和那些对企业最有价值的”金牌客户” 打成一片,通过每一次接触、每一种渠道不断积累客户的个性化信息。 ( 2 ) 客户差异分析 不同客户之间的差异主要表现在两点:一是他们对企业的价值不同;二是他 们对产品或服务的需求不同。对客户进行有效的差异分析,可以帮助企业更好地 配置资源,使产品或服务的改进更有效,识别并掌握最有价值的客户以期获锝最 大的收益。 ( 3 ) 保持与客户的积极的、良性的接触 保持与客户的积极接触,及时、全面地更新客户信息,从而加强对客户需求 的透视深度,更精确地描述客户的需求。 ( 4 ) 确定个性化产品或服务 通过客户识别、客户差异分析、以及与客户积极和良性的接触,企业应不断 调整自己的产品和服务,针对不同客户提供不同个性化的产品或服务,以实现一 对一营销。 高度集成的交流渠道 c r m 通过采用先进的信息技术,将电话、传真、w e b 、无线接入等多种交 海人学顺i 学位论文 流渠道进行高度集成,使企业与客户无论通过何种渠道、何种地点、何种时间, 都能够通畅地交流。 基于i n t e m e t 的基础架构 c r m 将i n t e m e t 作为基础架构,采用标准化的w e b 浏览器来实现客户端的 访问,同时集中管理和维护商业逻辑和数据,因而大大降低了系统部署、职员培 训、软件升级等成本。 c r m 的以上特征相互支持、高度融合, 共同组成了c r m 的强大功能。 1 1 3c r m 系统结构 一个较完整的c r m 系统应该包括:客户信息收集和客户关系管理,市场营 销与管理,销售及售后服务与管理,各种信息数据的存储、分析、挖掘和预测以 及对生产和市场的决策支持系统【2 。它的流程如图l 一1 所示。 团圆 延匿臼圜 图l 。1c r m 系统结构 1 2 数据挖掘 数据挖掘( d a t am i n i n g ) ,又称数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,k d d ) ,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡 的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新 领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。 数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。 今天的技术可以使挖掘过程自动化,把数据挖掘与商业数据仓库相结合,并以适 当的形式把结果表示给从事商业活动的用户看。 1 2 1 数据挖掘分析方法 数据挖掘是从大量数据中提取知识。从数据库的观点出发,数据挖掘方法比 较典型的有关联分析、序列模式分析、分类分析、聚类分析等。 海大学颁i :学位论文 ( 1 ) 关联分析 关联分析,即利用关联规则进行数据挖掘。关联分析的目的是挖掘隐藏在数 据间的相互关系,它能发现数据库中形如“9 0 的顾客在一次购买活动中购买商 品a 的同时购买商品b “之类的知识。 ( 2 ) 序列模式分析 序列模式分析的侧重点在于分析数据问的前后序列关系。它能发现数据库中 形如”在某一段时间内,顾客购买商品a ,接着购买商品b ,而后购买商品c , 即序列a b c 出现的频度较高“之类的知t 。 ( 3 ) 分类分析 设有一个数据库和一组具有不同特征的类别( 标记) ,该数据库中的每一个记 录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就 是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或 挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。 ( 4 ) 聚类分析 与分类分析不同,聚类分析输入的是一组未分类记录,并且这些记录应分成 几类事先也不知道。聚类分析就是通过分析数据库中的记录数据,根据一定的分 类规则,合理地划分记录集合,确定每个记录所在的类别。 1 2 2 数据挖掘系统结构 典型的数据挖掘系统具有以下主要成分( 见图1 2 ) 数据 图1 2 典型的数据挖掘系统结构 :海人学钡上学位论文 数据库或数据仓库或其它信息库:可以在数据上进行数据清理和集成。 数据库或数据仓库服务器:根据用户的挖掘请求,数据库或数据仓库服务 器负责提取相关数据。 知识库:这是领域知识。用于指导搜索,或评估结果模式的兴趣度。 数据挖掘引擎:用于特征化、关联、分类、聚类分析以及演变和偏差分析。 模式评估模块:通常,此成分使用兴趣度度量,并与数据挖掘模块交互, 以便将搜索聚焦在有趣的模式上。 图形用户界面:本模块在用户和数据挖掘系统之间通信,允许用户与系统 交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖 掘的中间结果进行探索式数据挖掘。 1 3 用数据挖掘实现c r m 数据挖掘技术能够帮助企业管理客户生命周期的各个阶段,包括争取新的客 户、让已有的客户创造更多的利润、保持住有价值的客户等等。下面是数据挖掘 在客户关系管理的四个重要方面的应用。 客户获得 对于多数行业来说,企业的增长需要不断地获得新的客户。数掘挖掘能够辨 别潜在客户群,并提高市场活动的响应率。 交叉销售 现在企业和客户之间的关系是经常变动的,一旦一个人或者一个公司成为你 的客户。你就要尽力使这种客户关系对你趋于完美。一般来说可以通过三种方法: 丰最长时间地保持这种关系 最多次数地和你的客户交易 $ 最大数量地保证每次交易的利润 因此就需要对我们已有的客户进行交叉销售。交叉销售是指企业向原有客户 销售新的产品或服务的过程。交叉销售是建立在双赢原则的基础之上的,客户因 得到更多更好符合他需求的服务而获益,企业也因销售增长而获益。 客户保持 现在各个行业的竞争都越来越激烈,企业获得新客户的成本f 不断的上升, 因此保持原有客户对所有企业来说就显得越来越重要。数据挖掘可以帮助发现谁 该去维护,谁最有可能离去。 客户分类 客户分类是把大量的客户分成不同的类,在每个类里的客户拥有相似的属 性。数据挖掘同样可以进行客户分类,细致而切实可行的客户分类对企业的经营 策略有很大益处。 j :海大学坝1 :学位论义 第2 章交叉销售 2 1 交叉销售与数据挖掘 公司与其客户之间的商业关系是一种持续的不断发展的关系。在客户与公 司建立起这种双向的商业关系后,可以有很多种方法来优化这种关系: 延长这种关系的时间 在维持这样的关系期间增加互相的接触 在每一次互相接触中获得更多的利润 作为公司,其目标是要达到双赢的结果,即客户和商家都可以从中获益。 客户获益是由于他们得到了更好更贴切的服务质量,商家则因为增加了销售量而 获利。 这就是交叉销售。交叉销售就是指你向现有的客户提供新的产品和服务的 营销过程 3 。那些购买了婴儿纸尿布的顾客会对你能提供的其它婴儿用品很感 兴趣。这个道理非常容易理解。但是只有我们找到非常精确的模型后,才可以从 中获利。而数据挖掘技术就能帮助我们做到这一点。 凭借有力的数据挖掘解决方案,可以很好地处理实施交叉销售的具体问题。 在这里,我们看一下如何回答市场人员经常问的一个问题:“我应该向什么人销 售什么产品? ”。更准确的来看,这可以分成以下三个问题: 1 哪些产品是经常被一块购买的? 2 哪些产品是经常被同类型的顾客购买的? 3 顾客购买某种商品的可能性有多大? 以上三个问题可以分别用数据挖掘中的关联、聚类、时序分析加以解决。 通过关联分析,确定哪些属性是经常同时存在的,得出规律,指出顾客购买某种 产品组合的可能性。就可以回答“哪些产品是经常被一块购买? ”的问题。这种方 法经常被用在零售业的市场菜篮子分析,用来决定超市中哪些商品是经常一块被 购买的。关联分析的结果也可以用于交叉销售。对于购买频率较高的商品组合, 找出那些购买了组合中大部分商品的顾客,向他们推销“遗漏的”商品。采用聚类 分析,可以回答“哪些产品是经常被同类顾客购买? ”的问题。在聚类分析中,基 于顾客属性的相似性,对顾客进行分类,每个类别都有特定的聚类指标,这样就 可以根据聚类指标给类别中的顾客提供相应的商品,实现交叉销售。而时序分析 主要用于发现客户购买商品前后顺序方面的规律性,比如,客户在购买商品a 后8 0 的可能性会购买商品b ,这实际上回答了“顾客购买某种商品的可能性有 多大? ”的问题。而购买商品a 但尚未购买商品b 的客户,对于商家而言,意昧 海大学碳i :学位论殳 着绝佳的销售机会。 2 2 利用聚类分析实施交叉销售 聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有 较高的相似度,而不同簇中的对象差别较大。过去,对于多因素、多指标的分类, 大多靠经验和专业知识作出定性的分类,往往带有主观性和随意性。运用聚类分 析方法,可以在不存在事先分类的情况下,进行数据结构的分类,揭示客观事物 内在的本质差别和联系。 聚类分析的基本思想是:认为我们所研究的对象中各单位之问存在着程度 不同的相似性( 亲疏关系) 。于是,根据众多单位的多个观测指标,找出能够度量 各单位之间相似程度的统计量,以此作为划分类型的根据,把一些相似程度较大 的单位聚合为一类,把另外一些彼此相似程度较大的单位又聚合在另一类,关系 密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把 所有单位都聚合完毕。然后把不同的类型一一划分出来,形成个由小到大的分 类系统。最后再把整个分类系统画成一张图,用它把所有单位间的亲疏关系表示 出来。该方法是聚类中最常用,最基本的方法,称为系统聚类法。 在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群, 并且用购买模式来刻画不同客户群的特征。具体来说,通过聚类分析,可以将企 业的已有客户分类,然后再用统计的方法找出每一类中大部分客户购买过的商 品,向该类中的其他客户推销该商品。 2 2 1 客户聚类分析的数据类型 对大量的客户信息进行聚类分析不同于一般的由单一类型变量描述的对象 的聚类分析,它涉及计算混合类型变量描述的对象之间的相异度,因而有必要对 相关的数据类型予以介绍。 区间标度变量 区间标度变量是一个粗略线性标度的连续度量。典型的例子包括重量和高 度,大气温度等。为了避免对度量单位选择的依赖,数据应当标准化。为了实现 度量值的标准化,一种方法是将原来的度量值转换为无单位的值。给定一个变量 f 的度量值,可以进行如下的变换: ( 1 ) 计算平均的绝对偏差s f : s f = 二( i x l r - m d + l x 2 t m d + + k n v - 1 t ij ) 月 这里的x i x 2 【x n f 是f 的n 个度量值,m r 是f 的平均值,即 m f = 一1 ( x l x 2 广卜+ x n 0 :海人学硕i :学位论史 ( 2 ) 计算标准化的度量值: z i f = ( x i f - m o s f 平均的绝对偏差s r 比标准差一f 对于孤立点具有更好的鲁棒性。 - 二元变量 一个二元变量只有两个状态:0 或l ,0 表示浚变量为空,l 表示陔变量存在。 如果它的两个状态是同等价值的,并有相同的权重,那么该二元变量是对称的, 也就是两个取值0 或l 没有优先权。例如,属性“性别”就是这样的一个例子, 它有两个值:“女性”和“男性”。如果两个状态的输出不是同样重要,那么,该 二元变量是不对称的。例如一个疾病检查的肯定和否定的结果。根据惯例,我们 将比较重要的输出结果,通常也是出现几率较小的结果编码为l ,而将另一种结 果编码为o 。 序数型变量 一个离散的序数型变量类似于标称变量,除了序数型变量的m 个状态是以有 意义的序列排序的。序数型变量对记录那些难以客观度量的主观评价是非常有用 的。例如,职业的排列经常按某个顺序,例如助理、副手、正职。一个序数型变 量可以映射为秩。例如,假设一个变量f 有m 。个状态,这些有序的状态定义了 一个排列1 ,在计算对象的相异度时,假设第i 个对象的f 值为x 。,用 对应的秩r 。,代替x 。r 。 1 ,。既然每个序数型变量可以有不同数目的 状态,我们经常必须将每个变量的值域映射到 0 0 ,1 0 上,以便每个变量都有 相同的权重。这一点可以通过用z 。代替r 来实现: z i ,= ( r i f - - 1 ) ( m ,一1 ) 混合类型变量的相异度计算 在对客户信息进行聚类分析时,客户对象是被混合类型的变量描述的,可能 是区间标度变量、对称二元变量、不对称二元变量、标称变量、序数型变量等。 计算混合类型变量描述的对象之间的相异度的一种技术是将不同类型的变量组 合在单个相异度矩阵中,把所有有意义的变量转换到共同的值域区间 o 0 ,1 o 上。 假设数据集包含p 个不同类型的变量,对象i 和j 之间的相异度d ( i ,j ) 定 义为 d ( i ,j ) 2 ( :5 “d o i j ) ,( :1 6 。j j ) 其中,如果x ,或x ,缺失( 即对象i 或对象j 没有变量f 的度量值) ,或者x i f = x j r = o , 且变量f 是不对称的二元变量,则指示项、。= o ;否则。指示项d n i = l 。变量f 对i 和j 之间相异度的计算方式与其具体类型有关: 如果f 是二元变量或标称变量:如果x i , = x 。d n = 0 ;否则d m 1 = 1 。 如果f 是区间标度变量:d ( i i 。= x i f x j f ( m a x 。x h f m i n hx h f ) ,这里的h 遍 海:= 学硕l 学位论文 取变量f 的所有非空缺对象。 如果f 是序数型变量:计算秩r 。和z 。= ( r 。r 一1 ) ( m ,- 1 ) ,并熄z 。,作为区 间标度变量值对待。 2 2 2 客户聚类分析 下面说明如何利用聚类法对客户进行分类。在一商业数据库中随机抽取2 0 名客户,按以下步骤进行: 1 由于反映客户购买商品的变量( 影响因素) 较多,并且各变量之间往往存在一 定的相关性,使得各变量所反映的信息在一定程度上有所重叠,因而有必要简化 多变量结构。这里,我们取描述客户的如下八个变量:年龄( 由客户生r 得到) 、 婚姻状态、年收入、性别、在家子女数、教育程度、成员卡类型、是否房主。见 表2 1 c u s t - a g e m a r i t a i y e a r l y g e n d e rn u me d u c a t i o nm e m b e rh o u s e o m e rs t a t u si n c o m ec h i i d r e nc a r do w n e r i d ( k s ) a th o m e l4 ls1 0 - 3 0 m0 p a r t i a lh i g hs c h o o ln o r m a l n 23 7m3 0 5 0f l h i g hs c h o o ld e g r e e b r o n z ey 33 4m5 0 7 0f2b a c h e l o r sd e g r e eb p o n z ey 45 6s5 0 7 0mob a c h e l o r sd e g r e en o r m a jn 55 7s1 3 0 - 1 5 0m0g r a d u a t ed e g r e eb r o n z ey 62 8m3 0 - 5 0m3p a r t i a lh i g hs c h o o lg o l d e nn 78 2s3 0 5 0m0 h i g hs c h o o ld e g r e e b r o n z en 84 8m7 0 9 0m0b a c h e l o r sd e g r e eb t o n z ey 94 3m1 1 0 一1 3 0f0 h i g hs c h o o ld e g r e e b r o n z ey l o3 9m3 0 - 5 0m2b a c h e l o r sd e g r e eb r o n z e_ n l i8 0m1 3 0 15 0m2g r a d u a t ed e g r e eb r o n z ey 1 24 9s1 0 3 0f0p a r t i a lh i g hs c h o o ls i l v e rn 1 33 3s7 0 - 9 0m0b a c h e l o r sd e g r e eb r o l l z en 1 48 2s5 0 7 0f0p a r t i a lc o l l e g es i l v e rn 1 55 7m3 0 s 0fl h i g hs c h o o ld e g r c e b r o r z ey 1 63 7m3 0 - 5 0f3p a r t i a lc o l l e g eg o l d e nn i72 4s5 0 7 0fob a c h e l o r sd e g r e eb r o n z en l86 6m1 0 3 0f4p a r t i a lh i g hs c h o o ln o r m a iy 1 95 5s3 0 5 0f0 f l i g hs c h o o ld e g r e e b r o n z en 2 04 8m7 0 9 0f3b a c h e l o r sd e g r e eg o l d e ny 表2 1 客户数据样本 2 将a g e ,y e a r l yi n c o m e 和n u mc h i l d r e na th o m e 视为区间标度变量,g e n d e r 视为对称二元变量,m a r i t a ls t a t u s 和h o u s e o w n e r 视为不对称二元变量,e d u c a t i o n 9 海人学顾f :学位论文 和m e m b e rc a r d 视为序数型变量。对区问标度变量和序数型变量进行标准化处 理,对对称二元变量g e n d e r ,将状态m 编码为1 ,状态f 编码为0 ,对不对称 二元变量m a r i t a ls t a t u s ,将状态m 编码为】,状态s 编码为0 ,对h o u s e o w n e r 将状态y 编码为l ,状态n 编码为0 。见表2 2 c u s t a g e m a r i t a ly e a r l yg e n d e rn i i me d u c a t i o nm e m b e rh o u s c o m e ri n c o m ec h i d r e nc a r do w n e r 泔a th o m e i06 4o 15 010000 2 0 ,9 4 1o7 7oo2 50 2 50 3 3l 3 一l1 6 100 4 0050 7 50 3 3l 40 4 5000 4 1o07 500 505 302 。8 8 )o】03 3l 616 010 7 7 l07 50 1 0 723 60 07 7 l00 2 50 ,3 30 801 310 6 9 lo0 7 503 3l 905 012 1 5000 2 503 3i 1 007 91o7 7 jo5o7 503 3o 1 122 l l28 8 l05l0 3 31 1 20 0 6015 00000 6 70 1 3 12 3006 9 l00 7 50 3 30 1 423 6000 4oo050 6 70 】5o 5 3】- o 7 7o o 2 5d 2 5 0 3 3 l 1 60 9 4107 7007 5o 5 l0 l718 9000 40007 50 3 30 1 81 - 1 9 1i 5 00 l001 i90 3 80- 07 70002 503 30 2 0o 1 3】0 6 9oo7 50 ,7 5i; 表2 - 2 变换后的客户数掘 3 计算各对象之间的相异度屯,以反映各对象2 _ f b j 雕j 亲疏程度。例如第5 和第 8 个对象之间的相异度为 d = 1 0 5 3 + 0 1 3 l ( 2 3 6 1 8 9 ) + 1 + 2 8 8 0 6 9 1 ( 2 8 8 + 1 5 0 ) + 0 + o + 1 卜0 7 5 i 1 + 0 + 0 ( 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 ) = o 2 4 其余相异度计算依此类推,结果示于表2 3 上海大学硕上学位论文 1234567891 0l l1 21 31 4 1 51 6 l71 81 92 0 l0 205 10 306 30 1 20 40 2 20 4 50 5 30 5o5 20 5 2o 4 80 3 20 604 50 4 50 4 90 5 907 20 702 4o ,5 006 30 2 40 4 3o 4 60 804 60 2 902 40 ,3 302 4o 4 80 4 30 903 l0 i30 2 l0 5 70 4 00 5 70 5 40 2 40 1 002 5o3 502 80 3 304 90 2 70 3 90 2 504 70 1 106 90 4 50 3 40 5 20 2 40 5 80 5 20 2 3o3 803 50 1 20 3 00 4 00 5 20 4 80 6 40 5 20 3 90 5 80 310 5 60 6 70 1 3o 2 9o5 2 04 6 0 ,1 3 0 3 l0 5 lo 2 8o2 8 0 3 802 8 0 ,5 10 4 90 1 405 404 70 4 903 9 05 60 6 702 905 403 405 7 06 30 2 304 30 150 5 300 40 1 705 304 804 904 602 80 1 50 3 804 00 3 9 05 604 30 1 60 6 40 1802 905 707 602 206 405 204 303 206 3o 4 2 05 804 303 50 j 7o 4 503 90 3 30 3j0 4 70 ,6 304 50 4 504 204 20 6 70 3j02 202 604 40 ,4 40 1 8o5 5o2 50 3 106 60 6 905 10 6 30 4 902 305 30 5 104 907 706 202 104 306 40 1 903 303 20 4 403 40 5 405 902 504 903 604 906 90i403 702 002 904 3o 2 004 90 2 007 702 80 1 706 30 5 404 307 303 00 2 90 4 30 4 0o 5 405 905 102 702 20 5 003 505 50 表2 - 3 各对象之问的相异度 4 聚类。用于聚类的方法很多,这里主要介绍系统聚类法,其基本作法是: 首先将所有对象各自看作是一类,由于每个对象自成一类,故而类与类之间的距 离和对象与对象之间的距离是相等的。这时,首先选择其中距离最小的两个对象, 将其合并为一类,并计算该类与其它各类之间的距离,然后再将其中距离最短的 两类合并在一起,这样通过每次合并减少一类,直至将所有对象全部聚合为一类 为止。由于在聚合过程中需要比较各个类f 日j 的距离,因此还要对类问距离加以定 义。我们选用常用的最短距离法。依此方法,类与类之间的距离,取决于这两类 中相距最近的两个对象之间的距离。使用最短距离法的具体分类步骤是:先计算 出各对象之间的距离( 这里用相异度表示) d 。然后从这些距离中选出距离最短的 两个对象,将这两个对象合并为一类,接着选出距离次短的,并将挑选结果按下 列规则处理:( 1 ) 若这两个对象在已有的类中没有出现过,则将其合并为一个新 类( 2 ) 若这两个对象分别属于己有的两类,则把这两类合并为一类( 3 ) 若这两个对 象中的某一对象在已分好的类中出现过,则将另一个对象也并入该类中( 4 ) 若这 两个对象都在已分好的同一类中,则在原类不动。依照上述规则反复挑选、合并, 直至将所有的对象归并为一类为止 4 】。 以类间的最短距离为依据,对这旱的2 0 个客户进行分类。从上表可以看到, 在所有的相异度( 距离) 中,客户2 和客户1 5 的相异度最小,即d 2 娜= 0 0 4 ,故首 i 海大学顺士学位论文 先将这两个客户合并为一类。在余下的相异度中最小的是d 2 3 = o 1 2 ,由于客户2 在上一次己同客户1 5 合并为一类,按规则应将客户3 也并入这类中去。然后在 其中继续寻找相异度仅大于o 1 2 的对象对,发现d 2 9 = d 4 1 3 = 0 13 ,故把客户9 并 入已有的类中,把客户4 和客户1 3 合并为一个新类。如此下去,直到所有客户 聚成一类。由最终的计算结果可以得到聚类谱系图如图2 1 。 2 1 5 3 9 2 0 1 6 1 8 1 3 2 1 9 1 4 1 7 1 0 0 0 50 ,1 00 1 s0 2 0o 2 s 图2 一l 聚类谱系图 横坐标表示对象之间的相异度,纵坐标表示客户。由此图可以看出,它将 2 0 个客户分成三类,第一类包含2 ,1 5 ,3 ,9 , 2 0 ,1 6 ,1 8 ,6 ,8 ,1 1 ,5 :第二类包含 7 ,】,4 ,】3 ,1 2 ,1 9 ,1 4 ,1 7 ;第三类包含1 0 :在这个分类中,第一类代表已婚且已购置 房子的客户,第二类代表未婚且末购置房子的客户,第三类代表已婚但未购置房 子的客户。可见,在赋予各变量相同权重以达成自然分类的情况下,婚姻状况、 是否房主是影响客户群分类的主要因素,而年龄、性别、年收入、教育程度等的 影啪f 不大。 2 2 3 用聚类分析结果实旌交叉销售 用聚类分析将客户群划分成类后,就可以在此基础上用统计的方法找出每个 1 2 海大学坝 j 学位论文 类中大部分客户购买过的商品,我们称浚商品为属于该类的特征商品,然后向该 类中的其他客户推销特征商品。例如,在上面的分类中,若第一类中的客户 2 ,1 5 ,3 ,9 ,1 8 , 6 ,8 ,l l 购买了商品a ,则可以向该类中的其他客户2 0 ,1 6 ,5 推销该商品。 在具体的实施中,可以预先确定一个百分比,当一类中购买菜商品的客户数量占 该类客户总量超过该比率时,该商品即是特征商品。 此外,采用聚类分析实施交叉销售,因聚类的粗糙、精细程度不同,其预测 的准确率亦有差异,即当划分的类较多时准确率较高,划分的类少时准确率就相 应降低。因此,在对客户群进行聚类时,应尽量使同类中的客户特征一致,即划 分出的类要足够多。当然若类数太多,每类中的客户太少,对其进行统计所反映 的准确率也会降低,造成分类失去实际意义。 需要指出的是,聚类分析只利用了客户特征与购买模式的内在联系一种预测 方法进行预测,准确率不可能很高。理想的办法是将其与其它预测方法结合,如 后面提到的基于序列模式挖掘预处理数据的神经网络对购买意向进行预测的方 法。此外,也可将聚类方法和分类方法结合以便更准确地将客户群分类。即先根 据以往的经验和简单的统计方法对客户划分类别,然后利用分类方法分析上述数 据集合,得到每个类别的特征描述,接着,把这些描述作为新的分类规则利用聚 类分析方法重新对原数据集合进行划分,循环使用这两种分析方法直到得到满意 的结果 5 】。 2 3 利用关联分析实施交叉销售 2 3 1 关联规则挖掘 关联规则挖掘是数据挖掘最常用的方法,它可以发现大量数据中项集之涮有 趣的关联或相关联系。关联规则挖掘的一个典型例子是购物篮分析。该过程通过 发现顾客放入购物蓝中不同商品之间的联系,分析顾客的购买习惯。通过了解哪 些商品频繁地被顾客同时购买,发现这些商品之间的关联,从而帮助零售商制定 营销策略。例如,在同次去超市,如果顾客购买牛奶,他也购买面包的可能性 有多大? 通过帮助零售商有选择地经销和安排货架,这种信息可以引导销售。例 如,将牛奶和面包尽可能放近一些,可以进一步刺激一次去商店同时购买这些商 品【6 】。 关联规则通常如下描述:设i = f i l ,i 2 ,i 1 1 1 】是项( i t e m ) 的集合,其中的元素称 为项。记d 为事务( t r a n s a e t i o n ) t 的集合,这里事务t 是项的集合,并且1 c 【。 对应每一个事务有唯一的标识,记作t i d 。设x 是一个i 中项的集合,如果x c t , 那么称事务t 包含x 。一个关联规则是形如x j y 的蕴涵式这罩x c l ,y c i , 并且x n y = m 。规则x j y 在事务数据库d 中的支持度( s u p p o r t ) 是事务集中包 含x 和y 的事务数与所有事务数之比,记为s u p p o r t ( x j y ) ,即 l :海大学硕j :学位论文 s u p p o r t ( x 等y ) 2 l t :x u y c t ,t e d i i d l 规则x j y 在事务集中的置信度( c o n f i d e n c e ) 是指包含x 和y 的事务数与包含 x 的事务数之比,记为c o n f i d e n c e ( x 等y ) ,即 c o n f i d e n c e ( x j y ) = l t :x w y c t ,t e d m t :x 呈t ,t e d ) 给定一个事务集d ,挖掘关联规则就是产生支持度和置信度分别大于用户给定的 最小支持度( m i ns u p ) 年n 最小置信度( r a i n的关联规则。cond 关联规则的挖掘是一个两步的过程:第一步找出所有项的集合,称为项集 f i t e m s e t ) ,使得它们满足最小支持度。这些满足最小支持度的项集称为频繁项集 ( f r e q u e n ti t e m s e t ) 。包含k 个项的项集称为k 项集( k i t e m s e t ) ;第二步由频繁项集 产生关联规则。对每个频繁项集i ,产生i 的所有非空子集,对于l 的每个非空子 集s ,如果s u p p o r t _ c o u n t ( 1 ) l s u p p o r _ t c o u n t ( s ) = m i n _ c o n f ,则输出规则“s 等( 1 一s ) “。 其中,s u p p o 瞳c o u n t 是支持计数,它反映项集的出现频率,即包含项集的事务数。 挖掘关联规则的第一步是一个非常消耗系统资源的过程,因此挖掘关联规则 的总体性能由该步决定。目前已提出的算法其着眼点主要针对该步的效率问题, 这些算法中包括d i r e c th a s h i n ga n dp r u n i n g ( d h p ) 7 ,8 】和p e r f e c th a s h i n ga n d p r u n i n g ( p h p ) 9 】,这两种算法都是a p r i o r i 1 0 算法的变形,旨在提高a p r i o r i 的 有效性。其中p h p 是对d h p 的改进,它有效降低了d h p 的系统c p u 占用时间。 这些算法在下文中将陆续予以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版片石石材雕刻艺术创作合同协议书范本
- 2025年特种车辆租赁安全合同
- 2025版私人抵押车辆评估与交易合同样本
- 河北省霸州市2025年上半年公开招聘辅警试题含答案分析
- 2025年数字博物馆电脑室设备购置安装服务合同
- 2025年度汽车事故免责保障合同
- 海南省琼中黎族苗族自治县2025年上半年公开招聘村务工作者试题含答案分析
- 海南省临高县2025年上半年公开招聘城市协管员试题含答案分析
- 2025年度专利技术使用权转让合同
- 2025版网络安全人员劳务合同范本
- 《塑料门窗工程技术规程》JGJ103-2008
- 高三5月大联考作文“新技术”“新产业”“新质生产力”导写
- 手持电动工具安全培训
- (正式版)JBT 9229-2024 剪叉式升降工作平台
- 沃特玛通信基站用铁锂电池
- 曲臂车操作规程含曲臂式高空作业车专项施工方案报审表
- 2019版新人教版高中英语必修+选择性必修共7册词汇表汇总(带音标)
- 熟食行业食品安全培训
- 度假村项目策划书
- 黑龙江小学生诗词大赛备考试题库400题(一二年级适用)
- 《HSK标准教程1》第4课课件
评论
0/150
提交评论