(统计学专业论文)KMeans算法在客户细分中的应用研究.pdf_第1页
(统计学专业论文)KMeans算法在客户细分中的应用研究.pdf_第2页
(统计学专业论文)KMeans算法在客户细分中的应用研究.pdf_第3页
(统计学专业论文)KMeans算法在客户细分中的应用研究.pdf_第4页
(统计学专业论文)KMeans算法在客户细分中的应用研究.pdf_第5页
已阅读5页,还剩102页未读 继续免费阅读

(统计学专业论文)KMeans算法在客户细分中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘爱 摘要 无论是金融行业,还是电信行业,日益激烈的竞争使企业认识到客户是 他们真正的资产,主要工作也都是围绕保留现有客户和发展新客户展开,营 销方式也从大众化营销转为通过差异化、一对一营销来实现客户满意和公司 获利的双赢,而差异化、一对一营销的关键就是有效的客户细分。客户细分 的关键问题就是找出客户的特征,通过一些统计分析方法可以将客户隐藏在 数据中的特征挖掘出来,从而进行分类。 传统意义上,客户细分往往根据客户的一维属性来进行,如金融行业根 据客户资产多少,可以将客户分为高、中、低端客户,该细分方法最大的优 点是简单,可以方便地根据营销资源预算,取舍营销活动中的目标群体,在 实践中简便易行。但是,随着技术的进步与客户需求的日趋多样化,以及企 业产品的不断创新,传统的客户细分方法显现出了明显的缺点,即使同是高 端客户,客户对同一产品或服务的需求也存在着明显差别,客户对产品或服 务的要求日趋理性和严格,这种传统的基于一维的客户细分在实践中的应用 显得力不从心。需要一种新的细分方法,能够实现:客观反映客户分组内在 的特性;综合反映客户多方面的特征:有利于营销人员更加深入细致地了解 客户特征;便于实现对客户行为变化的动态跟踪。这就需要用几十个,甚至 上百个变量从而对客户进行更为精确的描述,在此基础上对客户进行更为精 确的细分,因而,用于解决多变量的、大数据量的客户细分的数据挖掘技术 也就应运而生了。 客户细分通常用聚类分析方法来实现,其中k - m e a n s 算法是实践中最为常 用的数据挖掘算法之一,在处理大数据量方面有绝对优势,而且可以取得较 好的效果。 在客户细分中,围绕k - m e a n s 聚类,如何依据通用的数据挖掘方法论,有 针对性地将k m e a n s 应用于客户数据建模中,对这些问题的实证研究在国内尚 k - m e a n s 算法在客户细分中的应用研究 不多见。 因此,从数据挖掘建模的角度,对用k - m e a n s 算法对客户进行聚类的问题 进行理论分析和实证研究,具有一定的现实意义。 本文第一章主要阐述客户细分的研究背景,并说明研究的动机与目的以 及本文研究的步骤。 本文第二章对实现客户细分的相关技术理论进行了总结和回顾。利用数 据挖掘方法进行客户细分一个关键的问题就是客户细分方法论,在参阅大量 国内外理论研究和实践文献的基础上,归纳总结了客户细分方法论,作为后 续研究的基础。 客户细分通常用聚类分析方法来实现,在阐述了聚类分析相关概念如距 离、数据矩阵、变量标准化等基础上,重点分析了k m e a n s 聚类的优点和缺点。 k - m e a n s 聚类是一种优化聚类算法,运算速度快,适宜处理大数据,但是聚类 结果与变量的量纲、异常值的处理方式、变量的维度、观测的顺序以及k 个初 始凝聚点的选择等都有很大的关系,本章着重对影响k m e a n s 聚类结果的因素 尤其是初始凝聚点的选择方法进行了理论上的分析和总结,也对k m e a n s 聚类 在实际中应用状况进行了文献回顾和探讨。 聚类结果对实际是否有意义,需要对结果从技术和业务两个方面进行评 估,本章对聚类结果好坏的评价标准进行了探讨。k - m e a n s 算法对高维数据的 聚类效果较差,本文引进用主成分分析方法对高维数据进行降维。 本文第三章,实证分析架构设计,也就是本论文实证研究方法。c r i s p d m ( c r o s s i n d u s t r ys t a n d a r dp r o c e s sf o rd a t am i n i n g ) 是公认的、较有影 响的数据挖掘方法论之一。s e m m a 是s a s 公司对其数据挖掘软件e n t e r p r i s e m i n e r 提出来的一种对数据挖掘实施核心过程的描述。本文在研究c r i s p d m 以 及s a ss 蹴淞的基础上,结合实际情况设计本研究的实证分析流程,探索利用 k - m e a n s 聚类进行客户细分的一般数据挖掘流程和方法。 本文第四章在某银行客户数据的基础上,借助s a s s t a t 、e m 所提供的统 计分析和数据挖掘方法,围绕认识和理解客户的目标,主要利用k m e a n s 算法 对客户数据进行实证分析,探索k - m e a n s 聚类用于客户细分的主要过程和一般 分析方法。 本章共对比了实践中比较常用的八种选择初始凝聚点的方法,对他们的 2 摘要 聚类结果进行了对比分析,并给出方法实现的s a s 代码。这八种方法共分为两 种类别:合成初始凝聚点的方法:实际观测点作为初始凝聚点的方法。前者 如用初始聚类的质心作为聚类的初始凝聚点( r a n d o mc e n t r i o d s ) 、爬行中点 法( s c r a m b l e dm i d p o i n t ) 、爬行中位数法( s c r a m b l e dm e d i a n ) 、非爬行中 点法( u n s c r a m b l e dm i d p o i n t ) ,后者如利用s a s 默认的两种限制凝聚点替代 的方法进行种子选择( 记为r e p l a c ef u l l ) 、完全随机法( r a n d o m ) 、拆分法 ( b r e a k u p ) 、对每个观测的所有变量值求和( f e a t u r ev a l u es u m s ) 。 通过分析证实,合成初始凝聚点聚类结果整体上要优于实际观测点作为 初始凝聚点,因为合成初始凝聚点的代表性比实际的观测点要高;在聚类个 数k 相等的情况下,任何一种选择初始凝聚点的方法,随着试验次数的增加, 所有试验次数中误差平方和的最小值越来越小,类内的同质性越来越大,说明 用k - m e a n s 算法进行聚类,同一方法改变初始凝聚点组合多次运行,并取最优 结果的必要性。 为了验证k - m e a n s 算法聚类的有效性,本文用神经网络方法s o m ( s e l f o r g a n i z e dm a p ) 对同样的客户数据进行聚类,结果发现两种模型的 一致性很高,说明k - m e a n s 聚类结果是稳定的、有效的。并用判别分析方法进 一步评估了分群的稳定性。 最后对细分结果解释和模型部署以及模型应用方面应注意的问题进行了 简单阐述。 本文第五章为研究结论。通过实证分析发现,用k - m e a n s 算法对客户进行 聚类需要重复多次运行以取得较为理想的结果。由于数据挖掘的实践性较强, 很多具体的问题需要实践中去总结,比如对客户进行聚类,究竟利用过去三 个月、六个月还是十二个月的数据并没有理论做支撑,主要还得看细分的效 果。本文在最后指出了本研究的贡献和不足,并给出了用k - m e a n s 算法进行客 户细分后续研究的方向。 本文的主要贡献及创新之处在于: 1 ) 从写作思路上来看。近年来,数据挖掘综述方面的文章比较多,但是 写数据挖掘具体实施的实证研究论文不多见,是本研究的一个有益尝试:目 前利用k - m e a n s 算法进行聚类实证研究的文章,大多对如何利用k m e a n s 分析 的不够深入,也没有k - m e a n s 算法进行实证分析的详细过程,对细分后如何解 k m e a n s 算法在客户细分中的应用研究 释类和导出应用策硌研究的较多,也就是重“业务分析”轻“理论技术”,但 是,运用得当的技术可以使细分后的群体同质性更高,也更利于结果的解释, 因此本文走的是重“技术思路”轻“业务分析”的路线,用实际数据来探索 利用k m e a n s 算法进行客户细分的数据挖掘流程。 2 ) 从方法处理的角度来看。基于s a s 的k m e a n s 聚类实证研究不多,本文 给出了利用s a s 进行k m e a n s 聚类,选择初始凝聚点常用的八种方法的s a s 代 码,有一定的实践参考价值;用s a s e m 的神经网络方法( s e l f o r g a n i z e dm a p ) 和判别分析方法对k - m e a n s 聚类所得到的结果进行验证,说明k m e a n s 聚类结 果的有效性和稳定性; 3 ) 从k - m e a n s 方法的应用理念角度来看。国内的实证研究文章大多数提到 了k - m e a n s 是一种局部最优算法,但是并没有指出在现有可利用的工具软件 下,如何改善局部最优的困境。本文经过分析指出,对于k m e a n s 聚类结果的 技术评价不以算法收敛为准则,而是取通过选取不同初始凝聚点组合多次运 行所达到的最小类内残差平方和( s s e ) 所对应的那个聚类结果为最终结果, 可以有效地改善局部最优的状况;k - m e a n s 聚类的结果与初始凝聚点选取有很 大的关系,本文首次提出无论哪种选择初始凝聚点的方法,只要选择多种初 始凝聚点组合方案进行实验,均可以取得较为理想的结果,而且为改善局部 最优的状况必须选择不同的初始凝聚点组合进行多次聚类。 关键词:数据挖掘客户细分 k - m e a n s初始凝聚点 4 a b s t r a c t e m e r g i n gc o m p e t i t i o ni nt e l e c o ma n df i n a n c em a k e st h e mr e a l i z et h e i m p o r t a n c eo fc u s t o m e r sa n dr e g a r dt h e i rc u s t o m e r sa st h e i ri m p o r t a n ta s s e t s r e t a i n i n ge x i s t i n gc u s t o m e r sa n da c q u i r i n gn e wc u s t o m e r sa r et h e i rm a i nt a s k s o n e - t o - - o n em a r k e t i n gs u b s t i t u t e sf o rt h ep a s tm a s s i v em a r k e t i n gt og a i nt h e i r c u s t o m e r s s a t i s f a c t i o na n di n c r e a s ep r o f i t s e f f e c t i v eb u s i n e s sd e v e l o p m e n t s t r a t e g i e so f t e nb e g i nw i t hm a r k e ts e g m e n t a t i o n ,w h i c hi n v o l v e st h eg r o u p i n go f c u s t o m e r sa n dn o n c u s t o m e r sw i t hs i m i l a rc h a r a c t e r i s t i c s s e g m e n t a t i o ni su s e f u l t ot h ee x t e n tt h a tc u s t o m e r sw i t h i nas e g m e n th a v es i m i l a rp u r c h a s i n gb e h a v i o r a n d o rp r o f i t a b i l i t yt h a td i f f e r sf r o mc u s t o m e r si no t h e rs e g m e n t s t r a d i t i o n a l l y , m a r k e t e r so f t e ns e g m e n tt h e i rc u s t o m e r sv i ao n e - d i m e n s i o n a t t r i b u t e f o re x a m p l e ,b a n k e r sa l w a y sd i v i d et h e i rc u s t o m e r sa sh i g h ,m e d i a na n d l o wg r o u pa c c o r d i n gt ot h e i rd e p o s i t s ,t h i sm e t h o dh a si t sm e r i t si ns i m p l e n e s s , c o n v e n i e n c ea n da p p r o a c h a b i l i t y b u ti tc a n tk e e pp a c ew i t hc u s t o m e r s n e e d s d i v e r s i f i c a t i o na n dt e c h n i c a lp r o g r e s s b u tc u s t o m e rb e h a v i o r a ls e g m e n t a t i o nc a n d o t h i sn e ws e g m e n t a t i o nm e t h o d o l o g yc a nh a n d l eh u n d r e d so fv a r i a b l e s ,a n di t s r e s u l t sc a l lm a k em a r k e t e r su n d e r s t a n dt h e i rc u s t o m e r sb e r e r t l l i sn e wm e t h o di s a l s oc a l l e d “s e g m e n t a t i o nb a s e dd a t am i n i n g ” c l u s t e ra n a l y s i si s u s u a l l yu s e df o rc u s t o m e rs e g m e n t a t i o n k - m e a n s c l u s t e r i n gi so n eo f t h em o s tp o p u l a rd a t am i n i n ga l g o r i t h m s k - m e a n sc a nh a n d l e b i gd a t aa n dc a u s ep e r f e c tr e s u l t s b u tt h e r ea r ef e ws t u d i e sa b o u tk - m e a n si n c l u s t e r i n gc u s t o m e rd a t a , s oa sad a t am i n e r ,a c a d e m i ca n de x p e r i m e n t a la n a l y s i s a b o u tk - m e a n si nc u s t o m e rs e g m e n t a t i o nm a k e ss e n s e c h a p t e r1s e t sf o n l lt h er e s e a r c hb a c k g r o u n d , m o t i v a t i o na n dp r o c e s so f c u s t o m e rs e g m e n t a t i o n c h a p t e r 2d e s c r i b e st h er e l a t e dl i t e r a t u r eo f g e n e r a ls e g m e n t a t i o n m e t h o d o l o g y , k - m e a n sc l u s t e r i n g ,r e s u l te v a l u a t i o n ,a n dp r j n c i p a lc o m p o n e n t a n a l y s i s 1 墅! ! 苎! ! ! ! 墼! 竺熊! ! 鉴:坚! 竺型婴! ! 墅垫垒竺堡! 三! ! g 翌型型! ! c h a p t e r3d e s i g n st h ee x p e r i m e n t a lp r o c e s sa c c o r d i n gt ot h ec r o s s i n d u s t r y s t a n d a r dp r o c e s sf o rd a t am i n i n ga n ds a ss e m m a ( s a m p l e ,e x p l o r e ,m o d i f y , m o l ,a s s e s s ) c h a p t e r 4a n a l y z e sc u s t o m e rd a t af r o mad o m e s t i cb a n kb ys a s s t a t , e m , a p p l i e ss a sf a s t c l u st oc u s t o m e rs e g m e n t a t i o na n de x p l o r e sg e n e r a ld a t a m i n i n gp r o c e s s h o wt oc h o o s ei n i t i a ls t a r t i n gp o i n t sf o rk m e a n sc l u s t e r i n gi sh i g h l yf o c u s e d t w om e t h o d so fc h o o s i n gi n i t i a ls t a r t i n gp o i n t sa r ed i s c u s s e d f o u rs y n t h e t i ci n i t i a l s t a r t i n gp o i n ti n v o l v e di n c l u d e sr a n d o mc e n t r i o d s ,s c r a m b l e dm i d p o i n t ,s c r a m b l e d m e d i a n ,u n s c r a m b l e dm i d p o i n t f o u ra c t u a ls a m p l ed a t ai n i t i a ls t a r t i n gp o i n t s i n v o l v e da r er e p l a c ef u l l ,r a n d o m ,b r e a k u p ,a n df e a t u r ev a l u es u m s , a saw h o l e ,if i n dt h a ts y n t h e t i cm e t h o dp e r f o r m sb e t t e rt h a na c t u a ls a m p l e m e t h o df o ri t sr e p r e s e n t a t i v e f o rt h es a m ec l u s t e rn u m b e r s ,a n yo n eo fe i g h i m e t h o d sc a nm a k et h ew i t h i n - c l u s t e rs u mo fs q u a r e sm o r ea n dm o r es m a l l e rw i t h t h ei n c r e a s eo fe x p e r i m e n tt i m e s s oi ti sn e c e s s a r yf o rc l u s t e r i n gv i ak - m e a n s a l g o r i t h mt om nm a n y t i m e sb yc h o o s i n gd i f f e r e n ti n i t i a ls t a r t i n gp o i n t st oi m p r o v e l o c a lm i n i m a t oe v a l u a t ek - m e a n sc l u s t e r i n gr e s u l t s v a l i d i t y , ip e r f o r mk o h o n e n s s e l f - o r g a n i z e dm a pf o rt h es a m ed a t a i ts h o w st h a tk - m c a l l sr e s u l ti sr o b u s ta n d e f f e c t i v e l i n e a rd i s c r i m i n a ta n a l y s i sf o rc l u s t e rr e s u l ts t r e n g t h e n st h ec o n c l u s i o n f i n a l l yh o wt od e p l o ys e g m e n t a t i o nm o d e la n dt h ea s p e c t sa b o u tm o d e l a p p l i c a t i o ns t r a t e g i e st h a ts h o u l db ep a i da t t e n t i o nt oa r ed i s c u s s e d c h a p t e r 5o f f e r sas u m m a r ya n dg i v e sc o n c l u d i n gr e m a r k s t h em a i nc o n t r i b u t i o n sa n di n n o v a t i o n so ft h i sp a p e ra r ea sf o l l o w s 1 、m a n ye x p e r i m e n t a lp a p e r sg e n e r a l l ys u m m a r i z ea 1 1a s p e c t so fd a t am i n i n g b u tp a yl i t t l ea t e n t i o nt ot h ed e t a i l so fa p p l i c a t i o no fo n es p e c i f i cd a t am i n i n g a l g o r i t h ms u c ha sk - m e a n sc l u s t e r i n g m o s to fc u r r e n te x p e r i m e n t a lp a p e r sp a y m o r ea t t e n t i o nt ob u s i n e s ss t r a t e g i e sa f t e rc l u s t e r i n gr a t h e rt h a nt h ed e t a i l so f k - m e a n sc l u s t e r i n gp r o c e a s a sw ek n o w , k - m e a n st e c h n i q u ei t s e l fi sa l s ov e r y i m p o r t a n t ,i fw eh a v eap r o f i c i e n ts k i l la b o u tk - m e a n sc l u s t e r i n g ,w ec a l la c h i e v e m o r ed e s i r a b l er e s u l t sa n dd e v e l o pm o r es i g n i f i c a t i v eb u s i n e s ss t r a t e g i e s 2 、s a si ss op o w e r f u lb u ts ol i t t l ep e o p l ei n v e s t i g a t ec u s t o m e rs e g m e n t a t i o n b ys a sf a s t c l u si np r a c t i c e t h i sp a p e rp r o v i d e ss a sc o d eo fe i g h tm e t h o d s 2 a b s t r a e l a b o u tc h o o s i n gi n i t i a l s t a r t i n gp o i n t s ,a n dd a t am i n e r sw h ow a n tt op e r f o r m c u s t o m e rs e g m e n t a t i o nv i as a sk - m e a n sc a nr e f e rt ot h e m k - m c a n sc l u s t e r i n g r e s u l t s v a l i d i t y i se v a l u a t e db yk o h o n c n ss e l f - o r g a n i z e d m a pa n dl i n e a r d i s c r i m i n a ta n a l y s i s 3 1i n i t i a ls t a r t i n gp o i n t sh a sas t r o n ge f f e c to nk - m e a n sc l u s t e r i n gr e s u l t t h i s 0 p a p e ri n d i c a t e st h a tt h ee v a l u a t i o no fk - m e a n sr e s u l ti sa l s ob a s e do nt h el e a s t w i t h i n c l u s t e rs u mo fe n o ro fm a n ym i l s ,n o to n l ya l g o r i t h mc o n v e r g e n c e a tt h e e n do fe a c h1 1 1 l l t h ew i t h i n c l u s t e rs u mo fe r r o ri sc a l c u l a t e d ,t h em i n i m u mo n eo f m a n yt i m e sr u ni sc h o o s e d a st h ef i n a lr e s u l t t h i sp a p e ra l s op r o v i d e san e wi d e a t h a tc h a n 【g i n gi n i t i a ls t a r t i n gp o i n t sf o re n o u i g ht i m e sr e g a r d l e s so fw h i c hm e t h o d t oc h o o s ec a ni m p r o v el o c a lm i n i m aa n da c h i e v eam o r ed e s i r a b l er e s u l t k e y w o r d s :d a t am i n i n g , c u s t o m e rs e g m e n t a t i o n ,k - m e a n s ,i n i t i a ls t a r t i n g p o i n t s 3 西南财经大学 学位论文原创性及知识产权声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行 研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其 他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的 个人和集体,均已在文中以明确方式标明。因本学位论文引起的法律结果完 全由本人承担。 本学位论文成果归西南财经大学所有。 特此声明 学位申请人:毋芦留佛 知0 7 年月二口日 1 前言 1 1 研究背景与动机 1 前言 “企业所收集到的关于其客户的数据是所有同类业务中最重要的资产之 一,隐藏于数据中的是各种极有价值的信息妒,合理地运用这些从数据中挖掘 出来的信息,能使企业业务运营更有效率、与客户交互方式也更有针对性, 问题的关键是如何才能发现这些信息呢? 当然,数据本身是静态的,它并非是采取行动的基础。如何把数据和业 务结合,并通过一些方法对其进行归纳、挖掘,将其转化为信息,并将各种 可用的信息综合在一起,就会产生用来支持决策的知识。当数据经过挖掘, 产生有价值信息,并利用这些信息进行决策的时候,数据才真正是企业的重 要资产,不然的话,用于存储企业客户数据的数据仓库就永远成为了埋藏数 据的“坟墓”。 无论是金融行业,还是电信行业,审场竞争越来越激烈,各个公司都己 认识到客户是其主要资产,营销重点应放在如何保持并扩展其现有客户基础。 识别客户特征是企业进行客户关系管理所需要进行的一项核心分析活动。“用 于发现客户特征的数据挖掘方法,称为客户细分。客户细分是根据客户的特 征将相似的客户归组到一起,这是了解客户和针对特定客户组进行市场营销 所不可缺少的。 从细分的维度来看客户细分,可以分为单维的以及多维的。这里的维度 摘自 使用d 8 2i n , e l l i g e n tm i n e rf o rd a t a 拓展自己的电信业务f 第一版、,见参考文献3 9 。 摘自使用d b 2 i n t e l l i g e n t j n e rf o rd a t a 拓展自己的电信业务f 第一版) ,数据挖掘中我们实 际讨论的是分群,也就是数据库分割,对既有客户的分割,但也会讨论到细分。“分群”意思是试图将 有相似特征的客户归组到一起,同时使不同组中的客户差异最大化。由数据挖掘实现细分的目的是: 根据您所拥有的客户数据的特征而发现不问的客户组,而不是根据对最重要特征的判断来发现这些客 户组。换句话说,它会建议应采用什么样的业务规则,而不是认为应采用哪些业务规则。因此以下不 指明客户细分均指客户分群。见参考文献3 9 。 k m e 柚s 算法在客户细分中的应用研究 是指描述客户特征的变量的多少,比如银行根据客户存款的多少,可以将客 户分为高、中、低端客户,然而即使同是高端客户,客户对同一产品或服务 的需求也存在着明显差别,客户对产品或服务的要求日趋理性和严格,这种 传统的基于一维的客户细分在实践中的应用显得力不从心。为了更精确地描 述客户特征,需要建立客户统一视图( c u s t o m e ru n i f i e dv i e w ) ,从更多的 角度来定义客户,可以有几十个,甚至上百个变量从而对客户进行更为精确 的描述,在此基础上对客户进行更为精确的细分,因而,用于解决多维的, 大数据量的客户细分的数据挖掘技术也就应运而生了。 通过使用数据挖掘技术,企业可以建立客户细分模型识别具有相似特征 的客户组,这样可帮助企业了解客户,并为客户分析和市场策略制定提供参 考依据。同一组客户可以有相似的产品购买模式、相似的风险特性或者对企 业相似的获利性。从而企业可以基于细分后的客户群体,制定差异化的营销 策略,对客户区别对待,实现资源优化配置,从而节约成本,提高营销效率, 真正实现从数据到信息到价值的转化。 那么,如何建立客户细分体系? 进行客户细分的方法论是什么,就非常 有研究的必要性。 聚类( c l u s t e r i n g ) 是众多数据挖掘算法中最常用的算法之一,主要用 于对客户进行分群,将有相似特征的客户归组到一起,同时使不同组中的客 户差异最大化。聚类分析是一种统计学方法,在客户细分中有着广泛的应用。 常见的聚类方法有系统聚类( h i e r a r c h i c a lc l u s t e r i n g ) 、动态聚类( k - m e a n s c l u s t e r i n g ) 、非参数聚类( n o n p a r a m e t r i cc l u s t e r i n g ) 、模糊聚类( f u z z y c l u s t e r i n g ) 、神经网络( s e l f - o r g a n i z e dm a p ) 等,每一种方法都有各自的 优、缺点。 。 其中k - m e a n s 算法是实践中最为常用的算法之一,在处理大数据量方面 有绝对优势,而且可以取得较好的效果。k - m e a n s 算法是一种优化算法 ( o p t i m i z a t i o nc l u s t e r i n g ) ,它以最小化某个目标函数为优化准则,不断 进行迭代,迭代的结果往往不是全局最优( g l o b a lm i n i m a ) ,而是局部最优 ( l o c a lm i n i m a ) ,除非k 个初始凝聚点选的恰到好处。不同的初始凝聚点组 合可以得到完全不同的结果,因此在实践中,应用k m e a n s 算法进行客户聚 类时候,为尽量改善局部最优的状况,应选择多个不同初始凝聚点组合分别 2 1 前言 进行聚类,并从中选取最优的一个作为最终聚类方案。运用k - m e a n s 算法进 行聚类,数据预处理也非常重要,如异常值的处理、变量的标准化、数据降 维等等。 , 那么实践中又如何去利用好k - m e a n s 聚类分析技术呢? 这也是从事实践 工作者所面临的一个问题。本文所要探讨的第二个问题即是围绕实践中执行 k - m e a n s 聚类的若干问题进行。参考众多实践工作者的的经验,用实证分析方 法阐述如何用k - m e a n s 算法进行聚类分析,探索k - m e a n s 聚类运用于客户细 分的主要过程和一般分析方法。 1 2 研究目的 依据以上研究背景与动机,得出本文的研究目的:如何利用k - m e a n s 算 法进行客户聚类。主要涉及以下几个方面的问题: 1 ) 客户细分方法论 细分方法论问题,也就是细分的逻辑步骤,& 咖何根据业务目标去建立 一个客户细分体系,主要涉及业务目标确定、建立针对特定业务目标的细分 模型、模型布置以及应用,模型更新等等。 如何进行客户细分,仁者见仁、智者见智,本文在参考大量国内、外文 献,并结合实践工作经验的基础上,总结出了一个一般意义上的客户细分方 法论,或者说用数据挖掘进行客户细分的流程。 2 ) 如何利用k - m e a n s 进行客户细分 k - m e a n s 聚类在客户细分中有广泛的应用,但是如何正确地运用k - m e a n s 算法进行客户聚类,这是技术细节上如何实现的问题。用k - m e a n s 算法进行 聚类主要应注意以下几个问题: 异常值的处理: 变量的标准化; 数据降维; 观测的顺序; k 个初始凝聚点的选择等。 以上问题不同的处理方法,将导致截然不同的聚类结果。本文重点讨论 3 k m e a n s 算法在客户绑分中的应用研究 如何合理选取k 个初始凝聚点进行k - m e a n s 聚类,以使聚类结果更佳。 3 ) 细分模型的应用 数据挖掘技术一开始就是面向应用而产生的,所建立的模型如何应用于 实践,也是非常重要的问题。本文在建立客户细分模型的基础上,提出模型 的应用策略和方向。 1 3 研究方法与步骤 依据研究目的,本论文以国内某商业银行私人金融业务的客户细分为例, 研究主题围绕实践中执行k - m e a n s 算法进行客户聚类所应注意的若干实际问 题进行,从业务到技术,比如:业务目标的确定? 如何选取变量? 如何对变 量进行标准化? 如何处理异常值? 如何进行数据降维? 细分结果的解释和应 用等,并重点对实践中如何选取一个比较好的初始凝聚点组合进行了深入探 讨,总结了八种实践中比较常用的确定初始凝聚点的方法,进行实证分析, 综合聚类分析、主成分分析、判别分析、神经网络等多元统计分析方法和机 器学习方法对数据进行分析和挖掘。 整个研究可以分为两个阶段,理论分析阶段与实证分析阶段。 理论分析阶段的主要工作包括客户细分方法论的探讨以及用于进行客户 细分的多元统计分析方法如k - m e a n s 聚类、主成分分析等相关文献的技术回 顾。 实证分析阶段的主要工作包括业务目标确定、准备数据、进行k - m e a n s 聚类、结果验证与模型布置和应用等等。 整个研究步骤如图1 1 所示,并分述如下: 1 ) 确定研究问题:通过探讨与客户细分有关的理论与实证分析文章,形 成所要研究主题的整体概念; 2 ) 确定研究动机与目的:根据研究背景与动机的探讨,确定研究目的, 阐明研究的实际意义; 3 ) 文献回顾:收集有关客户细分、数据挖掘、k - m e a n s 聚类等方面的文 献,进行研究、归纳与分析; 4 ) 选择实际公司作为研究案例:依据研究目的以及数据挖掘所要求大量 4 1 前奇 数据的特点,选择了国内某商业银行为个案公司,提取研究所需的数据; 5 ) 实证分析:根据研究目的,用k - m e a n s 算法对客户进行聚类,并进行 相关研究,得出最终的客户细分模型; 6 ) 提出模型布置及其应用策略; 7 ) 结论及未来的研究方向。 1 4 论文架梅 l _ - - 、文献回顾 t 四、准备数据 图1 1 研究步骤 本论文的研究架构如下。第一章,阐述客户细分的研究背景,并说明研 究的动机与目的,研究的步骤:第二章,在参阅大量国内外理论和实践文献 的基础上,归纳总结了客户细分方法论,并对客户细分所用到的多元统计分 析方法如聚类分析以及主成分分析等相关技术和理论进行了回顾,着重介绍 了k - m e a n s 算法,为第四章的实证分析做理论准备;第三章,实证分析架构 设计,也就是本论文的实证研究方法:k - m e a n s 算法是实践中应用最为广泛的 一种算法,第四章主要利用k - m e a n s 算法对客户数据进行聚类,实证的重点 k - m e a n s 算法在客户细分中的应用研究 在于k - m e a n s 聚类分析在实践应用中应关注的若干问题展开,如何选择k 个 初始凝聚点进行k - m e a n s 聚类是本文的核心;第五章研究结论,提出本文存 在的问题以及未来的研究方向。 2 客户细分中相关投求理论介绍 2 客户细分中相关技术理论介绍 2 1 客户细分方法论 客户细分概念最早由美国著名的市场学家温德尔史密斯( w e n d e l l r s m i t h ) 在1 9 5 8 年发表的市场营销策略中的产品差异化与客户细分一 文中首先提出。它指企业按照客户属性将客户群体分为若干个子客户群体, 细分后客户群体之问的差异最大化,每个客户群体尽可能的相似。 自从s m i t h 提出细分理论以来,该理论己经被世界各地的研究者进行了 创造性的发展,细分的变量和指标体系也得到了极大的完善。但是企业从众 多的细分变量中选择哪些细分指标对市场或客户进行细分,为企业带来最佳 的经济效益,才是最关键的问题。 众多文献对客户细分所采用的变量和指标都进行了阐述,具体来说,对 营销实践产生过重大影响的指标和变量,可以分为7 大类o ,即:人口和社会 因素、地理区域因素、心理因素、客户利益、行为因素、产品和服务因素以 及客户价值。 根据变量维度的多少,客户细分可以分为单维的以及多维的两种。单维 即单变量的客户细分是基于经验的简单划分方法,比如根据客户对企业贡献 的大小,可以将客户分为高价值客户、中等价值客户以及低价值客户三种。 多维即多变量的细分是选用两个及其以上的指标或变量来对客户进行细分, 是一种基于统计的客户聚类方法,将具有相似行为的客户聚为一个群体,群 内差异最小,群间差异最大。h u g h e s ( 1 9 9 4 ) 提出的r f i l 回分析是以三个行为变 量来描述和区分客户,即为多变量的客户细分分析方法。 这些类别主要是结合【参考文献4 1 】经过整理而得来 分别指r ( r e n c e n c y ) 最近一次购买距今的时间、f ( f r e q u e n c y ) 表示客户在统计周期内购买的次数、 m ( m o n e t a r y ) 表示客户最近一次购买的金额。有关r f m 应用的深入讨论可参见肖东军2 0 0 5 0 4 0 1 , c 蹦方法:用r f m 分析模型保持有价值客户,【i t l 6 8 专稿】。 7 k - m e a n s 算法布客户细分中的应用研究 为了对客户进行更准确的描述和了解,多变量细分中可以将几十个甚至 上百个变量纳入分析范畴。大多数学者以及实践工作者将后者称之为基于数 据挖掘的客户细分方法。 从选用变量的特性来看也可以划分不同的细分种类,比如企业为了了解 产品的市场结构构成,可以进行人口统计学细分,选用的指标主要是人口因 素和社会因素,人口因素包括年龄、性别、家庭、生命周期等变量,社会因 素包括客户的收入、教育、社会阶层和宗教信仰等特征。不同地区人们的消 费需求具有一定的相似性,企业根据客户工作和居住位置可以进行地理区域 细分。企业可以根据客户对企业的价值贡献度和保留周期进行市场细分,可 选的变量包括财务价值、影响力价值和忠诚周期价值等,区分为高中低价值 客户、忠诚客户、重要客户、基础客户等。企业为了更彻底地了解客户的行 为和偏好,指导产品的交叉销售和提升销售,可以进行客户行为细分,选用 的主要变量有购买时机、使用者状况、使用数量等等。另外企业也可以从考 察角度的不同进行客户利益

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论