(管理科学与工程专业论文)基于数据挖掘的客户流失预测实证研究.pdf_第1页
(管理科学与工程专业论文)基于数据挖掘的客户流失预测实证研究.pdf_第2页
(管理科学与工程专业论文)基于数据挖掘的客户流失预测实证研究.pdf_第3页
(管理科学与工程专业论文)基于数据挖掘的客户流失预测实证研究.pdf_第4页
(管理科学与工程专业论文)基于数据挖掘的客户流失预测实证研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(管理科学与工程专业论文)基于数据挖掘的客户流失预测实证研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 现实世界中,数据的分布往往是不平衡的,数据非平衡性问题已影响到多个 应用领域如:客户流失、欺诈侦测、风险管理等。当前,随着数据挖掘研究的深 入,非平衡数据挖掘正成为一个新的热点研究领域。 本文研究的客户流失数据集具有典型的非平衡数据问题,客户流失对象为网 络招聘行业的企业客户。全球网络招聘方兴未艾,据统计全球每天约有2 0 0 0 万 条就业信息发布,3 0 0 0 多万人在互联网上发出求职简历,2 0 0 6 年全球招聘市场 规模为1 7 2 亿美元。在中国,2 0 0 7 年网络招聘市场规模为9 7 亿元,2 0 0 8 年1 2 5 亿,预计2 0 0 9 年将达到1 6 1 亿元。网络招聘巨大的市场规模,良好的利润前景 催生了新的专业化、行业性、地方性的招聘网站的诞生,同时也加剧了网络招聘 行业的激烈竞争。 针对客户流失问题,目前在电信行业、银行业、保险行业基于数据挖掘技术 进行客户流失预测建模,并取得了丰硕的研究成果。而针对网络招聘行业面向企 业客户流失问题的研究尚属起步阶段,本文分析了前人研究成果,对非平衡数据 进行了介绍;对客户流失预测理论、研究方法和发展脉络进行了回顾与综述;支 持向量机( s u p p o av e c t o rm a e l l i n e ,s v m ) 以其坚实的理论基础与良好的推广性能 成为近几年来应用研究的热点,是一种流行的数据挖掘技术,本文对支持向量机 进行了介绍;论述了我国网络招聘行业特征、市场规模及发展前景。最后通过国 内某知名招聘网站企业客户特征数据以及客户在线行为日志数据,利用数据挖掘 技术进行了客户流失预测建模及挽留策略的实证研究。 本文的研究成果主要有: 1 针对客户流失数据集的非平衡性与错分代价差异性问题,在传统s v m 基 础上,引入代价敏感学习理论,提出了代价敏感s v m 的客户流失预测建模方法, 通过实验验证了方法的有效性,对解决此类问题有一定的借鉴意义。 2 针对客户流失预测数据集的高维特征约减问题,提出了主成分分析与神 经网络的预测建模方法。通过实证研究,结果表明此组合方法降低了高维属性, 简化了神经网络拓扑结构,提高了模型的预测性能。 3 针对网络招聘企业客户挽留问题,分析了客户流失影响因素,基于 k - m e a n s 聚类技术对客户在线行为进行客户细分,并结合每类客户特征探讨了客 户关系管理策略。 关键词:数据挖掘;客户流失预测;非平衡数据;代价敏感学习;支持向量机 北京工业大学管理学硕士学位论文 a b s t r a c t i nt h er e a lw o r l d ,d a t ad i s t r i b u t i o nl so f t e nc l a s s 。i m b a l a n c e d t h eu n 。b a l a n c e d d a t ap r o b l e mh a sa l r e a d ya f f e c t e dm a n ya p p l i c a t i o n sf o re x a m p l e :c u s t o m e rc h u m , f r a u dd e t e c t i o n ,r i s km a n a g e m e n ta n ds oo n n o w , 、v i t l li n - d e p t hs t u d yo fd a t am i n i n g , n o n - e q u i l i b r i u md a t am i n i n gi sb e c o m i n gah o tn e w f i e l do fr e s e a r c h i nt h i sp a p e r , t h ec u s t o m e rc h u md a t as e t sa r et y p i c a lo fn o n e q u i l i b r i u md a t a a n di nt h i sp a p e rt h ec u s t o m e ri se n t e r p r i s ec u s t o m e r so fw e br e c r u i ts i t s t h ei n d u s t r y o fg l o b a lw e br e c r u i t m e n ti sd e v e l o p i n gs or a p i d l y i tw a sr e p o r t e dt h a ta b o u tt h e w o r l d s2 0m i l l i o nd a i l ye m p l o y m e n ti n f o r m a t i o nr e l e a s e da n dm o r et h a n30 0 0 m i l l i o np e o p l eo nt h ei n t e m e ti s s u e dt h e i rr e s u m e sa n di n2 0 0 6t h eg l o b a l r e c r u i t m e n tm a r k e tr e a c h e d17 2b i l l i o nd o l l a r i nc h i n a ,t h ew e br e c r u i t m e n tm a r k e t s i z er e a c h e d0 9 7b i l l i o nr m bi n2 0 0 7 ,1 2 5b i l l i o nr b mi n2 0 0 8a n de x p e c t e di n 2 0 0 9w i l lr e a c h1 61b i l l i o nr b m f o rw e br e c r u i t m e n th u g em a r k e ts i z e ,g o o d p r o s p e c t so fh i g h l yp r o f i t ,l o t so fn e ws p e c i a l i z a t i o n ,i n d u s t r y , l o c a lr e c r u i t m e n tw e b s i t e sw a sb o ma n dm e a n w h i l ei n c r e a s e dt h ew e br e c r u i t m e n to fi n d u s t r yc o m p e t i t i o n t ot h ep r o b l e m so fc u s t o m e rc h u m ,i nt h et e l e c o m m u n i c a t i o n si n d u s t r y , b a n k i n g , i n s u r a n c e ,b u i l d i n gc u s t o m e rc h u mp r e d i c t i o nb a s e do nd a t am i n i n gt e c h n o l o g yw a s g o o dc h o o s ea n da c h i e v e df r u i t f u lr e s e a r c hr e s u l t s h o w e v e r i nw e br e c r u i t m e n t i n d u s t r yt h es t u d yo fc h u mp r o b l e m sf o re n t e r p r i s ei st h ei n i t i a ls t a g e i nt h i sp a p e r , w eh a v ead e p t hs t u d ya n dr e s e a r c ho nt h en o n e q u i l i b r i u md a t am i n i n gp r o b l e m s t h ec u s t o m e rc h u mt h e o r y , r e s e a r c hm e t h o d sa n dt h ed e v e l o p m e n to fc o n t e x tw e r e r e v i e w e da n ds u m m a r i z e d a n dt oc h i n a sw e br e c r u i t m e n ti n d u s t r yc h a r a c t e r i s t i c s , m a r k e ts i z ea n dg r o w t hp r o s p e c t sw e r ea l s oa n a l y z e da n dd i s c u s s e d s u p p o r tv e c t o r m a c h i n ea sap o p u l a rd a t am i n i n gt e c h n i q u e sa n db e c o m e sar e s e a r c hh o t s p o ti n r e c e n t y e a r sf o r i t ss o l i d t h e o r e t i c a lf o u n d a t i o na n dt h e p r o m o t i o no fg o o d p e r f o r m a n c ew e r ei n t r o d u c e da n ds y s t e m a t i ce x p o s i t i o n o nt h eb a s i so ft ot h ep r o b l e m o fc u s t o m e rc h u ma n dr e t e n t i o ns t r a t e g y , w eh a v ead e m o n s t r a t i o ns t u d yb a s e do n d a t am i n i n gt h r o u g hc o l l e c t i n gaw e l lk n o w nd o m e s t i cw e br e c r u i t m e n ts i t ee n t e r p r i s e c u s t o m e r s c h a r a c t e r i s t i c sd a t aa n dt h e i ro n l i n eb e h a v i o rl o gd a t a i nt h i sp a p e r , t h er e s u l t so fr e s e a r c ha r e : c u s t o m e r sc h u md a t as e t sh a v et y p i c a ln o n - e q u i l i b r i u mc h a r a c t e r i s t i ca n d d i f f e r e n c e si nt h ec o s to fm i s c l a s s i f i c a t i o n i nt r a d i t i o n a ls v mb a s e do nt h ec o s t s e n s i t i v el e a r n i n gp u tf o r w a r dac o s ts e n s i t i v es v mc u s t o m e rc h u mp r e d i c t i o n m o d e l i n g ,e x p e r i m e n t a lv e r i f i c a t i o no ft h ev a l i d i t yo ft h em o d e l i n gt os o l v es u c h a b s t r a c t 皇舅曼曼舅曼皇曼曼鼍曼曼曼曼蔓蕙。曼毫蔓鼍鼍皇皇曼! 鼍皇皇曼曼曼皇曼寰曼皇量曼毫! 曼皇 p r o b l e m so nac e r t a i nr e f e r e n c e t oa g a i n s tt h e p r o b l e mo fc u s t o m e rc h u r nd a t as e t s h i g h d i m e n s i o h a l c h a r a c t e r i s t i c s ,p u tf o r w a r dap r i n c i p a lc o m p o n e n ta n a l y s i sa n dn e u r a ln e “岫r k p r e d i c t i o nm o d e l i n ga n dt h r o u g he m p i r i c a lr e s e a r c hr e s u l t ss h o wt h a tt h ec o m b i n a t i o n o fw a y st or e d u c e h i g h d i m e n s i o n a la t t r i b u t e s ,s i m p l i f y i n gt h en e u r a ln e t w o r l c t o p o l o g ya n di m p r o v i n gt h ep e r f o r m a n c eo ft h em o d e lp r e d i c t i o n s t ot h ei s s u eo fr e t e n t i o ne n t e r p r i s ec u s t o m e r s ,d i s c u s s e dt h er e t e n t i o ns t r a t e g y i na d d i t i o n ,k - m e a n s c l u s t e r i n gt e c h n o l o g yw a su s e dt oa n a l y s i sa n ds t u d vc u s t o m e r s o n l i n eb e h a v i o r k e y w o r d s :d a t am i n i n g ;c u s t o m e rc h u r np r e d i c t i o n ;u n b a l a n c e dd a t a ;c o s ts e n s i t i v e l e a r n i n g ;s u p p o r tv e c t o rm a c h i n e - i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究 成果。也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。 签名:帆够世 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的 复印件。允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩 印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:导师签 醐:q u 第l 章绪论 m_mmmmmm 1 1 研究背景及意义 1 1 1 研究背景 第1 章绪论 世界扁平化趋势、业务多样化、全球化,客户需求个性化、多样化、敏捷化 等特性使企业间的竞争急剧增加。国外知名企业、财团对国内市场的进一步加大 投资力度,种种现象都说明,市场竞争空前激烈。 然而整个市场的发展空间是有限的,特别是增量客户发展明显减缓,使得对 现有客户的维系与保持逐渐成为客户关系管理的核心问题之一,如何在积极拓展 新市场开发新客户的同时,对现有客户的深度开发及流失预警引起了各行业的广 泛关注。对企业而言,长期绝对忠诚的客户已经不存在。客户了解市场的渠道和 方式越来越便捷,他们作为个体希望得到被认可和理解,希望得到他们想要的符 合他们个性化的产品和服务,客户的选择权正以前所未有的势头快速发展,因此 客户会把他们的业务交给那些能及时满足他们需求,并且是最能理解他们并提供 高产品质量、贴心服务等最出色的公司。 全球网络招聘方兴未艾。全球网络招聘市场规模巨大且增长迅猛,网络招聘 目前已成为互联网上最成功的商业应用之一。据统计全球每天约有2 0 0 0 万条就 业值息发布,约有3 0 0 0 多万人在互联网上发出求职简历。根据i d c 数据显示, 2 0 0 1 年全球网络招聘市场仅为2 8 亿美元,到2 0 0 4 年达到7 8 5 亿美元,2 0 0 5 年 更是达到了1 3 4 亿美元,2 0 0 6 年达到1 7 2 亿美元,增长势头强劲。在中国,2 0 0 5 年网络招聘市场规模为5 6 亿元,2 0 0 7 年为9 7 亿元,2 0 0 8 年为1 2 5 亿元,预 计2 0 0 9 年将达1 6 1 亿元,2 0 1 1 年将超过2 6 亿元。 网络招聘的方式最早出现在美国,以其覆盖面广、信息及时、成本低等优势 成为美国多数企业进行招聘的主要方式。据n e t - t e m p s 数据显示,在美国采用 网络招聘的企业比例高达7 7 6 ,采用报纸杂志招聘的占1 2 3 ,通过人才市场 进行人才招聘的企业占7 1 ,采用广播和电视进行招聘的企业分别占2 和l 。 特别是在北美地区,企业采用网络招聘最积极主动,分布在北美的全球5 0 0 强企 业中有9 6 的企业在其网站上有自己的招聘专栏。目前,通过网络招聘的方式已 经深入人心,成为大学毕业生及中层职员求职的首选,也备受高层管理人才的青 睐。 2 0 0 6 年调查显示,网络招聘方式以2 8 排名第一,亲友介绍排名第- - ( 2 7 ) , 随后是招聘会( 2 4 ) ,报纸和杂志广告( 1 3 ) ,猎头公司和中介机构( 7 ) ,与2 0 0 5 北京工业大学管理学硕士学位论文 年相比,网络招聘上升了5 ,仅2 0 0 5 年一季度人才市场登记月需求2 4 5 1 8 万个 职位,登记求职6 4 1 1 8 万人。由中国互联网信息中心发布的中国互联网络发展 状况统计报告显示,截至2 0 0 8 年底中国网民规模达到2 9 8 亿人,网民规模超 过美国,成为世界第一,互联网普及率达到2 2 6 。互联网普及的1 0 多年来, 我国网络招聘获得了迅猛发展,网上人才市场以不容商量的强劲势头冲击着传统 的人才市场,人才网络迅速增加,服务方式类型多样丰富多彩,市场占有率不断 扩大。随着网上人才市场的兴起,网上招聘呈上升的趋势,网上招聘已成为企业 招聘的主渠道。 1 1 2 研究意义 2 0 0 7 年全球著名的市场信息提供商t n s 发布的首份中国银行调查报告显 示:面对外资银行的激烈竞争,国内银行客户流失率高达3 0 。在电信行业,欧 洲电信业客户流失每年2 5 ,美国3 7 ,而在亚洲高达4 8 ,在美国由于客户流 失所造成的损失每年超过4 0 亿美元。而在国内,中国联通c d m a 的客户流失率 约为1 7 9 ,g s m 约为3 2 ,中国移动的客户流失率为1 2 6 ,中国电信小灵 通的月客户流失率高达1 0 。在网络招聘行业,各大招聘网站也面临着严峻的客 户流失问题。 美国著名管理学者t r e a e y 调查研究了1 3 0 多家快速成长的公司后发现,客 户挽留是保持公司利润增长最有效的途径,其重要性超过公司规模、市场份额、 单位成本和其它许多通常人们认为的与竞争优势有关的因素【l 】。r e i c h h e l d 研究表 明,客户流失率减少5 ,在不同的行业,能给企业带来3 0 - 8 5 的利润增长, 而相比客户挽留,发展新客户的成本是挽留客户的5 7 倍,而挽留客户的成功 率却是发展新客户的1 6 倍【z j 。 企业发展最宝贵的资产在于客户基础( c u s t o m e rb a s e ) ,并通过与客户保持长 期有效的关系来获取最大收益。客户生命周期各阶段的状态可以分为:潜在客户、 响应者、即得客户和流失客户。因此,针对客户流失的管理是客户关系管理的核 心问题之一。r e i c h h e l d 指出客户流失( c u s t o m e rc h u r n ) 与客户挽留( c u s t o m e r r e t e n t i o n ) 是同一个问题的两个方面,公司的目标是客户挽留率的最大化和客户 流失率的最小化。客户流失概念界定对于不同行业有一定差别,一般定义为客户 不在重复购买或终止服务,转而去选择另一家公司。客户流失意味着公司信誉和 计划的损失,意味着公司利润的损失。 针对客户流失管理问题采用商务智能技术即数据仓库、o l a p 分析、数据挖 掘技术等进行客户流失管理在国内外近1 0 年的研究探索中取得了一定的成果, 解决了很多问题。但无论企业界的系统开发还是学术界的研究,都存在很多问题, 第1 章绪论 突出表现在:客户流失数据集属于典型的非平衡数据问题,由于以往文献较少考 虑非平衡数据挖掘导致虽然预测模型精度高,但模型预测性能差【3 1 。另外针对客 户流失数据的高维特征进行有效约减需要进一步深入研究等。 现实世界中,数据的分布往往是不平衡的,“不正常 数据的数目往往比“正 常”数据的数目少很多。数据非平衡性问题已影响到多个应用领域如:客户流失、 欺诈侦测、风险管理等。当前,随着数据挖掘研究的深入,非平衡数据挖掘正成 为一个新的热点研究领域【4 j 。 因此,针对网络招聘领域的客户流失问题,必须考虑新的算法和模型处理流 失数据集的非平衡性问题与高维属性约减问题等。另外对于专业招聘网站针对企 业用户的在线行为分析与挖掘,防止客户流失,对客户价值、客户类别等进行 w e b 挖掘与分析的相关研究尚处于起步阶段。可见基于新的数据挖掘技术的客 户流失预测研究对于我国企业及国民经济的持续快速发展都有重要的实际意义 和学术价值。 1 2 国内外研究现状 1 2 1 客户流失因素分析研究现状 客户关系管理旨在通过一个尽可能自动化和持续的过程,最大化的了解和利 用客户的各种信息,把合适的产品和服务,通过合适的渠道,在恰当的时机,提 供给适当的客户,从而有效地提高客户满意度,提升客户对公司的忠诚度,并同 客户保持长期的、高收益的业务关系。客户关系管理一般分为三种类型。 1 ) 操作型c r m ( o p e r a t i o n a lc r m ) :为了更好的服务客户,快捷的响应客户 需求,它要求实现所有业务流程的流线化和自动化,包括多渠道客户“接触点 的有效整合,以及前台和后台运营系统之间平滑的相互连接和整合。 2 ) 协同型c r m ( c o l l a b o r a t i v ec g m ) 着重于通过技术手段实现高质量的客 户接触和高效率的客户信息收集,将多种与客户交流、交互的渠道紧密集成,同 时利用操作型c r m 协调企业各部门,确保客户沟通渠道的便捷、一致。 3 ) 分析型c r m ( a n a l y t i c a lc r m ) - 主要是从操作型c r m 和协作型c r m 中 获取的各种数据,为企业的经营、新市场的开发以及战略、战术的的制定提供可 靠的量化分析依据。这种分析需要用到多种先进的数据管理和数据分析工具,如 数据仓库、o l a p 分析和数据挖掘等。 分析型c r m 涉及的主要问题主要有:客户群体分类分析和行为分析、客户 效益分析和预测、客户满意度分析、交叉营销和升级营销、产品及服务使用分析、 客户信用分析、客户流失分析、欺诈发现等。 北京工业大学管理学硕士学位论文 r e i c h h e l d 等1 9 9 0 年在哈弗商业评论发表文章i z e md e f e c t i o n s :q u a l i t yc o m e s t os e r v i c e ) ) 提出了“产品零缺陷”到“客户零缺陷的概念,指出要关注客户流 失,标志着客户流失管理纳入了人们研究视野。t r a c y 等在1 9 9 5 年出版的著作 t h ed i s c i p l i n eo f m a r k e tl e a d e r s ) ) 对客户流失管理进行了探讨,指出防止客户 流失、并进行有效的客户挽留,开发客户终身价值是企业保持利润增长的最重要 的战略,其重要性甚至超过人们通常认为的规模战略、人才战略等常规战略。 m a d d e n 等利用澳大利亚i s p 市场上不同的移动服务和人口统计特征,研究 了与客户流失相关的因素,结果表明客户流失与客户每月的消费正相关,与家庭 收入成负相关关系【5 1 。k i m 等研究了韩国电信业客户流失因素,认为在可供选择 的电信运营商中,网络规模的选择与客户保持密切相关,原因在于网内呼叫折扣 和信号质量【6 1 。l e e 等研究了法国移动通信市场,指出在竞争激烈的环境中,转 换成本在客户忠诚度和客户满意度之间扮演着重要角色,他们利用回归分析技术 探讨了满意度对客户忠诚度、转换成本对客户忠诚度的主要效果和影响,结果表 明:在相同的满意度条件下,转换成本与客户忠诚度为正相关关系【7 j 。k i m ( 2 0 0 4 ) 研究了电信行业中客户满意与转换壁垒在客户关系中的相互影响,结果表明:在 转换壁垒因子中,转换成本如连续成本、契约成本和人际关系,其中契约成本在 定义客户保持时是关键因子;连续成本和人际关系在客户满意和客户保持间起调 节作用【8 】。这一结果有助于公司理解和识别客户保持中的关键因子,有效阻止客 户的流失。 李竞明( 2 0 0 5 ) 等从客户价值和客户满意的角度,分析了主动放弃、主动离 开、被挖家、被吸引和被迫离开等客户流失的主要原因,并提出了实施全面的质 量管理,重视客户抱怨、建立内部顾客体制、建立以客户为中心的组织机构和客 户评价体系等防范客户流失策略 9 1 。徐颖( 2 0 0 5 ) 通过对电信企业大客户满意度 的调查发现客户满意与客户忠诚度不完全呈线性关系,高的客户满意度并非表示 客户的忠诚度也高【1 0 1 。李祖鹏( 2 0 0 6 ) 等通过对中国移动“快照客户”流失情况 进行分析,发现占绝大多数的换号客户掩盖了只占少部分、真正传统意义上的流 失客户。因此,引入了客户流失率和客户异动率两个概念来重新定义传统意义上 的客户流失【1 1 1 。 总之,根据客户流失类型可分为主动流失和被动流失。被动流失是指公司主 动放弃的客户,被动流失主要是由客户的欺诈行为、拖欠或滥用服务等因素所致。 主动流失是客户流失管理的重点,主动流失又可分为无意流失与蓄意流失。无意 流失是由客户地点变更、财务变化或生活巨变等因素引起的,比如因居住地变迁 而无法获得现有服务或客户无力支付现有的服务,无意流失往往只占主动流失的 一小部分。蓄意流失是流失预测建模要识别的目标对象,客户蓄意流失主要受企 业产品或服务的技术因素、经济因素等影响,电信客户流失类型、所占比例、影 第l 章绪论 响因素如图1 - 1 所示1 2 1 。 主动流失 ( 7 5 ) 被动流失 ( 2 5 ) 蓄意流失匕= = : ( 6 5 ) 无意流失匕= 冷 r l o 、 欠费 欺诈 破产 图卜l 电信行业客户流失因素 f i g r u e l 一1c u s t o m e rc h u r nf a c t o ri nt e l e c o m m u n i c a t i o ni n d u s t r y 以上研究主要从客户的转换意愿、转换成本、服务质量、满意度、客户基本 特征等几个方面分析了影响客户流失的因素,对于客户流失管理研究有一定的理 论意义和实践价值。但上述研究的数据来源主要是问卷、访谈等形式,主要采用 定性或线性方程定量的处理分析,这在很大程度上影响了流失因素分析和预测指 标的建立,因此,客户流失因素还需要深入研究。可以考虑从以下几个方面考虑: 数据的采集问题:从单一部门扩展多个部门,从单纯的离散数据到连续数据 的收集,从结构化数据到半结构化、非结构化乃至多媒体数据的采集等,从不同 渠道收集导致客户流失相关的数据,以期为客户流失预测模型指标的建立提供更 加完善,更加精确的支持和依据。 从数据的处理方法和技术上:从定性分析到定量分析的转变,从线性分析到 非线性多元分析的转变,从传统的统计学到以统计学为基础的o l a p 分析等。 1 2 2 基于数据挖掘的客户流失预测研究现状 1 9 9 9 年b r i i 等提出的基于数据挖掘的客户流失预测原型标志着客户流失研 究进入了一个新阶段【1 3 1 。随着研究的深入,学者们探讨了应用各类数据挖掘方法 建立客户流失预测模型,来预测识别流失和非流失客户。2 0 0 5 年j o h nh a d d e n 等 针对以往应用数据挖掘的研究情况,综述了本领域的研究【1 4 】。针对客户流失数据 集中的非平衡性问题,蒋国瑞等在改进支持向量机的基础上引入代价敏感学习进 行了相关研究。 北京工业大学管理学硕士学位论文 ( 1 ) 回归分析 r o s s e t 在引入客户价值的基础上,利用l o g i s t i c 回归建立客户流失预测模型, 发现引入模型后,提升度( l i r ) 有显著改善【1 5 】。k i m 等利用调查得到的韩国9 7 3 个移动客户的调查数据,采用l o g i s t i c 回归方法对其流失客户进行预测分析,研 究确定了客户流失与客户忠诚度之间的关系【1 6 】。 蒙肖莲等应用l o g i s t i c 回归对商业银行客户流失进行了分析预测,并以真实 数据对模型进行了校验,结果表明模型具有良好的预测效果【l 计。h w a n g 应用 l o g i s t i c 模型研究了客户生命周期价值及客户流失,结果表明相比决策树和神经 网络,l o g i s t i c 模型更适合对客户流失行为分析和预测,但同时作者也指出,预 测性能受诸多参数因素的影响,比如神经网络参数的设置及训练集的选择,只能 表明他们的训练样本更适合l o g i s t i c 来建模【埔】。 ( 2 ) 决策树 w e i 等假设数据类别是对称的,并收集了客户合同信息和客户通话行为信息 作为样本数据,利用c 4 5 决策树算法来预测客户流失,得到了较高的提升度【例。 a u 等采用决策树建立了客户流失预测模型,并利用r o c 曲线方法来评估模型, 取得了较好的效果【2 0 】。k i t a y a m a 通过基于决策树的方法对客户档案进行了分类, 首先把客户群体划分为首选客户( p r e f e r r e dc u s t o m e r s ) 和一般客户,首选客户指那 些对公司最有价值的客户,接着应用决策树根据客户特征分类,识别高价值客户, 以达到挽留高价值客户的目的【2 1 】。 朱世武等利用c h a i d 决策树算法,对移动电话号码和通话类型进行了分析, 发现客户性别、年龄、籍贯及职业四个人口统计变量在不同的流失类别上有显著 影响,这对于客户流失预测模型建立过程中,变量的选取具有一定的借鉴意义【捌。 ( 3 ) 神经网络 m o z e r 将收益计算方法引入客户流失预测中,利用人工神经网络技术对美国 某电信公司的客户进行流失预测,并通过与决策树和l o g i s t i c 回归相比,发现采 用人工神经网络来预测潜在的流失客户能获得更大的收益【2 3 】。 r y g i e l s k 等通过应用神经网络来识别价值客户、预测客户行为,他们的实验 结果表明,相比其他数据挖掘技术,神经网络用于识别价值客户提供了更有效的 预测模式【2 4 】。s h i n 通过s o m 技术对证券客户的潜在价值进行了细分【2 5 】2 5 。 ( 4 ) 贝叶斯分类 客户流失预测技术的对比研究表明,朴素贝叶斯的预测效果可以与决策树和 神经网络相媲美【2 6 】。叶进等首先对引起电信客户流失的客户心理、服务质量等因 素进行分析,确定先验知识,根据先验知识选取特征和训练样本,通过贝叶斯网 络的结构学习和参数学习,建立客户流失模型,预测结果表明贝叶斯网络是分析 客户流失行为不确定性问题的有效工具【2 7 】。 第l 苹绪论 曼鼍皇曼皇曼曼曼孽曼曼皇曼! i i ;ii i i _ ii ! 曼鼍曼曼曼曼皇曼曼曼曼曼曼曼曼曼曼! ! 寰曼曼! 曼! 曼曼曼曼笪皇曼曼曼! 曼皇! 皇曼曼 ( 5 ) 粗糙集 史芳丽等应用粗糙集对训练样本中的1 7 个属性进行重要性约简学习,形成 具有1 2 个属性的训练样本,在此基础上,应用c 4 5 算法建模,大大提高了学 习效率,实验结果表明,模型是健壮和稳定的【2 引。此外,x u 等提出了一种基于 粗糙集的b p 神经网络客户流失预测模型,并通过实验验证了模型的有效性【2 9 】。 ( 6 ) 支持向量机 s u n 等通过s v m 方法研究了银行信用卡客户流失模型,通过与b p 神经网 络对比研究表明s v m 具有更高的预测准确率【3 0 1 。应维云等建立了基于带有不同 类权重参数的支持向量机算法的c w - s v m 预测模型,通过调整类权参数改变分 类面位置,提高了算法的分类准确性,通过实际的银行信贷客户数据测试表明, 模型具有较好的客户流失预测效果【3 ,相比传统预测算法,s v m 更适合解决大 数据集和不平衡数据。基于改进的s v m 算法在客户流失预测中应用也是近年来 的研究热点问题 3 2 , 3 3 】。 ( 7 ) 混合技术预测模型 由于数据挖掘技术的各类方法在处理不同数据集时表现出的预测性能有很 大差异,为了提高模型预测的精确度,应用混合技术建立预测模型是客户流失预 测的一个发展趋势。h u n g 运用决策树与神经网络技术相结合的技术研究了移动 用户流失行为 3 4 】。l e e 等提出了一个称为s e p i 的混合模型,通过实际的客户流 失数据分析表明,这种方法比单独使用任何一种技术:回归分析、神经网络和决 策树取得的预测精确度更高【3 5 】。h o m g 等提出的混合预测模型在传统预测模型的 基础上增加了客户挽留机制模块,模型不仅具有较高的客户流失预测精确度,还 可以对客户流失行为进行细分,在此基础上给出客户挽留机制及应对策略。即不 仅技术角度对客户的流失行为进行预测,还从管理角度针对客户流失行为的具体 情况进行了有益的探索p6 | 。 总之,基于数据挖掘技术的方法在客户流失预测中有着广泛而深入的研究, 取得了丰硕的成果。而由于数据集本身的特点以及各算法适用条件的差异,针对 特定问题选择合适的预测算法才能得到良好的预测效果,如下表2 1 所示分析总 结了主流方法的优缺点。 表1 - 1 数据挖掘在分析型c 肌中应用研究 t a b l e1 一ld a t am i n i n ga p p li c a ti o ni na n a l y t i c a lc d i 建模方法优点缺点 应用领域 模型性能仅取决于自变 不能处理离散数据客户流失预测 回归分析量和因变量的分布是否数据分布未必符合预先假设客户购买行为预测 符合模型模型难以用直观形式表现客户生命周期分析 分类准确率高分类类别多时,准确率明显下降 客户细分 决策树学习速度快 不易从多个特征的组合中发现客户流失预测 表现形式形象直观 规则客户价值评价 北京工业大学管理学硕士学位论文 能发现非线性模式结果难以用简单的规则表述客户流失预测 不必预先对样本数据的要求样本数据必须是数值型客户信用评价 神经网络 分布作假设预测结果与网络拓扑结构及权客户价值评估 系数相关 贝叶斯 较强的不确定性的知识简单贝叶斯分类假设样本特征客户流失分析 表达形式是相互独立的客户满意度评价 分类 处理噪声数据的能力 良好的知识简约功能基于集合论,难以处理连续型的客户流失预测 粗糙集算法简单、容易操作特征客户价值评价 产生的规则需要合并处理 适合小样本的数据 难于处理多分类问题 客户流失预测 支持向有效处理非线性分类和核函数的选择和参数的确定比 客户分类及识别 量机非线性回归 较复杂 计算量与样本维数无关 混合策略包括两者以上的方法方法的具体选项需要多次测试客户流失等 由于客户流失数据集是非平衡数据集,因此深入研究非平衡数据挖掘算法是 未来研究重要的方向。此外,现实问题涉及的客户数据往往是海量的,因此对海 量数据的并行处理与挖掘也是重要的发展方向。提高客户流失预测建模的精确度 是研究的一个重要分支;开发客户流失行为预测与挽留系统也是未来研究的重要 领域。 具体而言,客户流失的影响因素及建模的特征选择有待进一步研究:基于多 方法的数据挖掘技术建模是提高预测建模性能一个有效方法:开发混合策略的客 户流失管理系统即不仅能够精确预测出可能流失的客户,还能分析其流失的主要 因素,并采取相应的挽留举措是未来研究的重要方向。最后,由于客户的投诉数 据和抱怨数据往往是语音数据或半结构化、非结构化的文本数据,基于多媒体挖 掘和文本挖掘技术也是比较前沿的研究领域。针对网络招聘网站的企业客户数据 采用数据挖掘方法对企业客户进行在线行为w e b 挖掘的研究则方兴未艾。 总之,应用以数据挖掘为核心技术的客户流失管理研究对于我国企业及国家 经济的持续快速发展都有重要的实际意义和学术价值。 1 3 研究内容与创新点 本文旨在针对专业网络招聘网站中的企业客户在线行为进行分析,将数据挖 掘方法中待机敏感学习理论、支持向量机、神经网络、聚类分析等应用于客户行 为分析与预测,对s v m 算法进行了改进以提高预测的精确度,同时尝试建立基 于数据挖掘技术的客户行为分析与预测系统。应用某招聘网站实际的客户数据进 行了实证分析,以求理论与实践相结合。 8 第l 苹绪论 论文创新点 1 ) 针对客户流失数据集的非平衡性与错分代价差异性问题,在传统s v m 基 础上,引入代价敏感学习理论,提出了代价敏感s v m 的客户流失预测建模方法, 通过实验验证了方法了有效性,对解决此类问题有一定的借鉴意义。 2 ) 针对客户流失预测数据集特征高维的特点,提出了主成分分析与神经网 络的预测建模方法,通过实证研究结果表明,此组合方法降低了高维属性,简化 了神经网络拓扑结构,提高了模型的预测性能。 3 ) 针对网络招聘行业内的企业客户挽留问题,分析了企业客户流失因素, 探讨了客户挽留预测收益模型,采用k m e a n s 聚类技术对客户在线行为进行了客 户细分,针对每类客户的特征,探讨了客户关系管理策略。 1 4 研究内容图析 第l 章对非平衡数据问题进行了介绍,阐述了本文研究背景、内容和意义; 简要介绍了客户流失管理问题,并综述了基于数据挖掘技术的客户流失预测研 究。 第2 章对数据挖掘概念、功能及流程进行了阐述;研究了统计学习理论与支 持向量机,并论述了支持向量机在客户流失预测中的研究现状;介绍了神经网络 与聚类算法原理。 第3 章针对客户流失预测数据具有的非平衡性及错分代价差异问题,提出了 基于待机敏感s v m 的客户流失预测方法,并通过实验对模型进行了验证。 第4 章针对客户流失预测数据中高维属性的特点,采用p c a 技术进行降维 处理,之后采用神经网络进行流失预测,结果表明这种组合方法能够有效提高模 型的预测性能。 第5 章分析了网络招聘企业客户流失因素,并基于聚类技术进行了客户细 分,结合每类客户特征,探讨了差异化的客户关系管理策略。 论文研究结构如图1 2 所示。 北京工业大学管理学硕士学位论文 1 0 第1 章绪论 曼曼皇曼鼍曼曼曼曼皇曼曼皇! 皇曼鼍曼鼍曼曼曼皇n n m _ u n un nmm m m m ! 曼! 曼皇皇曼鼍蔓量鼍曼皇曼鼍鼍曼鼍曼量曼曼曼曼曼曼曼曼皇! 曼寡 图1 - 2 研究结构框架图 f i g u r e1 2t h ef r a m eo fr e s e a r c hs t r u c t u r e 1 5 本章小结 本章论述了本文研究背景及意义,分析了客户流失因素,对基于数据挖掘技 术的客户流失预测研究进行了综述,给出了整体研究思路和架构。 本章部分研究成果发表于第三届中国智能计算大会学术年会( i c c 2 0 0 9 ) 。 第2 章相关理论研究 2 1 数据挖掘 2 1 1 数据挖掘概念 第2 章相关理论研究 19 9 5 年在美国计算机年会( a s s o c i a t i o nf o rc o m p u t i n gm a c h i n e r y , a c m ) 上首 次提出数据挖掘( d a t am i n i n g ) 的概念,并迅速在世界范围内成为研究热点。数据 挖掘是源于数据库中一项以人工智能为基础的数据分析技术,其主要功能是在大 量数据中自动发现潜在有用的知识。在传统的决策支持系统中,知识库中的知识 和规则是由专家或程序人员建立的,是由外部输入的。而数据挖掘的任务是发现 大量数据中尚未被发现的知识,是从系统内部自动获取知识的过程。对于那些决 策者明确了解的信息,可以用查询、联机分析处理( o l a p ) 或其它工具直接获取。 数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随即的数据中,发 掘隐含的、不为人知的,但确实存在的规律或模式的过程。数据挖掘有时也称为 知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 、数据模式分析( d a t ap a _ t t e m a n a l y s i s ) 或功能相依分析( f u n c t i o n a ld e p e n d e n c ya n a l y s i s ) 。数据挖掘是一个交叉学 科,涉及机器学习、模式识别、统计学、数据可视化、高性能计算、并行处理等 多个领域。通过数据挖掘得到的知识可以应用于信息管理、过程控制、科学研究、 情报处理及商业决策支持

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论