已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)聚类分析在客户细分领域的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 客户是企业生存和发展的根基,保持客户、吸引客户和充分发掘客户的盈 收潜力是企业提高核心竞争力的关键。而客户关系管理( c r m ) 正是一个获取、 保持和增加可获利客户的过程。 聚类分析作为数据挖掘技术中的一种重要方法,已成为该研究领域中一个 非常活跃的研究课题。聚类分析应用于客户关系管理有以下方面:客户细分, 新客户获取,客户保持,删除客户,购物篮分析,需求预测与目标经营,交叉 销售与主动营销等。本文主要研究聚类分析算法在客户细分领域的应用,所采 用的数据集是来自p k d d 9 9 d i s c o v e r yc h a l l e n g e 的一组金融数据集( 银行) 。 目前已有一些聚类算法应用于银行客户细分的实验。由于在细分客户的时候, 并不能明确指出某个客户一定属于或不属于某一客户群体,恰恰相反一个客户 样本可以属于不同的客户群,而模糊聚类算法由于引入隶属度的概念能更好地 体现客户的这一特征,所以本文采用模糊c 均值( f c m ) 聚类算法来对银行客 户进行细分。 在验证f c m 聚类算法有效性时本文采用的是基于x i e b e n i 有效性的方法, 并对该方法进行了修改,另外又在f c m 算法的循环之后添加了去除空簇的步 骤,提高了算法的效率:在实验阶段,通过选用不同的参数细分来得到不同的 细分结果,并对结果进行分析,验证了f c m 算法的有效性;最后还采用j a v a 程序设计语言在j b u i l d e r 9 o 开发环境下实现了一个客户细分原型系统,该系统 可以完成属性选择,数据预处理,客户细分等一些基本的客户细分功能。 关键词客户关系管理,数据挖掘,聚类算法,数据预处理,客户细分 a b s t r a c t c u s t o m e r sa r cm eg r o 吼d w o r kf o rt 1 1 ee x i s t e n c ea 1 1 dd e v e l o p m c n to fe m e r p r i s e s r e t a i n i n gc u s t o m e r s ,a n n c t i n gc u s t o m e r sa 1 1 df i l l l ym i n i n gt h ep a y o f rp m 丘t so f c u s t o m e r sa r e 虹把k e yt 0i n c r e a s i n gm ec o r ec o m p e t i t i o nf o r c ef o re n t e r p r i s e s c f 己m ( c u s t o m e rr e l a t i o n s h i pm a i l a g a m c n t ) i sap r o c e s so fa c q u i f i n gc u s t o m e r s ,r e t a i l l i n g c u s t o m e r sa n di n c r e a s i n gp r o f i t d b l ec u s t o m e r s a sa ni m p o n 孤tm e t l l o di nt h ed a t am i m n gf i e l d ,c l u s t e r i n ga n a l ”i sh 蠲b e c o m e ap o p u l a rr e s e 甜c hs u b j e c ti nt l i i sf i e l d c l u s t 丽n ga n a l y s i sh 龉b e e na p p l i e di nc 蹦 i nm ef 0 1 l o w i n ga s p e c t s :c u s t o m c rs e 舯e n t a t i o n ,n e wc u s t o m e ra c q u i s i t i o n ,c u s t o m e r r e t e i l t i o n ,c u s t o m e rd e l e t i o n ,s h o p p i n gb 弱k c ta n a l y s i s ,r c q u i r e m e n tp r e d i c t i o na 1 1 d t a r g c tm a n a g e m e n t ,c m s ss a l ea i l da c t i v em a r k e t i n g ,e t c t h em e s i sm a i m yr e s e a r c h e s o nt l l ea p p l i c a t i o no f c l u s t e r i n ga i l a l y s i si nc u s t o m e rs e g m c i l t a t i o n ,w h e r e 也ea d o p t e d d a t a s e t si s 疗o mt l l ep k d d 9 9d i s c o v e r yc h a l l e n g e t h a ti s a 毋d u po ff i n a n c i a l d a t a s e t s ( b a r 血) c u r 埘l t l y t h e r ea r es o m e 印p l i c a t i o n so fc l u s t e r i n ga l g o r i t h m si n c u s t o m e rs e g i n 锄t a t i o no fb a n kf o re x p 丽m e n t s i ti sh a r dt oc l e a r l ys a yt h a ta c u s t o m e rb e l o n g st oo rd o e sn o tb e l o n gt oap a n i c u l a rc u s t o m e r 伊o u pw l l i l e s e g m e n t i n gc u s t o m e r s o nm ec o n t r a r y ac u s t o m e rc a nb e l o n gt od i 行b 嗽1 tg r o u p s f u z z yc m e a l l s( f c m )c l u s t 耐n ga 1 9 0 r i m mc a l lc o m m e n d a b l yr e n e c tm e c h 锄c t e r i s t i c so fc u s t o m c r sf o rt l l ei n t r o d u c t i o no fm e m b e r s h i pc o n c e p t ,s of u z z y c m e a n s ( f c m ) c l u s t e r i n ga 1 9 0 r i t h mi sa d o p t e dh e r c t h em e t h o du s e df o rv a l i d a t i n gt h ef c mv a l i d i t yi sb a s e do nt h ex i e - b e n i v a l i d i t y ,t h em e s i sm o d i f i e st h ex i e b e n iv a l i d i t ya n das t 印o fe l i m i n a t i n ge m p t y c l u s t e r si sa d d e da n e r t h ef c ml o o pt oi m p r o v et h ee 硒c i e n c yo fm ea l g “t h t h ee x p e r i m e n tp h a s e ,w eu s ed i f r c r e n tp a r a m e t e r sf o rc u s t o m e rs e g m e m a t i o na n d g e td i 髓r e n tr c s u l t s ,a 1 1 dt l l c i lt l l ev a l i d i t yo ft 1 1 ea l g o r i t h mi sv a l i d a t e db ya i l a l y z i n g t h e s er e s u l t s f i n a l ly ,ap r o t o t y p es y s t e mo fc u s t o m e rs e g m e n t a t i o ni si m p l e m e l l t e d i nj a v ai nt h ee n v i r o n m e l l to fj b u i l d e r 9 0i nt h em e s i s ,w h i c hc 趾p e r f o 珊s o m e b a s i c 胁c t i o n s ,s u c h 觞a m 伯u t cs e l e c t i o n ,d a t ap r e p r o c e s s ,c u s t o m e rs e g m e h t a t i o n j i a b s 嘶t k e y w o r d s c r m ,d a t am i i l i n g ,c l u s t e r i n ga l g o r i t l l m ,d a t ap r e p m c e s s i n g ,c u s t o m e r s e 粤n e n t a t i o n i i i 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被 查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学。 保密论文待解密后适用本声明。 学位论文作者签名:3 企蛹指导教师签名: y 口舌年占月彳日a 彳年 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含 为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 学位论文作者签名:切、暖) 霞 y 口6 年6 月7 日 第一章绪论 1 1 研究背景及意义 第一章绪论 随着经济全球化,企业面临着越来越激烈的市场竞争。客户关系管理 ( c u s t o m e rr e l a t i o n s h i pm a l l a g e m c n t ,c i t m ) 便是企业通过了解客户需求,发现客 户价值,发展有效市场战略,改善产品与服务,增大销售,提高效率与效果,进 而追求最大盈利的一种实践。关于c r m 的定义,不同的研究机构有着不同的表 述。最早提出该概念的g a m l e r g r o u p 认为:所谓的客户关系管理就是为企业提供 全方位的管理视角;赋予企业更完善的客户交流能力,最大化客户的收益率。 目前,c r m 已被成功地应用在零售、一电信、保险、银行等行业。在这方面 的研究,国外已经有近二十年的历史,发展 导比较成熟,有的已经进入了应用后 的盈利阶段。而在国内,由于起步较晚,现有的大部分客户管理模块只是数据的 简单记录,雨没有体现出智能性。那么如何对这些数据进行分析和处理? 如何为 客户提供个性化的服务? 这就要用到数据挖掘技术。 数据挖掘技术是一种新的商业信息处理技术,其主要特点是对商业数据库中 的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决 策的关键性数据。数据挖掘能够帮助企业确定客户的特点,从而可以为客户提供 有针对性的服务,其在c i t m 方面有着广泛的应用,如:客户细分、客户获得、 客户保持、客户服务等。 聚类分析算法作为数据挖掘中的一种重要方法,是将数据对象分组成为多个 类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差 别较大。鉴于聚类算法具有上述特点,商业上常常采用这种技术来进行市场细分、 客户细分等。聚类技术很早就被广泛地应用于动植物的分类、基因的分类、岩 石的分类等领域,应用于商业研究还是个比较新的领域。企业通过采用聚类算 法来细分客户,得到具有不同特征的客户群,从而帮助营销人员制定出针对客户 的营销策略,提高客户的价值贡献。 第一章绪论 1 2 国内外研究现状 由于客户关系管理在国外已经发展了一段时间,因此已经有一些聚类分析 算法应用于客户细分的探索和实践,比如采用p m e d i a l l 聚类算法对购物商场的 顾客进行细分i 列;采用k - m e 锄s ,s o m ( s e l f o r :g a l l i z i n gm a p ) ,f u z z yk - m e a i l s 聚 类算法对股票交易客户进行细分 3 】;运用模糊聚类算法对在线音乐用户进行细 分【4 】等。 国内也有人提出采用聚类分析方法来分析、预测客户行为。比如湖南移动通 信采用s p s s 统计软件提供的k m e a n s 聚类算法对客户进行细分以辅助营销决策 :另外还有一些将k 均值( c 均值) 聚类,系统聚类法( 谱系聚类法) ,减法聚 类法( s u b t r a c t i v ec l u s t 耐n g ) ,模糊c 均值( f c m ) 聚类算法应用于银行客户细分 的实验等。 通常,在做客户分析的时候,并不能明确指出某个客户一定属于或一定不 属于某一客户群体,恰恰相反一个客户样本可以属于不同的客户群。而模糊聚 类算法由于引入了隶属度的概念,可以给出每个客户分属于各类的隶属度。相 对于硬聚类而言,模糊聚类算法能够更好地体现客户的这一特征,所以本文采 用模糊c 均值( f c m ) 聚类算法来对银行客户进行细分1 6 】。 1 3 主要研究内容 进入2 l 世纪,商业银行个人金融业务迅速增长,己经成为中国各商业银行 创造更高效益的有效途径,是银行业新的经济增长点。银行的运营思想也发生 了转变,客户成了银行的第一资产,银行之间的竞争也演变成了客户争夺之战。 不同的客户有不同的特点,对企业所带来的贡献也有所不同。针对不同的客户, 企业就需要采取不同的战略,因此就需要客户细分。客户细分( c u s t o m e r s e g m e n t a t i o n ) 是指将一个大的客户群划分成一个个细分群的动作。通过客户细 分,企业可以更好的识别不同的客户群体,区别对待不同客户,采取不同的客 户战略,达到最优化配置客户资源的目的。 本文的主要工作如下: ( 1 ) 客户细分方法的研究。对国内外客户细分理论和方法进行深入的分析, 2 第一章绪论 并对其在银行领域的应用进行研究,重点阐述基于消费者消费行为的客户细分 方法。 ( 2 ) 客户细分变量的选择。正确选择与挖掘任务相关的细分变量,不仅 可以减少数据量,更重要的是可以提高挖掘效率。在应用聚类算法进行客户群 体划分时,本文综合考虑客户的各类影响因素,同时兼顾数据的可获取性原则 来选择细分变量。 ( 3 ) 数据预处理。由于原始客户数据库数据量大,存在的问题也比较多, 不能直接满足数据挖掘算法的要求,因此本文对这些数据进行了预处理:数据 清洗、数据集成、数据变换和数据归约。 ( 4 ) 模糊c 均值聚类算法( f c m ) 的改进和实现。本文在验证f c m 聚类 算法有效性时采用的是基于x i e b e n i 有效性的方法并对该方法进行了修改;另 外又在f c m 算法的循环之后添加了去除空簇的步骤,提高了算法的效率;最后 还实现了改进后的f c m 的算法并将其应用于银行客户细分。 ( 5 ) 实现一个客户细分的原型系统。采用j a v a 语言在j b u i d e r 9 0 开发环境 下实现一个客户细分的原型系统,该原型可以完成属性选择,数据预处理,客 户聚类等一些基本的客户细分功能。 第二章客户细分的理论基础 第二章客户细分的理论基础 2 1 客户细分基本理论 2 1 1 客户细分概述 客户细分的概念是美国市场学家温德尔史密斯( w 酿d e ur s m i t h ) 于2 0 世纪5 0 年代中期提出来的7 】【8 】【9 1 。所谓客户细分主要指企业在明确的策略、业 务模式下和专注的市场条件下,根据客户的价值、需求和偏好等综合因素对客 户进行分类,分属于同一客户群的消费者具备一定程度的相似性,而不同的细 分客户群间存在明显的差异性。s u z a i l i l ed o l l r i e r 认为:正确的客户细分能够有 效地降低成本,同时获得更强、更有利可图的市场渗透。 客户细分理论是指用于指导客户细分的理论,它是建立客户细分模型的基 础和理论依据。 客户细分理论的提出和应用具有一定的客观基础,它是商品经济发展和市 场竞争日益激烈的产物,其理论依据主要有两点: ( 1 ) 客户需求的异质性。并不是所有的客户需求都是相同的,只要存在两 个以上的客户,需求就会不同。由于客户需求欲望及购买行为是多元的,所以 客户在购买产品和使用服务上的需求呈现较大的差异,客户需求的异质性是进 行客户细分的内在依据。 一 ( 2 ) 企业资源的有限性和为了进行有效的市场竞争。现代企业由于受到自 身实力的限制,不可能提供满足所有顾客需求的产品和服务。任何一个企业, 即便是处于市场领先地位,也不可能在整个营销过程中占绝对优势。为了进行 有效的竞争,企业必须进行客户细分,选择最有利可图的目标客户群体,集中 企业资源,制定科学的竞争策略,来提高自己的竞争优势。所以,企业资源的 有限性和为了进行有效的市场竞争是进行客户细分的外在要求。 客户细分模型是指选择一定的细分变量,按照一定的划分标准对客户进行 分类的方法。一个好的细分模型首先是要满足细分深度的要求:不同的使用者 对客户细分的深度要求不同,这就要求模型划分的结果能满足不同使用者的需 要:其次是对数据的处理能力和容错能力;现代数据库的存储容量越来越大, 4 第二蕈客户细分的理论基础 数据结构也趋于多样性,误差数据也随之增多,这就要求模型能适应数据在量 和样上的膨胀,对误差数据能做出判断和处理;最后是模型要有很强的适应能 力:变化是绝对的,而稳定只是相对的,无论是个人消费者还是消费群体,他 们的消费行为都是存在变化的,这就要求模型对客户的细分标准要随新的情况 而不断更新。 2 1 2 客户细分的方式 当企业处在大众营销阶段,对客户的分层比较简单,如分为大中型企业、 小企业、个人用户等,当然整个公司应该按照这一分层结果面对客户。但是, 随着精准化营销、一对一营销时代的来临,客户细分的方法就需要多样化。营 销活动的设计要求对客户进行更为细致的分层。具有什么样的特征( 内在的或 外在的) ,客户会对什么形式和内容的营销活动有什么样的反应,是营销设计必 须考虑的内容,这也需要通过反复研究尝试才能得出结果。客户细分方式一般 可以从以下三个方面来考虑: ( 1 ) 外在属性 如客户的地域分布,客户的产品拥有,客户的组织归属等。通常,这种分 层简单、直观,数据也很容易得到。但这种分类比较粗放,依然不知道在每一 个客户层面,谁是“好”客户,谁是“差”客户。 ( 2 ) 内在属性 内在属性为客户的内在因素所决定的属性,比如性别、年龄、收入、家庭 成员数、信用度、性格、价值取向等。 ( 3 ) 消费行为分类 不少行业对消费行为的分析主要从三个方面来考虑,即所谓i 心m :最近一 次消费、消费频率与消费金额【1 0 】【l l 】。这些指标都需要在账户系统中得到。 按照消费行为来分类通常只能适用于现有客户。对于潜在客户,由于消费 行为还没有开始,当然分层无从谈起。即使对于现有客户,消费行为分类也只 能满足企业客户分层的特定目的,如奖励贡献多的客户,至于找出客户中的特 点为市场营销活动找到确定策略,则要做更多的数据分析工作。 进行客户细分通常都有一定的目标,根据目标选择合适的细分标准是在 第二章客户细分的理论基础 c r m 系统开发中客户细分的原则。 2 1 3 常用的客户细分方法 目前在对客户进行细分的方法中,除了传统的按照客户基本属性进行分类 的方法以外,还有很多其它客户细分模型,如基于客户价值贡献度的细分模型、 基于不同需求偏好的细分模型和基于消费行为的细分模型等u 】。每一种细分模 型首先都得确定基于何种变量细分,不同的变量得到的细分结果也不一样。在 传统的营销理论中,确定客户细分变量主要有两大方法:一是依据自然属性来 细分客户,二是依据行为属性来细分客户。依据自然属性来细分客户主要是利 用人口统计学、社会经济学、地理环境等提供的有关个人的主要信息来细分客 户;依据行为属性细分客户主要是通过对人们的心理、个性特征、生活方式的 研究来细分客户,这类细分模型对数据的要求较高,能反映出客户更深层次的 信息。 目前已有一些基于消费者消费行为的客户细分模型,主要以消费者的消费 频率、消费金额等为细分变量,如r f m 模型和客户价值矩阵模型,下面就对这 两种客户细分方法进行介绍: ( 1 ) 砌7 m 分析 r f m 细分模型是根据消费者的消费间隔、消费频率和消费金额三个变量来 识别重点客户的细分模型。i 蹬m 分析是广泛应用于数据库营销的一种客户细分 方法。r ( r e c e n c y ) 指客户上次消费行为发生至今的间隔,该时期越短,则r 越 大;f ( f r e q 啪c y ) 指在某一段时期内消费行为的频率,消费次数越多的客户越 有可能与企业达成新的交易;m ( m o n e t a w ) 指在某一段时期间内消费的金额。 础;m 分析的所有成分都是行为方面的,应用这些容易获得的因素,能够预测客 户的消费行为。 r f m 分析是一种有效的客户细分方法。根据客户的消费日期将客户排序, 最近的排在前面,这样就可以将客户分为若干部分,对于f 和m 的值需要先经 过标准化处理,然后再采用相同的方法确定f 和m 的排序,这样每个客户就可 以被定位在一个三维空间内,每一个客户都存在相应的( r ,f 。m ) 值从小到大排 序,再按照定的比例划分消费群。:m 细分方法的缺点是分析过程过于复杂, 6 第二章客户细分的理论基础 需要耗费大量的时间,得到的客户群过多,并且消费次数f 和消费金额m 闻存 在多重共线性,即当客户每增加一次消费行为,其消费金额也会相应增加。 ( 2 ) 客户价值矩阵分析 为了消除消费次数f 和总消费金额m 之间的多重共线性,m a r c u s 提出对 传统的r f m 分析进行修正,用平均消费额代替r f m 模型中的总消费额【1 4 】。另 外,为了解决传统r f m 分析过多细分客户群的缺陷,他提出用消费次数f 与 平均消费额a 构造的客户价值矩阵简化细分结果( 图2 1 所示) 。第三个变量 r e c e n c v 在客户价值矩阵中被剔除。 在客户价值矩阵中,确定消费次数f 和平均消费额a 的基准是各自的平均 值,一旦确定了坐标轴的划分,客户就被定位在客户价值矩阵的某一象限区间 内。依据客户消费次数的高低和平均消费额的多少,客户价值矩阵将客户划分 成四种类型,即乐于消费型客户、优质型客户、经常型客户和不确定客户。 图2 1m a r c u s 提出的客户价值矩阵 2 2 将聚类算法应用于客户细分 传统的客户细分依据的是客户的统计学特征,这种细分方法存在着很大的 误差。随着数据挖掘技术的日趋成熟,数据挖掘也成为客户细分的一种重要手 段,聚类算法便是其中一种。通常的做法是在客户关系管理中结合数据挖掘技 术,迸行必要的数据收集和准备,然后建立模型,最后利用数据挖掘工具得出 结论,进行决策。 聚类是数据挖掘领域的一个重要的研究课题。所谓聚类就是将数据对象分 组成若干个类或簇。由聚类所生成的簇是一组数据对象的集合,这些对象与同 第二章客户细分的理论基础 个簇中的对象彼此相似,与其它簇中的对象相异。聚类分析的典型应用包括 生物学上的基因分类和动植物分类;商务上对客户群体的分析:地理数据的分 析:w e b 文档的分析等。在许多应用中,可将一个簇中的数据对象作一个整体 处理,如对属于同个簇的客户提供相同的客户服务。 将聚类应用于客户细分,一般按照以下步骤进行: 第一步:判断数据是否有聚类趋势,着有则继续执行以下的步骤,否则认 为该数据集不适合聚类分析: 第二步:选择一种聚类算法用于待聚类的客户数据d ,将d 划分为若干个 类c = c l ,c 2 ,c p ) 。其中d = c l u c 2 u u c 口; 第三步:对每一个c i ,i l ,2 , p ,根据其中成员的特点,归纳出能描 述其特征的一条或凡条规则。设d 上的所有的规则集合为r = r 1 ,r 2 ,r q ) ,由 于一个类可能有多条规则,所以通常碍p ; 第四步:评判归纳出的规则。建立评价函数e v a l ( r ) ,对r 中的每条规则进 行评价,这个函数是领域相关的,不同情况下的e v a l ( r ) 也不同。经过评判,若 聚类结果具有较高的可信度,则将聚类结果应用于实际应用。否则,选择其它 的聚类算法再进行分析。 选择合适的聚类算法是客户细分的核心。聚类算法的选择要考虑到客户数 据的格式和数据类型。在选择聚类算法时,从以下几个方面考虑: ( 1 ) 客户数据都存储在数据库或数据仓库中,而且数据量很大; ( 2 ) 涉及到客户的外部属性和内部属性的取值大多为非数值型,般为标 称( n o m i n a l ) 变量或序数型( o r d i n a l ) 变量; ( 3 ) 分析客户细分目的,就是要针对客户特征提供合适的服务。实际应用 中,以下情况会经常发生:客户的特征是多方面的,不同的决策者关心的用户 特征不一定相同:一个客户往往可以同时属于多个客户类型;客户细分的标准 随着时间的变化可能也会发生变化。 综合以上因素,需根据数据特征和分类的目的和标准采用不同的聚类方法。 本文选用模糊聚类算法作为细分客户的方法【7 】【15 1 。模糊聚类( f u z z yc l u s t e r i n g ) 其基本思想是:认为研究的对象中各单位之间存在着程度不同的相似性( 亲疏关 系) ,于是根据一批样本的多项指标观测数据,以能够度量样本( 或指标) 之间相 第二章客户细分的理论基础 似程度的统计量为依据,把相似程度较大、关系密切的样本( 或指标) 聚合为一类, 把另一些彼此之间相似程度较小、关系疏远的样本( 或指标) 聚合为另一类,直到 一一划分出来,形成一个由小到大的分类系统。由于在细分客户的时候,并不能 明确指出某个客户一定属于或不属于某一客户群体,恰恰相反,一个客户样本可 以属于不同的客户群。而模糊聚类算法由于引入隶属度( 程度不同的相似性) 的 概念能更好地体现客户在特征属性方面的这一事实,所以本文选用模糊聚类算法 作为细分客户的方法。 2 3 银行业的客户细分 2 3 1 银行业概况 经过多年的发展我国银行卡市场己形成相当规模,并已步入了稳定的发展 期,无论是持卡人的数量,还是接受银行卡消费的商户数量都有了相当规模, 人们的用卡意识也有了一定的普及,中国的信用卡市场基础已基本形成。银行 卡作为电子货币的主要载体之一,是一种在未来可以取代纸币的消费支付形式。 此外银行卡强化了银行的综合金融服务功能,降低了银行的业务成本,并为研 究和挖掘客户消费行为提供了数据支持。 目前在国内,由于多种因素的局限,对银行卡方面的研究主要集中在风险 控制、完善服务体系方面,而对银行卡消费行为、银行卡消费群体的研究还不 多。 在国外,发卡银行要对市场客户进行细致详尽的调查和数据收集,然后根 据调查和数据分析的结果以及银行的风险偏好,确定银行的目标客户,并设计 出目标客户需要的信用卡产品。而在我国,各大银行推出信用卡时,大多略去 了这一环节,由于缺乏对市场的分析,没有将现有市场的客户群体进行有效的 细分,造成了目前信用卡服务单一,缺乏自身特色,使用率不高的现状。 但是总的来讲,从追求“规模效益”转向挖掘“客户效益”符合银行的 发展规律。现在以客户为中心的银行竞争发展战略,不同于过去以网点和人际 关系为主线对客户不加选择的竞争,而是借助信息技术工具,细分客户价值, 针对不同客户群体进行市场定位,提供符合其需求的金融产品和服务,并着力 9 第二章客户细分的理论基础 稳定发展商效益的客户群,以期获得“深度效益”。中国的银行正在树立客户战 略,建立长期稳定、科学管理的客户关系,深度挖掘客户资源的效益,大力开 展以关系营销为主的金融营销和以优质文明服务为主的服务支持与吸引活动, 实现银行与客户在价值利益上的“双赢”。 2 3 2 对银行卡消费者进行细分研究的必要性 每个市场都存在不同的消费人群,对于银行也是同样的道理,银行有着广 大的客户群,这些客户千差万别。对于不同的客户,他们的需求又是千变万化 的。银行不可能满足所有客户的需求,这不仅是由银行自身物质条件所限制,而 且从经济效益方面来看也是不可取的。故而,银行应该分辨出它能有效为之服 务的最有价值的客户,为他们提供更为个性化的服务,而不是四面出击,兼顾 每一个银行客户。对银行来讲,在经营管理中应用客户细分理论的必要性主要 表现在以下几个方面: ( 1 ) 客户细分是实施客户经理刳的必然要求。 ( 2 ) 客户细分是优化银行资源配置的必然要求。 ( 3 ) 客户细分是促进银行进行内部改革的必然要求。 ( 4 ) 客户细分是银行了解竞争对手取得主动性的必然要求。 ( 5 ) 客户细分是提高经营效益、实现银行价值最大化的必然要求。 ( 6 ) 客户细分是确立银行差异化优势的根本保证。 由于金融产品的易模仿性,差异化优势很难保持,那么银行就要在服务和 形象的差异化上下功夫。当产品较难差异化时,要取得竞争成功的关键常常有 赖于服务的增加和质量的提高。通过提供有突破性的独特服务,将自己与竞争 对手区别开来,并有效地增强这种差异化服务的能力。 2 3 3 银行卡消费数据作为研究样本的可能性 首先从使用银行卡的客观环境上来看,使用银行卡的人数在增长,安装p o s 机的商户也越来越多,银行卡消费的基础环境正在成熟和完善中;从人们对银 行卡消费的主观接受态度上来看,持卡消费作为一种时尚的消费形式越来越受 到社会接纳和认可,这就为通过银行卡消费数据来研究消费者的消费行为特点 1 0 第二章客户细分的理论基础 提供了保证。 其次,从消费行为的规律性来看,个人消费存在规律,个人银行卡消费同 样也存在着规律。银行卡消费只是一种新的支付形式,这种形式同传统的纸币 支付形式一样,实质上体现的还是消费者的消费意愿。随着银行卡消费环境的 不断完善,这种卡支付形式对于消费者而言,和传统现金支付形式的区别正逐 渐缩小,并且由于银行卡支付方式的便利性和安全性,更使它有逐步取代传统 支付形式的趋势,这也使得银行卡的消费数据越发能真实的表达消费者消费的 意愿。 因此,对银行卡消费行为的研究可以达成对消费者消费行为模式进行了解 和区分的目的。 第三章数据预处理 第三章数据预处理 数据挖掘过程可分为:问题定义、数据预处理、数据挖掘以及结果的解释 和评估等阶段,如图3 1 所示。本文的主要目标是借助聚类算法实现对银行客 户的细分。本章主要完成客户细分的数据预处理工作,正式的挖掘工作以及对 挖掘结果的解释和评估将在第四章完成。 图3 1 数据挖掘过程图 3 1 数据预处理概述 数据挖掘中最重要的就是数据和算法,数据预处理的质量直接关系到后期 挖掘的真实性和准确性。数据的预处理包括了数据清洗、数据集成、数据变换 和数据归约四个步骤【1 6 l 1 7 】。数据清洗通常是指通过填写空缺值,平滑噪声数据, 识别孤立点来“清洗”数据;数据集成是将多个数据源中的数据结合起来存放 在一个数据存储中;数据变换是将数据转换成适合挖掘的形式;数据归约是将 数据原始值用区间或较高层的概念替换,这样可以在接近保持原数据的完整性 的基础上,简化对数据的操作,并产生近似相同的分析结果。 对于银行客户数据,数据清洗是清除原始客户数据中的误差数据和孤立点 数据,误差数据主要指非连续型交易数据,孤立点数据主要指奇异交易行为数 据,这种奇异交易行为在客户群中出现的概率小于万分之一,属于极个别的行 为;数据集成是将一段时间内的交易行为集成到一张表中;数据变换主要是将 挖掘使用的对象属性转换成适合挖掘的形式;数据归约操作比较繁杂,但也最 为重要,由于原始样本数据容量非常大,并且数据是按照单笔消费行为来进行 记录的,在时间维度上很不利于分析,因此需要在较高层的时间维度上对数据 进行汇总。 这里需要强调的是以上所提及的各种数据预处理方法,并不是相互独立的, 而是相互关联的。 1 2 第三章数据预处理 3 2 客户数据库 本文所选用的数据集即客户数据库是来自p k d d 9 9d i s c o v e r yc h a l l e n g e 的 一组金融数据集( 银行) 1 8 1 。总共涉及8 个表,各表之间的关系如图3 2 所示。 有关各表的详细描述及所包含的具体字段如下: ( 1 ) a c c o u m 表:描述的是每个账户的静态特征。包含的属性有:a c c o l l n u d , d i s t r i c t - j d ,d a t e ,f e q u e i l c y ( 2 ) c l i e l l t 表:描述的是每个客户的特征。包含的属性有:c l i e n t j d ,b 矾1 n m b e r d i s 砸c t _ i d 。 ( 3 ) d i 印o s i t i o n 表:每条记录将一个客户和一个账户关联起来。这种关系 描述客户操作账户的权利。包含的属性有:d i s p _ 畦c l i e n t _ i d ,a c c o u n t _ i d ,t y p e 。 ( 4 ) p c m 柚e n to r d c r 表:每条记录描述的是一次支付账单的特征。包含的 属性有:o r d e r - i d ,a c c o u n t _ i d ,b a i l l ( _ t o ,a c c o l l l l l j o ,锄。岫t ,k - s y m b 0 1 a ( 5 ) t r a n s a c t i o n 表:每条记录描述的是一个账户上的单次交易。包含的属 性有:仃锄s j d ,a c c o l l i l t - i d ,d a t e ,t y p e ,o p e r a t i o n ,a i l l o u n t ,b a l a l l c e ,k _ s y m b o l ,b a i l l ( , a c c o u n t 。 图3 2客户数据库各表之间的关系图 ( 6 ) l o a n 表:每条记录描述的是赋予一个账户的贷款。包含的属性有: l o a n i d ,a c c o u n t _ i d ,d a t e ,锄o u n t ,d u r a t i o n ,p a y m 铋t s ,s t a t u s 。 ( 7 ) c r e d i tc a r d 表:每条记录描述的是发放给一个账户的信用卡。包含的 第三章数据预处理 属性有:c a r d 一i d ,d i s p i d ,t ) r p e ,i s s u e d 。 ( 8 ) d 咖o g r a p h i cd a t a 表:每条记录描述的是一个地区的人口学特征。包 含的属性有:a 1 ( = d i s t r i c t _ i d ) ,a 2 ,a 3 ,a 4 ,a 5 ,a 6 ,a 7 ,a 8 ,a 9 ,a 1 0 ,a 1 1 ,a 1 2 ,a 1 3 a 1 4 ,a 1 5 ,a 1 6 。 数据挖掘把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘 知识,提供决策支持服务。目前对数据挖掘的研究主要集中于挖掘技术、挖掘 算法、挖掘语言等。而事实上数据挖掘对所处理的数据有严格的质量要求。在 数据挖掘过程中数据预处理至关重要,根据统计,在一个完整的数据挖掘过程 中,数据预处理往往能占到总工作量的6 0 左右。 3 3 银行业客户数据预处理的原因 依照最近的g a m l e rg m u p 研究报告:低质量的数据是导致c r m 项目失败 的最重要原因。低劣的数据质量会危及整个银行c r m 的投资收益,并直接影 响到客户关系的建立。存在不完整的、含有噪声的和不一致的客户数据是大型 现实世界数据库、数据仓库共同的特点一 一方面,由于银行汇聚了客户的多种数据信息,而且这些信息来自不同的 数据库系统,在银行构建客户关系管理系统时,不可避免地会遇上如何管理这 些浩如烟海的数据,以及如何从中提取有用的信息的问题。这样就很容易造成 数据的不一致。主要包括两种情况:一种是不同部门接触客户分别使用了不同 的信息;丽另一方面,银行的业务交易数据库、客户信息数据库等每天都存在 着极大的更新。总的来说,银行客户数据需要预处理的原因可以归结为以下几 点: ( 1 ) 数据的分散性。银行数据来源复杂,各种数据分布于各业务系统中, 缺乏集中统一管理,数据难以有效利用。原始数据是从各个实际的应用系统中 获取的( 多种数据库、多种文本系统) ,由于关系数据库中的数据缺乏组织性, 也没有系统的、集成的历史记录,所以很难对这些数据做出具体详细的分析来 发现有用的信息,以把握银行的发展趋势和市场变化。 ( 2 ) 数据的利用率低。原有的数据库系统只能对原始数据进行一般的加工 和汇总,致使决策所需信息不足,难以满足银行c r m 的需要。原始数据定义 t 4 第三章数据预处理 的不一致性导致其可信度降低。 ( 3 ) 数据的访问能力不足。传统的银行数据库数据只提供业务数据的访问; 而c r m 处理不会对这些数据进行详尽的分析,c r m 要求提供综合的、多维的 数据,需要对细节数据进行不同程度的综合。事务处理系统不具备这样的综合 能力,而且在关系数据库中很难实现,即使能够实现,其访问数据的速度也是 相当慢的。全面而正确的数据是有效的客户分析和正确决策的前提,相关数据 收集越完整,决策结果也就越可靠。 一般情况下,原始数据库并不适合直接作为数据挖掘算法的输入,客户数 据库尤其如此,经过分析,主要有以下几个原因; ( 1 ) 客户数据库的原始资料来自于客户填写的资料,由于文化水平、理解 程度的差异,有些客户对某些术语难免有不完全理解的地方。对于不理解的问 题,部分客户没有填写,而按照银行要求这些资料是必须要填写的。还有部分 客户按照自己的理解填写,与银行系统的要求不符。还有些是客户为了省事而 不填写,因此存在数据不完整和数据偏差问题。 ( 2 ) 客户数据库中的信息大部分是通过银行信贷管理系统的数据采集功能 进行录入的,还有部分信息是通过相应的接口程序从其他结算系统中传递过来 的。在对大量数据录入时,由于人为操作和机器软硬件等原因,出现了一定的 录入错误,造成数据值错误、属性缺失、记录重复、违反完整性约束等问题。 从其他系统传递过来的数据,也可能造成记录重复、属性冗余、数据值冲突等 等。 ( 3 ) 数据类型的问题。由于数据挖掘中的聚类算法能处理的数据类型有限, 难以满足不同类型的要求,所以需要对客户数据库中的数据做定的转换。 ( 4 ) 客户数据库中的自然人基本信息表涉及的字段较多,有一部分字段信 息完全是银行日常工作的需要,不属于自然人的特征范畴,因此在不影响结果 的前提下,出于对性能的考虑,需要降低维数,即减少处理的属性个数,包括 去掉不感兴趣的属性,或将几个属性概括成一个属性。 综上所述,原始客户数据库的数据量比较大,内容比较丰富,但存在的问 题也比较多,客户数据库不能直接应用于数据挖掘。为了保证数据挖掘算法的 有效性,提高挖掘效率,必须慎重选择与挖掘任务相关的数据,并对这部分数 第三章数据预处理 据进行有效的预处理,使其更适合挖掘算法,减少挖掘过程中的障碍,提高挖 掘模式的质量,减少挖掘需要的时间。 3 4 数据预处理技术 数据挖掘算法对其处理的数据集合一般都有一定的要求,而现实世界中的 数据一般都极易受噪声数据、空缺数据和不一致数据的侵扰,很少能直接满足 数据挖掘算法的要求,因此需要对数据进行预处理。数据预处理技术可以改进 数据的质量,有助于提高其后挖掘过程的精度和性能。基于上面3 2 节对客户 数据库的介绍,本节将按照以下步骤及数据预处理技术对客户数据库进行数据 预处理。 3 4 1 数据属性选择 数据挖掘所处理的都是大规模的数据,在海量的数据上进行复杂的数据分 析和挖掘将需要很长时间,有时会使得这种分析不现实或不可行。属性选择即 选择与挖掘任务相关的属性,可以减少数据量,提高挖掘效率。 在应用聚类方法进行客户群体划分时,本文综合考虑了客户的各类影响因 素,同时借鉴各银行的指标体系,兼顾数据的可获取性原则和可量化原则最终 选取了客户的自然属性、客户的借贷状态属性和客户的交易行为属性共三个方面 的属性,来对银行客户进行细分。 。 通过对本文所选用的客户数据库中8 个表的分析,可以将与客户有关的属 性归结为三个方面:即客户自然属性,客户借贷状态属性,客户交易行为属性。 各类属性包含字段如下: ( 1 ) 客户自然属性:客户i d 、客户账号、客户所属区域、客户性别、客户 年龄。 ( 2 ) 客户借贷状态属性:信用卡i d 、信用卡类型、发卡日期、对应账号、 支付宝交易金额、支付宝描述、贷款数量、贷款起始日期、贷款期限、偿还状 况。 ( 3 ) 客户交易行为属性:交易账号、交易日期、交易类型、交易模式、交 易数量、交易后余额、交易描述、交易对方银行、交易对方账号。 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026-2031年中国农业产业化与农产品加工行业运营态势与投资前景预测分析报告
- 电子稳定响应生产计划考试题及答案
- 基于校情与学生需求的小学德育校本课程开发策略探究
- 飘窗护栏制作合同范本
- 模具组装调试合同范本
- 2026-2031年中国书柜行业深度分析与投资前景预测报告
- 2026-2031年中国无人驾驶船舶制造行业分析与发展策略咨询报告
- 山东省烟台市招远市2025-2026学年八年级上学期期中考试化学试题(含答案)
- 2025年70周岁以上老人年审换领驾驶证三力测试题答案
- 2025年新员工公司级安全教育试题参考答案
- MOOC 光学发展与人类文明-华南师范大学 中国大学慕课答案
- 2024年广东普通专升本《公共英语》完整版真题
- 体育场馆安全隐患分析
- DB22-T 3628-2023 自然资源地籍调查成果验收规范
- 邮政快递行业法律法规培训
- 输血科对输血病历不合格原因分析品管圈鱼骨图柏拉图
- 教培用输血注意事项资料课件
- 注塑生产计划自动排程
- 智慧树知到《大学生心理健康教育(西南民族大学)》章节测试答案
- 大创申报答辩ppt
- 人体工程学无障碍设计环境
评论
0/150
提交评论