基于数据挖掘的银行客户分类研究.doc_第1页
基于数据挖掘的银行客户分类研究.doc_第2页
基于数据挖掘的银行客户分类研究.doc_第3页
基于数据挖掘的银行客户分类研究.doc_第4页
基于数据挖掘的银行客户分类研究.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的银行客户分类研究 摘 要:针对银行竞争日益加剧,传统的客户管理方式日益难以满足客户需求的现状,本文提出一种基于改进的k-means聚类算法的客户细分方法,该方法针对k-means聚类算法易受噪声点干扰、对初始的中心点非常敏感、无法确定聚类个数的不足,通过剔除低密度数据点的方法去除噪声点,并结合数据点的密度和相对距离,选取间隔较远的高密度数据点作为初始化中心点,最后通过改进的silhouette评价指标确定聚类个数及聚类结果。本文最后基于该方法对银行客户数据进行聚类分析,并根据聚类结果制定出针对性的营销策略,实验结果表明:该方法能很好地解决传统k-means聚类算法的不足,在实际应用中可以解决银行客户细分问题,有助于提升营销决策质量和客户关系管理。 关键词: 客户细分;数据挖掘;k-means 0 引言 近年来,随着国家逐步加大对金融政策的改革,市场存、贷利率逐步放开,商业银行之间的竞争日益激烈。而银行之间的竞争根本上则是对客户的争夺,如何赢得客户并将客户价值最大化已经成为金融行业生存的发展的决定性因素。然而随着客户的需求日益多样化,传统的营销方式已经日益难以满足客户需求,在此背景下,银行必须充分挖掘客户信息,从而了解自己客户群的特征以及不同需求,进而对客户进行分类管理,实行针对性的营销、维护以及淘汰。这样不仅可以稳定、拓展客户群益,同时也能最大限度降低客户管理费用,从而实现银行利润最大化。 信息的高速发展以及银行大数据平台的日益完善,使银行对客户数据的深入挖掘成为可能。本文在此背景下,提出一种基于改进的 的聚类分析方法,并基于该方法对某银行客户样本数据进行聚类分析,将客户细分成有共同特征的客户群,最后针对不同的客户群体制定出有效的营销策略。 1.数据提取 客户分析维度的选取对模型的分析结果有着决定性的意义,合理的分析维度不仅需要满足建模的可行性,而且需要能从各个角度反映客户的价值,同时保证其自身之间的独立性和完整性。本文结合银行实际情况,选取了以下10个客户属性作为分析的维度,如表1所示。 根据上述客户属性,本文提取了某银行自2014年至2015年开户的所有客户数据,共21078条客户数据。 2.数据预处理 客户数据中包含不完整、含噪声的数据,如果直接使用这样的数据进行分析将会对分析的结果产生严重的影响,因此对原始数据进行预处理就显得尤为重要。本文预处理过程分为缺失值处理、数据标准化以及数据标准化以3个步骤。 2.1缺失值处理 本文提取的数据中,大部分客户属性的数据相对完整,尤其对数据挖掘结果影响较大的客户价值属性(储蓄日均、理财日均等)比较完整,仅部分客户基本属性有所缺失,具体分析为:年收入属性含有1742个缺失值,工作类型属性含有946缺失值,另外文化程度还有1256个缺失值。考虑到这3个属性对挖掘的影响不是很大,本文采用取中间值替代的方法,来填补这些空缺值。 2.2 数据类型转换 反映客户特征的属性,由于各自描述事物的差异,因而所属的字符类型也会有明显的差异,但是在实际的数据挖掘过程中,我们处理的往往都是数值型的数据,因而需要将字符串等其他类型的数据统一转换成数值类型的数据,如:性别属性中,用1表示“男”,2表示“女”,具体转换详情如表1所示,这里不作过多阐述。 2.3数据标准化 样本数据中,各属性度量单位的不同可能会对数据挖掘的结果产生重大影响,因此在对数据进行模型分析之前,需要对数据进行标准化处理,将转化为不受单位限制的无量纲的纯属值。本文采用标准差变换,公式为: 其中, 为样本数据第j个属性的均值, sj为第j个属性的标准差,计算公式为: 数据标准化后的数据如下: 3 聚类分析 在聚类算法中, k-means算法使用最为广泛,然而也存在如下几个不足之处:1.初始聚类中心的选取对聚类结果影响比较大。2.在聚类前必须输入簇的数目k值,但是这k值通常是无法事前确定的。3.算法对于噪声数据与异常数据非常敏感。本文针对k-means算法的上述缺陷对算法进行改进,并基于该方法对样本数据进行聚类分析。 3.1 噪声点剔除 处于数据集的低密度区域的数据对象被称为噪声点或孤立点,为了避免这些数据点对聚类过程的干扰,我们首先要将这些数据点剔除。本文首先计算各数据点的点密度,将点密度小于某一阈值的数据点剔除,具体算法如下: 1)计算数据集中各数据点之间的平均距离,公式如下: 其中n为样本总数, 为点i与点j之间的欧式距离。 2)计算数据集中每一个数据点的密度参数。对于空间中任一数据点p,以p为中心,以AvgDist为半径的区域内数据对象的个数称为点 的密度参数,记作density(p,AvgDist),公式为: 其中u(x)公式表示为: 4)遍历数据集,如果某一点的密度参小于平均密度参数的 ,则认为该点为噪声点,将其从数据集中剔除。计算完毕后新的数据集记作 。 噪声点剔除的效果如下图所示,可以看出经过噪声处理后,低密度的噪声点被去除。 3.2 初始点选取 k-means聚类算法对初始的中心点较为敏感,不合理的初始中心点会导致聚类结果局限于局部最优解,而不是全局最优,最终影响聚类的结果。本文提出一种改进的初始点选取方法,即选取距离相隔较远的点密度最大的点作为初始中心点,算法如下: 1)根据点密度计算公式(7)重新计算数据集 中每一个数据点的密度参数。 2)将最大点密度的数据点作为第一个初始化中心点加入到集合 中,同时将其从数据集D中删除。 3)计算数据集D中各点到集合 中各初始中心点的距离之和,并计算平均距离,计算公式为: 4)遍历数据集D,将到初始中心点距离之和大于平均距离的数据点加入到数据集C中。 5)遍历数据集C,将最大密度的数据点作为下一个初始化中心点加入到数据集A中,同时将其从数据集D中删除,并清空数据集C。 6)重复步骤(3)、(4)、(5)直至集合C中的数据点个数达到kmax。由于银行客户类别数通常不会超过10,因此本文此处kmax的取值为10。 算法执行完毕后,数据集A中的初始化中心点处于整个数据集中高密度区域内,并且相互之间相距较远,这样可以很好地描述数据集中的数据分布情况,提高k-means聚类结果的精度。 3.3 k-means聚类 k-means聚类算法在聚类之前无法确定分类个数k值, k的取值过大或过小都不能准确反映客户分类情况,使聚类失去意义。本文采用改进的轮廓系数指标对聚类的结果进行评判,由于在传统的轮廓系数计算公式中,需要反复计算每一个点到其他所有点的距离,必然导致计算量较大,本文对该公式稍作改进,使用中心点替代的方法计算轮廓系数,改进后的公式如下: 确定聚类有效的标准是使聚类结果达到类内紧密、类间远离。从类内紧密性角度出发,我们希望类内距离pj 越小越好,从类间远离性角度出发,我们希望最小类间距离sj越大越好。同时为了使指标不受量纲影响,我们通过类内距离和最小类间距离的最大值对该距离差进行压缩,使其落在区间之间。因此轮廓系数值silhouette在-1和1之间变化,聚类效果越好,该值越大,反之聚类效果越差,则该值就越小。 本文结合k-means算法以及silhouette聚类有效性指标,对样本数据进行聚类分析,算法如下: 1)选取聚类数的搜索范围 kmin,kmax 2)从kmin循环至kmax,执行以下步骤: a) 从集合C中按加入该集合的先后顺序取出k个数据点,其中k为簇的个数,即 b) 以这k个数据点作为初始聚类的中心点,利用k-means算法进行聚类。 c) 聚类完成后,利用公式(12)计算本次聚类的silhouette silhouette 值。 3)循环完毕后,比较每次聚类的silhouette值,选取silhouette值最大时的k值以及聚类结果作为最终的聚类结果。 由于银行中客户类别数一般不会超过10,因此本文中, kmin取值为2, kmax取值为10,实验结果如下: 从上表中可以看出,当 取值为5时,轮廓系数值最大,此时的聚类结果达到类内最紧密、类间最远离,因此本文选择 =5为最优解,最终聚类结果如下表所示: 4 聚类结果分析 聚类分析完成后,我们还需要对这5类数据进行客户特征分析,根据每一类不同的客户特征制定不同的营销策略。本文通过计算每一类数据均值和标准差,并结合银行实际业务,对每一类客户数据进行分析。 由表5分析可以看出第一类客户特点:该类客户年龄较小,文化程度较高,持有比高级别的银行卡,储蓄、保本理财、保险、国债等风险较小收益较低业务的指标值较小,而非保本理财、基金、证券等风险较大收益较高业务的指标值较大,此外贷款金额较大。对于这类客户,在客户关系维护时,应该针对客户年龄较低的特点,制定适合年轻人的维护方式。在业务营销方面,应该重点营销收益较高的业务或者贷款联动性业务,如基金业务、存贷盈业务等。 由表6分析可以看出第二类客户特点:该类客户储蓄、理财、基金等各项业务指标值均较低,但是最高卡级别比较高。可以看出,该类客户为流失的高价值客户,对于这类客户应该认真分析其流失原因,并有针对性地做好客户维挽工作。 由表7分析可以看出第三类客户特点:该类客户最高卡级别较低,年收入较低,储蓄、理财、基金等各项业务指标值均较低。可以看出该类客户为低价值客户,在银行资源有限的情况下,可以考虑停止针对该类客户的营销活动,而将资源投向产出比更高的高价值客户群。 由表8分析可以看出第4类客户特点:该类客户年龄较大,最高卡级别较高,储蓄、保本理财、保险等风险较小收益较低业务的指标值较大,相反基金、证券等风险较大收益较高业务的指标值较小,贷款金额较小。在客户关系维护方面,应该针对客户年龄较大的特点,制定适合中老年人的维护方式。在业务营销方面,应该重点营销储蓄、保本理财等稳健性收益产品。 由表9分析可以看出第5类客户特点:该类客户年收入较高,文化程度较高,并且贷款金额较大,但是储蓄、理财、基金等其他业务指标值很小,最高卡级别也较低。该类客户为潜在客户,在客户关系维护方面,应该针对客户文化层次较高的特点,制定侧重文化艺术的高品位维护方式。在业务营销方面,建议以贷款业务为突破口,展开交叉营销。 结束语 为了更好地实现银行客户分层管理,提升营销决策质量和客户关系管理,本文提出了一种基于改进的 聚类算法,该方法能解决传统 算法易受噪声点干扰、对初始的中心点非常敏感以及无法确定聚类个数的不足,在实际应用中可以很好地解决银行客户细分问题。此外本文最后根据聚类结果并结合银行自身状况,制定出针对性的营销策略,这对银行如何提升客户关系管理、增强客户体验有一定的参考意义。 本方法仍有一些不足之处,当客户数据量很大时,会出现计算时间过长的现象,因此在后续的研究过程中,会考虑引入分布式处理方式来提高数据处理的速度。 参考文献: 1 Shunye W. An improved k-means clustering algo-rithm based on dissimilarity C/Mechatronic Sci-ences,Electric Engineering and Computer (MEC),Proceedings 2013 International Conference on IEEE,2013:2629-2633. 2 孟 子健,马江洪.一种可选初始聚类中心的改进均值算法J.理论新探,2014,12(3) 3 QIAN JIANJUN, YANG JIAN, XU YONG. Local structure-based image decomposition for feature extraction with applications to face recognitionJ. IEEE Transtractions on Image Processing , 2013,22(9):3591- 3603 4 邓摇海,覃摇华,孙摇欣.一种优化初始中心的 K-means聚类算法J .计算机技术与发展,2013,23(11):98- 102. 5 方方.“大数据”趋势下商业银行应对策略研究J.新金融,2014(12):25-28 6 Ghemawat S. ACM Syrup on Operating Systems PrinciplesM. New York ACM, 2013:29-43 7 陆珉峰,虞鹏飞.互联网金融背景下商业银行“大数据”战略研究J. 经济与管理,2015(3):31-38 8 张建珍, 张秀珍, 周星星. 模糊聚类算法在银行客户分类管理中的应用J. 智能计算机与应用, 2014, 6 (4):78 -82 9 曾小青. 基于消费数据挖掘的多指标客户细分新方法J. 计算机应用研究, 2013,30(10):2944-2947 10 张顺龙,库涛, 周浩. 针对多聚类中心大数据集的加速K-means 聚类算法J. 计算机应用研究,2015,33(9):36-40 11 Luo Biao,Yang Wei-wei. Customer value classification Model and applica

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论