基于数据挖掘的信用卡客户细分与目标营销模型研究_第1页
基于数据挖掘的信用卡客户细分与目标营销模型研究_第2页
基于数据挖掘的信用卡客户细分与目标营销模型研究_第3页
基于数据挖掘的信用卡客户细分与目标营销模型研究_第4页
基于数据挖掘的信用卡客户细分与目标营销模型研究_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 基于数据挖掘的信用卡客户细分与目标营销模型研究基于数据挖掘的信用卡客户细分与目标营销模型研究 谢佳斌谢佳斌 张兰兰张兰兰 刘朔刘朔 中国人民大学统计学院中国人民大学统计学院 目录目录 引言引言 1 商业理解商业理解 2 数据理解数据理解 3 数据准备数据准备 4 模型的建立和评估模型的建立和评估 5 模型的实施模型的实施 6 1 引言引言 v 信用卡主要通过个人短期循环借贷获取利润,具有很高的风险信用卡主要通过个人短期循环借贷获取利润,具有很高的风险 性。性。 v 在个人消费信贷越来越被中国银行业看重的今天,由于受信用在个人消费信贷越来越被中国银行业看重的今天,由于受信用 卡业务的高额利润和

2、巨大市场空间的引诱,中国的各大商业银卡业务的高额利润和巨大市场空间的引诱,中国的各大商业银 行都开始加入或增加了在信用卡业务的投入,将其作为重点业行都开始加入或增加了在信用卡业务的投入,将其作为重点业 务加以发展,激烈争夺信用卡客户。务加以发展,激烈争夺信用卡客户。 v 目前,我国的信用卡发卡行、发卡量和交易量都大幅上升。目前,我国的信用卡发卡行、发卡量和交易量都大幅上升。 1 引言(续)引言(续) 盲目发卡盲目发卡 未合理地未合理地 选择客户选择客户 国内推出信用卡业务的商业银行都不同程度地存在以下问题:国内推出信用卡业务的商业银行都不同程度地存在以下问题: 信用卡信信用卡信 用额度设用额度

3、设 定不合理定不合理 上述问题给这些银行造成的损失是巨大的,它们逐渐意识上述问题给这些银行造成的损失是巨大的,它们逐渐意识 到仅重视信用卡发行量的增加及客户消费金额的提高是不够的。到仅重视信用卡发行量的增加及客户消费金额的提高是不够的。 如何衡量客户价值的高低,确立发卡准则,为核发信用卡及信如何衡量客户价值的高低,确立发卡准则,为核发信用卡及信 用额度提供参考,防范与信用卡违约、欺诈行为等相关的一系用额度提供参考,防范与信用卡违约、欺诈行为等相关的一系 列问题成为了这些银行的首要任务。列问题成为了这些银行的首要任务。 2 商业理解商业理解 v 随着国内金融行业竞争程度的日益加剧,国内金融企业必

4、须通随着国内金融行业竞争程度的日益加剧,国内金融企业必须通 过过“以客户为中心以客户为中心”建立建立“一对一一对一”的营销方式来实现。的营销方式来实现。 v 但对每一位客户都进行关系营销,其投入的成本是非常大的,但对每一位客户都进行关系营销,其投入的成本是非常大的, 且通常回报却并不高。当前银行业发展的现状,是且通常回报却并不高。当前银行业发展的现状,是20%20%的客户创的客户创 造出造出80%80%的利润,即服从的利润,即服从“二八定律二八定律”。 v 所以,银行必须先要对客户进行分类,将有限的资源优先满足所以,银行必须先要对客户进行分类,将有限的资源优先满足 最有价值的客户,而非对每一位

5、客户都进行关系营销。最有价值的客户,而非对每一位客户都进行关系营销。 v 如何依据客户价值对其进行分类,怎样对不同类别的客户进行如何依据客户价值对其进行分类,怎样对不同类别的客户进行 特征提取来指导营销人员进行有针对性的营销、采取策略来减特征提取来指导营销人员进行有针对性的营销、采取策略来减 少客户的流失、增加客户的消费就成为非常重要的议题。少客户的流失、增加客户的消费就成为非常重要的议题。 2 商业理解(续)商业理解(续) v 本文将根据国内本文将根据国内a a银行信用卡中心提供的数据集:银行信用卡中心提供的数据集: v 首先,从持卡人的收入、刷卡消费及个人信用三方面利首先,从持卡人的收入、

6、刷卡消费及个人信用三方面利 用聚类分析方法将该行的所有顾客进行细分;用聚类分析方法将该行的所有顾客进行细分; v 然后,利用持卡人的背景信息变量建立预测模型,对客然后,利用持卡人的背景信息变量建立预测模型,对客 户所属类别进行预测;户所属类别进行预测; v 最后,利用预测模型输出的决策树规则,帮助银行了解最后,利用预测模型输出的决策树规则,帮助银行了解 不同类别客户的相关特征,根据这些特征为银行的营销人员不同类别客户的相关特征,根据这些特征为银行的营销人员 寻找、定位有价值的新客户提供帮助,同时对不同价值的客寻找、定位有价值的新客户提供帮助,同时对不同价值的客 户采取不同的管理营销策略,使营销

7、人员的工作更有针对性、户采取不同的管理营销策略,使营销人员的工作更有针对性、 更有效,从而为增进银行与客户之间的互动关系,减少客户更有效,从而为增进银行与客户之间的互动关系,减少客户 流失率,强化客户忠诚度和价值,改进客户关系管理提供参流失率,强化客户忠诚度和价值,改进客户关系管理提供参 考依据。考依据。 3 数据理解数据理解 v本文的研究数据为本文的研究数据为a a银行信用卡中心提供的客户资料,银行信用卡中心提供的客户资料, 具体包括:具体包括: v个人基本信息个人基本信息:性别、年龄、职业、学历、户籍、婚:性别、年龄、职业、学历、户籍、婚 姻、个人月收入及支出等姻、个人月收入及支出等 v家

8、庭情况家庭情况:家庭月收入、人口数、家庭经济状况等:家庭月收入、人口数、家庭经济状况等 v个人持卡消费情况个人持卡消费情况:刷卡频率、月刷卡金额、借款余:刷卡频率、月刷卡金额、借款余 额及逾期等额及逾期等 v个人与银行往来的相关情况个人与银行往来的相关情况:呆账记录、退票记录、:呆账记录、退票记录、 拒往记录、其它银行强制停卡记录等拒往记录、其它银行强制停卡记录等 v共共2727个变量个变量6553565535条记录。条记录。 3 数据理解(续)数据理解(续) 变量名变量名变量解释变量解释类别类别 申请书来源申请书来源信用卡申请书的来源及方式信用卡申请书的来源及方式8分类变量分类变量 瑕疵户瑕

9、疵户此信用卡是否为瑕疵户此信用卡是否为瑕疵户2 2分类变量分类变量 逾期逾期此信用卡是否超过此信用卡是否超过3030天没有还款天没有还款2 2分类变量分类变量 呆账呆账此信用卡是否有呆帐记录此信用卡是否有呆帐记录 2 2分类变量分类变量 借款余额借款余额此信用卡持有人是否有借款余额大于此信用卡持有人是否有借款余额大于800800万元万元2 2分类变量分类变量 退票退票此信用卡持有人是否有退票记录此信用卡持有人是否有退票记录2 2分类变量分类变量 拒往记录拒往记录此信用卡持有人是否有拒往记录此信用卡持有人是否有拒往记录2 2分类变量分类变量 强制停卡记录强制停卡记录此信用卡持有人是否有他行强制停

10、卡记录此信用卡持有人是否有他行强制停卡记录2 2分类变量分类变量 张数张数此信用卡持有人个人拥有的此信用卡持有人个人拥有的 信用卡信用卡 张数张数5分类顺序变量分类顺序变量 频率频率此信用卡持有人个人使用信用卡的频率此信用卡持有人个人使用信用卡的频率5分类顺序变量分类顺序变量 户籍户籍此信用卡持有人户籍所在地理区此信用卡持有人户籍所在地理区4分类变量分类变量 都市化程度都市化程度此信用卡持有人户籍所在地都市化程度此信用卡持有人户籍所在地都市化程度3分类变量分类变量 性别性别此信用卡持有人之性别此信用卡持有人之性别2分类变量分类变量 3 数据理解(续)数据理解(续) 变量名变量名变量解释变量解释

11、类别类别 年龄年龄此信用卡持有人之年龄状况此信用卡持有人之年龄状况9分类顺序变量分类顺序变量 婚姻婚姻此信用卡持有人之婚姻状况此信用卡持有人之婚姻状况3分类变量分类变量 学历学历此信用卡持有人之学历此信用卡持有人之学历5分类顺序变量分类顺序变量 职业职业此信用卡持有人之职业此信用卡持有人之职业22分类变量分类变量 个人月收入个人月收入此信用卡持有人之个人平均月收入此信用卡持有人之个人平均月收入8分类顺序变量分类顺序变量 个人月开销个人月开销此信用卡持有人之个人平均月开销此信用卡持有人之个人平均月开销5分类顺序变量分类顺序变量 住家住家此信用卡持有人之住家情况此信用卡持有人之住家情况6分类变量分

12、类变量 家庭月收入家庭月收入此信用卡持有人之家庭平均月收入此信用卡持有人之家庭平均月收入6分类顺序变量分类顺序变量 月刷卡额月刷卡额此信用卡持有人之平均月信用卡刷卡金额此信用卡持有人之平均月信用卡刷卡金额8分类顺序变量分类顺序变量 宗教信仰宗教信仰此信用卡持有人之宗教信仰此信用卡持有人之宗教信仰7分类变量分类变量 人口数人口数此信用卡持有人之共同居住人口数此信用卡持有人之共同居住人口数9分类顺序变量分类顺序变量 家庭经济家庭经济此信用卡持有人之家庭经济客观等级此信用卡持有人之家庭经济客观等级5分类顺序变量分类顺序变量 血型血型此信用卡持有人之血型此信用卡持有人之血型4分类顺序变量分类顺序变量

13、星座星座此信用卡持有人之星座此信用卡持有人之星座12分类变量分类变量 4 数据准备数据准备 v 4.1 数据清洗数据清洗 v 两类不合逻辑的数据两类不合逻辑的数据:一类为使用信用卡的频率为没有使用:一类为使用信用卡的频率为没有使用 (变量频率的取值为(变量频率的取值为5),但刷卡金额大于),但刷卡金额大于0的记录;另一类为的记录;另一类为 家庭月收入模拟变量取值小于家庭月收入模拟变量取值小于0,而家庭月收入至少为,而家庭月收入至少为0的记录。的记录。 v 缺失数据缺失数据:一部分记录的家庭月收入数据缺失(家庭月收入对:一部分记录的家庭月收入数据缺失(家庭月收入对 应的取值为应的取值为0),该部

14、分缺失数据较少而总数据量很大。),该部分缺失数据较少而总数据量很大。 v 处理办法:直接删除。处理办法:直接删除。 v 数据清洗总共删除数据清洗总共删除7058条记录,余下条记录,余下58477条记录。接下来条记录。接下来 的分析都基于清洗后的数据进行。的分析都基于清洗后的数据进行。 4 数据理解(续)数据理解(续) v 4.2 4.2 衍生目标变量:客户类别衍生目标变量:客户类别 v 此处利用聚类分析方法来对信用卡客户进行分类。此处利用聚类分析方法来对信用卡客户进行分类。 v 优质客户的标准参考优质客户的标准参考第一财经日报第一财经日报的评论作出,需同时具的评论作出,需同时具 备如下三个条件

15、:备如下三个条件: v 首先,是高收入的人群。高收入的人群,相对给银行带来的风首先,是高收入的人群。高收入的人群,相对给银行带来的风 v 险小,而且高收入才能给高消费带来物质基础。险小,而且高收入才能给高消费带来物质基础。 v 其次,是高消费的人群。显然,只有消费才能给发卡行带来利其次,是高消费的人群。显然,只有消费才能给发卡行带来利 v 益,消费越多,商家付给发卡银行的手续费也就越多。益,消费越多,商家付给发卡银行的手续费也就越多。 v 最后,还得是信用良好的人。逾期不能归还,但还得保证能最后,还得是信用良好的人。逾期不能归还,但还得保证能 v (有能力)归还,而不是透支后破产。(有能力)归

16、还,而不是透支后破产。 4 数据理解(续)数据理解(续) v 在现有数据的基础上本文分别从上述三个方面选取变量进行聚在现有数据的基础上本文分别从上述三个方面选取变量进行聚 类:类: v (1 1)收入水平)收入水平 v 个人月收入、家庭月收入个人月收入、家庭月收入 v (2 2)消费金额)消费金额 v 信用卡持卡人平均月刷卡金额信用卡持卡人平均月刷卡金额 v (3 3)个人信用)个人信用 v 该数据集并没有直接提供客户的信用得分状况,但有:该数据集并没有直接提供客户的信用得分状况,但有: 此持卡人是否为瑕疵户、是否在本行逾期超过此持卡人是否为瑕疵户、是否在本行逾期超过3030天、是天、是 否有

17、呆账记录、是否有借款余额大于否有呆账记录、是否有借款余额大于800800万元、是否有退票记万元、是否有退票记 录、是否有拒往记录、是否有其它银行强制停卡记录等信息录、是否有拒往记录、是否有其它银行强制停卡记录等信息 从这从这7 7个变量衍生出一个新的变量,变量名记为个变量衍生出一个新的变量,变量名记为“信用信用” ” 4 数据理解(续)数据理解(续) v 2 2聚类结果及分析聚类结果及分析 v 运用运用clementine 11.0clementine 11.0软件中提供的软件中提供的k-meansk-means聚类分析方法,将银聚类分析方法,将银 行所有的信用卡客户分成四类。行所有的信用卡客

18、户分成四类。 cluster-3cluster-3:优质客户:优质客户 cluster-2cluster-2:潜力优质客户:潜力优质客户 cluster-1:cluster-1:一般客户一般客户 cluster-4cluster-4:劣质客户:劣质客户 v 第三类客户(第三类客户(cluster-3cluster-3):): v 月刷卡额最大,个人月收入和家庭月收入也很高,在四类客户中排名月刷卡额最大,个人月收入和家庭月收入也很高,在四类客户中排名 第二;还款能力强第二;还款能力强 ,信用得分在四类客户中排名第二,与第一名相,信用得分在四类客户中排名第二,与第一名相 差无几,个人信用很好。这类

19、客户有差无几,个人信用很好。这类客户有2383623836名,占整个客户群体的名,占整个客户群体的 40.76%40.76%。此类客户为银行的优质客户,是银行利润最重要的贡献者。此类客户为银行的优质客户,是银行利润最重要的贡献者。 v 第二类客户(第二类客户(cluster-2cluster-2):): v 月刷卡额排在四类客户中排名第二,略低于第一名;刷卡消费金额很月刷卡额排在四类客户中排名第二,略低于第一名;刷卡消费金额很 大,个人月收入和家庭月收入在四类客户中排名第一;还款能力强,大,个人月收入和家庭月收入在四类客户中排名第一;还款能力强, 但信用得分较低。此类客户有但信用得分较低。此类

20、客户有23982398名,占整个客户群体的名,占整个客户群体的4.1%4.1%。此类。此类 客户是很有可能转化为银行优质客户的潜力优质客户,只要通过一些客户是很有可能转化为银行优质客户的潜力优质客户,只要通过一些 营销策略来建立与他们的良好关系并通过引导来改变其消费习惯,加营销策略来建立与他们的良好关系并通过引导来改变其消费习惯,加 强信用管理,他们就很容易给银行带来更多的利润强信用管理,他们就很容易给银行带来更多的利润 v 第一类客户(第一类客户(cluster-1cluster-1):): v 月刷卡额、个人月收入和家庭月收入在四类客户中均排第三名,刷卡月刷卡额、个人月收入和家庭月收入在四

21、类客户中均排第三名,刷卡 消费金额较大,还款能力一般,信用得分很高,信用很好。此类客户消费金额较大,还款能力一般,信用得分很高,信用很好。此类客户 有有2911929119名,占整个客户群体的名,占整个客户群体的49.8%49.8%,为一般客户,其转变成优质客,为一般客户,其转变成优质客 户的概率较低,但是这类客户的存在不会减少银行利润的增长,而且户的概率较低,但是这类客户的存在不会减少银行利润的增长,而且 对银行利润的增长具有一定的支持作用。对银行利润的增长具有一定的支持作用。 v 第四类客户(第四类客户(cluster-4cluster-4):): v 月刷卡额、个人月收入和家庭月收入在四

22、类客户中都是最低的,而且月刷卡额、个人月收入和家庭月收入在四类客户中都是最低的,而且 信用得分也很低,消费金额小,还款能力低,个人信用也较差,为劣信用得分也很低,消费金额小,还款能力低,个人信用也较差,为劣 质客户。这类客户有质客户。这类客户有31243124名,占整个客户群体的名,占整个客户群体的5.34%5.34%。一般来说,。一般来说, 此类客户的存在不但不会给银行带来利润,反而会减少银行的收益。此类客户的存在不但不会给银行带来利润,反而会减少银行的收益。 因此,对于此类客户,合理的策略是用一系列的方法来限制这类客户因此,对于此类客户,合理的策略是用一系列的方法来限制这类客户 的消费,并

23、逐渐减少这一类别客户在整个客户群体中所占的比例。的消费,并逐渐减少这一类别客户在整个客户群体中所占的比例。 5 预测模型的建立和评估预测模型的建立和评估 v 主要采用决策树和神经网络模型。主要采用决策树和神经网络模型。 v 输出变量输出变量:客户类别作为输出变量,即有聚类生成的:客户类别作为输出变量,即有聚类生成的 “cluster”cluster”变量变量 v 输入变量输入变量:客户的个人背景信息,由:客户的个人背景信息,由clementine 11.0clementine 11.0 中的中的 feature selectionfeature selection结点对输入变量进行选择,对输出

24、变量结点对输入变量进行选择,对输出变量 有重要作用的共有有重要作用的共有2020个,如个,如“性别性别”、“年龄年龄”、“婚姻婚姻”、 “学历学历”、“职业职业”、“个人月收入个人月收入”、“个人月开销个人月开销”、 “住家住家”、“家庭月收入家庭月收入”、“月刷卡额月刷卡额”、“宗教信仰宗教信仰”、 “人口数人口数”等。等。 5 模型的建立和评估(续)模型的建立和评估(续) v 初步分析发现客户类别变量所对应的四种类别客户数据占全部数据初步分析发现客户类别变量所对应的四种类别客户数据占全部数据 的比例严重不对称。的比例严重不对称。 v 引入一个平衡节点,分别对第一、二、三、四种类型的客户采用

25、引入一个平衡节点,分别对第一、二、三、四种类型的客户采用8%8%、 100%100%、10%10%和和77%77%的抽样比例,最终进入模型的数据集共有的抽样比例,最终进入模型的数据集共有95189518条记条记 录。录。 客户类别客户类别所占百分比所占百分比% %个数个数 cluster-1cluster-149.8049.802912029120 cluster-2cluster-24.104.1023982398 cluster-3cluster-340.7640.762383623836 cluster-4cluster-45.345.3431233123 客户类别客户类别所占百分比所占

26、百分比% %个数个数 cluster-1cluster-125.0225.0224102410 cluster-2cluster-224.8924.8923982398 cluster-3cluster-324.9724.9724052405 cluster-4cluster-425.1225.1224022402 5 模型的建立和评估(续)模型的建立和评估(续) v 利用利用partitionpartition(划分)结点,将平衡化处理后的全部数(划分)结点,将平衡化处理后的全部数 据按照据按照70%70%和和30%30%的比例分别划分为训练集和测试集数据。的比例分别划分为训练集和测试集数据

27、。 各模型预测结果如下:各模型预测结果如下: v 最终采用最终采用c5.0c5.0算法模型。算法模型。 算法算法分类分类对训练集数据对训练集数据对测试集数据对测试集数据 神经网络神经网络 正确正确91.75%90.94% 错误错误8.25%9.06% c5.0 正确正确86.64%86.11% 错误错误13.36%13.89% c&r tree 正确正确78.65%78.57% 错误错误21.35%21.43% chaid 正确正确83.48%83.52% 错误错误16.52%16.48% 6 模型的实施模型的实施 v 经过模型的评估,验证规则的有效性后,可以:经过模型的评估,验证规则的有效性后,可以: 1 利用有效规则所描述的不同客户的特征,帮助银行寻找利用有效规则所描述的不同客户的特征,帮助银行寻找 目标客户目标客户 2 利用所得到的有效规则对银行信用卡的新客户即申请者利用所得到的有效规则对银行信用卡的新客户即申请者 进行预测,根据其所属类别的不同采取不同核发卡或营进行预测,根据其所属类别的不同采取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论