版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
银行客户行为分类预测模型构建分析综述目录TOC\o"1-3"\h\u12813银行客户行为分类预测模型构建分析综述 1287261.1评价指标 170191.1.1混淆矩阵 116401.1.2评价指标 257911.2模型建立及评价 3313631.3模型改进 4248301.3.1特征选择——岭回归&LASSO 5121731.3.2模型调参——网格搜索 624351.3.3改进模型比较 71.1评价指标1.1.1混淆矩阵混淆矩阵(confusionmatrix)用于衡量一个分类器分类的准确程度。它是一种特定的矩阵,用来呈现算法性能的可视化效果,其中,列代表预测类别,行代表实际类别,适用于有监督学习的模型效果评估。图5-1混淆矩阵图5-1中混淆矩阵内部各个单元格的解释如下:(1)真阳性(TruePositive,TP):样本的真实类别是正例,且模型预测结果也是正例,真实结果与预测结果保持一致。(2)真阴性(TrueNegative,TN):样本的真实类别是负例,且模型预测结果也是负例,真实结果与预测结果保持一致。(3)假阳性(FalsePositive,FP):样本的真实类别是负例,但模型将其预测为正例,真实结果与预测结果不保持一致。(4)假阴性(FalseNegative,FN):样本的真实类别是正例,但模型将其预测为负例,真实结果与预测结果不保持一致。1.1.2评价指标(1)准确率(Accuracy)准确率,简称为ACC,是指被正确分类的样本单元所占比重,计算公式为:Accuracy=TP+TN(2)召回率(Recall)召回率,又叫灵敏度,含义为测试集中所有正类样本中,被正确识别为正样本的比例,计算公式为:Recall=TP(3)精确率(Precision)预测精度,又叫正例命中率,指被预测为正类的样本单元中,真正正确的样本单元占比:Precision=(4)F1值(F1-score)F1值是精确率与召回率的调和平均值,其值更接近于Precision与Recall中较小的值。计算公式为:F1=(5)ROC曲线(receiveroperatingcharacteristiccurve)ROC曲线全称为接收者操作特征曲线,是一个反应敏感度和特异度连续变量的综合指标,表示真阳性率(TPR)和假阳性率(FPR)之间的变化关系。ROC曲线越有靠近于左上角的趋势,则说明预测结果越准确。ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持其形态不变。若在实际中遇到不平衡样本时,或随着时间变化测试集数据中正负样本也会随着变化时,也能够通过这条曲线对模型效果作出较为客观的评价。(6)AUC值(AreaUnderCurve)AUC即为ROC曲线下的面积,表示的是正例排在负例前面的概率。当AUC越接近于1时,则表示分类器性能就越好,低于0.5时则说明模型不具有分类价值。1.2模型建立及评价为了将客户信息与其营销行为反应进行关联,对产品与其目标顾客进行匹配,本文借助数据挖掘模型对现有客户群体识别分类,发掘出符合产品目标市场的潜在客户群体,从而达到预测客户营销行为决策的目的。将已经处理和划分好的数据集分别使用上述的分类器模型:KNN、逻辑回归、支持向量机、朴素贝叶斯、决策树、随机森林、AdaBoost以及XGBoost,通过训练集对各分类器训练,代入测试集分类预测,得到各模型的分类效果。对其进行比较分析,结果整理如下:表5-1各模型效果评价分类模型准确率召回率精确率F1值逻辑回归0.82610.61240.35210.4471朴素贝叶斯0.84450.48770.36690.4188决策树0.83560.33690.30470.3199KNN0.87950.29810.46180.3623XGBoost0.89330.29250.56850.3862随机森林0.88610.24740.50870.3329支持向量机0.89750.22480.65770.3351AdaBoost0.89750.21280.66960.3230从表5-1中可以得出,模型准确率最好的是支持向量机模型和AdaBoost分类器,准确率可高达0.8975,其次是XGBoost分类器,准确率约为0.8933。其余分类模型的准确率表现也均高于0.82。由此说明以上模型在分类准确率方面都有良好的表现,具有不错的分类能力表现。结合问题实际背景,本文想要通过客户信息从而对客户是否会认购定期存款这一问题进行预测,更需要知道在所有可能会将认购落地的客户中究竟会有多少能够被预测模型有效识别,并凭借这个结果对此类客户进行更为精准的营销策略制定,从而提高营销人员的成功率。故此处更适合选择召回率作为分类器预测效果评判标准,当预测正确的所有样本占总样本的比例更高,假阴性越少,则说明模型的预测效果就越好。根据召回率来排序,容易得到,逻辑回归模型的召回率最高,约为0.6124。因此,对客户是否会认购定期存款预测性能最好的模型是逻辑回归模型。但在此已有的模型预测效果在当前的表现下还不足以支撑模型预期的目标效果,此时的分类预测能力在实际运用中的误差控制仍较弱。为了能够达到更高的灵敏度,故需要在此基础之上继续对逻辑回归分类器进行改进。1.3模型改进为了使得逻辑回归模型的预测灵敏度及准确率得到提高,故需要继续对分类器进行改进,以期望达到更优的效果。本文在此选用特征选择和调参这两种方法,分别对逻辑回归模型进行优化。1.3.1特征选择——岭回归&LASSO特征选择,也叫特征缩减,是通过对损失函数加入惩罚项,使之在训练求解参数的过程中加入对系数大小的考虑。采用设置惩罚系数,使得影响较小的特征系数衰减到0,从而达到消除关联特征和噪声特征,只保留重要特征的目的。在进行特征选择时,一般有三种方式:子集选择、维数缩减和收缩方式。收缩方式也称作正则化,其含义是指对目标损失函数加入惩罚项,使得模型由原来的多解变为更倾向于其中的一个解,成为惩罚函数。主要包括LASSO(L1正则化)和岭回归(L2正则化)这两种。容易知道,线性回归的一般形式如下:假设函数:损失函数:目标函数:这里的损失函数采用的是最小二乘法。而LASSO和岭回归为了避免产生过拟合和通过正规方程方法求解θ中出现的xTx不可逆这两类问题,会在线性回归模型损失函数的基础上加上一个正则化项。其中的LASSO的损失函数:J岭回归的损失函数:J从公式中可以看到,岭回归与LASSO回归最大的区别在于,岭回归引入的是L2范数惩罚项,LASSO回归引入的是L1范数惩罚项。这使得LASSO回归能够让损失函数中的许多θ均变成0。LASSO的这点要优于岭回归,因为岭回归是要求所有的θ均存在的,而这样的做法会使得LASSO回归的计算量将变得远远小于岭回归。所以分别利用两种方法代入数据集,对其做特征选择,分别得到交叉验证所找出的最优惩罚项系数值。其中,LASSO的最佳λ=0.0192,岭回归的最佳λ=10。依据两种方法作出的特征选择结果,分别得到对应的新数据集,对其进行训练集和测试集的划分:LASSO的特征选择岭回归的特征选择图5-2、图5-3LSAAO和岭回归的特征选择可以看到由于两种方法的不同特点,选择的特征也具有较大差异,由于LASSO的特性,其特征损失较为明显。将经过特征选择后的新训练集代入模型拟合,并对其进行验证,最终得到如下结果:表5-2特征选择的改进模型效果评价分类模型准确率召回率精确率F1值LASSO0.72690.72740.25260.3750逻辑回归0.82610.61240.35210.4471岭回归0.61530.48280.14280.2204从表5-2中容易得出结论,将不作特征选择的逻辑回归模型与LASSO、岭回归的模型评价指标做对比,可以发现,使用LASSO方法模型的召回率达到了0.7274,说明模型的灵敏度得到显著提升,但其准确率和精确度却有下降,总体效果欠佳。同时,岭回归模型也在此表现不佳。1.3.2模型调参——网格搜索网格搜索是指,在所有候选的超参数中,通过循环遍历的方法,将各参数的可能取值排列组合生成“网格”,从而尝试所有可能性,将估计函数的参数通过交叉验证进行优化,从而选择出最终结果。应用到本文实际问题模型中,由于只有一个超参数,故仅需在1-10内间隔为1的等差数列内遍历,将取值逐个代入需要最优化的参数。经过网格搜索,得到调整后的最优参数为3。然后将这个最优参数代入前面已经训练过的逻辑回归模型,再次训练模型,最终得到调参后的新模型结果。通过计算,调参后的模型得分为0.8973。相较于未进行调参的逻辑回归模型,准确率已经有了明显的提升。作出调参后得到的新模型的ROC曲线,展示如下:图5-4调参后模型的ROC曲线通过对图5-4的分析,此模型的ROC曲线有明显凸靠近左上角的趋势,说明此模型有显著的分类效果,但离最佳理想状态仍存在一定距离。并且,该曲线的AUC值为0.7802,说明该模型的的分类效果具有一定的准确性。再对调参后模型的精确率、召回率、F1值以及支持度(支持样本数量)进行计算:表5-3调参的逻辑回归模型效果评价预测值准确率召回率F1值支持度00.910.980.941093810.640.240.351419平均/总计0.880.900.8812357可以得到,相较于直接进行拟合的逻辑回归模型,调参后模型精确率、召回率以及F1值均有了显著的提升。其中,召回率提高到了0.90,精确率提高到了0.88,而F1值也增加到了0.88。这表明调参后的逻辑回归模型具有良好的灵敏度和精度,可以起到不错的预测作用。1.3.3改进模型比较整理三种改进后的分类预测模型的各项评价指标结果,得到如下结论:表5-4三种改进模型的效果比较分类模型准确率召回率精确率F1值调参的逻辑回归模型0.900.900.880.88LASSO0.730.730.250.38逻辑回归0.830.610.350.45岭回归0.620.480.140.22从表5-4中可以得到,在这三种不同的模型改进方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网络运营服务标准保障保证承诺书(3篇)
- 企业知识库构建与共享模板
- 网络付款安全保护保证承诺书(4篇)
- 客户关系管理CRM系统客户信息收集工具
- 2026年领导力提升培训计划方案
- 2026年小贷公司合规经营与小微客户服务升级
- 2026年二胎家庭长子心理适应辅导策略
- 2026年燃煤电厂掺氨燃烧改造项目商业计划书
- 历史辽、西夏与北宋并立课件2025-2026学年统编版七年级历史下册
- 社区新时代文明实践站工作实施方案
- 2026年甘肃甘南碌曲县卫健系统招聘工作人员50人笔试备考题库及答案解析
- 董事保险责任制度
- 2026年陕西工业职业技术学院单招职业技能测试题库带答案详解(新)
- 2026届湖北省武汉市高三三月调研考试英语试卷(含答案)
- 2026广东茂名市公安局茂南分局招聘警务辅助人员20人考试参考题库及答案解析
- 三年(2023-2025)湖北中考语文真题分类汇编:专题09 名著阅读(解析版)
- 2026年春季第二学期学校德育主题活动工作安排表
- NT8001系列控制器配置程序V4.1使用说明书
- 市域产教联合体绩效考核体系制度
- 2026年1月浙江省高考(首考)化学试题(含标准答案)
- 2026秋招:阿里巴巴面试题及答案
评论
0/150
提交评论