基于交易数据的客户流失预警模型获奖科研报告_第1页
基于交易数据的客户流失预警模型获奖科研报告_第2页
基于交易数据的客户流失预警模型获奖科研报告_第3页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于交易数据的客户流失预警模型获奖科研报告摘要:面对瞬息万变的市场需求和日益激烈的市场竞争,客户关系管理对于现代企业的重要性日益凸显。客户流失预警是利用数据挖掘技术发现即将流失的客户名单,从而为企业有针对性地开展客户维系与挽留工作提供科学依据。国内外学者已经围绕客户流失预测模型做了许多研究,目前使用最为广泛的三种算法是Logistic回归、决策树和人工神经网络。由于实验数据的差异,这些研究所得到的结论也不尽相同。而且,现有研究大多基于模拟数据和用户消费数据,包含直接可用的预测变量,而鲜少涉及第三方支付行业常见的商户交易流水这一数据形式,如何从非结构化的交易流水中提取特征仍是一大难题。本文对某第三方支付公司提供的商户交易流水数据进行了整理和分析,结合业务经验构造了六个维度的特征用于预测客户流失情况,精心准备建模数据。运用主成分分析方法,解决了这些变量间存在的共线性问题。然后,分别采用传统的Logistic回归方法和基于决策树的LightGBM、基于神经网络的多层感知器两种不同的机器学习流行算法建模,得到定量分析结果,并对其进行定性分析。一方面,对模型进行解释,寻找客户流失关键因素;另一方面,对比不同算法在客户流失预测场景下的预测性能,探讨算法的适用性。实验结果表明,简单的Logistic回归即可取得较好的效果,LightGBM和MLP进一步提升了预测的准确度,且两种方法的预测性能没有明显的优劣之分,在解释能力和泛化能力上各具优势。对于变量重要性,近期内(1个月左右)商户的交易金额和交易笔数的变化率对模型预测结果影响最大,是实际的客户流失预测工作中需要重点关注的变量。

关键词:流失预警;非结构化数据;主成分分析;LightGBM;多层感知器

一相关理论基础

(一)客户流失理论

客户流失表现为客户为企业带来的价值的减少,不仅包括彻底终止与企业交易的行为,也包括减少与企业的交易次数、同时增加与竞争企业的交易频率的行为。本文对客户流失的定义是:若某个商户连续3个月没有产生交易流水记录,则认为该商户已经流失。

对于有流失倾向的客户,针对性地采取挽留措施,重建良好客户关系,保障企业利益不受损失,就是客户流失管理。客户流失管理可以划分为四个阶段——客户流失预测阶段、客户流失分析阶段、客户挽留阶段、方案评估阶段。流失预测阶段的主要工作就是借助客户流失预警模型,找出流失概率大的客户群体,列为重点关注对象。

(二)主成分分析

本文基于交易流水数据构造了六个维度的指标,同一维度内的指标相互之间相关性较强,直接用于建模会造成严重的共线性问题,使得模型不稳定,变量系数与实际方向甚至可能相反。因此,选择主成分分析法对指标进行降维处理。在构建完第三方支付公司商户流失风险预警指标体系后,对指标进行变量间相关性分析,通过主成分分析提取主成分,用于客户流失预测建模,以此来消除可能存在的多重共线性问题。

(三)分类算法

客户流失预测问题本质上是一个二分类问题,常用算法可以归纳为基于统计理论的预测和基于机器学习的预测两类。统计型算法以概率论和统计学原理为基础,常用的有回归分析、聚类分析和判别分析等。机器学习属于人工智能范畴,通过对大量样本的训练和学习寻找所需要的参数或模式,主要包括决策树、贝叶斯、人工神经网络、k近邻、支持向量机等,以及组合多个基学习器的集成学习算法。

二客户流失预警模型

(一)评估指标

文采用精确率P、召回率R、二者的综合指标F1-score和AUC值来评价模型的预测性能。对于某个类别,精确率P衡量的是正确判定该类别的测试样本占判定为该类别的测试样本的比例,召回率R衡量的是正确判定该类别测试样本占该类别所有测试样本的比例。对于给定的混淆矩阵,前三个指标的计算公式分别为:

定义真正类率(TruePositiveRate,TPR)为预测为正且实际为正的样本占所有正例样本的比例,伪正类率(FalsePositiveRate,FPR)为预测为正但实际为负的样本占所有负例样本的比例。对于模型给出的每个实例为正类的概率,通过设定阈值可以将每个实例归入正类或负类,进而计算得相应的一组TPR与FPR,每一组均对应ROC曲线上的一点。AUC值即定义为ROC曲线下方的面积,AUC值越大的分类器,正确率越高。

(二)模型结果

在建模准备阶段,已经通过主成分分析方法得到了11个相互正交的新变量,直接进行Logistic回归不会存在多重共线性问题。模型的参数估计见表5,可以看到,在0.05的显著性水平下,除去RC6以外,全部变量均通过了显著性检验。RC6主要与交易活跃维度下的近3个月活跃天数日均交易笔数、近3个月累计交易笔数、近6个月累计交易笔数、近9个月累计交易笔数四个指标相关。

对于LightGBM和MLP,通过5折交叉验證确定最佳参数组合。选择建立三层的MLP模型,隐藏层包含10个节点。比较三个模型在测试集上的精准率、召回率、F1值和auc值,可以得出结论,Logistic回归已经能够取得较好的分类结果,auc值在0.83左右;LightGBM和MLP在精准率和召回率上各占优势,但从F1-score和auc值两个综合性指标来看,LightGBM略胜一筹。但这种优势并不十分突出——LightGBM的auc值相对于MLP仅提高了不到0.004。

神经网络方法类似于一个黑箱,与之不同的是,我们可以直接输出Logistic回归模型和LightGBM模型中各个解释变量的重要程度,如下图所示。可以看到,两种方法中第7个主成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论