版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年客户流失预警试题及答案一、单项选择题(本大题共15小题,每小题2分,共30分。在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填在括号内)1.在客户流失预警模型中,若将实际未流失的客户预测为流失客户,这在混淆矩阵中被称为()。A.真阳性B.假阳性C.真阴性D.假阴性2.RFM模型是衡量客户价值和客户创利能力的重要工具,其中“M”代表的是()。A.最近一次消费时间B.消费频率C.消费金额D.客户平均停留时长3.在处理极度不平衡的客户流失数据(如流失率仅为1%)时,以下哪种评估指标通常比准确率更具参考价值?()A.Accuracy(准确率)B.Precision(精确率)C.AUC-ROCD.MeanSquaredError(均方误差)4.某电商企业通过分析发现,用户在最后一次登录后的第7天如果没有产生任何浏览行为,其流失概率会急剧上升。这里使用的“7天”属于()。A.观察窗口B.预测窗口C.生命周期D.触发阈值5.逻辑回归模型在客户流失预测中输出的是()。A.确定的类别标签(0或1)B.客户流失的具体时间C.属于流失类的概率值D.客户未来的消费金额6.为了解决训练集与测试集分布不一致导致的模型性能下降问题,通常使用()指标来监控特征分布的稳定性。A.KS值B.PSI(PopulationStabilityIndex)C.IV值(InformationValue)D.AUC值7.在特征工程中,为了消除不同特征量纲对模型(如KNN、SVM)的影响,通常需要进行()。A.特征选择B.特征降维C.数据标准化或归一化D.异常值处理8.以下哪种算法属于集成学习方法,且在处理客户流失这类非线性关系问题时表现优异?()A.线性回归B.逻辑回归C.XGBoostD.朴素贝叶斯9.在构建流失预警模型时,如果模型在训练集上表现完美,但在测试集上表现很差,这种现象称为()。A.欠拟合B.过拟合C.偏差D.方差10.提升图主要用于评估模型的()。A.分类准确性B.回归拟合度C.预测排序能力及营销增益D.稳定性11.对于连续型变量(如“账户余额”),在进行分箱处理以计算WOE(证据权重)值时,最常用的分箱方法是()。A.等距分箱B.等频分箱C.卡方分箱D.随机分箱12.在客户生命周期管理中,处于()阶段的客户对价格最敏感,且流失风险较高。A.考察期B.形成期C.稳定期D.退化期13.交叉验证的主要目的是()。A.增加训练数据量B.减少模型训练时间C.更客观地评估模型的泛化能力D.处理缺失值14.某模型预测流失的AUC值为0.85,这意味着()。A.模型预测正确的概率是85%B.模型预测流失的概率是85%C.随机抽取一个正样本和一个负样本,模型给出正样本分数高于负样本分数的概率为0.85D.模型的召回率是85%15.在使用SMOTE算法处理样本不平衡问题时,其核心思想是()。A.随机复制少数类样本B.随机删除多数类样本C.通过插值合成新的少数类样本D.修改损失函数权重二、多项选择题(本大题共10小题,每小题3分,共30分。在每小题列出的五个备选项中至少有两个是符合题目要求的,请将其代码填在括号内。错选、多选、少选均不得分)1.客户流失通常可以分为()。A.主动流失B.被动流失C.自然流失D.竞争流失E.强制流失2.以下哪些属于客户流失预警模型中常用的特征工程维度?()A.客户基本属性(年龄、性别、地域)B.客户消费行为(RFM指标)C.客户交互行为(客服投诉次数、App点击流)D.客户网络社交关系E.宏观经济指标3.关于WOE(WeightofEvidence)和IV(InformationValue)的描述,正确的有()。A.WOE描述了某个特征变量在流失与未流失客户中的分布差异B.IV值用于衡量特征对目标的预测能力C.IV值越大,说明特征与目标变量的相关性越强D.通常IV值小于0.02的特征会被认为没有预测能力,建议剔除E.WOE值必须为正数4.常见的非线性分类模型包括()。A.决策树B.支持向量机(非线性核)C.神经网络D.逻辑回归E.线性判别分析(LDA)5.在模型评估阶段,如果只关注准确率,在流失样本极少的情况下可能会出现()。A.模型倾向于将所有客户都预测为“不流失”B.准确率很高,但模型没有实际业务价值C.召回率极低D.精确率极低E.混淆矩阵中TN占比极高6.时间序列特征在流失预警中非常重要,以下哪些是构建时间序列特征的方法?()A.统计过去30天的登录次数趋势B.计算最近一次消费距离当前的天数C.比较本月消费额与上月消费额的环比D.滑动窗口计算平均停留时长E.直接使用客户的注册日期7.针对模型输出结果进行业务应用时,通常会将客户分层,常见的分层策略包括()。A.高风险流失客户(立即干预)B.中风险流失客户(观察或自动营销)C.低风险流失客户(维持现状)D.新注册客户(无论风险高低)E.已流失客户(召回)8.下列关于L1正则化(Lasso)和L2正则化(Ridge)的说法,正确的是()。A.L1正则化倾向于产生稀疏解,有助于特征选择B.L2正则化倾向于让权重衰减,防止过拟合C.L1正则化计算导数比L2正则化复杂D.在逻辑回归中,L2正则化更为常用E.L1正则化可以防止多重共线性问题9.导致模型效果在上线后衰退的原因可能有()。A.客户群体结构发生了变化B.业务规则改变(如调整了价格策略)C.出现了新的竞争对手D.数据采集管道出现故障导致特征缺失E.特征与目标变量的因果关系发生了根本性逆转10.深度学习模型在流失预警中的应用优势包括()。A.能够自动提取复杂的非线性特征B.不需要人工进行特征工程C.适合处理高维稀疏数据(如用户行为序列)D.模型可解释性极强E.可以融合文本、图像等多模态数据三、填空题(本大题共10小题,每小题2分,共20分。请将答案填在横线上)1.在二分类问题中,精确率的计算公式是Pr2.KS值用于衡量模型区分好坏客户的能力,KS值取值范围在0到1之间,一般认为KS值大于______表示模型具有较强的区分能力。3.在客户流失预测中,通常将数据集划分为训练集、验证集和______。4.随机森林通过______技术来降低决策树之间的相关性,从而提高模型的泛化能力。5.若某特征在所有样本上的取值都相同,则该特征的方差为0,信息熵为______。6.在生存分析中,______函数描述了个体在经历t时间后仍然存活的概率。7.对于分类问题,基尼不纯度的公式为Gi8.在使用Python的pandas库处理时间序列数据时,______函数常用于将时间戳转换为日期时间对象。9.梯度提升决策树(GBDT)的核心思想是利用损失函数关于当前模型的负梯度来拟合一个新的______模型。10.业务部门通常希望流失预警模型不仅能预测“是否流失”,还能解释“为什么流失”,______算法可以帮助我们理解每个特征对预测结果的贡献度。四、简答题(本大题共5小题,每小题6分,共30分)1.简述在构建客户流失预警模型前,进行数据预处理的主要步骤及目的。2.请解释什么是样本不平衡问题?在客户流失预警中,通常采用哪些技术手段来缓解这一问题?3.简述ROC曲线和PR曲线的区别,并说明在流失率极低(如0.5%)的场景下,为什么PR曲线更能反映模型的真实性能?4.什么是特征选择?请列举至少三种常用的特征选择方法。5.简述将机器学习模型部署到生产环境后,进行在线监控的主要指标有哪些?五、计算与分析题(本大题共3小题,共40分)1.(10分)假设某电信公司构建了客户流失预警模型,对1000名测试用户进行预测,结果如下:真实流失且被预测为流失的用户(TP)为50人。真实未流失且被预测为未流失的用户(TN)为800人。真实未流失但被预测为流失的用户(FP)为100人。真实流失但被预测为未流失的用户(FN)为50人。请计算:(1)准确率、精确率、召回率。(2)F1-Score(保留两位小数)。(3)假设挽留一个流失客户的收益为200元,但误判一个未流失客户为流失并进行营销的成本为10元。请计算该模型在上述测试集上的预期净收益。2.(15分)某在线教育平台希望预测学员是否会续费。现有两个特征:特征A:过去30天登录次数(数值型)。特征B:是否参与过“期中考试”(类别型:是/否)。现有训练数据如下表(S=续费,N=不续费):|样本ID|特征A(登录次数)|特征B(期中考试)|标签(是否续费)||:--|:--|:--|:--||1|5|是|S||2|2|否|N||3|8|是|S||4|1|否|N||5|4|是|N||6|9|是|S|(1)请以“特征B:是否参与期中考试”作为根节点,构建一棵简单的决策树(要求计算信息增益或基尼系数下降量作为依据,设定阈值大于0.5则分裂)。(2)根据构建的树,对样本(特征A=3,特征B=是)进行预测。(3)简要说明该决策树模型的局限性。3.(15分)在逻辑回归模型中,假设我们通过训练得到了以下参数:截距项=特征“最近一次消费距今天数”的系数=特征“过去一年投诉次数”的系数=(1)写出预测流失概率P((2)某客户A:最近一次消费距今10天,过去一年投诉0次。请计算该客户的流失概率(保留三位小数)。(3)某客户B:最近一次消费距今20天,过去一年投诉2次。请计算该客户的流失概率(保留三位小数)。(4)根据计算结果,分析“投诉次数”和“消费间隔”对流失概率的影响方向。六、综合案例分析题(本大题共2小题,共50分)1.(25分)某大型商业银行信用卡中心发现,由于激烈的市场竞争,其金卡客户的流失率在过去一年中从5%上升到了8%。为了遏制这一趋势,数据挖掘团队被要求构建一套精准的客户流失预警系统。项目组获取了过去18个月的数据,包含客户人口统计学特征、账单交易数据、客服交互记录以及App埋点数据。(1)【数据理解】在进行特征工程时,团队打算构建“消费活跃度”指标。请结合信用卡业务场景,设计至少3个具体的衍生特征来衡量这一指标,并说明其计算逻辑。(2)【模型构建】由于流失客户(正样本)远少于留存客户(负样本),团队决定使用XGBoost算法。请说明XGBoost中处理样本不平衡的两个关键参数是什么?并解释其作用机制。(3)【模型评估】模型训练完成后,测试集AUC达到0.88,但在业务部门评审时被指出,模型对“高风险”客户的抓取率不足。请问业务部门可能更关注哪个评估指标?如果要在保持AUC基本不变的前提下提高该指标,应如何调整分类阈值?(4)【业务应用】模型上线后,需要对Top10%的高风险客户进行干预。请设计一套分层营销策略,针对不同风险等级的客户采取不同的干预手段(如短信、人工电话、赠送权益等),并阐述理由。2.(25分)某SaaS企业主要提供企业级协同办公软件,采用订阅制收费模式。由于客户获取成本(CAC)较高,企业非常重视客户流失管理。数据分析人员发现,客户在订阅后的前3个月是生死攸关的“适应期”。若能顺利度过,后续流失概率将大幅降低。(1)【特征挖掘】为了预测新客户在“适应期”内的流失情况,你认为哪些行为数据最具有预测价值?请列举4点并简述理由。(2)【模型迭代】初始模型上线3个月后,模型性能出现明显下滑(PSI>0.2)。请分析可能导致性能下滑的原因,并提出相应的解决方案。(3)【因果推断】传统的流失预测模型只能发现相关性,但不能指导具体的改进动作。例如,模型发现“使用了API接口的客户流失率低”,但这可能是因果关系(因为用了API所以不离不弃),也可能是幸存者偏差(只有大客户才用API)。请简述在流失预警中引入因果推断(如UpliftModeling)的价值和基本思路。(4)【解释性分析】模型对某重要客户输出了较高的流失概率。使用SHAP值进行解释发现,特征“近30天导出报表失败次数”的SHAP值贡献度最高且为正。请向客户成功经理(CSM)解释这一结果,并建议CSM采取何种具体行动来挽回该客户。参考答案一、单项选择题1.B2.C3.C4.B5.C6.B7.C8.C9.B10.C11.C12.D13.C14.C15.C二、多项选择题1.ABC2.ABC3.ABCD4.ABC5.ABCE6.ABCD7.ABC8.AB9.ABCDE10.ACE三、填空题1.T2.0.4(或0.3-0.4区间视具体标准,通常0.4为强)3.测试集4.Bootstrap采样(或列采样/特征随机性)5.06.生存7.(类别概率)8.to_datetime9.残差(或基分类器/决策树)10.SHAP(SHapleyAdditiveexPlanations)四、简答题1.答:主要步骤及目的:(1)缺失值处理:删除或填充(均值、中位数、众数或预测填充),目的是保证数据完整性,避免模型报错或偏差。(2)异常值处理:使用箱线图、3σ原则检测并平滑或剔除异常值,防止极端值扭曲模型训练。(3)数据标准化/归一化:将数据缩放到特定范围(如0-1或标准正态分布),消除量纲影响,加速模型收敛。(4)特征编码:对类别型变量进行One-Hot编码或LabelEncoding,使其能被数学模型处理。(5)特征选择/降维:剔除冗余特征,降低维度灾难,提高模型训练速度和泛化能力。2.答:样本不平衡:指在分类问题中,不同类别的样本数量比例悬殊,如流失客户远少于留存客户。缓解技术:(1)数据层面:过采样(如SMOTE合成少数类样本)、欠采样(随机删除多数类样本或使用EasyEnsemble等集成采样)。(2)算法层面:调整类别权重,在损失函数中给予少数类更高的惩罚权重。(3)评价层面:不使用准确率,改用AUC、F1-Score、Recall等指标。(4)集成方法:使用Bagging或Boosting变体(如BalanceCascade)专门处理不平衡。3.答:区别:ROC曲线:横轴FPR,纵轴TPR,关注正负样本的排序能力,受样本分布影响较小。PR曲线:横轴Recall,纵轴Precision,关注正样本预测的准确率。原因:在流失率极低(0.5%)时,负样本(未流失)数量巨大。此时,模型若将所有样本都预测为负,FPR极低,TPR极低,ROC曲线下面积(AUC)可能看起来还不错,但实际上模型没有找出任何流失客户,没有业务价值。PR曲线对正样本的变化非常敏感,能更直观地反映模型在稀疏正样本下的真实表现(Precision和Recall)。4.答:特征选择:从原始特征集合中选择出对模型最有贡献的特征子集,去除无关或冗余特征。常用方法:(1)过滤法:统计特征与目标变量的相关性(如相关系数、卡方检验、IV值),阈值筛选。(2)包裹法:通过训练模型来评估特征子集的好坏(如递归特征消除RFE)。(3)嵌入法:利用模型本身的特性进行选择(如L1正则化产生的稀疏解、树模型的FeatureImportance)。5.答:在线监控指标:(1)稳定性指标:PSI(群体稳定性指标),监控输入特征分布是否发生显著偏移。(2)有效性指标:在线AUC、KS值,监控模型对最新数据的区分能力。(3)业务指标:预测流失率与实际流失率的偏差、营销响应率。(4)系统指标:预测接口的响应时间、并发数、错误率。五、计算与分析题1.解:(1)准确率=(T精确率=TP召回率=TP(2)F(3)挽回收益:模型识别出的TP(50人)中,假设都能挽回,收益=50×误判成本:模型识别出的FP(100人)会产生营销成本,成本=100×预期净收益=1000010002.解:(1)构建决策树:根节点:特征B(是否参与期中考试)。数据集划分:“是”分支:样本{1,3,5,6}。标签:{S,S,N,S}。共4个,其中S=3,N=1。主类为S。“否”分支:样本{2,4}。标签:{N,N}。共2个,其中S=0,N=2。主类为N。计算信息增益(简述):父节点熵:Gi子节点“是”Gini:1(子节点“否”Gini:1(加权子节点Gini:(4Gini下降量=0.50.25树结构:根节点:特征B分支“是”->叶子节点:类别S分支“否”->叶子节点:类别N(2)预测:样本(特征A=3,特征B=是)。根据树结构,落入“是”分支,预测结果为:S(续费)。(3)局限性:深度过浅,只用了特征B,忽略了特征A(登录次数)的信息。容易过拟合(虽然此处数据少,但单层树可能欠拟合)。对于“是”分支中存在的1个N样本无法正确分类。3.解:(1)P(2)客户A计算:==客户A流失概率约为0.119。(3)客户B计算:==客户B流失概率约为0.645。(4)影响分析:=0.1=0.8比较系数大小,(0.8)远大于六、综合案例分析题1.答:(1)衍生特征设计:月均消费波动率:计算近6个月每月消费额的标准差与均值的比值。逻辑:消费骤减往往是流失的前兆。分期付款使用率:近3个月分期金额/总消费金额。逻辑:使用分期的客户粘性通常更高,资金需求强。跨品类交易占比:在餐饮、购物、旅行等不同场景的交易种类数。逻辑:使用场景越丰富,客户对平台的依赖度越高,越难流失。(2)XGBoost参数:`scale_pos_weight`:用于设置正负样本的权重平衡,通常设为(负样本数/正样本数)。作用是在计算梯度时给予正样本更大的权重,让模型更关注流失客户。`max_delta_step`:用于限制每棵树权重更新的步长。在极度不平衡数据下,有助于防止模型对正样本过度拟合导致预测概率过大。(3)评估指标与阈值调整:业务部门更关注召回率,即希望尽可能多地抓出真实的流失客户,避免漏掉。调整方法:降低分类阈值。默认阈值通常为0.5,将阈值下调至0.2或0.1,模型会预测更多的样本为“流失”,从而提高召回率(虽然会牺牲部分精确率)。(4)分层营销策略:Top1%-5%(极高风险):采取人工专家电话回访+高价值权益赠送(如豁免年费、高积分兑换)。理由:这些客户价值高且流失迫在眉睫,值得投入高成本挽回。Top6%-20%(中高风险):采取智能外呼或个性化App弹窗/Push+针对性优惠券。理由:成本适中,通过自动化手段进行批量干预。Top21%-50%(中低风险):采取短信关怀或账单微权益。理由:风险较低,仅做低成本的情感维系,防止风险恶化。2.答:(1)预测价值最高的行为数据:核心功能使用频次:如日活(DAU)、关键功能(如文档协作、视频会议)的调用次数。理由:SaaS的核心价值在于工具使用,使用越深,留存越稳。用户邀请/添加数:管理员添加下属或邀请同事的数量。理由:这代表了网络效应,一旦形成企业内部的工作流,替换成本极高。API集成数量:调用API接口的频次和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 珠宝行业智能零售管理平台开发方案
- 协商采购价格达成共识函6篇
- 高级行政管理人员文件守秘管理指导书
- 重庆市江北区2026届初三下学期模拟检测试题语文试题含解析
- 财务预算编制与执行报告模板成本控制型
- 浙江省上杭县2025-2026学年初三入学调研物理试题(2)试卷含解析
- 凝心聚力共促发展承诺书8篇范文
- 2026届四川省遂宁市射洪中学初三(语文试题文)4月第一次综合练习试卷含解析
- 建筑行业安全生产操作指南手册
- (正式版)DB32∕T 2641-2014 《靖江香沙芋生产技术规程》
- 人教版(PEP)五年级英语下册第一单元测试卷-Unit 1 My day 含答案
- ASTM-D3359-(附著力测试标准)-中文版
- 部编版三年级语文下册1-8单元主题阅读附答案
- 团队建设与管理 课件 第1章 团队概述
- DBJ15-22-2021-T 锤击式预应力混凝土管桩工程技术规程(广东省)
- 【铁路信号设计中的计算机联锁系统探究13000字(论文)】
- 狱内案件立案表
- 《设计公司各专业负责人岗位职责》
- 泥水平衡机械顶管操作规程范本
- 江苏建筑职业技术学院单招职业技能测试参考试题库(含答案)
- 动车组牵引传动系统-牵引变流器
评论
0/150
提交评论