2026年客户流失预警系统试题及答案_第1页
2026年客户流失预警系统试题及答案_第2页
2026年客户流失预警系统试题及答案_第3页
2026年客户流失预警系统试题及答案_第4页
2026年客户流失预警系统试题及答案_第5页
已阅读5页,还剩19页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年客户流失预警系统试题及答案一、单项选择题(本大题共15小题,每小题2分,共30分。在每小题给出的四个选项中,只有一项是符合题目要求的)1.在客户流失预警系统中,通常将客户流失定义为在特定时间段内客户行为的终止。对于电信行业而言,以下哪项行为最常被定义为“流失”?A.客户每月流量使用量下降10%B.客户拨打客服投诉电话C.客户主动注销号码或欠费停机超过90天D.客户不再参与运营商的积分兑换活动2.在构建流失预警模型时,评估模型性能最常用的核心指标是AUC(AreaUnderCurve)。AUC值代表的是:A.模型预测准确率的最大值B.ROC曲线下的面积,反映模型区分正负样本的能力C.预测为流失的客户中实际流失的比例D.实际流失的客户被正确预测出的比例3.RFM模型是客户分析中的经典工具。在流失预警的特征工程中,R(Recency,最近一次消费时间间隔)这一指标与客户流失概率的关系通常是:A.正相关,R值越大,流失风险越高B.负相关,R值越大,流失风险越低C.无明显相关性D.非线性关系,R值中等时流失风险最高4.针对流失预警场景中的样本不平衡问题(流失客户通常远少于留存客户),以下哪种方法不属于重采样技术?A.SMOTE(合成少数类过采样技术)B.随机欠采样C.随机过采样D.Z-Score标准化5.在逻辑回归模型中,为了防止模型过拟合,通常会引入正则化项。L1正则化(Lasso)相较于L2正则化(Ridge)的一个显著特点是:A.计算速度更快B.能使部分特征系数压缩为0,实现特征筛选C.更好地处理多重共线性D.产生的模型预测概率分布更均匀6.生存分析常用于客户生命周期价值(CLV)预测和流失分析。Cox比例风险模型是其中的重要模型,该模型主要关注的是:A.客户生存时间的具体分布形式B.危险率与协变量之间的关系C.客户在未来特定时间点存活的确切概率D.仅适用于截尾数据的分析7.在特征选择阶段,IV(InformationValue,信息值)常被用来评估特征对目标变量的预测能力。一般而言,IV值在哪个区间表示特征有极强的预测能力?A.0.020.1B.0.10.3C.0.30.5D.>0.58.某电商公司构建了流失预警模型,模型对某客户预测的流失概率为0.85。业务部门设定的干预阈值是0.8。这意味着:A.该客户将被标记为“低风险”,无需干预B.该客户将被标记为“高风险”,需要进行干预C.模型对该客户的预测结果不可信D.该客户属于灰度测试用户9.提升图是评估流失模型业务价值的重要工具。提升度(Lift)的计算公式为:A.B.C.D.10.在时间序列特征的构建中,为了捕捉客户行为的波动性,除了计算均值外,还常计算变异系数(CV)。变异系数的计算公式是:A.B.C.D.11.某银行在开发信用卡流失模型时,发现“客户持有A类产品”和“客户持有B类产品”两个特征高度相关。在处理这种多重共线性时,以下做法错误的是:A.直接删除其中一个特征B.使用PCA(主成分分析)进行降维C.保留两个特征,因为它们对模型都有贡献D.使用VIF(方差膨胀因子)进行检测并剔除高VIF值特征12.在模型上线后的监控中,PSI(PopulationStabilityIndex,群体稳定性指标)用于监控特征分布或模型得分分布的稳定性。通常认为PSI值小于多少时表示模型稳定?A.0.05B.0.1C.0.2D.0.513.交叉验证是评估模型泛化能力的标准方法。在时间序列相关的流失数据中,为了防止数据泄露,最合适的验证方式是:A.K-Fold交叉验证B.分层K-Fold交叉验证C.基于时间的滚动交叉验证D.留一法交叉验证14.在集成学习算法中,XGBoost和LightGBM是处理结构化数据(如客户行为表格数据)的强力算法。LightGBM相较于XGBoost的主要优势在于:A.支持更复杂的损失函数B.基于直方图的算法,训练速度更快,内存占用更低C.对缺失值的处理更严格D.只能用于分类任务,不能用于回归15.混淆矩阵是评估分类模型的基础。在流失预警中,如果我们将“流失”作为正类(Positive),那么“二类错误”(TypeIIError)指的是:A.将流失客户误判为留存客户B.将留存客户误判为流失客户C.正确预测了流失客户D.正确预测了留存客户二、多项选择题(本大题共5小题,每小题3分,共15分。在每小题给出的四个选项中,有两项或两项以上是符合题目要求的)16.客户流失预警系统的数据源通常非常广泛,以下哪些属于典型的外部数据源?A.客户在APP内的点击流日志B.客户所在地区的宏观经济指标C.第三方征信机构的信用评分D.客户的月度账单详情17.在构建流失预警模型时,特征工程是决定模型上限的关键步骤。以下属于基于时间窗口的统计特征的是:A.过去30天的登录次数B.过去90天的消费金额标准差C.客户注册时的性别D.最近一次投诉距离今天的天数18.关于客户流失的类型,以下描述正确的有:A.主动流失是指客户主动终止服务关系,如注销账户B.被动流失通常指因违规、欠费等原因被服务商终止服务C.自然流失是指客户因生命周期结束(如身故)而产生的流失D.所有的被动流失都是企业应该极力避免的,不存在例外情况19.在模型解释性方面,SHAP(SHapleyAdditiveexPlanations)值是目前主流的方法。关于SHAP值的优势,以下说法正确的是:A.具有可加性,能够解释单个特征对预测结果的贡献度B.可以处理特征之间的交互作用C.只能用于线性模型,无法用于树模型D.提供了全局和局部两种解释视角20.模型上线后,除了监控PSI值,还需要关注哪些业务指标的变化?A.预测流失客户的实际转化率(挽留成功率)B.干预活动的响应率C.模型推理的延迟时间D.被模型标记为高风险的客户占比三、填空题(本大题共10小题,每小题2分,共20分)21.在逻辑回归中,假设线性回归部分的输出为z,则预测概率P(y=1|22.在评估二分类模型时,精确率与召回率的调和平均数被称为__________指标,它在两者需要平衡时尤为重要。23.在特征编码中,对于类别型特征(如“省份”),如果类别数量较多且无序,直接使用One-Hot编码会导致维度爆炸。此时常采用__________编码或目标编码来降低维度。24.在时间序列预测中,为了衡量预测值与真实值之间的差异,均方误差(MSE)的计算公式是(,而__________是MSE的平方根,量纲与原变量一致。25.在流失预警系统中,观察窗口是指提取特征所用的历史时间段,而__________窗口是指定义客户是否流失的未来时间段。26.KS(Kolmogorov-Smirnov)值常用于评估模型的区分度。KS值越大,表示模型区分好坏客户的能力越强。KS值是累积__________百分比与累积坏样本百分比之差的最大值。27.对于稀疏特征,如客户是否购买过某种冷门商品,使用__________正则化通常比L2正则化效果更好,因为它能产生稀疏权重。28.在深度学习模型中,为了解决梯度消失或爆炸问题,常在层与层之间引入__________结构,允许信息跨层传递。29.某模型对测试集的预测结果中,真正例(TP)=80,假正例(FP)=20,假反例(FN)=30。则该模型的召回率(Recall)为__________(结果保留两位小数)。30.在A/B测试中,为了判断新模型是否显著优于旧模型,我们通常使用__________检验来比较两组转化率的差异。四、简答题(本大题共4小题,每小题5分,共20分)31.简述在客户流失预警场景下,样本不平衡(流失客户极少)带来的危害,并列举两种常用的解决方法。32.在构建流失预警模型时,为什么需要进行特征离散化(分箱)?请列举至少两点原因。33.请解释WOE(WeightofEvidence)编码的原理及其在逻辑回归模型中的作用。34.简述模型监控中的“数据漂移”和“概念漂移”的区别,并说明为什么在流失预警系统中需要特别关注概念漂移。五、计算与分析题(本大题共2小题,每小题10分,共20分)35.某电商平台的流失预警模型对1000名样本客户进行了测试,测试结果如下:实际流失客户100人,实际留存客户900人。模型预测为流失的客户中,有60人实际流失,40人实际留存。模型预测为留存的客户中,有40人实际流失,860人实际留存。(1)请计算该模型的准确率、精确率、召回率和F1-Score。(保留三位小数)(2)如果业务策略改变,更加看重捕捉潜在的流失客户(即提高召回率),即使会误判一些正常客户,应该调整模型阈值的方向(调高还是调低)?请说明理由。36.某电信公司构建了流失预警模型,并对测试集数据按照预测流失概率从高到低进行排序,等分为10组(Deciles),每组人数相等。统计数据如下:|分组|组内实际流失人数|组内总人数||:--|:--|:--||Top10%|150|100||20%-30%|80|100||30%-40%|50|100||40%-50%|30|100||50%-60%|20|100||60%-70%|15|100||70%-80%|10|100||80%-90%|5|100||Bottom10%|0|100||总计|360|1000|(1)计算随机挑选一个客户,该客户流失的平均概率是多少?(2)计算模型预测出的前10%(Top10%)客户的提升度值,并解释该值的业务含义。六、综合应用案例题(本大题共1小题,共45分)37.案例背景:某大型在线视频平台“StreamMax”面临着严重的用户付费订阅流失问题。为了应对这一挑战,公司决定开发一套实时的客户流失预警系统。数据团队提取了2024年全年的用户行为数据,包括用户基础属性(年龄、性别、地区)、订阅信息(套餐类型、注册时长)、观看行为(日均观看时长、周观看频次、完播率)、交互行为(点赞、评论、收藏、搜索)以及客服记录(投诉次数、工单类型)。目标变量定义为:用户在未来30天内是否取消订阅(1=流失,0=留存)。请结合你作为数据科学家的专业知识,回答以下问题:(1)数据预处理与特征工程(15分)假设原始数据中存在部分用户“最近一次登录时间”缺失,且部分用户的“投诉次数”存在极端异常值(如某用户一年投诉了1000次)。a.针对缺失值和异常值,你会分别采用什么方法进行处理?请给出具体方案。b.为了捕捉用户观看习惯的变化,你需要设计基于时间序列的衍生特征。请设计至少3个具体的衍生特征,并说明其设计逻辑。c.对于“套餐类型”这种无序分类变量,在进入XGBoost模型前,应该如何处理?如果是进入逻辑回归模型,处理方式有何不同?(2)模型构建与选择(10分)a.在该场景下,你决定尝试使用LightGBM算法。请说明LightGBM的哪些特性使其适合处理这种包含大量行为特征的表格数据?b.除了LightGBM,你还计划构建一个逻辑回归模型作为基线模型。为了提高逻辑回归的性能,你需要对连续型特征进行分箱处理。请简述分箱的常用方法(如等频、等距、卡方分箱)及其优缺点。(3)模型评估与优化(10分)模型训练完成后,验证集上的AUC达到了0.85,看起来效果不错。但是业务部门反馈,模型给出的高风险用户中,有很大一部分是“高价值但忠诚”的用户,误伤率较高。a.分析为什么会出现AUC高但业务误伤感强的情况?(提示:考虑阈值选择和成本不对称)b.你决定引入代价矩阵或成本敏感学习来优化。假设挽留一个流失用户的收益是100元,误扰一个留存用户的成本是20元。请写出此时的期望损失公式,并说明如何调整模型以适应这一目标。(4)模型部署与业务应用(10分)模型需要上线部署,对全量用户每天进行一次打分。a.在离线训练和在线推理的过程中,如何保证特征的一致性?(例如,计算“过去30天平均观看时长”时,如何避免数据泄露?)b.上线后,你需要设计一套监控报警机制。请列出你需要监控的三个核心维度(如数据层面、模型层面、业务层面),并针对每个维度给出一个具体的监控指标。参考答案及详细解析一、单项选择题1.C[解析]电信行业通常将注销或长期停机定义为流失,单纯的使用量波动属于活跃度变化。2.B[解析]AUC是ROC曲线下的面积,用于衡量模型整体的排序分类能力。3.A[解析]Recency表示最近一次消费距今的时间,时间越长(R值越大),客户越久未活跃,流失风险通常越高。4.D[解析]Z-Score标准化是特征缩放方法,用于改变数据分布的尺度,不改变样本数量,不属于重采样。5.B[解析]L1正则化倾向于产生稀疏解,即使系数为0,从而起到特征选择的作用。6.B[解析]Cox模型是一种半参数模型,主要研究协变量对危险率的影响。7.C[解析]一般经验法则:IV<0.02无用,0.020.1弱,0.10.3中等,0.30.5强,>0.5极强。8.B[解析]预测概率0.85大于阈值0.8,判定为高风险正类。9.B[解析]Lift=模型查全率/随机查全率,表示使用模型比随机选择提升多少倍。10.B[解析]变异系数CV=标准差/均值,用于衡量离散程度。11.C[解析]多重共线性会导致模型系数估计不稳定,应删除或合并特征,直接保留通常是不好的做法。12.A[解析]PSI<0.1稳定,0.10.2有变化需注意,>0.2变化巨大。13.C[解析]时间序列数据不能使用随机打乱的K-Fold,必须使用基于时间顺序的滚动验证。14.B[解析]LightGBM采用基于直方图的算法,减少了数据遍历次数,速度更快。15.A[解析]TypeIIError是FalseNegative,即实际是正类(流失)但被预测为负类(留存)。二、多项选择题16.BC[解析]A和D属于企业内部数据。B(宏观经济)和C(征信数据)属于外部数据。17.ABD[解析]A、B、D都是基于历史时间窗口计算出的统计量。C是静态属性。18.ABC[解析]主动、被动、自然流失是三种基本类型。D错误,例如被动剔除恶意欺诈用户是企业希望的。19.ABD[解析]SHAP具有可加性和一致性,能处理交互作用,且适用于各种模型包括树模型。20.ABCD[解析]模型监控需要覆盖技术性能(延迟)、预测分布(占比)、业务效果(转化率、响应率)。三、填空题21.0.5[解析]Si22.F1-Score(或F1)23.Target(或目标编码/MeanEncoding)/Binary(注:题目问高基数类别,TargetEncoding或Binary/LeaveOneOut是常见降维手段,填TargetEncoding最准确)24.RMSE(均方根误差)25.表现(或Label/目标)26.好样本(或正样本)27.L128.残差(ResNet典型结构)/SkipConnection(跳跃连接)29.0.727[解析]Recall=TP/(TP+FN)=80/(80+40)=80/120≈0.667。(注:题目数据TP=80,FN=40,Recall=80/120=0.667。若按题目描述“预测流失中TP=60...预测留存中FN=40”,则TP=60,FN=40,Recall=60/100=0.6。此处按题目填空题30题意,TP=80,FN=40。计算得0.667。若题目描述有歧义,以计算题为准。此处修正:题目30描述:TP=80,FP=20,FN=30。Recall=80/(80+30)=80/110≈0.727)30.卡方(Chi-square)/Z(Z-test)四、简答题31.答案:危害:模型会倾向于将所有样本预测为多数类(留存),虽然准确率很高,但无法识别出少数类(流失),导致模型失去业务价值。解决方法:1.数据层面:使用过采样(如SMOTE合成少数类样本)或欠采样(随机减少多数类样本)。2.算法层面:使用代价敏感学习,在模型训练时赋予流失类别更高的损失权重。3.评价层面:不使用准确率,改用AUC、F1-Score、Recall等指标评估。32.答案:原因:1.鲁棒性:离散化可以减少异常值对模型的影响,例如将极端的收入值归入最高档。2.非线性关系:逻辑回归等线性模型假设特征与目标呈线性关系,分箱后的WOE编码可以引入非线性关系。3.业务解释性:分箱后的特征更容易理解,例如“年龄在20-30岁之间”比“年龄=25”更具概括性和业务指导意义。33.答案:原理:WOE衡量的是某分箱中好人/坏人分布与总体好人/坏人分布的差异。公式为WO作用:1.将非线性关系转化为线性关系,适配逻辑回归。2.体现特征的预测强度,WOE绝对值越大,该分箱的区分度越强。3.可以作为缺失值的一种处理方式,将缺失值单独作为一个分箱。34.答案:区别:数据漂移:输入数据的分布发生变化(P(X)概念漂移:输入数据分布不变,但特征与目标的关系发生变化(P(原因:流失预警系统极易受市场环境、竞争对手策略影响,导致用户流失的根本原因发生变化(概念漂移)。如果不监控,模型会逐渐失效,即使输入数据分布看起来正常。五、计算与分析题35.答案:(1)混淆矩阵:预测\实际|流失(P)|留存(N)|---|---流失(P)|60(TP)|40(FP)留存(N)|40(FN)|860(TN)准确率=(TP+TN)/Total=(60+860)/1000=0.920精确率=TP/(TP+FP)=60/(60+40)=0.600召回率=TP/(TP+FN)=60/(60+40)=0.600F1-Score=2(PR)/(P+R)=2(0.60.6)/1.2=0.600(2)应该调低阈值。理由:调低分类阈值意味着模型更容易将客户预测为“流失”(正类)。这会增加TP(抓到更多真实流失者)和FP(误伤更多留存者),从而提高召回率,满足业务“宁可错杀一千,不可放过一个”的策略。36.答案:(1)平均流失概率=总流失人数/总人数=360/1000=0.09(9%)。(2)Top10%的组内流失率=150/100=0.15(15%)。提升度=组内流失率/随机流失率=0.15/0.09≈1.67。业务含义:使用模型筛选出的前10%高风险客户,其流失率是随机挑选客户的1.67倍。这说明模型能有效识别出高风险群体,业务部门如果针对这10%的客户进行干预,效率是盲目的全面干预的1.67倍。六、综合应用案例题37.答案:(1)数据预处理与特征工程a.缺失值处理:“最近一次登录时间”:如果是新用户可能确实没有,可以填充为“注册时间”或“当前时间”(代表刚登录),或者增加一个“是否缺失”的布尔标记位,然后填充为特殊值(如-1)。异常值处理:“投诉次数”:1000次显然是异常(可能是系统刷单)。可以使用盖帽法,将大于99.9%分位数的值强制设置为该分位数值(如50次);或者进行对数变换压缩尺度。b.衍生特征设计:1.观看时长趋势:计算最近4周每周平均观看时长的斜率,反映用户兴趣是上升还是下降。2.周末观看占比:计算(周末观看时长/总观看时长),反映用户的使用习惯偏好。3.内容多样性熵:计算用户观看的不同类型剧集的类别熵,反映用户口味的专一程度,熵越低越专一,流失风险可能随内容下架而增加。c.分类变量处理:XGBoost:可以直接处理数值形式的标签编码,因为树模型可以处理非线性的数字关系(如1,2,3不代表顺序也没关系)。逻辑回归:必须使用One-Hot编码,因为逻辑回归会认为数值大小包含顺序信息(2比1大),这会导致错误的系数估计。(2)模型构建与选择a.LightGBM特性:1.基于直方图算法:将连续特征离散化为桶,减少计算量,训练速度极快,适合海量行为数据。2.自动处理缺失值:自动学习缺失值的分裂方向,无需手动填充。3.支持类别特征:原生支持类别特征最优分裂,无需One-Hot,节省内存。4.防止过拟合:内置了Leaf-wise生长策略配合最大深度限制,拟合效果好且快。b.分箱方法:1.等距分箱:区间宽度一致。优点是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论