版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年银行数据分析师招聘考试笔试试题(含答案)一、单项选择题(每题2分,共20分)1.在假设检验中,若原假设为H₀:μ=μ₀,备择假设为H₁:μ≠μ₀,当实际μ=μ₀但拒绝H₀时,发生的错误是()A.第一类错误(α错误)B.第二类错误(β错误)C.无错误D.无法判断答案:A2.以下哪种数据类型属于有序型变量?()A.客户性别(男/女)B.信用卡等级(普卡/金卡/白金卡)C.客户IDD.存款金额(万元)答案:B3.某银行客户交易数据中,“交易时间”字段格式为“2025-12-0314:35:20”,若需提取该字段中的小时数(如14),SQL中应使用()函数。A.DATEPART(hour,交易时间)B.EXTRACT(HOURFROM交易时间)C.HOUR(交易时间)D.SUBSTRING(交易时间,12,2)答案:B(注:不同数据库函数可能有差异,此处以标准SQL为例)4.某数据集存在严重的类别不平衡(正类占比5%),以下哪种评估指标最不适合用于模型效果判断?()A.准确率(Accuracy)B.召回率(Recall)C.F1分数D.AUC-ROC答案:A5.若需分析客户年龄与月均消费金额的相关性,且年龄为连续变量、月均消费金额为连续变量,应选择()A.卡方检验B.Pearson相关系数C.斯皮尔曼相关系数D.独立样本t检验答案:B6.以下哪项不是数据清洗的常见操作?()A.处理缺失值B.消除重复记录C.特征标准化D.修正逻辑错误(如年龄为-5)答案:C(特征标准化属于特征工程,非清洗)7.某银行信贷数据中,“逾期次数”字段存在大量0值(无逾期)和少量1-5次值,该变量的分布最可能是()A.正态分布B.泊松分布C.右偏分布D.左偏分布答案:C(大部分值集中在左侧,右侧有长尾)8.在SQL中,若要查询2025年1月1日至2025年12月31日期间,交易金额大于1000元且交易类型为“转账”的客户ID,正确的WHERE子句是()A.交易时间BETWEEN'2025-01-01'AND'2025-12-31'AND交易金额>1000OR交易类型='转账'B.交易时间BETWEEN'2025-01-01'AND'2025-12-31'AND(交易金额>1000AND交易类型='转账')C.交易时间IN('2025-01-01','2025-12-31')AND交易金额>1000AND交易类型='转账'D.交易时间>='2025-01-01'OR交易时间<='2025-12-31'AND交易金额>1000AND交易类型='转账'答案:B9.某模型预测客户流失的混淆矩阵如下:真阳性(TP)=80,假阳性(FP)=20,真阴性(TN)=180,假阴性(FN)=20。该模型的精确率(Precision)为()A.80/(80+20)=0.8B.80/(80+20)=0.8C.180/(180+20)=0.9D.80/(80+20)=0.8(注:精确率=TP/(TP+FP))答案:A10.以下哪种场景最适合使用决策树模型?()A.预测客户未来6个月的存款增量(连续值)B.识别欺诈交易(高维稀疏数据)C.分析客户年龄与信用卡额度的非线性关系D.处理大规模实时数据流答案:C(决策树擅长捕捉非线性关系)二、简答题(每题8分,共40分)1.简述数据清洗中处理缺失值的常用方法,并说明每种方法的适用场景。答案:(1)删除法:包括删除含缺失值的记录或变量。适用于缺失比例极低(如<5%)且缺失无特殊含义的情况;(2)均值/中位数/众数填充:数值型变量用均值(数据分布接近正态)或中位数(存在异常值),分类型变量用众数。适用于缺失值与其他变量无显著关联时;(3)插值法(如线性插值、KNN插值):根据变量间相关性,用相似样本的取值填充。适用于数据存在时间或空间相关性时;(4)模型预测填充:用其他变量作为特征训练模型(如回归、随机森林)预测缺失值。适用于缺失值与其他变量有较强关联且缺失比例较高时;(5)视为特殊类别:分类型变量可新增“缺失”类别。适用于缺失本身可能隐含业务意义(如客户拒绝填写职业)时。2.解释A/B测试中“统计显著性”的含义,并说明如何确定测试所需的最小样本量。答案:统计显著性指通过假设检验,拒绝原假设(两组无差异)的把握程度,通常以p值<0.05(α=0.05)为标准,即结论错误的概率不超过5%。确定最小样本量需考虑:(1)预期的效应量(如两组转化率差异);(2)显著性水平α(通常0.05);(3)检验效能1-β(通常0.8);(4)数据方差(方差越大,所需样本量越大)。可通过公式计算(如均值检验用n=(Zα/2+Zβ)²(σ²)/d²,d为预期差异)或使用统计软件(如GPower)辅助。确定最小样本量需考虑:(1)预期的效应量(如两组转化率差异);(2)显著性水平α(通常0.05);(3)检验效能1-β(通常0.8);(4)数据方差(方差越大,所需样本量越大)。可通过公式计算(如均值检验用n=(Zα/2+Zβ)²(σ²)/d²,d为预期差异)或使用统计软件(如GPower)辅助。3.请说明在银行客户分群分析中,选择K-means算法时需要注意的关键问题及解决方法。答案:关键问题及解决方法:(1)特征选择:需选择与业务目标相关的特征(如资产规模、交易频率、产品持有数),避免无关特征干扰。可通过相关性分析或业务经验筛选;(2)数据标准化:K-means对量纲敏感(如资产规模以万元计,交易频率以次计),需用Z-score或最小-最大标准化消除量纲影响;(3)K值确定:需结合业务理解(如银行希望分为高/中/低价值客户)和统计方法(如手肘法、轮廓系数法)确定最优K值;(4)异常值影响:异常值可能导致聚类中心偏移,需在预处理阶段通过IQR或Z-score识别并处理(删除或修正);(5)结果解释:聚类后需结合业务场景解读各群体特征(如高价值客户的年龄、存款期限等),避免仅依赖统计指标。4.简述银行零售业务中“客户生命周期价值(CLV)”的计算逻辑,并列举至少3个影响CLV的关键因素。答案:CLV计算逻辑:通常为客户在生命周期内为银行带来的净收益现值,公式为CLV=∑(各期收入-成本)/(1+r)^t,其中r为贴现率,t为时间周期。简化模型可表示为CLV=平均月收入×客户留存月数×毛利率-获客成本。关键因素:(1)客户留存率(留存越久,CLV越高);(2)交叉销售能力(购买更多产品,收入增加);(3)服务成本(高净值客户可能享受高成本服务,影响净收益);(4)利率/费率水平(如信用卡分期手续费率);(5)客户活跃度(交易频率影响收入)。5.某银行信用卡交易数据中存在“交易金额”字段,部分记录显示为0元(如积分兑换),部分为负数(如退款)。请设计数据预处理步骤,确保后续建模时该字段的有效性。答案:预处理步骤:(1)识别异常值:检查是否存在交易金额为负数且无对应正向交易的记录(可能为系统错误),需与业务部门确认后修正或删除;(2)分类处理:将交易分为正向交易(金额>0)、退款(金额<0)、积分兑换(金额=0),分别标记为不同类型字段(如新增“交易类型”变量);(3)计算有效交易额:对建模目标(如预测客户消费能力),可保留正向交易金额,退款作为负向调整(如计算“净交易金额=正向金额+退款金额”);(4)处理0值:若0元交易有业务意义(如积分兑换),可保留并在特征工程中单独编码(如是否发生过0元交易);(5)标准化或分箱:根据模型需求,对处理后的交易金额进行标准化(如Z-score)或分箱(如低/中/高消费区间),避免极端值影响模型。三、编程题(每题15分,共30分)1.(SQL)某银行客户交易表(transaction)结构如下:字段名类型说明customer_idVARCHAR(20)客户IDtrans_dateDATE交易日期(格式:YYYY-MM-DD)trans_amountDECIMAL(10,2)交易金额(正数为消费,负数为退款)请编写SQL语句,查询2025年每个客户的“总消费金额”(仅计算消费交易,即trans_amount>0)、“总退款金额”(仅计算退款交易,即trans_amount<0,取绝对值),并按总消费金额降序排序。答案:SELECTcustomer_id,SUM(CASEWHENtrans_amount>0THENtrans_amountELSE0END)AS总消费金额,SUM(CASEWHENtrans_amount<0THENABS(trans_amount)ELSE0END)AS总退款金额FROMtransactionWHEREtrans_dateBETWEEN'2025-01-01'AND'2025-12-31'GROUPBYcustomer_idORDERBY总消费金额DESC;2.(Python)某银行客户信用评分数据(credit_data.csv)包含以下字段:age(年龄)、occupation(职业,分类型)、income(月收入,万元)、credit_score(信用评分,0-1000)、is_default(是否违约,1=是,0=否)。其中,income字段存在5%的缺失值,且缺失值集中在“学生”职业群体中。请用Pandas完成以下操作:(1)处理income字段的缺失值(要求:学生群体用学生income的中位数填充,非学生用全体非学生income的均值填充);(2)计算不同职业群体的平均信用评分(credit_score),并按评分从高到低排序;(3)筛选信用评分>750且未违约(is_default=0)的客户,输出其age、occupation、income字段的前5条记录。答案:importpandasaspd读取数据df=pd.read_csv('credit_data.csv')(1)处理income缺失值student_mask=df['occupation']=='学生'non_student_mask=~student_mask学生群体用中位数填充df.loc[student_mask,'income']=df.loc[student_mask,'income'].fillna(df.loc[student_mask,'income'].median())非学生群体用均值填充df.loc[non_student_mask,'income']=df.loc[non_student_mask,'income'].fillna(df.loc[non_student_mask,'income'].mean())(2)计算不同职业的平均信用评分并排序avg_credit=df.groupby('occupation')['credit_score'].mean().reset_index()avg_credit_sorted=avg_credit.sort_values(by='credit_score',ascending=False)(3)筛选信用评分>750且未违约的客户,输出前5条filtered_df=df[(df['credit_score']>750)&(df['is_default']==0)][['age','occupation','income']]result=filtered_df.head(5)四、案例分析题(共10分)某银行个人手机银行用户流失率连续3个月上升(从2.1%升至3.5%),现需通过数据分析定位流失原因并提出优化建议。假设你是数据分析师,已获取以下数据:用户基本信息(年龄、性别、注册时长)、行为数据(月登录次数、功能使用次数:转账/理财/缴费)、交易数据(月均交易额)、流失标签(1=流失,0=未流失)。请设计分析思路,并说明关键分析步骤及可能的结论方向。答案:分析思路:从“用户特征-行为表现-流失关联”三方面切入,通过描述性统计、相关性分析、模型预测定位关键因素。关键步骤及结论方向:1.流失用户画像分析:步骤:对比流失与未流失用户的基本信息(如年龄分布、注册时长),计算各特征的流失率(如注册时长<3个月的用户流失率是否更高)。结论方向:可能发现新用户(注册时长短)或老年用户流失率高,需关注新手引导或适老化功能体验。2.行为差异分析:步骤:统计不同功能使用频率的流失率(如每月登录<2次的用户流失率),计算行为指标与流失的相关系数(如月登录次数与流失负相关)。结论方向:可能发现低活跃用户(登录少、仅使用基础功能如缴费)流失率高,需提升用户粘性(如增加签到激励、理财功能推荐)。3.交易相关性分析:步骤
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专题六 蒙版(课件)-职教高考电子与信息《图形图像处理》专题复习讲练测
- 我国民事法律责任制度
- 打字员管理责任制度
- 执纪目标责任制度
- 2026三年级数学上册 正方形的周长
- 抖音网络安全责任制度
- 护理首问责任制制度
- 持枪人管理责任制度
- 接警员首接责任制度
- 搜一下防汛责任制度
- 高速公路收费站安全生产培训
- 2021年重庆市高等职业教育分类考试文化素质真题(中职类)
- 本土红色文化资源融入初中道德与法治教学对策研究
- 小学生编程机器人课件
- 洗煤厂工程施工组织设计方案
- 抵押物品的借款合同模板
- 工业大数据采集处理与应用
- 体育组织信访管理工作流程与制度
- 价值型销售(技能篇)
- 挡土墙新建及土地回填平整投标方案(技术方案)
- 2022年江苏省常州市强基计划选拔数学试卷(附答案解析)
评论
0/150
提交评论