版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
建设银行2025年汕头市数据分析师笔试题及答案一、基础理论题(每题5分,共25分)1.某支行2024年1-6月个人存款余额分别为(单位:亿元):12.3、13.1、14.2、15.5、16.8、18.2。请计算该序列的移动平均(窗口=3)和指数平滑值(α=0.3,初始值取前3期均值),并说明两种方法在趋势预测中的差异。答案:移动平均(窗口=3)计算如下:第3期:(12.3+13.1+14.2)/3=13.20第4期:(13.1+14.2+15.5)/3=14.27第5期:(14.2+15.5+16.8)/3=15.50第6期:(15.5+16.8+18.2)/3=16.83指数平滑值(α=0.3,初始值S₀=(12.3+13.1+14.2)/3=13.20):S₁=0.3×12.3+0.7×13.20=12.93S₂=0.3×13.1+0.7×12.93=12.98S₃=0.3×14.2+0.7×12.98=13.33S₄=0.3×15.5+0.7×13.33=14.03S₅=0.3×16.8+0.7×14.03=14.98S₆=0.3×18.2+0.7×14.98=16.05差异:移动平均对近期数据等权处理,适用于平稳序列;指数平滑通过α赋予近期数据更高权重,对趋势变化响应更灵敏,适合存在缓慢趋势的序列。2.某信用卡中心抽取1000名客户,其中逾期客户200名。在逾期客户中,60%使用过分期业务;非逾期客户中,40%使用过分期业务。请构建混淆矩阵并计算精确率(Precision)和召回率(Recall)。答案:混淆矩阵:实际逾期(正类):200人,其中预测正确(TP)=200×60%=120人,预测错误(FN)=200-120=80人实际非逾期(负类):800人,其中预测错误(FP)=800×40%=320人,预测正确(TN)=800-320=480人精确率=TP/(TP+FP)=120/(120+320)=27.27%召回率=TP/(TP+FN)=120/(120+80)=60%3.某分行开展“新客户首年资产达标”活动,随机抽取A、B两个网点各100名客户,A网点达标率35%,B网点达标率42%。请用Z检验判断两网点达标率是否存在显著差异(α=0.05)。答案:H₀:p₁=p₂;H₁:p₁≠p₂合并达标率p=(35+42)/(100+100)=38.5%标准误SE=√[p(1-p)(1/n₁+1/n₂)]=√[0.385×0.615×(2/100)]≈0.0687Z=(0.35-0.42)/0.0687≈-1.02|Z|=1.02<1.96(α=0.05双侧临界值),不拒绝原假设,两网点达标率无显著差异。4.解释“辛普森悖论”在银行数据中的典型表现,并举例说明。答案:辛普森悖论指分组数据与整体数据趋势相反的现象。例如,某分行按客户类型分组:高净值客户中,A产品渗透率(40%)低于B产品(50%);普通客户中,A产品渗透率(30%)也低于B产品(35%)。但整体数据中,因高净值客户占比更高(60%),A产品整体渗透率=40%×60%+30%×40%=36%,B产品=50%×60%+35%×40%=44%,趋势一致;若调整占比(高净值客户占比20%),A产品=40%×20%+30%×80%=32%,B产品=50%×20%+35%×80%=38%,仍一致。若某场景下分组趋势与整体相反(如A产品分组均低,但整体更高),即出现辛普森悖论,需警惕数据分组方式对结论的影响。5.简述时间序列分解中“季节调整”的核心步骤,并说明其对银行信贷预测的意义。答案:核心步骤:①确定季节周期(如12个月);②计算各期季节指数(如移动平均比率法);③用原始序列除以季节指数得到季节调整后序列;④对调整后序列建模预测;⑤乘以对应季节指数得到最终预测。意义:银行信贷需求受季度性因素(如春节前企业备货、年末冲刺)影响显著,季节调整可分离趋势和随机波动,提升预测模型对长期趋势的捕捉能力,避免误将季节性波动判断为趋势变化。二、数据分析工具题(每题8分,共24分)6.某分行客户表(ccb_customer)包含字段:客户ID(cust_id)、注册时间(reg_time)、所属支行(branch)、月均AUM(aum)、是否为代发工资户(is_payroll,0/1)。请用SQL写出:统计2024年各支行(branch)代发工资户的数量、代发工资户的AUM总和,以及代发工资户AUM占该支行总AUM的比例(保留2位小数)。答案:SELECTbranch,COUNT(CASEWHENis_payroll=1THENcust_idEND)ASpayroll_count,SUM(CASEWHENis_payroll=1THENaumEND)ASpayroll_aum_sum,ROUND(SUM(CASEWHENis_payroll=1THENaumEND)/SUM(aum)100,2)ASpayroll_aum_ratioFROMccb_customerWHEREYEAR(reg_time)=2024GROUPBYbranch;7.某Excel表格中,A列是客户姓名(可能重复),B列是产品购买时间(格式:2024-03-1514:30:00),C列是产品类型(信用卡/理财/贷款)。需统计“2024年每个季度,每个客户首次购买的产品类型”。请写出操作步骤(函数或数据透视表均可)。答案:步骤1:在D列提取购买季度:=IF(MONTH(B2)<=3,"Q1",IF(MONTH(B2)<=6,"Q2",IF(MONTH(B2)<=9,"Q3","Q4")))步骤2:按客户姓名(A列)和季度(D列)排序,保持产品购买时间(B列)升序;步骤3:在E列标记首次购买:=IF(A2=A1且D2=D1,"重复","首次")(需调整为精确公式:=IF(COUNTIFS(A$2:A2,A2,D$2:D2,D2)=1,"首次","重复"));步骤4:筛选E列为“首次”的记录,数据透视表行标签选“客户姓名”和“季度”,值字段选“产品类型”(显示方式为“最大值”或“最小值”,因已排序,首次记录在最前);或使用PowerQuery:按客户和季度分组,按时间升序排序后取第一条记录。8.某支行用Python分析客户流失数据,数据集包含10000条记录,其中“月活跃天数”(active_days)字段有15%的缺失值。请设计至少3种处理缺失值的方法,并说明在银行场景下的适用性。答案:方法1:均值/中位数填充。计算非缺失值的均值(如22天)或中位数(20天)填充。适用于缺失值无特殊业务含义(如系统记录错误),且变量分布接近正态时。方法2:分组填充。按客户类型(如代发工资户/非代发)分组,计算各组均值填充。银行客户行为差异大,分组填充可保留群体特征(如代发户月活跃天数通常更高)。方法3:模型预测填充。以“月活跃天数”为目标变量,其他变量(如AUM、交易笔数)为特征,训练回归模型预测缺失值。适用于缺失值与其他变量存在显著相关性(如高AUM客户活跃天数可能更多),需确保模型精度。方法4:删除缺失行。若缺失率<5%可直接删除,但本题缺失率15%,删除会损失较多信息,不建议。三、业务场景分析题(每题12分,共36分)9.建设银行汕头分行拟对零售客户进行分层经营,现有数据包括:年龄、月收入、AUM、近1年信用卡消费额、房贷余额、是否持有理财/基金/保险产品。请设计客户分层指标体系,并说明各层的运营策略。答案:分层指标体系:(1)基础维度:AUM(核心指标),分为私行客户(AUM≥800万)、财富客户(300万≤AUM<800万)、潜力客户(50万≤AUM<300万)、大众客户(AUM<50万)。(2)行为维度:近1年信用卡消费额(高/中/低)、持有产品数量(综合金融覆盖度)。(3)风险维度:房贷余额占收入比(≤50%为低负债,>50%为高负债)。运营策略:私行客户:提供专属客户经理、家族信托、海外资产配置等定制化服务,重点维护高净值关系;财富客户:推送私募股权、高端保险等产品,组织企业家沙龙拓展交叉销售;潜力客户:通过基金定投、短期理财培养理财习惯,提升AUM;大众客户:优化手机银行体验,推广小额信用贷、快捷支付,提高活跃度;高消费低AUM客户(如年轻白领):推荐分期业务、消费贷,挖掘增长潜力;高负债客户:提示财务健康度,推荐债务重组方案,防范逾期风险。10.某支行信用卡逾期率(逾期>30天)较年初上升2个百分点,需通过数据分析定位原因。请列出至少5个分析维度,并说明每个维度的具体分析方法。答案:维度1:客群结构变化。对比年初与当前新发卡客户的年龄分布(如25岁以下占比是否上升)、职业类型(自由职业者占比)、征信评分分布(低评分客户占比),使用卡方检验判断客群差异是否显著。维度2:产品政策调整。分析是否放宽进件门槛(如降低收入证明要求)、提额策略变化(大额临时额度占比),计算不同产品(标准卡/车主卡)的逾期率变化。维度3:外部环境影响。关联汕头地区GDP增速、失业率数据,分析逾期率与宏观经济的相关性;结合本地台风、疫情等事件,查看受影响区域客户的逾期率是否异常。维度4:还款渠道问题。统计手机银行还款成功率(如系统升级导致失败率上升)、自动扣款签约率(未签约客户逾期率是否更高),对比不同渠道的还款及时性。维度5:催收策略效果。分析催收响应率(联系上客户的比例)、首催回收率(首次催收后还款金额),若响应率下降可能因客户联系方式变更,回收率下降可能需调整话术。11.建设银行汕头分行计划为小微企业提供“科创贷”产品,需建立贷款违约预测模型。现有数据包括:企业成立年限、注册资本、年营收、研发投入占比、专利数量、实际控制人征信评分、是否为高新技术企业、近1年纳税额。请设计特征工程步骤,并说明选择模型时需考虑的业务约束。答案:特征工程步骤:(1)数据清洗:处理异常值(如注册资本为0,可能为录入错误)、缺失值(研发投入占比缺失可填充行业均值);(2)特征构造:计算“研发投入/年营收”(创新强度)、“专利数量/成立年限”(年均专利产出)、“纳税额/年营收”(税负率);(3)特征分箱:将成立年限分为<3年(高风险)、3-5年(中风险)、>5年(低风险);注册资本按行业分位数分箱(如低于行业25%为低资本);(4)特征筛选:用IV值(信息价值)评估变量预测能力(如实际控制人征信评分IV>0.3为强预测变量),删除多重共线性变量(如年营收与纳税额相关系数>0.8时保留其一)。业务约束:(1)可解释性:银行需向监管和客户说明拒贷原因,优先选择逻辑回归、决策树等可解释模型,避免黑箱模型(如深度神经网络);(2)稳定性:模型需适应小微企业数据波动(如年营收受订单影响大),需测试跨时间验证(OOT测试),确保不同时间段表现一致;(3)政策导向:高新技术企业可能有政策倾斜,模型需设置政策权重(如高新技术企业违约概率阈值可放宽5%);(4)计算效率:小微企业数量多,模型需支持批量快速预测,避免计算复杂度高的模型(如随机森林深度不宜过深)。四、编程实操题(25分)12.用Python完成以下任务(数据路径:./ccb_data.csv,字段:cust_id,age,income,aum,credit_loan_balance,deposit_balance,is_default(0/1)):(1)读取数据并查看缺失值分布,对“income”字段缺失值用随机森林回归填充;(2)计算“aum/deposit_balance”(若deposit_balance=0则置为0),并将“credit_loan_balance”按分位数分为低/中/高3组;(3)构建逻辑回归模型预测is_default,要求:划分训练集(70%)和测试集(30%),标准化连续变量,输出混淆矩阵和F1分数;(4)解释模型中“age”变量的系数含义,并提出优化模型的2个方法。答案:(1)缺失值处理代码:```pythonimportpandasaspdfromsklearn.ensembleimportRandomForestRegressordata=pd.read_csv('./ccb_data.csv')print("缺失值分布:\n",data.isnull().sum())分离income缺失和非缺失数据missing=data[data['income'].isnull()]non_missing=data[data['income'].notnull()]特征选择(排除cust_id和is_default)features=['age','aum','credit_loan_balance','deposit_balance']X_train=non_missing[features]y_train=non_missing['income']X_test=missing[features]训练随机森林回归模型rf=RandomForestRegressor(n_estimators=100,random_state=42)rf.fit(X_train,y_train)missing['income']=rf.predict(X_test)合并数据data_filled=pd.concat([non_missing,missing],axis=0)```(2)特征工程代码:```python计算aum/deposit_balancedata_filled['aum_deposit_ratio']=data_filled.apply(lambdarow:row['aum']/row['deposit_balance']ifrow['deposit_balance']!=0else0,axis=1)分箱credit_loan_balancedata_filled['loan_group']=pd.qcut(data_filled['credit_loan_balance'],q=3,labels=['低','中','高'])```(3)模型构建代码:```pythonfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScalerfromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportconfusion_matrix,f1_score选择特征(排除cust_id和loan_group字符串类型)X=data_filled[['age','income','aum','credit_loan_balance','deposit_balance','aum_deposit_
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年天津医学高等专科学校单招综合素质考试参考题库含详细答案解析
- 2026年长春早期教育职业学院单招综合素质笔试备考试题含详细答案解析
- 2026年天津交通职业学院单招综合素质考试备考试题含详细答案解析
- 2026年湖北国土资源职业学院单招综合素质笔试模拟试题含详细答案解析
- 2026年河源职业技术学院高职单招职业适应性测试模拟试题及答案详细解析
- 2026年新疆农业职业技术学院单招职业技能考试备考试题含详细答案解析
- 2026年深圳信息职业技术学院高职单招职业适应性测试备考题库及答案详细解析
- 2026年安徽中医药高等专科学校高职单招职业适应性测试备考试题及答案详细解析
- 2026年上海政法学院单招职业技能考试参考题库含详细答案解析
- 2026年安徽工业经济职业技术学院单招职业技能考试备考试题含详细答案解析
- 北京市顺义区2025-2026学年八年级上学期期末考试英语试题(原卷版+解析版)
- 中学生冬季防溺水主题安全教育宣传活动
- 2026年药厂安全生产知识培训试题(达标题)
- 初中九年级上一元二次方程计算练习题及答案详解B2
- 高中数学北师大版讲义(必修二)第02讲1.2任意角3种常见考法归类(学生版+解析)
- 医疗器械网络销售质量管理规范宣贯培训课件2025年
- 2024法院书记员招聘笔试必考题含答案
- 地沟清理合同协议
- 2025年湖南省郴州市中考模拟英语试题(含答案含听力原文无音频)
- 无损检测考试题及答案
- 河南省2025届高三下学期2月质量检测语文试卷(含答案)
评论
0/150
提交评论