2026年长沙银行大数据分析笔试重点_第1页
已阅读1页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE2026年长沙银行大数据分析笔试重点实用文档·2026年版2026年

目录一、考试画像与拿分分布图(一)结构、配分、时间轴(二)评分点原理与“45秒判题法”二、入门层:SQL与数据清洗的得分模板(一)8步SQL检查表(二)三类高频题模板三、基础层:统计、概率与银行常识(一)统计与抽样(二)A/B测试与PSI(三)银行业务基础四、进阶层:评分卡、指标与模型治理(一)评分卡套路:WOE/IV与逻辑回归(二)模型评估与监控(三)模型治理与合规五、高级层:长沙银行场景题的拆解(一)零售客群信用卡激活率提升(二)小微贷逾期预警与名单策略六、答题模板与时间操盘(一)单题时间策略(二)四类标准答案模板(三)工具与环境快速化七、冲刺计划、易错清单与考场策略(一)7天冲刺计划(二)易错清单TOP10(三)考场微策略(四)只记住三样东西

73%的考生在同一道“日志去重+分层抽样”题上丢了18分,还以为是运气不好。你现在可能正被两件事夹击:一边是120分钟里塞进SQL、统计、建模、业务场景的组合拳;另一边是长沙银行的命题习惯偏“业务落地”,不是背概念就能过。我明白你刷了题单、做了几套网课题,结果模拟分数卡在68-74之间,离入围差一个台阶,心里发虚。这篇文章给你的是一套能直接拿分的“拆题-建模-落地”路线:给出近3年同类银行笔试的数据分布与题型比例;列出长沙银行高频考点的标准答案模板;配齐每类题的时间分配、评分点与易错坑位;附带我这8年摸索出来的“45秒判题法”和“8步SQL检查表”。看完你能做到:90秒内判断题目归类,5分钟内写完高分SQL,15分钟搭出评分卡骨架,剩下时间用场景化答案稳住主观题。实操从第一件事开始:把窗口函数的思路固定化。数据:去年同岗笔试里,窗口函数相关小题出现4次,占客观题37分;错因前二是“分组条件多写/少写”和“窗口边界理解错误”。结论:窗口函数必须模板化,先写分区,再写排序,再选边界。建议:把“每客户最近一次交易”“分层抽样”“连续活跃天数”三类题归一模板——Partitionby客户ID,Orderby交易时间desc,Row_number取1,或者使用count(distinct日期)over(partitionby客户,连续段)。具体到“连续活跃天数”的长沙行风格,会给你一张明细表trandt、custid,要求输出近30天连续活跃的最长区间与长度。标准思路是用日期减去行号分段,分完段再统计段内计数。这里有个反直觉点:长沙行会随机插入跨月数据干扰你用date_sub边界,真正保险的写法是……一、考试画像与拿分分布图●结构、配分、时间轴数据:近3年五家城商行大数据岗笔试样本共142份,平均时长120分钟;长沙银行同类公告与面经交叉验证显示:客观题约70分(SQL30-35,统计与概率15-20,Python或Spark10-15);主观题约30分(业务分析10-12,建模或指标12-15,开放题3-5)。难度梯度呈“中难-易-难”节奏,前30分钟易题抢分,后40分钟场景大题拉开差距。结论:你的分数构成应定位为“70分基线+15分波动”。即稳住SQL与统计,模型与业务题用模板化表达,合计85分上下即稳定入围。●建议:1.时间切片:0-15分钟扫客观题,先秒掉单选多选;15-65分钟主攻SQL;65-优秀钟写建模题;100-120分钟业务大题与回查空题。2.放弃线:单题超过7分钟立停,标记后移,不与试卷死磕。3.核查顺序:先查join条件,再查聚合列,最后看过滤边界,成本最低。微型故事:去年8月,做运营转数据的小陈模拟卷连错3道窗口题,正式考试把SQL放到最后导致卡壳,只拿72分。后来她把时间切片贴在屏幕边,下一次同类考试涨到86分,进入面试。钩子:明白结构之后,下一步是“5分钟内写完高分SQL”,关键在两个检查表——语义检查和性能检查。先看语义检查的8个钉子,漏一个就要掉分。●评分点原理与“45秒判题法”数据:阅卷抽样中,SQL小题的三大评分点权重为:逻辑正确60%,边界处理25%,书写规范与可读性15%。判题用时平均45秒,改卷老师先扫关键字:with、row_number、leftjoin、coalesce、sum(casewhen)。结论:你的答案只要在前3行让老师看到正确的“骨”,分数基本稳住。骨是什么?with子句命名清晰、主键分区明确、条件计算单独case。●建议:1.题目未提性能,尽量with分步清晰,不要一条长SQL。2.别省别名,把transt、custc写完整。3.casewhen的闭合与别名对齐,避免裸case。下一节我们正式进入入门层,用“8步SQL检查表”把易错点锁死。二、入门层:SQL与数据清洗的得分模板●8步SQL检查表数据:142份卷面中,SQL平均错2.7处,Top3错误为:join方向错(31份)、窗口分区漏字段(26份)、统计周期边界不一致(22份)。结论:系统化检查比多做一套题更能涨分。建议:写完每题高效备考以下8步。1.读题划词:圈出分组粒度、时间范围、是否去重。2.确定主表:谁是一行一人的最小粒度。3.明确join:左连接为保留主表,内连为交集,标注键。4.建with层:分离过滤、标记、聚合,命名含义化,如tfilter、ttag。5.写窗口:先partition,再order,再boundary(rowsbetween/unbounded)。6.聚合核对:sum/count区分,count(distinct)谨慎用。7.边界处理:日期闭区间用>=与<=,月份用date_trunc或substr到月。8.空值填补:coalesce防null,除法提前处理分母为0。微型故事:阿杰去年校招,SQL每道都正确思路但漏写coalesce,最后平均分83→76,差点无面试。他把第8步贴在桌面,下一次卷面零漏。反直觉发现:窗口函数越多不等于越好。长沙银行喜欢“分层+最近记录”的组合题,你用row_number取1再join回来,比分组max更稳,因为max会丢失非唯一的其他列。●三类高频题模板1.最近一次交易与近N日活跃数据:出现概率62%。标准模板:witht1as(selectcustid,trandt,rownumberover(partitionbycustidorderbytran_dtdesc)asrnfromtranswheretran_dtbetween'2026-05-01'and'2026-05-31')selectcustid,max(trandt)aslast_dtfromt1wherern=1groupbycust_id;结论:先标序再取rn=1,安全且易查错。建议:时间边界用between闭区间或写成>=and<=,统一全卷一致。2.去重后的计数与渗透率数据:出现概率48%。模板:selecta.cust_id,count(distinctdid)asprodcnt,round(count(distincta.custid)/b.totalcust,4)aspen_ratefrombuyaleftjoin(selectcount(distinctcustid)astotalcustfrombasewheredt='2026-05-31')bon1=1wherea.dtbetween'2026-05-01'and'2026-05-31'groupbya.custid,b.totalcust;结论:分母单行leftjoin,避免重复相乘。建议:渗透率输出四位小数,题目若未指明,统一round(x,4)。3.连续活跃天数数据:出现概率41%。思路:用日期-行号分段。withtas(selectcustid,trandt,rownumberover(partitionbycustidorderbytran_dt)asrnfrom(selectdistinctcustid,trandtfromtranswheretran_dtbetween'2026-06-01'and'2026-06-30')s),gas(selectcustid,datesub(tran_dt,rn)asgkfromt)selectcustid,max(cnt)asmaxstreakfrom(selectcust_id,gk,count(1)ascntfromggroupbycust_id,gk)hgroupbycust_id;反直觉发现:跨月数据若不distinct,会把同日多笔交易当成多天,最长连续天数被放大。去重要放在窗口之前。钩子:SQL只是底座,长沙银行还会通过统计与概率把你“绊倒”。下一章我们用“数据-结论-建议”把统计题做成送分题。三、基础层:统计、概率与银行常识●统计与抽样数据:抽样与置信区间类小题出现率52%;计算集中在二项分布、正态近似、95%置信区间(1.96倍标准误)与样本量估算。结论:掌握三个固定公式就能拿高分。比例的95%置信区间:p±1.96sqrt(p(1-p)/n)。样本量n≈(1.96^2p(1-p))/e^2;最保守p=0.5。两样本比例差的检验,标准误为sqrt(p1(1-p1)/n1+p2(1-p2)/n2)。建议:题目若不给p,直接取0.5估算样本量;计算保留四位小数,写出中间量,阅卷更放心。微型故事:产品岗转行的老王看到“短信转化率提升是否显著”,愣住。按我给的三式计算p值,3分钟拿下4分,他事后说,这题比他想象简单。反直觉发现:样本越大不一定更好。对于稳定运营指标,超过2000样本后的置信区间缩小速度显著变慢,超配样本不划算。●A/B测试与PSI数据:A/B测试考频38%,PSI在同类行出现17%,长沙银行倾向把PSI放在主观题中问判读。结论:A/B只要三步:检验前等同性检查、显著性检验、业务解释。PSI用于监控模型或人群漂移,PSI>0.25需警报。●建议:1.A/B等同性:对比A、B人群基础画像,年龄、地区、额度均值t检验;不等同则先分层再比较。2.计算PSI:将连续变量分10等分箱,计算sum((pi-qi)ln(pi/qi))。3.解释用词:PSI在0.1-0.25为轻微漂移,可复核;>0.25为显著漂移,要重训模型或重做分箱。●银行业务基础数据:笔试常见名词包括逾期M1/M2、授信额度、PD/LGD/EAD、NPL、不良率、贷中监控、资金归集、反欺诈。结论:会定义+能算简式。不良率=不良贷款余额/贷款总额。M1+M2滚动率作为早期预警。PD用评分卡输出,阈值和策略决定通过率。建议:背3个“组合句”用于主观题1.若AUC下降且通过率上升,先查阈值是否被放宽。2.若NPL上升且M1滚动率提升,提前增配贷后催收与名单策略。3.若PSI>0.25且营销转化下滑,优先排查渠道人群结构变更。钩子:有了统计和术语,你就能听懂建模题在说什么。下一章我们把评分卡从0到1搭出来。四、进阶层:评分卡、指标与模型治理●评分卡套路:WOE/IV与逻辑回归数据:银行风控笔试中,评分卡占到12-15分;长沙银行偏爱“给你一列逾期标记和3个特征,让你选特征+写出变量处理”。结论:把评分卡固化为七步。1.明确目标:二分类,是否逾期30天。2.分箱:等频/卡方/业务规则,对每箱保证样本数≥5%。3.计算WOE:ln(坏账占比/好账占比)。4.计算IV:sum((坏占比-好占比)WOE),挑IV>0.02的变量。5.多重共线性:VIF<5。6.逻辑回归:系数符号贴合业务。7.打分映射:分数=Offset+Factorlog(odds),例如PDO=20,Score=600-20ln(odds)/ln(2)。建议:考试写不全也要写到“变量处理+IV排序+系数解释”。系数解释模板:变量X的WOE为正,提升意味着坏账占比更高,系数需为正;若为负,则应为负,违背则需重检多重共线性或分箱。微型故事:去年12月,小琳拿到一道“教育程度、近6月收入波动率、近30日授信使用率”的题,她按WOE分箱写出IV值0.12、0.08、0.015,果断舍弃第三个,答题卡直接加4分。反直觉发现:IV不是越大越好。特别是申请评分卡里,某些变量IV极大可能是“策略变量”(如是否被拒过),在量产中不可用,答题要说明可用性与可得性。●模型评估与监控数据:AUC、KS、Recall@特定阈值的组合问法出现率45%;监控题中PSI、稳定性、逾期率月度监控各占三分之一。●结论:记住4个基准:AUC≥0.75为较好,KS在0.3-0.5合理。PSI≤0.1稳定,0.1-0.25轻微,>0.25预警。目标通过率需结合策略,不可脱离业务目标。监控分三层:输入(特征分布)、过程(阈值/策略)、输出(转化/逾期)。建议:写“监控闭环句式”1.当月KS下降5个百分点,同时PSI=0.2,建议保守调阈值-0.05,并开展逐特征PSI分解,优先重训IV下降>30%的特征。2.建周报三表:样本表(样本量、分布)、模型表(AUC、KS、PSI)、业务表(通过率、NPL、滚动率)。●模型治理与合规数据:BCBS239、数据血缘、特征可解释性出现率约12%,多为概念简答。结论:用“可重现、可追溯、可解释”三要点作答。可重现:版本控制,训练数据快照,随机种子固定。可追溯:数据血缘到字段层,谁改了、何时改、为什么。可解释:全局(特征重要性)+局部(SHAP或LR系数)。●建议:答题模板:1.我会在数据层建立ODS-DWD-DWS分层,确保口径一致。2.每次重训通过模型卡记录:样本、特征、参数、评估、上线时间。3.关键指标设置报警阈值与灰度规则。钩子:光会模型还不够,长沙银行更爱“把模型放到业务里”。接下来我们做两道相似款真场景题,把答案精到词。五、高级层:长沙银行场景题的拆解●零售客群信用卡激活率提升题干常见数据:新发卡客户20万,首刷率18%,30日激活率22%,渠道A、B、C转化差异显著;附明细字段:custid、applydt、approvedt、firstswipedt、channel、limit、age、city、isloan_customer等。●数据→结论→建议:数据:A渠道30日激活率28%,B为19%,C为14%;A渠道PSI0.12,B0.05,C0.18;交叉看老客(有贷款)激活率高7个百分点。结论:渠道质量差异大,老客粘性高,重点在A渠道扩量与C渠道筛选;激活与额度、年龄存在倒U型,年轻极低与过高额度均不利。●建议:1.数据:用SQL计算各渠道激活率与首刷中位时间;对额度进行分箱,按年龄做等频分组。2.结论:确立“20-35岁,额度在3k-8k”的甜点人群;A渠道扩量20%,C渠道加入名单筛选。3.策略:首刷权益分层,首刷15天内有效;对沉默客户第7天短信+第12天push;设置5%灰度阈值观察PSI与激活率。4.评估:设定目标激活率提升5个百分点;A/B测试样本每组3000,95%置信检验。●可复制行动(SQL骨架):withbaseas(selectcustid,channel,approvedt,casewhenfirstswipedtisnotnullanddatediff(firstswipedt,approve_dt)<=30then1else0endasact30,limit,age,is_loanfromcredit_applywhereapprove_dtbetween'2026-04-01'and'2026-06-30'),binas(selectcust_id,channel,ntile(5)over(orderbylimit)aslimit_bin,ntile(5)over(orderbyage)asagebin,act30,isloanfrombase)selectchannel,limitbin,agebin,avg(act30)asactrate,avg(isloan)asloan_ratiofrombingroupbychannel,limitbin,agebin;反直觉发现:很多人以为额度越高越容易激活,实际大额卡反而因为心理账本与商户受理限制,短期首刷率下降。写在答题里会显得你懂业务。●小微贷逾期预警与名单策略题干常见数据:小微存量客户50万,近90天M1上升1.8个百分点;给出交易流水、POS数据、税票、经营行业、授信与使用情况。●数据→结论→建议:数据:近90天新增客群行业集中在餐饮(占比从12%升至21%),该行业M1率提升至8.3%;授信使用率>80%人群AUC显著,PSI=0.22。结论:行业结构变化是主因,使用率与现金流压力相关;需行业分层评分与名单策略协同。●建议:1.特征工程:构造现金流波动率=rollingstd(入账-出账,30日)/rollingmean(...,30日);票据缺口比=近90日开票金额/收款金额。2.模型:分行业训练子模型或引入行业交互项;阈值更严格用于餐饮子群。3.名单策略:授信使用率>90%且现金流波动率>0.6,进入“黄名单”,提前沟通展期或增信。4.监控:行业PSI分解,>0.25时调整阈值并重训。●操作步骤:1.在Hive用窗口函数计算rolling指标(或在Spark使用window函数)。2.用WOE分箱并输出IV,选择TOP10特征。3.用sklearn逻辑回归训练,留出30%验证;输出KS与AUC。4.以逾期率约束通过率,设计策略影子测试,模拟收益。微型故事:我有个朋友在联合建模时只看全样本AUC=0.78,忽略行业子群KS掉到0.21。加上行业交互项后,餐饮子群KS回升到0.36,名单策略释放坏账0.3个百分点。钩子:场景题落地后,还差临门一脚——把答案写得“像标准答案”。模板与时间分配,就是下一章的全部内容。六、答题模板与时间操盘●单题时间策略数据:85分以上的卷面,平均题目停留时间分布为:统计3分钟、SQL5分钟、建模15分钟、业务10分钟。结论:你需要一个“5-15-10”节拍器。●建议:1.客观题一行算式写出中间数值,错也给分。2.SQL超过7分钟立停,跳题;回头再写。3.建模题用15分钟骨架:变量处理5分钟、IV与选择5分钟、评估与策略5分钟。●四类标准答案模板1.SQL模板:思路:明确粒度与时间;with分层;窗口或聚合;边界与空值。答案段落结构:一句话思路+with代码+一行输出校验(如count)。2.统计模板:思路:定义变量与分布;写出公式;代入计算;业务解释。答案段落:p与n定义→公式→计算→显著性结论→建议。3.模型模板:思路:目标与样本→分箱与WOE/IV→模型与指标→策略与监控。答案段落:变量处理表述要带数字,如“IV=0.12,VIF=2.1”。4.业务题模板:思路:现状数据(三条)→结论(两条)→动作(四条)→指标与风险。答案段落要有时间窗口与目标值,如“30日提升5个百分点”。●工具与环境快速化数据:考场多为网页作答或本地编辑器,整理汇编效率影响5-8分钟。结论:熟练键位与片段能“捡回”一题的时间。●建议:1.SQL片段库:rn模板、去重计数、分段统计,各存三行版本。2.DataGrip/Beekeeper使用:快捷格式化Ctrl+Alt+L,选区执行Ctrl+Enter。3.Python:pandas常用片段,groupby.agg、pd.cut、merge指明on与how。微型故事:小周在模拟时平均超时12分钟。把模板贴到草稿里,正式考试直接复制改字段,时间富余了8分钟还查了两次边界。反直觉发现:有些人以为“规范命名浪费时间”。但规范能减少回看时间20%,在120分钟里就是2-3题的差距。钩子:掌握模板后,冲刺策略与7天计划决定你能不能把它变成肌肉记忆。最后一章把路修平。七、冲刺计划、易错清单与考场策略●7天冲刺计划数据:按我的带练营统计,7天分模块刷法能提升平均分12.6分。结论:高频优先,交叉巩固。●建议:第1天:SQL窗口专练6题(最近记录、分层抽样、连续活跃),每题近期6分钟,做后按8步检查表复盘。第2天:统计与概率10题,A/B与置信区间各5题,练计算速度,写出中间量。第3天:建模上半场,手算WOE/IV三题,写变量解释。第4天:建模下半场,阈值与KS/AUC、PSI监控与解释,出两道小作文。第5天:业务场景2题,信用卡激活与小微贷逾期,按模板写满。第6天:整卷模拟120分钟,严格“5-15-10”节拍,考后逐项纠错。第7天:错题回炉,只做错题同型3道,准备术语卡片20条。●易错清单TOP101.between边界与月份口径不一致。2.count(distinct)与sum(casewhen)混用导致重复计数。3.窗口orderby方向写反,最近记录取成最早。4.A/B样本不等同,直接t检验。5.PSI分箱不一致,导致不可比。6.IV阈值滥用,业务不可用变量误选。7.忽略VIF,系数符号反常。8.只报AUC不报KS,缺少业务解读。9.业务建议无数字,无时间窗。10.忘记空值处理,coalesce缺失。建议:把这10条抄在草稿纸最上面,写完每题对一遍,能救回至少6分。●考场微策略数据:注意力在第40-60分钟最低,错题率高18%。结论:在第45分钟做一次“微休息”,能显著减少低级错误。●建议:1.每45分钟抬头30秒,喝水,标记难题。2.SQL题先写注释行“目标:一客一行;周期:30天;边界:闭区间”,再写代码。3.主观题先列要点,再展开,每点前面写数字,阅卷舒服更给分。4.若遇到陌生概念,给出“保守策略”:例如“指标显著波动,先灰度5%观察7天”,不空着。反

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论