2026年数据分析师招聘笔试试题及答案_第1页
2026年数据分析师招聘笔试试题及答案_第2页
2026年数据分析师招聘笔试试题及答案_第3页
2026年数据分析师招聘笔试试题及答案_第4页
2026年数据分析师招聘笔试试题及答案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年数据分析师招聘笔试试题及答案一、单项选择题(每题2分,共20分)1.某电商公司2025年12月订单表包含字段order_id、user_id、sku_id、price、qty、order_date。现需计算当月“人均消费件单价”,下列SQL写法正确的是A.SELECTSUM(priceqty)/COUNT(DISTINCTuser_id)FROMordersB.SELECTAVG(priceqty)FROMordersC.SELECTSUM(priceqty)/COUNT()FROMordersD.SELECTAVG(price)FROMorders答案:A解析:人均消费件单价=总销售额/去重用户数,需先求priceqty再聚合。2.在Python中,对DataFramedf按列A分组后求列B的Top3频次值,正确写法是A.df.groupby('A')['B'].value_counts().groupby(level=0).head(3)B.df.groupby('A')['B'].apply(lambdax:x.value_counts().head(3))C.df.groupby('A')['B'].agg(lambdax:x.value_counts().head(3))D.df.groupby('A')['B'].nlargest(3)答案:B解析:先按A分组,再对每组B做value_counts,取每组Top3,返回多级Series。3.某模型在训练集AUC=0.98,验证集AUC=0.72,测试集AUC=0.71,最可能的问题是A.特征泄露B.欠拟合C.样本不平衡D.标签错误答案:A解析:训练集远高于验证/测试,且差距巨大,典型特征泄露。4.时间序列数据呈现“趋势+季节+噪声”,使用STL分解后,欲对季节项做预测,最佳方法是A.季节NaïveB.Holt-Winters乘法C.SARIMAD.Prophet答案:C解析:STL已将季节项单独剥离,SARIMA可对剥离后的季节项建模并外推。5.在AB实验中,若检验指标为连续型,样本量计算公式中不影响最小样本量的是A.显著性水平αB.检验效能1-βC.指标方差D.实验周期答案:D解析:周期长短影响收集速度,但不进入样本量公式。6.使用LightGBM时,为了抑制过拟合,下列参数组合最合理的是A.max_depth=15,num_leaves=400,min_data_in_leaf=1B.max_depth=6,num_leaves=50,min_data_in_leaf=20,reg_lambda=1C.learning_rate=0.9,n_estimators=10D.subsample=0.1,colsample_bytree=0.1答案:B解析:降低树复杂度、增加叶节点最小样本、加正则,均为抑制过拟合手段。7.某日志表每日增量约200GB,需按user_id做近30天去重统计,最节省资源的方案是A.每日全表扫描后去重B.使用Bitmap精确去重C.使用HyperLogLog近似去重D.使用布隆过滤器+每日merge答案:C解析:HyperLogLog误差可控,内存占用极低,适合大数据量近似去重。8.在Tableau中,将日期字段拖至列功能区后默认聚合为“年”,若需展示连续日,应A.右键→精确日期B.右键→离散日期C.拖至详细信息D.改为字符串答案:A解析:精确日期为连续型,可形成连续轴。9.某标签体系将用户分为高、中、低价值,若用聚类实现,最需先处理的步骤是A.变量标准化B.变量离散化C.变量降维D.缺失值插补答案:A解析:K-means等算法对量纲敏感,需先标准化。10.数据仓库中,SlowlyChangingDimensionType2的做法是A.直接更新原行B.新增一行并标记旧行失效C.新增一列保存历史值D.新建历史表答案:B解析:Type2通过新增行保留历史快照,并加生效时间戳。二、多项选择题(每题3分,共15分)11.下列属于特征选择过滤法的是A.方差选择B.卡方检验C.L1正则D.互信息E.递归特征消除答案:ABD解析:C、E为嵌入法与包裹法。12.关于HiveSQL优化,正确的有A.分区裁剪可减小扫描量B.小文件过多会降低NameNode压力C.开启MapJoin可避免数据倾斜D.使用ORC+SNAPPY可减少磁盘IOE.使用count(1)比count()更快答案:ACD解析:B应为增加NameNode压力;count(1)与count()在Hive无差异。13.以下Python代码可正确实现“对df按user_id分组后计算列C的累计百分位”的是A.df.groupby('user_id')['C'].expanding().quantile(0.9)B.df.groupby('user_id')['C'].rolling(window=len(df),min_periods=1).quantile(0.9)C.df.groupby('user_id').apply(lambdax:x['C'].expanding().quantile(0.9))D.df.groupby('user_id')['C'].cumsum()/df.groupby('user_id')['C'].transform('sum')E.df.groupby('user_id')['C'].transform(lambdax:x.expanding().quantile(0.9))答案:ACE解析:B窗口固定;D为累计占比而非百分位。14.在构建用户流失模型时,可用于定义“流失”的口径有A.近30天无登录B.近7天无支付且近14天无浏览C.距离上次登录超过90百分位D.客服标记“流失”标签E.历史最大间隔+3σ答案:ABCE解析:D为主观标签,需验证一致性。15.关于数据可视化原则,正确的有A.饼图类别不宜超过5个B.折线图纵轴必须从0开始C.热力图适合展示矩阵型数据D.箱线图可识别异常值E.3D柱状图可增强表达力答案:ACD解析:B不一定;E常造成遮挡。三、填空题(每空2分,共20分)16.在MySQL中,查看某表索引使用情况的命令是______。答案:SHOWINDEXFROM表名17.若随机变量X~N(μ,σ²),则P(μ-1.96σ≤X≤μ+1.96σ)=______。答案:0.9518.在Python中,使用pandas将字符串'2026-03-01'转为datetime64[ns]的代码为______。答案:pd.to_datetime('2026-03-01')19.某电商首页UV转化率=支付成功UV/首页UV,若某日首页UV=5×10⁶,支付成功UV=2×10⁵,则转化率为______%。答案:420.在Linux中,将文件file.csv按第2列数值降序排序并取前100行的命令是______。答案:sort-t,-k2,2nrfile.csv|head-n10021.在Spark中,RDD的______操作会触发实际计算。答案:action22.若某模型F1-score=0.8,precision=0.9,则recall=______。答案:0.72解析:F1=2PR/(P+R)→R=0.7223.在Excel中,计算一列数据的中位数函数为______。答案:MEDIAN24.使用Pythonseaborn绘制两变量散点图并加回归线,函数名为______。答案:sns.regplot25.数据治理元数据通常分为业务元数据、技术元数据与______元数据。答案:管理四、判断题(每题1分,共10分)26.在显著性水平α=0.05下,若p值=0.04,则原假设一定错误。答案:×解析:仅说明拒绝原假设,但仍有4%可能犯第一类错误。27.使用Z-score标准化后,新变量均值为0,方差为1。答案:√28.在Hive中,LEFTSEMIJOIN返回左表全部记录。答案:×解析:仅返回左表能与右表匹配的行。29.数据仓库分层中,DWD层保存的是经过清洗的明细数据。答案:√30.在Python中,list的append操作时间复杂度为O(n)。答案:×解析:平均O(1),扩容时才O(n)。31.使用PCA降维后,主成分之间相关系数为0。答案:√32.在Tableau中,计算字段无法使用表计算函数。答案:×解析:可使用WINDOW、RUNNING等表计算函数。33.在AB实验里,若指标服从二项分布,可用Z检验近似。答案:√34.使用K-fold交叉验证时,k越大,偏差越小,方差越大。答案:√35.在Linux中,awk默认分隔符为空格。答案:√五、简答题(每题8分,共24分)36.描述一次完整的数据埋点治理流程,并说明如何验证埋点质量。答案:1.需求评审:产品、数据、开发三方对齐指标定义与口径。2.埋点设计:输出埋点文档,含事件名、属性、触发时机、上报格式。3.开发联调:开发在测试环境触发事件,数据组使用抓包工具验证字段完整性。4.测试验收:构造边界场景,校验属性缺失率、空值率、枚举值一致性。5.灰度监控:上线后对比日志与ODS表,T+1跑校验SQL,核心维度差异>1%触发告警。6.质量输出缺失率、延迟率、重复率、错误率四指标,持续三周达标后结项。验证方法:a.对比日志与数据库,计算接收率=DB条数/日志条数;b.使用唯一标识去重,计算重复率;c.对枚举值字段做白名单匹配,计算错误率;d.延迟监控:事件产生到入库延迟>5min占比。37.解释“数据倾斜”在SparkSQL中的成因、现象及四种以上解决方案。答案:成因:key分布极不均匀,导致某分区数据量远大于平均,引发长尾Task。现象:Stage页面大部分Task秒级完成,个别Task耗时数十分钟甚至OOM。解决方案:1.加盐打散:对热点key拼接随机前缀,聚合后二次汇总。2.两阶段聚合:先局部聚合,再全局聚合,减少Shuffle量。3.广播Join:当小表<10MB,使用broadcasthint避免Shuffle。4.自定义分区:实现Partitioner,将热点key均匀拆分到多分区。5.过滤倾斜key:若热点key对结果无意义,可先行过滤。6.增加并行度:提高spark.sql.shuffle.partitions,使大分区变细。38.说明如何构建“用户商品偏好得分”特征,并给出特征工程细节与上线流程。答案:步骤:1.样本抽取:取近90天有过交互(浏览/加购/支付)的(user,sku)对,正负采样1:3。2.标签定义:支付=1,浏览未支付=0。3.特征构造:a.用户侧:近30天支付次数、客单价、类目多样性、活跃度。b.商品侧:销量、库存、折扣率、评分、上新天数。c.交叉侧:用户在该类目下支付占比、用户对该品牌复购周期、用户-商品浏览天数序列(取最近7天均值、标准差、衰减加权)。4.特征处理:a.缺失值:数值型用中位数,类别型用“未知”。b.标准化:RobustScaler抑制异常值。c.降维:对高维类目one-hot使用PCA压缩至20维。5.模型训练:使用XGBoost,调参后AUC=0.87,TOP1%召回率65%。6.上线流程:a.训练后导出PMML,通过Airflow每日晨跑批预测,输出(user_id,sku_id,score)落Hive表。b.提供REST接口,业务方传入user_id,返回TOP100商品,RT<50ms。c.监控:每日对比预测分与真实支付率,PSI>0.2触发重训。六、计算题(共21分)39.某短视频App进行Push文案AB实验,对照组曝光100万,点击2万,实验组曝光110万,点击2.7万。(1)计算两组点击率及相对提升率。(4分)(2)使用Two-proportionZ-test检验差异是否显著(α=0.05)。(7分)(3)若次日留存提升0.3pp,实验组留存率6.2%,对照组5.9%,求需多少样本才能80%检出该差异。(10分)答案:(1)对照CTR=20000/1000000=2.00%实验CTR=27000/1100000≈2.45%相对提升=(2.45%-2.00%)/2.00%=22.5%(2)p1=0.02,n1=1e6,p2=0.0245,n2=1.1e6P_pool=(20000+27000)/(1e6+1.1e6)=0.0226Z=(p2-p1)/√[P_pool(1-P_pool)(1/n1+1/n2)]=0.0045/√[0.0226×0.9774×(1e-6+0.909e-6)]=0.0045/0.000206≈21.821.8>1.96,拒绝原假设,差异显著。(3)留存差异δ=0.003,基线p=0.059合并p=0.0605Zα=1.96,Zβ=0.84n=[Zα√(2p(1-p))+Zβ√(p1(1-p1)+p2(1-p2))]²/δ²≈[1.96√(2×0.0605×0.9395)+0.84√(0.059×0.941+0.062×0.938)]²/0.003²≈[1.96×0.338+0.84×0.344]²/0.000009≈(0.662+0.289)²/0.000009≈0.951²/0.000009≈100500每组需约10万样本。七、编程题(共30分)40.现有用户行为日志behavior.csv,字段:user_id,item_id,cate,behavior_type,ts。behavior_type含pv、buy、cart、fav。请完成:(1)使用Pythonpandas统计每个用户近7天购买类目多样性(购买过的不同类目数),并输出前10名用户。(10分)(2)使用PySpark实现相同逻辑,并缓存中间结果,要求运行时间<2min(集群3节点,共24核)。(20分)答案:(1)importpandasaspd,datetimeasdtdf=pd.read_csv('behavior.csv',parse_dates=['ts'])cutoff=df.ts.max()-pd.Timedelta(days=7)sub=df[(df.behavior_type=='buy')&(df.ts>=cutoff)]result=sub.groupby('user_id')['cate'].nun

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论