2025年数据分析师中级考试模拟题及答案_第1页
2025年数据分析师中级考试模拟题及答案_第2页
2025年数据分析师中级考试模拟题及答案_第3页
2025年数据分析师中级考试模拟题及答案_第4页
2025年数据分析师中级考试模拟题及答案_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年数据分析师中级考试模拟题及答案一、单项选择题(每题2分,共20分)1.以下哪项不属于数据清洗阶段需要处理的问题?A.缺失值填充B.异常值检测C.特征重要性排序D.不一致数据修正答案:C(特征重要性排序属于特征工程或模型训练阶段的任务)2.在分析某电商平台用户复购行为时,若要比较新老用户(注册时间<30天为新用户)的复购率差异(复购率=复购用户数/总购买用户数),应优先选择的统计检验方法是:A.卡方检验B.t检验C.方差分析D.曼-惠特尼U检验答案:A(复购率为比例数据,比较两组比例差异用卡方检验)3.某数据集包含变量X(年龄,连续型)和Y(是否购买会员,二分类),若要分析X对Y的影响,以下哪种预处理方法最不适用?A.对X进行分箱处理B.计算X的Z-score标准化C.对Y进行独热编码D.计算X与Y的点二列相关系数答案:C(Y是二分类变量,无需独热编码)4.在SQL中,要查询2024年每个自然月的活跃用户数(活跃定义为至少有1次登录),且结果按月份升序排列,正确的GROUPBY子句是:A.GROUPBYYEAR(login_time),MONTH(login_time)B.GROUPBYDATE_FORMAT(login_time,'%Y-%m')C.GROUPBYEXTRACT(MONTHFROMlogin_time)D.GROUPBYlogin_time答案:B(需要同时按年和月分组,确保跨年度数据正确)5.用Python的sklearn库训练逻辑回归模型时,若出现训练集准确率95%、测试集准确率60%的情况,最可能的原因是:A.学习率设置过高B.数据未进行标准化C.模型过拟合D.类别不平衡答案:C(训练集和测试集表现差异大是典型过拟合现象)6.某时间序列数据的ACF(自相关函数)在滞后1阶显著不为0,滞后2阶及以上不显著;PACF(偏自相关函数)在滞后1-3阶显著不为0。最适合的ARIMA模型参数是:A.ARIMA(1,0,0)B.ARIMA(3,0,1)C.ARIMA(1,0,3)D.ARIMA(0,0,1)答案:B(PACF显著阶数为3,ACF显著阶数为1,对应ARIMA(p,d,q)中p=3,q=1)7.分析用户行为漏斗时,若注册转化率(注册用户数/访问用户数)突然下降50%,首先应排查的数据问题是:A.访问用户数的统计口径是否变化B.注册页面的加载速度C.用户设备类型分布D.推广渠道的流量质量答案:A(数据口径变化是突发异常的首要排查点)8.以下哪项不是特征工程中处理类别变量的常用方法?A.目标编码(TargetEncoding)B.主成分分析(PCA)C.独热编码(One-HotEncoding)D.标签编码(LabelEncoding)答案:B(PCA用于连续变量降维,不直接处理类别变量)9.在A/B测试中,若实验组和对照组的样本量均为1000,显著性水平设为0.05,检测到的效应量为0.15(Cohen'sd),此时统计功效(Power)最可能的数值是:A.0.45B.0.85C.0.95D.0.25答案:A(小样本量+小效应量通常导致低统计功效)10.某数据集的偏度(Skewness)为2.3,峰度(Kurtosis)为5.8,说明该数据分布:A.左偏,尾部更重B.右偏,尾部更重C.左偏,尾部更轻D.右偏,尾部更轻答案:B(正偏度表示右偏,峰度>3表示尾部更重)二、简答题(每题6分,共30分)1.简述数据清洗中处理缺失值的常用方法及其适用场景。答案:(1)删除法:适用于缺失比例极低(如<5%)且缺失无规律性的情况;(2)均值/中位数/众数填充:适用于数值型变量(均值适合正态分布,中位数适合偏态分布)、分类型变量(众数);(3)插值法(如线性插值、时间序列的前向填充):适用于有序数据或时间序列;(4)模型预测填充:用其他变量训练模型预测缺失值,适用于缺失数据与其他变量有较强相关性;(5)单独编码:将缺失值作为独立类别,适用于分类型变量且缺失本身有业务含义(如"未填写")。2.说明在SQL中使用窗口函数(WindowFunction)与GROUPBY的主要区别。答案:窗口函数对数据进行分组计算但不改变原始行数(保留每行明细),支持在分组内进行排序、累计计算等操作(如ROW_NUMBER()、SUM()OVER());GROUPBY会将数据按分组列聚合,减少行数(仅保留分组汇总结果),主要用于计算各组的统计量(如COUNT()、AVG())。窗口函数可在GROUPBY后的结果上进一步处理,而GROUPBY无法直接访问原始行数据。3.列举3种评估分类模型性能的指标,并说明其适用场景。答案:(1)准确率(Accuracy):总正确预测数/总样本数,适用于类别平衡场景;(2)召回率(Recall):真阳性/(真阳性+假阴性),适用于关注漏检(如疾病诊断)的场景;(3)F1-score:2(精确率召回率)/(精确率+召回率),适用于需要平衡精确率和召回率的场景;(4)AUC-ROC:衡量模型区分正负极的能力,适用于类别不平衡且关注整体排序的场景(如欺诈检测)。4.简述用户分群(RFM模型)中R、F、M三个指标的定义及业务意义。答案:R(Recency):最近一次消费时间距今的天数,反映用户活跃度;F(Frequency):一定时间内的消费次数,反映用户黏性;M(Monetary):一定时间内的消费金额,反映用户价值;业务意义:通过三个维度的组合将用户划分为不同群体(如重要价值客户、潜在客户),支持精准营销(如对高R低F用户推送召回优惠券)。5.说明在Python中使用Pandas处理大数据集(如100GBCSV文件)时的优化策略。答案:(1)分块读取(chunksize参数):逐块加载数据,减少内存占用;(2)选择必要列(usecols参数):仅读取分析所需字段;(3)指定数据类型(dtype参数):将大整数转为int32/int16,字符串转为category类型;(4)使用Dask或Modin库:分布式计算框架支持并行处理;(5)过滤数据后再处理:在读取时通过query或布尔索引筛选目标数据;(6)释放内存:及时删除不再使用的变量(del)并调用gc.collect()。三、工具应用题(共30分)(一)SQL题(15分)已知某电商数据库有以下三张表:user_info(user_idINT,reg_timeDATETIME,genderSTRING):用户基本信息表user_behavior(user_idINT,behavior_timeDATETIME,behavior_typeSTRING):用户行为表(behavior_type包含'view','click','purchase')order_detail(order_idINT,user_idINT,order_timeDATETIME,amountDECIMAL(10,2)):订单明细表要求:查询2024年Q1(1-3月)各月的"高价值用户"数量。高价值用户定义:注册时间在2023年1月1日前(老用户)2024年Q1至少有1次购买行为(behavior_type='purchase')订单总金额≥5000元每月至少有3天有行为记录(任意行为类型)答案:```sqlWITHvalid_usersAS(SELECTu.user_idFROMuser_infouWHEREu.reg_time<'2023-01-01'-老用户筛选ANDEXISTS(-至少1次购买行为SELECT1FROMuser_behaviorbWHEREb.user_id=u.user_idANDb.behavior_type='purchase'ANDb.behavior_timeBETWEEN'2024-01-01'AND'2024-03-31')AND(-订单总金额≥5000SELECTSUM(od.amount)FROMorder_detailodWHEREod.user_id=u.user_idANDod.order_timeBETWEEN'2024-01-01'AND'2024-03-31')>=5000),monthly_behavior_daysAS(SELECTuser_id,DATE_FORMAT(behavior_time,'%Y-%m')ASmonth,COUNT(DISTINCTDATE(behavior_time))ASactive_days-每月活跃天数FROMuser_behaviorWHEREbehavior_timeBETWEEN'2024-01-01'AND'2024-03-31'GROUPBYuser_id,DATE_FORMAT(behavior_time,'%Y-%m'))SELECTm.month,COUNT(DISTINCTm.user_id)AShigh_value_user_countFROMmonthly_behavior_daysmJOINvalid_usersvONm.user_id=v.user_idWHEREm.active_days>=3-每月至少3天行为记录GROUPBYm.monthORDERBYm.month;```(二)Python题(15分)使用Pandas分析某银行客户满意度数据(数据字段:user_id,age,income,loan_amount,credit_score,satisfaction(1-5分)),要求:1.对age(年龄)字段进行分箱处理,分为[0,25),[25,40),[40,60),[60,∞)四个区间,命名为age_group;2.计算各age_group的平均收入(income)、平均贷款金额(loan_amount)、满意度的中位数;3.绘制各age_group的满意度分布直方图(横轴为满意度,纵轴为用户数,分5个柱形,按age_group分颜色);4.分析年龄分组与满意度的相关性(要求输出相关系数并说明结论)。答案:```pythonimportpandasaspdimportmatplotlib.pyplotaspltimportseabornassnsfromscipy.statsimportspearmanr假设数据已加载为df1.年龄分箱bins=[0,25,40,60,float('inf')]labels=['0-25','25-40','40-60','60+']df['age_group']=pd.cut(df['age'],bins=bins,labels=labels,right=False)2.分组统计group_stats=df.groupby('age_group').agg({'income':'mean','loan_amount':'mean','satisfaction':'median'}).reset_index()print("各年龄组统计指标:")print(group_stats)3.绘制满意度分布直方图plt.figure(figsize=(10,6))sns.histplot(data=df,x='satisfaction',hue='age_group',multiple='dodge',bins=5,shrink=0.8,palette='viridis')plt.title('各年龄组满意度分布')plt.xlabel('满意度(1-5分)')plt.ylabel('用户数')plt.xticks([1.5,2.5,3.5,4.5],[1,2,3,4,5])调整刻度位置plt.show()4.相关性分析(年龄分组为有序分类,使用斯皮尔曼相关)将age_group转换为数值等级df['age_rank']=df['age_group'].cat.codescorr,p_value=spearmanr(df['age_rank'],df['satisfaction'])print(f"年龄分组与满意度的斯皮尔曼相关系数:{corr:.3f}(p值:{p_value:.4f})")结论:若corr>0且p<0.05,说明年龄越大满意度越高;反之则相反;若不显著则无相关性。```四、综合分析题(20分)某生鲜电商平台2024年7月的GMV(商品交易总额)环比下降8%,作为数据分析师需定位原因。现有数据包括:用户行为日志(访问、加购、下单)、商品分类表(一级/二级类目)、订单表(含支付时间、金额、用户城市)、促销活动表(活动时间、参与类目、折扣力度)。请设计分析思路,包括:1.核心指标拆解(至少三级);2.关键分析步骤及使用的方法;3.可能的原因假设及验证方式。答案:1.核心指标拆解:GMV=活跃用户数×转化率(下单用户数/活跃用户数)×客单价(GMV/下单用户数)其中:活跃用户数=新用户数+老用户数转化率=加购转化率(加购用户数/活跃用户数)×下单转化率(下单用户数/加购用户数)客单价=平均购买数量×平均商品单价2.关键分析步骤及方法:(1)趋势对比:按日期绘制GMV、活跃用户数、转化率、客单价的7月环比/同比趋势图,识别是否为持续性下降或某时间点突变;分城市(一线/新一线/下沉市场)、用户类型(新/老)、流量渠道(APP/小程序/第三方平台)拆解GMV变化,定位异常维度(如某城市GMV下降30%)。(2)转化漏斗分析:构建"访问→加购→下单"漏斗,计算各环节转化率环比变化,识别瓶颈环节(如加购转化率下降15%);使用归因分析(如首次点击、最后点击)定位流量入口的转化效率变化(如某推广渠道的下单转化率从10%降至5%)。(3)商品维度分析:按一级/二级类目计算GMV占比及环比变化,找出拖后腿类目(如水果类GMV下降15%,占总GMV30%);分析问题类目的销售结构:爆款商品销量是否下降(如TOP10商品销量下降20%)、新品占比是否降低、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论