2025年数据分析师中级模拟考试试题集及答案

上传人：1*** IP属地：四川上传时间：2026-06-03 格式：DOCX 页数：19 大小：27.68KB 积分：12 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年数据分析师中级模拟考试试题集及答案一、单项选择题（每题2分，共30分）1.以下哪项不属于数据清洗中处理异常值的常用方法？A.标准差法（Z-score）B.分位数截断（IQR）C.均值填充D.聚类检测（如DBSCAN）答案：C（均值填充是处理缺失值的方法，异常值处理通常采用识别后删除、修正或单独分析）2.某电商平台订单表包含字段：order_id（订单ID）、user_id（用户ID）、order_time（下单时间）、amount（金额），需计算2024年Q1每个用户的首单时间，正确的SQL语句是？A.SELECTuser_id,MIN(order_time)ASfirst_order_timeFROMordersWHEREorder_timeBETWEEN'2024-01-01'AND'2024-03-31'GROUPBYuser_idB.SELECTuser_id,MAX(order_time)ASfirst_order_timeFROMordersWHEREorder_timeBETWEEN'2024-01-01'AND'2024-03-31'GROUPBYuser_idC.SELECTuser_id,AVG(order_time)ASfirst_order_timeFROMordersWHEREorder_timeBETWEEN'2024-01-01'AND'2024-03-31'GROUPBYuser_idD.SELECTuser_id,ORDER_TIMEASfirst_order_timeFROMordersWHEREorder_timeBETWEEN'2024-01-01'AND'2024-03-31'ORDERBYorder_time答案：A（首单时间即用户在该时间段内最早的下单时间，需用MIN函数聚合）3.某数据集服从正态分布，均值为50，标准差为10，约95%的数据范围是？A.30-70B.40-60C.20-80D.50-60答案：A（正态分布中约95%的数据位于均值±2σ范围内，50±2×10=30-70）4.以下哪种场景最适合使用箱线图（BoxPlot）？A.展示用户月收入的分布形态B.比较不同地区的销售额趋势C.显示某产品销量与广告投入的相关性D.呈现用户分群的占比结构答案：A（箱线图用于展示数据分布的四分位数、异常值等，适合分析单变量分布）5.在Python中，使用pandas处理数据时，若要将字符串列“date_str”（格式为“2024-05-20”）转换为日期类型，正确的函数是？A.pd.to_datetime(df['date_str'])B.df['date_str'].astype('datetime')C.pd.to_date(df['date_str'])D.df['date_str'].convert('datetime')答案：A（pandas中日期转换的标准函数是pd.to_datetime）6.某A/B测试中，对照组转化率为15%，实验组为17%，p值为0.03，结论应为？A.实验组与对照组无显著差异B.拒绝原假设，实验组转化率显著高于对照组C.接受原假设，实验组无提升D.需扩大样本量重新测试答案：B（p值<0.05时拒绝原假设，认为实验组有显著提升）7.以下哪项指标属于“用户留存分析”的核心指标？A.客单价（ARPU）B.次日留存率C.页面跳出率D.广告点击率（CTR）答案：B（留存率直接反映用户持续使用情况，是留存分析的核心）8.某数据集存在多重共线性，最可能的影响是？A.模型预测精度降低B.变量系数估计不稳定C.分类模型准确率下降D.聚类结果不清晰答案：B（多重共线性会导致回归模型中变量系数的标准误增大，估计不稳定）9.在SQL中，若要查询每个用户最近一次下单的订单详情（包括所有字段），最优方法是？A.使用GROUPBYuser_id+MAX(order_time)，再与原表JOINB.使用ROW_NUMBER()窗口函数按user_id分区并按order_time降序排序，取排名1的记录C.使用子查询嵌套，先计算每个用户的最大order_time，再WHERE匹配D.使用DISTINCTON（仅PostgreSQL支持）按user_id去重并保留最大order_time答案：B（窗口函数ROW_NUMBER()是处理此类需求的高效方法，兼容性强）10.以下哪种数据抽样方法属于非概率抽样？A.分层抽样B.系统抽样C.方便抽样D.整群抽样答案：C（方便抽样基于研究者便利选择样本，不遵循随机原则，属于非概率抽样）11.某网站流量数据中，“访问来源”字段包含“直接访问”“搜索引擎”“社交媒体”“其他”，若要分析不同来源的流量占比，最适合的图表是？A.折线图B.柱状图C.散点图D.饼图答案：D（饼图适合展示各部分占总体的比例关系）12.在Python的scikit-learn中，训练逻辑回归模型时，若数据存在类别不平衡（正类占比5%），最有效的处理方法是？A.增加正则化参数CB.设置class_weight='balanced'C.对负类数据进行欠采样D.对正类数据进行标准化答案：B（class_weight参数可调整类别权重，缓解不平衡问题；欠采样需谨慎避免信息丢失）13.某业务需分析“用户购买频率”与“客单价”的相关性，应计算？A.卡方检验B.皮尔逊相关系数C.斯皮尔曼相关系数D.互信息答案：B（两个连续变量的线性相关分析用皮尔逊相关系数）14.以下哪项不是数据仓库（DW）与数据库（DB）的核心区别？A.数据用途：DW支持分析，DB支持事务B.数据模型：DW多为星型/雪花模型，DB多为第三范式C.数据更新：DW定期批量更新，DB实时增删改D.数据量：DW数据量更小，DB数据量更大答案：D（数据仓库通常存储历史数据，数据量远大于业务数据库）15.某电商用户行为表包含字段：user_id、behavior_type（点击/加购/购买）、item_id、time，若要计算“加购后购买”的转化率，需先计算？A.加购用户数/总用户数B.购买用户数/加购用户数C.购买次数/加购次数D.加购后购买的用户数/加购用户数答案：D（转化率通常基于用户级行为，需统计加购后至少购买一次的用户占比）二、简答题（每题6分，共30分）1.简述数据清洗中处理缺失值的主要方法及适用场景。答案：（1）删除法：包括删除缺失行或列。适用于缺失比例极低（如<5%）且缺失无规律性的场景，但可能损失信息。（2）填充法：统计量填充（均值/中位数/众数）：适用于数值型（均值/中位数）或分类型（众数）数据，缺失无特殊含义。模型填充（如KNN、回归预测）：适用于缺失值与其他变量有较强相关性时，精度较高但计算复杂。特殊值标记（如“未知”）：适用于缺失本身具有业务意义（如用户未填写信息），需后续分析。2.说明A/B测试中“统计功效（Power）”的含义及影响因素。答案：统计功效指当原假设不成立时，正确拒绝原假设的概率（即检测到真实差异的能力），通常要求≥0.8。影响因素包括：（1）样本量：样本量越大，功效越高；（2）效应量（实验组与对照组的差异大小）：差异越大，功效越高；（3）显著性水平（α）：α越大（如0.1vs0.05），功效越高；（4）数据方差：方差越小，功效越高（因标准误降低）。3.解释“辛普森悖论”及其在数据分析中的应对措施。答案：辛普森悖论指分组数据与整体数据的趋势相反的现象（如分组中A方案优于B，但整体B更优），通常由分组样本量不均衡或存在混杂变量（如用户特征差异）导致。应对措施：（1）识别潜在混杂变量（如用户年龄、地区），进行分层分析；（2）使用多元回归控制混杂变量；（3）确保分组时样本量均衡，或采用随机化实验（如A/B测试）减少偏差。4.列举Python中常用的数据分析库及其核心功能。答案：（1）pandas：数据清洗、转换、聚合，提供DataFrame结构处理表格数据；（2）numpy：高效数值计算，支持多维数组操作；（3）matplotlib/seaborn：数据可视化，绘制折线图、柱状图、热图等；（4）scikit-learn：机器学习算法（分类、回归、聚类），包含数据预处理（如标准化、特征选择）；（5）statsmodels：统计建模（线性回归、时间序列分析），提供详细统计检验结果。5.说明“用户分群（RFM模型）”的三个核心指标及业务意义。答案：RFM模型的三个指标：（1）最近一次消费（Recency）：用户最近一次购买的时间，反映用户活跃度；（2）消费频率（Frequency）：用户一定时间内的购买次数，反映用户忠诚度；（3）消费金额（Monetary）：用户累计消费金额，反映用户价值。业务意义：通过三个指标的组合（如高R高F高M为重要价值客户），将用户分群，针对性制定营销策略（如对重要客户提供专属服务，对低价值客户进行唤醒）。三、操作题（每题10分，共30分）1.（Python）给定以下DataFrame（df）：user_idagegenderpurchase_amount125男3002NaN女500330NaN200435女NaN528男400要求：（1）删除“purchase_amount”缺失的行；（2）用年龄的中位数填充“age”的缺失值；（3）将“gender”的缺失值标记为“未知”；（4）计算处理后数据的平均年龄和平均购买金额。答案：（1）df_clean=df.dropna(subset=['purchase_amount'])（2）age_median=df_clean['age'].median()df_clean['age']=df_clean['age'].fillna(age_median)（3）df_clean['gender']=df_clean['gender'].fillna('未知')（4）avg_age=df_clean['age'].mean()avg_purchase=df_clean['purchase_amount'].mean()结果：平均年龄≈27.5（25,28,30,35的中位数是29，填充后年龄为25,29,30,35，平均(25+29+30+35)/4=29.75）；平均购买金额=(300+500+200+400)/4=350。2.（SQL）某电商数据库有两张表：users（user_idINTPRIMARYKEY,register_timeDATETIME,cityVARCHAR(20)）orders（order_idINT,user_idINT,order_timeDATETIME,amountDECIMAL(10,2),FOREIGNKEY(user_id)REFERENCESusers(user_id)）要求查询2024年每个城市的“注册用户数”和“注册后30天内下单的用户数”（需关联两张表，结果按城市排序）。答案：SELECTu.city,COUNT(DISTINCTu.user_id)ASregister_users,COUNT(DISTINCTo.user_id)ASpaid_users_30dFROMusersuLEFTJOINordersoONu.user_id=o.user_idANDo.order_timeBETWEENu.register_timeANDDATE_ADD(u.register_time,INTERVAL30DAY)ANDo.order_time>='2024-01-01'ANDo.order_time<'2025-01-01'WHEREu.register_time>='2024-01-01'ANDu.register_time<'2025-01-01'GROUPBYu.cityORDERBYu.city;3.（统计学）某教育平台想验证“新推出的数学AI课程”是否能提升学提供绩。随机抽取100名学生，50人使用新课程（实验组），50人使用旧课程（对照组）。实验后，实验组平均成绩85分（标准差5），对照组平均成绩80分（标准差6）。假设数据服从正态分布，α=0.05，检验新课程是否有效。答案：步骤：（1）假设：H0（μ1≤μ2，新课程无提升）；H1（μ1>μ2，新课程有效）（2）计算t统计量：合并方差s²=((n1-1)s1²+(n2-1)s2²)/(n1+n2-2)=((49×25)+(49×36))/98=(1225+1764)/98=2989/98≈30.5标准误SE=√(s²(1/n1+1/n2))=√(30.5×(2/50))=√(1.22)≈1.104t=(85-80)/1.104≈4.53（3）自由度df=98，查t表单侧临界值≈1.66（α=0.05）（4）结论：t=4.53>1.66，p<0.05，拒绝H0，新课程能显著提升成绩。四、综合分析题（20分）某生鲜电商平台2024年Q2用户数据如下（部分字段）：user_idfirst_order_time（首次下单时间）last_order_time（最近下单时间）total_orders（累计订单数）avg_amount（客单价）is_churn（是否流失，1=是，0=否）10012024-04-052024-06-10585010022024-05-122024-05-15260110032024-04-012024-06-2081200..................平台定义“流失用户”为：最近60天无下单且累

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年数据分析师中级模拟考试试题集及答案

文档简介

温馨提示

最新文档

评论

2025年数据分析师中级模拟考试试题集及答案

文档简介

温馨提示

最新文档

评论

相关文档