2025年数据分析师认证考试模拟试题及答案解析_第1页
已阅读1页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年数据分析师认证考试模拟试题及答案解析一、单项选择题(每题2分,共20分)1.某数据集的均值为35,中位数为30,该数据分布更可能呈现()A.左偏态(负偏态)B.右偏态(正偏态)C.正态分布D.均匀分布2.在假设检验中,若原假设为H₀:μ=μ₀,备择假设为H₁:μ≠μ₀,当样本量固定时,增大显著性水平α会导致()A.第一类错误概率降低,第二类错误概率升高B.第一类错误概率升高,第二类错误概率降低C.两类错误概率同时降低D.两类错误概率同时升高3.对某电商用户行为数据清洗时,发现“支付金额”字段存在-50元的记录,最合理的处理方式是()A.直接删除该条记录B.用该字段均值填充C.检查业务逻辑,确认是否为退款记录D.用相邻记录的中位数填充4.以下SQL语句中,能正确计算2024年10月各商品分类的平均客单价(客单价=总销售额/下单用户数)的是()A.SELECTcategory,AVG(sales_amount/user_count)ASavg_priceFROMorder_tableWHEREorder_dateBETWEEN'2024-10-01'AND'2024-10-31'GROUPBYcategory;B.SELECTcategory,SUM(sales_amount)/COUNT(DISTINCTuser_id)ASavg_priceFROMorder_tableWHEREorder_dateBETWEEN'2024-10-01'AND'2024-10-31'GROUPBYcategory;C.SELECTcategory,SUM(sales_amount)/COUNT(user_id)ASavg_priceFROMorder_tableWHEREorder_dateBETWEEN'2024-10-01'AND'2024-10-31'GROUPBYcategory;D.SELECTcategory,AVG(sales_amount)/AVG(user_id)ASavg_priceFROMorder_tableWHEREorder_dateBETWEEN'2024-10-01'AND'2024-10-31'GROUPBYcategory;5.两组变量的Pearson相关系数为0.85,但散点图显示二者关系为曲线型,此时最合理的结论是()A.变量间存在强线性相关关系B.相关系数被高估,需用Spearman相关系数重新计算C.变量间无实际关联D.样本量不足导致结果偏差6.某A/B测试中,实验组转化率为12%,对照组为10%,p值=0.03(α=0.05),以下结论正确的是()A.实验组转化率显著高于对照组,可推广方案B.因p值小于α,拒绝原假设,认为两组有差异C.需增大样本量重新测试,避免第一类错误D.转化率提升2%无实际业务价值,应忽略7.特征工程中,对“用户注册时间”(格式为'2024-01-1514:30:00')进行处理时,最不相关的衍生特征是()A.注册月份(1-12)B.注册时是否为周末C.注册到当前的天数D.注册IP地址的前三位8.某分类模型的混淆矩阵如下(行:真实类别,列:预测类别):正类负类正类8515负类2080该模型的F1分数为()A.0.85B.0.80C.0.829D.0.7699.时间序列分解中,若数据呈现每年12月销售额显著高于其他月份的规律,该部分属于()A.长期趋势(Trend)B.季节变动(Seasonality)C.循环变动(Cycle)D.随机波动(Irregular)10.数据可视化时,展示2020-2024年各季度某产品销售额变化趋势,最适合的图表是()A.热力图B.箱线图C.折线图D.散点图二、多项选择题(每题3分,共15分,少选得1分,错选不得分)1.数据清洗过程中,处理缺失值的常用方法包括()A.删除缺失比例超过80%的变量B.用变量均值填充数值型缺失值C.用KNN算法根据其他变量预测缺失值D.将缺失值单独作为一个类别(如“未知”)2.以下场景中,适合使用卡方检验的有()A.比较两组用户的性别分布是否有差异(性别:男/女)B.检验年龄(连续变量)与购买意愿(是/否)的相关性C.分析不同广告投放渠道(A/B/C)的转化率是否有差异D.验证某药物疗效(有效/无效)与患者血型(A/B/O/AB)的关联3.Python中,常用于数据探索性分析(EDA)的库或功能包括()A.pandas的describe()方法B.seaborn的pairplot()函数C.scikit-learn的train_test_split()D.matplotlib的hist()函数4.特征选择时,常用的过滤法(Filter)包括()A.互信息法(MutualInformation)B.递归特征消除(RFE)C.卡方检验D.随机森林的特征重要性5.设计用户留存率指标时,需考虑的关键因素有()A.留存周期(如次日留存、7日留存)B.用户首次行为定义(如注册、首次购买)C.数据统计口径(如是否去重)D.行业平均留存水平三、计算题(每题8分,共40分)1.某数据集的“年龄”字段数据如下(已排序):22,25,28,30,32,35,38,40,42,45。计算该数据的下四分位数(Q1)和上四分位数(Q3)。2.某电商用户行为表(user_behavior)包含字段:user_id(用户ID)、login_date(登录日期)、order_flag(是否下单,1=是,0=否)。已知2024年11月1日有1000名用户登录,其中700名用户在11月1日下单;11月2日有800名用户登录(其中500名是11月1日已登录用户),400名用户在11月2日下单。计算:(1)11月1日的登录用户次日留存率(留存定义为11月2日再次登录);(2)11月2日的新登录用户下单率(新登录用户指11月1日未登录的用户)。3.某数据库中有订单表(orders),字段包括order_id(订单ID)、user_id(用户ID)、order_time(订单时间)、amount(订单金额)。编写SQL语句,查询2024年第四季度(10-12月)每个用户的首单时间、末单时间及总消费金额(要求首单时间最早,末单时间最晚)。4.用简单线性回归模型预测某商品销量(Y)与广告投入(X)的关系,根据10组样本数据计算得:∑X=500,∑Y=1200,∑XY=65000,∑X²=30000,∑Y²=150000。计算回归方程的斜率b₁和截距b₀,并解释斜率的实际意义。5.某A/B测试中,对照组和实验组的样本量均为2000,对照组转化率为8%,实验组转化率为10%。计算两组转化率差异的Z统计量(Z=(p₁-p₂)/√[p(1-p)(1/n₁+1/n₂)],其中p=(n₁p₁+n₂p₂)/(n₁+n₂)),并判断在α=0.05(双侧检验)下是否显著(Z临界值为±1.96)。四、案例分析题(共25分)背景:某生鲜电商平台2024年Q4上线“次日达”配送功能,现需分析该功能对用户留存的影响。数据团队提供了以下数据表:用户表(users):user_id(用户ID),register_time(注册时间),is_new(是否新用户,1=是,0=否),device_type(设备类型,安卓/苹果)。行为表(behavior):user_id,action_time(行为时间),action_type(行为类型:浏览/加购/下单),function_used(是否使用“次日达”功能,1=是,0=否)。留存表(retention):user_id,retention_7d(7日留存,1=留存,0=未留存)。数据说明:7日留存定义为用户注册后7天内有至少一次登录行为;分析样本为2024年10月注册的用户,共10000人,其中5000人使用过“次日达”功能(实验组),5000人未使用(对照组);实验组与对照组的新用户比例、设备类型分布无显著差异(p>0.05)。问题:1.(5分)为验证“次日达”功能是否提升用户7日留存,需计算哪些核心指标?请列出指标定义及计算公式。2.(8分)假设实验组7日留存率为65%,对照组为55%,p值=0.01(α=0.05),请解释统计结果并给出业务结论。3.(6分)进一步分析发现,使用“次日达”的用户中,安卓用户留存率(70%)显著高于苹果用户(58%)(p=0.003),可能的原因有哪些?需补充哪些数据验证假设?4.(6分)若要构建预测用户7日留存的模型,需进行哪些特征工程步骤?请说明每个步骤的具体操作。答案及解析一、单项选择题1.答案:B解析:均值>中位数时,数据分布右偏(正偏态),右侧有较长尾巴,拉高水平均值。2.答案:B解析:α是第一类错误(弃真)的概率,增大α会降低拒绝原假设的门槛,导致第一类错误概率升高,同时第二类错误(取伪)概率降低(二者此消彼长)。3.答案:C解析:异常值需先结合业务逻辑判断,-50元可能是退款记录,直接删除或填充会丢失业务信息。4.答案:B解析:客单价=总销售额/下单用户数,总销售额用SUM(sales_amount),下单用户数用COUNT(DISTINCTuser_id)去重。5.答案:B解析:Pearson相关系数衡量线性相关,曲线关系下需用Spearman(基于秩次)或Kendall相关系数。6.答案:B解析:p值<α时拒绝原假设(原假设为两组无差异),但需结合业务意义判断是否推广(如提升2%是否覆盖成本)。7.答案:D解析:注册IP前三位与留存无直接关联,其他选项(月份、周末、注册时长)可能影响用户行为。8.答案:C解析:精确率P=85/(85+20)=0.8095,召回率R=85/(85+15)=0.85,F1=2PR/(P+R)=2×0.8095×0.85/(0.8095+0.85)=0.829。9.答案:B解析:季节变动指固定周期(如12个月)的规律性波动,循环变动周期不固定(如经济周期)。10.答案:C解析:折线图适合展示时间序列的趋势变化。二、多项选择题1.答案:ABCD解析:缺失值处理需根据缺失比例、变量类型选择方法,选项均为常用策略。2.答案:ACD解析:卡方检验用于分类变量间的独立性检验,B中年龄是连续变量,需用t检验或Logistic回归。3.答案:ABD解析:train_test_split用于划分训练集和测试集,不属于EDA。4.答案:AC解析:过滤法基于统计量筛选特征(如互信息、卡方),RFE(包裹法)和随机森林重要性(嵌入法)属于其他类别。5.答案:ABC解析:留存率设计需明确周期、首次行为和统计口径,行业水平是参考而非设计因素。三、计算题1.解析:数据共10个,n=10,Q1位置=(10+1)/4=2.75,Q1=第2个数+0.75×(第3个数-第2个数)=25+0.75×(28-25)=27.25;Q3位置=3×(10+1)/4=8.25,Q3=第8个数+0.25×(第9个数-第8个数)=40+0.25×(42-40)=40.5。2.解析:(1)次日留存率=11月2日登录且11月1日登录的用户数/11月1日登录用户数=500/1000=50%;(2)11月2日新登录用户=800-500=300人,新用户下单率=新用户中下单数/新用户数。11月2日总下单400人,其中可能包含11月1日已登录用户的下单数,但题目未明确,假设400人全为新用户下单(或需补充说明),则下单率=400/300≈133.3%(不合理,实际应明确“新用户下单数”,正确应为:若11月2日下单用户中有x名是新用户,则下单率=x/300。题目可能存在表述歧义,按合理假设,正确计算应为新用户下单数=400(11月1日登录且11月2日下单的用户数),但题目未提供,故可能题目简化为400/300≈133.3%,但实际应修正为“假设400名下单用户中,300名是新用户”,则下单率=300/300=100%。需根据题目意图调整,此处可能为出题疏漏,正确思路是区分新老用户下单数。3.SQL语句:SELECTuser_id,MIN(order_time)ASfirst_order_time,MAX(order_time)ASlast_order_time,SUM(amount)AStotal_amountFROMordersWHEREorder_timeBETWEEN'2024-10-01'AND'2024-12-31'GROUPBYuser_id;4.解析:n=10,X̄=500/10=50,Ȳ=1200/10=120;b₁=(n∑XY∑X∑Y)/(n∑X²(∑X)²)=(10×65000500×1200)/(10×30000500²)=(650000-600000)/(300000-250000)=50000/50000=1;b₀=Ȳb₁X̄=1201×50=70;回归方程:Y=70+1X,斜率表示广告投入每增加1单位,销量平均增加1单位。5.解析:p=(2000×0.08+2000×0.10)/(2000+2000)=(160+200)/4000=360/4000=0.09;Z=(0.10-0.08)/√[0.09×(1-0.09)×(1/2000+1/2000)]=0.02/√[0.0819×0.001]=0.02/0.00905≈2.21;Z=2.21>1.96,拒绝原假设,差异显著。四、案例分析题1.核心指标:实验组7日留存率=实验组留存用户数/实验组总用户数×100%;对照组7日留存率=对照组留存用户数/对照组总用户数×100%;留存率提升幅度=(实验组留存率-对照组留存率)/对照组留存率×100%;绝对差异=实验组留存率-对照组留存率。2.统计结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论