2025年数据分析师认证考试模拟题库及答案

上传人：1*** IP属地：四川上传时间：2026-05-19 格式：DOCX 页数：18 大小：27.06KB 积分：12 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年数据分析师认证考试模拟题库及答案一、单项选择题（每题2分，共20分）1.某电商平台用户行为数据中，“支付时间”字段存在“2024-02-30”“2024-13-05”等记录，此类异常属于：A.逻辑错误型异常B.数值型异常C.格式型异常D.缺失型异常答案：A（解析：日期字段中月份超过12或日期超过当月最大天数，属于逻辑规则冲突的异常）2.对某连续变量进行Z-score标准化后，若某样本的Z值为2.5，总体标准差为3，均值为10，则该样本原始值为：A.17.5B.15.5C.12.5D.7.5答案：A（解析：Z=(X-μ)/σ→X=Zσ+μ=2.53+10=17.5）3.以下哪项最适合用箱线图展示？A.2023年各月份销售额趋势B.不同地区用户年龄分布的离散程度C.产品类别与复购率的相关性D.广告投放渠道的转化率对比答案：B（解析：箱线图主要用于展示数据分布的离散程度和异常值，适合比较多组数据的分布差异）4.SQL语句中，若要计算每个用户最近一次购买时间（按订单时间降序），应使用的窗口函数是：A.ROW_NUMBER()B.RANK()C.DENSE_RANK()D.LAST_VALUE()答案：A（解析：ROW_NUMBER()可按排序提供唯一序号，配合OVER(PARTITIONBYuser_idORDERBYorder_timeDESC)取序号1的记录即为最近一次购买时间）5.在Python中，使用pandas处理DataFrame时，若要将“性别”列的“男/女”转换为数值1/0，最优方法是：A.df['性别']=df['性别'].apply(lambdax:1ifx=='男'else0)B.df['性别']=df['性别'].map({'男':1,'女':0})C.df['性别']=np.where(df['性别']=='男',1,0)D.以上方法效率相同答案：B（解析：map方法针对字典映射的转换效率高于apply和np.where，尤其在数据量大时性能更优）6.某数据集偏度系数为-1.2，说明数据分布：A.左偏（负偏），均值小于中位数B.左偏，均值大于中位数C.右偏（正偏），均值小于中位数D.右偏，均值大于中位数答案：A（解析：偏度为负时，数据左偏，长尾在左侧，均值受左侧极端值影响小于中位数）7.进行A/B测试时，若将对照组和实验组的用户按注册时间分层抽样，主要目的是：A.提高统计检验效力B.控制混杂变量（如注册时间对结果的影响）C.减少样本量需求D.简化实验流程答案：B（解析：分层抽样通过将影响结果的关键变量（如注册时间）分层，确保两组在该变量上分布一致，避免其成为混杂因素）8.某模型预测用户流失的混淆矩阵如下（实际流失/未流失为行，预测为列）：预测流失预测未流失实际流失8020实际未流失30170则模型的精确率（Precision）为：A.80/(80+20)=0.8B.80/(80+30)=0.727C.(80+170)/(80+20+30+170)=0.9D.80/(80+20+30+170)=0.267答案：B（解析：精确率=TP/(TP+FP)=80/(80+30)=0.727）9.以下哪项不属于特征工程中的降维方法？A.主成分分析（PCA）B.线性判别分析（LDA）C.互信息（MutualInformation）D.t-分布邻域嵌入（t-SNE）答案：C（解析：互信息用于衡量特征与目标变量的相关性，属于特征选择方法，而非降维）10.某时间序列数据的ACF（自相关函数）在滞后1阶显著，滞后2阶及以上不显著，PACF（偏自相关函数）在滞后1-3阶显著，最可能的模型是：A.AR(3)B.MA(1)C.ARMA(1,3)D.ARIMA(1,0,1)答案：A（解析：AR模型的PACF在p阶后截尾，ACF拖尾；MA模型的ACF在q阶后截尾，PACF拖尾。本题PACF滞后1-3阶显著，符合AR(3)特征）二、多项选择题（每题3分，共15分，少选得1分，错选不得分）1.数据清洗过程中，处理缺失值的常用方法包括：A.删除缺失值超过阈值的列B.用均值/中位数填充数值型变量C.用众数填充分类型变量D.构建模型预测缺失值答案：ABCD（解析：四种方法均为缺失值处理的常规手段，需根据数据特点选择）2.以下关于假设检验的描述正确的是：A.显著性水平α是犯I型错误的概率B.增大样本量可同时降低I型和II型错误概率C.若p值<α，则拒绝原假设D.原假设通常为“无差异”或“无效果”答案：ABCD（解析：所有选项均符合假设检验的基本概念）3.SQL中，关于JOIN操作的描述正确的是：A.INNERJOIN返回两表匹配的行B.LEFTJOIN返回左表所有行，右表不匹配的部分用NULL填充C.FULLOUTERJOIN可能产生大量NULL值D.CROSSJOIN会提供两表行数的笛卡尔积答案：ABCD（解析：四者均为JOIN操作的正确描述）4.Python中，使用sklearn进行逻辑回归模型训练时，以下操作正确的是：A.对分类型特征进行独热编码（One-HotEncoding）B.对数值型特征进行标准化（StandardScaler）C.用GridSearchCV进行超参数调优D.用R²作为模型评估指标答案：ABC（解析：逻辑回归是分类模型，评估指标应为准确率、AUC等，R²用于回归模型）5.分析用户生命周期价值（LTV）时，需考虑的核心指标包括：A.客户获取成本（CAC）B.平均订单价值（AOV）C.客户留存率（RetentionRate）D.复购频率（RepeatPurchaseRate）答案：BCD（解析：LTV计算通常基于历史购买数据，核心是客户在生命周期内的收入贡献，CAC是成本指标，不直接影响LTV计算但用于评估盈利性）三、简答题（每题8分，共40分）1.简述数据清洗的主要步骤及各步骤的目的。答案：数据清洗主要包括以下步骤：（1）识别缺失值：通过isnull()、sum()等方法统计各字段缺失比例，明确需要处理的对象；（2）处理缺失值：根据业务意义选择删除（缺失率过高）、填充（均值/中位数/众数、插值法、模型预测）等方式，避免信息丢失；（3）检测异常值：使用Z-score、IQR、箱线图等方法识别偏离正常范围的数据点，判断是记录错误（修正/删除）还是真实极端值（保留）；（4）纠正数据格式：统一日期格式（如“2024/02/01”改为“2024-02-01”）、数值类型（如“1,000”转为1000），确保后续计算正确；（5）处理重复值：通过drop_duplicates()删除完全重复的记录，避免重复数据影响统计结果；（6）一致性检查：验证逻辑矛盾（如“出生日期”晚于“注册时间”），修正或标记异常。2.解释混淆矩阵中准确率（Accuracy）、精确率（Precision）、召回率（Recall）的区别，并说明在“预测癌症患者”场景中更关注哪个指标。答案：准确率=（TP+TN）/(TP+TN+FP+FN)，表示整体预测正确的比例；精确率=TP/(TP+FP)，表示预测为正类的样本中实际为正类的比例（关注“预测阳性的可靠性”）；召回率=TP/(TP+FN)，表示实际正类样本中被正确预测的比例（关注“漏诊率”）。在癌症预测场景中，漏诊（FN）会导致患者错过治疗，后果严重，因此更关注召回率，需尽可能提高模型识别真实阳性的能力。3.写出SQL语句实现以下需求：统计2023年每个月份，各商品类别（category）的总销售额（sales）及销售额环比增长率（与上月相比）。答案：WITHmonthly_salesAS(SELECTDATE_TRUNC('month',order_date)ASmonth,category,SUM(sales)AStotal_salesFROMordersWHEREorder_dateBETWEEN'2023-01-01'AND'2023-12-31'GROUPBYmonth,category)SELECTmonth,category,total_sales,(total_salesLAG(total_sales)OVER(PARTITIONBYcategoryORDERBYmonth))/LAG(total_sales)OVER(PARTITIONBYcategoryORDERBYmonth)ASmom_growthFROMmonthly_sales;解析：使用CTE先计算每月各品类的总销售额，再通过LAG窗口函数获取上月销售额，计算环比增长率。4.简述Python中使用pandas进行特征衍生的常见方法（至少4种），并举例说明。答案：（1）时间特征提取：从“订单时间”字段提取月份、周几、是否为周末等（如df['month']=df['order_time'].dt.month）；（2）比率/差值特征：计算“客单价”=总销售额/订单量（df['avg_price']=df['total_sales']/df['order_count']）；（3）分箱（分桶）：将连续年龄分为“0-18”“19-30”等区间（pd.cut(df['age'],bins=[0,18,30,50,100])）；（4）滞后特征：获取用户前一次购买时间间隔（df['last_order_gap']=df['order_time']df.groupby('user_id')['order_time'].shift(1)）；（5）独热编码：将分类型变量“支付方式”（支付宝、微信、银行卡）转换为虚拟变量（pd.get_dummies(df['payment_method'])）。5.某短视频APP发现近30日用户日均使用时长下降5%，请设计分析思路（需包含数据验证、维度拆解、原因假设及验证方法）。答案：（1）数据验证：确认数据口径（如是否包含新用户/老用户、是否覆盖全平台）、检查埋点日志是否异常（如“退出时间”字段缺失导致时长计算错误）；（2）维度拆解：按用户属性（新/老用户、年龄、地区）、行为（观看类型：短视频/直播、互动行为：点赞/评论）、时间（分时段：早/中/晚）拆解，定位具体下降群体；（3）原因假设与验证：假设1：新用户留存率下降→验证：对比30日前与当前的7日留存率，分析注册流程是否优化（如加载时长增加）；假设2：内容质量下降→验证：计算优质内容（完播率>80%）占比，对比历史数据；分析用户反馈（评论、客服记录）是否提及“内容重复”；假设3：竞品分流→验证：获取第三方数据（如QuestMobile）查看竞品同期用户增长情况，分析是否有大型活动（如某竞品推出独家剧集）；假设4：功能更新影响→验证：查看版本更新时间点，对比更新前后各功能使用时长（如“搜索”“关注页”时长是否下降）。四、实操题（共25分）【背景】某电商平台提供以下用户行为数据（表名：user_behavior），字段包括：user_id（用户ID）、behavior_type（行为类型：1=浏览，2=收藏，3=加购，4=购买）、item_id（商品ID）、time（行为时间，格式：2023-10-0114:30:00）。任务1（10分）：用SQL计算2023年10月的月活用户数（MAU）、该月新用户的次日留存率（新用户定义为2023年10月首次活跃的用户）。答案：月活用户数SELECTCOUNT(DISTINCTuser_id)ASmauFROMuser_behaviorWHEREtimeBETWEEN'2023-10-0100:00:00'AND'2023-10-3123:59:59';新用户次日留存率WITHfirst_activeAS(SELECTuser_id,MIN(DATE(time))ASfirst_dateFROMuser_behaviorWHEREDATE(time)BETWEEN'2023-10-01'AND'2023-10-31'GROUPBYuser_id),retained_usersAS(SELECTfa.user_id,COUNT(DISTINCTub.user_id)ASis_retainedFROMfirst_activefaLEFTJOINuser_behaviorubONfa.user_id=ub.user_idANDDATE(ub.time)=fa.first_date+INTERVAL1DAYGROUPBYfa.user_id)SELECTCOUNT(DISTINCTfa.user_id)ASnew_users,COUNT(DISTINCTCASEWHENru.is_retained>0THENfa.user_idEND)ASretained_users,COUNT(DISTINCTCASEWHENru.is_retained>0THENfa.user_idEND)1.0/COUNT(DISTINCTfa.user_id)ASretention_rateFROMfirst_activefaLEFTJOINretained_usersruONfa.user_id=ru.user_id;任务2（15分）：用Python编写代码，基于该数据完成以下操作（要求输出关键步骤注释）：（1）读取CSV文件（路径：'user_behavior.csv'），并将time字段转换为datetime类型；（2）计算每个用户的“购买转化率”（购买行为次数/总行为次数），并筛选转化率TOP10的用户；（3）绘制“行为类型”的分布饼图，要求添加百分比标签，标题为“2023年10月用户行为类型分布”。答案：importpandasaspdimportmatplotlib.pyplotasplt（1）读取数据并转换时间格式df=pd.read_csv('user_behavior.csv')df['time']=pd.to_datetime(df['time'])转换为datetime类型（2）计算购买转化率并筛选TOP10用户统计每个用户各行为类型的次数behavior_counts=df.groupby('user_id')['behavior_type'].value_counts().unst

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年数据分析师认证考试模拟题库及答案

文档简介

温馨提示

最新文档

评论

相关文档