2025年数据分析师专业技能测试题库及答案集_第1页
2025年数据分析师专业技能测试题库及答案集_第2页
2025年数据分析师专业技能测试题库及答案集_第3页
2025年数据分析师专业技能测试题库及答案集_第4页
2025年数据分析师专业技能测试题库及答案集_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年数据分析师专业技能测试题库及答案集一、数据清洗与预处理(共5题)1.某电商平台用户行为数据集包含以下字段:user_id(用户ID)、event_time(事件时间,格式为"2024-11-20T14:30:45.000Z")、event_type(事件类型:view/click/purchase)、product_id(商品ID)、price(商品价格,部分记录为"NaN"或"¥99.9")、category_id(品类ID)。请列出针对该数据集需完成的5项关键清洗步骤,并说明每项步骤的具体处理方法。答案:(1)时间格式标准化:使用Pandas的to_datetime函数将event_time字段转换为datetime64[ns]类型,提取时区信息(若统一为UTC则无需额外处理),确保后续时间序列分析的准确性。(2)缺失值处理:对price字段的"NaN"缺失值,若缺失比例<5%,采用同品类商品价格的中位数填充;若缺失比例>30%且为关键分析指标(如客单价计算),则剔除对应记录。(3)货币符号清洗:针对price字段的"¥99.9"格式,使用正则表达式替换(如str.replace(r'¥','',regex=True))去除货币符号,转换为float类型。(4)异常值检测与修正:对price字段进行IQR分析(计算Q1=25%分位数,Q3=75%分位数,IQR=Q3-Q1),定义异常值为<Q1-1.5IQR或>Q3+1.5IQR的记录,结合业务判断(如是否存在奢侈品类目)决定保留或修正(修正为Q3+1.5IQR)。(5)事件类型校验:检查event_type是否仅包含"view/click/purchase",若存在其他值(如"add_to_cart"),需确认是否为数据采集错误,若是则统一映射为标准类型或标记为异常。2.某医疗数据集包含患者年龄字段,部分记录显示为"0"或"150",其余为正常数值(18-90)。请设计两种检测该字段异常值的方法,并说明如何处理这些异常值。答案:检测方法:(1)统计检验法:计算年龄字段的均值(μ)和标准差(σ),定义异常值为|x-μ|>3σ的记录(3σ原则)。(2)业务规则法:根据医学常识,设定合理年龄范围(如18-120岁),超出该范围的记录标记为异常。处理方法:(1)对于"0"值:若为新生儿记录(需结合其他字段如"is_newborn"判断),保留并标注;若无关联字段,视为数据录入错误,剔除或用同科室患者年龄的中位数填充。(2)对于"150"值:明显超出人类寿命极限,判定为录入错误,若缺失比例<2%则剔除;若需保留,用该字段99%分位数(如95岁)替代。二、SQL查询(共5题)3.已知用户订单表orders(order_id,user_id,order_time,total_amount)和用户信息表users(user_id,register_time,city),要求计算2024年Q3每个城市的新用户首单转化率(新用户定义为2024年Q3注册的用户,首单指注册后7天内的第一笔订单)。答案:```sqlWITHnew_usersAS(SELECTuser_id,cityFROMusersWHEREregister_timeBETWEEN'2024-07-01'AND'2024-09-30'),first_ordersAS(SELECTo.user_id,MIN(o.order_time)ASfirst_order_timeFROMordersoJOINnew_usersnuONo.user_id=nu.user_idWHEREo.order_time>=nu.register_timeANDo.order_time<=nu.register_time+INTERVAL'7days'GROUPBYo.user_id)SELECTnu.city,COUNT(DISTINCTfo.user_id)ASconverted_users,COUNT(DISTINCTnu.user_id)AStotal_new_users,COUNT(DISTINCTfo.user_id)::FLOAT/COUNT(DISTINCTnu.user_id)ASconversion_rateFROMnew_usersnuLEFTJOINfirst_ordersfoONnu.user_id=fo.user_idGROUPBYnu.city;```4.某视频平台用户行为表action(user_id,video_id,action_time,action_type:'play'/'pause'/'share'),要求找出2024年10月每个用户的最长连续播放时长(连续播放定义为两次play操作间隔≤30秒,且中间无pause操作)。答案:```sqlWITHplay_eventsAS(SELECTuser_id,video_id,action_time,按用户和视频分组,计算前一次play时间LAG(action_time)OVER(PARTITIONBYuser_id,video_idORDERBYaction_time)ASprev_play_timeFROMactionWHEREaction_type='play'ANDaction_timeBETWEEN'2024-10-01'AND'2024-10-31'),grouped_playsAS(SELECTuser_id,video_id,action_time,间隔>30秒或无前次记录时标记为新组SUM(CASEWHENprev_play_timeISNULLORaction_timeprev_play_time>INTERVAL'30seconds'THEN1ELSE0END)OVER(PARTITIONBYuser_id,video_idORDERBYaction_time)ASgroup_idFROMplay_events)SELECTuser_id,MAX(MAX(action_time)MIN(action_time))OVER(PARTITIONBYuser_id)ASmax_continuous_playFROMgrouped_playsGROUPBYuser_id,video_id,group_id;```三、统计学与数据分析(共5题)5.某电商开展A/B测试,实验组(新推荐算法)GMV均值为120元,对照组(原算法)为110元,两组样本量均为1000,标准差分别为30元和28元。请判断两组GMV是否存在显著差异(α=0.05),并说明计算过程。答案:采用双样本t检验(独立样本,方差不齐):(1)计算t统计量:t=(μ1μ2)/sqrt(s1²/n1+s2²/n2)=(120-110)/sqrt(30²/1000+28²/1000)≈10/sqrt(0.9+0.784)≈10/1.299≈7.69(2)计算自由度(Welch-Satterthwaite近似):df≈(s1²/n1+s2²/n2)²/[(s1²/n1)²/(n1-1)+(s2²/n2)²/(n2-1)]=(0.9+0.784)²/[(0.81/999)+(0.784²/999)]≈(2.835)/(0.00081+0.000615)≈2.835/0.001425≈1990(3)查t分布表,df=1990时,双侧检验α=0.05的临界值约为1.96。计算得到的t=7.69>1.96,p值<0.001,拒绝原假设,认为两组GMV存在显著差异。6.某App用户日活跃数(DAU)时间序列呈现明显季节性(周周期)和趋势性增长,现需预测未来30天DAU。请说明应选择的预测模型及关键步骤。答案:应选择SARIMA(季节性自回归移动平均模型)或Prophet模型(Facebook开源时间序列预测工具,适用于含季节因素的场景)。以SARIMA为例:(1)数据预处理:检查并处理缺失值(用线性插值填充),转换为日频时间序列。(2)平稳性检验:使用ADF检验,若不平稳则进行差分(d阶)或季节性差分(D阶)。(3)确定季节周期:观察ACF/PACF图,确认周周期(m=7)。(4)模型定阶:通过ACF/PACF图或AIC/BIC准则确定参数(p,d,q)(P,D,Q,m),如SARIMA(1,1,1)(1,1,1,7)。(5)模型训练与验证:使用前80%数据训练,后20%验证,计算MAE/RMSE评估精度。(6)预测:利用最优模型预测未来30天DAU,输出点预测值及置信区间。四、机器学习基础(共5题)7.某金融风控场景需构建用户逾期预测模型,样本分布为非逾期(95%)、逾期(5%)。请说明需采取的3项关键策略,并解释原因。答案:(1)数据层面:采用SMOTE(合成少数类过采样技术)对逾期样本进行过采样,提供新的合成样本,平衡类别分布(如将比例调整为8:2),避免模型因样本不平衡而偏向多数类。(2)模型层面:选择对不平衡数据鲁棒的算法(如XGBoost、LightGBM),并设置参数scale_pos_weight=正类样本数/负类样本数(如0.05/0.95≈0.0526),调整误分类成本,增加逾期样本的错误分类惩罚。(3)评估指标:放弃准确率(Accuracy),改用F1-score(综合精确率和召回率)、AUC-ROC(衡量模型区分能力)或PR曲线(关注正类预测性能),更准确评估模型对逾期用户的识别能力。8.某图像分类模型在训练集上准确率为98%,验证集上为75%。请分析可能原因及解决方法。答案:可能原因:模型过拟合(过度学习训练集噪声或特定模式,泛化能力差)。解决方法:(1)正则化:增加L1/L2正则化项(如在神经网络中设置weight_decay参数,在树模型中限制max_depth、min_child_weight)。(2)数据增强:对训练数据进行旋转、翻转、裁剪等操作,增加数据多样性,减少模型对特定特征的依赖。(3)早停法(EarlyStopping):在验证集准确率不再提升时提前终止训练,避免过拟合。(4)简化模型:减少神经网络层数/神经元数量,或降低树模型的复杂度(如减少决策树的分裂次数)。(5)交叉验证:采用k折交叉验证(如5折),更可靠评估模型泛化能力,避免因随机划分导致的验证集偏差。五、数据可视化与业务分析(共5题)9.某社交App需展示2024年用户增长趋势(按月)、不同渠道(应用商店/广告投放/自然流量)的用户占比,以及高活跃用户(月登录≥15天)的地域分布(省级)。请为每个分析目标选择最合适的图表类型,并说明设计要点。答案:(1)用户增长趋势:选择折线图(X轴为月份,Y轴为用户数)。设计要点:标注关键时间节点(如大促活动、功能更新),添加趋势线(如指数拟合线)辅助观察增长模式;使用平滑曲线(非折线)提升可读性。(2)渠道占比:选择环形图(替代饼图,突出中心区域可添加总用户数)。设计要点:按占比降序排列渠道,标注具体百分比(保留1位小数);对占比<5%的渠道合并为“其他”类别,避免图表杂乱。(3)地域分布:选择分级统计图(ChoroplethMap,中国地图填充省级高活跃用户数)。设计要点:使用连续色阶(如从浅蓝到深蓝表示用户数递增),标注省级名称及具体数值;添加图例说明色阶范围,避免颜色误导(如避免使用红绿色盲友好的配色)。10.某奶茶品牌2024年Q4销售额同比下降15%,作为数据分析师需输出分析报告。请列出需分析的5个核心维度,并说明每个维度的分析方法。答案:(1)产品维度:按产品类别(奶茶/果茶/小料)计算销售额占比及同比变化,使用帕累托图识别关键滞销产品;分析TOP10单品的销量/单价变化,结合用户评价(文本分析)定位口味/质量问题。(2)用户维度:计算新客增长率(新客数同比)、老客复购率(月复购≥2次的老客占比),通过RFM模型(最近购买时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论