版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年数据分析试题库及答案一、单项选择题(每题2分,共20分)1.以下哪项不属于结构化数据的典型特征?A.存储于二维表中B.具有明确的字段定义C.包含文本段落或图片D.可通过SQL直接查询答案:C2.某数据集的偏度(Skewness)为2.3,说明数据分布呈现:A.左偏(负偏态)B.右偏(正偏态)C.正态分布D.均匀分布答案:B3.对用户年龄字段进行异常值检测时,若采用IQR方法(四分位距),则异常值的判断阈值通常为:A.Q11.5IQR或Q3+1.5IQRB.均值±1倍标准差C.Q2±2倍IQRD.中位数±0.5倍标准差答案:A4.计算两组变量的相关关系时,若其中一组变量为定类数据(如性别:男/女),另一组为定距数据(如收入),最适合的相关系数是:A.Pearson相关系数B.Spearman秩相关系数C.点二列相关系数D.肯德尔τ系数答案:C5.在假设检验中,若原假设为H₀:μ=μ₀,备择假设为H₁:μ≠μ₀,当实际μ=μ₀但拒绝H₀时,发生的错误是:A.第一类错误(α错误)B.第二类错误(β错误)C.正确决策D.无法判断答案:A6.以下哪种数据可视化方式最适合展示不同类别的占比关系?A.折线图B.柱状图C.散点图D.饼图答案:D7.训练一个预测用户购买意愿的分类模型时,若样本中“购买”类仅占5%,最有效的处理方法是:A.直接使用原始数据训练B.对“未购买”类进行下采样C.对“购买”类进行上采样(SMOTE算法)D.增加正则化参数答案:C8.A/B测试中,若实验组与对照组的样本量差异超过30%,最可能导致:A.统计功效不足B.选择偏差C.辛普森悖论D.多重共线性答案:B9.数据仓库(DataWarehouse)的核心特征是:A.支持实时事务处理B.面向主题、集成、非易失、时变C.存储原始未加工数据D.采用列式存储答案:B10.某电商平台分析用户复购行为时,定义“复购用户”为“90天内购买次数≥2次”,这一过程属于:A.数据清洗B.指标定义C.特征工程D.模型验证答案:B二、填空题(每题2分,共20分)1.数据清洗中处理缺失值的常见方法包括删除记录、插补(如均值/中位数填充)和__________。答案:保留缺失值(或“视为独立类别”)2.SQL中,用于计算每个用户最近一次购买时间的窗口函数是__________(示例:ROW_NUMBER()OVER(PARTITIONBYuser_idORDERBYpurchase_timeDESC))。答案:LAST_VALUE(purchase_time)OVER(PARTITIONBYuser_idORDERBYpurchase_timeROWSBETWEENUNBOUNDEDPRECEDINGANDUNBOUNDEDFOLLOWING)3.Python中,使用Pandas库读取CSV文件的函数是__________。答案:pd.read_csv()4.若某变量的概率密度函数符合均值为μ、标准差为σ的正态分布,其概率密度函数表达式为__________(写出公式)。答案:f(x)=(1/(σ√(2π)))e^(-(x-μ)²/(2σ²))5.皮尔逊相关系数的取值范围是__________。答案:[-1,1]6.数据标准化(Z-score标准化)的计算公式为__________。答案:(xμ)/σ(其中μ为均值,σ为标准差)7.分类模型评估中,混淆矩阵的对角线元素表示__________。答案:正确分类的样本数8.时间序列的四大组成部分是趋势(Trend)、季节变动(Seasonality)、循环变动(Cycle)和__________。答案:随机波动(Irregularity)9.数据抽样方法中,将总体按某些特征分成若干层,从每层中独立抽样的方法称为__________。答案:分层抽样(StratifiedSampling)10.A/B测试中,原假设(H₀)通常定义为__________。答案:实验组与对照组的指标无显著差异三、简答题(每题6分,共60分)1.简述数据清洗的关键步骤及各步骤的主要任务。答案:数据清洗的关键步骤包括:(1)识别缺失值:通过统计各字段缺失率,标记缺失位置;(2)处理缺失值:根据业务场景选择删除、插补(均值/中位数/众数)或保留;(3)检测异常值:使用IQR、Z-score或箱线图等方法定位异常点,判断是否为记录错误或真实业务现象;(4)纠正数据错误:如日期格式错误、数值单位不一致等,通过正则表达式或函数转换修正;(5)处理重复值:识别完全重复或部分重复记录,根据业务需求去重或合并;(6)一致性检查:确保分类变量(如“性别”)的取值统一(如“男”“女”vs“M”“F”),通过映射表统一标准。2.如何判断一组数据是否服从正态分布?请列举至少3种方法。答案:(1)图形法:绘制直方图或QQ图,若直方图近似钟形对称,QQ图数据点大致呈直线,则可能服从正态分布;(2)统计检验法:使用Shapiro-Wilk检验(样本量≤5000)或Kolmogorov-Smirnov检验(大样本),若p值>显著性水平(如0.05),则不拒绝正态分布假设;(3)描述性统计量:计算偏度和峰度,正态分布的偏度≈0,峰度≈3(超额峰度≈0);(4)经验法则:约68%的数据在均值±1σ内,95%在±2σ内,99.7%在±3σ内,可通过实际数据占比验证。3.说明SQL中LEFTJOIN和INNERJOIN的区别,并举例说明应用场景。答案:LEFTJOIN(左连接)返回左表的所有记录,右表中匹配的记录;若右表无匹配,则右表字段值为NULL。INNERJOIN(内连接)仅返回左右表中匹配的记录。例如,分析用户订单数据时,左表为用户表(user_id,name),右表为订单表(order_id,user_id,amount):使用LEFTJOIN可获取所有用户的订单信息(包括未下单用户),而INNERJOIN仅获取已下单用户的记录。4.简述Python中Pandas处理重复值的常用方法。答案:(1)识别重复值:使用df.duplicated()方法,返回布尔Series,标记每行是否为重复行(默认判断所有列,可通过subset参数指定列);(2)删除重复值:使用df.drop_duplicates()方法,默认删除后续重复行,保留第一个出现的行;可通过keep参数设置保留“first”“last”或“False”(删除所有重复行);(3)自定义处理:若重复行需合并(如求和或取平均),可结合groupby和agg函数(如df.groupby('key').agg({'value':'sum'}))。5.数据可视化中,如何根据分析目标选择合适的图表类型?请举例说明。答案:(1)比较类别间差异:柱状图(如不同地区的销售额对比);(2)展示趋势变化:折线图(如月度活跃用户数变化);(3)分析分布特征:直方图(用户年龄分布)或箱线图(不同产品价格的分布范围);(4)显示比例关系:饼图(各产品销量占比)或堆叠柱状图(各地区不同产品的销量占比);(5)探索变量关系:散点图(广告投入与销售额的相关性);(6)展示地理分布:地图(各省份用户密度)。6.评估分类模型性能时,除准确率(Accuracy)外,还需关注哪些指标?为什么?答案:(1)精确率(Precision):衡量预测为正类的样本中实际为正类的比例,适用于“误判正类代价高”的场景(如垃圾邮件识别);(2)召回率(Recall):衡量实际正类样本中被正确预测的比例,适用于“漏判正类代价高”的场景(如疾病诊断);(3)F1分数:精确率和召回率的调和平均,平衡两者的综合表现;(4)AUC-ROC:反映模型在不同阈值下区分正负类的能力,适用于样本不平衡场景;(5)混淆矩阵:直观展示各类别的正确/错误分类情况,辅助定位模型弱点。7.时间序列预测的常用方法有哪些?各适用于什么场景?答案:(1)移动平均(MA):适用于无明显趋势和季节变动的平稳序列,通过近期数据的平均值平滑随机波动;(2)指数平滑(ETS):考虑历史数据的加权平均,权重随时间指数衰减,适用于有趋势或季节成分的序列(如Holt-Winters方法处理季节变动);(3)ARIMA:适用于平稳或可通过差分平稳的序列,通过自回归(AR)和移动平均(MA)项捕捉序列自相关性;(4)Prophet:Facebook开源模型,适用于含节假日、趋势变化的业务时间序列(如电商日活);(5)LSTM/Transformer:适用于复杂模式(如长周期依赖、非线性关系)的预测,需大量数据训练。8.设计数据埋点时需注意哪些关键事项?答案:(1)明确埋点目标:与业务目标对齐(如用户转化、页面停留),避免冗余埋点;(2)定义事件标准:统一事件命名(如“click_button”)、参数(如“button_id”“page_source”)和取值规范(如时间戳格式);(3)保证数据准确性:测试埋点逻辑(如点击事件是否漏传、参数是否完整),避免前端/后端埋点冲突;(4)考虑扩展性:预留自定义参数空间,适应未来业务变化(如新增活动标签);(5)合规性:遵守隐私法规(如GDPR),敏感信息(如用户ID)需脱敏处理;(6)埋点分层:区分核心事件(如支付成功)和辅助事件(如页面浏览),优先保证核心数据质量。9.如何分析用户流失问题?请描述关键步骤。答案:(1)定义流失标准:根据业务场景明确“流失用户”(如30天无活跃、取消订阅);(2)数据准备:提取用户基本属性(年龄、注册渠道)、行为数据(登录频率、交互深度)、流失标签;(3)探索性分析:对比流失用户与留存用户的特征差异(如平均使用时长、关键功能使用率),通过可视化(柱状图、箱线图)定位显著差异点;(4)归因分析:使用逻辑回归、决策树等模型识别影响流失的关键因素(如“近7天未使用某功能”的OR值);(5)验证假设:通过A/B测试验证优化策略(如针对高流失风险用户推送召回短信)的效果;(6)输出结论:提出针对性建议(如优化核心功能体验、调整运营策略)。10.A/B测试结果不显著(p值>0.05)可能的原因有哪些?如何应对?答案:可能原因:(1)样本量不足:统计功效(1-β)低,无法检测到实际存在的差异;(2)实验周期过短:未覆盖用户行为的完整周期(如电商大促需覆盖活动全周期);(3)指标波动大:目标指标本身方差高(如客单价),需延长实验时间或调整指标(如转化次数);(4)分组不均衡:实验组与对照组的用户特征(如新老用户比例)存在偏差,需检查随机分组逻辑;(5)干预效果真实不存在:实验策略无效,需重新设计方案;(6)多重检验问题:同时测试多个指标或多次查看结果,增加Ⅰ类错误概率。应对方法:(1)提前计算所需样本量(基于预期效应量、α、β);(2)确保实验周期覆盖业务场景的完整周期;(3)对高方差指标进行变换(如取对数)或使用分层抽样;(4)通过随机化检验验证分组均衡性;(5)若确认策略无效,需结合业务逻辑优化方案;(6)控制检验次数(如使用Bonferroni校正)。四、综合分析题(共20分)背景:某电商平台提供以下数据表格(均为2024年1-6月数据):用户表(user):user_id(用户ID)、reg_time(注册时间)、user_level(用户等级:1-5级)、is_vip(是否为会员:0/1)订单表(order):order_id(订单ID)、user_id、order_time(下单时间)、payment(支付金额)、is_refund(是否退款:0/1)行为日志表(behavior):user_id、event_time(事件时间)、event_type(事件类型:点击商品、加入购物车、支付成功)、product_id(商品ID)任务:请设计分析方案,回答以下问题:(1)计算2024年Q2(4-6月)的核心运营指标,包括:总销售额、付费用户数、客单价、退款率。(要求:明确指标定义及计算逻辑)(2)识别Q2期间“高价值用户”(需自定义标准),并分析其行为特征。(3)发现某商品(product_id=P001)在Q2的转化率(点击→支付成功)显著低于平台均值,需定位可能原因。答案要点:(1)核心指标计算:总销售额:筛选order表中order_time在2024-04-01至2024-06-30且is_refund=0的记录,求和payment;付费用户数:上述订单对应的去重user_id数量;客单价=总销售额/付费用户数;退款率=(Q2内is_re
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中生心理教育教案2025自我认同说课稿
- 2026新教材语文 统编版七年级语文下册第九讲分析小说人物教学课件
- Integration说课稿2025学年初中英语译林版2024七年级下册-译林版2024
- 2024年迈为股份设备租赁合同
- Lesson 1说课稿2025年小学英语三年级下册人教版(新起点)
- 精神科专科化心理治疗资源协同
- 精准医疗预约候诊优化
- 2026年新技术赋能学生自主学习能力培养的未来趋势
- 2026年养老机构消防安全与老人应急疏散培训课件
- 2026年狂犬病暴露预防处置门诊工作规范培训
- 2026海南万宁市招聘教师33人(1号)考试参考题库及答案解析
- DB37∕T 4978-2025 老年教育机构建设规范
- GB/T 20319-2017风力发电机组验收规范
- GB/T 17727-2008船用法兰非金属垫片
- GB/T 13017-2018企业标准体系表编制指南
- 短肠综合征-最新课件
- 基于PLC的工业洗衣机控制系统设计(完整资料)
- 屋面花架专项施工方案
- 硬笔字《灵飞经》临写课件
- DBJ51 052-2015 四川省养老院建筑设计规范
- 甲基丙烯酸甲酯生产工艺毕业设计-设备选型与布置
评论
0/150
提交评论