版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2023统计岗招聘笔试数据分析题高频考题刷完进面
一、单项选择题,(每题2分,共20分)1.在描述性统计中,若一组数据的偏度系数为-0.8,则其分布形态最准确的表述是A.右偏B.左偏C.对称D.尖峰2.对同一总体进行重复抽样,样本均值的标准误差与样本量n的关系是A.与n成正比B.与n成反比C.与√n成正比D.与√n成反比3.在多元线性回归中,若某解释变量VIF=10,则通常认为A.不存在多重共线性B.存在轻微多重共线性C.存在严重多重共线性D.该变量必须被剔除4.下列关于p值的陈述正确的是A.p值越小,原假设为真的概率越大B.p值是原假设为真的概率C.p值是在原假设成立时,得到当前或更极端样本的概率D.p值与显著性水平α无关5.对时间序列做ADF检验,得到的τ统计量为-2.1,5%临界值为-2.9,则A.序列平稳B.序列不平稳C.无法判断D.需做协整检验6.在聚类分析中,若采用Ward法,其合并类的标准是A.最小距离B.最大距离C.最小类内平方和增量D.最大类间距离7.贝叶斯定理中,若先验概率P(A)=0.3,似然度P(B|A)=0.9,边缘概率P(B)=0.5,则后验概率P(A|B)为A.0.27B.0.54C.0.45D.0.608.对分类变量做卡方检验,要求期望频数A.全部大于0B.全部大于1C.80%以上大于5D.全部大于109.在A/B测试中,若实验组转化率提升2个百分点,但p=0.08,则A.拒绝原假设B.接受原假设C.功效不足D.需提高显著性水平10.使用Pythonpandas处理缺失值时,方法df.fillna(method='ffill')表示A.均值填充B.前后向填充C.仅向前填充D.仅向后填充二、填空题,(每题2分,共20分)11.若随机变量X~N(μ,σ²),则P(μ-1.96σ≤X≤μ+1.96σ)=________。12.在假设检验中,第一类错误概率的最大允许值称为________。13.对样本量n=100的数据做Bootstrap,通常重复抽样次数取________次以上。14.若回归方程ŷ=3+2x₁-0.5x₂,当x₁增加一个单位且x₂不变时,ŷ平均变化________。15.时间序列分解的乘法模型表达式为Y=T×S×C×________。16.在SQL中,计算用户次日留存率的窗口函数关键字是________。17.若混淆矩阵中TP=80,FN=20,则召回率recall=________。18.主成分分析中,第一主成分的方差贡献率等于其特征值除以所有特征值之________。19.在Excel中,对区域A1:A100求第90百分位应使用函数________。20.若样本比例p̂=0.4,n=400,则其标准误SE=________。三、判断题,(每题2分,共20分)21.当样本量趋于无穷大时,样本中位数一定是总体中位数的无偏估计。22.对右偏分布,均值大于中位数。23.在泊松回归中,因变量只能是计数型数据。24.若两个变量相关系数为0,则它们一定独立。25.使用K-means聚类前必须对变量做标准化。26.箱线图的上下边缘分别对应数据的95%与5%分位。27.在生存分析中,风险率函数与累积风险函数互为导数关系。28.若R²=0.9,则模型一定不存在过拟合。29.对分类变量做one-hot编码后,维度一定增加。30.在Excel中,数据透视表不能直接计算同比。四、简答题,(每题5分,共20分)31.简述中心极限定理的内容及其在数据分析中的作用。32.说明多重共线性对回归模型的具体影响,并给出两种检测方法。33.写出使用Python进行异常值检测的IQR法步骤,并指出其适用前提。34.解释A/B测试中“功效”(power)的概念,并说明如何通过实验设计提高功效。五、讨论题,(每题5分,共20分)35.某电商平台发现近30天GMV持续下滑,请设计一套数据分析框架,从数据获取、指标拆解、统计检验到业务建议,阐述完整思路。36.在构建用户流失预警模型时,如何平衡召回率与精确率?请结合业务代价讨论阈值选择策略。37.讨论在样本极度不平衡(正负比1:99)时,ROC曲线与PR曲线各自的优劣,并给出模型评估的改进方案。38.当业务方要求“模型必须可解释”时,列举三种可解释性技术,并比较它们在logistic回归与XGBoost上的应用差异。答案与解析一、1B2D3C4C5B6C7B8C9C10C二、110.9512显著性水平α13100014增加215I16LEAD170.818和19PERCENTILE.EXC200.0245三、21×22√23√24×25√26×27×28×29√30×四、31中心极限定理指出,从任意总体中抽取容量为n的随机样本,当n足够大时,样本均值的分布近似服从正态分布,其均值等于总体均值,方差为总体方差除以n。该定理使得在大样本下可用正态近似进行假设检验与置信区间估计,奠定了t检验、方差分析等推断统计的基础。32多重共线性会导致回归系数估计方差膨胀、t检验不显著、系数符号与业务矛盾、模型不稳定。检测方法:1.方差膨胀因子VIF>10为严重;2.特征根条件数CN>30表明存在共线。补救包括删除变量、主成分压缩、岭回归。33步骤:1.计算Q1、Q3;2.IQR=Q3-Q1;3.下限=Q1-1.5IQR,上限=Q3+1.5IQR;4.落在区间外即为异常。前提:数据近似单峰对称或轻度偏斜,对严重偏斜或含多个模态需改用其他方法。34功效=1-β,即原假设不成立时正确拒绝的概率。提高方法:增大样本量、提高显著性水平α、减小总体方差、采用更敏感指标、减少测量误差,也可通过配对设计或区组设计降低随机误差。五、35框架:1.数据获取:订单、流量、用户、竞品、外部事件;2.指标拆解:GMV=UV×转化率×客单价,再下钻品类、渠道、地域;3.可视化:同比环比、控制图;4.统计检验:对关键指标做t检验或Mann-WhitneyU检验,识别显著下跌节点;5.因果推断:双重差分或断点回归评估大促与政策影响;6.业务建议:补贴策略、流量重新分配、品类调整,并给出ROI预测。36代价矩阵:漏掉一名真实流失用户损失CLV=200元,误召回非流失用户成本20元。总期望代价=FN×200+FP×20,通过代价敏感学习或阈值移动,使f(p)=200×(1-recall)×FN_rate+20×(1-precision)×FP_rate最小,可用ROC上切线法或贝叶斯最优阈值求解,并动态监控。37ROC对类别不平衡不敏感,AUC易虚高;PR曲线直接反映正类性能,更具业务解释性。改进:1.采用F1、AUPRC;2.使用分层采样或SMOTE过采样;3.代价敏感损失加权;4.报告macro/micro平均;5.结合业务KPI设定最小可接受召回。38技术:1.SHAP值,给出每个特征对单次预
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年医院手术室安全管理实施方案
- 2026湖南人才市场有限公司选聘2人备考题库附参考答案详解(轻巧夺冠)
- 老旧小区管网改造施工组织设计方案
- 2025-2030智慧消防监控服务市场供给分析现代企业投资策略规划研究报告
- 2025-2030智慧水利灌溉系统遥感监测技术及节水管理新模式
- 2025-2030智慧景区项目投资机会挖掘及资金投入策略研究报告
- 2025-2030智慧旅游系统市场需求变化分析及投资产品完善规划研究报告
- 2025-2030智慧应急避难场所市场供需生命安全分析及公共安全投资
- 2025-2030智慧工业新城新能源行业市场市场发展现状分析及投资风险评估规划研究报告
- 2025-2030智慧室外行业市场供需特点分析及城市环境投资评估为主的计划报告
- 和谐婚姻家庭知识讲座
- 宠物腹部手术-胃切开术
- 宠物腹部手术-肠管侧壁切开术
- 2022-2023学年六年级下册综合实践活动茶与生活(说课稿)
- 丙戊酸镁缓释片及其制备工艺
- 警惕病从口入-课件
- 各大名校考博真题及答案心内科部分
- 中药与食物的关系药食同源
- 杭州电子科技大学-计算机学院-计算机科学与技术(学术)培养方案
- 新人教版五年级下册数学(新插图)练习六 教学课件
- GB/T 23901.2-2019无损检测射线照相检测图像质量第2部分:阶梯孔型像质计像质值的测定
评论
0/150
提交评论