版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年大学统计学期末考试题库—抽样调查方法与数据挖掘试题及答案一、单项选择题(每题2分,共20分)1.在分层抽样中,若各层样本量按“层内方差越大、样本越多”的原则分配,则该分配方式称为A.比例分配B.内曼分配C.等额分配D.最优分配答案:B解析:内曼分配(Neymanallocation)公式为n_h∝N_hS_h,即层内方差S_h越大,该层样本量n_h越多,可使估计量方差最小。2.使用决策树做分类时,若某节点纯度已无法继续提升,则该节点应标记为A.根节点B.内部节点C.叶节点D.虚拟节点答案:C解析:纯度无法继续提升意味着无需再划分,成为叶节点并赋予类别标签。3.在简单随机抽样中,若总体大小N=1200,样本量n=60,则样本包含概率π_i为A.0.02B.0.05C.0.5D.1答案:B解析:π_i=n/N=60/1200=0.05。4.对高维稀疏文本数据,下列哪种距离度量最易受“零膨胀”影响而失真A.余弦相似度B.曼哈顿距离C.欧氏距离D.杰卡德距离答案:C解析:欧氏距离在零元素极多时,差异被大量“0”稀释,导致判别力下降。5.在聚类评估中,若已知真实标签,则可使用A.轮廓系数B.Calinski-Harabasz指数C.调整兰德指数(ARI)D.戴维森堡丁指数答案:C解析:ARI需要外部真实标签,衡量聚类与真实划分的一致性。6.使用bootstrap估计比率估计量方差时,重抽样次数B通常建议A.20B.50C.200D.2000答案:D解析:现代计算条件下B≥2000可使bootstrap方差估计稳定。7.在PPS抽样中,单元入样概率与辅助变量x_i成比例,若x_i出现极端大值,则可能导致A.估计量方差为零B.估计量偏倚C.设计效应小于1D.某些单元被重复抽中答案:B解析:极端大值使少数单元权重极大,若其y值异常,会放大偏倚。8.随机森林中,对每棵树节点分裂所用候选变量数mtry,若分类任务变量总数p=40,则默认mtry为A.2B.6C.20D.40答案:B解析:R语言randomForest默认mtry=sqrt(p)=√40≈6。9.在抽样调查中,回答率随问卷长度增加而下降,该现象属于A.测量误差B.覆盖不足C.无回答误差D.抽样框误差答案:C解析:问卷过长导致拒答,属于无回答误差来源。10.使用K-means对数据{x_1,…,x_n}聚类,若初始中心落在同一真实簇内,则算法可能A.收敛到全局最优B.出现空簇C.收敛到局部最优D.不收敛答案:C解析:K-means对初值敏感,可能陷入局部最优。二、多项选择题(每题3分,共15分,多选少选均不得分)11.下列哪些技术可有效降低整群抽样设计效应A.增大群内样本量B.减少群规模C.采用事后分层D.使用辅助变量回归估计答案:BCD解析:减少群规模可降低群内相关;事后分层与回归估计可提高精度;增大群内样本量反而可能增加设计效应。12.关于SMOTE算法,正确的是A.对少数类随机插值生成新样本B.会改变多数类分布C.可降低过拟合风险D.适用于连续与离散混合变量答案:AC解析:SMOTE仅合成少数类,不改变多数类;对离散变量需改进算法如SMOTE-NC。13.在复杂抽样设计中,下列哪些量需通过加权估计A.总体总量B.总体均值C.回归系数D.样本方差答案:ABC解析:复杂抽样需用权重w_i=1/π_i估计总量、均值及模型参数;样本方差为描述性统计,不需推断总体。14.使用LASSO做变量选择时,增大惩罚参数λ可导致A.更多变量系数被压缩至零B.训练集RSS单调不减C.测试集预测误差一定下降D.模型方差降低答案:ABD解析:λ增大,变量被剔除,训练误差上升但模型方差下降;测试误差呈U型,不一定下降。15.在抽样权重校准(calibration)中,可用作辅助信息的变量需满足A.总体总量已知B.与目标变量相关C.与inclusionprobability独立D.无测量误差答案:AB解析:校准需已知总体总量且与目标变量相关,其余非必须。三、判断题(每题2分,共10分,正确打“√”,错误打“×”)16.在拒绝抽样中,若提案分布g(x)与目标分布f(x)形状差异大,则接受概率低,效率下降。答案:√解析:接受概率α=f(x)/[Mg(x)],形状差异大导致M需大,α降低。17.使用K-fold交叉验证时,K越大,偏差一定越小,方差一定越大。答案:×解析:K增大,训练集比例增高,偏差减小,但方差未必单调增,极端K=n时方差反而高。18.在分层抽样中,若层界按目标变量y的分布划分,则称该分层为“事后分层”。答案:×解析:按y划分属“最优分层”,事后分层指抽样后利用辅助变量重新分组。19.随机森林的OOB误差是训练集的无偏估计,因此可直接代替测试集误差。答案:×解析:OOB为内部估计,虽无偏但仍有波动,不能完全替代独立测试集。20.对非平衡面板数据,若采用“完全案例删除”处理缺失,则可能导致选择偏倚。答案:√解析:删除会系统性丢失某些特征样本,造成参数估计偏倚。四、简答题(每题8分,共24分)21.简述在抽样调查中使用“回归估计”提高精度的原理,并给出总体均值估计量的表达式。答案:回归估计利用辅助变量x与目标变量y的线性关系,构造估计量ȳ_reg=ȳ+β(X̄–x̄)其中ȳ、x̄为样本均值,X̄为总体已知均值,β为样本回归系数。通过消除x̄与X̄的随机波动,降低ȳ_reg的方差。若模型设定正确,方差减少量为β²Var(x̄)。22.说明决策树预剪枝与后剪枝的差异,并指出哪种在大数据环境下更常用及原因。答案:预剪枝在生长过程中通过阈值(如最小叶样本数、最大深度)提前停止,速度快但可能欠拟合;后剪枝先长成完整树再自底向上剪去不显著分支,精度高但计算量大。大数据下常用预剪枝,因后剪枝需存储整棵树且遍历代价高,预剪枝结合早期停止可分布式实现,节省内存与时间。23.给出“设计效应”(deff)的定义,并解释为何整群抽样的deff通常大于1。答案:deff=复杂抽样估计量方差/相同样本量的简单随机抽样方差。整群抽样中,群内单元往往正相关(ICC>0),导致有效样本量降低,方差增大,故deff>1。公式deff≈1+(b-1)ρ,其中b为群规模,ρ为组内相关系数。五、计算与推导题(共31分)24.(10分)某高校欲估计本科生月均生活费,采用分层抽样,分大一、大二、大三、大四4层,各层人数N_h与标准差S_h如下:层h:1234N_h:2000180016001400S_h:260220200180若总样本量n=400,试按内曼分配计算各层样本量n_h,并给出总均值估计量方差表达式。答案:内曼分配n_h=n·(N_hS_h)/Σ(N_hS_h)计算分子:2000×260=5200001800×220=3960001600×200=3200001400×180=252000总和=1488000n_1=400×520000/1488000≈139.8→140n_2=400×396000/1488000≈106.5→107n_3=400×320000/1488000≈86.0→86n_4=400×252000/1488000≈67.7→67总均值估计量ȳ_st=Σ(N_h/N)ȳ_h,其中N=6800方差Var(ȳ_st)=Σ(N_h/N)²(1n_h/N_h)S_h²/n_h代入即可得数值。25.(10分)给定二维数据{(x_i,y_i)},i=1…n,证明加权最小二乘(WLS)估计量β̂=(XᵀWX)⁻¹XᵀWy是总体超总体模型E[y]=Xβ的BLUE,并说明权重矩阵W与抽样设计的关系。答案:模型设Var(y)=σ²V,V为已知对角阵。令W=V⁻¹,则GLS估计量β̂具有Gauss-Markov性质,方差最小。在抽样中,若单元方差与inclusionprobability相关,可取w_i=1/(π_iσ²),则W为对角阵,WLS等价于设计加权回归,兼顾抽样设计与异方差,故为BLUE。26.(11分)某电商拥有客户交易数据,目标变量为“是否复购”。现采用随机森林建模,变量含连续型(近30天消费金额)与分类型(品类偏好)。训练集正负样本比例1:9,共50万条。(1)给出处理类别不平衡的两种方案并比较优劣;(2)若模型在测试集(10万条)上表现:AUC=0.87,F1=0.42,分析可能原因并给出改进措施;(3)解释为何OOB曲线在树数>800后仍波动,并给出稳定策略。答案:(1)方案A:欠采样多数类至与少数类平衡,优点训练快、内存小,缺点丢失大量信息,模型方差高。方案B:SMOTE+ENN,先合成少数类再清洗边界,优点保留信息、提升召回,缺点可能生成噪声、计算量大。大数据下推荐B,因50万条下计算可接受,且信息保留充分。(2)AUC高说明排序能力强,F1低反映阈值0.5下精确或召回低。原因:正负比例悬殊,模型倾向预测负类,导致真正例少。改进:调整阈值至最优F1点(如0.2),或采用代价敏感学习,将假阴性权重设为9倍。(3)OOB波动源于高维稀疏及强相关变量,树数增加仍可能因随机种子差异导致袋外预测小幅变化。稳定策略:增大单棵树样本量(降低树方差),或采用重复平均:多次运行取OOB均值,或改用cv-error。六、综合应用题(共40分)27.(20分)某市统计局欲估计老旧小区加装电梯意愿比例。总体=1200栋楼,采用二阶整群抽样:第一阶段PPS抽取30个小区(共600栋),第二阶段每小区简单随机抽取2栋楼,共60栋。已知:(1)小区规模M_i与楼栋意愿比例P_i强相关,ρ≈0.8;(2)第一阶段抽取概率π_i∝M_i;(3)调查获得栋水平数据,y_j=1表示愿意,0否则。任务:a)写出总体比例估计量及其方差估计步骤;b)若样本比例p̂=0.65,估计设计效应;c)若预算允许再增加60栋,比较两种方案:A.再抽30小区每区2栋;B.原30小区每区再增2栋。哪种更优?答案:a)采用二阶PPS+SRS估计量:p̂=(ΣΣy_j/(π_iπ_{j|i}))/(ΣΣ1/(π_iπ_{{j|i}}))其中π_i=30M_i/ΣM_i,π_{j|i}=2/M_i。方差用Sen-Yates-Grundy公式:Var̂(p̂)=Σ_{i<i'}(π_{ii'}-π_iπ_{i'})(t_i/π_it_{i'}/π_{i'})²/(π_{ii'}π_iπ_{i'})+Σ_i(M_ichoose2)⁻¹(12/M_i)Σ_{j<j'}(y_jy_{j'})²/2b)设计效应计算:先按简单随机抽样方差公式Var_SRS=p̂(1-p̂)/n,再求deff=Var̂(p̂)/Var_SRS。代入得deff≈2.1,表明整群+PPS使方差翻倍。c)方案A增加新群,可降低群内相关带来的方差;方案B加深原群,deff几乎不变。故A更优,预计方差减少约30%。28.(20分)某医疗研究机构收集基因表达数据,维度p=20000,样本n=800,目标预测癌症亚型(3类)。采用流程:Step1方差过滤+Wilcoxon检验筛至500基因;Step2LASSO多分类(family=multinomial)选变量;Step3用选出的变量训练SVM(RBF核)。交叉验证平均准确率仅72%,远低于文献85%。分析潜在问题并给出系统改进方案,要求:(1)指出至少3处技术缺陷;(2)给出每一步可替换的先进方法并说明理由;(3)给出完整验证策略避免信息泄露。答案:(1)缺陷:①过滤+Wrapper两阶段选变量导致选择偏倚,测试信息提前泄露;②高维下Wilcoxon检验忽略基因间相关,丢失协同效应;③LASSO对多类别分组效应处理不足,且未调α;④SVM未做内核参数调优;⑤未考虑样本不平衡,亚型3仅10%。(2)改进:Step1改用稳定性选择(StabilitySelection)或最小冗余最大相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 油脂酯交换操作工班组协作考核试卷含答案
- 贵金属首饰手工制作工安全防护考核试卷含答案
- 油漆作文物修复师岗前基础综合考核试卷含答案
- 上海市松江区2025-2026学年九年级上学期期末(暨中考一模)语文试题附答案
- 会员欢迎话术
- 企业移动应用开发流程概述
- 2026上海复旦大学附属中山医院住院医师规范化培训招生备考题库(第二轮)及答案详解(新)
- 基因与遗传病:云服务课件
- 九年级下册第二单元“世界舞台上的中国”专题复习课教学设计
- 老年慢病虚拟仿真教学的风险防控策略-1
- GB/T 19436.2-2025机械电气安全电敏保护设备第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求
- 净菜加工工艺流程与质量控制要点
- 第02讲排列组合(复习讲义)
- 大型商业综合体消防安全应急预案
- 2025年妊娠期梅毒考试题及答案
- 浅谈国土年度变更调查及林草湿荒监测区别
- 《砂浆、混凝土用低碳剂》
- 2025年社区工作总结及2026年工作计划
- 《 证券投资学》教学方案
- 南昌地铁培训课件
- 升降平台车辆安全培训课件
评论
0/150
提交评论