2025年抽样调查课程考试题及答案_第1页
2025年抽样调查课程考试题及答案_第2页
2025年抽样调查课程考试题及答案_第3页
2025年抽样调查课程考试题及答案_第4页
2025年抽样调查课程考试题及答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年抽样调查课程考试题及答案一、单项选择题(每题2分,共20分)1.在抽样调查中,若总体方差未知且样本量较小,估计总体均值时应优先选用的分布是A.正态分布B.t分布C.χ²分布D.F分布答案:B2.某市欲了解居民月均可支配收入,采用分层抽样,分层变量为“职业类别”。若层内方差远大于层间方差,则分层抽样的设计效应(Deff)将A.远大于1B.约等于1C.远小于1D.与简单随机抽样相同答案:C3.在整群抽样中,若群规模相等且群内相关系数ρ=0.05,则设计效应近似为A.1+0.05(m−1)B.1−0.05(m−1)C.0.05mD.1+0.05m答案:A4.某高校对学生每周在线学习时长进行电话调查,无回答率为35%。若仅对回答者做均值估计,其偏差属于A.抽样误差B.非抽样误差C.随机误差D.测量误差答案:B5.在双重抽样中,第一阶段抽取大样本并观测辅助变量x,第二阶段从第一阶段样本中再抽子样本并观测目标变量y。若x与y的相关系数为0.8,则双重抽样回归估计量相对于简单估计量的方差减少比例约为A.16%B.36%C.64%D.80%答案:B6.对于系统抽样,若总体单元按时间顺序排列且存在线性趋势,则提高估计精度的有效方法是A.随机排列总体单元B.增大抽样间隔C.采用圆形系统抽样D.采用分层系统抽样答案:D7.在PPS抽样中,单元i的入样概率πi与其规模测度Mi成正比。若估计总量时采用HansenHurwitz估计量,则其权重wi应取A.1/πiB.Mi/πiC.1/(nπi)D.n/Mi答案:B8.某县农业抽样框基于2019年行政村清单,2025年调查时发现部分行政村已合并,导致部分单元重复或遗漏,此问题属于A.抽样误差B.覆盖误差C.测量误差D.处理误差答案:B9.在复杂样本方差估计中,若采用刀切法(Jackknife),删除一个PSU后重新计算估计量,其目的主要是估计A.总体总量B.抽样方差C.非响应偏差D.覆盖偏差答案:B10.对于网络抽样(RDS),若招募过程呈现“优先连接”特征,则估计量需采用A.简单平均B.加权平均,权重与节点度成反比C.加权平均,权重与节点度成正比D.截断样本均值答案:B二、多项选择题(每题3分,共15分;每题至少有两个正确答案,多选少选均不得分)11.下列措施可同时降低抽样误差与非抽样误差的有A.使用最新抽样框B.采用混合模式调查(电话+网络)C.提高样本量D.使用辅助变量进行事后分层调整答案:A、B、D12.关于捕获再捕获方法,正确的有A.两次捕获需满足封闭总体假设B.再捕获样本中标记比例可用于估计总体规模C.若个体捕获概率异质,Lincoln估计量仍无偏D.可采用Chapman修正降低小样本偏差答案:A、B、D13.在抽样加权调整中,使用倾向得分加权(PropensityWeighting)需满足A.响应机制可忽略B.倾向得分模型正确设定C.样本独立同分布D.辅助变量对响应概率有解释力答案:B、D14.下列关于Bootstrap在复杂样本中的应用,正确的有A.需保持原样本的聚类结构B.可直接用于估计分位数的方差C.对有限总体修正需引入fpc因子D.当PSU数量较少时,Bootstrap可能低估方差答案:A、B、D15.对于空间抽样,若研究变量存在空间自相关,则A.简单随机抽样效率低于空间分层抽样B.可采用空间平衡抽样(如GRTS)C.样本点间距增大可降低设计效应D.克里格插值可替代抽样答案:A、B、C三、判断题(每题1分,共10分;正确打“√”,错误打“×”)16.在分层抽样中,若各层样本量按内曼分配,则估计量方差一定小于按比例分配。答案:√17.整群抽样效率一定低于简单随机抽样。答案:×18.非响应加权调整可以完全消除非响应偏差。答案:×19.当抽样框存在多重遗漏时,双系统估计量比单系统估计量稳健。答案:√20.对于小域估计,若域样本量小于30,采用直接估计即可满足精度要求。答案:×21.在PPS抽样中,若单元规模测度与目标变量高度相关,则估计量方差可大幅降低。答案:√22.系统抽样可视为特殊的一阶段整群抽样。答案:√23.网络抽样(RDS)中,若招募链条过短,则估计量方差主要受招募树拓扑影响。答案:√24.使用事后分层调整时,层总体总量必须已知。答案:√25.在多重抽样框调查中,复合估计量需处理重叠单元的权重分配。答案:√四、简答题(每题8分,共24分)26.简述双重抽样与二相抽样的区别与联系,并给出适用场景。答案:双重抽样(DoubleSampling)与二相抽样(TwophaseSampling)在中文文献中常被混用,但严格区分如下:(1)目的差异:双重抽样通常指第一阶段抽取大样本观测辅助变量x,第二阶段抽子样本观测目标变量y,旨在利用x与y的相关性提高估计效率;二相抽样更广义,第二阶段可依据第一阶段信息重新分层、筛选或调整抽样方法。(2)估计量差异:双重抽样常用回归估计量或比率估计量;二相抽样可使用校准估计量、后分层估计量等。(3)适用场景:双重抽样适用于辅助变量易获得且与目标变量高相关的情形,如遥感数据辅助森林蓄积量调查;二相抽样适用于第一阶段信息用于改进第二阶段设计,如第一阶段快速筛查稀有元素,第二阶段集中资源精确测量。27.说明RaoBlackwell定理在抽样调查中的具体应用,并给出实例。答案:RaoBlackwell定理指出,若存在充分统计量,则对任一无偏估计量进行条件期望后可得到一致且方差更小的无偏估计量。在抽样调查中,以PPS抽样为例,初始HansenHurwitz估计量基于每个单元入样次数,方差较大;若将估计量条件于单元是否入样的充分统计量(即入样单元集合),可得到Murthy估计量,其方差更小。实例:某企业欲估计全国零售商年销售额,采用PPS抽样,以去年销售额为规模测度。初始估计量为HH估计量,经RaoBlackwell改进后使用Murthy估计量,方差降低约12%。28.阐述非响应机制的分类及其对估计偏差的影响,并给出可识别的条件。答案:非响应机制分为三类:(1)完全随机缺失(MCAR):响应概率与目标变量、辅助变量均无关,仅导致方差增大,无偏差;(2)随机缺失(MAR):响应概率与可观测辅助变量相关,与目标变量无关,可通过加权、插值或模型调整消除偏差;(3)非随机缺失(MNAR):响应概率与未观测到的目标变量相关,导致无法仅依据观测数据识别偏差,需借助外部模型或敏感性分析。可识别条件:在MAR下,若辅助变量对响应概率有充分解释力且模型正确设定,则偏差可识别;在MNAR下,需引入不可观测变量的分布假设或进行bounds分析。五、计算与推导题(共31分)29.(10分)某县有300个行政村,分为山区、平原、丘陵三层,各层村数分别为90、150、60。现按内曼分配抽取n=30村,估计全县农户年均收入。已知层标准差(万元)分别为2.5、1.8、2.0,层均值(万元)分别为3.2、4.0、3.5。(1)计算各层样本量;(2)给出分层估计量及其标准误;(3)若改为简单随机抽样,求设计效应。答案:(1)内曼分配公式nh=n(NhSh)/∑(NhSh)∑(NhSh)=90×2.5+150×1.8+60×2.0=225+270+120=615n1=30×225/615≈10.98→11n2=30×270/615≈13.17→13n3=30×120/615≈5.85→6(2)分层估计量ȳ_st=∑(Nh/N)ȳh=(90/300)×3.2+(150/300)×4.0+(60/300)×3.5=0.3×3.2+0.5×4.0+0.2×3.5=3.71万元方差V(ȳ_st)=∑(Nh/N)²(1−nh/Nh)Sh²/nh=0.3²×(1−11/90)×2.5²/11+0.5²×(1−13/150)×1.8²/13+0.2²×(1−6/60)×2.0²/6=0.09×0.8778×6.25/11+0.25×0.9133×3.24/13+0.04×0.9×4/6≈0.045+0.057+0.024=0.126标准误SE=√0.126≈0.355万元(3)简单随机抽样方差总体方差σ²=∑(Nh/N)[Sh²+(ȳh−ȳ)²]=0.3[6.25+(3.2−3.71)²]+0.5[3.24+(4.0−3.71)²]+0.2[4+(3.5−3.71)²]=0.3[6.25+0.2601]+0.5[3.24+0.0841]+0.2[4+0.0441]=0.3×6.5101+0.5×3.3241+0.2×4.0441≈1.953+1.662+0.809=4.424V_srs=(1−n/N)σ²/n=(1−30/300)×4.424/30=0.9×0.1475=0.1327设计效应Deff=V_st/V_srs=0.126/0.1327≈0.9530.(10分)某稀有疾病患病率调查采用捕获再捕获,第一次捕获登记患者120人,标记后放回;两周后第二次捕获登记患者150人,其中标记者30人。假设封闭总体、独立捕获、等概率。(1)给出Lincoln估计量及95%置信区间;(2)若实际总体开放且存在出生迁移,讨论偏差方向;(3)采用Chapman修正,重新估计并比较。答案:(1)Lincoln估计量N̂=(M×C)/R=(120×150)/30=600对数方差估计Var(logN̂)≈1/R−1/C−1/M+1/N̂=1/30−1/150−1/120+1/600=0.0333−0.0067−0.0083+0.0017=0.02095%CI:N̂×exp(±1.96×√0.020)=600×exp(±0.277)→[600×0.758,600×1.319]≈[455,791](2)若总体开放且迁入新患者,第二次捕获池增大,R偏大,N̂低估;若患者死亡或迁出,第二次捕获池减小,R偏小,N̂高估。(3)Chapman修正N̂_C=[(M+1)(C+1)/(R+1)]−1=(121×151)/31−1≈589.7−1=588.7方差Var(N̂_C)=(M+1)(C+1)(M−R)(C−R)/[(R+1)²(R+2)]≈121×151×90×120/(31²×33)≈196802400/31659≈6216SE≈78.8,95%CI≈588.7±1.96×78.8≈[434,743],区间略窄于Lincoln。31.(11分)某手机用户满意度调查采用二相抽样,总体N=50000。第一阶段抽取n1=2000用户,记录上月流量x(GB);第二阶段从中抽取n2=400用户,调查满意度y(0−100分)。已知回归模型y=β0+β1x+ε,σ²=81,S_x²=36,总体均值x̄_U=15GB。(1)给出双重抽样回归估计量ȳ_reg及其方差公式;(2)若n1=2000成本为10元/人,n2=400成本为50元/人,总预算30000元,求最优分配n1、n2使Var(ȳ_reg)最小;(3)计算最优分配下的方差,并与简单随机抽样n=600比较。答案:(1)回归估计量ȳ_reg=ȳ_2+β̂(x̄_U−x̄_1)其中β̂=Σ(xi−x̄1)(yi−ȳ2)/Σ(xi−x̄1)²方差V(ȳ_reg)=(1−n2/N)σ²/n2+(1−n1/N)(1−ρ²)σ²/n1ρ²=β1²S_x²/σ²,设β1=0.8,则ρ²=0.64×36/81=0.284(2)成本函数C=10n1+50n2=30000方差表达式V=A/n2+B/n1,A=(1−n2/N)σ²≈81,B=(1−n1/N)(1−ρ²)σ²≈0.716×81≈58拉格朗日乘子法:L=A/n2+B/n1+λ(10n1+50n2−30000)∂L/∂n1=−B/n1²+10λ=0→λ=B/(10n1²)∂L/∂n2=−A/n2²+50λ=0→λ=A/(50n2²)联立得B/(10n1²)=A/(50n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论