版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年社会调查与统计师资格考试试题及答案解析1.(单选)某市卫健委欲评估“社区健康驿站”对老年人慢病管理的效果,采用“是否建有驿站”作为唯一分组变量,追踪一年后的血压控制率。若忽略“老年人自我健康关注程度”这一潜在变量,最可能导致的偏误类型是A.选择偏倚 B.混杂偏倚 C.信息偏倚 D.失访偏倚答案:B。解析:自我健康关注程度既影响驿站建设选址(暴露)又影响血压控制(结局),若未被测量与控制,将产生混杂偏倚。2.(单选)在复杂抽样设计中,设计效应(deff)被定义为A.简单随机抽样方差与复杂抽样方差之比 B.复杂抽样方差与简单随机抽样方差之比 C.复杂抽样标准误与简单随机抽样标准误之差 D.样本量与有效样本量之比答案:B。解析:deff=Var_complex(θ̂)/Var_srs(θ̂),反映复杂抽样相对效率。3.(单选)调查问卷中设置“您去年网购支出大约多少元?”属于A.事实型问题 B.主观型问题 C.敏感型问题 D.筛选型问题答案:A。解析:网购支出属可验证的客观事实,但回忆难度高,仍归为事实型。4.(单选)对有序分类变量“教育程度”(小学、初中、高中、大专及以上)进行卡方检验前,应优先考虑的统计量是A.Cramer’sV B.Gamma C.Kendall’stauc D.列联系数答案:C。tauc适用于有序列联表且表格非方阵情形,可测度关联强度。5.(单选)在总样本量固定条件下,若分层目的是提高总体均值估计精度,最优分配原则为A.内曼分配 B.比例分配 C.等额分配 D.系统分配答案:A。内曼分配按层内标准差与层规模的加权平方根比例分配样本,可最小化方差。6.(单选)某CATI系统显示拒访率为62%,回答率为28%,其余为“无法联系”。若将“无法联系”全部视为合格但拒访,则合作率(COOP3)为A.28% B.31% C.45% D.73%答案:B。COOP3=完成访谈/(完成+拒访)=28/(28+62)=31.1%。7.(单选)当使用双重捕获法估计流动人口总数时,若第二次捕获故意采用“雪球抽样”,则假定最易被违反的是A.封闭总体 B.两次捕获独立 C.标记不丢失 D.同质可识别答案:B。雪球抽样使被推荐个体非独立,破坏独立性假设。8.(单选)对含30%缺失的连续变量X,采用多重插补(m=5)后,最终回归系数标准误的正确计算应使用A.平均组内方差 B.组间方差 C.鲁宾公式综合组内与组间 D.最大一次插补的SE答案:C。Rubin规则:Var(β̂)=W+(1+1/m)B,其中W为组内,B为组间方差。9.(单选)在结构方程模型(SEM)中,若CFI=0.96,RMSEA=0.05,SRMR=0.06,可初步判断A.模型拟合差 B.拟合可接受 C.存在过度拟合 D.需修正指数>5才接受答案:B。三指标均达到常规阈值(CFI>0.95,RMSEA<0.06,SRMR<0.08)。10.(单选)某调查采用“县村户”三阶段抽样,若使用“最终户权重=基础权重×无响应调整×事后分层校准”,则权重校准的核心目的是A.降低抽样方差 B.消除选择偏倚 C.提高估计无偏性 D.减少测量误差答案:C。校准使样本分布对齐总体,修正非覆盖与非响应带来的偏差。11.(单选)在R语言survey包中,下列代码用于计算比例估计的是A.svymean(~x,design) B.svytable(~x,design) C.svyglm(y~x,design) D.svyquantile(~x,design)答案:A。svymean直接给出加权均值或比例(若x为0/1)。12.(单选)当调查涉及“家庭暴力”这一敏感主题时,采用“随机化回答技术”(RRT)主要降低A.抽样误差 B.无响应误差 C.测量误差之社会期望偏误 D.覆盖误差答案:C。RRT通过随机机制保护隐私,减少受访者隐瞒。13.(单选)对网络调查样本进行“倾向评分加权”时,参考的总体基准数据通常来自A.同一网络调查问卷 B.普查或高质量面访调查 C.商业大数据标签 D.社交媒体活跃指数答案:B。需无偏总体分布作为基准,普查或面访为金标准。14.(单选)若某Poisson回归的离散参数估计为3.2,应优先考虑的后续建模策略是A.改用负二项回归 B.增加二次项 C.采用零膨胀 D.使用稳健标准误答案:A。离散参数显著>1提示过离散,负二项可显式建模过度散布。15.(单选)在调查数据发布前,采用“局部抑制+噪声添加”实现差分隐私,隐私预算ε越小,则A.数据效用越高 B.隐私保护越弱 C.噪声越小 D.噪声越大答案:D。ε↓意味着更强隐私,需更大噪声。16.(单选)对“家庭人口数”进行描述时,下列指标中最易受极端值影响的是A.中位数 B.众数 C.算术均值 D.四分位距答案:C。均值对极端值敏感。17.(单选)在问卷设计中,若将多个子问题合并为矩阵量表,最可能导致的测量问题是A.同源性偏差 B.顺序效应 C.疲劳效应 D.锚定效应答案:A。矩阵格式易让受访者保持同一回答风格,产生同源性偏差。18.(单选)使用GPS辅助的面积抽样框进行农业调查,若采用“分割法”处理大面积地块,其目的是A.降低测量成本 B.减少覆盖误差 C.控制抽样方差 D.提高响应率答案:B。分割确保所有地块有机会被抽中,降低遗漏。19.(单选)在调查执行中,若访员民族身份与被访者一致可显著提高响应率,该现象被称为A.同质效应 B.权威效应 C.亲和效应 D.社会距离效应答案:C。亲和效应强调身份相似带来的信任。20.(单选)对时间使用日记调查,采用“昨天日记”而非“随机指定日记”主要缺点是A.回忆误差大 B.季节效应强 C.周几偏差 D.样本量小答案:C。昨天日记易过度代表周末或工作日,导致周几偏差。21.(多选)下列哪些技术可用于降低网络调查中的“专业受访者”偏差A.陷阱题筛查 B.IP+设备指纹去重 C.缩短问卷长度 D.设置最低答题时长 E.使用riversampling答案:A、B、D。陷阱与时长可识别敷衍,去重防重复注册,riversampling反而易引入专业户。22.(多选)关于Bootstrap置信区间,下列说法正确的是A.百分位区间不需对称假定 B.偏差校正区间(BCa)可纠正偏态 C.重复样本须与原始抽样设计一致 D.样本量越大,区间必越窄 E.适用于复杂抽样答案:A、B、C。Bootstrap不保证区间随n单调窄,复杂抽样需重抽样层与PSU。23.(多选)在调查数据清洗阶段,下列操作应记录在“数据编辑报告”中A.逻辑一致性规则 B.异常值处理代码 C.缺失模式分析 D.权重计算步骤 E.问卷页码扫描质量答案:A、B、C、D。扫描质量属现场管理,不进入编辑报告。24.(多选)下列属于“非概率抽样”的是A.街头拦截 B.网络自愿访问panel C.配额抽样 D.系统抽样 E.雪球抽样答案:A、B、C、E。系统抽样属概率抽样。25.(多选)当使用“多层线性模型”分析“个人幸福感”时,若将“省份GDP”作为层二变量,可探讨的问题包括A.省份经济水平对幸福感的直接效应 B.GDP是否调节个体收入与幸福感斜率 C.省份间幸福感变异是否被GDP解释 D.个体年龄与幸福感关系是否随GDP变化 E.抽样权重对固定效应估计的影响答案:A、B、C、D。E属估计方法,非研究问题。26.(多选)在计算“收入基尼系数”时,若调查数据存在顶部编码,可能导致的后果有A.低估不平等 B.高估不平等 C.洛伦兹曲线上尾收敛于45°线 D.基尼系数标准误增大 E.中位数收入不变答案:A、C。顶部编码压缩高端差异,使洛伦兹曲线尾部趋近平等线,基尼下降。27.(多选)关于“交叉滞后模型”与“潜变量增长模型”的比较,正确的是A.前者侧重变量间相互影响,后者侧重个体轨迹 B.前者需至少两波数据,后者需至少三波 C.前者可检验Granger因果,后者可估计增长率 D.两者均可纳入随时间变化的协变量 E.两者均假定测量不变性答案:A、B、C、D。增长模型不一定需严格测量不变,视研究目的。28.(多选)在电话调查中,使用“号码生成+预拨号”技术,可降低A.覆盖误差 B.无响应误差 C.测量误差 D.抽样框误差 E.访员效应答案:A、D。生成号可覆盖未登记电话,降低框误差。29.(多选)对“农村留守儿童”进行焦点小组访谈,若采用“匿名投票+展示”环节,其优点包括A.降低社会期望压力 B.快速获得共识 C.便于记录非语言信息 D.减少群体思维 E.提高量化可比性答案:A、B、D。匿名投票可抑制权威影响,促进真实表达。30.(多选)在官方统计中,采用“链式指数”计算CPI的优点有A.可及时纳入新产品 B.降低替代偏差 C.避免直接比较两期质量差异 D.简化权重更新 E.消除季节性波动答案:A、B、C。链式指数逐期链接,不直接消除季节。31.(判断)“样本量越大,非抽样误差必然越小。”答案:错误。非抽样误差(测量、覆盖、无响应)与样本量无单调关系,甚至因规模扩大而上升。32.(判断)在双重差分法中,若处理组与对照组事前趋势平行,但事后观测点仅一期,仍可识别动态效应。答案:错误。仅一期无法观测动态演变,只能得平均处理效应。33.(判断)使用R语言的mice包进行多重插补时,默认预测均值匹配(pmm)适用于连续与分类变量。答案:错误。pmm仅适用于连续,分类需用logreg、polyreg等方法。34.(判断)“问卷预测试”与“认知访谈”目的相同,可互相替代。答案:错误。前者侧重发现流程与逻辑问题,后者深入理解受访者认知过程,互补而非替代。35.(判断)在复杂抽样下,若忽略分层变量,总体均值估计仍无偏但方差增大。答案:正确。分层变量与结局相关时,忽略会导致方差上升,但HorvitzThompson估计保持无偏。36.(填空)某调查采用“两阶段整群抽样”,第一阶段抽取10个初级抽样单元(PSU),第二阶段每PSU抽20户,共200户。若忽略有限总体校正,且群内相关系ρ=0.05,则设计效应deff=________。答案:1+(201)×0.05=1.95。37.(填空)在问卷中设置两道陷阱题,若受访者均答错,则判定为“低质量答卷”。若陷阱独立,单题随机猜对概率0.25,则随机被误判概率为________。答案:0.75×0.75=0.5625。38.(填空)某Poisson回归输出显示“偏移量log(exposure)”系数为1,若exposure增加10%,则期望计数增加________%。答案:10%。偏移量系数固定为1,期望与exposure成比例。39.(填空)对5级李克特题进行因子分析,提取1个公因子方差贡献率为42%,则该题的共同度(communality)为________。答案:0.42。40.(填空)若“回答率”为30%,“合格率为90%”,则“总体响应率”(AAPORRR3)为________。答案:0.3×0.9=0.27。41.(简答)说明“无响应权重调整”与“事后分层校准”在目的、输入变量、假设上的三点差异。答案:1.目的:无响应调整旨在消除因无响应导致的样本与框分布差异;事后分层校准进一步使样本分布对齐总体外部基准(如普查)。2.输入:前者仅需抽样框与响应指示变量;后者需外部总体联合分布(如性别×年龄×地区)。3.假设:前者假设“响应概率可建模且给定协变量后数据为随机缺失(MAR)”;后者假设“校准变量与目标变量相关且外部基准无误差”。42.(简答)给出“网络调查样本总体推断”两阶段权重校准的数学表达式,并解释各符号。答案:最终权重w_k=w_{0k}×r_k×g_k其中w_{0k}为设计基础权重;r_k为无响应调整因子,r_k=1/p̂_k,p̂_k为基于logit模型估计的响应概率;g_k为校准因子,g_k=X_tot/Σ_sw_{0k}r_kx_k,X_tot为外部总体总量,x_k为校准向量。校准通过迭代比例拟合(raking)或广义回归(GREG)实现。43.(简答)阐述“交叉负载”在验证性因子分析中的危害,并给出两种修正策略。答案:交叉负载指观测变量显著负载于非目标因子,导致因子间相关被高估、区分效度下降、模型拟合劣化。修正:1.删除或重新表述该题项;2.允许交叉负载并报告标准化载荷,结合理论决定因子合并或拆分。44.(简答)说明“随机截距+固定斜率”与“随机截距+随机斜率”两层线性模型在参数数量与解释上的差异。答案:前者仅允许截距随群体变化,斜率固定,参数少(2个随机参数:截距方差、残差方差),解释“群体差异仅体现在起点”;后者额外允许斜率随群体变化,增加斜率方差及截距斜率协方差,解释“群体差异同时体现在起点与变量关系强度”,能检验跨层交互。45.(简答)列举并解释“认知访谈”四步流程。答案:1.编写认知版本:在标准问卷中加入“探针”,如“您如何理解‘家庭收入’?”2.招募小样本:覆盖关键人口子群,一般1040人。3.执行访谈:采用“有声思维”或回溯追问,记录理解、回忆、判断、回答四阶段问题。4.分析与修订:编码受访者反馈,修订措辞、格式或指令,形成最终版。46.(综合)某高校欲评估“在线编程课程”对毕业生就业薪资的影响,计划使用非随机对照设计。校方提供20182023年学生成绩、选课、就业登记数据,但选课为自愿。请:(1)给出识别策略名称;(2)列出三种可观测选择偏误来源;(3)提出两种基于观测数据的因果推断方法并比较其关键假设;(4)若使用双重差分,需满足何种前提并如何检验;(5)给出处理效应异质性检验的一种计量模型。答案:(1)策略:观测因果推断(准实验)。(2)偏误来源:1.能力差异(高能力者更愿选课);2.专业差异(计算机专业需求高);3.家庭背景(资源好的学生信息更足)。(3)方法:A.倾向评分匹配(PSM)—假设“条件可交换性”与“共同支持”;B.双重差分(DiD)—假设“平行趋势”与“无同期干预”。比较:PSM依赖横截面可测变量充分,DiD依赖时间维度与对照组。(4)DiD前提:处理组与对照组事前薪资趋势平行。检验:绘制20182020年两组均值趋势图;回归加入年份×处理交互,检验事前交互项不显著。(5)异质性模型:wage_it=α+τ1Treat_i×Post_t+τ2(Treat_i×Post_t×Female_i)+βX_it+μ_i+λ_t+ε_it,检验τ2是否显著,识别性别异质效应。47.(综合)某统计局采用“移动手机信令大数据”推算“夜间居住人口”,需与census基准比对。请:(1)给出两种可能覆盖偏差;(2)提出一种“小区域估计”模型将信令数据与census结合以提高县域人口估计精度;(3)说明如何评估估计精度;(4)若发布数据需满足差分隐私,给出噪声添加对象与理由。答案:(1)偏差:1.儿童与老人手机持有率低;2.多设备用户重复计数。(2)模型:区域层次贝叶斯模型—以census为“金标准”层一,信令计数为辅助变量,建立对数线性模型:log(truepop_j)=β0+β1log(signal_j)+u_j,u_j~N(0,σ_u^2),用后验均值作为估计。(3)精度评估:采用五折交叉验证,随机保留20%县真实census作为验证集,计算MAPE与PRMSE。(4)隐私:对发布县域人口数添加拉普拉斯噪声,尺度参数Δ/ε,Δ为查询全局敏感度(1),因人口数属关键敏感指标。48.(综合)某研究团队欲测量“县域数字鸿沟”,现有变量:家庭宽带覆盖率、移动信号强度、数字支付比例、老年人智能机持有率。请:(1)给出构建综合指数的两种统计方法;(2)说明如何检验指数稳健性;(3)若发现东部县域指数普遍高,提出一种可视化方案呈现空间聚集;(4)解释为何需用“空间自相关”检验并给出统计量公式。答案:(1)方法:A.主成分分析(PCA)取第一主成分;B.熵权TOPSIS,基于指标离散度赋权。(2)稳健性:1.改变权重方案(等权、PCA、熵权)计算Spearman秩相关;2.剔除单一指标观察排名变化;3.Bootstrap抽样1000次报告指数95%CI。(3)可视化:绘制县域choropleth地图,采用五等分色阶,叠加LocalMoran聚类图,高高聚集用红色,低低用蓝色。(4)空间自相关检验:Moran’sI=nΣ_iΣ_jw_ij(x_ix̄)(x_jx̄)/(Σ_i≠jw_ijΣ_i(x_ix̄)^2),若I显著>0,表明存在正向聚集,忽视将导致标准误低估。49.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 注册会计师税法中境外所得税收抵免的计算方法
- 某家具厂涂装安全制度
- 2026年文化旅游发展座谈会交流发言稿
- 2026清华大学出版社校园招聘备考题库附参考答案详解(培优b卷)
- 2026甘肃武威古浪县海子滩镇中心卫生院招聘2人备考题库附答案详解(能力提升)
- 2026湖南湘江研究院有限责任公司招聘7人备考题库有完整答案详解
- 2026云南昆明市晋宁区双河乡中心幼儿园编外教师招聘1人备考题库及答案详解(新)
- 2026安徽宣城广德市国信工程造价咨询有限公司社会招聘3人备考题库附答案详解(培优a卷)
- 2026重庆垫江县太平镇人民政府全日制公益性岗位招聘3人备考题库及1套参考答案详解
- 2026浙江深泓水利工程有限公司招聘第一批项目制用工人员6人备考题库带答案详解
- 浙江四校(含精诚联盟)2025-2026学年高二下学期3月阶段检测历史+答案
- 重庆市康德2026届高三高考模拟调研卷(三)地理试卷(含答案详解)
- 人形机器人与具身智能标准体系2026版类脑与智算专项全文解读
- 2026年辽宁医药职业学院单招职业技能考试题库与答案详解
- (一模)2026年深圳市高三年级第一次调研考试数学试卷(含官方答案及解析)
- 旋挖桩全护筒跟进施工方案
- 2026年叉车常规培训考试题库附答案
- 2026年部编版新教材道德与法治二年级下册全册教案(含教学计划)
- 婴幼儿发展引导员技能竞赛考试题库(含答案)
- 2026年河南信息统计职业学院高职单招职业适应性测试模拟试题带答案解析
- 熔化焊与热切割基础知识
评论
0/150
提交评论