大学《统计思想综述》题库试题「附答案」_第1页
大学《统计思想综述》题库试题「附答案」_第2页
大学《统计思想综述》题库试题「附答案」_第3页
大学《统计思想综述》题库试题「附答案」_第4页
大学《统计思想综述》题库试题「附答案」_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大学《统计思想综述》题库试题「附答案」1.(单选)“统计思想”一词最早被系统阐述于下列哪本著作?A.Fisher《TheDesignofExperiments》B.Pearson《TheGrammarofScience》C.Laplace《APhilosophicalEssayonProbabilities》D.Hacking《TheEmergenceofProbability》答案:B解析:KarlPearson在1892年出版的《科学的语法》中首次把统计方法上升为“思想”层面,提出“科学的统一性在于统计描述”,而Fisher、Laplace、Hacking虽对统计哲学有贡献,但并未直接使用“统计思想”这一术语。2.(单选)下列哪一选项最能体现“数据生成机制(DGP)”与“统计模型”之间的哲学差异?A.前者是客观存在,后者是主观建构B.前者包含参数,后者不含参数C.前者只能用非参数方法刻画,后者只能用参数方法刻画D.前者与样本量无关,后者与样本量有关答案:A解析:DGP是自然界或社会系统中真实产生数据的过程,具有本体论地位;统计模型是研究者对DGP的近似描述,属于认识论工具,因此差异的根本在于主客观关系。3.(单选)若随机变量X的分布属于指数族,且其自然参数空间包含一个开集,则下列哪条性质必然成立?A.样本均值是充分统计量B.样本方差是完备统计量C.最大似然估计渐近有效D.贝叶斯估计与频率估计等价答案:C解析:指数族+开集条件保证Cramér-Rao下界可达,MLE的渐近正态性、一致性及有效性成立;A、B、D均需要额外条件。4.(单选)在Neyman-Pearson框架下,若对简单原假设H₀:θ=θ₀使用似然比检验,显著性水平α固定,当备择假设H₁:θ=θ₁逐渐远离θ₀时,检验功效(power)的变化趋势为:A.单调不增B.单调不减C.先增后减D.保持不变答案:B解析:似然比统计量非负,且随|θ₁−θ₀|增大其非中心性参数增大,功效函数在固定α下单调不减。5.(单选)“贝叶斯假设检验使用Bayes因子而非p值”这一做法的核心哲学理由是:A.p值无法度量证据强度B.p值依赖于抽样计划C.Bayes因子满足似然原理D.以上皆是答案:D解析:p值在Neyman-Pearson框架下是“重复抽样”下的错误率,不直接度量数据对假设的证据;同时p值对停止规则敏感,违反似然原理;Bayes因子则直接比较边际似然,满足似然原理且量化证据。6.(单选)DeFinetti表示定理说明:A.任意可交换序列均可表示为独立同分布变量的混合B.任意独立序列均可表示为可交换序列C.任意平稳序列均可表示为鞅差序列D.任意鞅差序列均可表示为可交换序列答案:A解析:DeFinetti定理指出,若无限序列可交换,则存在随机分布函数使变量条件独立同分布,体现“主观概率”与“客观频率”的桥梁。7.(单选)“Bootstrap置信区间的迭代偏倚校正(BCa)”中,加速度(acceleration)a的估计主要用来修正:A.抽样分布的偏度B.抽样分布的峰度C.抽样分布的离散度D.抽样分布的尾部指数答案:A解析:BCa通过估计偏度相关的加速度a,使置信区间的端点向偏斜相反方向移动,达到二阶精度。8.(单选)若对高维回归(p≫n)使用Lasso,且真实系数向量仅有k个非零元,则下列哪种条件下Lasso的“不可表示条件(IrrepresentableCondition)”成立?A.设计矩阵的列满足两两正交B.设计矩阵的Gram矩阵的逆存在C.活跃变量与非活跃变量的协方差足够小D.误差项服从亚高斯分布答案:C解析:不可表示条件要求活跃集与非活跃集之间的协方差不能过大,否则Lasso无法一致选择真实模型;正交设计是充分非必要条件。9.(单选)“统计学习理论”中,Rademacher复杂度与VC维相比,其优势在于:A.可直接用于任意损失函数B.数据依赖,可给出更紧的泛化界C.计算复杂度更低D.不依赖于假设空间的基数答案:B解析:Rademacher复杂度基于给定样本计算,能反映数据分布特性,因此泛化误差界通常比基于VC维的分布无关界更紧。10.(单选)下列关于“因果推断中的前门准则”的描述,正确的是:A.前门变量必须位于从处理到结果的所有通路上B.前门变量必须屏蔽处理与混杂之间的直接联系C.前门变量无需被观测D.前门准则不需要结构方程模型答案:B解析:前门准则要求:1.前门变量Z完全中介X→Y;2.Z与混杂U独立给定X;3.Y与X独立给定Z与U。条件2即“屏蔽”作用。11.(单选)若对泊松回归使用对数连接函数,且存在过度离散(over-dispersion),则仍使用标准最大似然估计会导致:A.回归系数估计有偏B.标准误估计偏小C.标准误估计偏大D.回归系数估计不一致答案:B解析:过度离散使实际方差大于名义方差,标准误被低估,导致置信区间过窄、第一类错误率膨胀;系数本身仍一致。12.(单选)在EM算法中,若Q函数在M步可解析求导,则该算法收敛点:A.必为对数似然的局部极大B.必为对数似然的全局极大C.必为观测似然的驻点D.必为完全似然的鞍点答案:C解析:EM收敛到观测似然函数的驻点(梯度为零),但不保证是局部极大,更不一定是全局极大。13.(单选)“统计思想”中的“数据主义(Dataism)”主张:A.一切科学问题均可还原为数据量大小B.相关性足以取代因果性C.数据即现实,模型只是装饰D.数据与理论应双向迭代答案:D解析:现代数据主义强调数据驱动与理论驱动的融合,反对“无理论”的极端经验主义;A、B、C均为被批判的极端观点。14.(单选)若对时间序列使用ARIMA(0,1,1)模型,其MA(1)系数为−0.8,则该过程对永久冲击的“记忆”表现为:A.有限记忆,3期后消失B.无限记忆,衰减率指数−0.8C.无限记忆,衰减率指数0.2D.无限记忆,衰减率线性答案:C解析:ARIMA(0,1,1)的一阶差分为MA(1),其冲击响应权重呈指数衰减,衰减率为1+θ=0.2,故记忆持久但衰减。15.(单选)“统计伦理”中,对敏感问题采用“随机化回答技术”主要解决:A.非抽样误差B.测量误差C.社会期望偏倚D.无回答误差答案:C解析:随机化回答通过引入已知概率的随机机制,切断真实回答与身份识别之间的联系,降低受访者因社会期望而撒谎的动机。16.(单选)若对分层抽样使用事后分层(post-stratification),与事前分层相比,其方差减少效果取决于:A.事后层权是否与总体层权一致B.层内方差是否远小于层间方差C.样本量是否足够大以使每层均有观测D.以上皆是答案:D解析:事后分层需满足:1.样本对每层均有覆盖;2.层内同质、层间异质;3.已知总体层权。三者共同决定方差减少幅度。17.(单选)“统计思想”中的“模型不确定性”与“参数不确定性”相比,下列说法正确的是:A.前者可通过模型平均降低,后者不能B.前者随样本量增加而消失,后者不会C.前者可用BIC量化,后者可用后验方差量化D.两者均随样本量增加而消失答案:C解析:模型不确定性指不同模型间选择的不确定性,可用BIC、AIC、Bayes因子等近似;参数不确定性指给定模型下参数估计的波动,用后验方差或标准误度量;A错在参数不确定性也可通过模型平均降低;B错在模型不确定性不必然消失。18.(单选)若对函数型数据使用FPCA,则选择截断维度K的“累积方差贡献率>85%”准则的哲学基础最接近:A.主成分的可解释性B.Kullback-Leibler信息损失最小C.特征值的Shannon熵最大D.过拟合与欠拟合的权衡答案:D解析:85%准则本质是偏差-方差权衡的经验法则,既保留主要波动信息,又避免噪声维度,属于启发式决策而非信息论最优。19.(单选)“统计思想”中,对“可重复性危机”贡献最小的因素是:A.选择性报告B.HARKingC.预注册D.p-hacking答案:C解析:预注册通过提前公开假设与分析计划,抑制选择性报告与p-hacking,是解决方案而非危机成因。20.(单选)若对深度神经网络使用Dropout训练,则其“模型平均”解释对应贝叶斯视角的:A.对后验分布的蒙特卡洛近似B.对先验分布的变分近似C.对证据下界的优化D.对预测分布的Laplace近似答案:A解析:Dropout可视为对网络权重的Bernoulli先验,预测时对各子网络输出求期望,即对后验进行蒙特卡洛积分。21.(多选)下列哪些陈述符合“统计思想”中的“模型生成式观点(Model-GeneratingView)”?A.模型是科学家对数据生成机制的想象B.模型选择应基于预测性能而非真实度C.模型可通过迭代与数据对话而演化D.模型必须可解释才能被接受答案:A、C解析:模型生成式观点强调模型是创造性构造,通过数据反馈修正;B属预测主义,D属解释主义,均非核心。22.(多选)关于“统计思想”中的“因果层级(Pearl’sCausalHierarchy)”,下列哪些层级需要反事实?A.关联(Association)B.干预(Intervention)C.反事实(Counterfactual)D.分布(Distribution)答案:C解析:Pearl三层:关联、干预、反事实;只有第三层需要反事实推理。23.(多选)若对空间自回归模型(SAR)使用最大似然估计,下列哪些因素会导致参数估计的渐近方差增大?A.空间权重矩阵行标准化后特征值趋近1B.空间依赖强度趋近1C.样本量固定而空间单元增多D.误差项方差增大答案:B、D解析:空间依赖强度→1时,信息矩阵接近奇异;误差方差直接放大方差;A、C不必然增大方差。24.(多选)下列哪些技术可用于“统计思想”中的“模型可解释性”提升?A.SHAP值B.LIMEC.深度特征可视化D.随机森林变量重要性答案:A、B、C、D解析:四者均提供不同层面的解释:局部/全局、模型无关/模型特定。25.(多选)“统计思想”中,对“大数据”提出的“稀疏性假设”包括:A.系数稀疏B.协方差稀疏C.图结构稀疏D.误差分布稀疏答案:A、B、C解析:稀疏性通常指参数、协方差或图边稀疏;误差分布稀疏(如尖峰厚尾)非假设核心。26.(填空)若随机变量X服从N(0,1),则其熵功率(entropypower)为________。答案:2πe解析:高斯变量熵h=½ln(2πeσ²),熵功率定义为e^(2h)/2π,代入σ²=1得2πe。27.(填空)在“统计思想”中,Fisher信息量I(θ)可视为________几何的度量张量。答案:统计流形解析:Rao将Fisher信息视为参数空间的黎曼度量,开创信息几何。28.(填空)若对二项分布Bin(n,p)使用Jeffreys先验,则其形式为________。答案:Beta(½,½)解析:Jeffreys先验与Fisher信息平方根成比例,对二项情形得Beta(½,½)。29.(填空)“统计思想”中,对模型选择使用“最小描述长度(MDL)”准则,其编码长度包含________长度与________长度之和。答案:模型;数据给定模型解析:MDL=模型编码长度+数据在模型下的编码长度,体现奥卡姆剃刀。30.(填空)若对泊松过程使用Gamma过程作为其共轭先验,则后验分布仍为________过程。答案:Gamma解析:Gamma是泊松likelihood的共轭先验,后验更新形状与率参数。31.(判断)“统计思想”中,Bootstrap方法无需任何分布假设,因此其置信区间总是具有二阶精度。答案:错误解析:Bootstrap区间需平滑条件及有限方差,BCa、ABC等校正才达二阶精度;朴素百分位区间仅一阶。32.(判断)若两个变量在因果图中被m-分离,则它们在任何概率分布下均条件独立。答案:错误解析:m-分离仅保证在“忠实性(faithfulness)”假设下对应条件独立;若分布非忠实,可能出现依赖。33.(判断)“统计思想”中,使用交叉验证选择超参数必然导致模型选择一致性。答案:错误解析:交叉验证具渐近模型选择一致性需满足“训练/验证比→0”等条件;高维下可能过拟合。34.(判断)对任意凸损失函数,梯度下降法必收敛到全局最小。答案:错误解析:需损失函数可微且L-光滑、步长适当;非光滑或步长不当可能收敛到局部最小或发散。35.(判断)“统计思想”中,后验概率与p值在零假设下均服从Uniform(0,1)。答案:错误解析:仅当原假设为简单假设且检验统计量连续时,p值在原假设下服从Uniform(0,1);后验概率无此性质。36.(简答)阐述“统计思想”中“数据科学三角”及其相互关系,并举一例说明忽略一角可能带来的风险。答案:数据科学三角指“领域知识”“统计方法”“计算技术”。三者相互制约:领域知识指导变量选择与因果假设;统计方法提供推断框架;计算技术实现可扩展算法。若忽略领域知识,仅依赖高维算法,可能把“冰淇淋销量—溺水死亡”的虚假相关误认为因果,导致错误政策。37.(简答)解释“统计思想”中“稳定性(Stability)”与“可重复性(Replicability)”的差异,并指出哪一概念更贴近科学哲学中的“可靠证据”。答案:稳定性指模型输出对数据微小扰动的敏感程度,可用扰动下预测方差度量;可重复性指独立研究在相同条件下重现结果的能力。科学哲学强调证据需跨情境稳健,故稳定性更贴近“可靠证据”内核,因为高稳定性是可重复性的必要非充分条件。38.(简答)说明“统计思想”中“选择性推断(SelectiveInference)”与传统假设检验的区别,并给出一种校正方法。答案:传统检验假设模型预先固定;选择性推断在数据驱动选择模型后进行检验,导致检验统计量分布扭曲。校正方法:利用条件分布,仅对选择事件进行条件化,如Leeetal.(2016)的Lasso-conditionaltest,或利用数据分割(datasplitting)将选择与检验数据分离。39.(简答)概述“统计思想”中“分布无关(distribution-free)”方法的两条哲学支柱,并比较其与“非参数”方法的异同。答案:支柱一:不假定数据来自特定参数族,仅依赖秩、置换或经验过程;支柱二:保证有限样本下统计性质(如覆盖)无需渐近。分布无关是非参数的子集,但非参数可含平滑或核方法,仍需某些光滑条件;分布-free则更强,拒绝任何分布假设。40.(简答)解释“统计思想”中“预测区间”与“置信区间”在哲学目标上的差异,并指出哪一区间在“模型误设”下仍有效。答案:置信区间旨在覆盖固定但未知的参数,其有效性依赖模型正确;预测区间旨在覆盖未来可观测随机变量,可通过残差重抽样或分布无关方法构造,即便模型误设,只要残差可交换,预测区间仍保持近似覆盖。41.(计算)设X₁,…,Xₙi.i.d.来自Uniform(0,θ),考虑枢轴量Q=X₍ₙ₎/θ,求θ的精确1−α置信区间,并说明其覆盖概率为何与θ无关。答案:Q的CDF为F_Q(q)=qⁿ,0<q<1。令P(c≤Q≤1)=1−α,则c=α^(1/n)。由Q=X₍ₙ₎/θ,得P(α^(1/n)≤X₍ₙ₎/θ≤1)=1−α,反解θ得区间[X₍ₙ₎,X₍ₙ₎/α^(1/n)]。覆盖概率1−α仅依赖于α与n,与θ无关,因为Q分布已枢轴化。42.(计算)对线性模型Y=Xβ+ε,ε~N(0,σ²I),若使用岭回归估计β̂=(XᵀX+λI)⁻¹XᵀY,证明其可表示为贝叶斯后验均值,并写出对应先验。答案:设先验β~N(0,τ²I),则后验β|Y~N(μ,Σ),其中Σ⁻¹=XᵀX/σ²+I/τ²,μ=ΣXᵀY/σ²。令λ=σ²/τ²,则μ=(XᵀX+λI)⁻¹XᵀY,与岭估计一致。43.(计算)设二维正态(X,Y)均值为0,方差1,相关系数ρ。求E[Y|Y>X]。答案:令Z=Y−X,则(Z,X)联合正态,Cov(Z,X)=ρ−1。条件期望E[Y|Y>X]=E[X+Z|Z>0]=E[X|Z>0]+E[Z|Z>0]。由对称性E[X|Z>0]=0;Z~N(0,2(1−ρ)),故E[Z|Z>0]=√[2(1−ρ)/π]。综上,E[Y|Y>X]=√[2(1−ρ)/π]。44.(计算)对泊松-伽玛分层模型Yᵢ|λᵢ~Poisson(λᵢ),λᵢ~Gamma(α,β),求后验期望E[λᵢ|Yᵢ]并解释其收缩性质。答案:后验λᵢ|Yᵢ~Gamma(α+Yᵢ,β+1),故E[λᵢ|Yᵢ]=(α+Yᵢ)/(β+1)=wα/β+(1−w)Yᵢ,w=β/(β+1)。观测Yᵢ向先验均值α/β收缩,收缩量随β增大而增强。45.(计算)设X~Binomial(n,p),使用Jeffreys先验,求后验众数(MAP)并比较与MLE差异。答案:后验p|X~Beta(X+½,n−X+½),众数p̂=(X−½)/(n−1)(若X≥1)。与MLEX/n相比,向½收缩,避免极端0或1。46.(综合)某城市欲评估“限塑令”对塑料袋使用的因果效应,收集2018–2022年月度数据,包含政策虚拟变量D、使用量Y、价格P、人口流量M、环保宣传活动A。请:1.画出潜在因果图,标明可能的混杂与中介;2.写出使用合成控制法(SCM)的假设;3.若D对Y的效应存在空间溢出,如何修改SCM?答案:1.图:D→Y;P←U→Y(U为经济景气,混杂);A→Y且A→D(宣传既直接影响使用,又推动政策);M→Y;空间相邻城市D’→Y(溢出)。2.SCM假设:a.无干扰(无溢出);b.线性因子模型生成Y;c.干预前期间处理单元可由控制单元加权复制;d.权重非负和为1。3.引入空间滞后项,把相邻城市政策作为额外控制,或采用“空间合成控制”,将目标城市与邻市联合建模,权重矩阵包含空间距离。47.(综合)某在线平台欲用upliftmodeling优化优惠券投放,设处理T为发券,结果Y为购买,特征X含用户历史消费、浏览深度。请:1.写出条件平均处理效应(CATE)定义;2.比较S-Learner、T-Learner、X-Learner在估计CATE时的偏差-方差权衡;3.若T与Y间存在未观测混杂(如用户心情),如何借助工具变量?答案:1.CATE(x)=E[Y(1)−Y(0)|X=x]。2.S-Learner用单一模型含T交互,偏差小但可能平滑掉异质;T-Learner分两模型,方差大但偏差小;X-Learner用倾向得分加权,对处理组/对照组不平衡更稳健,中小样本方差更低。3.收集外生工具Z(如系统随机展示券的概率),用两阶段最小二乘或IV-forest,第一阶段Z→T,第二阶段拟合T̂→Y,识别局部平均处理效应(LATE)。48.(综合)对高维回归(p=10000,n=500),真实模型仅含20变量,误差重尾。请设计一套分析流程,兼顾:变量选择、参数估计、不确定性量化、可解释性,并说明每步哲学依据。答案:1.领域知识初筛:基于文献保留500候选变量,体现“理论驱动”。2.鲁棒Lasso(Huber损失+自适应惩罚)初选,50变量,兼顾重尾与稀疏。3.双重机器学习:将Y与X正交化,使用RDD或IV控制混杂,体现“因果识别”。4.稳定性选择:100次子抽样,保留频率>0.8的变量,降低“选择偏差”。5.加权Bootstrap(wildbootstrap)求置信区间,分布无关,量化不确定性。6.用SHAP总结top10变量贡献,提供可解释性。哲学:从“数据主义”到“因果主义”再到“解释主义”的螺旋上升。49.(综合)某药企欲用真实世界数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论