版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年统计学试题库及参考答案1.单项选择题(每题2分,共20分)1.1某市交通部门连续30天记录早高峰拥堵指数,数据分布右偏且存在3个明显异常值。若希望用单一指标描述“典型拥堵水平”,下列统计量中最稳健的是A.算术均值 B.中位数 C.几何均值 D.上四分位数答案:B解析:右偏分布中均值会被极大值拉高,而中位数仅依赖排序位置,对异常值不敏感,因此稳健性最高。1.2设随机变量X~N(μ,σ²),若σ未知且样本量n=16,则μ的95%置信区间应选用的临界值为A.z₀.₀₂₅ B.t₀.₀₂₅(15) C.t₀.₀₂₅(16) D.χ²₀.₀₂₅(15)答案:B解析:σ未知、小样本下使用t分布,自由度=n−1=15。1.3在线性回归y=β₀+β₁x+ε中,若解释变量x的样本方差增大而其他条件不变,则β₁的估计量方差Var(β̂₁)将A.增大 B.减小 C.不变 D.先增后减答案:B解析:Var(β̂₁)=σ²/Σ(xi−x̄)²,分母随x波动增大而增大,故方差减小。1.4对二项分布B(n,p)进行假设检验H₀:p=0.3,若n=100,样本比例p̂=0.36,则检验统计量z的观测值约为A.1.28 B.1.43 C.1.65 D.1.96答案:B解析:z=(0.36−0.3)/√(0.3×0.7/100)=0.06/0.0419≈1.43。1.5在单因素方差分析中,若组间均方MSB=120,组内均方MSE=30,则F统计量值为A.3 B.4 C.5 D.6答案:B解析:F=MSB/MSE=120/30=4。1.6设X与Y的Pearson相关系数r=0.85,若将X的单位由“米”改为“厘米”,则新的相关系数A.0.0085 B.0.085 C.0.85 D.85答案:C解析:线性变换不改变相关系数。1.7对某时间序列建立ARIMA(1,1,1)模型,若经差分后序列的自相关图在滞后1阶后呈指数衰减,偏自相关图在滞后1阶后截尾,则模型参数特征为A.AR系数显著,MA系数不显著 B.两者均显著 C.仅MA显著 D.无法判断答案:B解析:ACF指数衰减提示MA成分,PACF截尾提示AR成分,故两者均显著。1.8在贝叶斯框架下,若先验分布为Beta(2,2),似然为二项分布B(20,θ)且观测到x=8,则后验分布为A.Beta(10,14) B.Beta(8,12) C.Beta(10,12) D.Beta(28,32)答案:A解析:Beta先验共轭,后验参数α=2+8=10,β=2+12=14。1.9对高维数据(p>n)进行变量选择,下列方法中最不可能出现过拟合的是A.逐步回归 B.Lasso C.岭回归 D.主成分回归答案:C解析:岭回归通过惩罚项收缩系数但不剔除变量,降低方差,过拟合风险最小。1.10若随机向量X∼Nₚ(μ,Σ),则二次型(X−μ)ᵀΣ⁻¹(X−μ)服从A.χ²(p) B.t(p) C.F(p,n−p) D.N(0,1)答案:A解析:多元正态理论标准结论。2.多项选择题(每题3分,共15分,多选少选均不得分)2.1下列关于非参数检验的描述正确的有A.Kruskal-Wallis检验适用于多组独立样本B.Wilcoxon符号秩检验要求总体分布对称C.Spearman秩相关系数可衡量单调关系D.符号检验比Wilcoxon符号秩检验功效更高E.游程检验可用于检测随机性答案:A、B、C、E解析:D错误,符号检验仅利用正负号,功效低于利用秩次的Wilcoxon。2.2在经典线性模型y=Xβ+ε,ε∼N(0,σ²I)下,下列结论恒成立的有A.OLS估计量β̂是无偏的B.σ̂²=RSS/(n−p)是σ²的无偏估计C.β̂的协方差阵为σ²(XᵀX)⁻¹D.当X列满秩时β̂唯一E.R²随解释变量增加必然增大答案:A、B、C、D解析:E错误,调整R²可能下降。2.3关于主成分分析(PCA),正确的有A.主成分方向是协方差阵特征向量B.第k主成分方差等于第k大特征值C.主成分得分互不相关D.标准化与否不影响主成分顺序E.主成分可解释原始变量全部方差答案:A、B、C解析:D错误,标准化后量纲消失,特征值分布改变;E错误,通常只保留部分方差。2.4下列属于时间序列平稳性检验方法的有A.ADF检验 B.KPSS检验 C.Ljung-Box检验 D.PP检验 E.Durbin-Watson检验答案:A、B、D解析:C用于残差白噪声检验,E用于一阶自相关。2.5在Bootstrap置信区间构造中,A.百分位区间不需要正态假设B.BCa区间可修正偏度与偏差C.重复抽样次数B越大区间越窄D.自助样本量必须与原始样本量相同E.对极值量(如最大值)自助效果差答案:A、B、D、E解析:C错误,B增大降低蒙特卡洛误差,但区间宽度由数据变异决定,不会无限变窄。3.填空题(每空2分,共20分)3.1设X₁,…,Xₙ为来自U(0,θ)的样本,则θ的矩估计为________,最大似然估计为________。答案:2X̄;max(Xᵢ)解析:矩估计由E(X)=θ/2反解;似然函数在θ≥max(Xᵢ)时单调减,故MLE为最大次序统计量。3.2在Poisson回归中,常用________函数作为典则连接函数,其形式为________。答案:对数;log(μ)3.3若随机变量T服从自由度为ν的t分布,则E(T)=________(ν>1),Var(T)=________(ν>2)。答案:0;ν/(ν−2)3.4对p维数据做聚类,若采用欧氏距离且变量量纲差异大,应先进行________处理,常用方法是________。答案:标准化;Z-score标准化3.5在控制图应用中,若过程均值发生1.5σ偏移,则传统3σ控制图的平均运行长度ARL≈________。答案:14.0解析:通过正态分布计算P(out|shift)=0.0668,ARL=1/0.0668≈14.0。4.计算与证明题(共45分)4.1(8分)设X₁,…,Xₙi.i.d.∼Exp(λ),其pdf为f(x)=λe^(−λx),x>0。(1)求λ的矩估计λ̃;(2)证明λ̃是λ的相合估计。答案与解析:(1)E(X)=1/λ,令样本均值X̄=1/λ̃,解得λ̃=1/X̄。(2)由大数定律X̄→1/λa.s.,连续映射定理得1/X̄→λa.s.,故λ̃相合。4.2(10分)某电商平台欲评估新版推荐算法是否提升转化率。随机抽取10000名用户,均分两组:对照组:5000人,转化218人;实验组:5000人,转化256人。(1)建立假设检验并计算检验统计量;(2)求p值并给出结论(α=0.05);(3)计算两组转化率差值的95%置信区间。答案与解析:(1)H₀:p₁=p₂,H₁:p₁≠p₂。p̂₁=218/5000=0.0436,p̂₂=256/5000=0.0512,合并率p̂=(218+256)/10000=0.0474,z=(0.0512−0.0436)/√[0.0474×0.9526×(1/5000+1/5000)]=0.0076/0.00426≈1.78。(2)双侧p=2×P(Z>1.78)=2×0.0375=0.075>0.05,不拒绝H₀,尚不能认为新版显著提升转化率。(3)差值p̂₂−p̂₁=0.0076,标准误SE=√[p̂₁(1−p̂₁)/5000+p̂₂(1−p̂₂)/5000]=0.00428,95%CI:0.0076±1.96×0.00428=[−0.0008,0.0160],包含0,与检验结论一致。4.3(10分)已知随机向量Z=[X,Y]ᵀ服从二元正态,且μ=[2,3]ᵀ,Σ=[[4,2.4],[2.4,9]]。(1)求X与Y的相关系数ρ;(2)求条件分布Y|X=x的期望与方差;(3)若观测到X=3,预测Y并给出95%预测区间。答案与解析:(1)ρ=2.4/√(4×9)=2.4/6=0.4。(2)条件期望E(Y|X=x)=μ_Y+ρσ_Y/σ_X(x−μ_X)=3+0.4×3/2(x−2)=3+0.6(x−2)=0.6x+1.8;条件方差Var(Y|X=x)=σ_Y²(1−ρ²)=9×(1−0.16)=7.56。(3)当x=3,Ŷ=0.6×3+1.8=3.6,95%区间:3.6±1.96×√7.56=3.6±5.39→[−1.79,8.99]。4.4(8分)设线性模型y=Xβ+ε,ε∼N(0,σ²I),X为n×p列满秩矩阵。记H=X(XᵀX)⁻¹Xᵀ为帽子矩阵。(1)证明tr(H)=p;(2)证明残差向量e=(I−H)y的协方差阵Cov(e)=σ²(I−H)。答案与解析:(1)tr(H)=tr[X(XᵀX)⁻¹Xᵀ]=tr[(XᵀX)⁻¹XᵀX]=tr(I_p)=p。(2)Cov(e)=Cov[(I−H)y]=(I−H)Cov(y)(I−H)ᵀ=σ²(I−H)²=σ²(I−H),因I−H幂等对称。4.5(9分)某连锁超市收集36个月销售数据(单位:百万元),建立如下趋势+季节模型Y_t=T_t+S_t+ε_t,其中T_t=α+βt,季节因子S_t满足ΣS_t=0,ε_t∼N(0,σ²)。经最小二乘估计得α̂=12.3,β̂=0.45,季节因子估计值Ŝ₁=−2.1,Ŝ₂=−1.0,Ŝ₃=1.4,Ŝ₄=1.7(按季度循环)。(1)预测2026年第三季度销售额;(2)若σ̂=1.2,给出该预测值的95%置信区间;(3)简述如何检验“季节效应是否显著”。答案与解析:(1)2026年第三季度对应t=37+2=39(假设2022Q1为t=1),T̂₃₉=12.3+0.45×39=29.85,Ŝ₃=1.4,预测值Ŷ=29.85+1.4=31.25(百万元)。(2)预测标准误=σ̂=1.2,区间:31.25±1.96×1.2=[28.90,33.60]。(3)建立方差分析模型,将季节作为因子,检验H₀:S₁=S₂=S₃=S₄=0,用F检验比较全模型与无季节模型的RSS差异,若p<α则季节效应显著。5.综合应用题(共40分)5.1(15分)某医疗研究机构开发新型血糖仪,需评估其测量误差。招募50名志愿者,每人用新仪器与标准实验室方法各测一次空腹血糖,数据如下(单位:mg/dL):(原始数据略,给出差值dᵢ=新−标准,计算得d̄=4.8,s_d=7.5)(1)给出差值描述性统计并绘制箱线图要点;(2)检验新仪器是否存在系统偏差(α=0.05);(3)计算差值的95%容忍区间,要求覆盖90%总体差值;(4)若临床认为|差值|≤10mg/dL为可接受,请用等价性检验思路给出结论。答案与解析:(1)中位数约4.5,Q1=0.2,Q3=8.9,存在1个上界外异常值,箱线图显示右尾略长。(2)H₀:μ_d=0,t=d̄/(s_d/√n)=4.8/(7.5/√50)=4.8/1.06≈4.53,df=49,双侧p<0.001,拒绝H₀,存在显著正偏差。(3)容忍区间公式:d̄±k×s_d,其中k为容忍因子,对(0.90,0.95)且n=50,查表得k≈2.382,区间:4.8±2.382×7.5=[−13.1,22.7],说明95%置信下90%总体差值落入此区间,范围较宽。(4)等价界值Δ=10,建立两个单侧检验:H₀₁:μ_d≤−10,H₀₂:μ_d≥10,t₁=(4.8+10)/1.06=14.0,t₂=(4.8−10)/1.06=−4.9,对应p₁<0.001,p₂<0.001,均拒绝,故不能宣称等价,新仪器偏差超出临床可接受范围。5.2(15分)某市政府统计部门欲利用手机信令数据估计夜间常住人口。以250m×250m网格为单元,抽取100个网格,记录凌晨2点手机设备数(X)与同期普查人口(Y),建立对数线性模型log(Y)=β₀+β₁log(X)+ε。回归结果:β̂₀=0.81,β̂₁=0.92,R²=0.78,残差标准误σ̂=0.15。(1)解释β̂₁=0.92的含义;(2)若某网格测得X=3200,预测Y及95%置信区间;(3)讨论模型可能存在的内生性问题及改进思路;(4)给出基于模型推断全市人口的步骤与注意事项。答案与解析:(1)手机设备数每增加1%,普查人口平均增加约0.92%,弹性接近1,提示两者规模接近正比。(2)log(X̂)=log(3200)=8.07,log(Ŷ)=0.81+0.92×8.07=8.23,Ŷ=exp(8.23)=3750,95%CI:log(Ŷ)±t₀.₀₂₅(98)×0.15×√[1/n+(logX−logX̄)²/Sxx],假设logX̄≈8.0,Sxx≈2.5,标准误≈0.15×1.02=0.153,区间8.23±1.98×0.153→[7.93,8.53],反变换得Y∈[2770,5060],区间较宽,需扩大样本或引入辅助变量。(3)内生性问题:①手机拥有率与年龄、收入相关,导致X与Y关系因网格人口结构不同而变化;②节假日或特殊事件使夜间手机分布偏离居住人口。改进:引入网格层面协变量(平均年龄、住房类型、商业设施密度),使用工具变量(如基站信号强度外生变化);采用分层抽样或混合效应模型。(4)步骤:①将全市所有网格X输入模型得Ŷ;②汇总得总人口估计;③用事后分层或比率估计校正系统性偏差;④通过Bootstrap或Jackknife评估估计方差;⑤与行政记录比对验证。注意事项:隐私脱敏、设备重复计数、游客剔除、模型外推不确定性。5.3(10分)某高校统计系开展“数据科学竞赛”满意度调查,采用分层抽样:本科生层N₁=3000,研究生层N₂=1000,分别抽取n₁=120,n₂=80。满意度得分(0−100)汇总如下:本科:x̄₁=72,s₁²=64;研究生:x̄₂=78,s₂²=49
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 统编版(2024)七年级上册历史第四单元 三国两晋南北朝时期:政权分立与民族交融(16-20课)素养提升教案
- 医患关系反转新闻写作
- 社区与社会工作机构服务合作协议
- 老年泌尿系感染医院感染控制方案
- 医学导论:心肌病诊疗课件
- 初中英语八年级下册第一单元:旅行与经历-基于主题意义探究的听说综合课
- 老年慢性肾病居家饮食与透析准备方案
- 2026年及未来5年市场数据中国铁路货运行业发展监测及投资方向研究报告
- 2026年及未来5年市场数据中国家庭保险行业市场发展数据监测及投资潜力预测报告
- 2026年及未来5年市场数据中国建筑效果图设计制作服务行业市场深度评估及投资战略规划报告
- 物业项目综合服务方案
- 2025-2026学年北京市西城区初二(上期)期末考试物理试卷(含答案)
- 公路工程施工安全技术与管理课件 第09讲 起重吊装
- 企业管理 华为会议接待全流程手册SOP
- 供水企业制度流程规范
- 河南省2025年普通高等学校对口招收中等职业学校毕业生考试语文试题 答案
- 马口铁印铁制罐工艺流程详解课件
- 狼蒲松龄原文及翻译
- 2023初会职称《经济法基础》习题库及答案
- 预应力管桩-试桩施工方案
- GB/T 3500-1998粉末冶金术语
评论
0/150
提交评论