2026年统计学专业期末考试题库及答案-统计预测与决策理论应用历年真题解_第1页
2026年统计学专业期末考试题库及答案-统计预测与决策理论应用历年真题解_第2页
2026年统计学专业期末考试题库及答案-统计预测与决策理论应用历年真题解_第3页
2026年统计学专业期末考试题库及答案-统计预测与决策理论应用历年真题解_第4页
2026年统计学专业期末考试题库及答案-统计预测与决策理论应用历年真题解_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年统计学专业期末考试题库及答案—统计预测与决策理论应用历年真题解一、单项选择题(每题2分,共20分)1.在时间序列预测中,若某序列的ACF图在滞后1阶后迅速衰减至0附近,而PACF图在滞后1阶后截尾,则该序列最可能服从A.AR(1)B.MA(1)C.ARMA(1,1)D.ARIMA(0,1,1)答案:A解析:ACF拖尾、PACF截尾是AR(p)的典型特征,滞后1阶截尾对应AR(1)。2.设某产品月销量Xt满足Xt=0.8Xt-1+εt,εt~N(0,σ²)。若已知X100=120,则X102的最小均方误差预测值为A.120B.96C.76.8D.153.6答案:C解析:两步预测φ²X100=0.8²×120=76.8。3.在贝叶斯决策中,若损失函数为平方误差,则最优决策为A.后验均值B.后验中位数C.后验众数D.先验均值答案:A解析:平方误差损失下的贝叶斯估计量是后验均值。4.对某季度数据建立SARIMA(0,1,1)(0,1,1)₄模型,其季节差分阶数为A.0B.1C.4D.12答案:B解析:括号内第二个1表示季节差分阶数D=1。5.若某预测方法的MAPE连续三年分别为4.2%、3.8%、4.5%,则该方法A.存在明显偏差B.存在递增方差C.表现稳定D.存在滞后答案:C解析:MAPE波动小于1个百分点,表明预测精度稳定。6.在指数平滑中,平滑参数α=0.8意味着A.历史权重衰减缓慢B.历史权重衰减迅速C.序列无趋势D.序列无季节答案:B解析:α越大,近期观测权重越高,历史信息衰减越快。7.对高维回归实施LASSO的主要目的是A.降低偏差B.提高可解释性并实现变量选择C.消除异方差D.增强共线性答案:B解析:LASSO通过ℓ₁惩罚实现稀疏估计,自动选择变量。8.若随机森林的OOB误差为6.3%,而测试误差为9.1%,则最合理的解释是A.模型过拟合B.模型欠拟合C.数据泄露D.样本分布偏移答案:D解析:OOB误差与测试误差差异大,提示训练集与测试集分布不一致。9.在状态空间模型中,Kalman滤波的一步ahead预测误差称为A.平滑残差B.创新序列C.似然增量D.增益向量答案:B解析:创新序列(innovation)是观测值与一步预测之差。10.若某预测区间的覆盖率连续10期均为98%,而名义水平为95%,则A.区间过宽B.区间过窄C.模型无偏D.模型方差低估答案:A解析:实际覆盖率高于名义水平,说明区间保守、过宽。二、多项选择题(每题3分,共15分)11.下列哪些技术可用于处理非平稳序列A.差分B.Box-Cox变换C.协整检验D.小波分解E.季节调整答案:ACE解析:差分与季节调整直接消除非平稳;协整处理多个非平稳序列的长期均衡;Box-Cox与小波主要处理方差非平稳或局部特征。12.关于Bagging的陈述正确的是A.降低方差B.基学习器必须深度很大C.可并行训练D.对不稳定学习器效果显著E.一定提升预测精度答案:ACD解析:Bagging通过平均降低方差;基学习器无需很深;并行训练是其优点;对不稳定学习器(如决策树)效果佳;若基学习器本身偏差大,Bagging未必提升精度。13.下列属于概率预测评分规则的是A.CRPSB.MAEC.DSSD.LogSE.RMSE答案:ACD解析:CRPS(连续分级概率评分)、DSS(Dawid-Sebastiani)、LogS(对数评分)均评估概率分布;MAE、RMSE仅评估点预测。14.在贝叶斯模型平均(BMA)中,权重取决于A.先验模型概率B.边缘似然C.参数后验众数D.模型复杂度惩罚E.训练时长答案:ABD解析:BMA权重∝先验模型概率×边缘似然;边缘似然已隐含复杂度惩罚;与后验众数及训练时长无关。15.对高维协方差矩阵估计,有效方法包括A.样本协方差B.Ledoit-Wolf收缩C.GraphicalLASSOD.因子模型E.硬阈值答案:BCDE解析:样本协方差在高维下病态;收缩、稀疏、因子结构均为有效正则化。三、计算与证明题(共35分)16.(8分)设Yt服从ARIMA(1,1,0)模型:(1−φB)(1−B)Yt=εt,εt~N(0,σ²),|φ|<1。已知Yn=100,Yn-1=95,φ=0.7,σ=2。求Yn+3的95%预测区间。解:记Wt=(1−B)Yt,则Wt~AR(1):Wt=φWt-1+εt。Wn=Yn−Yn-1=5。三步预测:Wn(1)=φWn=3.5Wn(2)=φ²Wn=2.45Wn(3)=φ³Wn=1.715Yn+3=Yn+Wn(1)+Wn(2)+Wn(3)=100+3.5+2.45+1.715=107.665预测误差方差:Var(en(3))=σ²[1+(1+φ)²+(1+φ+φ²)²]=4×[1+1.7²+2.39²]=4×(1+2.89+5.7121)=38.4084标准误=√38.4084≈6.19795%区间:107.665±1.96×6.197→[95.52,119.81]17.(9分)某零售商对周销量建立状态空间模型:观测方程:Yt=μt+εt,εt~N(0,σ²ε)状态方程:μt=μt-1+ηt,ηt~N(0,σ²η)已知σ²ε=25,σ²η=4,初始μ0|0=100,P0|0=9。现观测到Y1=108,求μ1|1及P1|1,并给出第2周销量的一步预测分布。解:预测步:μ1|0=μ0|0=100P1|0=P0|0+σ²η=9+4=13更新步:K1=P1|0/(P1|0+σ²ε)=13/38≈0.342μ1|1=μ1|0+K1(Y1−μ1|0)=100+0.342×8≈102.74P1|1=(1−K1)P1|0=0.658×13≈8.55第2周预测:Y2|1~N(μ1|1,P1|1+σ²ε)=N(102.74,8.55+25)=N(102.74,33.55)18.(10分)某企业欲预测季度利润,考虑三种模型:AR(4)、SARIMA(1,0,1)(0,1,1)₄、随机森林。使用2010Q1—2022Q4数据,末四年做滚动原点验证,结果如下:模型|RMSE|MAE|MAPE|CRPSAR(4)|3.81|3.10|8.7%|2.15SARIMA|3.05|2.44|6.9%|1.72RF|3.42|2.70|7.6%|1.98(1)请给出选择SARIMA的统计依据;(2)若企业更关注利润下滑风险,应如何调整评估指标?解:(1)SARIMA在三项指标均最优,且CRPS最小,表明其概率预测校准度最好;Diebold-Mariano检验显示SARIMA相对AR(4)的RMSE差异p=0.018<0.05,显著优于AR(4)。(2)可引入下行加权指标,如LinLin损失(低估损失权重2倍)、QuantileLossatτ=0.1,或计算下行MAPE(仅实际>预测时计入)。亦可用CVaR区间覆盖率评估左尾。19.(8分)证明:对于任意线性预测X̂n+h=∑ψiXn−i,最小化MSE等价于投影定理。证明:令预测误差en+h=Xn+h−X̂n+h。MSE=E[en+h²]=E[(Xn+h−∑ψiXn−i)²]。对ψk求偏导并令为零:∂MSE/∂ψk=−2E[Xn−k(Xn+h−∑ψiXn−i)]=0⇒E[Xn−ken+h]=0,即误差与观测空间正交。由投影定理,此正交条件唯一确定最优线性投影,故得证。四、综合建模题(30分)20.背景:某共享单车公司需预测未来7天各站点借车量,以指导车辆调度。数据:2021年1月—2023年10月,共1005个站点,15分钟粒度,含天气、节假日、POI、地铁时刻表等外生变量。任务:(1)给出完整建模流程,含数据清洗、特征工程、模型选择、验证、概率预测、决策应用;(2)针对“早高峰部分站点供不应求”问题,设计基于预测结果的调度优化策略,并量化其期望收益。解:(1)流程a.数据清洗:剔除连续缺失>2小时站点;线性插值补全短缺口;异常值用3σ规则+孤立森林联合检测。b.特征工程:时间特征:星期、节假日、寒暑假、节气;天气特征:温度、湿度、风速、降水,使用滞后0–2小时;空间特征:站点500米内POI数量(办公、住宅、公交)、地铁进站量滚动30分钟和;历史特征:同期上周同期借车量、上周同期还车量、过去24小时滑动平均;交互特征:温度×节假日、降雨×工作日;对高度偏斜变量做Box-Cox。c.模型选择:基准:SARIMA(0,1,3)(0,1,1)₂₄+外部回归(SARIMAX);机器学习:GradientBoostingTrees(LightGBM),含类别特征直接支持;深度学习:TemporalFusionTransformer(TFT),编码静态站点属性、动态时变变量;验证:2023年7—10月滚动窗口,步长1天,预测horizon=7×96=672步。评估:RMSE、MAE、MAPE、CRPS、区间覆盖率、技能分数Skill=1−RMSE/naive。结果:TFT在CRPS领先7.3%,LightGBM在MAPE领先2.1%,但TFT概率预测校准更好,故选TFT。d.概率预测:TFT输出分位数0.1–0.9,共9分位;用PinballLoss调参;对极端事件(暴雨、演唱会)引入贝叶斯后验修正,融合气象部门降水概率。e.验证:PIT图近似均匀,区间覆盖率94.8%vs名义95%,表明校准良好;DM检验p<0.01优于其余模型。(2)调度优化a.决策变量:每晚22:00决定调度卡车数量K及路径,目标次日早高峰(7:00–9:00)缺车数期望最小。b.需求缺口:对站点i,早高峰借车预测分布Qi~TFT输出,还车分布Ri~同理;净需求Di=Qi−Ri。c.缺车概率:P(Di>bi)=1−F_Di(bi),bi为当前库存。d.期望缺车:E[max(Di−bi,0)]=∫_{bi}^{∞}(x−bi)f_Di(x)dx,用分位数插值快速算。e.收益:每减少一次缺车可节省用户流失成本3元,调度成本含卡车固定200元/辆、可变1.2元/辆·公里。f.模型:随机规划,目标min调度成本+3×E[缺车];解:用SampleAverageApproximation,抽样500次,CPLEX求解;对1005站点聚类为80区域,降维。g.结果:优化后早高峰缺车数下降42%,日期望净收益增加1.37万元;敏感性分析显示降水概率>60%时收益下降但仍为正。五、案例分析题(共20分)21.某省疾控中心需预测流感样病例(ILI)周发病率,以提前调配医疗资源。数据:2010—2023年周数据,含ILI%、气温、湿度、疫苗接种率、学校开学时间、搜索引擎流感指数。(1)指出流感预测相比普通销售预测的三项特殊挑战;(2)给出融合搜索指数的建模方案,并说明如何检验指数增量信息;(3)若2024年春季出现新型变异株,导致历史关系突变,如何在线更新预测?解:(1)挑战a.非平稳性:病毒变异导致传播机制突变,历史参数失效;b.多重时间尺度:季节性+局部爆发+长期趋势,需分层建模;c.数据延迟:ILI报告滞后1–2周,搜索指数实时但噪声大,需处理延迟与精度权衡。(2)方案a.结构:状态空间模型,观测方程ILI_t真实=报告_t+δ_t,δ_t~N(0,σ²_δ)反映延迟;状态含真实ILI、搜索指数偏差、变异株指示;b.搜索指数处理:对原始指数做平滑,取对数差分;用Granger因果检验确认搜索指数滞后1–2周对ILI显著;c.信息检验:构建嵌套模型,无搜索指数vs有搜索指数,比较边缘似然,BF>10认为显著;亦可用R²增加、DM检验。(3)在线更新a.采用贝叶斯动态线性模型(DLM),允许时变回归系数;b.设置变异株指示变量为隐Markov状态,转移概率用BayesianChangepointDetector估计;c.每周更新后验,若检测到结构突变(后验概率>0.7),扩大系统噪声方差,让模型快速自适应;d.用ParticleLearning实现高效在线推断,延迟<30秒;e.对极端情景,引入专家先验,如R0提升50%,先验加权融合。六、编程与计算题(共20分)22.使用Python完成以下任务并给出代码与输出截图(文字描述即可):(1)生成长度120的AR(2)序列:Xt=1.2X_{t-1}−0.5X_{t-2}+εt,εt~N(0,1),前200期burn-in;(2)用statsmodels拟合AR(p),p由BIC选择,输出参数估计与残差Ljung-Boxp值;(3)做h=1–12步预测,绘制预测均值与90%区间;(4)计算CRPS并解释其相对MAE的优势。代码:```pythonimportnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltfromstatsmodels.tsa.ar_modelimportAutoRegfromstatsmodels.stats.diagnosticimportacorr_ljungboxfromscipy.statsimportnormfromsklearn.metricsimportmean_absolute_error(1)np.random.seed(42)n=120burn=200ar=np.array([1.2,-0.5])sigma=1x=np.zeros(burn+n)eps=np.random.randn(burn+n)fortinrange(2,burn+n):x[t]=ar[0]x[t-1]+ar[1]x[t-2]+eps[t]x=x[burn:](2)model=AutoReg(x,lags=10,ic='bic')res=model.fit()print(res.summary())lb=acorr_ljungbox(res.resid,lags=10,return_df=True)print('Ljung-Boxp:',lb['lb_pvalue'].min())(3)pred=res.get_prediction(start=len(x),end=len(x)+11)mean=pred.predicted_meanci=pred.conf_int(alpha=0.1)plt.figure(figsize=(8,4))plt.plot(np.arange(len(x)),x,label='Obs')plt.plot(np.arange(len(x),len(x)+12),mean,label='Forecast')plt.fill_between(np.arange(len(x),len(x)+12),ci.iloc[:,0],ci.iloc[:,1],color='gray',alpha=0.3)plt.legend()plt.show()(4)true=x[-12:]#pse

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论