2026多元统计期末试题及答案_第1页
2026多元统计期末试题及答案_第2页
2026多元统计期末试题及答案_第3页
2026多元统计期末试题及答案_第4页
2026多元统计期末试题及答案_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026多元统计期末试题及答案1.(25分)某市2026年1—12月空气质量指数(AQI)与同期PM2.5、SO₂、NO₂、O₃、CO五项污染物浓度(单位:μg/m³,CO为mg/m³)的逐日数据已中心化。现抽取n=360条记录,得到样本协差阵S(×10⁻²):||AQI|PM2.5|SO₂|NO₂|O₃|CO||--------|------|------|-----|-----|-----|-----||AQI|8.42|||||||PM2.5|6.31|5.88||||||SO₂|2.04|1.93|1.76|||||NO₂|3.27|2.85|1.12|2.45||||O₃|-1.55|-1.42|-0.31|-0.68|3.20|||CO|4.18|3.76|1.45|2.01|-0.93|2.89|(1)计算AQI与PM2.5的偏相关(控制其余变量)并给出显著性结论(α=0.01)。(2)以AQI为因变量,其余五项为自变量建立多元线性模型,给出回归方程、R²、调整R²及整体F检验。(3)若某月PM2.5、SO₂、NO₂、O₃、CO的均值依次比总体均值高1.2、0.5、0.8、-0.3、0.6个标准差,利用(2)中模型预测该月AQI偏离均值多少。(4)检验PM2.5与O₃的回归系数是否同时为零(α=0.05)。(5)计算所有自变量的方差膨胀因子VIF,并诊断多重共线性。答案与解析(1)记Y=AQI,X₁=PM2.5,X₂=(SO₂,NO₂,O₃,CO)ᵀ。将S分块:S_{YY}=8.42,S_{YX₁}=6.31,S_{YX₂}=(2.04,3.27,-1.55,4.18),S_{X₁X₁}=5.88,S_{X₁X₂}=(1.93,2.85,-1.42,3.76),S_{X₂X₂}=|1.761.12-0.311.45||1.122.45-0.682.01||-0.31-0.683.20-0.93||1.452.01-0.932.89|偏相关r_{YX₁|X₂}=(S_{YX₁}-S_{YX₂}S_{X₂X₂}^{-1}S_{X₁X₂})/√[(S_{YY}-S_{YX₂}S_{X₂X₂}^{-1}S_{YX₂})(S_{X₁X₁}-S_{X₁X₂}S_{X₂X₂}^{-1}S_{X₁X₂})].先求S_{X₂X₂}^{-1},用Cholesky分解得精确逆,代入算得分子=2.117,分母=√(3.884×1.973)=2.768,故r=0.765。自由度=n-p-1=360-5-1=354,检验统计量t=r√(354)/√(1-r²)=21.4,远大于t_{0.005}(354)=2.59,拒绝原假设,偏相关显著。(2)由S可立刻得到β̂=S_{XX}^{-1}S_{XY},其中S_{XX}为5×5子矩阵。计算得:β̂=(0.712,0.238,0.451,-0.186,0.396)ᵀ,截距因中心化而为0。回归方程:AQ̂I=0.712·PM2.5+0.238·SO₂+0.451·NO₂-0.186·O₃+0.396·CO.R²=S_{YX}β̂/S_{YY}=7.884/8.42=0.936,调整R²=1-(1-R²)(n-1)/(n-p-1)=0.935。整体F=(R²/p)/[(1-R²)/(n-p-1)]=995.3,F_{0.01}(5,354)=3.02,极显著。(3)记Z=(1.2,0.5,0.8,-0.3,0.6)ᵀ,则预测偏离为β̂ᵀZ=0.712×1.2+0.238×0.5+0.451×0.8-0.186×(-0.3)+0.396×0.6=1.396个标准差。(4)构造子矩阵C=[01000;00010],检验H₀:Cβ=0。F=[(RSS_H-RSS)/q]/[RSS/(n-p-1)],其中q=2,RSS=(1-R²)S_{YY}(n-1)=222.7,RSS_H需重新回归剔除PM2.5与O₃后计算得RSS_H=612.4,F=(612.4-222.7)/2/(222.7/354)=309.8,F_{0.05}(2,354)=3.00,拒绝,两变量不能同时删除。(5)VIF_j=1/(1-R_j²),R_j²为第j个变量对其余回归的决定系数。计算得:VIF_{PM2.5}=4.32,VIF_{SO₂}=2.11,VIF_{NO₂}=2.78,VIF_{O₃}=1.65,VIF_{CO}=3.05。最大VIF<5,共线性温和,无需修正。2.(20分)对某电商2026年“6·18”大促期间1000名用户的购物数据,提取其浏览时长X₁(分钟)、加购件数X₂、优惠券使用张数X₃、支付延迟X₄(小时)及最终成交额Y(百元)。已做标准化,得到相关阵R:||X₁|X₂|X₃|X₄|Y||-----|-----|-----|-----|-----|-----||X₁|1||||||X₂|0.63|1|||||X₃|0.41|0.55|1||||X₄|-0.22|-0.31|-0.18|1|||Y|0.58|0.71|0.46|-0.37|1|(1)求Y对X₁—X₄的全模型最小二乘估计,并给出回归平方和SSR与误差平方和SSE。(2)采用逐步回归(α进=0.05,α出=0.10),给出最终入选变量及回归方程。(3)若某用户X₁=1.5,X₂=0.8,X₃=-0.6,X₄=0.2,计算其95%置信区间与95%预测区间。(4)基于残差分析,发现支付延迟X₄的残差图呈明显漏斗形,提出一种改进方案并给出新模型估计。答案与解析(1)标准化模型β̂=R_{XX}^{-1}R_{XY},R_{XX}为4×4子阵,R_{XY}=(0.58,0.71,0.46,-0.37)ᵀ。求得β̂=(0.204,0.512,0.093,-0.218)ᵀ。SSR=β̂ᵀR_{XY}·n=0.204×0.58+…=0.618×1000=618,SSE=(1-R²)n=(1-0.618)×1000=382。(2)逐步回归:Step0:仅截距,RSS=1000。Step1:引入X₂,F=(0.71²×1000)/1=504,p<0.001,入选。Step2:引入X₄,偏F=(-0.37²×1000)/(1-0.71²)=228,p<0.001,入选。Step3:引入X₁,偏F=0.204²×1000/(1-0.618)=108,p<0.001,入选。Step4:引入X₃,偏F=0.093²×1000/(1-0.681)=12.1,p=0.0005,入选。Step5:尝试剔除,最小X₃的F=12.1>0.10,无剔除。最终变量:X₁,X₂,X₃,X₄,方程同(1)。(3)预测值ŷ=β̂ᵀx=0.204×1.5+0.512×0.8+0.093×(-0.6)-0.218×0.2=0.734。标准误差σ̂=√(SSE/(n-p-1))=√(382/995)=0.620。置信区间:ŷ±t_{0.975}(995)·σ̂·√(xᵀ(XᵀX)^{-1}x)=0.734±1.96×0.620×0.089=[0.626,0.842]。预测区间:0.734±1.96×0.620×√(1+0.089)=[-0.548,2.016]。(4)漏斗形表明Var(ε)随X₄增大而增大,采用加权最小二乘,权w=1/X₄²。重新估计得β̂_WLS=(0.198,0.508,0.089,-0.201)ᵀ,R²提升至0.651,残差图明显改善。3.(15分)某医疗团队研究基因表达与癌症分期,收集p=8个免疫相关基因在n=120例组织中的表达值。已做log2转化并中心化,样本协差阵S的特征值:λ₁=3.42,λ₂=1.85,λ₃=0.97,λ₄=0.63,λ₅=0.41,λ₆=0.28,λ₇=0.24,λ₈=0.20.(1)计算前两个主成分对总方差的累计贡献率。(2)给出检验“保留两个主成分足够”的Bartlett球形检验统计量及其近似p值。(3)若第一主成分得分PC1与癌症分期Spearman相关系数ρ=0.68,检验其显著性(α=0.01)。(4)第二主成分载荷向量γ₂=(0.15,-0.22,0.38,0.41,-0.29,0.31,0.50,-0.46)ᵀ,解释其生物学意义。答案与解析(1)累计贡献=(λ₁+λ₂)/∑λ_i=(3.42+1.85)/7.00=0.752,即75.2%。(2)Bartlett统计量:χ²=-(n-1-(2p+5)/6)∑_{i=3}^8lnλ_i+(n-1)(p-k)ln(∑_{i=k+1}^pλ_i/(p-k)),k=2,代入得χ²=163.4,df=(p-k)(p-k+1)/2=15,χ²_{0.999}(15)=37.7,163.4>37.7,p≈0,拒绝,说明两个主成分不够,但临床常视>70%即够用,此处报告75.2%可接受。(3)H₀:ρ=0,t=ρ√(n-2)/√(1-ρ²)=0.68√118/√(1-0.68²)=10.47,t_{0.995}(118)=2.62,拒绝,极显著。(4)γ₂高载荷在基因3、4、7为正,基因8为负,对应炎症激活与细胞凋亡通路,可解释为“炎症-凋亡平衡轴”。4.(20分)为比较三种推荐算法(A/B/C)在2026年“双11”期间的转化效果,从9个品类中各随机抽取若干店铺,记录转化率(%),数据已满足多元正态,得到组间叉积阵H与组内叉积阵E(df₁=2,df₂=24):H=|58.342.131.6||42.139.728.4||31.628.426.5|,E=|112.586.371.2||86.395.466.8||71.266.888.1|.(1)计算Wilks’Λ、Pillai迹、Hotelling-Lawley迹、Roy最大根。(2)基于Λ给出精确F统计量及p值,并判断算法差异(α=0.05)。(3)若后续做单变量ANOVA,发现仅有品类3显著,解释为何与多元结果不一致。(4)给出三种算法在品类3上的95%同时置信区间(Tukey)。答案与解析(1)|H-λE|=0解得特征值λ₁=0.842,λ₂=0.315,λ₃=0.073。Λ=∏1/(1+λ_i)=0.412,Pillai=∑λ_i/(1+λ_i)=1.385,Hotelling=∑λ_i=1.230,Roy=λ₁=0.842。(2)RaoF=((1-Λ^{1/s})/Λ^{1/s})·(df₂/df₁),s=√(p²df₁²-4)/(p²+df₁²-5)=1,F=((1-0.412^{1/1})/0.412)·(24/2)=17.2,df₁=2,df₂=24,F_{0.95}(2,24)=3.40,17.2>3.40,p=0.00003,拒绝,算法差异显著。(3)多元检验综合9品类,单变量仅品类3显著,说明差异主要集中该品类,其余品类噪声大,导致多元整体仍显著但单变量多数不显著。(4)品类3均值:A=15.2,B=18.7,C=21.4,合并MS_E=88.1/24=3.67,n=9。Tukey临界q_{0.05}(3,24)=3.53,SE=√(3.67/9)=0.639,同时区间:A-B:(15.2-18.7)±3.53×0.639×√2=[-6.7,-0.3],A-C:[-9.4,-3.0],B-C:[-5.9,0.5],仅B与C不显著,A显著低于B、C。5.(20分)为构建用户信用评分,收集n=2000样本,p=18个变量含年龄、收入、历史逾期、社交活跃度等。采用偏最小二乘PLS回归,提取m=6个成分,得到交叉验证RMSECV曲线在m=4处达最小0.187,m>4后持平。已知因变量Y为标准化违约概率。(1)给出m=4时,第一成分权重向量w₁与第一成分得分t₁的表达式。(2)计算变量重要性投影VIP_j,列出VIP>1的变量。(3)若将数据随机拆为训练集1500与测试集500,重复100次,得测试集RMSEP分布:均值0.195,标准差0.012,求95%置信上限。(4)比较PLS与Lasso(通过10折CV调参)在测试集上的平均RMSE,若PLS=0.195,Lasso=0.203,给出统计检验结论(α=0.05)。答案与解析(1)w₁为XᵀY/‖XᵀY‖,设X已标准化,得w₁=(0.42,0.31,-0.38,0.15,…)ᵀ,t₁=Xw₁。(2)VIP_j=√(∑_{m=1}^4(w_{jm}^2·SSY_m))/∑SSY_m,其中SSY_m为第m成分解释Y方差。计算得VIP

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论