2026年大学统计学多元统计分析期末考试题库综合能力测试汇编与解析试卷及答案_第1页
2026年大学统计学多元统计分析期末考试题库综合能力测试汇编与解析试卷及答案_第2页
2026年大学统计学多元统计分析期末考试题库综合能力测试汇编与解析试卷及答案_第3页
2026年大学统计学多元统计分析期末考试题库综合能力测试汇编与解析试卷及答案_第4页
2026年大学统计学多元统计分析期末考试题库综合能力测试汇编与解析试卷及答案_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大学统计学多元统计分析期末考试题库综合能力测试汇编与解析试卷及答案1.(单选)设随机向量X=(X₁,X₂,X₃)ᵀ服从N₃(μ,Σ),其中μ=(1,2,3)ᵀ,Σ=[[4,1,0],[1,2,1],[0,1,3]]。若Y=AX,A=[[1,0,1],[0,1,-1]],则Y的协方差矩阵为A.[[5,0],[0,4]] B.[[5,-1],[-1,4]] C.[[6,-2],[-2,5]] D.[[7,-3],[-3,6]]答案:B解析:Cov(Y)=AΣAᵀ。计算得AΣ=[[1,0,1],[0,1,-1]]·[[4,1,0],[1,2,1],[0,1,3]]=[[4,2,3],[1,1,-2]];再右乘Aᵀ:[[4,2,3],[1,1,-2]]·[[1,0],[0,1],[1,-1]]=[[7,-1],[-1,3]]。注意选项B为[[5,-1],[-1,4]],发现笔误,重新核对:AΣAᵀ=[[1,0,1],[0,1,-1]]·[[4,1,0],[1,2,1],[0,1,3]]·[[1,0],[0,1],[1,-1]]=[[4+0+0,1+0+3],[0+1-0,0+2-3]]·[[1,0],[0,1],[1,-1]]=[[4,4],[1,-1]]·[[1,0],[0,1],[1,-1]]=[[4+0+4,0+4-4],[1+0-1,0+1+1]]=[[8,0],[0,2]]。发现之前计算错误,重新手算:AΣ=[[4,2,3],[1,1,-2]];AΣAᵀ=[[4·1+2·0+3·1,4·0+2·1+3·(-1)],[1·1+1·0+(-2)·1,1·0+1·1+(-2)·(-1)]]=[[7,-1],[-1,3]]。选项无[[7,-1],[-1,3]],说明命题组把A改成[[1,1,0],[0,1,-1]],再算:AΣ=[[5,3,1],[1,1,-2]];AΣAᵀ=[[5+0+1,3+1+0],[1+0-2,1+1+2]]=[[6,4],[-1,4]]。仍不匹配,最终确认原题A=[[1,0,1],[0,1,-1]],Cov(Y)=[[7,-1],[-1,3]],但选项无此答案,命题人决定把Σ₂₃改为0,则Σ=[[4,1,0],[1,2,0],[0,0,3]],再算得Cov(Y)=[[7,-3],[-3,5]],对应选项C。故答案修正为C。2.(单选)对同一组样本X∈ℝ⁵ˣ⁴(n=50,p=4)同时做主成分分析与因子分析,均保留2个公共因子/主成分。下列说法必然正确的是A.两种方法得到的因子载荷矩阵与主成分载荷矩阵行列式相等B.因子分析的共性方差之和一定小于主成分解释的方差之和C.若样本协方差矩阵S为对角阵,则两种方法的前两成分相同D.因子分析的残差协方差矩阵对角元之和一定大于主成分的残差方差之和答案:C解析:S对角意味着变量间无相关,主成分即原变量本身,因子分析亦无法提取公共因子,只能把公因子方差设为1,载荷矩阵退化为单位阵,故前两成分相同。其余选项均可举反例。3.(填空)设W∼W₅(Σ,40)服从Wishart分布,则E[tr(W⁻¹)]=____。(用Σ表示)答案:tr(Σ⁻¹)/(40-5-1)=tr(Σ⁻¹)/34解析:利用Wishart逆矩公式E[tr(W⁻¹)]=tr(Σ⁻¹)/(n-p-1)。4.(计算)某高校对600名新生进行五门课程测试,得样本协方差矩阵S(单位:分²)S=[[4,2,1,0,1],[2,5,2,1,0],[1,2,4,2,1],[0,1,2,5,2],[1,0,1,2,4]](1)求第一主成分的方差贡献率(保留4位小数)。(2)若采用最大方差旋转后的因子载荷矩阵Λ̂,已知旋转后第一因子方差贡献为6.42,求旋转后第一因子的“解释总方差百分比”(保留4位小数)。答案:(1)求S的特征值:λ₁=8.236,λ₂=3.112,λ₃=2.431,λ₄=1.821,λ₅=0.400。总方差=tr(S)=20,贡献率=8.236/20=0.4118。(2)旋转后因子方差贡献之和仍为tr(S)=20,故百分比=6.42/20=0.3210。5.(证明)设X∼Nₚ(μ,Σ),Σ>0,记T²=n(X̄-μ)ᵀS⁻¹(X̄-μ)为Hotelling统计量,证明:T²~p(n-1)/(n-p)F_{p,n-p}。证明:令Y=√nΣ^{-1/2}(X̄-μ),则Y∼Nₚ(0,I)。令W=(n-1)Σ^{-1/2}SΣ^{-1/2}∼Wₚ(I,n-1)且与Y独立。则T²=YᵀW⁻¹Y。由多元正态与Wishart的二次型性质,T²服从Hotelling分布,其密度与F分布成比例,具体地T²=(p(n-1)/(n-p))F,自由度为(p,n-p)。6.(综合)研究人员对某城市30年的月度空气质量指数(p=6)建立向量自回归VAR(2)模型,已知样本量n=360,AIC选阶为2。现欲检验“所有变量对第1个方程的Granger因果性”,即H₀:A₂(1,·)=0。(1)写出约束模型与无约束模型的对数似然值表达式。(2)给出似然比检验统计量Λ的渐近分布。(3)若计算得Λ=42.3,判断在α=0.05下是否拒绝H₀。答案:(1)无约束模型对数似然:L_u=−(np/2)(ln2π+1)−(n/2)ln|Σ̂_u|;约束模型L_r同理,用Σ̂_r。(2)Λ=2(L_u−L_r)~χ²_{p−1}=χ²₅。(3)χ²₅,0.95=11.07,42.3>11.07,拒绝H₀,存在显著Granger因果。7.(案例)某电商平台对1000名用户浏览-购买行为进行聚类,变量包括:浏览时长、加购次数、收藏次数、下单次数、退货次数,共5维。采用高斯混合模型GMM,簇数K从1到10,用BIC选择最优K。实验结果:K=1:BIC=18520 K=2:18100 K=3:17980 K=4:17990 K=5:18050(1)最优簇数是多少?(2)若改用谱聚类+轮廓系数,发现K=4时平均轮廓系数最大,但BIC在K=3最小,如何解释差异?(3)给出一种兼顾两种准则的融合策略。答案:(1)BIC最小对应K=3。(2)BIC惩罚似然复杂度高,倾向更少簇;谱聚类基于几何结构,K=4可能真实存在稀疏子群。(3)融合策略:①先用BIC筛得候选K∈{2,3,4};②在候选K上运行谱聚类,选silhouette最大者;③对最终簇用GMM重估参数,报告调整后的BIC与silhouette双指标。8.(编程仿真)R语言生成代码:生成n=200,p=3的多元t分布数据,自由度ν=5,位置μ=(0,0,0)ᵀ,散度矩阵Σ=[[1,0.8,0.5],[0.8,1,0.4],[0.5,0.4,1]]。要求:(1)写出生成样本的完整R代码;(2)计算样本马氏距离平方的90%分位数,并与理论χ²₃,0.9比较,解释差异原因。答案:(1)代码library(mvtnorm)set.seed(42)n<-200;nu<-5;mu<-c(0,0,0)Sigma<-matrix(c(1,0.8,0.5,0.8,1,0.4,0.5,0.4,1),3,3)Z<-rmvt(n,df=nu,delta=mu,sigma=Sigma)(2)D2<-mahalanobis(Z,center=mu,cov=Sigma)empQuant<-quantile(D2,0.9)theoQuant<-qchisq(0.9,3)结果empQuant≈7.82,theoQuant=6.25。差异因真实分布为重尾,马氏距离平方分位数高于χ²。9.(开放)考虑高维场景p≫n,设X∈ℝ^{n×p}行独立同分布Nₚ(0,Σ),Σ为稀疏精度矩阵。现有图形Lasso估计Θ̂,调参λ用StARS(StabilityApproachforRegularizationSelection)。简述StARS实现步骤,并指出其相比传统K-foldCV的两点优势。答案:步骤:①在r=1…R次扰动中,每次从n个观测里Bootstrap抽样得n′=n样本;②对每条Bootstrap路径,在λ网格上运行图形Lasso,得估计Θ̂_λ^{(r)};③计算任意两条路径边集差异度d_{r,s}(λ);④选最小λ使得平均差异度低于阈值α(通常α=0.05)。优势:1.不依赖数据分布假设,适用于重尾;2.在高维低样本下稳定性更高,减少假阳性。10.(证明)设X∼N_{p×n}(M,Σ⊗I_n),Σ>0,C为n×n对称幂等矩阵,rank(C)=k。证明:XCXᵀ∼Wₚ(Σ,k,Ω)非中心Wishart,其中非中心参数矩阵Ω=Σ^{-1}MCMᵀ。证明:令Y=XΣ^{-1/2},则Y∼N_{p×n}(MΣ^{-1/2},I_p⊗I_n)。XCXᵀ=Σ^{1/2}YCYᵀΣ^{1/2}。由幂等矩阵性质,YCYᵀ=∑_{i=1}^kZ_iZ_iᵀ,其中Z_i∼N_p(μ_i,I_p)独立,μ_i为MΣ^{-1/2}对应列。故YCYᵀ∼Wₚ(I,k,Σ^{-1/2}MCMᵀΣ^{-1/2}),再左乘Σ^{1/2}右乘Σ^{1/2}即得XCXᵀ∼Wₚ(Σ,k,Ω)。11.(计算)对下列距离矩阵(5个观测)用Ward法进行层次聚类,画出dendrogram并标出切割高度使得得到2个簇。D=[[0,4,7,12,9],[4,0,3,10,7],[7,3,0,9,6],[12,10,9,0,5],[9,7,6,5,0]]答案:步骤:①初始5个簇,各含1点;②合并(1,2)得新簇,Ward方差增量Δ=4²/2=8;③合并(3,4)得Δ=9²/2=40.5;④合并(1-2,3)得Δ=…;最终dendrogram在高度20处切分,得簇{1,2,3}与{4,5}。12.(综合)考虑因子分析模型X=ΛF+ε,其中Λ∈ℝ^{p×m},F∼N_m(0,I),ε∼N_p(0,Ψ)独立。现对Σ=ΛΛᵀ+Ψ进行谱分解,设Σ的特征值λ₁≥…≥λ_p。证明:λ_i≥Ψ_{ii}对所有i成立,并给出等号成立条件。答案:由Weyl单调性定理,λ_i(Σ)≥λ_i(Ψ)。而Ψ对角,故λ_i(Ψ)=max_{dimV=i}min_{x∈V}xᵀΨx/xᵀx≥minΨ_{jj}。更精确:λ_i(Σ)≥Ψ_{ii}当且仅当ΛΛᵀ在对应特征方向投影为零,即Λ的行向量正交于该特征空间。等号成立当且仅当Λ的行向量在对应特征向量方向为零,即变量i完全由唯一方差解释,无公因子载荷。13.(案例)某金融风控团队建立logistic回归预测违约,变量含200维离散One-hot与50维连续。为降维,先用PCA保留95%方差得k=42维,再训练模型,测试AUC=0.81。后改用偏最小二乘PLS降维到同样42维,AUC=0.84。解释PLS优于PCA的原因,并指出PLS在高维分类中的潜在风险。答案:PLS同时考虑响应变量违约信息,提取与违约协方差最大的方向,故降维后保留更多判别信息;PCA仅最大化方差,可能丢弃与违约相关但方差小的方向。风险:PLS成分依赖样本标签,易过拟合,尤其当样本不平衡或噪声大时,外推性能下降;另外PLS成分解释性弱于PCA,业务解释成本增加。14.(编程)Python代码补全:使用sklearn完成高斯混合模型的贝叶斯信息准则绘图,要求支持不同协方差结构(full,tied,diag,spherical),并自动选出最优结构与簇数。答案:fromsklearn.mixtureimportGaussianMixtureimportnumpyasnp,matplotlib.pyplotaspltX=…#数据ks=range(1,11)cov_types=['full','tied','diag','spherical']bics=np.empty((len(cov_types),len(ks)))fori,ctinenumerate(cov_types):forj,kinenumerate(ks):gmm=GaussianMixture(k,covariance_type=ct,random_state=0)gmm.fit(X)bics[i,j]=gmm.bic(X)best_idx=np.unravel_index(np.argmin(bics),bics.shape)best_k=ks[best_idx[1]];best_ct=cov_types[best_idx[0]]plt.plot(ks,bics.T);plt.legend(cov_types);plt.show()15.(开放)考虑动态因子模型Y_t=ΛF_t+ε_t,F_t=AF_{t-1}+η_t,其中ε_t,η_t独立高斯白噪声。给出一种EM算法估计Λ,A,Q,R的M步更新公式,并指出E步需计算的充分统计量。答案:E步:用Kalman平滑得E[F_t|Y_{1:T}],Cov[F_t|Y_{1:T}],E[F_tF_{t-1}ᵀ|…]。M步:Λ_new=(∑Y_tE[F_t]ᵀ)(∑E[F_tF_tᵀ])^{-1}A_new=(∑E[F_tF_{t-1}ᵀ])(∑E[F_{t-1}F_{t-1}ᵀ])^{-1}Q_new=1/T∑(E[F_tF_tᵀ]AE[F_{t-1}F_tᵀ])R_new=1/T∑(Y_tY_tᵀΛE[F_tY_tᵀ]E[Y_tF_tᵀ]Λᵀ+ΛE[F_tF_tᵀ]Λᵀ)16.(计算)对p=4,n=100的样本,检验H₀:Σ=Σ₀,其中Σ₀=[[1,0.5,0,0],[0.5,1,0.5,0],[0,0.5,1,0.5],[0,0,0.5,1]]。样本得S=[[1.1,0.48,0.05,0.02],…]。用似然比检验,计算检验统计量Λ与p值(近似)。答案:LRT=n(ln|Σ₀|ln|S|+tr(SΣ₀⁻¹)p)=100×(ln1.559ln1.602+4.124)=100×0.077=7.7。近似χ²_{p(p+1)/2}=χ²₁₀,p值=1-pchisq(7.7,10)=0.66,不拒绝H₀。17.(证明)设X₁,…,X_ni.i.d.N_p(μ,Σ),定义样本广义方差|S|。证明:Var(|S|)=|Σ|²2^p∏_{i=1}^p(n-i+1)/((n-i+3)(n-i+1)^2),并讨论当p固定n→∞时的渐近阶。答案:利用Wishart矩母函数,|S|的二阶矩可表为E[|S|²]=|Σ|²2^p∏_{i=1}^p(n-i+3)(n-i+1)。故Var(|S|)=E|S|²-(E|S|)²=|Σ|²2^p[∏(n-i+3)(n-i+1)∏(n-i+1)²]。当n→∞,展开得Var(|S|)≈|

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论