多元统计学多元统计分析试题A卷及答案_第1页
多元统计学多元统计分析试题A卷及答案_第2页
多元统计学多元统计分析试题A卷及答案_第3页
多元统计学多元统计分析试题A卷及答案_第4页
多元统计学多元统计分析试题A卷及答案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计学多元统计分析试题A卷及答案一、单项选择题(每题2分,共20分)1.在多元正态分布中,若随机向量X~Nₚ(μ,Σ),则下列哪一项最能刻画其密度函数的核心结构?A.(x−μ)ᵀΣ⁻¹(x−μ)B.|Σ|C.tr(Σ)D.Σ⁻¹μ答案:A解析:多元正态密度指数部分为马氏距离二次型(x−μ)ᵀΣ⁻¹(x−μ),它决定了等密度椭球面的形状与方向。2.主成分分析中,第k主成分得分yₖ=aₖᵀx,若要求Var(yₖ)最大,则aₖ应满足:A.aₖ为Σ第k大特征值对应特征向量B.aₖ为单位向量且与前面所有aᵢ正交C.A与B同时成立D.只需aₖ为单位向量答案:C解析:主成分载荷向量需依次最大化方差且彼此正交,故必须同时满足“单位长度+正交+特征向量”三条件。3.设样本协方差阵S的特征值为λ₁≥λ₂≥…≥λₚ≥0,则累计贡献率到第k个主成分定义为:A.Σᵢ₌₁ᵏλᵢ/Σᵢ₌₁ᵖλᵢB.λₖ/λ₁C.Σᵢ₌₁ᵏλᵢ²D.λₖ/tr(S)答案:A解析:累计贡献率衡量前k个主成分解释总方差的比例,用特征值之和比计算。4.在系统聚类中,类间距离采用“离差平方和增量”的是:A.最短距离法B.最长距离法C.Ward法D.重心法答案:C解析:Ward准则最小化合并后类内平方和增量,等价于类间离差平方和。5.若对同一数据分别用k=3和k=5做k-means聚类,则一般而言:A.k=3的SSE更大B.k=3的SSE更小C.SSE与k无关D.无法比较答案:A解析:SSE随聚类数k增加单调不增,k=3时SSE≥k=5时SSE。6.典型相关分析中,第一对典型变量(u₁,v₁)的相关系数ρ₁满足:A.ρ₁=λ₁,其中λ₁为交叉协方差阵的最大奇异值B.ρ₁=λ₁²C.ρ₁=tr(Σ₁₂)D.ρ₁=|Σ₁₁Σ₂₂|答案:A解析:典型相关系数即交叉协方差阵奇异值,第一对对应最大奇异值。7.设X(n×p)为中心化数据矩阵,则样本协方差阵S可表示为:A.XᵀX/(n−1)B.XXᵀ/(n−1)C.XᵀX/nD.XXᵀ/n答案:A解析:样本协方差定义要求除以n−1,且X行向量为观测,故S=XᵀX/(n−1)。8.若判别分析中两个总体协方差阵相等,则Bayes规则退化为:A.线性判别B.二次判别C.核密度判别D.最近邻判别答案:A解析:等协方差阵时二次项抵消,判别函数呈线性。9.在多元方差分析MANOVA中,检验统计量Λ=|E|/|E+H|称为:A.WilksΛB.Pillai迹C.HotellingT²D.Roy最大根答案:A解析:WilksΛ为行列式比,用于检验均值向量差异。10.若p=5,样本量n=20,则样本协方差阵S的自由度为:A.20B.19C.15D.95答案:B解析:样本协方差自由度为n−1=19。二、填空题(每空3分,共30分)11.设x₁,…,xₙi.i.d.来自Nₚ(μ,Σ),则μ的极大似然估计为________,Σ的极大似然估计为________。答案:x̄=1/nΣxᵢ;Sₙ=1/nΣ(xᵢ−x̄)(xᵢ−x̄)ᵀ解析:MLE在多元正态下样本均值与样本协方差(除以n)为闭式解。12.主成分分析中,若前两个主成分累计贡献率达到85%,则可将原始p维数据降至________维,信息损失约________%。答案:2;15解析:贡献率即保留方差比例,剩余15%视为信息损失。13.若两个随机向量X₁,X₂独立,则Cov(X₁,X₂)=________。答案:零矩阵O解析:独立必不相关,故交叉协方差为零矩阵。14.在k-means算法中,目标函数SSE=Σᵢ₌₁ⁿΣⱼ₌₁ᵏzᵢⱼ||xᵢ−mⱼ||²,其中zᵢⱼ∈{0,1}为________变量,mⱼ为第j类的________。答案:隶属;均值向量(质心)解析:zᵢⱼ指示样本i是否属于类j,mⱼ为类j的均值。15.典型相关分析要求两组变量分别做________变换,使得变换后变量方差为________。答案:线性;1解析:典型变量需标准化,故要求变换后单位方差。16.若Σ=diag(4,2,1),则马氏距离(x−μ)ᵀΣ⁻¹(x−μ)=________当x−μ=(1,1,1)ᵀ。答案:1/4+1/2+1=1.75解析:对角阵逆元为倒数,直接代入即可。17.在Fisher线性判别中,最佳投影方向w∝________,其中B为类间散度阵,W为类内散度阵。答案:W⁻¹(μ₁−μ₂)解析:Fisher准则最大化(wᵀBw)/(wᵀWw),求导得解。18.若样本协方差阵S的特征值为10,5,2,0.5,则条件数κ=________。答案:20解析:条件数=最大特征值/最小非零特征值=10/0.5=20。19.当p>n时,样本协方差阵S必为________定矩阵,其逆________存在。答案:半正;不解析:秩≤n<p,故奇异,逆不存在。20.在多元回归模型Y=XB+E中,若E~Nₙ×ₘ(0,Iₙ⊗Σ),则B的OLS估计B̂=________,其vec(B̂)的分布为________。答案:(XᵀX)⁻¹XᵀY;N(vec(B),(XᵀX)⁻¹⊗Σ)解析:向量化后利用Kronecker积性质。三、计算与证明题(共50分)21.(10分)给定二维数据矩阵X=[[2,1],[4,3],[6,5],[8,7]],(1)求样本均值x̄与样本协方差S;(2)求第一主成分方向及方差贡献率。解:(1)x̄=1/4Σxᵢ=[5,4]ᵀ中心化矩阵X_c=[[−3,−3],[−1,−1],[1,1],[3,3]]S=X_cᵀX_c/(4−1)=1/3[[20,20],[20,20]]=[[6.67,6.67],[6.67,6.67]](2)求S特征值:|S−λI|=0⇒λ(λ−13.33)=0⇒λ₁=13.33,λ₂=0对应λ₁特征向量a₁∝[1,1]ᵀ,单位化得a₁=[0.707,0.707]ᵀ贡献率=λ₁/(λ₁+λ₂)=100%答案:x̄=[5,4]ᵀ;S=[[6.67,6.67],[6.67,6.67]];第一主成分方向[0.707,0.707]ᵀ,贡献率100%。解析:数据完全共线,第二主成分方差为零。22.(10分)设两个总体π₁,π₂分别服从N₂(μ₁,Σ),N₂(μ₂,Σ),其中μ₁=[0,0]ᵀ,μ₂=[2,2]ᵀ,Σ=[[1,0.5],[0.5,1]],先验概率相等,损失为0-1。(1)写出Bayes线性判别函数;(2)对观测x=[1,1]ᵀ分类并求后验概率。解:(1)线性判别函数δᵢ(x)=xᵀΣ⁻¹μᵢ−½μᵢᵀΣ⁻¹μᵢ+logπᵢΣ⁻¹=1/(1−0.25)[[1,−0.5],[−0.5,1]]=4/3[[1,−0.5],[−0.5,1]]δ₁(x)=0−0+log0.5=−0.693δ₂(x)=xᵀΣ⁻¹μ₂−½μ₂ᵀΣ⁻¹μ₂+log0.5=[1,1]·4/3[[1,−0.5],[−0.5,1]]·[2,2]ᵀ−½[2,2]·4/3[[1,−0.5],[−0.5,1]]·[2,2]ᵀ−0.693=4/3(2−1+2−1)−½·4/3(4−2+4−2)−0.693=8/3−8/3−0.693=−0.693两函数值相等,判别边界通过x=[1,1]ᵀ。(2)因x位于边界,后验概率P(π₁|x)=P(π₂|x)=0.5答案:判别函数值均为−0.693;x=[1,1]ᵀ无法唯一分配,后验概率各0.5。解析:该点恰好落在判别超平面上。23.(10分)对三维数据,已知样本协方差阵S=[[4,2,0],[2,3,1],[0,1,2]],(1)求特征值与特征向量;(2)求第一主成分载荷及方差;(3)若只保留第一主成分,求重构误差(平方范数)。解:(1)解|S−λI|=0:det[[4−λ,2,0],[2,3−λ,1],[0,1,2−λ]]=0展开得−λ³+9λ²−23λ+14=0⇒(λ−1)(λ−2)(λ−6)=0特征值λ₁=6,λ₂=2,λ₃=1对应单位特征向量:a₁=[0.816,0.577,0.058]ᵀa₂=[−0.408,0.577,0.707]ᵀa₃=[0.408,−0.577,0.707]ᵀ(2)第一主成分载荷即a₁,方差=λ₁=6(3)重构误差=Σᵢ₌₂³λᵢ=2+1=3答案:特征值6,2,1;第一载荷[0.816,0.577,0.058]ᵀ,方差6;重构误差3。解析:重构误差等于被舍弃成分特征值之和。24.(10分)设随机向量X=[X₁,X₂]ᵀ服从二元正态,均值[0,0]ᵀ,协方差Σ=[[1,ρ],[ρ,1]]。(1)求X₁+X₂与X₁−X₂的方差及相关系数;(2)证明当ρ=0.5时,两变量独立。解:(1)Var(X₁+X₂)=Var(X₁)+Var(X₂)+2Cov=1+1+2ρ=2(1+ρ)Var(X₁−X₂)=1+1−2ρ=2(1−ρ)Cov(X₁+X₂,X₁−X₂)=Var(X₁)−Var(X₂)=0故相关系数ρ*=0(2)当ρ=0.5时,Cov=0,且二元正态下不相关等价于独立,故X₁+X₂与X₁−X₂独立。答案:Var(X₁+X₂)=2(1+ρ),Var(X₁−X₂)=2(1−ρ),相关系数0;ρ=0.5时独立。解析:线性组合正态且协方差为零即独立。25.(10分)对n=50、p=4的数据做Ward聚类,得到某步合并后类内平方和增量Δ=12.3,已知两合并类的样本量分别为n₁=10,n₂=15,求两类重心之间的欧氏距离d。解:Ward准则Δ=(n₁n₂)/(n₁+n₂)·d²⇒d²=Δ·(n₁+n₂)/(n₁n₂)=12.3·25/150=2.05⇒d=√2.05≈1.432答案:1.432解析:利用Ward增量与重心距离平方的正比关系反推。四、综合应用题(共50分)26.(15分)某电商对1000名用户记录5项行为指标:浏览时长X₁、加购次数X₂、收藏次数X₃、下单金额X₄、复购间隔X₅。经标准化后得样本相关阵R:[[1,0.82,0.78,0.65,0.30],[0.82,1,0.80,0.63,0.28],[0.78,0.80,1,0.61,0.25],[0.65,0.63,0.61,1,0.20],[0.30,0.28,0.25,0.20,1]](1)用主成分法取m=2,求载荷矩阵A;(2)计算共性方差及特殊方差估计;(3)对X₁的共性方差进行显著性评述。解:(1)求R特征值:λ₁=3.41,λ₂=0.98,λ₃=0.35,λ₄=0.18,λ₅=0.08前两个特征向量(前两项):a₁=[0.45,0.45,0.44,0.41,0.46]ᵀa₂=[−0.20,−0.25,−0.30,0.85,−0.25]ᵀ载荷矩阵A=[√λ₁a₁,√λ₂a₂]=[[0.83,−0.20],[0.83,−0.25],[0.81,−0.30],[0.76,0.84],[0.85,−0.25]](2)共性方差hᵢ²=Σⱼ₌₁²Aᵢⱼ²得h²=[0.83²+0.20²,…]=[0.73,0.75,0.75,1.28,0.79]特殊方差ψᵢ=1−hᵢ²注意X₄的h₄²>1,出现Heywood情形,需迭代调整。(3)X₁共性方差0.73,说明约73%的浏览时长变异可由前两公因子解释,其余27%为独特波动,表明指标受潜在“活跃度”因子影响显著,但仍存在未被建模的随机因素。答案:载荷矩阵如上;共性方差0.73,0.75,0.75,1.28,0.79;X₁解释度较高。解析:Heywood案例提示需增加因子数或采用其他估计法。27.(15分)为研究城市空气质量与气象关系,收集n=60天的数据:Y=[PM2.5,O₃]ᵀ为污染向量,X=[温度,湿度,风速]ᵀ为气象向量。经计算:Σ̂_Y=[[120,45],[45,80]],Σ̂_X=[[25,10,−5],[10,20,0],[−5,0,15]],Σ̂_YX=[[30,20,−10],[25,15,−8]](1)求第一对典型变量(u₁,v₁)及典型相关系数;(2)解释u₁,v₁的实际含义;(3)若某日X=[25,70,2]ᵀ,预测对应u₁得分。解:(1)构造M₁=Σ̂_Y⁻¹Σ̂_YXΣ̂_X⁻¹Σ̂_YXᵀ计算得最大特征值ρ₁²=0.68⇒ρ₁=0.825对应左特征向量α₁∝[0.72,0.69]ᵀ,标准化后α₁=[0.72,0.69]ᵀ右特征向量β₁∝Σ̂_X⁻¹Σ̂_YXᵀα₁,归一化得β₁=[0.35,0.28,−0.18]ᵀ故u₁=α₁ᵀY=0.72PM2.5+0.69O₃v₁=β₁ᵀX=0.35温度+0.28湿度−0.18风速(2)u₁高值表示污染综合水平高,v₁高值反映高温高湿低风的气象条件,两者正相关0.825,说明静稳闷热天气易致污染。(3)标准化X:先减均值再除标准差。设已中心标准化,则u₁预测=v₁·ρ₁=[0.35,0.28,−0.18]·[25,70,2]ᵀ=0.35·25+0.28·70−0.18·2=8.75+19.6−0.36=27.99答案:典型相关系数0.825;u₁=0.72PM2.5+0.69O₃,v₁=0.35温度+0.28湿度−0.18风速;预测u₁≈28.0。解析:典型相关揭示两组变量间最大相关结构。28.(20分)某金融机构构建信用评分模型,对m=2总体:违约(π₁,n₁=200)与正常(π₂,n₂=800)。估计得:x̄₁=[30,40]ᵀ,x̄₂=[50,60]ᵀS_pooled=[[25,15],[15,20]](1)建立Fisher线性判别函数,并给出判别系数;(2)求判别效率指标Δ²=(μ₁−μ₂)ᵀΣ⁻¹(μ₁−μ₂)的估计;(3)若新客户的指标x=[40,50]ᵀ,计算其判别得分及后验概率(先验按样本比例);(4)评估该模型的预期误判率。解:(1)w∝S_pooled⁻¹(x̄₁−x̄₂)S_pooled⁻¹=1/(25·20−15²)[[20,−15],[−15,25]]=1/175[[20,−15],[−15,25]]x̄₁−x̄₂=[−20,−20]ᵀw=1/175[[20,−15],[−15,25]]·[−20,−20]=1/175[−

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论