2025年回归分析试题答案_第1页
2025年回归分析试题答案_第2页
2025年回归分析试题答案_第3页
2025年回归分析试题答案_第4页
2025年回归分析试题答案_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年回归分析试题答案一、简单线性回归模型构建与检验设某研究关注社交媒体日均使用时间(X,单位:小时)对青少年睡眠质量(Y,以匹兹堡睡眠质量指数PSQI评分衡量,分值越高睡眠质量越差)的影响,收集了n=100名12-18岁青少年的观测数据。假设模型满足线性关系、独立同分布、零均值与方差齐性假设,构建简单线性回归模型:Y=β₀+β₁X+ε,ε~N(0,σ²)。1.参数估计根据最小二乘法(OLS),参数估计量需最小化残差平方和Q=Σ(Yi-Ŷi)²=Σ(Yi-β₀-β₁Xi)²。对β₀、β₁求偏导并令其为零,得到正规方程组:ΣYi=nβ₀+β₁ΣXiΣXiYi=β₀ΣXi+β₁ΣXi²解得:β̂₁=(nΣXiYi-ΣXiΣYi)/(nΣXi²-(ΣXi)²)β̂₀=Ȳ-β̂₁X̄代入样本数据计算得:ΣXi=350,ΣYi=720,ΣXiYi=2800,ΣXi²=1400,n=100。则X̄=3.5,Ȳ=7.2。β̂₁=(100×2800-350×720)/(100×1400-350²)=(280000-252000)/(140000-122500)=28000/17500=1.6β̂₀=7.2-1.6×3.5=7.2-5.6=1.6因此,回归方程为Ŷ=1.6+1.6X。2.拟合优度检验总平方和SST=Σ(Yi-Ȳ)²=ΣYi²-nȲ²,假设样本中ΣYi²=5500,则SST=5500-100×7.2²=5500-5184=316。回归平方和SSR=β̂₁²[Σ(Xi-X̄)²]=β̂₁²(SXX),其中SXX=ΣXi²-(ΣXi)²/n=1400-350²/100=1400-1225=175,故SSR=1.6²×175=2.56×175=448(此处假设数据调整以符合逻辑,实际中SSR≤SST,本例为说明计算过程)。残差平方和SSE=SST-SSR=316-448=-132(显然矛盾,说明假设数据需修正)。重新假设ΣYi²=6000,则SST=6000-100×51.84=6000-5184=816。SSR=1.6²×175=448,SSE=816-448=368。决定系数R²=SSR/SST=448/816≈0.55,表明社交媒体使用时间解释了睡眠质量变异的55%。3.系数显著性检验(t检验)原假设H₀:β₁=0,备择假设H₁:β₁≠0。残差标准差s=√(SSE/(n-2))=√(368/98)≈√3.755≈1.938。β̂₁的标准误SE(β̂₁)=s/√SXX=1.938/√175≈1.938/13.228≈0.146。t统计量=t=β̂₁/SE(β̂₁)=1.6/0.146≈10.96。自由度df=n-2=98,查t分布表(双侧α=0.05)临界值约为1.984,t=10.96>1.984,拒绝H₀,说明β₁显著不为零,社交媒体使用时间对睡眠质量有显著正向影响。二、多元线性回归模型构建与诊断考虑引入控制变量:每日屏幕时间(X₂,包括电视、电脑等,单位:小时)、体育锻炼时间(X₃,单位:小时),构建多元回归模型:Y=β₀+β₁X₁+β₂X₂+β₃X₃+ε。1.矩阵形式估计设设计矩阵X=[1X₁X₂X₃],参数向量β=[β₀β₁β₂β₃]ᵀ,观测值向量Y=[Y₁Y₂…Yn]ᵀ。OLS估计量β̂=(XᵀX)⁻¹XᵀY。假设通过统计软件计算得β̂=[0.8,1.2,0.5,-2.0]ᵀ,即Ŷ=0.8+1.2X₁+0.5X₂-2.0X₃。2.多重共线性检验计算各解释变量的方差膨胀因子(VIF),VIFj=1/(1-Rj²),其中Rj²是将Xj对其他解释变量回归的决定系数。假设X₁对X₂、X₃回归的R₁²=0.3,X₂对X₁、X₃的R₂²=0.4,X₃对X₁、X₂的R₃²=0.2,则VIF₁=1/(1-0.3)≈1.43,VIF₂=1/(1-0.4)≈1.67,VIF₃=1/(1-0.2)=1.25。通常VIF<5表示无严重多重共线性,本例满足要求。3.异方差检验(Breusch-Pagan检验)原假设H₀:误差项同方差。估计模型后得到残差êi=Yi-Ŷi,构建辅助回归模型:êi²=α₀+α₁X₁+α₂X₂+α₃X₃+υi,计算辅助回归的R²=0.15,LM统计量=n×R²=100×0.15=15。自由度df=3(解释变量个数),查χ²分布表(α=0.05)临界值为7.815,LM=15>7.815,拒绝H₀,存在异方差。此时应使用稳健标准误(如White标准误)修正系数标准误,避免t检验失效。4.自相关检验(Durbin-Watson检验)计算DW统计量=Σ(êi-êi-1)²/Σêi²,假设样本数据计算得DW=1.8。对于n=100,k=3(解释变量个数),α=0.05,查DW临界值表得dL=1.65,dU=1.72。DW=1.8>dU,表明无正自相关。三、变量选择与正则化方法在多元回归中,若解释变量增至10个(X₁-X₁₀),需进行变量选择以避免过拟合。1.逐步回归法采用向前逐步回归:初始模型仅含截距项,依次加入使AIC最小的变量。第一步加入X₁(AIC=120),第二步加入X₃(AIC=110),第三步加入X₅(AIC=105),第四步加入X₇(AIC=108),因AIC上升停止,最终模型包含X₁、X₃、X₅。2.正则化方法(LASSO)LASSO通过最小化目标函数:(1/(2n))Σ(Yi-Ŷi)²+λΣ|βj|(j≥1),其中λ为正则化参数。通过10折交叉验证选择λ=0.5,此时估计系数中β₂、β₄、β₆等变量系数被压缩至0,保留X₁(β̂₁=1.1)、X₃(β̂₃=-1.8)、X₅(β̂₅=0.3),与逐步回归结果一致,但LASSO更平滑地处理了变量选择,避免了逐步回归的“跳跃”问题。四、非线性回归与模型比较若发现X₁与Y的关系可能为非线性(如二次函数),构建模型Y=β₀+β₁X₁+β₂X₁²+β₃X₃+ε。1.非线性模型估计假设OLS估计得β̂=[1.2,0.8,-0.1,-2.2]ᵀ,即Ŷ=1.2+0.8X₁-0.1X₁²-2.2X₃。计算调整R²=0.62,高于线性模型的0.58,AIC=95低于线性模型的100,表明非线性模型拟合更优。2.模型解释X₁的边际效应为dY/dX₁=0.8-0.2X₁,当X₁<4小时时,边际效应为正(使用时间增加,睡眠质量下降);当X₁>4小时时,边际效应为负(可能因过度使用导致疲劳,睡眠质量反而改善),需结合实际数据分布验证合理性(假设样本中X₁均值为3.5,大部分观测值<4小时,故整体仍表现为正向影响)。五、实际数据应用与预测以某地区1000户家庭的收入(X₁,万元)、家庭人口数(X₂)、教育支出(X₃,千元)为解释变量,研究消费支出(Y,万元)的影响因素。1.数据预处理检查缺失值(无缺失)、异常值(通过箱线图发现X₁有2个极端值,Z分数>3,剔除后n=998)。计算相关系数:r(Y,X₁)=0.75,r(Y,X₂)=0.32,r(Y,X₃)=0.68,r(X₁,X₃)=0.55(存在一定相关性)。2.模型估计与结果构建多元回归模型:Y=β₀+β₁X₁+β₂X₂+β₃X₃+ε。软件输出结果:-β̂₀=0.5(p=0.02)-β̂₁=0.6(p<0.001)-β̂₂=0.1(p=0.15)-β̂₃=0.2(p=0.01)-R²=0.82,调整R²=0.81-F统计量=450(p<0.001)3.结果解释收入每增加1万元,消费支出平均增加0.6万元(边际消费倾向显著);家庭人口数对消费的影响不显著(p=0.15>0.05),可能因人口数与收入存在交互作用未被模型捕捉;教育支出每增加1千元,消费支出平均增加0.2万元(教育投入可能带动相关消费)。4.预测验证选取200个样本作为测试集,模型预测消费支出的均方误差(MSE)=0.12,平均绝对误差(MAE)=0.3,表明模型预测能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论