应用统计学案例分析题及答案_第1页
应用统计学案例分析题及答案_第2页
应用统计学案例分析题及答案_第3页
应用统计学案例分析题及答案_第4页
应用统计学案例分析题及答案_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计学案例分析题及答案某市公交集团为评估新开通的“微循环”线路对乘客出行满意度的影响,于2023年9月至2024年2月期间开展了一项持续跟踪调查。调查采用分层三阶段抽样:第一阶段以全市6个行政辖区为层,按各辖区常住人口比例抽取24个街道;第二阶段在抽中街道内按社区规模排序后等距抽取48个社区;第三阶段在社区内按门牌尾号随机抽取960名近两周内至少乘坐过微循环线路一次的成年乘客。调查问卷共38题,核心变量为“总体满意度”Y(0~100分连续变量),同时采集了乘客性别(男=1,女=0)、年龄(岁)、受教育年限(年)、日均公交出行次数(次)、候车时间(分钟)、车厢拥挤度评分(1~5分,5为非常拥挤)、是否使用实时到站App(是=1,否=0)、是否拥有私家车(是=1,否=0)、以及线路开通天数(天)。数据收集完成后,剔除关键变量缺失与逻辑错误样本,最终有效样本量n=872。一、描述性统计与探索性分析1.给出满意度Y的样本均值、标准差、偏度与峰度,并判断其是否近似服从正态分布。2.绘制Y与、、的箱线图,简述图形反映的异常值特征。3.计算Pearson相关系数矩阵,指出与Y线性关系最强的三个自变量,并检验其显著性(α=二、模型构建与诊断4.以Y为因变量,所有~为自变量,建立普通最小二乘(OLS)多元线性回归模型:Y给出参数估计、t检验与整体F检验结果,并写出回归方程。5.对模型进行多重共线性诊断,计算方差膨胀因子(VIF),判断是否存在严重共线性。6.绘制残差vs拟合值图、Q-Q图与Cook距离图,指出是否存在异方差、非正态或强影响点,并给出后续处理建议。三、变量选择与正则化7.采用逐步回归(AIC准则)进行变量筛选,给出最终保留的变量及其系数估计。8.使用Lasso回归(10折交叉验证选择λ),列出非零系数对应的变量,并与逐步回归结果比较异同。9.若集团管理层仅关心“候车时间每增加1分钟对满意度的边际效应”,请分别用OLS全模型、逐步模型与Lasso模型给出该边际效应的点估计与95%置信区间,并讨论差异原因。四、交互效应与分段效应10.在逐步模型基础上加入与的交互项,检验交互项是否显著(α=0.05)。11.考虑候车时间对满意度的影响可能存在门槛效应,以=10分钟为节点,构建分段线性回归:Y其中(−10=max(五、预测与模型比较12.将数据按7:3随机分为训练集与测试集,固定随机种子123,重复100次,记录每次测试集的均方预测误差(MSPE)。比较OLS全模型、逐步模型、Lasso、岭回归与弹性网(α=13.若集团设定“预测误差超过10分即视为不合格”,计算各模型在测试集上预测误差>10分的样本比例,并采用McNemar检验比较逐步模型与Lasso的合格率差异。六、因果推断——双重差分14.为评估微循环线路开通的因果效应,调查设计包含一组对照组:在同期抽取未开通微循环的街道,按相同抽样流程获得乘客样本=412。定义处理变量(处理组=1,对照组=0),时间变量(后开通期=1,前开通期=0),双重差分(DID)模型为:=给出的估计、稳健标准误与p值,并解释其含义。15.检验DID识别假设——平行趋势,采用事件研究法:以开通当月为基期(k=−1七、分层分析——随机系数模型16.考虑到不同行政辖区管理水平差异,建立两层随机系数模型(乘客层+辖区层):\begin{aligned}Y_{ij}&=\beta_{0j}+\beta_{1j}X_{5,ij}+\beta_{2j}X_{6,ij}+\varepsilon_{ij},\quad\varepsilon_{ij}\simN(0,\sigma^2),\\\begin{pmatrix}\beta_{0j}\\\beta_{1j}\\\beta_{2j}\end{pmatrix}&=\begin{pmatrix}\gamma_{00}\\\gamma_{10}\\\gamma_{20}\end{pmatrix}+\begin{pmatrix}u_{0j}\\u_{1j}\\u_{2j}\end{pmatrix},\quad\mathbf{u}_j\simN(\mathbf{0},\mathbf{\Sigma}_u).\end{aligned}给出的估计及其标准误,并检验是否显著大于0(α=0.05)。17.计算辖区层面随机效应的收缩因子(shrinkagefactor),并解释其对“候车时间效应”估计精度的影响。八、非线性关系——可加模型18.采用广义可加模型(GAM):Y其中𝒮={2,5,619.比较GAM与逐步线性模型的五折交叉验证,并采用Vuong检验判断哪个模型显著更优。九、分类变量深度——有序Probit20.集团同时将满意度转化为有序分类变量:1=“非常不满意”(0–40),2=“不满意”(40–60),3=“一般”(60–75),4=“满意”(75–90),5=“非常满意”(90–100)。建立有序Probit模型:P给出(候车时间系数)估计,并计算候车时间从5分钟增至15分钟时,乘客“非常满意”概率的边际变化。21.检验比例优势假设(Brant检验),若假设被拒绝,进一步拟合部分比例优势模型,并比较AIC。十、综合决策22.基于上述所有分析,若集团只能优先干预一个变量,请从统计显著性、经济显著性、政策可操作性三个维度给出排序,并量化干预效果:假设通过增设班次可使候车时间平均降低3分钟,请用逐步模型预测全市872名样本平均满意度提升多少分,并给出95%置信区间。23.若预算限制只能覆盖3条街道,采用最优分层抽样原理,以辖区随机效应方差为分层指标,计算Neyman分配下各街道应抽取的乘客数,使估计满意度均值的方差最小。答案与解析1.样本均值y¯=72.4,标准差s=11.68,偏度=−0.222.箱线图显示>20分钟时出现一批极端低分(<50分),共23个离群值;=3.与Y相关系数绝对值前三:=−0.62,=−0.55,4.OLS结果:=87.34

(5.21),=−0.84

(0.06)Y5.最大VIF=2.8(),<5,无严重共线性。6.残差图呈轻微喇叭口,Breusch-Pagan检验=9.2,p7.逐步回归保留,,8.Lasso在=0.024时非零变量:,,,,,9.边际效应:OLS全模型−0.84

[−0.9610.交互项系数=0.18,t=2.4311.分段回归=−1.12,12.平均MSPE(100次):OLS18.7(0.4),逐步17.2(0.3),Lasso17.0(0.3),岭17.4(0.3),弹性网16.9(0.3)。Lasso与弹性网差异不显著,但均优于OLS(p<13.预测误差>10分比例:逐步21.8%,Lasso20.4%;McNemar=1.8,p14.DID=6.34,稳健标准误1.27,t=4.9915.事件研究k=−316.随机系数模型=−0.85

(0.07),17.收缩因子=/18.GAM光滑项在∈[0,8]近似线性递

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论