版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计分析大赛试题及答案解析一、研究背景A市地铁2号线自2018年开通以来,客流持续攀升。2023年暑期,运营方在全线24座车站同步投放新型闸机,理论上单台闸机通行速度可提升18%。为评估真实效果,市交通局委托某高校统计研究中心开展“闸机升级对客流拥堵的因果推断”专题研究。组委会获得2023年6月1日至8月31日共92天的微观数据,字段包括:日期、车站、小时、闸机编号、闸机类型(0=旧,1=新)、进站人数、出站人数、闸机故障时长(分钟)、站台滞留指数(0~100,越高越拥堵)。此外,还拿到同期A市公交GPS数据、天气数据、大型活动排期表,以控制混杂因素。二、数据清洗与探索(共15分)1.(3分)原始csv文件共2208384行,24座车站×92天×24小时×平均4.2台闸机。用Pythonpandas读取后,发现“闸机故障时长”存在–1、9999等异常值。请写出一段可运行代码,将异常值替换为NaN,并用同一车站前后两小时均值填充,最后按“日期-车站”聚合计算每日故障总时长。【答案】```pythonimportpandasaspd,numpyasnpdf=pd.read_csv('metro_raw.csv')df.loc[df['fault_min'].isin([-1,9999]),'fault_min']=np.nandf['fault_min']=df.groupby(['station','date'])['fault_min'].transform(lambdax:x.fillna(erpolate(method='linear')))daily_fault=df.groupby(['date','station'])['fault_min'].sum().reset_index()```【解析】异常值–1与9999明显超出物理范围;线性插值利用同一车站相邻小时趋势,既避免过度平滑,又保留局部波动。2.(4分)绘制“站台滞留指数”分车站箱线图后,发现“体育中心站”在7月15—20日每晚19:00—22:00出现极端高值。给出两种可能的外部混杂因素,并说明如何用数据验证。【答案】因素1:演唱会散场。验证:将大型活动排期表与体育中心站滞留指数做时间对齐,若演唱会结束时间与极端高值窗口重合率>85%,则支持。因素2:暴雨天气导致地面交通中断,乘客涌入地铁。验证:合并天气数据,若暴雨预警等级≥橙色且滞留指数>90分位数的时间占80%,则支持。【解析】混杂因素必须同时满足“与处理变量相关”与“与结果变量相关”两条,否则不构成混杂。3.(4分)定义“高峰小时”为当日进站人数最高的连续两小时。计算每座车站高峰小时进站量占全日比重,得到24×92=2208个比例。用核密度估计画出概率密度,发现右尾存在明显第二峰。请用统计语言解释第二峰可能对应的现实场景,并给出检验是否存在双峰分布的正式方法。【答案】第二峰对应“大型活动散场日”或“节假日返程日”,其高峰小时占比远高于普通工作日。检验方法:Silverman检验(silverman.test包)或Hartigan’sdiptest,H0:分布单峰,p<0.05则拒绝。4.(4分)表1给出6座试点站在升级前后各两周的“闸机故障时长”描述统计(单位:小时):|车站|升级前均值|升级后均值|升级前方差|升级后方差||----|----------|----------|----------|----------||A|3.1|2.0|1.21|0.64||B|4.5|2.3|2.25|0.81||C|2.8|1.9|0.99|0.50||D|5.2|3.4|3.24|1.44||E|3.9|2.5|1.96|0.90||F|4.0|2.6|2.00|0.96|假设每日故障时长服从正态分布,请用恰当方法判断“升级是否显著降低故障时长”,并给出合并6站后的总体效应量(Cohen’sd)及95%置信区间。【答案】采用配对双样本t检验,合并方差用Welch修正。合并d=(μ_pre–μ_post)/σ_pooled,其中σ_pooled=√[(σ²_pre+σ²_post)/2]计算得d=1.42,95%CI[1.18,1.66],属于大效应。【解析】配对设计消除车站异质性;Cohen’sd>0.8即大效应,说明不仅统计显著,且现实意义大。三、因果推断(共25分)5.(8分)运营方声称“新闸机→通行速度↑→滞留指数↓”。请利用2023年7月10日—7月20日10天、24座车站、每小时数据,构建双重差分(DiD)框架,写出回归方程,明确定义处理组与对照组、前后窗口,并解释识别假设。【答案】方程:Y_it=α+β1·Post_t+β2·Treat_i+δ·(Post_t×Treat_i)+γX_it+ε_it其中Y_it:车站i在t小时滞留指数;Post_t:≥7月15日0时为1;Treat_i:7月15日起已换装新闸机≥50%的车站为1;δ即ATT。识别假设:(1)平行趋势:升级前两组滞留指数时间趋势一致,可用7月1—14日数据画图验证。(2)无同时期冲击:排除公交罢工、暴雨等,可加入天气、活动控制。6.(5分)表2给出DiD回归结果,δ=-3.45(se=0.82),但VIF最大值为6.8,Breusch-Pagan检验p=0.002。请写出后续补救代码(Python或R均可),并解释为什么必须这么做。【答案】```pythonimportstatsmodels.formula.apiassmffromlinearmodels.panelimportPanelOLSmod=smf.ols('retention~post*treat+temp+rain+event+C(station)+C(hour)',data=df)res=mod.fit(cov_type='cluster',cov_kwds={'groups':df['station']})```异方差与聚类相关导致标准误偏误,必须聚类稳健,否则t值虚高。7.(6分)为进一步验证稳健性,采用“事件研究法”。写出回归模型,并说明如何用图形判断平行趋势。【答案】Y_it=α+Σ_{k=-7}^{+7}β_k·1(t–t0=k)×Treat_i+γX_it+μ_i+λ_t+ε_itt0=升级首日。以k为横轴、β_k为纵轴画95%置信区间,若k<0时β_k不显著且k≥0时β_k显著为负,则支持平行趋势。8.(6分)若发现β_{-2}显著不为0,说明什么?给出两种经济解释与一种统计补救。【答案】解释1:预期效应,乘客提前得知升级消息,改变出行时间。解释2:运营方提前调试闸机,实际通行速度已改善。补救:将t0前移2天重新估计,或加入“升级进度百分比”连续变量替代0/1处理。四、预测建模(共30分)9.(10分)以“体育中心站”为例,用2023年6月1日—8月25日共86天小时级数据训练XGBoost模型,预测未来一周(8月26日—9月1日)每小时滞留指数。特征包括:lag1~lag7滞留指数、天气、节假日、活动、闸机类型占比、故障时长。写出Python代码框架,并说明如何滚动生成lag特征。【答案】```pythonimportpandasaspd,xgboostasxgbdf=pd.read_csv('sports_center_hour.csv')df=df.sort_values(['date','hour'])forlaginrange(1,8):df[f'lag{lag}']=df['retention'].shift(lag)df=df.dropna()train=df[df['date']<='2023-08-25']X=train.drop(columns=['retention','date'])y=train['retention']model=xgb.XGBRegressor(max_depth=5,n_estimators=800,learning_rate=0.03)model.fit(X,y)```滚动lag:按时间排序后shift,避免信息泄露。10.(8分)采用5折滚动窗口时间序列交叉验证(TimeSeriesSplit),给出平均MAPE与RMSE,并解释为何不能用普通K折。【答案】```pythonfromsklearn.model_selectionimportTimeSeriesSplittscv=TimeSeriesSplit(n_splits=5)mapes,rmses=[],[]fortrain_idx,test_idxintscv.split(X):X_tr,X_te=X.iloc[train_idx],X.iloc[test_idx]y_tr,y_te=y.iloc[train_idx],y.iloc[test_idx]model.fit(X_tr,y_tr)pred=model.predict(X_te)mapes.append(np.mean(np.abs((y_te-pred)/y_te)))rmses.append(np.sqrt(np.mean((y_te-pred)**2)))print(np.mean(mapes),np.mean(rmses))```普通K折随机打乱会破坏时间依赖,导致训练集“偷看”未来,高估精度。11.(6分)模型在测试集上RMSE=4.8,但残差在Ljung-Box检验下p=0.001。写出诊断代码,并给出两种改进策略。【答案】```pythonfromstatsmodels.stats.diagnosticimportacorr_ljungboxresid=y_tepredprint(acorr_ljungbox(resid,lags=10))```策略1:加入AR误差项,改用SARIMAX;策略2:在XGBoost中增加更多滞后特征或目标编码。12.(6分)运营方要求“若预测滞留指数>80,则提前30分钟启动限流”。请设计一个基于成本-收益的决策规则,并计算最优阈值。已知:误报一次成本500元(乘客投诉),漏报一次成本4000元(安全罚款)。假设预测概率密度近似正态N(μ,σ²),给出阈值公式及R代码。【答案】最优阈值c满足:P(y>80|x)=500/(500+4000)=0.111令z=(80–μ)/σ,则Φ(z)=0.889,查表得z=1.22故c=μ–1.22σ```Rmu=predict(model,newdata,type='response')sigma=sqrt(var(resid))c=mu1.22*sigma```五、综合案例(共35分)13.(15分)市交通局拟在2号线增设“可变票价”试点:高峰小时加价α元,平峰减价β元。要求建立结构方程模型(SEM)评估“价格→客流→拥堵”传导路径。给出路径图、变量定义、识别条件及Rlavaan代码。【答案】路径:价格→客流(λ1),客流→拥堵(λ2),价格→拥堵(λ3,直接效应)。变量:price(加价幅度),flow(进站人数),congest(滞留指数)。识别:排除约束λ3=0,利用工具变量“公交罢工dummy”作为price工具。```Rlibrary(lavaan)model<'flow~a*price+controlscongest~bflow+cprice+controlsindirect:=a*btotal:=a*b+c'fit<sem(model,data=df,instruments=~strike,estimator='2sls')summary(fit,standardized=TRUE)```14.(10分)表3给出不同α、β组合下模拟的日营收变化(万元)与平均滞留指数:|α|β|ΔRevenue|AvgRet||---|---|----------|--------||0.5|0.2|+12.3|45.2||1.0|0.5|+28.7|41.8||1.5|0.7|+41.2|39.5||2.0|1.0|+49.6|38.9||2.5|1.2|+50.1|39.8|请用二次多项式回归拟合“收入-滞留”前沿,并求帕累托最优解;然后回答:若市政府要求滞留指数≤38,则最大可增加营收多少?【答案】令y=ΔRevenue,x=AvgRet,拟合y=β0+β1x+β2x²+ε,得β2<0,开口向下。求导dy/dx=0得x=38.7,y=50.4万元。约束x≤38,代入得y=49.1万元,即最大可增加营收49.1万元,对应α=2.1元,β=1.05元。15.(10分)为确保政策公平,需评估“加价是否对低收入乘客影响更大”。现有匿名刷卡数据,包含乘客ID、出行时间、票价、年龄、职业编码、月消费总额。请设计双重机器学习(DoubleML)框架,写出步骤、关键假设、Python代码骨架,并解释如何构造公平性指标。【答案】步骤:1.用随机森林估计price的残差X̃;2.用另一随机森林估计flow的残差Ỹ;3.用X̃对Ỹ做偏回归得因果系数τ;4.按收入分层估计τ_low、τ_high,公平性指标=|τ_low–τ_high|。```pythonfromsklearn.ense
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年武汉理工大学管理人员招聘10人笔试模拟试题及答案解析
- 2026上半年贵州事业单位联考贵州省大数据发展管理局招聘3人考试参考题库及答案解析
- 2025年新疆巴州教师事业编考试及答案
- 2026浙江丽水莲都区经济技术开发区管理委员会选聘考试参考题库及答案解析
- 2025年调查员笔试试题及答案
- 2025年合肥日报招聘考试笔试题及答案
- 2025年黑龙江草业局笔试及答案
- 2026黑龙江鸡西市鸡冠区廉洁征兵考试备考题库及答案解析
- 2025年卫生事业编护理类考试及答案
- 2026年鹤岗市向阳区公开招聘公益性岗位人员34人考试参考题库及答案解析
- 人教版(2024)八年级下册英语:课文+翻译
- 水空调安装协议书
- 工程投资估算与审核编制操作规程
- 《小企业会计准则》教案(2025-2026学年)
- 合成生物学在呼吸系统疾病治疗中的应用
- 华为全员持股协议书
- 2025至2030中国代驾行业项目调研及市场前景预测评估报告
- 2026届黑龙江省优才计划 中学生标准学术能力测试高三数学联考试题(含解析)
- 2025年国家开放大学《交通运输管理》期末考试备考试题及答案解析
- 天然气埋管施工方案
- 2025-2026学年浙美版二年级美术上册全册教案
评论
0/150
提交评论