高级统计师考试题目与答案_第1页
高级统计师考试题目与答案_第2页
高级统计师考试题目与答案_第3页
高级统计师考试题目与答案_第4页
高级统计师考试题目与答案_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高级统计师考试题目与答案1.某省卫健委为评估“分级诊疗”政策实施效果,从2018—2022年共60个季度面板数据中抽取12个地市、每地5家三级医院、每家医院随机抽取300例门诊病例,形成54000条就诊记录。变量包括:是否基层首诊(binary)、患者年龄(连续)、医保报销比例(0—1)、医院等级(1=三甲,0=三乙)、地区人均GDP(万元)、政策虚拟变量(2019Q4及以后取1)。研究者拟用双向固定效应Logit模型估计政策对基层首诊概率的边际效应,但发现存在“医院—季度”层面聚类相关及政策实施内生性问题。请回答:(1)写出双向固定效应Logit模型的完整设定,并说明如何引入医院与季度固定效应;(2)若怀疑政策变量与误差项相关,给出两种可行的内生性处理策略,比较其适用条件;(3)在聚类稳健标准误计算中,为什么“医院—季度”层面聚类比“医院”或“季度”单独聚类更合理?给出数学解释;(4)假设已得平均边际效应AME=0.087,聚类稳健标准误0.019,样本量54000,请构造95%置信区间,并解释经济含义;(5)若进一步发现2020Q1—2021Q2疫情冲击可能干扰政策效应,设计一个“疫情冲击异质性”稳健性检验,写出回归方程与识别假设。答案与解析:(1)模型设定:令y_{ihqt}=1表示患者i在医院h、地区q、季度t就诊时发生基层首诊。双向固定效应LogitP(y_{ihqt}=1|X,α_h,γ_t)=Λ(α_h+γ_t+X_{ihqt}′β+δ·Post_t),其中Λ(z)=exp(z)/(1+exp(z)),α_h为医院固定效应,γ_t为季度固定效应,Post_t为政策虚拟变量。Stata命令示例:xtlogityc.age##c.age报销比例i.hospidi.quarter,fevce(clusterhosp_quarter)or“i.hospid”吸收医院不随时间变化的所有异质性,“i.quarter”吸收全省共同时间冲击,二者联合构成双向固定效应。(2)内生性处理:策略A:工具变量法。利用“省内其他11个地市同季度政策实施率”作为本地政策变量的IV。原理:其他地市政策实施率通过省级行政压力影响本地政策timing,但不直接影响本地患者首诊选择。需通过两阶段残差inclusiontest(IV–Logit的Rivers-Vuong估计)或特殊回归估计(条件混合过程CMP)。策略B:双重差分—事件研究法。以2019Q4为事件点,将2018Q1—2019Q3作为pre,2020Q1—2022Q4作为post,估计动态效应β_k,k=–7,…,+12。若pre趋势为零,则支持平行趋势,可缓解内生。比较:IV需找到强相关且外生工具,对数据要求高;事件研究依赖pre趋势检验,若pre有预期效应则失效。(3)聚类数学解释:令误差项ε_{ihqt},若corr(ε_{ihqt},ε_{jh′q′t′})≠0当且仅当h=h′且t=t′,则真实方差Var(β̂)=(X′X)^{-1}Σ_{c}X_c′Σ_cX_c(X′X)^{-1},其中c为“医院—季度”单元。若仅按医院聚类,会低估同一医院内季度间相关性,导致标准误偏小;若仅按季度聚类,会低估同一季度内医院间相关性。只有“医院—季度”聚类维度与误差相关结构匹配,才能一致估计Σ_c。(4)置信区间:AME的95%CI=0.087±1.96×0.019=[0.0498,0.1242]。经济含义:政策使基层首诊概率平均提升8.7个百分点,区间下限5个百分点,上限12.4个百分点,以2022年全省1.2亿门诊量测算,意味着每年新增约1040万人次基层首诊,节约三级医院8%门诊负荷。(5)疫情异质性检验:定义疫情冲击虚拟变量Covid_{qt}=1若t∈[2020Q1,2021Q2]且q为疫情高爆发地区(累计确诊率>中位数),交互项模型:y_{ihqt}=α_h+γ_t+β_1Post_t+β_2Post_t·Covid_{qt}+X′θ+ε_{ihqt}.识别假设:疫情冲击对基层首诊的影响仅通过Covid_{qt}体现,且该冲击与政策实施时间非完全重叠;若β_2不显著,说明政策效应未被疫情扭曲,结果稳健。2.国家统计某司对31个省份2010—2022年季度GDP进行修订,发现官方初步核算值(firstrelease)与最终核实值(final)存在系统差异。设修订误差e_{it}=y_{it}^{final}−y_{it}^{first},建立动态面板模型e_{it}=ρe_{i,t−1}+β_1|y_{it}^{first}|+β_2σ_{it}+β_3Crisis_t+μ_i+λ_t+υ_{it},其中σ_{it}为省份i季度t的12个行业增加值波动标准差,Crisis_t为2015Q3—2016Q2的股灾虚拟变量。请回答:(1)说明为何OLS估计ρ会高估,并给出偏误方向数学推导;(2)采用系统GMM估计时,如何构造内部工具变量?写出一步与两步GMM的矩条件;(3)若发现AR(2)检验p=0.08,Sargan检验p=0.002,应如何判断模型设定?给出后续调整方案;(4)假设已得β̂_1=−0.14,其经济含义是什么?结合GDP规模解释;(5)设计一个“修订透明度”外生冲击,利用该冲击识别β_3的因果效应,写出回归方程与识别策略。答案与解析:(1)OLS偏误:模型含个体效应μ_i,e_{i,t−1}与μ_i相关,导致Cov(e_{i,t−1},υ_{it}−ρe_{i,t−1})≠0。具体地,plimρ̂_{OLS}=ρ+Cov(e_{i,t−1},μ_i)/Var(e_{i,t−1})>ρ,因修订误差具有持续性,μ_i越大e_{i,t−1}越大,Cov为正,故ρ高估。(2)系统GMM:内部工具:对差分方程Δe_{it}=ρΔe_{i,t−1}+…+Δυ_{it},使用e_{i,t−2},e_{i,t−3},…作为Δe_{i,t−1}的工具;对水平方程,使用Δe_{i,t−1}作为e_{i,t−1}的工具。一步矩条件:E[Z′Δυ]=0;两步权重矩阵W_N=(1/NΣZ′Δυ̂Δυ̂′Z)^{-1},迭代至收敛。(3)检验判断:AR(2)p=0.08>0.05,不能拒绝差分误差无二阶序列相关,支持矩条件有效;但Sarganp=0.002,拒绝“所有工具变量有效”原假设,存在过度识别问题。调整:缩减工具变量滞后阶数,仅使用t−2期工具;或采用Collapse选项减少工具维度;再行HansenC检验,若p>0.1则接受。(4)经济含义:β̂_1=−0.14表明初步核算规模每扩大1个百分点,修订误差绝对值减少0.14个百分点,呈现“规模越大核算越准”特征。以广东2022年季度GDP3万亿元为例,若初步值高估2%,则修订下调约60亿元;若规模扩大10%,修订误差减少1.4个百分点,下调幅度降至0.6%,即18亿元,体现大省份统计基础更好。(5)外生冲击:2017年国家统计局推行“GDP统一核算改革”,规定2018年起各省GDP由国家核算后反馈,视为外生提升透明度。定义Reform_t=1若t≥2018Q1,三重差分:e_{it}=μ_i+λ_t+β_3Crisis_t·Reform_t+θX_{it}+υ_{it}.识别策略:股灾时段Crisis_t与Reform_t交集仅2018Q1—2018Q2,利用“改革前后×股灾与否”交叉,β_3捕捉透明度提升对修订误差的因果效应,假设改革时间不由各省误差大小决定,具备外生性。3.某电商平台的日活用户(DAU)序列{y_t}_{t=1}^{1826}取自2018—2022年,呈现周内效应、春节漂移、结构断点(2020Q1疫情)、异方差与右偏。现建立SARMAX模型:(1−ϕ_1B−ϕ_2B^2)(1−B^{7})logy_t=(1+θ_1B^7)ε_t+β_1x_{1t}+β_2x_{2t},其中x_{1t}为“居家办公”百度指数,x_{2t}为平台补贴金额(百万元),ε_t∼N(0,σ_t^2),σ_t^2=exp(γ_0+γ_1|ε_{t−1}|)。请回答:(1)写出该模型的条件似然函数,并说明如何数值最大化;(2)若QMLE估计后标准化残差仍出现左尾厚尾,给出一种改进分布并写出对数似然增量;(3)进行multi-step预测时,为何需对解释变量x_{1,t+h},x_{2,t+h}也建模?给出联合预测流程;(4)假设已得β̂_1=0.12,β̂_2=0.08,解释经济弹性;(5)设计一个“补贴外生实验”验证β_2的因果性,描述随机化方案与估计量。答案与解析:(1)条件似然:令z_t=(1−B^7)logy_t,则z_t=ϕ_1z_{t−1}+ϕ_2z_{t−2}+β_1x_{1t}+β_2x_{2t}+η_t,η_t=(1+θ_1B^7)ε_t,ε_t∼N(0,σ_t^2).联合密度L(Θ)=∏_{t=8}^N(2πσ_t^2)^{-1/2}exp(−η_t^2/(2σ_t^2)),σ_t^2=exp(γ_0+γ_1|ε_{t−1}|).采用数值BFGS最大化,梯度解析推导:∂L/∂γ_1=∑(η_t^2/σ_t^2−1)|ε_{t−1}|。(2)厚尾改进:采用标准化t分布,自由度ν待估。增量对数似然ℓ_t=−1/2log(π(ν−2)σ_t^2)−(ν+1)/2log(1+η_t^2/(σ_t^2(ν−2))).ν→∞退化为正态,ν越小尾越厚,用ML估计ν可捕捉左尾。(3)联合预测:x_{1},x_{2}具有序列相关,若外推常数将低估不确定性。流程:1)对x_{1t}建立VAR(3),x_{2t}建立带漂移随机游走;2)用bootstrap生成x_{1,t+h},x_{2,t+h}路径;3)每条路径代入SARMAX,模拟η_{t+h},得y_{t+h}分布;4)取5千次模拟中位数为点预测,2.5%—97.5%分为区间。(4)弹性解释:β̂_1=0.12表示“居家办公”指数每增加1%,周日活对数差分增加0.12%,即DAU约增0.12%;β̂_2=0.08表示补贴每增1百万元,DAU增0.08%。以2022年日均DAU1亿为例,补贴增1千万,DAU增8万,单用户补贴成本125元,需与转化率、客单价比较评估ROI。(5)外生实验:选2023年6月6周,随机抽50%活跃用户进入实验组,在每周三、五发放5元无门槛券,对照组不发放。随机化单元为用户ID,阻断网络溢出。估计量:Δ=log(DAU_{treat}/DAU_{control}),回归Δ_t=α+β_2·Subsidy_t+ε_t,Subsidy_t为实验组补贴强度。因随机分配,β_2捕捉因果弹性,与SARMAX结果互为验证。4.为估计中国280个地级市2011—2020年数字经济对绿色全要素生产率(GTFP)的非线性门槛效应,研究者构建面板门槛模型:GTFP_{it}=μ_i+λ_t+β_1Dig_{it}·I(Dig_{it}≤γ)+β_2Dig_{it}·I(Dig_{it}>γ)+ΓX_{it}+ε_{it},其中Dig_{it}为数字经济发展指数,X_{it}含人力资本、FDI、环境规制等。请回答:(1)说明如何选取门槛变量与门槛值γ的估计步骤,并给出Bootstrap检验统计量;(2)若发现存在三重门槛,写出完整模型并说明自由度调整;(3)解释为何固定效应估计within变换会扭曲门槛识别,给出一致估计策略;(4)假设β̂_1=0.18,β̂_2=0.05,门槛值γ=62,样本内Dig均值55,给出经济解释与政策含义;(5)设计一个“宽带中国”示范城市政策作为工具变量,验证Dig的外生性,写出两阶段回归与识别假设。答案与解析:(1)门槛估计:1)对γ网格搜索1—99分位,最小化残差平方和SSR(γ);2)得γ̂=argminSSR(γ);3)检验H_0:无门槛,LM统计量F=(SSR_0−SSR_1)/σ̂^2,σ̂^2=SSR_1/(nT−2K−1)。Bootstrap300次,每次对ε_{it}有放回抽样重构因变量,计算F^,p值为#(F^>F)/300。若p<0.05,拒绝无门槛。(2)三重门槛:GTFP=μ_i+λ_t+β_1Dig·I(Dig≤γ_1)+β_2Dig·I(γ_1<Dig≤γ_2)+β_3Dig·I(γ_2<Dig≤γ_3)+β_4Dig·I(Dig>γ_3)+ΓX+ε.自由度:每增一个门槛,多估计一个γ,需用Hansen(1999)修正,对γ_1,γ_2,γ_3联合网格搜索,SSR最小化后,用Bootstrap检验H_0:双重vs三重,统计量类似,但约束模型为双重。(3)Within扭曲:within变换y_{it}−ȳ_i使门槛变量也减去个体均值,导致γ估计偏向样本中位数。一致策略:采用“组内向前差分”+Hansen固定效应门槛估计,或直接最小化SSR时包含个体虚拟变量,使用LSDV迭代,避免within变换。(4)经济解释:当数字指数低于62时,Dig每增1单位,GTFP提升0.18;超过62后边际效应降至0.05,呈递减。均值55处于高效区间,政策应优先扶持Dig<62的城市,如西部地级市,通过数字基建跨越门槛,避免东部过度投资。(5)工具变量:2014、2015两批“宽带中国”示范城市由工信部分批公布,可视为外生。第一阶段:Dig_{it}=α_i+λ_t+π_1Broadband_{it}+ΓZ_{it}+u_{it},Broadband_{it}=1若城市i在t年入选示范。第二阶段用拟合值Diĝ_{it}代入门槛模型。识别假设:示范城市selection不受GTFP潜在水平影响,仅通过宽带普及影响Dig,满足排他性。5.某大型连锁零售集团拥有1200家门店,2019—2022年每日销售额{y_{isd}}(s=店,d=日)与促销信息、天气、节假日等匹配。为评估“夜间灯光亮化”工程对夜间销售额(18:00—24:00)的因果效应,公司选择2021年7月对300家门店安装LED灯带,其余为对照。请回答:(1)若采用DID估计,写出回归方程,并说明如何构造标准误以考虑店—月层面聚类;(2)发现处理组选取非随机,大店更易被选中,给出一种基于倾向得分的双重稳健估计量,写出公式;(3)灯光工程可能通过“安全感知”与“停留时间”两个渠道,设计一个中介效应模型,说明如何识别;(4)假设已得ATT=8.7%,夜间销售额占比从35%提升至38%,计算整体销售额提升幅度,并解释为何昼间可能无显著变化;(5)若2021年8月局部疫情导致部分门店暂停营业,如何调整样本以保持识别有效性?给出具体步骤。答案与解析:(1)DID方程:log(Y_{sd})=α_s+λ_d+τ·Treat_s·Post_d+X_{sd}′β+ε_{sd},Post_d=1若d≥2021-07-01。聚类:店—月层面1200×48=57600单元,Stata命令:areglnsalesc.T

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论