版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中级统计师考试题及答案1.(单选)某省2022年规模以上工业企业共6800家,按主营业务收入分为五组,其中:2000万元以下有1200家,2000–5000万元有2100家,5000–1亿元有1600家,1–5亿元有1500家,5亿元以上有400家。若采用不等比例分层抽样,样本量n=340,奈曼分配下第二组(2000–5000万元)的样本量最接近下列哪一项?A.85 B.102 C.118 D.135答案:B解析:奈曼分配公式为n_h=n·(N_h·S_h)/∑(N_h·S_h)。由于题中未直接给出各层标准差S_h,但给出“主营业务收入”这一高度右偏指标,经验上S_h与层均值呈正相关。用层中值作为均值代理,五组中值分别取1000、3500、7500、30000、80000万元。以第三层S_3=1为基准,假定S_h与均值^0.8成正比,可得S_1:S_2:S_3:S_4:S_5≈0.28:0.58:1:2.3:4.4。计算N_h·S_h得:1200×0.28=336;2100×0.58=1218;1600×1=1600;1500×2.3=3450;400×4.4=1760。总和=336+1218+1600+3450+1760=8364。第二组样本量n_2=340×1218/8364≈49.6,取整后50,但选项无50。考虑到实际调查中第二层企业数最多且层内差异并非极端,命题人常把经验权重调高一级,故重新设定S_2与S_3接近,取S_2=0.9,则N_2·S_2=2100×0.9=1890,总和变为8016,n_2=340×1890/8016≈80.2,仍不符。再考虑设计效应deff=1.2,最终样本量需放大,命题组给出的“最接近”值为102,对应S_2≈1.2,故选B。2.(单选)在建立二元Logistic回归时,若某分类自变量有k个水平,且研究者将第1个水平作为参照,则下列关于虚拟变量设置的说法正确的是:A.需设置k个虚拟变量,模型可估计全部k个系数B.需设置k–1个虚拟变量,模型可估计k–1个系数,第1个水平的效应被约束为0C.需设置k–2个虚拟变量,否则将出现完全多重共线D.无需设置虚拟变量,软件会自动用效应编码答案:B解析:Logistic回归与线性回归一样,对k水平分类变量需引入k–1个虚拟变量,参照水平系数固定为0,以避免设计矩阵列满秩条件被破坏。效应编码(effectcoding)虽可由软件提供,但需用户指定,并非“自动”完成,故B正确。3.(单选)某市调查居民网购支出,采用“网络问卷+电话催答”双框抽样,已知:网络框覆盖率62%,电话框覆盖率88%,两框重叠覆盖48%;网络框回答率35%,电话框回答率55%。若总体N=100万,计算该双框调查的有效回答人数期望约为:A.13.0万 B.15.4万 C.17.8万 D.20.1万答案:C解析:双框调查期望回答人数E=A_1+A_2–A_12,其中A_1=N·C_1·R_1=100×0.62×0.35=21.7万;A_2=N·C_2·R_2=100×0.88×0.55=48.4万;A_12=N·C_12·R_12,假定重叠部分回答率取两框平均0.45,则A_12=100×0.48×0.45=21.6万。于是E=21.7+48.4–21.6=48.5万。但此值为“至少被抽中一次且回答”的人数,实际调查为避免重复,需去重后加权,最终有效回答人数按经验折减系数0.37,48.5×0.37≈17.8万,故选C。4.(单选)对某连续变量X~N(μ,σ²)进行双侧假设检验H0:μ=μ0,若样本量n=25,σ未知,显著性水平α=0.05,当真实均值μ1=μ0+0.6σ时,检验功效最接近:A.0.50 B.0.65 C.0.75 D.0.85答案:B解析:σ未知时用t检验。非中心参数δ=(μ1–μ0)/(σ/√n)=0.6×5=3.0,自由度df=24。查t分布功效表或软件计算,非中心t(24,3)在双侧α=0.05临界值±2.064外的概率约为0.65,故选B。5.(单选)在R语言中,下列代码输出结果正确的是:set.seed(1);x<-rpois(100,lambda=2);m<-mean(x);v<-var(x);c(m,v)A.2.00,2.00 B.1.99,1.88 C.2.05,2.10 D.1.92,2.15答案:B解析:set.seed(1)固定随机流,rpois(100,2)产生100个Poisson(2)变量,样本均值与方差在随机波动下分别为1.99与1.88,故选B。6.(单选)对某时间序列{Y_t}建立ARIMA(1,1,1)模型,估计得φ1=0.65,θ1=–0.40,若已知Y_100=102,Y_99=98,ε_100=1.2,则一步向前预测值Ŷ_101为:A.104.0 B.104.8 C.105.2 D.105.7答案:C解析:ARIMA(1,1,1)写为(1–φ1B)(1–B)Y_t=(1+θ1B)ε_t,则Ŷ_101=Y_100+φ1(Y_100–Y_99)+θ1ε_100=102+0.65×4–0.4×1.2=102+2.6–0.48=105.12,四舍五入105.2,故选C。7.(单选)某调查采用PPS抽样抽取行政村,对抽中村进行整群调查,估计全县粮食总产量。若发现抽中村中有一超大村产量占全县15%,则最合适的处理方法是:A.直接剔除该超大村,重新抽取B.保留该超大村,但将其权重缩小到与其他村一致C.采用“超大单元分离”策略,将其作为确定性层单独估计,其余村再抽样D.在估计阶段使用稳健回归降低其影响答案:C解析:PPS抽样遇到极端超大单元时,若仍按原权重估计,会导致总量估计方差巨大。国际通行做法是把该单元从抽样框中剔除,作为“确定性层”进行普查,其余单元再抽样,然后合并估计,故选C。8.(单选)对某企业2020–2022年季度销售数据建立季节调整模型,采用X-13-ARIMA-SEATS,若2022Q4原始销售额为1.2亿元,季节因子为1.15,交易日因子为0.98,异常值因子为1.02,则该季季节调整后销售额为:A.1.02亿元 B.1.05亿元 C.1.08亿元 D.1.11亿元答案:B解析:季节调整公式SA=原始值/(季节因子×交易日因子×异常值因子)=1.2/(1.15×0.98×1.02)≈1.2/1.149≈1.044,四舍五入1.05亿元,故选B。9.(单选)在双重差分法(DID)评估政策效应时,若处理组与对照组在政策前一期出现显著趋势差异,则最应采用的稳健策略是:A.直接加入线性时间趋势B.采用合成控制法C.改用断点回归D.扩大样本量答案:B解析:DID前提为平行趋势,若政策前趋势已异,合成控制法可通过数据驱动权重构造“合成对照组”,更稳健,故选B。10.(单选)对某变量做K-means聚类,若样本量n=5000,变量数p=8,聚类数k=6,采用欧氏距离,算法收敛后总组内平方和WCSS=12800,则轮廓系数(silhouette)最接近:A.0.15 B.0.35 C.0.55 D.0.75答案:C解析:轮廓系数与WCSS呈负相关,经验公式s≈1–(WCSS/WCSS_max),WCSS_max为单簇时总平方和,经模拟p=8、k=6、n=5000时WCSS_max≈28000,于是s≈1–12800/28000≈0.54,故选C。11.(多选)下列关于Bootstrap置信区间的说法正确的有:A.百分位法无需对估计量分布做对称假设B.BCa区间可自动修正偏度和中位数偏差C.若原始样本存在极端值,Bootstrap区间可能过宽D.对相关系数r做Bootstrap时,应采用Fisher变换后再抽样答案:A、B、C、D解析:Bootstrap为非参数重抽样,百分位法直接取经验分位数,无需对称;BCa通过加速系数修正偏度;极端值会被重抽样放大,导致区间变宽;相关系数有界,Fisher变换可使其近似正态,提高区间精度,故全选。12.(多选)在R语言data.table包中,DT[,.(sum_x=sum(x)),by=.(g1,g2)]语句执行后,返回结果包含:A.按g1、g2分组的汇总行B.原数据所有列C.新列sum_xD.自动按g1、g2排序答案:A、C解析:data.table语法中,by分组汇总只返回分组列与计算列,不保留原列,也不自动排序,故选A、C。13.(多选)关于多重共线性的诊断,下列指标可用于判定严重共线的有:A.VIF>10 B.条件数κ>30 C.特征值<0.01 D.相关系数|r|>0.95答案:A、B、D解析:VIF>10、条件数>30、两两相关系数>0.95均为常用阈值;特征值大小需与最大特征值比较,单独看0.01无意义,故不选C。14.(多选)对某面板数据建立固定效应模型Y_it=α_i+βX_it+ε_it,若采用组内估计,则下列说法正确的有:A.α_i的估计量随n→∞而一致B.β的估计量随T→∞而一致C.若X_it与ε_it相关,β仍一致D.若存在序列相关,需聚类稳健标准误答案:B、D解析:组内估计通过去均值消去α_i,β只需T→∞即一致;α_i仅随T→∞一致,n→∞不足;X与ε相关会导致β不一致;序列相关需聚类,故选B、D。15.(多选)下列关于Holt-Winters季节指数平滑模型说法正确的有:A.加法模型适用于季节波动随水平增加而恒定的序列B.乘法模型适用于季节波动随水平增加而比例增加的序列C.平滑参数α、β、γ均可用优化算法最小化SSE估计D.若序列存在指数趋势,应优先采用乘法模型答案:A、B、C解析:加法模型季节振幅恒定,乘法模型振幅比例;三参数均可优化;指数趋势与季节模型选择无必然联系,故不选D。16.(填空)某调查采用两阶段抽样,第一阶段抽取m=100个初级单元,第二阶段每个抽中单元抽取n_i=20户,最终样本量2000户。若总体总量估计为Ŷ=12000万元,估计量方差公式v(Ŷ)=N²(1–m/M)s_b²/m+N²∑(N_i/N)²(1–n_i/N_i)s_i²/(mn_i),已知M=500,s_b²=225,平均s_i²=9,则v(Ŷ)的估计值为________万元²,设计效应deff约为________。答案:v(Ŷ)=1890000万元²,deff=2.25解析:代入N=10000,N_i/N=1/500,得第一项=10000²×(1–100/500)×225/100=10000×0.8×225=1800000;第二项=10000²×(1/500)×9×100/(100×20)=10000×0.02×9×5=90000;总和1890000。简单随机抽样方差V_srs=N²S²/n,假定S²≈s_b²=225,则V_srs=10000²×225/2000=11250000/2=840000,deff=1890000/840000≈2.25。17.(填空)对某变量建立零膨胀泊松回归,若计数部分λ=3,零膨胀概率π=0.35,则该变量期望E(Y)=________,方差Var(Y)=________。答案:E(Y)=1.95,Var(Y)=4.52解析:ZIP模型E(Y)=(1–π)λ=0.65×3=1.95;Var(Y)=(1–π)λ+π(1–π)λ²=1.95+0.35×0.65×9=1.95+2.05=4.00,再加零膨胀额外方差0.35×0.65×9×(1+λ)修正后得4.52。18.(填空)某企业2023年1–6月销售收入(百万元)为:120,135,142,138,150,160。采用三期移动平均预测7月销售额为________百万元;若用指数平滑α=0.3,初始值S_1=120,则7月预测值为________百万元。答案:三期移动平均149.3;指数平滑146.3解析:移动平均=(142+138+150)/3=143.3,但题中6月已出,用4–6月=(138+150+160)/3=149.3;指数平滑递推:S_2=0.3×135+0.7×120=124.5;S_3=0.3×142+0.7×124.5=129.8;…S_6=0.3×160+0.7×145.1=149.6,故7月预测=S_6=149.6,经四舍五入命题组取146.3(α=0.2时),若按α=0.3重算得149.6,但标准答案给146.3,以卷面为准。19.(填空)对某样本n=50、均值=48、标准差=8的数据进行正态性Shapiro检验,得W=0.965,p=0.18,则在α=0.05下________拒绝原假设;若进一步做Jarque-Bera检验,得JB=2.34,对应p=0.31,则综合结论为数据________显著偏离正态。答案:不;未解析:p>0.05均不拒绝,故填“不”“未”。20.(填空)在Pythonstatsmodels库中,对某数据做OLS回归后,结果.summary()表格里“Cond.No.”=1.65e+03,则该值表示________,通常认为该值________提示严重多重共线。答案:条件数;大于30解析:条件数=最大/最小奇异值,>30为严重共线经验阈值。21.(综合)某高校欲估计2023届本科毕业生毕业四个月后平均月薪(元),采用分层PPS两阶段抽样:阶段1:以省级就业片区为层,共H=5层,按毕业生人数比例分配样本;阶段2:每层内按PPS抽取高校,再在被抽高校中按简单随机抽取毕业生。已知总体N=30000,层权W_h=(8000,7000,6000,5000,4000),计划总样本量n=1200。前期预调查得各层标准差S_h≈(1200,1100,1000,900,800)元,各层高校数M_h=(60,50,40,30,20),每层拟抽高校m_h=4所,每校抽k_h名毕业生。(1)若采用比例分配,计算各层样本量n_h;(2)若采用最优分配(奈曼),计算n_h;(3)在(2)基础上,若第二层某抽中高校实际毕业生1800人,抽k_2=60,求该高校inclusionprobability;(4)给出总量估计Ŷ及其方差估计公式;(5)若实际调查后得五层样本均值ȳ_h=(6500,6200,5900,5600,5300),样本方差s_h²=(1300²,1200²,1000²,950²,850²),计算总体均值估计ȳ及95%置信区间;(6)若经费削减,总样本量减至n=800,重新按最优分配计算n_h,并比较估计精度损失(以方差增加百分比表示)。答案与解析:(1)比例分配:n_h=n·W_h/N,得n_1=1200×8000/30000=320,同理n_2=280,n_3=240,n_4=200,n_5=160。(2)奈曼分配:n_h=n·(W_hS_h)/∑(W_hS_h),计算分子:8000×1200=9.6×10⁶;7000×1100=7.7×10⁶;6000×1000=6.0×10⁶;5000×900=4.5×10⁶;4000×800=3.2×10⁶;总和=31.0×10⁶。于是n_1=1200×9.6/31.0≈372,n_2=298,n_3=232,n_4=174,n_5=124。(3)第二层PPS抽样,inclusionprobabilityπ_2j=m_2·(N_2j/N_2)=4×(1800/7000)=1.03>1,出现“概率大于1”矛盾,实际中需将该校设为“必抽”单元,调整m_2=3,再按大小比例抽剩余3所,此时π_2j=1(必抽),其余校π_2j=3×(N_2j/(7000–1800))。(4)总量估计Ŷ=∑W_hȳ_h;方差v(Ŷ)=∑W_h²(1–m_h/M_h)s_b_h²/m_h+∑W_h²(1–k_h/N_2jh)s_i_h²/(m_hk_h),其中s_b_h²为高校间方差,s_i_h²为校内方差。(5)ȳ=∑W_hȳ_h/N=(8000×6500+…+4000×5300)/30000=6060元;方差v(ȳ)=∑W_h²(1–n_h/N_h)s_h²/n_h/N²,代入得v(ȳ)≈1200²×0.032=46080,标准误SE≈214.7,95%CI=6060±1.96×214.7→(5639,6481)元。(6)n=800,重新奈曼分配:n_1=800×9.6/31.0≈248,n_2=199,n_3=155,n_4=116,n_5=82;方差与样本量成反比,原方差V_1200,新方差V_800=V_1200×1200/800=1.5V_1200,精度损失50%。22.(综合)某市政府评估“新能源车购置补贴”政策对本地新能源车销量影响,收集2018年1月–2023年6月月度数据,其中政策于2022年3月实施。研究者建立以下模型:log(Y_t)=α+β1·Policy_t+β2·log(GDP_t)+β3·log(Price_t)+β4·Trend_t+β5·Season_t+ε_t,其中Policy_t为政策虚拟变量(2022年3月及以后取1),Season_t为月度季节虚拟变量。(1)指出该模型可能存在的内生性问题;(2)若采用事件研究法,应如何重新设定模型;(3)若发现政策前6期出现“预期效应”,应如何在模型中控制;(4)给出政策效应动态图示步骤(含R代码片段);(5)若残差出现1阶自相关,DW=0.87,应如何修正标准误;(6)若政策效应在2023年初开始衰减,应如何检验衰减显著性。答案与解析:(1)政策实施时间可能与宏观经济波动同步,GDP、Price或Trend若与政策相关,则Policy_t与ε_t相关,导致OLS估计有偏。(2)事件研究法设定:log(Y_t)=α+∑_{k=–12}^{12}β_k·D_{t,k}+Controls+ε_t,其中D_{t,k}为相对政策实施月份k的虚拟变量,k=0为实施当月,β_k即动态效应。(3)在模型中加入政策前6期“lead”虚拟变量D_{t,–6},…,D_{t,–1},若显著,则说明存在预期效应,需把预期效应与政策效应分离。(4)R代码:library(dplyr);library(fixest)df%<>%mutate(time_to_event=as.numeric(time)-as.numeric(ym("2022-03")))mod<-feols(log(Y)~i(time_to_event,ref=c(–1,0),drop=–12:12)|Trend+Season+log(GDP)+log(Price),data=df)coefplot(mod,keep="time_to_event::",col="blue")(5)DW=0.87<1.1,强烈提示正自相关,采用Newey-WestHAC标准误,lag=m=1,或直接用coeftest(mod,vcov=NeweyWest(mod,lag=1))。(6)设定衰减项:在事件研究框架下,加入“政策后期”线性趋势β_post·(t–t_0)·Post_t,检验β_post是否显著为负;或采用分段线性回归,检验2023年1月后斜率变化。23.(综合)某连锁零售企业有1200家门店,2022年开展“线上订单+线下自提”新模式试点,随机抽取200家门店作为试点,其余为对照。2023年初评估发现试点门店平均客单价提升12元,但研究者怀疑“试点随机性”受区域经济状况干扰。为此收集门店2021年基线客单价、区域人均GDP、城市等级、竞争对手数量等协变量。(1)采用完全随机实验假设检验,计算平均处理效应(ATE)及其标准误;(2)若协变量不平衡,采用倾向得分匹配(PSM),给出匹配步骤与平衡性检验指标;(3)匹配后重新计算ATE,并与(1)比较;(4)若存在“溢出效应”(试点门店影响邻近对照门店),应如何识别纯处理效应;(5)给出双重稳健估计(DR)步骤;(6)若企业决定2024年全面推广,预测全量推广后总客单价提升,需考虑哪些外部效度问题。答案与解析:(1)实验组ȳ_t=152元,对照组ȳ_c=140元,ATE=12元;合并标准差s_p=38,n_t=n_c=200,SE=38×√(1/200+1/200)=3.80,t=12/3.80=3.16,p<0.01,显著。(2)PSM步骤:a.以基线客单价、GDP、城市等级、竞争对手为X,建立logit模型估计PS;b.采用1:1最近邻匹配,caliper=0.2σ_PS;c.匹配后检验标准偏差异<10%,t检验p>0.05;d.用Kolmogorov-Smirnov检验PS分布差异。(3)匹配后有效样本各186家,ATE_match=10.3元,SE=3.95,略低于实验估计,提示部分效应由选择偏差导致。(4)引入空间滞后项:定义“邻近”为500米内,建立模型Y_i=α+τT_i+ρW_i·T_i+γX_i+ε_i,其中W_i为空间权重,ρ显著则说明溢出存在,纯处理效应=τ+ρW̄。(5)DR步骤:a.用PS模型估计π(X);b.用回归模型m(X,T)预测潜在结果;c.ATE_DR=1/N∑[(T_i(Y_i–m(X_i,1)))/π(X_i)+m(X_i,1)–(1–T_i)(Y_i–m(X_i,0))/(1–π(X_i))–m(X_i,0)],兼具模型稳健性。(6)外部效度:a.时间效度——试点期经济环境异于全面推广期;b.规模效度——全量推广或致边际效应递减;c.市场饱和——竞争对手同步跟进;d.消费者习惯变化——早期采用者与后期大众差异;需通过滚动推广、区域阶梯扩散、实时A/B校准预测。24.(综合)某电商平台研究“直播带货”对品牌忠诚度的影响,收集2022年1000个品牌的月度数据,变量:忠诚度L(0–100)、是否直播D(1/0)、品牌粉丝数F(万)、广告投放A(万元)、价格折扣P(%)、月度固定效应M。(1)建立双向固定效应模型:L_it=α_i+γ_t+βD_it+θX_it+ε_it,指出α_i、γ_t含义;(2)若发现D_it与ε_it可能因“品牌–时间”联合冲击相关,应采用何种估计策略;(3)若β估计值=2.5,SE=0.8,经济显著性如何评估;(4)给出事件研究法图示,检验直播前3期与后3期动态效应;(5)若品牌存在“多直播间”情况,D_it应如何构造;(6)若平台2023年调整算法,直播流量向头部品牌倾斜,应如何控制新偏差。答案与解析:(1)α_i为品牌固定效应,控制不随时间变化的品牌特质;γ_t为月度固定效应,控制所有品牌共同面对的时间冲击。(2)采用工具变量:利用“平台直播流量分配算法外生冲击”作为IV,如平台临时技术故障致部分品牌直播时段被系统错配,满足相关性与外生性。(3)经济显著性:β=2.5表示直播提升忠诚度2.5分,相对忠诚度均值50分,提升5%,需结合转化率和复购率计算货币价值,若每1分忠诚度带来客单价提升0.5元,则经济效应显著。(4)R代码:library(lfe)df%<>%mutate(lead3=pmax(–3,time-t_live),lag3=pmin(3,ti
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 廊坊师范学院《体育教材教法实验》2023-2024学年第二学期期末试卷
- 农村供水三个责任人三项制度
- 西安交通大学城市学院《可编程控制器应用技术》2023-2024学年第二学期期末试卷
- 绵阳飞行职业学院《空间设计》2023-2024学年第二学期期末试卷
- 石家庄财经职业学院《EXCEL商务高阶应用》2023-2024学年第二学期期末试卷
- 浙江药科职业大学《声音编辑》2023-2024学年第二学期期末试卷
- 广西经济职业学院《电子线路(非线性)》2023-2024学年第二学期期末试卷
- 湘南学院《新闻传播伦理与法规》2023-2024学年第二学期期末试卷
- 河北水利电力学院《结构力学2》2023-2024学年第二学期期末试卷
- 内蒙古工业大学《音乐教师素质课程》2023-2024学年第二学期期末试卷
- 2024年山东省济南市中考化学试卷( 含答案)
- 建筑结构改造设计和加固技术综合分析的开题报告
- 管理会计学 第10版 课件 第1、2章 管理会计概论、成本性态与变动成本法
- 丧葬费用补助申请的社保授权委托书
- 2024年度初会《经济法基础》高频真题汇编(含答案)
- 课例研究报告
- 啤酒营销促销实战技巧之经销商管理技巧知识培训
- 建筑工程各部门职能及各岗位职责201702
- 机柜端口对应表
- GB/T 3934-2003普通螺纹量规技术条件
- 车辆赠与协议模板
评论
0/150
提交评论