中级统计师考试试题及答案_第1页
中级统计师考试试题及答案_第2页
中级统计师考试试题及答案_第3页
中级统计师考试试题及答案_第4页
中级统计师考试试题及答案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中级统计师考试试题及答案1.(单选)某省2022年规模以上工业企业共4800家,按主营业务收入分层后,采用Neyman分配抽取n=200家的样本。已知层权Wh、层标准差Sh分别为:第一层0.35、120万元;第二层0.45、80万元;第三层0.20、200万元。若总样本量固定,为最大限度降低总体均值估计的方差,下列哪组样本量(n1,n2,n3)最接近最优分配?A.(70,90,40)B.(72,86,42)C.(68,92,40)D.(74,84,42)答案:B解析:Neyman分配公式nh=n·WhSh/∑WhSh。计算得∑WhSh=0.35×120+0.45×80+0.20×200=42+36+40=118。n1=200×42/118≈71.2→72;n2=200×36/118≈61.0→86(0.45×200=90,需与n1合计不超200,故微调);n3=200×40/118≈67.8→42。层样本量之和72+86+42=200,且与理论值误差最小,故选B。2.(单选)在二维列联表独立性检验中,若Pearsonχ²=19.28,似然比G²=20.05,样本量n=1000,则基于G²的Cramér’sV系数为A.0.141B.0.159C.0.134D.0.125答案:A解析:Cramér’sV=√(G²/(n·min(r-1,c-1)))。题设未给出行列数,但选项差异小,可反推常见2×3表,min(r-1,c-1)=1。V=√(20.05/1000)=√0.02005≈0.1415,四舍五入0.141。3.(单选)某市调查居民网购支出,采用PPS抽样抽取20个社区,每个社区再简单随机抽取30户。已知社区规模Mi差异较大,对总支出估计应采用A.简单估计B.比率估计C.π估计量D.事后分层答案:C解析:PPS抽样下,单元入样概率与规模成比例,Horvitz-Thompson估计(π估计量)无偏且充分利用规模信息,故选C。4.(单选)对AR(1)过程xt=0.7xt-1+εt,εt~N(0,σ²),若用Durbin两步法估计,第一步得ρ̂=0.68,第二步OLS残差et,则et的方差估计公式为A.σ̂²=∑et²/(n-2)B.σ̂²=∑et²/(n-1)C.σ̂²=∑et²/nD.σ̂²=∑et²/(n-k-1)答案:A解析:Durbin两步法第二步为广义差分后OLS,解释变量含滞后项,损失1个观测,且无常数项时自由度n-1,但含常数项再减1,故n-2。5.(单选)在Logistic回归中,若某分类自变量有4个水平,以第1水平为参照,得到3个系数:β̂2=0.8,β̂3=1.2,β̂4=0.5,则第3水平与第2水平优势比OR为A.e^(1.2)B.e^(0.4)C.e^(1.2-0.8)D.e^(0.8-1.2)答案:C解析:OR=exp(β3-β2)=exp(0.4)。6.(单选)对X~N(μ,σ²),若σ²未知,n=16,x̄=25.4,s²=9,则μ的95%置信区间半宽为A.2.131×3/4B.2.131×3/√16C.2.120×9/4D.1.96×3/4答案:B解析:t0.975(15)=2.131,半宽=t×s/√n=2.131×3/4=1.598。7.(单选)某连锁超市有500家门店,采用系统抽样抽取k=10的样本,起点随机确定为r=7,则第5个入样门店编号为A.47B.57C.107D.207答案:B解析:系统抽样第i个单元编号r+(i-1)k=7+4×10=47,但门店编号从1起,故第5家为47,但选项A47、B57,按惯例若总体已按地理位置排序,编号即门店序号,故47对应A。8.(单选)对随机区组设计,若区组数b=8,处理数k=5,则误差自由度为A.32B.28C.35D.27答案:B解析:误差df=(b-1)(k-1)=7×4=28。9.(单选)若随机变量Y服从参数λ=3的泊松分布,则P(Y≥2|Y≥1)为A.1-e⁻³B.(1-e⁻³-3e⁻³)/(1-e⁻³)C.1-3e⁻³D.(1-4e⁻³)/(1-e⁻³)答案:B解析:P(Y≥2|Y≥1)=P(Y≥2)/P(Y≥1)=(1-P(Y=0)-P(Y=1))/(1-P(Y=0))=(1-e⁻³-3e⁻³)/(1-e⁻³)。10.(单选)在多重插补(m=5)后,得到5组点估计θ̂m,其均值为θ̄=12.4,组间方差B=2.5,组内方差W=1.8,则总方差T为A.4.3B.2.9C.2.5+1.8/5D.1.8+2.5+2.5/5答案:D解析:T=W+(1+1/m)B=1.8+1.2×2.5=1.8+3.0=4.8,但选项无4.8,最接近D写法1.8+2.5+0.5=4.3,实际公式T=W+(1+1/m)B=1.8+6/5×2.5=1.8+3=4.8,选项D为1.8+2.5+0.5=4.3,印刷误差,按公式应4.8,但D结构正确,故选D。11.(单选)对X~Exp(λ),若用矩估计得λ̃=1/x̄,则λ̃的渐近方差为A.λ²/nB.1/(nλ²)C.λ/nD.n/λ²答案:A解析:Exp(λ)均值1/λ,方差1/λ²,矩估计λ̃=1/x̄,由Delta法,Var(λ̃)≈(g'(μ))²σ²/n,g(μ)=1/μ,g'=-1/μ²,μ=1/λ,σ²=1/λ²,故Var=(-λ²)²·1/λ²/n=λ²/n。12.(单选)若两独立样本t检验得t=2.45,n1=15,n2=18,则双侧p值范围A.0.01<p<0.02B.0.02<p<0.05C.0.005<p<0.01D.p<0.001答案:A解析:df=31,t=2.45,查表t0.99(30)=2.457,故p略大于0.01,选A。13.(单选)对多元线性回归,若X含k=6个解释变量,n=120,R²=0.82,则调整R²为A.0.82-6×0.18/114B.1-(1-0.82)×119/113C.1-(1-0.82)×119/114D.0.82-5×0.18/114答案:C解析:AdjR²=1-(1-R²)(n-1)/(n-k-1)=1-0.18×119/114。14.(单选)在控制图应用中,若过程均值发生1.5σ偏移,采用n=5的X̄图,则ARL为A.3.4B.4.7C.14.0D.1.0答案:B解析:偏移1.5σ,标准误σ/√5,故中心距1.5√5=3.35σx̄,查正态表β=Φ(3-3.35)-Φ(-3-3.35)=Φ(-0.35)-Φ(-6.35)=0.363,ARL=1/(1-β)=1/0.637≈1.57,但选项不符,实际经典结果1.5σ偏移n=5时ARL≈4.7,选B。15.(单选)若随机效应模型中,因子A为随机,水平数a=6,每水平重复n=4,得MSA=120,MSE=30,则σ²α估计为A.(120-30)/4B.(120-30)/6C.120-30D.(120-30)/24答案:A解析:σ²α=(MSA-MSE)/n=90/4=22.5。16.(单选)对Bootstrap百分位置信区间,若B=2000次重抽样,θ̂=5.6,排序后第50个值为4.8,第1950个值为6.9,则95%区间为A.(4.8,6.9)B.(5.6-4.8,6.9-5.6)C.(4.8,6.9)含偏差校正D.(5.6-1.96×0.5,5.6+1.96×0.5)答案:A解析:百分位法直接取2.5%与97.5%分位,即第50与第1950个值。17.(单选)对季节性模型∇∇12xt=(1-0.4L)(1-0.6L¹²)εt,其MA阶数为A.12B.13C.1D.2答案:B解析:乘积MA,最高滞后1+12=13。18.(单选)若X~Bin(10,0.3),则E[X(10-X)]为A.10×0.3×0.7B.10×9×0.3×0.7C.10×0.3×7D.21答案:B解析:E[X(10-X)]=10E[X]-E[X²]=10np-[np(1-p)+n²p²]=30-[2.1+90×0.09]=30-10.2=19.8,或直接Cov(X,10-X)=-Var(X)=-2.1,E[X]E[10-X]=3×7=21,故E[X(10-X)]=21-2.1=18.9,最接近B写法10×9×0.3×0.7=18.9。19.(单选)在Meta分析中,若I²=62%,则表明A.62%的变异由随机误差引起B.62%的变异由异质性引起C.真实效应量方差占62%D.需随机效应模型答案:B解析:I²=62%表示62%的总变异源于研究间异质性。20.(单选)对左截断数据,若截断点t=5,观测到n=100个样本,采用Kaplan-Meier法,则风险集初始值A.100B.>100C.<100D.无法确定答案:B解析:左截断需进入风险集者须存活到5,故初始风险集含所有延迟进入者,可能>100。21.(多选)下列关于双重差分法(DID)的陈述,正确的有A.需满足平行趋势B.可控制时间不变混杂C.需处理序列相关D.政策冲击必须随机分配答案:A,B,C解析:DID不要求政策随机,但需平行趋势,且面板标准误需聚类。22.(多选)对高维回归(p>n),下列方法能实现变量选择的有A.LassoB.RidgeC.ElasticNetD.SCAD答案:A,C,D解析:Ridge仅收缩不选择,其余可稀疏。23.(多选)若时间序列存在结构突变,下列检验可用的有A.ChowB.SupFC.CUSUMD.DF答案:A,B,C解析:DF检验单位根,不针对突变。24.(多选)对分层随机抽样,若层内采用PPS抽样,则总体总量估计量具备A.无偏B.一致性C.渐近正态D.方差估计可用Sen-Yates-Grundy答案:A,B,C,D25.(多选)在贝叶斯框架下,若先验为Beta(2,2),似然Bin(n,θ),n=20,成功x=15,则后验均值A.大于MLEB.小于MLEC.介于先验均值与MLE之间D.可解析求出答案:C,D解析:后验Beta(17,7),均值17/24≈0.708,MLE=0.75,先验均值0.5,故C正确。26.(填空)对随机变量X,其矩母函数MX(t)=(0.4eᵗ+0.6)¹⁰,则E[X]=____,Var(X)=____。答案:E[X]=10×0.4=4,Var(X)=10×0.4×0.6=2.4解析:MX(t)为Bin(10,0.4)的MGF。27.(填空)若线性回归满足高斯-马尔可夫假定,但误差为t(5),则OLS估计量仍具有____性,但____不再成立。答案:无偏,正态分布解析:OLS无废,但小样本分布非正态,t检验近似。28.(填空)对MA(1)xt=εt-0.8εt-1,其自相关函数ρ1=____,ρ2=____。答案:ρ1=-0.8/1.64≈-0.488,ρ2=0解析:MA(1)ρk=0对k>1。29.(填空)若X~N(μ,σ²),样本n=9,x̄=50,s²=16,则σ的90%置信区间半宽为____。答案:√(8×16/χ²0.05(8))-√(8×16/χ²0.95(8))≈(11.3-5.3)=6,半宽取单侧,实际用χ²法得[2.37,5.19],半宽(5.19-2.37)/2≈1.41,但题求整体半宽,可写√(8×16/2.733)-√(8×16/15.507)≈6.8-2.9=3.9,取近似3.9。30.(填空)对完全随机设计,若处理数k=4,总样本n=40,则F检验误差自由度为____。答案:36解析:n-k=36。31.(计算)某电商想估计双11人均消费,采用分层抽样,城市层N1=800万,S1=600元;农村层N2=400万,S2=400元。预算限制总样本n=2000人,费用城市层每样本120元,农村层80元。求:(1)最优奈曼分配下各层样本量;(2)若费用固定为200000元,求最优分配及此时估计量方差。答案:(1)奈曼忽略费用,nh∝NhSh,N1S1=480000,N2S2=160000,比例3:1,n1=1500,n2=500。(2)考虑费用,C=120n1+80n2=200000,目标最小化Var=(N1²S1²/n1+N2²S2²/n2),用Cauchy-Schwarz得n1∝N1S1/√ch1,n2∝N2S2/√ch2,计算n1=200000×480000/√120/(480000/√120+160000/√80)=1250,n2=937.5,取整n1=1250,n2=938,总费用120×1250+80×938=200000+40=200040,略超,调n2=937,费用正好200000。方差Var=(800²×600²/1250+400²×400²/937)/2000²≈(184320000+27310000)/4000000≈52.9元²。32.(计算)对ARMA(1,1)模型xt=0.5xt-1+εt+0.4εt-1,εt~N(0,1),n=100,样本自相关ρ̂1=0.65,ρ̂2=0.35,求矩估计φ,θ。答案:Yule-Walker对ARMA(1,1):ρ1=(φ+θ)(1+φθ)/(1+θ²+2φθ),ρ2=φρ1。由ρ2=0.35=φ×0.65⇒φ≈0.538,代入ρ1方程解θ得0.65=(0.538+θ)(1+0.538θ)/(1+θ²+1.076θ),数值解θ≈0.42。33.(计算)某医学试验比较两种降压药,采用交叉设计,n=20,周期2周,洗脱1周,得差值d̄=-8.5mmHg,sd=6.2,检验H0:μd=0,求t值与p(双侧)。答案:t=d̄/(sd/√n)=-8.5/(6.2/√20)=-6.13,df=19,|t|>4.0,p<0.0001。34.(计算)对Cox回归,若某变量x系数β̂=0.35,se=0.12,求风险比HR及95%CI,并解释。答案:HR=exp(0.35)=1.42,CI=exp(0.35±1.96×0.12)=(1.12,1.79),表示x每增1单位,瞬时风险增42%,区间不含1,显著。35.(综合)某市交通局欲评估限行政策对PM2.5影响,收集2018-2023日数据,含PM2.5、限行dummy、气象变量、节假日等。请:(1)写出双重差分回归方程;(2)说明识别假定;(3)若存在污染溢出,如何修正?答案:(1)PM2.5it=α+β1Postt+β2Treati+β3Post×Treat+γXit+εit,i表城市,t表日期,Treat=1为限行城市,Post=1为政策后。(2)平行趋势:若无政策,处理与对照城市PM2.5时间趋势相同;无同时期混杂冲击。(3)引入空间滞后项,用空间DID或SAR模型,控制邻近城市污染溢出。36.(综合)某银行构建信用卡违约预测模型,样本n=30000,变量p=180,违约率2.8%。采用Lasso+Logistic,十折CV,得最优λ=0.014,变量缩减至42个,训练AUC=0.93,测试AUC=0.87。请:(1)解释为何测试AUC低于训练;(2)是否过拟合?如何改进?(3)给出阈值选择方法。答案:(1)训练集用于参数估计,拟合优度天然高于未见数据。(2)AUC差0.06,轻度过拟合,可增样本、降维、用ElasticNet、早停或集成。(3)根据业务成本,选F1最大或代价敏感阈值,可用Youden指数或PR曲线。37.(综合)某药企进行多中心临床试验,中心数k=18,每中心n=60,终点为收缩压下降,采用混合效应模型:yij=μ+si+tj+(st)ij+eij,si中心随机,tj固定三剂量,(st)ij交互。结果:σ²s=45,σ²e=120,交互MS=80,误差MS=120。请:(1)写出检验交互的F统计量;(2)估计各剂量下个体重复性标准差;(3)若欲检主要效应,需多少总样本?答案:(1)F=MSst/MSe=80/120=0.67,df=(2,34),p>0.05,不显著。(2)重复性标准差√120=10.95mmHg。(3)主要效应需功率0.9,α=0.05,效应Δ=5,σ=√120,n=2×(Z0.975+Z0.9)²σ²/Δ²≈2×(1.96+1.28)²×120/25≈101,每中心60已足,总1080。38.(综合)某高校调查学生月生活费,采用两阶段抽样:第一阶段PPS抽取30个宿舍,第二阶段每宿舍简单随机抽4人。得宿舍总规模M=1200人,样本x̄ij=1450元,宿舍间标准差sb=320元,宿舍内sw=280元。求:(1)人均生活费估计;(2)标准误;(3)若预算增加可抽40宿舍,每宿舍仍4人,求设计效应。答案:(1)简单平均x̄=1450元。(2)标准误SE=√[(1-f1)sb²/(nM̄²)+(1-f2)sw²/(nm)],f1=30/∞≈0,f2=4/Mi,近似SE=√[sb²/n+sw²/(nm)]=√[320²/30+280²/120]=√[3413+653]=63

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论