统计师考试试题及答案_第1页
统计师考试试题及答案_第2页
统计师考试试题及答案_第3页
统计师考试试题及答案_第4页
统计师考试试题及答案_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计师考试试题及答案1.单选题(每题2分,共30分)1.1某省调查总队对120家规模以上工业企业进行月度产值抽样,采用与规模成比例的不放回PPS抽样。若第i企业的产值为X_i,入样概率为π_i,则下列关于Horvitz-Thompson估计量Ŷ_HT=Σ_{i∈s}Y_i/π_i的方差估计量v(Ŷ_HT)的说法,正确的是A.必须已知所有π_ij才能构造无偏估计B.只要样本量n≥2,即可用Yates-Grundy形式构造无偏估计C.若采用Brewer抽样方案,π_ij解析式不存在,故无法估计方差D.若采用Rao-Sampford抽样方案,π_ij无解析式,但可用“去一”刀切法估计方差答案:B解析:Horvitz-Thompson估计量的方差可写成V(Ŷ_HT)=ΣΣΔ_ijY_iY_j,其中Δ_ij=π_ij−π_iπ_j。Yates-Grundy形式v_YG=−½ΣΣΔ_ij(Y_i/π_i−Y_j/π_j)^2仅需样本内π_ij即可计算,且对任意固定样本量n≥2均给出无偏估计。Brewer与Rao-Sampford方案虽π_ij复杂,但仍可用刀切或bootstrap获得一致方差估计,故A、C错;D虽可刀切,却非“无法”解析,表述绝对化,故最优选项为B。1.2对一组右偏的失业持续时间数据(单位:周),下列变换中,最能降低偏度且保持单调性的是A.ln(x)B.√xC.1/xD.x^2答案:A解析:右偏分布常用对数变换压缩大值尾部,偏度下降最显著且保持单调递增。平方根变换效果次之,倒数与平方均破坏单调或加剧偏度。1.3在双侧检验H0:μ=μ0vsH1:μ≠μ0中,若总体标准差σ已知,样本量n=100,显著性水平α=0.05,当真实均值μ1=μ0+0.3σ时,检验功效约为A.0.50B.0.65C.0.80D.0.95答案:C解析:Z检验功效函数Φ(−z_{α/2}+√nδ/σ)+Φ(−z_{α/2}−√nδ/σ),其中δ=0.3σ,√nδ/σ=3。z_{0.025}=1.96,故功效≈Φ(1.04)+Φ(−4.96)=0.8508+0≈0.85,最接近0.80。1.4对5×4列联表进行独立性卡方检验,若最小期望频数为3.2,则下列说法正确的是A.必须合并行或列才能使用χ²近似B.可用χ²近似,但需做连续性校正C.可直接使用Pearsonχ²,无需校正D.应改用Fisher精确检验答案:C解析:Cochran规则要求所有期望频数≥1且<5的单元格比例不超过20%。本表最小期望3.2>1,且5×4=20个单元格中若仅少数<5,可直接使用Pearsonχ²。连续性校正仅用于2×2表,Fisher精确在期望频数极低时采用,故选C。1.5在简单随机抽样中,若总体大小N=500,样本量n=50,样本均值ȳ=12.4,样本标准差s=3.2,则有限总体修正后的均值标准误为A.3.2/√50B.3.2/√50×√(450/499)C.3.2/√50×√(499/450)D.3.2/√50×√(1−50/500)答案:B解析:有限总体修正fpc=√((N−n)/(N−1)),标准误SE=s/√n×fpc=3.2/√50×√(450/499)。1.6对多元线性模型Y=Xβ+ε,ε~N(0,σ²I),若X含p=8列,n=120,RSS=360,则σ²的无偏估计为A.360/112B.360/119C.360/120D.360/8答案:B解析:σ²的无偏估计为RSS/(n−p)=360/(120−8)=360/112≈3.214。1.7在指数平滑中,若平滑参数α=0.15,则对无限历史数据,系数衰减至0.5^(k)所需的滞后阶数k约为A.3B.5C.7D.9答案:B解析:指数平滑权重w_k=α(1−α)^{k−1},令α(1−α)^{k−1}=0.5^k,取对数解得k≈ln(α)/ln(0.5(1−α))≈4.6,取整5。1.8对AR(1)过程X_t=φX_{t−1}+Z_t,Z_t~WN(0,σ²),若样本自相关ρ̂1=0.68,n=200,则φ的Yule-Walker估计为A.0.68B.0.70C.0.72D.0.74答案:A解析:Yule-Walker方程直接给出φ̂=ρ̂1=0.68。1.9在贝叶斯框架下,若先验θ~N(0,1),似然x|θ~N(θ,1),观测x=2,则θ的后验均值为A.0B.0.5C.1D.2答案:C解析:共轭正态,后验均值=(1/(1+1))×0+(1/(1+1))×2=1。1.10对泊松计数数据y=12,使用Jeffreys先验,则θ的95%等尾可信区间为A.6.2–18.8B.6.8–19.4C.7.0–19.8D.7.4–20.2答案:B解析:Jeffreys先验θ^{-½},后验为Gamma(12+½,1),即χ²(25)的2θ分布。95%区间对应χ²分位数12.4–40.6,换算θ得6.2–20.3,最接近B。1.11在Bootstrap置信区间构造中,若采用BCa方法,其加速系数a的估计基于A.经验影响函数B.刀切伪值C.自助标准误D.偏差校正因子答案:B解析:BCa的a由刀切伪值的三阶矩估计获得。1.12对高维回归p>n,若使用Lasso,调节参数λ增大时,下列说法正确的是A.偏差减小,方差增大B.偏差增大,方差减小C.偏差与方差均增大D.偏差与方差均减小答案:B解析:λ增大,惩罚加强,模型更简单,偏差增大,方差减小。1.13在系统聚类中,若采用Ward法,合并两类后组内平方和的增加量等于A.两类的重心距离平方乘以合并样本量倒数之和B.两类间欧氏距离平方C.两类间马氏距离D.两类方差之和答案:A解析:Ward准则定义即为ΔESS=(n_An_B)/(n_A+n_B)‖x̄_A−x̄_B‖²。1.14对二分类逻辑回归,若某连续预测变量x的系数β̂=0.8,则x每增加1单位,优势比OR为A.0.8B.1.8C.2.2D.8.0答案:C解析:OR=e^β=e^{0.8}≈2.225。1.15在抽样调查中,若设计效应deff=2.3,则意味着A.复杂抽样方差是简单随机抽样的2.3倍B.样本量需增至2.3倍才能达到SRS精度C.有效样本量降至n/2.3D.以上均正确答案:D解析:设计效应定义即复杂抽样方差与SRS方差之比,故A、B、C均等价正确。2.多选题(每题3分,共30分,每题至少两个正确答案,多选少选均不得分)2.1下列关于非参数核密度估计f̂_h(x)=1/(nh)ΣK((x−X_i)/h)的叙述,正确的有A.当h→0时,估计方差趋于0B.当nh→∞时,估计偏差趋于0C.最优h~n^{−1/5}使AMISE最小D.高斯核的AMISE收敛速度与Epanechnikov核相同阶E.边界修正可采用反射法答案:BCDE解析:h→0时方差→∞,A错;其余均正确。2.2对随机区组设计,若区组数b=8,处理数t=5,每区组每处理1次观测,则下列正确的有A.误差自由度为28B.处理均方期望含σ²+5Στ_j²/(t−1)C.区组均方期望含σ²+tσ_b²D.若区组效应随机,处理检验分母为区组均方E.若区组效应固定,处理检验分母为误差均方答案:ACE解析:总自由度39,区组7,处理4,误差28,A对;处理期望含σ²+bΣτ_j²/(t−1),B错;区组期望σ²+tσ_b²,C对;随机区组下处理检验仍用误差均方,D错;固定时用误差,E对。2.3下列属于广义线性模型GLM必备要素的有A.随机成分指定指数族分布B.系统成分指定线性预测器C.连接函数单调可微D.方差函数与均值无关E.偏差残差平方和服从χ²答案:ABC解析:GLM三要素为指数族、线性预测器、连接函数;方差函数可依赖均值,D错;偏差残差近似χ²但非“必备”,E错。2.4在生存分析中,关于Cox比例风险模型的假设,正确的有A.基线风险h0(t)可为任意非负函数B.协变量效应乘积于风险C.对时依协变量需构造偏似然D.若比例风险不成立,可引入分层CoxE.偏回归系数估计为偏似然得分方程解答案:ABDE解析:时依协变量仍可用标准偏似然,C表述“需构造”易误解,不选;其余正确。2.5对高维协方差矩阵估计,下列方法中具备稀疏性的有A.硬阈值法B.图形LassoC.Ledoit-Wolf收缩D.因子模型E.带状化估计答案:ABE解析:硬阈值、图形Lasso、带状化均直接引入稀疏;Ledoit-Wolf收缩整体降特征值但非稀疏;因子模型降秩非稀疏。3.计算题(共40分)3.1(10分)某市欲估计2023年第四季度居民线上消费总额。已知全市共有80万户,按简单随机抽样抽取1600户,调查得平均线上消费ȳ=4850元,样本标准差s=2100元。(1)给出总体总量Ŷ的估计并计算其95%置信区间。(2)若要求估计相对误差不超过5%,求所需样本量(假定s不变)。解:(1)总量估计Ŷ=Nȳ=800000×4850=3.88×10¹¹元。标准误SE=N·s/√n·√(1−n/N)=800000×2100/√1600×√(1−1600/800000)=800000×2100/40×√0.998≈4.2×10⁷×0.999≈4.196×10⁷。95%区间:Ŷ±1.96×SE=3.88×10¹¹±8.23×10⁷,即[3.8792×10¹¹,3.8808×10¹¹]元。(2)相对误差5%即绝对误差0.05×4850=242.5元/户。由d=z_{0.975}·s/√n·√(1−n/N),解n≥(z²s²)/(d²+s²z²/N)=(1.96²×2100²)/(242.5²+1.96²×2100²/800000)≈(4×4.41×10⁶)/(5.88×10⁴+1.08×10²)≈300。故需约300户,原样本已远超,满足。3.2(10分)设X~Poisson(λ),欲检验H0:λ=3vsH1:λ=5,取拒绝域{X≥c}。(1)求c使第一类错误概率α≈0.05。(2)求该检验在λ=5下的功效。(3)若观测x=8,求p值。解:(1)P(X≥c|λ=3)=1−P(X≤c−1)。查Poisson(3)表:c=7时1−F(6)=1−0.966=0.034;c=6时1−F(5)=0.084。取c=7,α=0.034<0.05,最接近。(2)功效P(X≥7|λ=5)=1−F(6;5)=1−0.762=0.238。(3)p=P(X≥8|λ=3)=1−F(7;3)=1−0.988=0.012。3.3(10分)对线性模型Y=Xβ+ε,ε~N(0,σ²I),n=30,p=4,RSS=180。(1)给出σ²的无偏估计。(2)若新增一个预测变量,RSS降至160,求调整R²的变化方向与数值。(3)在(2)基础上,用F检验判断新增变量是否显著(α=0.05)。解:(1)σ̂²=RSS/(n−p)=180/26≈6.923。(2)原R²=1−180/SST,新R²=1−160/SST,SST不变,R²增大。调整R²_adj=1−(RSS/(n−p))/(SST/(n−1))。原R²_adj=1−(180/26)/(SST/29),新R²_adj=1−(160/25)/(SST/29)。由于160/25=6.4<180/26≈6.923,故R²_adj增大。数值需SST,但方向明确向上。(3)F=((180−160)/1)/(160/25)=20/6.4=3.125,F_{0.95}(1,25)=4.24,3.125<4.24,不显著。3.4(10分)某电商对15款商品进行价格弹性实验,记录降价幅度x(%)与销量增长y(%)。数据如下:x:51015202530354045505560657075y:61218232832353840414243444445(1)拟合简单线性回归y=β0+β1x,给出估计方程与R²。(2)检验H0:β1=0.5vsH1:β1≠0.5(α=0.05)。(3)预测x=80时y的95%置信区间。解:(1)经计算:Σx=600,Σy=478,Σx²=28750,Σy²=18204,Σxy=22840,n=15。Sxx=28750−600²/15=28750−24000=4750,Sxy=22840−600×478/15=22840−19120=3720,β̂1=Sxy/Sxx=3720/4750≈0.783,β̂0=ȳ−β̂1x̄=478/15−0.783×40≈31.867−31.32=0.547。方程:ŷ=0.547+0.783x。SST=Σy²−nȳ²=18204−15×(31.867)²≈18204−15228=2976,SSR=β̂1Sxy=0.783×3720≈2913,R²=SSR/SST≈2913/2976≈0.979。(2)σ̂²=(SST−SSR)/(n−2)=(2976−2913)/13≈4.846,se(β̂1)=√(σ̂²/Sxx)=√(4.846/4750)≈0.032。t=(0.783−0.5)/0.032≈8.84,|t|>t_{0.975}(13)=2.160,拒绝H0。(3)x0=80,ŷ0=0.547+0.783×80≈63.19。se(ŷ0)=√σ̂²(1/n+(x0−x̄)²/Sxx)=√4.846(1/15+1600/4750)≈√4.846×0.403≈1.40。95%区间:63.19±2.160×1.40=[60.16,66.22]。4.综合应用题(共50分)4.1(25分)某健康研究院开展高血压干预试验,将8个社区随机分为两组(干预/对照),每社区随机抽取30名成人,记录6个月后收缩压下降值(mmHg)。数据:干预组:社区A–F平均下降8.2,9.1,7.5,8.8,9.5,7.9(每组n=30,组内s²=4.5)对照组:社区G–H平均下降3.4,2.9(n=30,s²=4.0)(1)将社区作为随机效应,拟合两水平模型y_ij=β0+β1trt_i+u_i+ε_ij,其中u_i~N(0,σ_u²),ε_ij~N(0,σ²),给出β1的估计与标准误。(2)检验H0:β1=0。(3)估计社区内相关系数ICC。(4)若忽略社区聚类,用两独立样本t检验,求p值并比较(1)之结论。(5)讨论设计效应。解:(1)综合干预组均值ȳ_T=(8.2+9.1+7.5+8.8+9.5+7.9)/6=8.48,对照组ȳ_C=(3.4+2.9)/2=3.15,β̂1=8.48−3.15=5.33。方差:干预组内均值方差Var(ȳ_T)=σ_u²/6+σ²/180,对照组Var(ȳ_C)=σ_u²/2+σ²/60。用组内s²估计σ²≈4.3(加权平均),则Var(β̂1)=Var(ȳ_T)+Var(ȳ_C)=σ_u²/6+4.3/180+σ_u²/2+4.3/60=(2/3)σ_u²+0.0956。需估计σ_u²:用社区间方差,干预组间样本方差s_bT²=0.566,对照组s_bC²=0.125,综合矩估计σ_u²≈0.45。故se(β̂1)=√(2/3×0.45+0.0956)=√0.3956≈0.629。(2)t=5.33/0.629≈8.47,df用Satterthwaite得≈6,p<0.001,显著。(3)ICC=σ_u²/(σ_u²+σ²)=0.45/(0.45+4.3)≈0.095。(4)忽略聚类:合并方差s_p²=4.3,se=√4.3(1/180+1/60)=0.302,t=5.33/0.302≈17.6,p<0.001,结论一致但标准误严重低估。(5)设计效应deff=1+(m−1)ICC≈1+(30−1)×0.095≈3.76,表明聚类使有效样本量降至1/3.76,需增加样本或采用多水平分析。4.2(25分)某银行构建信用卡违约预测模型,抽取10000条样本,其中违约400条。采用逻辑回归、随机森林、XGBoost三种算法,5折交叉验证结果如下:模型|AUC|召回率@0.2|F1@0.2|---|---|---逻辑回归|0.784|0.62|0.51随机森林|0.812

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论