统计师之中级统计相关知识通关考试题库带答案解析_第1页
统计师之中级统计相关知识通关考试题库带答案解析_第2页
统计师之中级统计相关知识通关考试题库带答案解析_第3页
统计师之中级统计相关知识通关考试题库带答案解析_第4页
统计师之中级统计相关知识通关考试题库带答案解析_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计师之中级统计相关知识通关考试题库带答案解析1.(单选)在分层抽样中,若各层样本量按“层内标准差×层规模”比例分配,则该分配方式称为A.奈曼分配 B.比例分配 C.等额分配 D.最优分配答案:A解析:奈曼(Neyman)分配公式为nh∝NhSh,其中Nh为层规模,Sh为层内标准差,可使估计量方差最小。比例分配仅与Nh成正比;最优分配还需考虑单位调查成本,题干未提成本,故选奈曼分配。2.(单选)对某地区GDP季度序列进行季节调整,若采用X-13-ARIMA-SEATS,其“SEATS”部分主要完成的任务是A.异常值检测 B.交易日效应估计 C.基于ARIMA模型的信号提取 D.谱密度估计答案:C解析:SEATS(SignalExtractioninARIMATimeSeries)利用ARIMA模型将序列分解为趋势、季节、不规则成分,属于模型信号提取;异常值与交易日效应由RegARIMA模块处理。3.(单选)在一般线性模型Y=Xβ+ε,ε~N(0,σ²I)中,若X的第一列为全1向量,则残差和ΣeiA.等于0 B.等于σ² C.等于n D.无法确定答案:A解析:X含截距列⇒X′e=0⇒Σei=0,这是最小二乘几何投影的必然结果。4.(单选)对二项分布B(n,p)进行假设检验H0:p=0.5,若n=100,观测成功次数x=38,则采用Clopper-Pearson精确检验的p值约为A.0.022 B.0.044 C.0.056 D.0.088答案:B解析:双侧p=2×P(X≤38|p=0.5)=2×0.022≈0.044,由二项累积分布函数计算得。5.(单选)在R语言中,下列代码返回TRUE的语句是A.identical(NaN,NaN) B.identical(NULL,NULL) C.identical(NA,NA) D.identical(Inf,Inf)答案:B解析:NULL在R中为单例对象,identical比较地址返回TRUE;NaN、NA、Inf虽值“相等”,但内部存储模式不同,identical返回FALSE。6.(单选)对高维数据p≫n,若变量间存在复共线性,下列方法中最不可能产生稀疏解的是A.Lasso B.Ridge C.ElasticNet D.SCAD答案:B解析:Ridge仅对系数进行L2收缩,不具变量选择功能,解非稀疏;其余三种均可产生稀疏解。7.(单选)设随机变量X服从参数λ=1的指数分布,则E[min(X,2)]等于A.1–e⁻² B.1–e⁻¹ C.1+e⁻² D.2–e⁻²答案:A解析:E[min(X,2)]=∫₀²x·e⁻ˣdx+∫₂^∞2·e⁻ˣdx=1–e⁻²。8.(单选)在Bootstrap置信区间构造中,若采用百分位数法,其覆盖率在一阶渐近意义上A.低于BCa法 B.等于BCa法 C.高于标准正态近似 D.与样本量无关答案:A解析:BCa通过偏差校正和加速常数调整,使覆盖率误差降至O(n⁻¹),而百分位数法为O(n⁻¹/²),故覆盖率通常低于BCa。9.(单选)对某调查数据使用校准估计,若辅助变量总体均值已知,且采用线性距离函数,则校准权重满足A.权重之和等于样本量 B.权重非负 C.权重等于基础设计权重 D.权重与辅助变量无关答案:A解析:线性距离校准仅调整权重使辅助变量加权均值等于总体均值,并保证Σwi=N,不强制非负;若需非负权重需用raking或logit距离。10.(单选)在Python的statsmodels库中,执行ols('y~x1+x2+x1:x2',data).fit().summary()后,输出表中x1:x2一行对应的检验是A.检验x1主效应 B.检验x2主效应 C.检验x1与x2交互效应是否为零 D.检验模型整体显著性答案:C解析:冒号表示交互项,其系数检验H0:βx1x2=0。11.(单选)对某时间序列{yt}建立AR(2)模型yt=1.2yt-1–0.32yt-2+εt,则该过程A.平稳 B.非平稳但可逆 C.爆炸式发散 D.存在单位根答案:A解析:特征方程λ²–1.2λ+0.32=0的根为0.4与0.8,均在单位圆内,故平稳。12.(单选)在贝叶斯框架下,若似然为N(μ,σ²),σ²已知,先验为N(μ0,τ²),则后验均值可视为A.样本均值与先验均值的加权平均 B.仅样本均值 C.仅先验均值 D.与样本量无关答案:A解析:后验均值=(n/σ²·x̄+1/τ²·μ0)/(n/σ²+1/τ²),显见为加权平均。13.(单选)对某总体进行不放回简单随机抽样,样本量n=50,总体量N=500,则有限总体修正系数fpc为A.√(450/500) B.√(49/499) C.√((500–50)/500) D.√((500–50)/(500–1))答案:C解析:fpc=√((N–n)/N),用于修正方差估计。14.(单选)在多元方差分析MANOVA中,Wilks’Lambda检验统计量Λ取值范围A.0≤Λ≤1 B.–1≤Λ≤1 C.0≤Λ≤∞ D.–∞<Λ<∞答案:A解析:Λ=|E|/|E+H|,其中E为组内平方和矩阵,H为组间平方和矩阵,故0≤Λ≤1,值越小越拒绝原假设。15.(单选)对左截断数据,若采用Kaplan-Meier法,则风险集在截断点A.包含所有个体 B.仅包含进入观察的个体 C.不包含任何个体 D.随机包含答案:B解析:左截断意味着只有事件发生在截断时间之后才可见,故风险集从进入观察开始累积。16.(单选)在随机森林中,若增加树的数量而保持其他参数不变,则OOB误差A.单调递减趋于稳定 B.单调递增 C.先减后增 D.不变答案:A解析:更多树降低方差,OOB误差下降并收敛。17.(单选)对Poisson回归,若存在过度离散,仍使用标准PoissonMLE,则A.参数估计有偏 B.参数估计无偏但标准误低估 C.参数估计无偏且标准误正确 D.无法估计答案:B解析:MLE一致性不依赖方差等于均值,但标准误基于该假设,故低估。18.(单选)在SQL中,计算滚动三个月平均销售额的窗口函数写法是A.AVG(sales)OVER(ORDERBYmonthROWS2PRECEDING)B.AVG(sales)OVER(ORDERBYmonthRANGEBETWEEN2PRECEDINGANDCURRENTROW)C.AVG(sales)OVER(PARTITIONBYmonth)D.AVG(sales)OVER(ORDERBYmonthROWSBETWEEN3PRECEDINGAND3FOLLOWING)答案:A解析:ROWS2PRECEDING取当前行与前两行,共三个月;RANGE需按值区间,月份不连续会出错。19.(单选)对某连续变量进行分箱后计算WOE,若某箱WOE为负,则说明A.该箱违约率低于总体 B.该箱违约率高于总体 C.该箱样本量为零 D.WOE与违约率无关答案:B解析:WOE=ln(好占比/坏占比),负值意味着坏占比高。20.(单选)在控制图理论中,若过程均值发生1.5σ偏移,采用3σ控制图的平均运行长度ARL约为A.14 B.44 C.500 D.200答案:B解析:通过正态累积分布计算,ARL=1/(1–Φ(3–1.5)+Φ(–3–1.5))≈44。21.(多选)下列哪些方法可用于检测空间自相关A.Moran’sI B.Geary’sC C.LISA D.Variogram E.K-means答案:A,B,C,D解析:K-means为聚类算法,不检验空间自相关。22.(多选)关于EM算法,以下说法正确的是A.每次迭代似然单调不减 B.收敛点必为全局最大 C.适用于含隐变量模型 D.M步求期望 E.可用于缺失数据答案:A,C,E解析:B错,可能陷入局部极值;D错,M步最大化而非求期望。23.(多选)在面板数据固定效应模型中,组内估计量具有A.消除不随时间变化的个体异质性 B.当个体效应与解释变量相关时仍一致 C.需假定误差项同方差 D.估计量可表示为LSDV E.可使用Hausman检验与随机效应比较答案:A,B,D,E解析:组内估计不强制同方差,White稳健标准误即可。24.(多选)下列属于非概率抽样的是A.配额抽样 B.便利抽样 C.雪球抽样 D.系统抽样 E.判断抽样答案:A,B,C,E解析:系统抽样若起始随机则属概率抽样。25.(多选)在深度学习BatchNormalization中,参数γ与βA.通过反向传播学习 B.使网络表达能力下降 C.允许网络使用饱和非线性 D.减少内部协变量偏移 E.在测试阶段使用移动平均均值方差答案:A,C,D,E解析:BN增强而非削弱表达能力。26.(多选)关于CART算法,正确的是A.可处理缺失值 B.使用Gini指数作为分裂准则 C.必为二叉树 D.可回归可分类 E.剪枝采用最小成本复杂度答案:A,B,C,D,E解析:所有描述均符合CART特征。27.(多选)在Meta分析中,导致异质性的因素有A.研究设计差异 B.人群特征差异 C.测量方法差异 D.样本量差异 E.发表偏倚答案:A,B,C解析:样本量差异影响权重但非异质性来源;发表偏倚影响选择性而非异质性本身。28.(多选)下列可用于处理高维共线性的有A.主成分回归 B.偏最小二乘 C.逐步回归 D.岭回归 E.增加样本量答案:A,B,C,D解析:增加样本量不能降低共线性程度。29.(多选)关于ROC曲线,以下正确的是A.AUC=0.5表示无判别力 B.曲线越靠近左上角性能越好 C.可处理成本敏感学习 D.可处理多分类 E.可推导最优阈值答案:A,B,E解析:ROC默认0-1成本矩阵;多分类需宏平均或微平均。30.(多选)在调查问卷设计中,避免记忆偏差可采取A.使用辅助记录 B.缩短回忆期 C.采用认知访谈 D.增加激励 E.使用开放式问题答案:A,B,C解析:激励与开放题型不直接解决记忆偏差。31.(填空)若X~N(0,1),Y~N(0,1)且独立,则Z=X/Y服从________分布,其密度在z=0处取值为________。答案:标准Cauchy,1/π解析:独立标准正态比值服从Cauchy(0,1),密度f(z)=1/(π(1+z²)),f(0)=1/π。32.(填空)在R语言中,使用apply族函数对数据框df按行计算均值,且忽略NA,代码为________。答案:rowMeans(df,na.rm=TRUE)33.(填空)对ARMA(p,q)模型,其可逆性要求________多项式的根在单位圆外。答案:MA34.(填空)在贝叶斯模型选择中,若比较模型M1与M2,后验概率比称为________因子。答案:Bayes35.(填空)若随机变量T服从Weibull(λ,κ),则其风险函数h(t)=________。答案:λκ(λt)^(κ–1)36.(填空)在SQL的HAVING子句中可使用窗口函数________进行过滤。答案:无,HAVING不支持窗口函数,需用子查询。37.(填空)对二分类逻辑回归,若使用Firth校正,其目的是减少________偏差。答案:有限样本或分离38.(填空)在控制图监测方差时,若质量特性服从正态,通常使用________图。答案:R或S或S²39.(填空)对高维协方差矩阵估计,Ledoit-Wolf估计量是样本协方差与________矩阵的线性收缩。答案:恒等或单位40.(填空)在生存分析中,若采用Cox模型,比例风险假定的检验方法常用________残差。答案:Schoenfeld41.(计算)某工厂生产零件长度服从N(μ,0.25²),现抽取n=9得x̄=50.3mm。求μ的95%置信区间,并检验H0:μ=50vsH1:μ≠50(α=0.05)。答案:置信区间:50.3±1.96×0.25/√9→[50.1367,50.4633]检验:z=(50.3–50)/(0.25/3)=3.6>1.96,拒绝H0,p=0.0003解析:σ已知用z检验;区间不含50,与检验结论一致。42.(计算)给定矩阵A=[[4,2],[2,3]],求特征值与特征向量,并判断二次型xᵀAx是否正定。答案:特征方程det(A–λI)=λ²–7λ+8=0→λ₁=(7+√17)/2≈5.56,λ₂=(7–√17)/2≈1.44对应特征向量:v₁∝[2,√17–1]ᵀ,v₂∝[2,–√17–1]ᵀ两特征值>0,故正定。解析:顺序主子式4>0,detA=8>0,亦得正定。43.(计算)对Poisson-Gamma层次模型:Y|λ~Poisson(λ),λ~Gamma(α,β),求Y的边际分布并给出期望与方差。答案:边际为负二项NB(r=α,p=1/(1+β))E[Y]=αβ Var[Y]=αβ(1+β)解析:通过积分消去λ,利用Gamma-Poisson共轭。44.(计算)设X₁,…,Xn来自U(0,θ),求θ的MLE,并计算其均方误差MSE。答案:MLE=X(n) MSE=θ²n/((n+1)²(n+2))解析:先求E[X(n)]=nθ/(n+1),Var=nθ²/((n+1)²(n+2)),MSE=Var+(Bias)²。45.(计算)对线性回归y=Xβ+ε,ε~N(0,σ²I),证明β̂=(XᵀX)⁻¹Xᵀy为β的UMVUE。答案:模型属指数族,(yᵀy,Xᵀy)为完备充分统计量,β̂为其函数且无偏,由Lehmann-Scheffé定理得UMVUE。解析:需验证指数族形式及统计量完备性。46.(计算)若随机变量X取值{–2,–1,0,1,2},概率质量函数P(X=k)=c|k|,求常数c及E[X],Var(X)。答案:ΣP=1→c(2+1+0+1+2)=1→c=1/6E[X]=0 E[X²]=Σk²P=10/6→Var=10/6=5/3解析:对称分布期望为零。47.(计算)对AR(1)xt=φxt-1+εt,|φ|<1,εt~WN(0,σ²),求自协方差函数γ(k)。答案:γ(k)=σ²φ^|k|/(1–φ²)解析:Yule-Walker方程递推。48.(计算)给定数据集{3,5,7,9,11},采用LOOCV估计线性回归y=βx的预测均方误差,求其值。答案:每次留一,得β̂(–i)=Σ_{j≠i}xjyj/Σ_{j≠i}xj²计算得五折残差平方和/5=2.4解析:利用简化公式LOOCV=Σ(ei/(1–hi))²/n,hi=x_i²/Σxj²。49.(计算)若X~Bin(100,0.2),用正态近似计算P(X≥25)并作连续性校正。答案:μ=20,σ=4P(X≥25)≈P(Z≥(24.5–20)/4)=P(Z≥1.125)=0.130解析:校正后更接近真实值0.129,误差仅0.001。50.(计算)对Gamma(α,λ)分布,求其费雪信息量I(λ)。答案:I(λ)=α/λ²解析:对数似然二阶导期望为–α/λ²,取负号。51.(综合)某电商平台欲评估新推荐算法对GMV的提升,随机抽取1000名用户,其中500名使用新算法(实验组),500名使用旧算法(对照组)。实验持续两周,记录每人两周GMV。已知实验组平均GMV=268元,对照组=250元,两组样本标准差分别为s₁=60,s₂=58。(1)检验算法是否显著提升GMV(α=0.05);(2)计算提升率的95%置信区间;(3)若最小可检测提升率为2%,求检验功效(1–β);(4)若采用配对设计(同一用户先后接受两种算法,间隔洗期),需如何调整分析方法。答案与解析:(1)两独立样本t检验:SE=√(60²+58²)/500=3.76 t=(268–250)/3.76=4.79>1.96,p<0.001,拒绝H0,显著。(2)提升率g=(268–250)/250=7.2%置信区间:g±1.96×SE(g),其中SE(g)=SE/250=0.015→[4.3%,10.1%](3)效应量Δ=2%×250=5元 合并σ≈59,n=500每组标准化效应=5/(59√(2/500))=1.34功效=Φ(1.34–1.96)=0.80(4)配对设计需用配对t检验或线性混合模型,控制用户随机效应;洗期需足够长避免遗留效应;顺序效应通过随机交叉平衡。52.(综合)某城市交通部门建立公交到站时间预测模型,数据包含线路、站点、工作日、节假日、天气、实时速度、历史平均速度、前班车距、断面流量等。(1)若到站时间右偏严重,应如何变换目标变量;(2)若变量“断面流量”存在大量零膨胀,应选用何种模型;(3)若需在线学习更新模型,推荐算法及理由;(4)如何评估模型在早晚高峰与平峰的不同表现;(5)若发现节假日模式样本极少,采用何种技术提高预测精度。答案与解析:(1)对数或Box-Cox变换,使分布近似对称并稳定方差;若含零可shiftedlog。(2)零膨胀Poisson或负二项,或Tweedie复合Poisson-Gamma,兼顾零mass与连续部分。(3)采用VowpalWabbit或在线梯度下降FTRL,支持高维稀疏、实时更新、内存高效。(4)按时段分层评估:MAPE、RMSE分早高峰、晚高峰、平峰、夜间四段;可绘制时段-误差热力图。(5)采用迁移学习:先用平日数据训练共享网络,再用少量节假日数据微调顶层;或采用域适应对抗网络,使特征分布对齐。53.(综合)国家统计队进行劳动力调查,采用分层三阶段抽样:省→县→村→户。目标量为全国失业率。(1)给出失业率估计公式及方差估计思路;(2)若部分村拒绝访问,导致无回答,如何调整权重;(3)若发现某县调查员系统性漏掉夜间工作的群体,如何纠正;(4)如何利用行政社保数据改进估计;(5)若需发布小县域失业率,如何评估可靠性并保护隐私。答案与解析:(1)估计量p̂=Σ_wh_hy_h/Σ_wh_h,其中w_h为最终权重(含设计、无回答、校准),y_h为户失业指示;方差采用泰勒线性化,考虑分层、聚类、权重。(2)无回答调整:在村层按响应概率分组,计算响应率,权重乘以逆概率;再用校准使省级辅助变量对齐。(3)采用事后分层:按工作时段分层,利用行政数据估计夜间工作人口比例,调整权重;或使用选择模型Heckman两步法。(4)建立合成估计:将调查与社保参保、个税、手机信令数据融合,使用结构误差模型,降低方差;或采用小域模型Fay-Herriot。(5)评估可靠性:计算系数变异CV,若CV>30%不发布点估计,仅给区间;隐私保护采用差分隐私或噪声注入,或发布随机rounding至0.1%级别。54.(综合)某银行构建信用卡违约预测模型,数据含5000条样本,300维特征,违约率4%。(1)数据不平衡如何处理;(2)若变量存在900个类别的高基数分类变量“商户名称”,如何编码;(3)若模型需具备可解释性,推荐算法及解释技术;(4)如何监控模型上线后的稳定性;(5)若监管要求拒贷必须给出理由,如何满足。答案与解析:(1)采用SMOTE+Tomeklink清洗,或调整类别权重scale_pos_weight=24,或使用focalloss。(2)目标编码:按商户计算违约率,加入K-fold交叉验证平滑,叠加噪声防过拟合;或采用catBoost原生处理。(3)使用GradientBoosting+SHAP值解释,提供全局与局部特征贡献;或单调约束XGBoost,保证可解释性。(4)建立PSI(群体稳定性指数)与CSI(特征稳定性指数)日报,阈值PSI>0.2触发重训;监控违约率漂移。(5)对每笔拒贷输出SHAPtop3负向特征及数值,生成自然语言模板:“因近3个月查询次数过多、负债比高于80%、收入稳定性低,综合评分不足。”满足监管可解释要求。55.(综合)某医学研究比较两种手术方式对术后疼痛评分(VAS0-10)的影响,采用随机对照试验,n=60每组。基线疼痛评分、年龄、性别、BMI为协变量。(1)若疼痛评分不服从正态,应选用何种统计模型;(2)若存在中心效应,如何纳入分析;(3)若部分患者术后失访,如何处理缺失数据;(4)如何报告结果以符合CONSORT规范;(5)若需考虑最小临床重要差异MCID=1.5分,如何计算样本量。答案与解析:(1)采用序次logistic或beta回归,或稳健线性模型rlm;若零膨胀加Tobit。(2)使用线性混合模型,随机intercept或slope按中心分组;或纳入固定效应中心哑变量。(3)缺失机制假设MAR,采用多重插补m=50,合并规则Rubin;敏感性分析假设MNAR用模式混合模型。(4)流程图报告招募、随机、随访、分析人数;表格列出基线、主要结局、效应值、95%CI、P值;附CONSORT清单。(5)效应量Δ=1.5,σ=2.5(文献),双侧α=0.05,power=0.8,n=2×(1.96+0.84)²×2.5²/1.5²≈44,考虑20%失访,每组需55例,取60例。56.(综合)某市统计局欲利用夜间灯光遥感数据估计季度GDP,建立县级模型。(1)如何对齐灯光与行政区划边界;(2)灯光数据存在饱和与溢出效应,如何校正;(3)若建立面板模型,如何考虑空间相关;(4)如何验证模型预测精度;(5)若发布县级GDP,需遵循哪些统计法规。答案与解析:(1)使用GoogleEarthEngine栅格统计,按县级矢量边界求平均灯光强度;投影统一至Albers等积。(2)饱和:采用DMSP-OLS数据非线性校正系数,或改用VIIRS;溢出:对邻县灯光加权,建立空间误差模型校正。(3)采用空间面板Durbin模型,引入Wy与时间滞后项;或用SAR-GMM估计。(4)留一县交叉验证,指标RMSE、MAPE;与经济普查真值比对,误差<5%为合格。(5)遵循《统计法》《政府信息公开条例》,涉密数据需脱敏,发布前经上级统计机构核定,注明“初步核算”与修订规则。57.(综合)某在线教育机构分析用户完课率,数据含用户属性、行为日志、课程属性。(1)若完课率为0-1之间连续比例,应使用何种回归;(2)若用户行为序列长达千条,如何提取特征;(3)若需实时预测用户是否将在5分钟内退出,如何设计系统;(4)如何评估模型对冷启动用户的预测;(5)若业务方要求可解释,如何呈现模型结果。答案与解析:(1)beta回归,或零一膨胀beta,处理0与1堆积。(2)采用LSTM最后一层输出,或注意力池化;或统计特征:日均学习时长、峰值、方差、最后三天衰减率。(3)构建Kafka流,窗口30s聚合特征,调用Flink-ML在线推理,输出概率;阈值0.7触发弹窗干预。(4)冷启动按注册信息聚类,用相似用户迁移;或bandit算法探索利用。(5)输出特征重要性条形图,对高风险用户给出top3原因:“最近3天未打卡、昨日学习时长<5min、作业提交延迟>2天”,并附SHAP值。58.(综合)某气象站建立日降水量预测模型,数据跨度20年,含气压、湿度、温度、风速、NDVI

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论