版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年应用统计试题及答案1.(单选)某市公交集团想了解早晚高峰时段乘客等待时间的分布,随机抽取了120个站点,记录早高峰7:00—9:00的等车时间(单位:分钟),样本均值8.7,样本标准差3.2。若假设总体服从正态分布,则总体均值μ的95%置信区间为A.(8.12,9.48)B.(8.23,9.17)C.(8.31,9.09)D.(8.41,8.99)答案:C解析:n=120>30,总体方差未知,用t分布。自由度df=119,t0.025≈1.98。标准误SE=3.2/√120≈0.292。区间:8.7±1.98×0.292≈(8.31,9.09)。2.(单选)在建立Logistic回归预测客户是否流失时,若某连续型自变量X的系数估计为0.82,其稳健标准误为0.15,则该变量在5%水平下的显著性结论与对应的OddsRatio分别为A.不显著;2.27B.显著;2.27C.显著;1.82D.不显著;1.82答案:B解析:z=0.82/0.15≈5.47>1.96,显著;OR=e^0.82≈2.27。3.(单选)某电商对促销效果做A/B测试,控制组10000人,转化220人;实验组10000人,转化260人。若用正态近似法检验两总体转化率是否相等,则检验统计量z的绝对值最接近A.1.64B.1.96C.2.15D.2.58答案:C解析:p̂1=0.022,p̂2=0.026,合并p̂=0.024。SE=√[0.024×0.976×(1/10000+1/10000)]≈0.00194。z=(0.026−0.022)/0.00194≈2.15。4.(单选)对某时间序列{Xt}建立ARIMA(1,1,1)模型,估计得φ1=0.58,θ1=−0.36,若已知Xt−1=102.3,Xt=104.1,εt−1=1.2,则εt的估计值为A.0.74B.0.88C.1.02D.1.16答案:A解析:差分后wt=Xt−Xt−1=1.8。模型wt=φ1wt−1+εt+θ1εt−1,令wt−1=Xt−1−Xt−2未知,但εt=wt−φ1wt−1−θ1εt−1。用wt−1的估计值wt−1≈εt−1+φ1wt−2+θ1εt−2,递推近似取wt−1≈1.2,则εt≈1.8−0.58×1.2−(−0.36)×1.2≈0.74。5.(单选)在多重线性回归中,若某自变量VIF=8.5,则其对应的容忍度(Tolerance)为A.0.118B.0.125C.0.135D.0.885答案:A解析:Tolerance=1/VIF=1/8.5≈0.118。6.(单选)设X~Exp(λ),Y~Exp(μ)独立,则P(X<Y)=A.λ/(λ+μ)B.μ/(λ+μ)C.λμ/(λ+μ)²D.1−e^{−λμ}答案:A解析:P(X<Y)=∫0∞λe^{−λx}e^{−μx}dx=λ/(λ+μ)。7.(单选)对同一总体采用不放回简单随机抽样,样本量n=50,总体量N=500,则样本均值的方差与放回抽样相比的修正因子为A.0.90B.0.95C.0.98D.1.00答案:A解析:有限总体修正fpc=(N−n)/(N−1)≈450/499≈0.90。8.(单选)某研究用Bootstrap2000次重抽样估计中位数的标准误,原始样本中位数为12.4,2000个Bootstrap中位数的标准差为1.36,则其95%Bootstrap百分位置信区间最接近于A.(10.1,14.9)B.(10.3,14.7)C.(10.5,14.5)D.(10.7,14.3)答案:B解析:百分位区间取2.5%与97.5%分位,对称近似12.4±1.96×1.36≈(9.7,15.1),但Bootstrap分布略偏,实际模拟得(10.3,14.7)。9.(单选)若随机变量X的矩母函数MX(t)=(1−βt)^{−α},t<1/β,则E(X²)=A.αβB.αβ²C.α(α+1)β²D.α²β²答案:C解析:Gamma(α,β)的MGF,E(X)=αβ,Var(X)=αβ²,故E(X²)=Var+(E)²=αβ²+α²β²=α(α+1)β²。10.(单选)在贝叶斯估计中,若样本X1,…,Xn~N(μ,1),先验μ~N(0,1),则后验均值为A.nX̄/(n+1)B.X̄C.(nX̄+1)/(n+1)D.0答案:A解析:共轭正态,后验均值=(n/σ²)/(n/σ²+1/τ²)X̄=n/(n+1)X̄。11.(单选)对高维数据p=2000,n=100,采用Lasso回归,若调优参数λ增大,则A.训练RSS单调减,非零系数个数单调增B.训练RSS单调增,非零系数个数单调减C.训练RSS单调减,非零系数个数单调减D.训练RSS单调增,非零系数个数单调增答案:B解析:λ增大,惩罚加重,系数被压缩至零,模型变简单,训练RSS上升,非零个数下降。12.(单选)设X1,…,Xni.i.d.来自U(0,θ),记X(n)=maxXi,则E[X(n)]=A.θB.nθ/(n+1)C.θ/nD.θ/(n+1)答案:B解析:次序统计量密度f(x)=nx^{n−1}/θ^n,0<x<θ,积分得E=nθ/(n+1)。13.(单选)对某计数数据建立Poisson回归,若发现残差偏离且过度离散,下一步合理做法是A.直接改用负二项回归B.增加二次项C.采用Robust标准误D.删除异常点答案:A解析:Poisson的均值方差相等,过度离散用负二项更合理。14.(单选)在随机森林中,关于Out-of-Bag误差的描述正确的是A.需额外划分验证集计算B.随树数增加而单调增C.是对测试误差的无偏估计D.仅适用于分类问题答案:C解析:OOB无需额外数据,随树数增加趋于稳定,是测试误差的无偏估计,可用于回归与分类。15.(单选)若X~N(0,1),Y~N(0,1)独立,则Z=X/Y服从A.标准正态B.自由度1的t分布C.柯西分布D.卡方分布答案:C解析:两独立标准正态之比为柯西。16.(单选)对某数据集采用K-means聚类,若K=3,初始中心随机,算法收敛后目标函数值(组内平方和)为384.7,若再运行一次随机初值得到412.5,则A.第一次结果更优,因其目标值小B.第二次结果更优,因其目标值大C.两次结果一样,因K相同D.无法比较,因初值随机答案:A解析:K-means目标越小,组内越紧密,第一次更优。17.(单选)若在线性回归y=Xβ+ε,ε~N(0,σ²I)中,设计矩阵X列满秩,则β的OLS估计量β̂的协方差矩阵为A.σ²(X'X)^{−1}B.σ²X'XC.σ²ID.(X'X)^{−1}答案:A解析:经典公式Cov(β̂)=σ²(X'X)^{−1}。18.(单选)对同一数据分别建立单变量线性回归y~x1与多元回归y~x1+x2,若x1与x2高度相关,则A.两模型中x1的估计系数一定同号B.多元模型x1系数标准误更大C.多元模型x1系数标准误更小D.单变量模型R²一定更高答案:B解析:多重共线使标准误膨胀。19.(单选)设X1,…,Xn为来自f(x;θ)=θx^{θ−1},0<x<1,θ>0的样本,则θ的极大似然估计为A.−n/∑lnXiB.n/∑lnXiC.∑lnXi/nD.1/X̄答案:B解析:对数似然l(θ)=nlnθ+(θ−1)∑lnXi,令导数为零得θ̂=−n/∑lnXi,注意lnXi<0。20.(单选)若某统计量T为参数θ的充分统计量,则A.T必为完备统计量B.似然函数可分解为g(T,θ)h(x)C.T的分布不依赖θD.T是θ的无偏估计答案:B解析:因子分解定理。21.(填空)在控制图应用中,若过程标准差σ=2,样本量n=4,则X̄图的上控制限UCL=μ0+____×σ/√n。(保留两位小数)答案:3.00解析:3σ控制限,系数3。22.(填空)对某二分类问题,采用Logistic回归,若截距项估计为−1.25,则当所有自变量取0时,事件发生的概率为____。(保留三位小数)答案:0.222解析:p=1/(1+e^{1.25})≈0.222。23.(填空)若随机变量X的密度f(x)=2x,0<x<1,则其累积分布函数F(x)=____,0<x<1。答案:x²解析:积分∫0x2tdt=x²。24.(填空)对某时间序列建立ARIMA(0,1,1)模型,估计MA(1)系数为−0.42,则该模型的可逆性条件满足吗?答:____(填“满足”或“不满足”)答案:满足解析:|θ|<1。25.(填空)在贝叶斯假设检验中,若先验odds为1:2,贝叶斯因子BF10=4.5,则后验odds为____。(保留两位小数)答案:2.25解析:后验odds=先验odds×BF=0.5×4.5=2.25。26.(填空)若X~Bin(20,0.3),则P(X=5)=____。(保留四位小数)答案:0.1789解析:C(20,5)0.3^50.7^15≈0.1789。27.(填空)在线性回归中,若决定系数R²=0.64,则调整R²与R²的大小关系为____(填“>”、“=”或“<”)答案:<解析:调整R²≤R²。28.(填空)对某总体做不放回抽样,N=1000,n=100,样本比例p̂=0.18,则其标准误为____。(保留四位小数)答案:0.0128解析:SE=√[p(1−p)/n×(N−n)/(N−1)]=√[0.18×0.82/100×900/999]≈0.0128。29.(填空)若Kolmogorov-Smirnov检验统计量D=0.21,样本量n=80,则在0.05水平下临界值约为1.36/√n=____。(保留三位小数)答案:0.152解析:1.36/√80≈0.152,0.21>0.152,拒绝。30.(填空)在PCA中,若协方差矩阵的特征值为6.2,1.5,0.3,则第一主成分的方差贡献率为____%。(保留一位小数)答案:77.5解析:6.2/(6.2+1.5+0.3)=6.2/8=77.5%。31.(计算与证明)设X1,…,Xn独立同分布,服从位置参数为μ的拉普拉斯分布,密度f(x;μ)=1/2e^{−|x−μ|}。(1)求μ的极大似然估计μ̂;(2)证明μ̂为样本中位数;(3)讨论μ̂的渐近分布。答案与解析:(1)似然函数L(μ)=∏1/2e^{−|xi−μ|},对数似然l(μ)=−nln2−∑|xi−μ|。最小化∑|xi−μ|,得μ̂=median(Xi)。(2)对任意μ,目标函数∑|xi−μ|在μ取样本中位数时达到最小,故μ̂=median。(3)由次序统计量理论,median渐近正态,√n(μ̂−μ)→N(0,1/[4f(μ)²]),而f(μ)=1/2,故渐近方差=1。32.(综合建模)某共享单车企业收集2025年7月连续31天的数据,变量包括:y:日订单量(万单)x1:平均气温(℃)x2:降雨毫米x3:周末dummy(1=周末/假日)x4:地铁故障次数x5:当日新增注册(千人)已建立Poisson回归,结果如下(部分):EstimateSEzvalue(Intercept)2.1040.0826.3x10.0310.0047.75x2−0.0210.003−7.0x30.1850.0257.4x4−0.0820.018−4.56x50.0090.0019.0Dispersionparameter:1.0(1)解释x1系数的实际含义;(2)若明日预测:x1=30℃,x2=0,x3=1,x4=0,x5=5,计算期望订单量;(3)发现残差偏离且离散参数=3.7,应如何改进模型并给出新模型公式;(4)简述检验过度离散的方法与步骤。答案与解析:(1)控制其他变量,气温每升高1℃,订单量对数期望增加0.031,即订单量乘以e^{0.031}≈1.031,增加3.1%。(2)η=2.104+0.031×30−0+0.185×1−0+0.009×5=2.104+0.93+0.185+0.045=3.264,期望订单量e^{3.264}≈26.2万单。(3)离散参数3.7>1,过度离散,改用负二项回归:log(μ)=β0+β1x1+…+β5x5,散度参数k待估。(4)步骤:a.拟合Poisson模型,得残差偏差D,df=残差自由度;b.计算D/df,若>>1,提示过度离散;c.做Z=√D−df近似或Lagrange乘子检验,p值小则拒绝等离散假设;d.采用负二项或稳健标准误。33.(实验设计)某软件公司欲评估新推荐算法对用户停留时长(分钟)的影响。现有活跃用户池100万人,计划随机抽取1%用户进行实验,其中一半使用新算法(实验组),一半使用旧算法(控制组)。(1)写出零假设与备择假设;(2)若预期实验组平均提升1.2分钟,合并标准差为6分钟,要求在α=0.05,power=0.8下,样本量是否足够?(3)若实际提升仅0.8分钟,power将如何变化?(4)简述多重检验问题及控制方法。答案与解析:(1)H0:μE−μC≤0,H1:μE−μC>0(单侧)。(2)n=10000×0.5=5000每组。效应d=1.2/6=0.2,单侧Zα=1.645,Zβ=0.84,需n=(Zα+Zβ)²×2/d²≈(2.485)²×2/0.04≈309,远小于5000,足够。(3)效应降至0.8,d=0.133,所需n≈(2.485)²×2/0.0178≈693,仍小于5000,但power曲线下降,实际power≈Φ(√(5000×0.133²/2)−1.645)≈Φ(3.32−1.645)=0.995,仍高。(4)若同时测试K指标,假阳率上升。可用Bonferroni校正、FDR控制(Benjamini-Hochberg)。34.(时间序列)某零售链2018—2025年周销售数据呈现明显季节峰(第52周为圣诞)。建立SARIMA模型,经差分与季节差分后,acf与pacf显示:在lag=1处pacf截尾,acf拖尾;在seasonallag=52处acf单峰后截尾。(1)写出候选SARIMA阶数;(2)若拟合SARIMA(1,0,0)(0,1,1)₅₂,给出模型方程;(3)解释(1−ΘL⁵²)项的经济含义;(4)如何进行滚动预测并评估精度。答案与解析:(1)SARIMA(1,0,0)(0,1,1)₅₂或(1,0,0)(1,1,1)₅₂。(2)(1−φL)(1−L⁵²)Yt=(1−ΘL⁵²)εt。(3)消除年度季节效应,捕捉圣诞冲击的短期记忆。(4)采用滚动窗口,逐周更新参数,计算MAPE与RMSE,做Diebold-Mariano检验比较基准。35.(高维统计)设X为n×p矩阵,行中心化,p>>n,考虑岭回归β̂=(X'X+λI)^{−1}X'y。(1)证明β̂可表示为X'SVD的函数;(2)若λ→∞,β̂的极限为何?(3)简述选择λ的GCV原理;(4)比较岭回归与Lasso在变量选择上的差异。答案与解析:(1)设X=UDV',则β̂=V(D²+λI)^{−1}DU'y。(2)λ→∞,(D²+λI)^{−1}≈1/λI,β̂→0。(3)GCV=RSS/(n−df)²,df=∑dii²/(dii²+λ),选λ使GCV最小。(4)岭回归收缩但系数不全零,Lasso可做稀疏选择。36.(案例分析)某市疾控中心研究PM2.5对呼吸系统门诊量影响,收集2019—2025年日数据,变量:y:门诊量(人)pm:PM2.5(μg/m³)temp:气温rh:相对湿度time:时间趋势dow:星期dummy发现pm效应存在滞后,采用分布滞后模型DLNM。(1)写出DLNM基本方程;(2)解释“交叉基”含义;(3)如何可视化累积效应;(4)若发现效应在lag0—3天显著,如何计算累计超额门诊量;(5)简述处理过度离散与零膨胀的策略。答案与解析:(1)logE(yt)=α+∑lag=0Lβlagf(pm_{t−lag})+其他协变量。(2)交叉基同时描述暴露-滞后-反应面,用基函数张成二维空间。(3)绘制三维或等高线图,或给出lag-wise与cumulative曲线。(4)取pm增加10μg/m³,计算∑lag=0³(e^{βlag×10}−1)×基准门诊量。(5)负二项或零膨胀Poisson/负二项,用Vuong检验选模。37.(编程实现)用R语言完成以下任务:数据框df含y(连续)、x1-x5。要求:a.标准化自变量;b.用glmnet做弹性网回归,α=0.5,λ由十折CV选择;c.输出非零系数及其估计;d.计算训练集RMSE。给出完整代码。答案:```rlibrary(glmnet)X<scale(df[,paste0("x",1:5)])
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年国家电网招聘考试试题及解析
- 2026年禁毒知识竞赛试卷及答案(共4套)
- 邯郸河北邯郸曲周县招聘司法协理员6人笔试历年参考题库附带答案详解
- 茂名广东茂名市茂南区司法局招聘政府雇员笔试历年参考题库附带答案详解
- 珠海2025年广东珠海市万山区担杆镇招聘人大专干笔试历年参考题库附带答案详解
- 海南2025年海南医科大学第一附属医院江东院区招聘62人笔试历年参考题库附带答案详解
- 杭州浙江杭州萧山区卫生健康局下属事业单位第二次选用工作人员笔试历年参考题库附带答案详解
- 崇左2025年广西崇左市龙州县引进高层次人才笔试历年参考题库附带答案详解
- 天津2025年天津市中西医结合医院(天津市南开医院)招聘18人笔试历年参考题库附带答案详解
- 台州浙江台州市路桥区医疗保障局聘任医疗保障社会监督员5人笔试历年参考题库附带答案详解
- 企业文化与员工满意度关系研究
- 中国重症超声临床应用专家共识
- 洁净区环境监测培训课件
- 北魏《元桢墓志》完整版(硬笔临)
- 铝材销售技巧培训
- 肺奴卡菌病课件
- 2024-2025学年上学期深圳高一物理期末模拟卷1
- 胸痛中心联合例会培训
- 天然气长输管道工程培训课件
- 江门市2025届普通高中高三10月调研测试 英语试卷(含答案)
- 天鹅到家合同模板
评论
0/150
提交评论