统计学基础知识考核试题题库及答案_第1页
统计学基础知识考核试题题库及答案_第2页
统计学基础知识考核试题题库及答案_第3页
统计学基础知识考核试题题库及答案_第4页
统计学基础知识考核试题题库及答案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学基础知识考核试题题库及答案1.单选题1.1某校抽样调查120名学生的每日手机使用时间,得到平均值为4.3小时,标准差为1.2小时。若将原始数据全部乘以0.5后再同时减去0.8小时,则新样本的均值与标准差分别为A.1.35h,0.6hB.2.15h,0.6hC.1.35h,1.2hD.2.15h,1.2h答案:A解析:线性变换y=ax+b的均值μ_y=aμ_x+b,标准差σ_y=|a|σ_x。此处a=0.5,b=–0.8,故μ_y=0.5×4.3–0.8=1.35h,σ_y=0.5×1.2=0.6h。1.2设随机变量X服从参数λ=3的泊松分布,则P(X=2)等于A.9e⁻³/2B.3e⁻³C.e⁻³D.4.5e⁻³答案:A解析:泊松概率质量函数P(X=k)=λ^ke^{-λ}/k!,代入k=2得3²e^{-3}/2!=9e^{-3}/2。1.3在简单随机抽样中,样本容量n增大时,样本均值的抽样分布A.偏度绝对值增大B.峰度绝对值增大C.标准误减小D.方差增大答案:C解析:样本均值的标准误为σ/√n,n增大则标准误减小,分布更集中于总体均值附近。1.4对同一总体进行两次独立抽样,容量分别为10与40,测得样本方差分别为s₁²与s₂²,则A.s₁²一定是s₂²的无偏估计B.s₂²的抽样波动小于s₁²C.两者均值为总体方差的无偏估计D.两者合并方差一定大于s₁²答案:B解析:样本方差作为统计量本身具有随机性,容量越大其抽样分布越集中,波动越小;合并方差需加权,未必大于s₁²;无偏性针对期望而非单次观测。1.5在线性回归模型y=β₀+β₁x+ε中,若ε~N(0,σ²)且满足高斯-马尔可夫假定,则β₁的最小二乘估计量β̂₁的抽样分布为A.t分布,自由度n–2B.正态,均值为β₁,方差σ²/SxxC.正态,均值为β₁,方差σ²/nD.卡方,自由度n–2答案:B解析:β̂₁是y的线性组合,y正态则β̂₁正态;其方差为σ²/Sxx,其中Sxx=Σ(xi–x̄)²。1.6设X~N(μ,9),抽取n=16的样本,检验H₀:μ=50vsH₁:μ≠50,显著性水平α=0.05,临界值为A.±1.645B.±1.96C.±2.12D.±2.58答案:B解析:σ已知,使用Z检验,双侧0.05对应±1.96。1.7在列联表χ²独立性检验中,若期望频数小于5的单元格比例超过20%,应优先A.增大样本量B.使用Fisher精确检验C.合并相邻行或列D.直接报告χ²值答案:C解析:合并可提升期望频数,保持检验近似有效;若结构不允许合并,再考虑Fisher或增大样本。1.8对时间序列做一阶差分后,序列的自相关函数迅速衰减至0,说明原序列A.存在线性趋势B.为白噪声C.为平稳序列D.存在季节波动答案:A解析:差分可消除趋势,差分后接近白噪声则原序列含趋势成分。1.9若随机变量X的矩母函数M_X(t)=(1–2t)^{-4},t<1/2,则X的方差为A.8B.16C.32D.4答案:C解析:此为Gamma分布矩母函数,形状k=4,尺度θ=2,方差kθ²=4×4=32。1.10Bootstrap置信区间的“百分位法”直接采用A.样本统计量的标准误B.重抽样统计量的α/2与1–α/2经验分位数C.t分布临界值D.正态近似答案:B解析:百分位法以bootstrap分布的相应分位数作为区间端点,无需正态或t假设。2.多选题2.1下列关于中心极限定理的描述正确的有A.要求总体必须正态B.样本均值分布随n增大趋于正态C.总体方差有限是充分条件之一D.适用于样本比例E.要求样本独立同分布答案:BCDE解析:中心极限定理不要求总体正态,但需iid、有限方差;样本比例可看作均值特例。2.2在多元线性回归中,多重共线性可能导致A.参数估计方差膨胀B.t检验显著但模型整体F检验不显著C.回归系数符号与理论相反D.残差平方和急剧下降E.VIF值大于10答案:ACE解析:共线性使信息重叠,方差增大、符号反转、VIF升高;F检验仍可能显著;残差平方和不会因此急剧下降。2.3下列属于非参数检验方法的有A.Mann-WhitneyU检验B.Kruskal-Wallis检验C.Wilcoxon符号秩检验D.符号检验E.Durbin-Watson检验答案:ABCD解析:Durbin-Watson用于检验自相关,属回归诊断,非非参数检验。2.4关于贝叶斯估计,正确的有A.后验分布∝似然×先验B.损失函数为平方误差时,后验均值是Bayes估计C.随着样本量增加,先验影响减弱D.必须采用无信息先验E.可信区间频率学派意义下的覆盖概率等于置信水平答案:ABC解析:D错,可采用有信息先验;E错,可信区间与置信区间哲学不同,覆盖概率不保证等于名义水平。2.5下列指标可用于衡量分类模型性能的有A.ROC曲线下面积AUCB.F1分数C.对数损失D.平均绝对误差MAEE.马修斯相关系数MCC答案:ABCE解析:MAE用于回归,余者均可评估分类性能。3.判断题3.1若两变量相关系数r=0,则它们一定独立。答案:错误解析:r=0仅表示无线性相关,非线性关系可能存在,独立性更强。3.2在假设检验中,p值越大,拒绝原假设的证据越强。答案:错误解析:p值越小证据越强;p值大表明数据与原假设兼容。3.3对右偏总体,样本均值的抽样分布随n增大趋于对称。答案:正确解析:中心极限定理保证均值的抽样分布趋近正态,对称性增强。3.4若回归模型出现异方差,则最小二乘估计量不再无偏。答案:错误解析:异方差下OLS仍无偏,但不再有效,标准误需修正。3.5在ARIMA(0,1,1)模型中,一阶差分后序列服从MA(1)。答案:正确解析:ARIMA(0,1,1)即对原序列差分后得到MA(1)。4.填空题4.1设X~B(n=50,p=0.2),用正态近似计算P(X≤10)时,连续性校正后的标准化统计量为______。答案:Z=(10.5–50×0.2)/√(50×0.2×0.8)=0.5/√8≈0.177解析:均值np=10,方差np(1–p)=8;连续性校正加0.5。4.2在单因素方差分析中,组间均方MSB=120,组内均方MSE=30,因素有4个水平,每水平样本量8,则F统计量为______。答案:120/30=4解析:F=MSB/MSE。4.3若随机变量X的密度函数f(x)=2x,0≤x≤1,则E(X)=______。答案:∫₀¹x·2xdx=2/3解析:直接求期望积分。4.4对某总体做无放回抽样,总体容量N=500,样本量n=50,总体比例p=0.1,则样本比例的标准误为______。答案:√[0.1×0.9/50×(500–50)/(500–1)]≈0.0387解析:有限总体修正因子√[(N–n)/(N–1)]。4.5在线性回归中,决定系数R²=0.81,则因变量的变异中被模型解释的比例为______%。答案:81解析:R²即解释比例。5.计算题5.1某生产线袋装食品标称质量500g。随机抽取25袋测得平均495g,样本标准差10g。假设质量服从正态分布,检验是否显著低于标称值(α=0.05)。答案:H₀:μ=500,H₁:μ<500t=(495–500)/(10/√25)=–2.5自由度24,单侧临界值–1.711–2.5<–1.711,拒绝H₀,认为平均质量显著低于500g。解析:总体标准差未知,用单样本t检验。5.2为比较两种化肥对小麦产量的影响,随机区组设计,8个地块分别施用A、B两种肥料,得产量差值d(kg):4.5,3.2,–1.0,0.8,2.7,5.1,1.9,3.6。检验两种肥料是否显著差异(α=0.05)。答案:差值均值d̄=2.6,差值标准差s_d≈1.96t=2.6/(1.96/√8)≈3.75,自由度7,双侧临界±2.365|3.75|>2.365,拒绝H₀,认为两种肥料产量差异显著。解析:配对t检验。5.3设X~N(μ,16),欲使μ的95%置信区间宽度不超过2,求最小样本量。答案:宽度=2×z_{0.025}×σ/√n≤22×1.96×4/√n≤2⇒√n≥7.84⇒n≥61.47取整62。解析:宽度公式直接反解。5.4某电商网站点击转化率历史值3%,现改版后1000次点击转化40次,检验是否显著提高(α=0.05)。答案:H₀:p=0.03,H₁:p>0.03Z=(0.04–0.03)/√(0.03×0.97/1000)≈1.84单侧临界1.645,1.84>1.645,拒绝H₀,认为转化率显著提高。解析:大样本正态近似。5.5已知随机变量X的密度f(x)=θx^{θ–1},0<x<1,θ>0。基于样本x₁,…,xₙ,求θ的极大似然估计。答案:似然L=∏θx_i^{θ–1}=θⁿ(∏x_i)^{θ–1}对数似然lnL=nlnθ+(θ–1)Σlnx_i求导d/dθ=n/θ+Σlnx_i=0⇒θ̂=–n/Σlnx_i解析:常规MLE推导。6.综合应用题6.1某城市地铁公司记录14个工作日早高峰乘车人数(万人):28.3,27.9,29.1,28.7,29.8,30.2,29.5,28.9,29.0,29.3,28.6,29.4,30.0,29.7。(1)计算均值、标准差及中位数;(2)使用Shapiro-Wilk检验正态性(α=0.05),给出结论;(3)若正态,求平均乘车人数95%置信区间;(4)预测下一个工作日乘车人数90%预测区间。答案:(1)x̄≈29.25,s≈0.684,中位数29.25(2)软件得W=0.974,p值=0.91>0.05,不拒绝正态假设(3)置信区间:29.25±t_{0.025,13}×0.684/√14=29.25±0.39→(28.86,29.64)(4)预测区间:29.25±t_{0.05,13}×s√(1+1/14)=29.25±1.23→(28.02,30.48)解析:依次使用描述统计、正态检验、均值的置信区间及新观测的预测区间公式。6.2研究人员建立Logistic回归预测客户违约,变量:x₁为月收入(千元),x₂为历史逾期次数,x₃为是否拥有房产(1是0否)。拟合得:logit(p)=–3.2+0.02x₁+0.45x₂–0.8x₃(1)解释x₃系数含义;(2)某客户月收入12k,逾期2次,无房产,求违约概率;(3)计算x₂的边际效应(保持其余变量均值);(4)若样本量1000,违约100人,求模型基线准确率与最大可能准确率。答案:(1)在收入与逾期次数相同情况下,拥有房产者违约对数优势降低0.8,优势比为e^{-0.8}≈0.45,即风险降低55%(2)logit=–3.2+0.02×12+0.45×2–0=–2.06,p=1/(1+e^{2.06})≈0.113(3)边际效应=β₂·p(1–p)≈0.45×0.113×0.887≈0.045,即逾期次数增加1,违约概率上升约4.5个百分点(4)基线准确率=max(违约率,1–违约率)=90%;最大可能准确率为100%解析:Logistic系数解释、概率转换、边际效应公式及基线定义。6.3某工厂质检抽取10批零件,每批50件,记录不合格数:2,3,1,4,2,5,3,2,1,3。(1)构建p控制图,计算中心线与上下控制限;(2)有点出界吗?(3)若过程稳定,估计过程平均不合格率;(4)若要求不合格率不超过2%,需至少抽检多少件,才能以90%把握发现真实不合格率升至5%?答案:(1)总不合格26,总抽检500,平均不合格率p̄=0.052UCL=p̄+3√[p̄(1–p̄)/50]=0.052+0.094=0.146LCL=0.052–0.094=–0.042→取0(2)各点不合格率:0.04,0.06,0.02,0.08,0.04,0.10,0.06,0.04,0.02,0.06,均在0–0.146内,无出界(3)过程平均不合格率估计5.2%(4)单样本比例检验,H₁:p=0.05,H₀:p=0.02,单侧Z_{0.9}=1.28n≥[1.28√(0.02×0.98)+1.28√(0.05×0.95)]²/(0.05–0.02)²≈203解析:控制图公式、稳定性判断及样本量计算。6.4为研究温度对化学反应产率的影响,实验设置5个温度梯度,每个温度重复4次,得方差分析表:来源SSdfMSF温度480412015误差60154总计54019(1)完成上表;(2)温度效应是否显著(α=0.01)?(3)计算温度解释的变异比例;(4)若第3温度组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论